爬取大学排名和NBA球星数据并进行多维度可视化

opexcel 模块地址：https://blog.csdn.net/wei_zhen_dong/article/details/105318970

import requests
from lxml import etree
from opdata.opexcel import Operatingexcel
import pyecharts.options as opts
from pyecharts.charts import Radar
def use_requsert_dome():url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"}response = requests.get(url,headers)if response.status_code == 200:# 编码解码html = response.text.encode('iso-8859-1').decode('utf-8')return htmlelse:return None
def text_to_dic(text):dict = {}html = etree.HTML(text)pags = html.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/table/tbody')for i in pags:id = i.xpath('//tr/td[1]/text()')name = i.xpath('//tr/td[2]/div/text()')province = i.xpath('//tr/td[3]/text()')# 总分score = i.xpath('//tr/td[4]/text()')#生源质量quality = i.xpath('//tr/td[5]/text()')# 培养结果employment = i.xpath('//tr/td[6]/text()')# 科研规模srs = i.xpath('//tr/td[7]/text()')# 科研质量fwci = i.xpath('//tr/td[8]/text()')# 顶尖成果topresults = i.xpath('//tr/td[9]/text()')# 顶尖人才elite = i.xpath('//tr/td[10]/text()')# 经费expenditure = i.xpath('//tr/td[11]/text()')# 成果转化at = i.xpath('//tr/td[12]/text()')dict["id"]=iddict["name"] = namedict["province"] = provincedict["score"] = scoredict["quality"] = qualitydict["employment"] = employmentdict["srs"] = srsdict["fwci"] = fwcidict["topresults"] = topresultsdict["elite"] = elitedict["expenditure"] = expendituredict["at"] = atreturn dictdef draw(arr,value,valuemax,name):radar=Radar(init_opts=opts.InitOpts(width="1280px", height="720px", bg_color="#CCCCCC"))v_max=[list(z)for z in zip(arr,valuemax)]radar.add_schema(schema=[opts.RadarIndicatorItem(name=k, max_=v)for k,v in v_max],splitarea_opt=opts.SplitAreaOpts(is_show=True, areastyle_opts=opts.AreaStyleOpts(opacity=1)),textstyle_opts=opts.TextStyleOpts(color="#fff"),)radar.add(series_name=name,data=value,linestyle_opts=opts.LineStyleOpts(color="#CD0000"),)radar.set_series_opts(label_opts=opts.LabelOpts(is_show=False))radar.set_global_opts(title_opts=opts.TitleOpts(title=name), legend_opts=opts.LegendOpts())radar.render("{0}.html".format(name))if __name__ == '__main__':text = use_requsert_dome()if text != None:dict = text_to_dic(text)arr = ["总分", "生源质量", "科研规模", " 科研质量", "顶尖成果", "经费", "成果转化"]valuemax = [100, 100,40000, 1.5,1200,1200000,1200]ol = Operatingexcel()ol.set_excel_dic(dict,"data\csdn_data.xlsx",0,0)dics = ol.get_excel_dic("data\csdn_data.xlsx","大学排名")for i in range(int(dics["id"][-1])):name = dics["name"][i]score = dics["score"][i]quality = dics["quality"][i]srs = dics["srs"][i]fwci = dics["fwci"][i]topresults = dics["topresults"][i]expenditure = dics["expenditure"][i]at = dics["at"][i]value = [[score, quality, srs, fwci, topresults,expenditure,at]]draw(arr, value, valuemax, name)

数据为2016年的又点老旧，不过也就是为了练习
清华大学：

齐齐哈尔大学：

北京大学：

这里放一个NBA球星数据，有兴趣的也可以做一个球星的能力纬度分析
爬取虎扑体育NBA球星数据：

import requests
from lxml import etree
from opdata.opexcel import Operatingexcel# 小例子，获取虎扑体育NBA球星数据
def use_requsert_dome():url = 'https://nba.hupu.com/stats/players'headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"}response = requests.get(url,headers)if response.status_code == 200:return response.textelse:return None
def text_to_dic(text):dict = {}html = etree.HTML(text)pags = html.xpath('//*[@id="data_js"]/div[4]/div/table/tbody')for i in pags:name = i.xpath('//tr/td[2]/a/text()')team = i.xpath('//tr/td[3]/a/text()')score = i.xpath('//tr/td[4]/text()')hit_shoot = i.xpath('//tr/td[5]/text()')hit_rate = i.xpath('//tr/td[6]/text()')hit_rate_3 = i.xpath('//tr/td[8]/text()')hit_rate_f = i.xpath('//tr/td[10]/text()')session = i.xpath('//tr/td[11]/text()')time = i.xpath('//tr/td[12]/text()')dict["name"]=namedict["team"] = teamdict["score"] = score[1:]dict["hit_shoot"] = hit_shoot[1:]dict["hit_rate"] = hit_rate[1:]dict["hit_rate_3"] = hit_rate_3[1:]dict["hit_rate_f"] = hit_rate_f[1:]dict["session"] = session[1:]dict["time"] = time[1:]return dictif __name__ == '__main__':text = use_requsert_dome()if text != None:dict = text_to_dic(text)ol = Operatingexcel()ol.set_excel_dic(dict,"data\csdn_data.xlsx",0,0)

因为比较简单，所以没有太多注释，如果有疑问也可以参考我之前的博客。

由于我的水平有限，文章中难免有不妥和错误之处，真诚的希望路过的大佬，能在评论区批评指正。

爬取大学排名和NBA球星数据并进行多维度可视化相关推荐

python爬虫爬取大学排名并存入数据库进行数据可视化
这是本人的期末大作业,题目要求如下: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/r ...
Python爬虫学习 6 —— 使用bs4库爬取大学排名
前面学了如何使用beautifulsoup,现在来尝试简单的爬取:中国大学排名一.准备查看Robots协议:robots协议功能描述输入:大学排名的url链接输出:大学排名信息(排名,大学名 ...
python实例，python网络爬虫爬取大学排名!
源代码: import requests from bs4 import BeautifulSoup import bs4def getHTMLText(url):try:r = requests.g ...
用Python爬取了《扫黑风暴》数据，并将其可视化分析后，终于知道它为什么这么火了~...
今天来跟大家分享一下从数据可视化角度看扫黑风暴~ 绪论如何查找视频id 项目结构制作词云图制作最近评论数条形图与折线图制作每小时评论条形图与折线图制作最近评论数饼图制作每小时评论饼图制作 ...
再次学习基础爬虫，爬取大学排名。
练习基础爬虫.对应的URL:http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html 分析: 先获取对应的全部代码: 查看一下获取了什么: 主函数中 ...
【Python爬虫系列教程 11-100】Python网络爬虫实战：最简单的Pandas 中的read_html一行代码爬取网页表格型数据，就可以爬取虎扑体育NBA球员信息
文章目录爬取对象分析实现代码爬取对象虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. ...
（python爬虫）新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL
新浪新闻数据爬取与清洗+新浪新闻数据管理系统设计要求新浪新闻数据爬取与清洗基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...
如何利用 C# 爬取带 Token 验证的网站数据？
在对文本数据的情感分析中,基于情感词典的方法是最简单也是最常用的一种了. 它的大体思路如下: 对文档分词,找出文档中的情感词.否定词以及程度副词,然后判断每个情感词之前是否有否定词及程度副词,将它之前 ...
PythonR爬取分析赶集网北京二手房数据（附详细代码）
本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...

爬取大学排名和NBA球星数据并进行多维度可视化

爬取大学排名和NBA球星数据并进行多维度可视化相关推荐

最新文章

热门文章