opexcel 模块地址:https://blog.csdn.net/wei_zhen_dong/article/details/105318970

import requests
from lxml import etree
from opdata.opexcel import Operatingexcel
import pyecharts.options as opts
from pyecharts.charts import Radar
def use_requsert_dome():url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"}response = requests.get(url,headers)if response.status_code == 200:# 编码解码html = response.text.encode('iso-8859-1').decode('utf-8')return htmlelse:return None
def text_to_dic(text):dict = {}html = etree.HTML(text)pags = html.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/table/tbody')for i in pags:id = i.xpath('//tr/td[1]/text()')name = i.xpath('//tr/td[2]/div/text()')province = i.xpath('//tr/td[3]/text()')# 总分score = i.xpath('//tr/td[4]/text()')#生源质量quality = i.xpath('//tr/td[5]/text()')# 培养结果employment = i.xpath('//tr/td[6]/text()')# 科研规模srs = i.xpath('//tr/td[7]/text()')# 科研质量fwci = i.xpath('//tr/td[8]/text()')# 顶尖成果topresults = i.xpath('//tr/td[9]/text()')# 顶尖人才elite = i.xpath('//tr/td[10]/text()')# 经费expenditure = i.xpath('//tr/td[11]/text()')# 成果转化at = i.xpath('//tr/td[12]/text()')dict["id"]=iddict["name"] = namedict["province"] = provincedict["score"] = scoredict["quality"] = qualitydict["employment"] = employmentdict["srs"] = srsdict["fwci"] = fwcidict["topresults"] = topresultsdict["elite"] = elitedict["expenditure"] = expendituredict["at"] = atreturn dictdef draw(arr,value,valuemax,name):radar=Radar(init_opts=opts.InitOpts(width="1280px", height="720px", bg_color="#CCCCCC"))v_max=[list(z)for z in zip(arr,valuemax)]radar.add_schema(schema=[opts.RadarIndicatorItem(name=k, max_=v)for k,v in v_max],splitarea_opt=opts.SplitAreaOpts(is_show=True, areastyle_opts=opts.AreaStyleOpts(opacity=1)),textstyle_opts=opts.TextStyleOpts(color="#fff"),)radar.add(series_name=name,data=value,linestyle_opts=opts.LineStyleOpts(color="#CD0000"),)radar.set_series_opts(label_opts=opts.LabelOpts(is_show=False))radar.set_global_opts(title_opts=opts.TitleOpts(title=name), legend_opts=opts.LegendOpts())radar.render("{0}.html".format(name))if __name__ == '__main__':text = use_requsert_dome()if text != None:dict = text_to_dic(text)arr = ["总分", "生源质量", "科研规模", " 科研质量", "顶尖成果", "经费", "成果转化"]valuemax = [100, 100,40000, 1.5,1200,1200000,1200]ol = Operatingexcel()ol.set_excel_dic(dict,"data\csdn_data.xlsx",0,0)dics = ol.get_excel_dic("data\csdn_data.xlsx","大学排名")for i in range(int(dics["id"][-1])):name = dics["name"][i]score = dics["score"][i]quality = dics["quality"][i]srs = dics["srs"][i]fwci = dics["fwci"][i]topresults = dics["topresults"][i]expenditure = dics["expenditure"][i]at = dics["at"][i]value = [[score, quality, srs, fwci, topresults,expenditure,at]]draw(arr, value, valuemax, name)

数据为2016年的又点老旧,不过也就是为了练习
清华大学:

齐齐哈尔大学:

北京大学:

这里放一个NBA球星数据,有兴趣的也可以做一个球星的能力纬度分析
爬取虎扑体育NBA球星数据:

import requests
from lxml import etree
from opdata.opexcel import Operatingexcel# 小例子,获取虎扑体育NBA球星数据
def use_requsert_dome():url = 'https://nba.hupu.com/stats/players'headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"}response = requests.get(url,headers)if response.status_code == 200:return response.textelse:return None
def text_to_dic(text):dict = {}html = etree.HTML(text)pags = html.xpath('//*[@id="data_js"]/div[4]/div/table/tbody')for i in pags:name = i.xpath('//tr/td[2]/a/text()')team = i.xpath('//tr/td[3]/a/text()')score = i.xpath('//tr/td[4]/text()')hit_shoot = i.xpath('//tr/td[5]/text()')hit_rate = i.xpath('//tr/td[6]/text()')hit_rate_3 = i.xpath('//tr/td[8]/text()')hit_rate_f = i.xpath('//tr/td[10]/text()')session = i.xpath('//tr/td[11]/text()')time = i.xpath('//tr/td[12]/text()')dict["name"]=namedict["team"] = teamdict["score"] = score[1:]dict["hit_shoot"] = hit_shoot[1:]dict["hit_rate"] = hit_rate[1:]dict["hit_rate_3"] = hit_rate_3[1:]dict["hit_rate_f"] = hit_rate_f[1:]dict["session"] = session[1:]dict["time"] = time[1:]return dictif __name__ == '__main__':text = use_requsert_dome()if text != None:dict = text_to_dic(text)ol = Operatingexcel()ol.set_excel_dic(dict,"data\csdn_data.xlsx",0,0)

因为比较简单,所以没有太多注释,如果有疑问也可以参考我之前的博客。

由于我的水平有限,文章中难免有不妥和错误之处,真诚的希望路过的大佬,能在评论区批评指正。

爬取大学排名和NBA球星数据并进行多维度可视化相关推荐

  1. python爬虫爬取大学排名并存入数据库进行数据可视化

    这是本人的期末大作业,题目要求如下: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/r ...

  2. Python爬虫学习 6 —— 使用bs4库爬取大学排名

    前面学了如何使用beautifulsoup,现在来尝试简单的爬取:中国大学排名 一.准备 查看Robots协议:robots协议 功能描述 输入:大学排名的url链接 输出:大学排名信息(排名,大学名 ...

  3. python实例,python网络爬虫爬取大学排名!

    源代码: import requests from bs4 import BeautifulSoup import bs4def getHTMLText(url):try:r = requests.g ...

  4. 用Python爬取了《扫黑风暴》数据,并将其可视化分析后,终于知道它为什么这么火了~...

    今天来跟大家分享一下从数据可视化角度看扫黑风暴~ 绪论 如何查找视频id 项目结构 制作词云图 制作最近评论数条形图与折线图 制作每小时评论条形图与折线图 制作最近评论数饼图 制作每小时评论饼图 制作 ...

  5. 再次学习基础爬虫,爬取大学排名。

    练习基础爬虫.对应的URL:http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html 分析: 先获取对应的全部代码: 查看一下获取了什么: 主函数中 ...

  6. 【Python爬虫系列教程 11-100】Python网络爬虫实战:最简单的Pandas 中的read_html一行代码爬取网页表格型数据,就可以爬取虎扑体育NBA球员信息

    文章目录 爬取对象 分析 实现代码 爬取对象 虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. ...

  7. (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL

    新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...

  8. 如何利用 C# 爬取带 Token 验证的网站数据?

    在对文本数据的情感分析中,基于情感词典的方法是最简单也是最常用的一种了. 它的大体思路如下: 对文档分词,找出文档中的情感词.否定词以及程度副词,然后判断每个情感词之前是否有否定词及程度副词,将它之前 ...

  9. PythonR爬取分析赶集网北京二手房数据(附详细代码)

    本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...

最新文章

  1. 【blade利刃出鞘】一起进入移动端webapp开发吧
  2. 海康威视:增速超预期 调高盈利预测
  3. 蓝桥杯-送分啦(java)
  4. 关于 时钟抖动 Jitter 和 偏移 Skew
  5. POJ3435 Sudoku Checker【谜题+数独】
  6. Java基础内容整理(一)
  7. 传统大地测量数字考点
  8. @开发者,微软 CEO 萨提亚带领 60 位大咖的集结令,你敢接吗?
  9. 导出RCP程序遇到错误
  10. 机器学习关键步骤(一)
  11. Echarts 开源,免费商用图表控件使用整理
  12. 重置 winsocks
  13. CC-Proxy配置网络代理服务器
  14. win10wifi间歇性断网重启后恢复_如何解决win10无线网间歇性掉线
  15. c++陈维兴第三版3.35_C++面向对象程序设计教程第3版—陈维兴,林小茶课后习题答案...
  16. python用logging模块写循环日志
  17. QueryList入门
  18. 小程序的复制功能实现
  19. FL Studio21MAC电脑中文升级版安装图文教程
  20. SQL注入漏洞 | 数字型

热门文章

  1. 《面朝大海, 春暖花开》——海子
  2. ArrayDeque底层实现
  3. blockiy games
  4. 面试题精选:两个线程按顺序交替输出1-100
  5. Linux修改IP之后远程连接不上的解决方法
  6. springboot多数据源动态切换,事务下切换数据源(非分布式事务)
  7. 2023 年互联网就业怎样?
  8. Linux connect 网络不可达
  9. iOS设置圆角的三种方式
  10. 超全球类运动cc0高清摄影图片素材网站整理