python爬虫案例(二):大学排名
小菜鸟从一个个案例来练习爬虫,心路是曲折的,555
在爬虫案例(一)中,是用urllib进行的。本案例中应用的是requests库,它会比urllib更加方便,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。
1.安装requests库。
python没有安装requests模块,可以在cmd窗口通过:pip install requests 语句进行安装,用来爬取网页内容。
类似的,安装第三方库beautifulsoup4用来将爬取的网页内容分析处理:pip install beautifulsoup4。
2.写出案例代码如下:
(该案例源代码来自https://python123.io/index/notebooks/python_programming_basic_v2)
import requests
from bs4 import BeautifulSoup
allUniv = []
def getHTMLText(url):try:response = requests.get(url,timeout=30)response.encoding='utf-8'if response.status_code == 200: #如果状态码是200,不产生异常return response.textreturn Noneexcept RequestException:print("请求索引页错误")return Nonedef fillUnivList(soup):data = soup.find_all('tr')#查看html源码:信息在html中以table形式存在,每个学校信息是一行,存放在tr中,单元格信息存放在td中for tr in data:ltd = tr.find_all('td')if len(ltd)==0:continue singleUniv = []for td in ltd:singleUniv.append(td.string)allUniv.append(singleUniv)
def printUnivList(num):print("{:<4}{:<15}{:<8}{:<8}{:<10}".format("排名","学校名称","省市","学校类型","总分"))for i in range(num):u=allUniv[i]print("{:<4}{:<15}{:<8}{:<8}{:<10}".format(u[0],u[1],u[2],u[3],u[4]))
def main():url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2020.html'html = getHTMLText(url)soup = BeautifulSoup(html, "html.parser")#使用bs4库中BeautifulSoup类,生成一个对象。fillUnivList(soup)printUnivList(10)#输出排名前10的学校
main()
结果为:
排名 学校名称 省市 学校类型 总分
1 清华大学 北京 综合 852.5
2 北京大学 北京 综合 746.7
3 浙江大学 浙江 综合 649.2
4 上海交通大学 上海 综合 625.9
5 南京大学 江苏 综合 566.1
6 复旦大学 上海 综合 556.7
7 中国科学技术大学 安徽 理工 526.4
8 华中科技大学 湖北 综合 497.7
9 武汉大学 湖北 综合 488.0
10 中山大学 广东 综合 457.2
python爬虫案例(二):大学排名相关推荐
- python爬虫 2021中国大学排名定向爬虫
最近的几篇博客来源是之前我下载的一个课件 在网上搜索了一下是一下这个课程的,可以结合视频博客以及代码去更好地学习 Python网络爬虫与信息提取_北京理工大学_中国大学MOOC(慕课) (icours ...
- python中国大学排名爬虫写明详细步骤-Python爬虫 2020中国大学排名
爬取中国大学排名 request 获取 html beautiful soup 解析网页 re 正则表达式匹配内容 新建并保存 excel 1 2 3 4 -*- codeing = utf-8 -* ...
- python爬虫爬取大学排名并存入数据库进行数据可视化
这是本人的期末大作业,题目要求如下: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/r ...
- Python 爬虫案例(二)--附件下载
Python 爬虫案例(二) 此篇文章将爬取的网站是:http://www.warrensburg-mo.com/Bids.aspx (有时候打开不一定会有标书,因为标书实时更新) 类型跟上一篇相似, ...
- 爬虫 - QS世界大学排名数据
爬虫 - QS世界大学排名数据 网站简介 爬虫方法概述 使用工具 爬虫概述 第一部分 导入需要用到的python包 设置selenium控制浏览器打开网页 控制鼠标操作 定位节点 提取数据 滚轮翻页 ...
- python中国最好大学排名_国内大学排名如何?用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果 准备阶段 新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...
- Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- Python爬虫(二)
Python爬虫(二) 一.请求对象的定制-User-Agent反爬机制 请求对象的定制:由于urlopen方法中没有字典类型的数据存储,所以headers不能直接存储进去 请求对象的定制的目的:是为 ...
- python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程
原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程 这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...
- python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...
最新文章
- 关于如何换肤、子类化的解决方案
- c 语言cad 二次开发,c#对AutoCAD二次开发
- 从内存分配角度分析c和java里的static 关键字.
- 浅析软件工程中的UML建模技术
- Scala分支控制 if-else之单分支的使用
- jer中无html文件,index.html
- 前端学习(2946):vue-cli使用
- scrapy爬个小网站
- pycharm上python项目的导出_pycharm项目打包成exe
- Android为TV端助力 Canvas 和 Paint用法
- 微信公众号小程序怎么做?
- CF 1260 D 题解
- Unity3d之坦克对战游戏 AI设计
- 成人, 像婴儿那样心无旁骛地学习
- Codeforces Round #550 (Div. 3) C.Two Shuffled Sequences
- 网络安全技术——DHCP技术
- python携程酒店评论_python爬取携程景点评论信息
- 2008年公休假安排:
- 零线和地线的区别,示波器如何测量市电?
- oracle 48101 block,db_block_size是操作系统块的原因?