python爬虫案例（二）：大学排名

小菜鸟从一个个案例来练习爬虫，心路是曲折的，555

在爬虫案例（一）中，是用urllib进行的。本案例中应用的是requests库，它会比urllib更加方便，requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。
1.安装requests库。
python没有安装requests模块，可以在cmd窗口通过：pip install requests 语句进行安装，用来爬取网页内容。

类似的，安装第三方库beautifulsoup4用来将爬取的网页内容分析处理：pip install beautifulsoup4。
2.写出案例代码如下：
（该案例源代码来自https://python123.io/index/notebooks/python_programming_basic_v2）

import requests
from bs4 import BeautifulSoup
allUniv = []
def getHTMLText(url):try:response = requests.get(url,timeout=30)response.encoding='utf-8'if response.status_code == 200: #如果状态码是200，不产生异常return response.textreturn Noneexcept RequestException:print("请求索引页错误")return Nonedef fillUnivList(soup):data = soup.find_all('tr')#查看html源码：信息在html中以table形式存在，每个学校信息是一行，存放在tr中，单元格信息存放在td中for tr in data:ltd = tr.find_all('td')if len(ltd)==0:continue    singleUniv = []for td in ltd:singleUniv.append(td.string)allUniv.append(singleUniv)
def printUnivList(num):print("{:<4}{:<15}{:<8}{:<8}{:<10}".format("排名","学校名称","省市","学校类型","总分"))for i in range(num):u=allUniv[i]print("{:<4}{:<15}{:<8}{:<8}{:<10}".format(u[0],u[1],u[2],u[3],u[4]))
def main():url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2020.html'html = getHTMLText(url)soup = BeautifulSoup(html, "html.parser")#使用bs4库中BeautifulSoup类，生成一个对象。fillUnivList(soup)printUnivList(10)#输出排名前10的学校
main()

结果为：

排名  学校名称           省市      学校类型    总分
1   清华大学           北京      综合      852.5
2   北京大学           北京      综合      746.7
3   浙江大学           浙江      综合      649.2
4   上海交通大学         上海      综合      625.9
5   南京大学           江苏      综合      566.1
6   复旦大学           上海      综合      556.7
7   中国科学技术大学       安徽      理工      526.4
8   华中科技大学         湖北      综合      497.7
9   武汉大学           湖北      综合      488.0
10  中山大学           广东      综合      457.2

python爬虫案例（二）：大学排名相关推荐

python爬虫 2021中国大学排名定向爬虫
最近的几篇博客来源是之前我下载的一个课件在网上搜索了一下是一下这个课程的,可以结合视频博客以及代码去更好地学习 Python网络爬虫与信息提取_北京理工大学_中国大学MOOC(慕课) (icours ...
python中国大学排名爬虫写明详细步骤-Python爬虫 2020中国大学排名
爬取中国大学排名 request 获取 html beautiful soup 解析网页 re 正则表达式匹配内容新建并保存 excel 1 2 3 4 -*- codeing = utf-8 -* ...
python爬虫爬取大学排名并存入数据库进行数据可视化
这是本人的期末大作业,题目要求如下: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/r ...
Python 爬虫案例（二）--附件下载
Python 爬虫案例(二) 此篇文章将爬取的网站是:http://www.warrensburg-mo.com/Bids.aspx (有时候打开不一定会有标书,因为标书实时更新) 类型跟上一篇相似, ...
爬虫 - QS世界大学排名数据
爬虫 - QS世界大学排名数据网站简介爬虫方法概述使用工具爬虫概述第一部分导入需要用到的python包设置selenium控制浏览器打开网页控制鼠标操作定位节点提取数据滚轮翻页 ...
python中国最好大学排名_国内大学排名如何？用Python爬取中国大学排名
国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果准备阶段新手入门,不喜勿喷,这篇文章的内容其实也是在中 ...
Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫（二）
Python爬虫(二) 一.请求对象的定制-User-Agent反爬机制请求对象的定制:由于urlopen方法中没有字典类型的数据存储,所以headers不能直接存储进去请求对象的定制的目的:是为 ...
python爬虫简单实例-最简单的Python爬虫案例，看得懂说明你已入门，附赠教程
原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...
python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...

python爬虫案例（二）：大学排名

python爬虫案例（二）：大学排名相关推荐

最新文章

热门文章