中国大学排名定向爬虫 实例介绍

功能描述

输入:大学排名URL链接

输出:大学排名信息的屏幕输出(排名,大学名称,总分)

技术路线:requests,bs4

定向爬虫:仅对输入URL进行爬取,不扩展爬取。

程序的结构设计

步骤1:从网络上获取大学排名网页内容 getHTMLText()

步骤2:提取网页内容中信息到合适的数据结构 fillUnivList()

步骤3:利用数据结构展示并输出结果 printUnivLIst()

代码编写
import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url,timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist,html):soup = BeautifulSoup(html,'html.parser')for tr in soup.find('tbody').children:if isinstance(tr,bs4.element.Tag):tds = tr('td')ulist.append([tds[0].string,tds[1].string,tds[3].string])def printUnivLIst(ulist,num):tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"print(tplt.format('排名','学校','总分',chr(12288)))  # 中文输出对齐for i in range(num):u = ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288)))def main():uinfo = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html = getHTMLText(url)fillUnivList(uinfo,html)printUnivLIst(uinfo,20)  # 20所大学main()

中国最好大学排行榜爬取相关推荐

  1. Python网络爬虫实例——“中国最好大学排名爬取”(嵩天:北理工大学)学习笔记

    这个例子比较简单也容易理解,我将细致的解析这个例子中算法流程.写一个博客算是给自己一个激励吧.一起加油.(_ZHJ三月和九月) 完整版代码 import requests from bs4 impor ...

  2. 最好大学信息爬取,跟我一起看大学排行榜

    最好大学信息爬取 更 多 爬 虫 教 程 请 移 步 \color{red}更多爬虫教程请移步 更多爬虫教

  3. 爬虫-东北林业大学校内-中国[哈尔滨]森林博物馆-爬取所有馆藏蝴蝶图片

    爬虫-东北林业大学校内-中国[哈尔滨]森林博物馆-爬取所有馆藏蝴蝶图片 馆藏蝴蝶图片爬虫 直接上代码 馆藏蝴蝶图片爬虫 由于本人很喜欢玩LOL大嘴的帝王斑蝶皮肤,导员下午又发了森林博物馆开馆的通知,于 ...

  4. Matlab 从怀俄明大学上爬取探空数据

    function sounding %设置爬取时间  49行可以选取早八晚八,默认是都下载 start_year       =2019     ; start_month      =06     ...

  5. JAVA爬虫(一):豆瓣电影排行榜爬取

    JAVA爬虫(一):豆瓣电影排行榜爬取 前言 流程图 步骤 一.爬取豆瓣电影榜单网页源代码 二.网页源码解析 三.爬取单个电影网页源码 四.源代码解析及关键信息获取 前言 最近和大创队友一起给大创做的 ...

  6. python爬虫实战三:近十年中国电影票房数据爬取与分析

    近十年中国电影票房数据爬取与分析 前言 爬取 分析 十年top10 年度top5 每年电影数 每年总票房 二八原则 代码与数据 前言 这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...

  7. 项目三:近10年来中国电影票房数据爬取分析

    近10年来中国电影票房数据爬取分析 前言 数据采集与存储 数据清洗和简单分析 引入库,导入数据 近10年top 年度top5 每年电影数 每年总票房 结论 二八原则 end 点击跳转到总目录 前言 这 ...

  8. monthy python爬虫_Python爬虫DOTA排行榜爬取实例(分享)

    Python爬虫DOTA排行榜爬取实例(分享) 1.分析网站 打开开发者工具,我们观察到排行榜的数据并没有在doc里 doc文档 在Javascript里我么可以看到下面代码: ajax的post方法 ...

  9. JAVA爬虫(二):哔哩哔哩动画搞笑排行榜爬取

    JAVA爬虫(二): 哔哩哔哩动画搞笑视频排行榜爬取 1. 前言 2. 步骤 2.1 分析及网页源代码爬取 2.1.1 分析 2.1.2网页源代码爬取 2.2 网页源代码解析 3. 总代码 1. 前言 ...

最新文章

  1. BusinessFrameWork
  2. Win2008 远程时提示“要登录到此远程计算机,您必须被授予允许通过终端登录登录的权限“的解决方法
  3. 2018智能反欺诈洞察报告:黑中介、黑产智能化趋势明显
  4. [vue] 写出你知道的表单修饰符和事件修饰符
  5. uva 10716 Evil Straw Warts Live
  6. Bzoj4822 [Cqoi2017]老C的任务
  7. vue获取编辑器纯文字_前端富文本编辑器 vue-html5-editor
  8. PyQt5 环境搭建+配置+怎样运行生成的.py程序
  9. mysql清除旧版本_MYSQL使用INNODB时及时清理旧版本数据
  10. 封装BackgroundWorker控件(提供源代码下载,F5即可见效果)
  11. 【Oracle】Oracle GoldenGate简介及搭建过程
  12. ESP8266_APP连接试验
  13. IOS快速集成下拉上拉刷新
  14. 经典SQL面试10题(附答案)
  15. Unity写的3D人工智能棋类博弈小游戏-四子棋
  16. Polynomial Commitments代码实现【2】——lovesh/kzg-poly-commit
  17. 路由器刷openwrt
  18. 医药行业如何数字化转型 附医药行业数字化转型方案
  19. 微信公众号如何绑定运营者的微信号
  20. 加息靴子落地铁矿石继续反弹,甲醇认购大涨,苹果10-01大跳水2022.5.5

热门文章

  1. 我的团长我的团第十三集
  2. Druid监控优化数据库性能
  3. 如何恢复相机已删除照片,相机里面的照片怎么恢复
  4. html的注释标签是什么,html 注释标签的详细介绍
  5. 【Javascript高级知识】深入剖析JS中New一个对象的过程(实现原理)
  6. 小米手机蓝牙声音测试软件,小米6支持apt-X测试,无线也能HIFI了。
  7. Origin2021科研绘图神器
  8. U盘PE系统安装windowsXP
  9. prefetch 和preload_preload和prefetch
  10. smartctl用法心得