导入模块

from bs4 import BeautifulSoup as bfs
import matplotlib.pyplot as plt
import requests
import pandas as pd
import seaborn as sns
%matplotlib inlinesns.set_style()

直接爬取网页源代码

url = "http://master.pbcsf.tsinghua.edu.cn/content/details303_14172.html"
response = requests.get(url)
html = response.text.encode('iso-8859-1').decode('utf-8')

BS4解析

soup =  bfs(html, 'html.parser')
datas = soup.select("table")[0].text.replace("\n"," ").split()

保存数据

values = [[] for i in range(7)]
n=len(datas)
for i in range(7,n):values[i%7].append(datas[i])
keys=[]
for i in range(0,7):keys.append(datas[i])
df = dict(zip(keys, values))
data_frame=pd.DataFrame(df)
data_frame.to_excel("THU2018.xlsx")

读取数据

data = pd.read_excel("THU2018.xlsx")
data.head()

提取目标数据

df = pd.DataFrame([data.PreExam,data.ReExam,data.Total],index=['PreExam', 'ReExam','Total'])
df = df.T
df.head()
df.describe()

查看数据统计信息

总共录取114名考试,初试平均分387分,最低分370分,最高分422分,50%的数据为386分,数据分析与前面一样就不做了

df.plot(kind='density', subplots=True, layout=(2,2), sharex=False, figsize=(15,10))

Python 爬取五道口金融考研数据以及数据分析相关推荐

  1. python实战|python爬取58同城租房数据并以Excel文件格式保存到本地

    python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...

  2. python爬取微博热搜数据并保存!

    主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist=[]r=requests.get(ur- 很多 ...

  3. Python爬取京东任意商品数据实战总结

    利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...

  4. python 爬取24小时天气数据

    python 爬取24小时天气数据 1.引入相关库 # -*- coding: utf-8 -*- import requests import numpy as np 关于爬虫,就是在网页上找到自己 ...

  5. 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)

    用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...

  6. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  7. PYTHON爬取汽车之家数据

    PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...

  8. 利用python爬取58同城简历数据

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

  9. 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

最新文章

  1. python 报错 AttributeError: module ‘time‘ has no attribute ‘clock 解决方法
  2. 王艳 201771010127《面向对象程序设计(java)》第十七周学习总结
  3. 深入理解TCP/IP协议-TCP建立与终止连接
  4. 6大新品重磅发布,华为云全栈云原生技术能力持续创新升级
  5. 手把手教你部署Nagios
  6. 修改Android Studio默认的gradle配置文件
  7. ng-admin引用UEditor 插件 Angular-UEditor
  8. 实验任务四:实现登陆界面
  9. JVM性能调优监控工具详解
  10. NB-IoT的优势是什么?
  11. 洛谷P4052 [JSOI2007]文本生成器(AC自动机)
  12. NetBeans IDE12.3无法卸载
  13. 【内推】阿里云 云原生团队 2022 届秋招
  14. ABP VNext学习日记22
  15. Acwing春季每日一题 混合牛奶(朴素做法和优化做法)
  16. 亚马逊云科技的区域和可用区概念解释
  17. c语言烟花发射原理,烟花发射原理
  18. Android 中 简单商品列表 的运用
  19. 23-移动端布局方式-VM
  20. 【天雪楼】葫芦侠主题美化-幻塔

热门文章

  1. 如何在Excel中添加自定义函数(以计算AUC为例)
  2. C语言编程手机短号问题,手机短号C程.doc
  3. word2016无法打开Visio对象
  4. 王者荣耀s20赛季服务器维护,王者荣耀s20赛季开启时间 王者荣耀s20赛季段位继承规则及赛季皮肤...
  5. 传感器采集保存数据与前端实时显示动态曲线图实现想法
  6. macbook安装WIN10拔电源蓝屏死机解决方法
  7. 三大技巧教你苹果手机怎么截屏!(最全)
  8. 临床执业助理医师(综合练习)题库【6】
  9. 生成licence文件
  10. Android 《第一行代码》学习笔记