Python数据分析与处理——北京高考分数线统计分析
北京高考分数线统计分析
为了帮助广大考生和家长了解高考历年的录取情况,很多网站都汇总了各省市的录取控制分数线,为广大考生填报志愿提供参考。因受多种因素影响,每年的分数线或多或少会有一些变动。采集北京2006-2019年的信息。使用Python的Pandas库完成以下数据分析。
1.1 数据爬取
包含三部分内容:从哪里爬取,如何爬取,爬取的结果
代码:
import pandas as pdimport numpy as npdata=pd.read_excel("scores.xlsx",header=1)print(data)
运行结果:
分析:我是读取的本地的数据文件进行的数据分析。
有兴趣的话可以从网站上面下载相关的数据或者是自己使用爬虫爬取相关的数据源。进行数据分析
这个数据的分析部分我主要是采用的是Pandas numpy做数据的预处理。
和matplotlib进行数据的可视化展示。
1.2 最高分最低分统计
mindata= data.groupby(['文科','理科'], as_index=False).min(axis=1) maxdata= data.groupby(['文科','理科'], as_index=False).max(axis=2) print(data.min())print(data.max())
进行数据的处理,最高分最低分统计,因为有两个不同的年份的成绩,并且分了文科和理科所以就有2个文科2个理科
- 我们使用groupby按照文理科进行分组
- 然后使用max()和min()求最大值和最小值‘
- 经过分析处理可以看到打印出来的最大值和最小值
1.3 一本二本理科差值统计
代码:
s1math=data["一本分数线","理科"]
print(s1math)
print(s1math[0]-s1math[2])s1c=data["一本分数线","文科"]
print(s1c[0]-s1c[2])
s2math=data["二本分数线","理科"]
print(s2math[0]-s2math[2])
s2c=data["二本分数线","文科"]
print(s2math[0]-s2math[2])
运行结果:
注意:
首先我们取出相应的文理科一本以及二本的成绩,然后再进行相关的极差的计算就是使用前一个数减去后面的一个数就OK。
print(s1math[0]-s1math[2])
1.4 2006—2019年近14年每科分数线的平均值统计
代码:
# 2006—2019年近14年每科分数线的平均值统计data1=data[data['Unnamed: 0'].between(2006, 2014, inclusive=True)].groupby(['Unnamed: 0']).mean()print(data1)
运行结果:
首先是进行数据的提取,然后进行平均值的求取。在这里我算的麻烦了,因为本来就是一个年份对应的是一个成绩。不是一对多的关系,所以下面的方法要更好一些。
也可以使用mean方法进行相关的平均值求取。
是一个成绩。不是一对多的关系,所以下面的方法要更好一些。
也可以使用mean方法进行相关的平均值求取。
[外链图片转存中…(img-SjA4fAMw-1640602499248)]
Python数据分析与处理——北京高考分数线统计分析相关推荐
- 中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析
用 Python 数据分析方法进行汉字声调频率统计分析 木合塔尔·沙地克 ; 布合力齐姑丽·瓦斯力 [期刊名称] <电脑知识与技术> [年 ( 卷 ), 期] 2017(013)035 [ ...
- Python数据分析练习:北京、广州PM2.5空气质量分析(2)
<接上一篇> 2. 数据分析 2.1 空气质量等级的对比分析 广州2015年与2016年的空气质量等级对比,分别统计全年各个等级的次数占比(例如:Good占比 = Good次数/全年总测量 ...
- Python数据清洗与可视化——北京租房数据统计分析05
北京租房数据统计分析 5.1数据的爬取 代码: # 5北京租房数据统计分析 # 5.1数据的爬取 import pandas as pd import numpy as np file_path=op ...
- Python数据分析练习:北京、广州PM2.5空气质量分析(1)
由于雾霾问题,全社会都很关注空气质量,政府也花了很多钱力图改善空气质量.我们作为城市市民经常要问:我们城市的空气质量到底怎样?这几年我们城市的空气质量是在改善还是恶化?我们城市的空气质量与其他城市相比 ...
- python数据分析—10000条北京二手房电梯信息可视化分析(附源码)
文章目录 开发工具 数据内容 实现代码 运行效果 处理异常数据 优化异常数据运行结果 10000条二手房信息下载地址 总结 开发工具 python版本:Python 3.6.1 python开发工具: ...
- python数据分析—10000条北京二手房装修特征信息可视化分析(附源码)
文章目录 开发工具 数据内容 实现代码 运行效果 处理异常数据 优化异常数据运行结果 10000条二手房信息下载地址 总结 开发工具 python版本:Python 3.6.1 python开发工具: ...
- python 数据分析学什么-数据分析培训学习多久?都学什么?
数据分析培训学习多久?以博学谷的Python数据分析与应用课程为例,学习数据分析只要22课时.那么都学什么呢?内容大概包括了Python数据分析的相关知识.感兴趣的小伙伴可以一起来看看课程介绍. 1. ...
- 推荐一本Python数据分析必备工具书
点击上方"杰哥的IT之旅",选择"置顶公众号" 干货.福利第一时间送达! 随着商业竞争形势的日益严峻,企业需要不断寻找提高利润率.降低成本.提高产出价值的有效方 ...
- 2020对口高考计算机专业分数线,2020高考分数线(分数线及一分一段表)
2020高考分数线(分数线及一分一段表) 2020年高考录取工作正在进行,全国各地教育院陆续公布了2020年普通高校招生考试各类别录取控制分数线及一分一段表.详情如下: 山东 成绩查询地址:http: ...
最新文章
- f-measure[转]
- 【剑指offer】面试题68 - I:二叉树的最近公共祖先(Java)
- 消防荷载楼板按弹性还是塑性计算_第二节 消防登高面、消防救援场地和灭火救援窗...
- 问题 I: 连通块计数
- java addbatch_使用addBatch java时丢失数据
- Realtek显示芯片方案设计 RTD2270 RTD2281 RTD2513 RTD2525 RTD2556 RTD2785 RTD2795T 2796 VGA DVI HDMI DP转LVDS
- 蓝桥杯--并查集1 sdutoj 小雷的冰茶几
- 程序员必备英语单词清单
- 电脑搜索不出网络共享文件夹内容
- 【应用C】C语言实现离散数学合式公式的递归判断
- 重要性采样(importance sampling)
- MacM1安装Pajek软件的方法(with brew,wine)
- PE、PM、PD、PR分别是什么岗位?
- Linux命令之帮助手册
- 登录系统提示请求数据成功!但回调方法出错;请检查自定义load回调函数。有没有大佬能给解答下这种怎么处理
- 处理超时订单(超时未付款)的解决方案
- 马云曾经偶像,终于把阿里留下的 1400 亿败光了
- 自动添加Opera搜索串
- blur事件与click事件冲突的解决办法
- 如何安装和使用 Windows XP 的故障恢复控制台
热门文章
- 【Java基础面向对象】 汽车销售管理系统
- 错误处理(三)—— 剪贴板为空。 (异常来自......)
- 被八股文害惨了...
- 项目经理应拒绝哪些会议?应该开哪些会议?如何开好项目会议?
- vue项目中引入iconfont
- Video标签事件与属性
- this.$router.push(location)不行的原因之一
- windows10win10实现ssh
- TPM密钥(可迁移 不可迁移)
- 基于Python的Excel表格差异对比工具