↑ 关注 + 置顶 ~ 有趣的不像个技术号

北京积分落户制度已经实行两年了,2018年申报积分落户的124657名申请人中6019位落户人员取得落户资格。

而去年2019年,申报积分落户人数为106403名,实际公示名单共6007人。

准备打开官方网站下载数据分析一下,结果发现过了公示期网页就打不开了。

经过一番努力,在网上收集到了2018年的6019位落户人员名单和信息(均为公开展示信息)。

01

数据分析

我们本次用到的分析工具包有:pandas 、seaborn 和Matplotlib。

落户数据是csv文档(文末可下载),内部记录了6019条落户信息。

所以先利用pandas读取数据csv文档,并看看有哪些列,可以看到这个表有4列构成,人名、生日、公司、积分

luohu_data = pd.read_csv('./bj_luohu.csv', index_col = 'id')
luohu_data.head(5)

此时有一个疑问这些人来自哪些公司呢?公司有没有重复的? 这些公司都是哪些行业的?

所以按照公司分组查看一下:

company_data = luohu_data.groupby('company', as_index=False).count()[['company', 'name']]
company_data.rename(columns={'name':'人数'}, inplace=True)      # 替换 1
company_data.rename(columns={'company':'公司名'},inplace=True)  # 替换 2
company_data.head(20)

这么直接看的话人数没有顺序的,所以我们再对人数进行降序排列,看看落户最多的哪几家!

company_sorted_data = company_data.sort_values('人数', ascending=False)
company_sorted_data.head(15)   # 前15

emmmm。。。。满眼科技公司,华为、百度、联想、爱立信、腾讯均在前15名,其次是一些国企央之类的。

2

数据可视化

积分数socre是连续数值,因此这里进行分段分析,经过describe初步了解,得分最小90,最大122.6 所以这么划分:90-130分,5分一段

cut_bins = np.arange(90, 130, 5)   #分段设置
bins = pd.cut(luohu_data['score'], cut_bins)  # 将落户数据,按照cutbins来切一下
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts.head(10)

直接出来的话是数据,那么我在直接画个图更直观的看一下

plt.figure(figsize=(15,8))
plt.rcParams['font.family']='Arial Unicode MS'
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.size']=12x_name=['90-95','95-100','100-105','105-110','110-115','115-120','120-125']
sns.barplot(x_name,bin_counts)
plt.ylabel('人数')
plt.xlabel('分数区间')for x, y in zip(range(7), bin_counts):plt.text(x, y+20 , y, ha='center', va='bottom')plt.show()

可以看到,落户人数主要集中在90-100分之间,合计5101人,如果想落户,达到95分就没什么问题了。

那么现在又有个问题,比如达到90分以上我都60了也没啥意义了,那么这些落户的主要集中在什么年龄段呢?年龄与积分有相关性吗?来看看。

首先需要根据生日算一下落户年龄

luohu_data['age'] = (pd.to_datetime('2018-07') - pd.to_datetime(luohu_data['birthday'])) / pd.Timedelta('365 days')
luohu_data.describe()

mean=luohu_data['age'].mean()
std =luohu_data['age'].std()# 得到上下限
lower , upper =mean -3*std , mean+3*stdprint('均值',mean)
print('标准差',std)
print('下限',lower)
print('上限',upper)

得到:

作图看一下分布

#fig.set_size_inches(15,5)   # 设置画布大小
sns.distplot(luohu_data['age'])  

可以看到,最小的年龄也32岁了最大年龄60岁,75%分位数在43岁左右。年龄均值42岁。

3

总结

根据本篇简单的数据分析我们发现:

通过积分获得北京户口的年龄段集中在35岁到46岁之间,主要为42±2岁之间;积分集中在90分左右,行业集中在IT和国企央企及金融行业

据有关媒体统计,在北京当前的积分落户政策下,本科生需要15左右年才能拿到100分,研究生也需要12年以上才能拿到100分。

大家想一下:虽然现在100分可以落户,但12/15年后跟你同批的毕业生就全都100分了......

而其他城市的落户政策是上海七年,香港七年,深圳一年,北京落户还真是真是不容易啊。

相关分析源码和北京积分落户数据已上传github:https://github.com/zpw1995/aotodata/tree/master/bj_luohu

作者:董汇标MINUS,关注知乎点击左下角原文链接。

微信首发于公众号【凹凸玩数据】,有趣的不像个技术号

End

RECOMMEND

推荐阅读

01

长按二维码
了解及购买

02

长按二维码
了解及购买

03

长按二维码
了解及购买

04

长按二维码
了解及购买

05

长按二维码
了解及购买

06

长按二维码
了解及购买

好消息!好消息!

亲爱的读者:

以“读”攻毒,让阅读温暖彼此!机械工业出版社史无前例大型促销全品回馈周活动,5折封顶,每满100-50,2月10日—16日就在京东、当当同步开启!

扫描直达计算机品类专区

在看点一下

用python数据分析了北京积分落户名单,发现……相关推荐

  1. 2021年北京积分落户名单公布了,爬了两个多小时得到了所有数据,有了惊人的发现(附源码)

    2021年北京积分落户名单公布了,手痒痒就写了一段Java代码,运行了两个多小时,终于到了所有数据,如下截图: 本着"Talk is cheap, Show me the code.&quo ...

  2. datatables每页显示数据刷新后不变_2019北京积分落户名单数据的一些分析

    2020,新一波北京积分落户又开始了. 在此,奉上去年闲来无事分析的19年北京积分落户的一些公开数据,把握一下猴年马月才能中标的趋势. 前半部分主要是技术环节,心急的可以直接跳到后半部分看具体的数据分 ...

  3. 大数据分析首批北京积分落户同学

    写这篇文章主要是为了告诉大家, 此号还活着~???? 都9012年了, 大家还不掌握点"大数据"技能? 哈哈, 开玩笑, 本文主要是一些常用 Shell 命令的综合应用. (啊, ...

  4. python数据分析在北京基本薪资_数据分析师薪酬如何?爬虫拉勾网告诉你

    首先说明这篇文章的数据来源,是爬虫拉勾网"数据分析师"这一职位信息所得来的.并且主要分析了数据分析师总体薪酬情况.不同城市薪酬分布.不同学历薪酬分布.北京上海工作经验薪酬分布情况. ...

  5. python 住区数据_Python实现的北京积分落户数据分析示例

    本文实例讲述了Python实现的北京积分落户数据分析.分享给大家供大家参考,具体如下: 北京积分落户状况 获取数据(爬虫/文件下载)-> 分析 (维度-指标) 从公司维度分析不同公司对落户人数指 ...

  6. python数据分析北京_Python实现的北京积分落户数据分析示例

    本文实例讲述了Python实现的北京积分落户数据分析.分享给大家供大家参考,具体如下: 北京积分落户状况 获取数据(爬虫/文件下载)-> 分析 (维度-指标) 从公司维度分析不同公司对落户人数指 ...

  7. 2018年北京积分落户数据分析 看这篇就够了

    2018北京积分落户名单 百度网盘提取码: w7gy 话不多说,直接上代码 import numpy as np import pandas as pd import matplotlib.pyplo ...

  8. 北京积分落户2018年与2019年分析

    本月度的第一天也就是6月1号,北京交通委发布了<北京市小客车数量调控暂行规定(修订草案征求意见稿)>.<〈北京市小客车数量调控暂行规定〉实施细则(修订征求意见稿)>.<关 ...

  9. 案例:2018年北京积分落户分析

    一.北京积分落户政策概述 北京积分落户制是北京市政协建议推行的积分落户政策,以科技贡献.专业技能.在京时间等指标为考核项,计算非京籍人才的"积分",积分达标即可落户北京.北京市积分 ...

最新文章

  1. JMeter 聚合报告之 90% Line 参数说明
  2. 语言 读ini文件_让C语言的调试更加高大上
  3. Purism 宣布推出 PureOS 应用商店
  4. nginx访问控制:如何通过map来控制http_x_forwarded_for访问限制
  5. Latex博士论文格式版本(在CASthesis基础上作修改)
  6. Bootstrap fileinput.js,最好用的文件上传组件
  7. Skyscrapers (easy version)CodeForces - 1313C1(暴力)
  8. python 获取windows上 网络连接信息 ip dhcp dns gateway
  9. 服务器bios修改uefi,服务器 uefi bios设置
  10. 36 FI配置-财务会计-应收账款和应付账款-为供应商定义备选统驭科目
  11. 计算机组成原理平均cpi怎么算_2020考研 | 计算机统考408院校盘点,408考试内容难易分析...
  12. PyQt5笔记(07) -- 变换控件颜色
  13. BAJ占领A股市场!
  14. jvm系列:Java服务GC参数调优案例
  15. BUAA北京地铁乘坐线路查询
  16. 联想用u盘重装系统步骤_如何使用U盘重装系统?使用U盘重装系统步骤详解
  17. Pyside2中嵌入Matplotlib的绘图并保存(指定Graphics View)
  18. eclipse制作app入门教程
  19. 如何换IP?换IP最简单的方法在这里!
  20. GMSSL :SM2椭圆曲线公钥密码算法——数字签名算法4

热门文章

  1. 前端 | ( 十一)CSS3简介及基本语法(上) | 尚硅谷前端html+css零基础教程2023最新
  2. 漫漫的webim(二) 基于腾讯webIm+cos实现语音,视频,文件,定位等多媒体功能
  3. 3M与苏宁易购在智慧零售领域达成战略合作
  4. 串口通信与全双工、半双工、单工
  5. 程序员面试金典3.1-3.6
  6. Codeforces 1179D Fedor Runs for President [DP,斜率优化]
  7. 国际现货黄金怎么分析?
  8. JavaScript是一门什么样的语言,它有哪些特点?
  9. mysql varchar 索引_MySQL索引使用:字段为varchar类型时,条件要使用''包起来
  10. 264 nal type