Baidu_migration_crawler是一个百度迁徙数据爬虫

新冠肺炎抗疫形势严峻,国内多家公司都为抗疫贡献了自己的力量,如丁香园的疫情播报和地图,百度迁徙的人口流动信息等。这些数据能够为分析和预测疫情传播、发展提供重要基础。

为了让百度迁徙提供的人口流动数据更便于分析,笔者使用Python制作了Baidu_migration_crawler工具来进行自动的数据爬取和解析存储。

  • 注:使用该工具需要先安装MongoDB数据库(非常适合存储这种形式的数据)和相关Python依赖

功能介绍

爬取百度迁徙上的数据,支持每日增量爬取以下内容:

  • 人口迁出数据(比例):市级->省级、市级->市级、省级->省级、省级->市级
  • 人口迁入数据(比例):市级->省级、市级->市级、省级->省级、省级->市级
  • 人口迁出数据(数值/规模指数):市级、省级
  • 人口迁入数据(数值/规模指数):市级、省级
  • 全国迁出数据(比例):市级、省级
  • 全国迁入数据(比例):市级、省级
  • 城内迁徙数据:市级

项目地址

  • https://github.com/tomleung1996/Baidu_migration_crawler

数据样例

环境依赖

  • requests
  • tqdm
  • pymongo
  • MongoDB数据库
  • json

使用方法

location_ids.txt文件存放了待爬取的省级、市级行政单位的行政区划代码,可根据需要自行修改

出于方便存取的考虑,数据存储使用了MongoDB数据库,需要安装相应的环境才能使用本程序。如有需要请修改connect_str为自己的数据库连接URL

执行main.py中的fetch_timerange()方法,传入格式为YYYYMMDD的起止日期即可进行爬取,如20200402。若仅需要爬取一天,则设置相同的起止日期

数据结构

数据包含三个Collection,分别为全国分布数据(cn_distribution)、省级迁徙数据(province_flow)和市级迁徙数据(city_flow):

  • 全国分布数据(cn_distribution),每日的数据包含4个Document,分别为省级的迁入(move_in)、迁出(move_out)和市级的迁入、迁出情况。每个Document中包含各省或市的具体情况数组。
  • 省级迁徙数据(province_flow),每日的数据包含33 * 4个Document,即我国33个省级行政单位(含直辖市及港澳,不含台湾地区)每日的省级迁入、迁出和市级迁入、迁出情况。
  • 市级迁徙数据(city_flow),每日的数据包含368 * 4个Document,即百度迁徙所收录的368个市级行政单位(为方便分析,含直辖市及港澳,不含台湾地区)每日的省级迁入、迁出和市级迁入、迁出情况。

百度迁徙爬虫工具:Baidu_migration_crawler相关推荐

  1. Node: Puppeteer + 图像识别 实现百度指数爬虫

    之前看过一篇脑洞大开的文章,介绍了各个大厂的前端反爬虫技巧,但也正如此文所说,没有100%的反爬虫方法,本文介绍一种简单的方法,来绕过所有这些前端反爬虫手段. 下面的代码以百度指数为例,代码已经封装成 ...

  2. 百度SEO教程-利于百度推送工具实现百度快速收录

    最近很多做百度的站长问我,百度收录怎么做?有没有什么方法让百度大量收录我的网站?百度推送到底有没有用?如何利用百度推送工具,实现百度的快速收录,这期我说下我的个人见解. 一.百度链接提交的作用 链接提 ...

  3. 爬虫大全,爬虫工具汇总

    开源爬虫 开发语言 软件名称 软件介绍 许可证 Java Arachnid 微型爬虫框架,含有一个小型 HTML 解析器.是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能 ...

  4. PC端手机端百度查排名工具(SEO工具)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kaeX0TZN-1637306311903)(http://cdn.h3blog.com/20211119142524. ...

  5. 用百度进行爬虫练习和常见的问题

    用百度进行爬虫练习和常见的问题 目标 确认url 向百度发送请求 获取响应 获取到百度首页的数据保存 工具 谷歌浏览器 pycharm 执行 首先这里使用的谷歌浏览器(默认打开百度) #导入requr ...

  6. 爬虫工具-爬虫软件-免费爬虫工具软件

    爬虫工具,爬虫主要是用来收集数据.这也是爬虫最直接和最常见的用途.由于爬虫是一个工具是一个软件,程序运行速度极快,而且不会因为做重复的事情而感到疲劳,所以使用爬虫来获取大量的数据就变得非常容易和快速. ...

  7. webscraper爬虫工具详细操作

    以下是个人整理的学习笔记,仅供参考 webscraper 简介 Web Scraper 是一款免费的,适用于普通用户的爬虫工具,可以方便的通过鼠标和简单配置获取网页上的内容:文字.链接.图片.表格等, ...

  8. 爬虫实战系列(十一):Win10下手机爬虫工具appium的安装与测试

    一.前言 之前介绍的都是关于网页爬虫的相关内容,今天博主想跟大家分享一个非常牛的手机爬虫工具Appium,首先我会介绍它的安装方法,然后给出一个Appium连接手机app例程. 二.详细安装过程 2. ...

  9. python爬虫软件-Python爬虫工具篇 - 必会用的6款Chrome插件

    在日常 PC 端的 Python爬虫过程工作中,Chrome 浏览器是我们常用的一款工具. 鉴于 Chrome 浏览器的强大,Chrome 网上应用商店很多强大的插件可以帮助我们快速高效地进行数据爬虫 ...

  10. 爬虫python需要什么软件-python大神们!都在用什么爬虫工具呢?

    python大神们!都在用什么爬虫工具呢? Python开发爬虫常用的工具总结 reqeusts:Python HTTP网络请求库; pyquery: Python HTML DOM结构解析库,采用类 ...

最新文章

  1. 【C++】algorithm具体操作记录
  2. (转)mxArray数据类型
  3. mc服务器如何开修改物品开挂,如何在我的世界电脑服务器开挂
  4. [BZOJ3093][Fdu校赛2012] A Famous Game(不等概率)
  5. (转)模拟鼠标/键盘
  6. 领域应用 | 从本体论开始说起——运营商关系图谱的构建及应用
  7. WSUS客户端无法发现
  8. C语言程序设计实验报告——实验五
  9. html关于点击radio触发事件
  10. 台式计算机键盘快捷键怎么设置,电脑快捷键设置修改 电脑键盘快捷键怎么更改...
  11. 基于Cocos2d-x实现的畜不及防鬼畜音乐节奏游戏
  12. Anaconda / Miniconda 镜像 - 清华大学开源软件镜像站
  13. iOS10更新_本地通知新框架UserNotifications
  14. mysql 月初 月末_月初月末sql语句(日期所在月的第一天,最后一天)
  15. 9、验签失败可能的原因有哪些?
  16. uniapp app微信授权登录
  17. 穿过网络防火墙监视的木马下载器(转)
  18. 最强GTD Omnifocus3 (mac)
  19. openxlsx模块
  20. 学校计算机机房应急预案,机房安全应急预案

热门文章

  1. 通达信版弘历软件指标_通达信获利分析仿弘历软件的六彩神龙指标公式
  2. 使用ucinet和netdraw做文献计量的可视化分析+利用spss做系统聚类分析
  3. 基于Android的百度地图显示
  4. 基于confd和etcd的tuxedo中间件容器化方案
  5. Linux下安装anaconda,创建虚拟环境python3.7,并且安装深度学习框架pytorch进行模型训练
  6. python 传输视频_如何用python实现网络实时视频传输
  7. Cadence Allegro针对Shape进行Vertex推挤拉伸操作方法图文教程
  8. 数据窗口dw导出多种格式文件
  9. MFC框架学习:《深入浅出MFC》阅读笔记
  10. 集成电路模拟版图入门-版图基础学习笔记(一)