中国现行的行政区划实行如下:
一级省级行政区:包括省、自治区、直辖市、特别行政区。
二级地级行政区:包括地级市、地区、自治州、盟。
三级县级行政区:包括市辖区、县级市、县、自治县、旗、自治旗、特区、林区。
四级乡级行政区:包括街道、镇、乡、民族乡、苏木、民族苏木、县辖区。

通过该网站可以简单的爬取到全国的四级行政区域名称

from bs4 import BeautifulSoup
from urllib.request import urlopen,urlparse,urlsplit,Request
import urllib.request
import re
import codecs
import random#
ua_list = ["Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36",#Chrome"Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0",#firwfox"Mozilla/5.0 (compatible, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko",#IE"Opera/9.99 (Windows NT 5.1; U; zh-CN) Presto/9.9.9",#Opera
]
base_url = 'http://www.tcmap.com.cn/'
citys = []
distrcts = []
streets = []def getStrongItem(p):# print(base_url + p)ua = random.choice(ua_list)req = urllib.request.Request( base_url + p, headers={'User-agent' : ua} )    html=urlopen(req).read()    soup = BeautifulSoup ( html, 'html.parser',from_encoding="gb18030" )    href_limit = re.compile(".*<a class=\"blue\" href=\".*</a>.*")# print(re.match(href_limit, "<a class=\"blue\" href=\"/zhejiangsheng/linan.html\">临安区</ a>"))    page=soup.find_all('table')    # print(page)items = []    item_htmls = []   for p in page:        lines = p.find_all('strong')        for line in lines:            # print(line)            if  (re.match(href_limit,str(line))) is not None:               item_html = str(line).split('"')[3]                item =  str(line).split('>')[-3].split('<')[0]                # print(item,item_html)items.append(item)item_htmls.append(item_html)return items,item_htmls# break
def getAll():provinces = {'zhejiangsheng':'浙江省'}#,'jiangxi':'江西省','xinjiang':'新疆维吾尔自治区','gansusheng':'甘肃省','neimenggu':'内蒙古自治区'#,'heilongjiang':'黑龙江省','jilin':'吉林省','liaoning':'辽宁省','hebei':'河北省','shandong':'山东省','shanxisheng':'山西省'#,'henan':'河南省','jiangsu':'江苏省','anhui':'安徽省'p_map = {}for p in provinces:# print(provinces[p])citys,city_htmls = getStrongItem(p)c_map= {}for city,city_html in zip(citys,city_htmls):    distrcts,distrct_htmls = getStrongItem(city_html)d_map = {}for distrct,distrct_html in zip(distrcts,distrct_htmls):streets,street_htmls = getStrongItem(distrct_html)d_map[distrct] = streetsc_map[city] = d_mapp_map[provinces[p]] = c_map     return p_mapif __name__ == '__main__':getAll()

python爬取全国各级行政区域相关推荐

  1. 利用Python爬取全国250m精度的人口数据

    此次以GeoQ(智图)为基础,利用Python爬取全国250m精度的人口数据(GeoQ)这个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性.先得注册登录到达创建地图的界面. 看人口 ...

  2. 利用Python爬取全国250m精度的人口数据(GeoQ)、房价数据和公交站(线路)等数据

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 中原百科 GIS大师兄 PS:如有需要Python学习资料的小伙伴可 ...

  3. 用python爬取全国和全球疫情数据,并进行可视化分析(过程详细代码可运行)

    用Python爬取最新疫情数据 这次重大疫情,每时每刻数据都有可能变化,这篇博文将为大家讲解如何爬取实时疫情数据,并且分析数据,作出数据可视化的效果. 报告梗概: 对中国疫情分析 1.1 展示各省疫情 ...

  4. python爬取全国五级行政区

    以前爬过国家统计局的四级行政区(http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/),但是对于五级数据效果不是很好. 偶然间发现这个网站:ht ...

  5. 利用Python爬取全国250m精度的人口数据、房价数据等数据 | CSDN博文精选

    作者 | 中原百科来源 | CSDN博客 (一) 我的第一篇博客写的就是爬取人口数据基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取),精度是1000m,后来有朋友和我说有个网站开放过2 ...

  6. 你在的城市撒币了吗?Python爬取全国各城市消费券发放数据并分析

    前言 近期,全国多地以各种形式投放消费券.消费补贴来鼓励消费,部分城市在首期消费券的基础上,连续追加发放多期消费券.你在的城市撒币了吗?哪个省份最爱撒币?哪个城市撒币最多?跟随本文一起来看看. 数据说 ...

  7. 用python爬取考研信息网_【高考、考研党的福利】使用Python爬取全国高校及GIS/RS专业信息【附代码和Excel】...

    题外话:前一段时间翻译了一部关于GIS的纪录片,然后发了一篇文章,没想到有这么多人感兴趣,为了让广大GISER知道有这部神片,遂想投稿至GIS相关的专栏,不曾想居然还没人开设,真是"绕树三匝 ...

  8. Python爬取全国地铁站点、地铁线路和发车时刻

    爬取全国地铁站点.地铁线路和发车时刻的方法. 一.两种爬取方法概述  (一)html页面爬取    1. 为了收集全国地铁线路的发车时刻信息,刚开始尝试的方法如下: (1)找到每个城市的地铁官网,如& ...

  9. python爬取全国天气数据

    可以实现爬取全国的天气数据,存储为csv文件 数据来源为http://m.tianqi.com 需要requests, bs4, pandas, lxml库 对应的安装命令 pip install r ...

最新文章

  1. 如何在SQL中使用JOIN执行UPDATE语句?
  2. PHP编译遇到的问题
  3. 安装acdsee 3.1后出错
  4. JDBC的批处理操作
  5. 随时随地能写代码, vscode.dev 出手了
  6. 【Kafka】Kafka Streams简介
  7. 【6.0】组合主键映射
  8. X86汇编语言从实模式到保护模式07:硬盘和显卡的访问控制
  9. soap协议有get方式
  10. SSH免密码登录,搭建Flink standalone集群
  11. 登录不了WPS国际版,密码正确,在网页能够正常登录,在WPS不行,求解答,版本号是10.2.0.7646已刷语言包
  12. 对人工智能的初步认识
  13. Java 生成数字证书系列(三)生成数字证书
  14. Jquery 中a||的含义
  15. win10磁盘管理_一步一步的详细讲解Win10磁盘分区教程
  16. 掘金茅台,三位投资客的暴富人生
  17. 宋体查询1.mysql数据库复习加强 2.mysql事务触发器 3.mysql 索引外键加强 4.zendstudio 的安装使用 5.svn版本控制器的使用-java教程...
  18. 计算机毕业设计django基于python企业资产管理系统
  19. 天玑9200实测成绩:CPU单核成绩突破1400分,堪称安卓芯皇
  20. Ceph分布式存储实战:从0搭建一个存储集群,并把块设备镜像映射到CentOS 7系统上的步骤

热门文章

  1. 元器件选型可靠性设计 第一章
  2. 杰理之AD14U盘升级【篇】
  3. MYSQL收获及体会_我的MYSQL学习心得(一) 简单语法
  4. ucharts 图表接口数据处理
  5. java 反射private_java使用反射强制给private字段赋值
  6. c++设计局域网聊天工具
  7. 360浏览器的html在哪里,360浏览器在哪个文件夹里_360浏览器文件夹位置怎么打开-系统城...
  8. 2021-02-26 PMP 群内练习题 - 光环
  9. Tableau新手教程!第一个仪表盘!Tableau初学者
  10. vue3项目实战---知乎日报----首页样式结构