python爬虫刨北上广深的房价来看看
2019年过去了,突然想看看外界一直在说的房价跌跌跌,到底跌成了啥样子,于是,花了点时间,把链家上北上广深杭这几个热门城市的二手房单价弄下来看看。
直接上代码了
(临近过年,懒了许多,代码写得很简单,各位看官可以跳到最后直接看房价情况即可)
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time#把常用的定义成2个函数方便使用
def get_html(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}res = requests.get(url,headers = headers)code = res.status_coderes.encoding = 'utf-8'soup = BeautifulSoup(res.text,'lxml')return soup,codedef get_data(soup,list_price):items = soup.select('ul[class="sellListContent"] div[class="priceInfo"]')#print(items)for item in items:try:item.texttry:list_price.append(item.select('div[class="unitPrice"]')[0].text[2:-4])except:continueexcept:continue#广州
list_price = []
list_position = []
url1 = 'https://gz.lianjia.com/ershoufang/'
a = ['tianhe','yuexiu','liwan','haizhu','panyu','baiyun','huangpugz','conghua','zengcheng','huadou','nansha']
b = [100,100,100,100,100,100,100,47,100,100,69]
for i in range(0,11):url2 = url1+a[i]print("开始爬取"+a[i])time.sleep(3.23422) #这里的暂停可要可不要,我比较善良,爬一个区就让它休息一下for j in range(1,b[i]+1):url = url2+'/pg%d/'%j#print(url)soup,code = get_html(url)get_data(soup,list_price)list_position = list_position + ([a[i]]*(len(list_price)-len(list_position)))print('爬取完成第%d页'%j)time.sleep(0.00593)df = pd.DataFrame()
df['价格'] = list_price
df['区域'] = list_positiondf['价格'] = df['价格'].astype(int)
print("全市均价:",df['价格'].mean())
print(df.groupby('区域')['价格'].mean().sort_values(ascending=False))
代码里我偷懒了好多地方,各个城市我都是直接按行政区划分取数了,代码里的a就是区域,b就是各个区域对应的页数(直接一个一个码上去了,没有去写获取),但是链家网有一个限制,一个选项只能展示100页(3000套房)的房源情况,所以有些区域本来有好几千套房的,但是我最多也就取了3000套(不管了,反正只是要看一下区域单价,只能取3000套就当是抽样了)。
如果是要完整获取所有房源的单价,可以先获取城市下各个区域的href(下图1),然后进行url拼接,再到各个区域中取出各个小板块的href(下图2),最终拼接成各个板块的url,最后一步,根据各个板块url最下方的页码栏,取出各个板块有多少页房源(下图3),(极大概率下,板块的房源不可能会超过3000套的,如果真的有,那你再在各个板块了根据价格细分就行了)。
最最重要的是,把各个城市的房价情况弄出来给大家看(我坚信大部分童鞋是不会自己去跑脚本看结果的)
看了一下,讲真这房价一点都不亲民,广州是四个一线城市中上车成本最低的,均价甚至不及二线城市杭州高。
python爬虫刨北上广深的房价来看看相关推荐
- 房价爬虫以及北上广深等城市近几年房价趋势
最近,我爬取了各大城市近几年的成交房价趋势.展示如下. 北上广深近几年房价趋势 杭州宁波合肥厦门近几年房价趋势 长沙成都重庆近几年房价趋势 青岛 西安 苏州 大连 南京 欢迎关注,获取爬虫代码.
- 北上广深杭房价高压下,这也许是软件测试员扎根的唯一出路...
简单算一笔账,目前小公司软件测试员工资一般是1万出头,年薪普遍在20万以下.在不考虑通胀和工资增长的情况下,除去吃喝需要攒30年才能攒出一线城市房子的首付,以这样的收入水平,基本上没法扎根. 想拿高薪 ...
- 北上广深杭房价高压下,这也许是程序员扎根的唯一出路...
简单算一笔账,目前小公司Java后端工资一般是1万出头,年薪普遍在20万以下.在不考虑通胀和工资增长的情况下,除去吃喝需要攒30年才能攒出一线城市房子的首付,以这样的收入水平,基本上没法扎根. 想拿高 ...
- 北上广深的程序员,房子在向你们招手了!
由于目前行业环境以及生存所迫,作为北上广深的程序员,不得不首先考虑两件事: "我真的决定扎根在这儿吗?" "我真的买得起这儿的房吗?" [房价,是爱恨情仇] 北 ...
- 北上广深之外,互联网经济也在杭州成都西安武汉异军突起
二十年来,北上广深一直是中国互联网产业的最前沿.但近年来,事情正在起变化. 风头最劲的首推杭州.随着阿里巴巴成为世界级的互联网巨头,整个杭州也几乎成了电商之城,在中国互联网产业的版图上独树一帜. 另外 ...
- 利用python + pyecharts+Pandas对北上广深等城市进行租房数据分析
本次分析的租房数据主要来源于上一篇博客中获取的"房天下"网站租房信息,对该数据分析主要使用了Pandas数据处理库. 利用python pyecharts进行租房情况数据分析 数据 ...
- 用Python分析北上广深租房情况,租房时优先考虑哪些因素?
俗话说"金三银四",又到了换工作.乃至换城市的时候了.这对于"回望楼价又一年"的小伙伴们来说,也意味着又到了搬家换房子的时候了.北上广深四个一线城市,哪个城市的 ...
- 太酷炫了,我用 Python 画出了北上广深的地铁路线动态图
今天教大家用python制作北上广深--地铁线路动态图,这可能是全网最全最详细的教程了. 坐标点的采集 小五之前做过类似的地理可视化,不过都是使用网络上收集到的json数据.但很多数据其实是过时的,甚 ...
- python空气质量分析报告_Python数据可视化:2018年北上广深空气质量分析
原标题:Python数据可视化:2018年北上广深空气质量分析 作者:法纳斯特,Python爱好者,专注爬虫,数据分析及可视化 就在这周偶然看到一个学弟吐槽天津的空气,不禁想起那段厚德载雾,自强不吸的 ...
最新文章
- ASP.NET返回上一页面的实现方法
- Day 05 名人能树立好榜样吗
- python与人工智能编程-Python是人工智能和机器学习的最佳编程语言,证据在此!...
- mysql 关闭锁_mysql数据库取消锁
- 使用WSO2 ESB进行邮件内容过滤
- (19)脚手架工具Yeoman
- Element ui 中的Upload用法
- Windows 下 Redis 服务无法启动,错误 1067 进程意外终止解决方案
- 评分卡模型开发(八)--主标尺设计及模型验证
- 自行车html模板,自行车和配件HTML模板
- HTML5期末大作业:仿天猫购物网站设计——仿天猫购物商城(7页) 网页设计作业,网页制作作业, 学生网页作业, 网页作业成品, 网页作业模板
- 30个 CSS 样式常用的静态形状
- 火灾探测和监测系统的最新进展回顾
- Unity 资源商店无法登陆,提示链接失效 的解决办法
- HashMap 底层实现原理,看完面试不再懵逼。
- Excel使用right函数截断数据,并覆盖原来的数据
- JBoss 中间件漏洞
- 微信小程序苹果IOS手机无法加载显示临时图片路径
- Wormhole连接教程
- 汉诺塔问题——递归算法