2019年过去了,突然想看看外界一直在说的房价跌跌跌,到底跌成了啥样子,于是,花了点时间,把链家上北上广深杭这几个热门城市的二手房单价弄下来看看。

直接上代码了

(临近过年,懒了许多,代码写得很简单,各位看官可以跳到最后直接看房价情况即可)

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time#把常用的定义成2个函数方便使用
def get_html(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}res = requests.get(url,headers = headers)code = res.status_coderes.encoding = 'utf-8'soup = BeautifulSoup(res.text,'lxml')return soup,codedef get_data(soup,list_price):items = soup.select('ul[class="sellListContent"] div[class="priceInfo"]')#print(items)for item in items:try:item.texttry:list_price.append(item.select('div[class="unitPrice"]')[0].text[2:-4])except:continueexcept:continue#广州
list_price = []
list_position = []
url1 = 'https://gz.lianjia.com/ershoufang/'
a = ['tianhe','yuexiu','liwan','haizhu','panyu','baiyun','huangpugz','conghua','zengcheng','huadou','nansha']
b = [100,100,100,100,100,100,100,47,100,100,69]
for i in range(0,11):url2 = url1+a[i]print("开始爬取"+a[i])time.sleep(3.23422) #这里的暂停可要可不要,我比较善良,爬一个区就让它休息一下for j in range(1,b[i]+1):url = url2+'/pg%d/'%j#print(url)soup,code = get_html(url)get_data(soup,list_price)list_position = list_position + ([a[i]]*(len(list_price)-len(list_position)))print('爬取完成第%d页'%j)time.sleep(0.00593)df = pd.DataFrame()
df['价格'] = list_price
df['区域'] = list_positiondf['价格'] = df['价格'].astype(int)
print("全市均价:",df['价格'].mean())
print(df.groupby('区域')['价格'].mean().sort_values(ascending=False))

代码里我偷懒了好多地方,各个城市我都是直接按行政区划分取数了,代码里的a就是区域,b就是各个区域对应的页数(直接一个一个码上去了,没有去写获取),但是链家网有一个限制,一个选项只能展示100页(3000套房)的房源情况,所以有些区域本来有好几千套房的,但是我最多也就取了3000套(不管了,反正只是要看一下区域单价,只能取3000套就当是抽样了)。

如果是要完整获取所有房源的单价,可以先获取城市下各个区域的href(下图1),然后进行url拼接,再到各个区域中取出各个小板块的href(下图2),最终拼接成各个板块的url,最后一步,根据各个板块url最下方的页码栏,取出各个板块有多少页房源(下图3),(极大概率下,板块的房源不可能会超过3000套的,如果真的有,那你再在各个板块了根据价格细分就行了)。

 

最最重要的是,把各个城市的房价情况弄出来给大家看(我坚信大部分童鞋是不会自己去跑脚本看结果的) 

看了一下,讲真这房价一点都不亲民,广州是四个一线城市中上车成本最低的,均价甚至不及二线城市杭州高。

python爬虫刨北上广深的房价来看看相关推荐

  1. 房价爬虫以及北上广深等城市近几年房价趋势

    最近,我爬取了各大城市近几年的成交房价趋势.展示如下. 北上广深近几年房价趋势 杭州宁波合肥厦门近几年房价趋势 长沙成都重庆近几年房价趋势 青岛 西安 苏州 大连 南京 欢迎关注,获取爬虫代码.

  2. 北上广深杭房价高压下,这也许是软件测试员扎根的唯一出路...

    简单算一笔账,目前小公司软件测试员工资一般是1万出头,年薪普遍在20万以下.在不考虑通胀和工资增长的情况下,除去吃喝需要攒30年才能攒出一线城市房子的首付,以这样的收入水平,基本上没法扎根. 想拿高薪 ...

  3. 北上广深杭房价高压下,这也许是程序员扎根的唯一出路...

    简单算一笔账,目前小公司Java后端工资一般是1万出头,年薪普遍在20万以下.在不考虑通胀和工资增长的情况下,除去吃喝需要攒30年才能攒出一线城市房子的首付,以这样的收入水平,基本上没法扎根. 想拿高 ...

  4. 北上广深的程序员,房子在向你们招手了!

    由于目前行业环境以及生存所迫,作为北上广深的程序员,不得不首先考虑两件事: "我真的决定扎根在这儿吗?" "我真的买得起这儿的房吗?" [房价,是爱恨情仇] 北 ...

  5. 北上广深之外,互联网经济也在杭州成都西安武汉异军突起

    二十年来,北上广深一直是中国互联网产业的最前沿.但近年来,事情正在起变化. 风头最劲的首推杭州.随着阿里巴巴成为世界级的互联网巨头,整个杭州也几乎成了电商之城,在中国互联网产业的版图上独树一帜. 另外 ...

  6. 利用python + pyecharts+Pandas对北上广深等城市进行租房数据分析

    本次分析的租房数据主要来源于上一篇博客中获取的"房天下"网站租房信息,对该数据分析主要使用了Pandas数据处理库. 利用python pyecharts进行租房情况数据分析 数据 ...

  7. 用Python分析北上广深租房情况,租房时优先考虑哪些因素?

    俗话说"金三银四",又到了换工作.乃至换城市的时候了.这对于"回望楼价又一年"的小伙伴们来说,也意味着又到了搬家换房子的时候了.北上广深四个一线城市,哪个城市的 ...

  8. 太酷炫了,我用 Python 画出了北上广深的地铁路线动态图

    今天教大家用python制作北上广深--地铁线路动态图,这可能是全网最全最详细的教程了. 坐标点的采集 小五之前做过类似的地理可视化,不过都是使用网络上收集到的json数据.但很多数据其实是过时的,甚 ...

  9. python空气质量分析报告_Python数据可视化:2018年北上广深空气质量分析

    原标题:Python数据可视化:2018年北上广深空气质量分析 作者:法纳斯特,Python爱好者,专注爬虫,数据分析及可视化 就在这周偶然看到一个学弟吐槽天津的空气,不禁想起那段厚德载雾,自强不吸的 ...

最新文章

  1. ASP.NET返回上一页面的实现方法
  2. Day 05 名人能树立好榜样吗
  3. python与人工智能编程-Python是人工智能和机器学习的最佳编程语言,证据在此!...
  4. mysql 关闭锁_mysql数据库取消锁
  5. 使用WSO2 ESB进行邮件内容过滤
  6. (19)脚手架工具Yeoman
  7. Element ui 中的Upload用法
  8. Windows 下 Redis 服务无法启动,错误 1067 进程意外终止解决方案
  9. 评分卡模型开发(八)--主标尺设计及模型验证
  10. 自行车html模板,自行车和配件HTML模板
  11. HTML5期末大作业:仿天猫购物网站设计——仿天猫购物商城(7页) 网页设计作业,网页制作作业, 学生网页作业, 网页作业成品, 网页作业模板
  12. 30个 CSS 样式常用的静态形状
  13. 火灾探测和监测系统的最新进展回顾
  14. Unity 资源商店无法登陆,提示链接失效 的解决办法
  15. HashMap 底层实现原理,看完面试不再懵逼。
  16. Excel使用right函数截断数据,并覆盖原来的数据
  17. JBoss 中间件漏洞
  18. 微信小程序苹果IOS手机无法加载显示临时图片路径
  19. Wormhole连接教程
  20. 汉诺塔问题——递归算法

热门文章

  1. 《第6讲 非线性优化 》读书笔记
  2. 3DMax”——新手小白入门篇
  3. OpenCV实现爱江山更爱美人时装周刷票
  4. 第1章 计算机系统漫游
  5. php把字符串做为代码执行的函数eval
  6. java开发入门实验报告_Java实验二实验报告 20135108 李泽源
  7. AI智能视频批量剪辑软件开发-云罗企客-视频一键批量处理
  8. 国庆节放假调休安排来了!共7天,中疾控:不提倡聚集聚会
  9. 马云:大数据时代_最重要的是做最好的自己
  10. 在贵州大数据峰会上,马云再次语出惊人!