都说现在的房价很高,具体有多高呢,我们一起来看看。

现在网上关于房子的价格以及交易信息鱼龙混杂,与实际情况相差比较大,目前链家平台的数据应该是相对比较可靠的,所以这次我们就打算去链家爬一爬。

说到爬虫,前面也有说过,无非就三个主要的步骤

1、获取目标网页或接口

2、从目标网页或接口中解析并提炼出你要的数据字段

3、数据保存

我们今天就以链家平台上北京地区二手房为例,首先是打开目标网页。

https://bj.lianjia.com/ershoufang/

网页下面有分页,一共提供了 100 页数据,也就是说这 100 页都是我们的目标网页,所以第一件事就是要获取到总页数。

打开开发者模式可以看到,有个字段 totalPage 字段,这个字段就是总页数,如下图。

有了总页数之后呢,接下来就是要对这 100 个页面循环解析了,把我们要的字段和数据都解析出来。

为了获取更详细的数据,这里我们进入到详情页去解析数据,同样打开开发者模式,看到有总价 total(总价)、unitPriceValue(单价)、areaName(位置)等字段,这些就是我们要获取的主要字段。

解析得到字段数据后,就要把数据保存起来,保存数据的方式一般有保存到数据库(Mysql、MongoDB)和保存到本地文件(txt、excel、csv),为了方便起见,这里我们将数据只保存到本地 csv 文件。

上面说的就是这个爬虫的大致过程,下面是一段主要代码,在公众号后台回复关键字【链家】可获取完整代码,有需要 csv 文件数据的也可以后台私信联系我哈。

    def getContent(self, url):totalPage = self.getTotalPage(url)totalPage = 2 #为了方便调试,我这里把总页数写死了# 循环处理每个目标页面for pageNum in range(1, totalPage+1 ):url = "https://bj.lianjia.com/ershoufang/pg{}/".format(pageNum)print("正在获取第{}页数据: {}".format(pageNum,url))response = requests.get(url, headers = self.headers)soup = BeautifulSoup(response.text, "html.parser")links = soup.find_all("div", class_ = "info clear")for i in links:link = i.find("a")["href"]detail = self.parseDetail(link)self.datas.append(detail)#为了防止反爬限制休眠1stime.sleep(1)# 数据存储到csv文件中data = pd.DataFrame(self.datas)# 自定义字段columns = ["小区", "户型", "面积", "价格", "单价", "朝向", "电梯", "位置", "地铁"]data.to_csv("./lianjiaData.csv", encoding='utf_8_sig', index=False, columns=columns)

python采集链家二手房信息相关推荐

  1. python分析链家二手房信息----数据分析实战(一)

    链家二手房信息 # 导入需要的库:科学计算包numpy, pandas 可视化包matplotlib, seaborn 机器学习包 sklearn import numpy as np import ...

  2. PyQt5+Python+Excel链家二手房信息爬取、可视化以及数据存取

    成果图: 第一步运行代码searsh.py,效果如下 第二步选择你所需要爬取数据的城市,如湖北-武汉 然后搜索,结果如下 如果你想爬取更多信息,只需要点击下一页即可 第三步,保存数据.可以将所显示的所 ...

  3. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  4. python爬虫requests源码链家_python爬虫爬取链家二手房信息

    #coding=utf-8 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup imp ...

  5. python爬虫代码房-python爬虫爬取链家二手房信息

    #coding=utf-8 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup imp ...

  6. python二手房使用教程_python爬虫爬取链家二手房信息

    #coding=utf-8 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup imp ...

  7. php爬取房源,Python 爬虫 链家二手房(自行输入城市爬取)

    因同事想在沈阳买房,对比分析沈阳各区的房价,让我帮忙爬取一下链家网相关数据,然后打 算记下笔记 用于总结学到的东西&用到的东西. 一.爬虫需要会什么? 学习东西 首先你要知道它是干嘛的.爬虫 ...

  8. python爬取链家二手房信息

    爬取过程分析: 1.链家网url:https://bj.lianjia.com/ershoufang/pg2/ 显示的二手房信息每个url递增一 2.访问时要加头信息,否则无法访问 3.用beauti ...

  9. python链家二手房_python 爬取链家二手房信息

    '''Created on 2017-10-9 @author: wbhuangzhiqiang''' importsysimportreimportcsvimporturllib.requestfr ...

最新文章

  1. OpenCL,OpenGL编译
  2. 会员日亚马逊工人罢工:反抗“与机器比速度”的考核制!
  3. 给IC 应届毕业生的 忠告【转载】
  4. 2020 我的C++的学习之路 第八章函数
  5. 分支管理---Feature分支
  6. keepalived实现nginx的高可用(双主模型)
  7. 云+X案例展 | 民生类:浪潮云打卡人间仙境张家界
  8. iPhone SE 3最高机身内存将增至256GB 较当前版本翻番
  9. 剑指offer之构建乘积数组
  10. 场效应管P-MOS N-MOS
  11. 解决curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused
  12. clousx6机器人怎么导入词库_clousx6
  13. SGX 是什么技术?
  14. php配置 验证码无法显示,PHP验证码无法显示的原因及解决办法
  15. 什么是数据结构?是举一个例子,叙述逻辑结构、存储结构和运算三个方面的内容。
  16. 某微型计算机指令格式如图,计算机组成原理期末复习试题2套不含答案
  17. 文本输入框input实现字母大小写转换
  18. 【题解】纪中篮球联赛
  19. linux 初始化文件失败,linux(十)之初始化文件
  20. 一周电商零售news汇总(1.26-1.31)

热门文章

  1. 细细品味hadoop
  2. TCP报文中的SYN,FIN,ACK,PSH,RST,UR
  3. 【record】新系统软件无法打开,缺少dll
  4. 超诡异的自杀案,有点坑爹
  5. TI DSP系列分类
  6. 再见, 软交换!又一个通信时代的落幕
  7. 操作系统教程(第5版)习题解答
  8. 《杜拉拉升职记》职场36计
  9. 【Android楚君】【Python洪君】生成姓名: 根据性别、字数随机生成好听的名字
  10. 数据可视化之Seaborn绘图