#  本文以浦东新区为例--其他区自行举一反三

import requests
import pandas as pd
import pprint
import csv
import pandas as pd
from bs4 import BeautifulSoup
url='https://sh.lianjia.com/chengjiao/{areo}/pg{page}/'
data=[]
#定义区列表
arealist=['beicai','biyun','caolu','chuansha','datuanzhen','geqing','gaohang','gaodong','huamu','hangtou','huinan','jinqiao','jinyang','kangqiao','lujiazui','laogangzhen','lingangxincheng','lianyang','nichengzhen','nanmatou','sanlin','shibo','shuyuanzhen','tangqiao','tangzhen','waigaoqiao','wanxiangzhen','weifang','xuanqiao','xinchang','yuqiao1','yangdong','yuanshen','yangjing','zhangjiang','zhuqiao','zhoupu']
for j in range (1,101):for a in arealist:houseurl=url.format(areo=a,page=j)res=requests.get(houseurl)res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')content=soup.select('.info')#     print(content)#     print (type(content))for element in content:datum={}try:title=element.select('.title')[0].textexcept:title=''try:houseinfo=element.select('.houseInfo')[0].textexcept:houseinfo=''try:dealDate=element.select('.dealDate')[0].textexcept:houseinfo=''try:positionInfo=element.select('.positionInfo')[0].textexcept:positionInfo=''try:unitPrice=element.select('.unitPrice')[0].textexcept:unitPrice=''try:showprice=element.select('.dealCycleTxt')[0].textexcept:showprice=''try:totalPrice=element.select('.totalPrice')[0].textexcept:totalPrice=''try:metroline=element.select('.dealHouseTxt')[0].textexcept:metroline=''datum['title']=titledatum['metroline']=metrolinedatum['houseinfo']=houseinfodatum['dealDate']=dealDatedatum['positionInfo']=positionInfodatum['unitPrice']=unitPricedatum['showprice']=showpricedatum['totalPrice']=totalPricedatum['page']=jdatum['area']='pudong'   #属于哪个区放进去datum['mingxi']=a        #区下面的具体街道data.append(datum)
#             pprint.pprint(datum)

# 保存成csv文件
df=pd.DataFrame(data)
# print(data)
df.head()
df.to_csv('C/Sandra/pudong.csv')

  爬取下来共37636条,原始数据效果如下:

转载于:https://www.cnblogs.com/260554904html/p/9043581.html

上海链家网二手房成交数据爬取相关推荐

  1. python爬取链家网实例——scrapy框架爬取-链家网的租房信息

    说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...

  2. python爬取链家网的房屋数据

    python爬取链家网的房屋数据 爬取内容 爬取源网站 爬取内容 爬取思路 爬取的数据 代码 获取房屋url 获取房屋具体信息 爬取内容 爬取源网站 北京二手房 https://bj.lianjia. ...

  3. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  4. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  5. 爬取链家网二手房数据并保存到mongodb中

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 爬取链家网二手房数据并保存到mongodb中 文章目录 前言 一.爬虫的介绍 二.协程的介绍 三.css选择器 四.基于asyncio ...

  6. 数据抓取 | 数据分享 - 北京链家二手房成交数据抓取,保存格式为excel

    该项目应客户需求,抓取 东城西城朝阳海淀二手房成交 数据 抓取字段为:房源id,房型,交易日期,位置,总价,朝向,装修情况,建筑年代,所在楼层,房屋年限,建筑面积,套内面积,电梯情况 -- 抓取流程: ...

  7. python二手房使用教程_python实战:基于链家网二手房数据解析任务

    实战:基于链家网二手房数据解析任务 页面:https://bd.ke.com/ershoufang/ 获取如下信息: 标题 位置 房屋信息 关注人数 / 发布时间 房屋总价 房屋单价 备注信息 1.导 ...

  8. 成都双流区链家网租房python数据可视化

    0X00 数据来源:python爬虫获取链家二手房源信息 上一次我使用python爬取了链家上成都市双流区的一些租房信息,今天我们就来对爬取到的数据进行一些简单的数据可视化处理,学习学习python一 ...

  9. 数据分析:pandas分析链家网二手房信息

    分析链家网南京市二手房信息 链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据 总共有3000条二手房信息记录. import pandas as pd impo ...

  10. 基于python多线程和Scrapy爬取链家网房价成交信息

    文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...

最新文章

  1. 【Visual Studio 2019】创建 导入 CMake 项目
  2. C++类模版------STL的原理
  3. 频谱分析:c和python对比FFT的效率并画出幅度谱
  4. 2_6 CompositeMode.cpp 组合模式
  5. 受欢迎的五个开源可视化工具——你的选择是?
  6. 如何减小与“大牛”的差距
  7. 设计模式常见面试真题详解
  8. md5不是对称密码算法_密码学中的消息摘要算法5(MD5)
  9. Redis学习---(9)Redis 列表(List)
  10. 无线通信-信道模型概念
  11. GIM三维建模设计软件
  12. [程序设计]Java实现解析抖音无水印视频
  13. 基于socket的联机五子棋
  14. 如何实现同一个IP绑定多个域名
  15. ufo帧率测试网站_移动全平台性能测试分析工具:PerfDog性能狗
  16. 线下广告投放方案_线下推广方式有哪些?
  17. TCP长连接,心跳机制介绍
  18. 海康硬盘录像机接入RTSP/onvif协议安防视频平台EasyNVR的注意事项
  19. redis key导出及删除
  20. 所有的时间伟大的好莱坞电影大片

热门文章

  1. 使用layui修改table样式
  2. windows10强制删除文件_360都删除不了顽固文件?别慌,不足1M的工具帮你强制清理...
  3. python百度贴吧发帖签到_百度贴吧签到脚本
  4. ftp连不上linux虚拟机,cuteftp连不上Linux虚拟机的解决方案
  5. 程序猿崛起2——互联网时代下的新潮流和新活法
  6. win10进程太多怎么优化_摆脱流氓软件,这16款实用的Windows优化软件让你的系统更好用...
  7. Allegro Pad Designer焊盘制作指南
  8. apk改之理 java源码_ApkIDE改之理最新版+环境包下载
  9. android 混淆 minifyEnabled
  10. Android混淆规则