一、网页分析

网页中房子信息都在//div[@class=“shop_list shop_list_4”]/dl[@class=“clearfix”]里面。

以标题为例用xpath-helper插件分析。

二、代码实战

import requests
import parsel
import csv#https://xian.esf.fang.com/
#https://xian.esf.fang.com/house/i31/
#https://xian.esf.fang.com/house/i32/
#https://xian.esf.fang.com/house/i33/
#https://xian.esf.fang.com/house/i34/url = 'https://xian.esf.fang.com/house/i37/'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
data = response.text
print(data)
selector = parsel.Selector(data)
dls = selector.xpath('//div[@class="shop_list shop_list_4"]/dl[@class="clearfix"]')
print(dls)
for dl in dls:name = dl.xpath('.//h4[@class="clearfix"]/a/span/text()').get()if name:name = dl.xpath('.//h4[@class="clearfix"]/a/span/text()').get().strip()#print(name.strip())addr = dl.xpath('.//p[@class="add_shop"]/span/text()').get()if addr:#print(addr)addr = dl.xpath('.//p[@class="add_shop"]/span/text()').get()price = dl.xpath('.//dd[@class="price_right"]/span/text()').getall()price_w = dl.xpath('.//dd[@class="price_right"]/span/b/text()').getall()#print(price_w)if price:price[1] = price_w[0]#print("|".join(price))price = "|".join(price)room = dl.xpath('.//p[@class="tel_shop"]/text()').getall()area = dl.xpath('.//p[@class="tel_shop"]/i').re("[\d~㎡]+")if room:room = "".join(room).strip()str = room.split()#print("|".join(str))room = "|".join(str)orig_url = dl.xpath('.//h4[@class="clearfix"]/a/@href').get()if orig_url:#print(orig_url)orig_url = dl.xpath('.//h4[@class="clearfix"]/a/@href').get()print([name,price,addr,room,orig_url])with open('house.csv',mode='a',encoding='utf-8',newline='') as f:csv_write = csv.writer(f)csv_write.writerow([name,price,addr,room,orig_url])

爬取结果:

保存下来的csv文件。

备注:本案例在爬取第二页的时候出现了抓取内容为空,后面解决了会更新文章,如果你有好的解决办法,欢迎留言交流。

python爬虫---一键采集ftx网站上的所有房源信息相关推荐

  1. python 爬虫实践 (爬取链家成交房源信息和价格)

    简单介绍 pi: 简单介绍下,我们需要用到的技术,python 版本是用的pyhon3,系统环境是linux,开发工具是vscode:工具包:request 爬取页面数据,然后redis 实现数据缓存 ...

  2. Python实践 - 网络爬虫笔记 - 2、从网站上爬取公开信息

    Python实践笔记 - 2.从网站上爬取公开信息 张板书的Python的实践笔记,包括笔记与DeBug的经历. 为了完成一个比较麻烦的实习任务,尝试着做了这样一个爬虫项目. 任务要求之一是要检索安徽 ...

  3. Python爬虫,爬取51job上有关大数据的招聘信息

    Python爬虫,爬取51job上有关大数据的招聘信息 爬虫初学者,练手实战 最近在上数据收集课,分享一些代码. 分析所要爬取的网址 https://search.51job.com/list/000 ...

  4. 记第一次Python爬虫-----五块五毛网站小说

    事情要从那个吃了蝙蝠的人开始说起(2020.02.03记)...... 一.前因 因为哪些个吃蝙蝠的人,让我有足够的时间和充分的理由,可以待在家不出门,也不会被嫌弃,于是,待久了,人总要无聊,于是开始 ...

  5. 如何使用VB批量采集指定网站上的图片文件以及网页内文字等资源素材

    做自媒体的,可能需要到采集网络上的图片及文章等素材,手动一张张去右键下载效率当然太低 了.还有的朋友不喜欢动脑筋,喜欢到网上搜索一些工作总结啊,或是看小说啊那些文字看得到复制不了,要是能有个小工具来帮 ...

  6. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  7. Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中

    Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...

  8. 零基础入门python爬虫之《青春有你2》选手信息爬取

    零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...

  9. Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/   1.爬取租房标题 ...

最新文章

  1. Challenges(分组、聚合、连接)
  2. SQL语句更改表所有者
  3. android引用的java包_Android开发中jar包的创建及引用
  4. Database之SQLSever:SQLSever数据库管理学习并深入理解SQL命令语句进阶综合篇《初级→中级→高级》(持续更新,建议收藏)
  5. stract oracle,ORACLE 字符串聚合函数 strCat
  6. 大型网站HTTPS 实践(一)| HTTPS 协议和原理
  7. python调用dll函数_关于从加载的DLL调用函数的Python基本问题
  8. python3.8安装matplotlib_图文详解python之matplotlib安装与报错解决办法
  9. python小区管理系统设计_小区物业管理系统设计与实现
  10. MarkDown简单使用教程
  11. Mac电脑必备音乐下载工具-洛雪音乐助手lx-music-desktop v1.1.1正式版
  12. day18 - 正则表达式
  13. 友善之臂最新版mini2440学习笔记——u-boot 1.1.6移植(一)
  14. linux Ubuntu使用Eclipse菜单栏不见了解决方法
  15. 验证码识别平台哪个好?
  16. Win10各版本区别
  17. 电脑文件丢失你都是怎么找回来的?
  18. Mongodb std::exception::what(): basic_filebuf::underflow error reading the file: iostream error
  19. 批量删除多个 Word 文档的空白页
  20. kvm虚拟机扩展磁盘空间

热门文章

  1. 微信朋友圈奢侈品代购背后:圈子营销光明正大卖“假货”
  2. 图神经网路入门(1)
  3. aix 安装oracle smit install_latest,Oracle 9i在AIX5L系统上的详细安装过程
  4. c#——InitializeComponent();
  5. 服务提供商SD-WAN市场非常广阔
  6. 进程间通信:管道(1)
  7. android 绘制正方形图片,是Android的自定义View-绘制流程-正方形图片控件(SquareImageView)...
  8. 麒麟桌面系统配置samba共享
  9. 联想电脑linux系统还原,联想怎么一键还原_一键还原电脑系统的通用方法 - 驱动管家...
  10. 景安服务器不稳定,服务器常见问题二