python爬虫---一键采集ftx网站上的所有房源信息
一、网页分析
网页中房子信息都在//div[@class=“shop_list shop_list_4”]/dl[@class=“clearfix”]里面。
以标题为例用xpath-helper插件分析。
二、代码实战
import requests
import parsel
import csv#https://xian.esf.fang.com/
#https://xian.esf.fang.com/house/i31/
#https://xian.esf.fang.com/house/i32/
#https://xian.esf.fang.com/house/i33/
#https://xian.esf.fang.com/house/i34/url = 'https://xian.esf.fang.com/house/i37/'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
data = response.text
print(data)
selector = parsel.Selector(data)
dls = selector.xpath('//div[@class="shop_list shop_list_4"]/dl[@class="clearfix"]')
print(dls)
for dl in dls:name = dl.xpath('.//h4[@class="clearfix"]/a/span/text()').get()if name:name = dl.xpath('.//h4[@class="clearfix"]/a/span/text()').get().strip()#print(name.strip())addr = dl.xpath('.//p[@class="add_shop"]/span/text()').get()if addr:#print(addr)addr = dl.xpath('.//p[@class="add_shop"]/span/text()').get()price = dl.xpath('.//dd[@class="price_right"]/span/text()').getall()price_w = dl.xpath('.//dd[@class="price_right"]/span/b/text()').getall()#print(price_w)if price:price[1] = price_w[0]#print("|".join(price))price = "|".join(price)room = dl.xpath('.//p[@class="tel_shop"]/text()').getall()area = dl.xpath('.//p[@class="tel_shop"]/i').re("[\d~㎡]+")if room:room = "".join(room).strip()str = room.split()#print("|".join(str))room = "|".join(str)orig_url = dl.xpath('.//h4[@class="clearfix"]/a/@href').get()if orig_url:#print(orig_url)orig_url = dl.xpath('.//h4[@class="clearfix"]/a/@href').get()print([name,price,addr,room,orig_url])with open('house.csv',mode='a',encoding='utf-8',newline='') as f:csv_write = csv.writer(f)csv_write.writerow([name,price,addr,room,orig_url])
爬取结果:
保存下来的csv文件。
备注:本案例在爬取第二页的时候出现了抓取内容为空,后面解决了会更新文章,如果你有好的解决办法,欢迎留言交流。
python爬虫---一键采集ftx网站上的所有房源信息相关推荐
- python 爬虫实践 (爬取链家成交房源信息和价格)
简单介绍 pi: 简单介绍下,我们需要用到的技术,python 版本是用的pyhon3,系统环境是linux,开发工具是vscode:工具包:request 爬取页面数据,然后redis 实现数据缓存 ...
- Python实践 - 网络爬虫笔记 - 2、从网站上爬取公开信息
Python实践笔记 - 2.从网站上爬取公开信息 张板书的Python的实践笔记,包括笔记与DeBug的经历. 为了完成一个比较麻烦的实习任务,尝试着做了这样一个爬虫项目. 任务要求之一是要检索安徽 ...
- Python爬虫,爬取51job上有关大数据的招聘信息
Python爬虫,爬取51job上有关大数据的招聘信息 爬虫初学者,练手实战 最近在上数据收集课,分享一些代码. 分析所要爬取的网址 https://search.51job.com/list/000 ...
- 记第一次Python爬虫-----五块五毛网站小说
事情要从那个吃了蝙蝠的人开始说起(2020.02.03记)...... 一.前因 因为哪些个吃蝙蝠的人,让我有足够的时间和充分的理由,可以待在家不出门,也不会被嫌弃,于是,待久了,人总要无聊,于是开始 ...
- 如何使用VB批量采集指定网站上的图片文件以及网页内文字等资源素材
做自媒体的,可能需要到采集网络上的图片及文章等素材,手动一张张去右键下载效率当然太低 了.还有的朋友不喜欢动脑筋,喜欢到网上搜索一些工作总结啊,或是看小说啊那些文字看得到复制不了,要是能有个小工具来帮 ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...
- 零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
- Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
最新文章
- Challenges(分组、聚合、连接)
- SQL语句更改表所有者
- android引用的java包_Android开发中jar包的创建及引用
- Database之SQLSever:SQLSever数据库管理学习并深入理解SQL命令语句进阶综合篇《初级→中级→高级》(持续更新,建议收藏)
- stract oracle,ORACLE 字符串聚合函数 strCat
- 大型网站HTTPS 实践(一)| HTTPS 协议和原理
- python调用dll函数_关于从加载的DLL调用函数的Python基本问题
- python3.8安装matplotlib_图文详解python之matplotlib安装与报错解决办法
- python小区管理系统设计_小区物业管理系统设计与实现
- MarkDown简单使用教程
- Mac电脑必备音乐下载工具-洛雪音乐助手lx-music-desktop v1.1.1正式版
- day18 - 正则表达式
- 友善之臂最新版mini2440学习笔记——u-boot 1.1.6移植(一)
- linux Ubuntu使用Eclipse菜单栏不见了解决方法
- 验证码识别平台哪个好?
- Win10各版本区别
- 电脑文件丢失你都是怎么找回来的?
- Mongodb std::exception::what(): basic_filebuf::underflow error reading the file: iostream error
- 批量删除多个 Word 文档的空白页
- kvm虚拟机扩展磁盘空间
热门文章
- 微信朋友圈奢侈品代购背后:圈子营销光明正大卖“假货”
- 图神经网路入门(1)
- aix 安装oracle smit install_latest,Oracle 9i在AIX5L系统上的详细安装过程
- c#——InitializeComponent();
- 服务提供商SD-WAN市场非常广阔
- 进程间通信:管道(1)
- android 绘制正方形图片,是Android的自定义View-绘制流程-正方形图片控件(SquareImageView)...
- 麒麟桌面系统配置samba共享
- 联想电脑linux系统还原,联想怎么一键还原_一键还原电脑系统的通用方法 - 驱动管家...
- 景安服务器不稳定,服务器常见问题二