[python]赶集网二手房爬虫插件【可用任意扩展】
最近应一个老铁的要求,人家是搞房产的,所以就写了这个二手房的爬虫,因为初版,所以比较简单,有能力的老铁可用进行扩展。
import requests
import osfrom bs4 import BeautifulSoupclass GanJi():"""docstring for GanJi"""def __init__(self):super(GanJi, self).__init__()def get(self,url):user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'headers = {'User-Agent':user_agent}webData = requests.get(url + 'o1',headers=headers).textsoup = BeautifulSoup(webData,'lxml')sum = soup.find('span',class_="num").text.replace("套","")ave = int(sum) / 32forNum = int(ave)if forNum < ave:forNum = forNum + 1for x in range(forNum):webData = requests.get(url + 'o' + str(x + 1),headers=headers).textsoup = BeautifulSoup(webData,'lxml')find_list = soup.find('div',class_="f-main-list").find_all('div',class_="f-list-item ershoufang-list")for dl in find_list:print(dl.find('a',class_="js-title value title-font").text,end='|') # 名称# 中间 5 个信息tempDD = dl.find('dd',class_="dd-item size").find_all('span')for tempSpan in tempDD:if not tempSpan.text == '' : print(tempSpan.text.replace("\n", ""),end='|')print(dl.find('span',class_="area").text.replace(" ","").replace("\n",""),end='|') # 地址print(dl.find('div',class_="price").text.replace(" ","").replace("\n",""),end='|') # 价钱print(dl.find('div',class_="time").text.replace(" ","").replace("\n",""),end="|") # 平均print("http://chaozhou.ganji.com" + dl['href'],end="|") # 地址print(str(x + 1))if __name__ == '__main__':temp = GanJi()temp.get("http://chaozhou.ganji.com/fang5/xiangqiao/")
转载于:https://www.cnblogs.com/68xi/p/9486957.html
[python]赶集网二手房爬虫插件【可用任意扩展】相关推荐
- python二手房课程设计_【Python】赶集网二手房爬虫 (可扩展)
[Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup class GanJi(): "&quo ...
- python官网学习爬虫资料_Python爬虫学习?
1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...
- Python 花瓣网动态爬虫
好久没有写爬虫了,之前只是止步于爬取静态网页,于是准备找个简单的动态网页进行爬取,在学长的建议下,进军花瓣网. 首先在爬取图片之前肯定要对网页源码进行分析 这里可以使用chrome的F12开发人员工具 ...
- 爬取赶集网二手房信息(详细代码)
基本没有反爬,直接上代码 import requests from lxml import etree import re import xlwt import timeheaders = {'Use ...
- python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...
原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...
- python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...
前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...
- python爬取链家新房_Python爬虫实战:爬取链家网二手房数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
- python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
- PythonR爬取分析赶集网北京二手房数据(附详细代码)
本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...
最新文章
- EDIUS新建项目工程设置
- golang 中的sort 包
- keynotes egestas,PPT 渐变背景下载-imsoft.cnblogs
- CFileDialog 在使用sdk 后出现异常 Access violation
- python qt教程_Python - Python Qt 开发教程(1)
- C# 生成 MongoDB 中的 ObjectId
- C++工作笔记-使用typeid获取对象的类名
- 论述计算机硬件结构的理解论文,论述对汇编语言教学内容和方法及特点的认识与思考...
- 基于Linux和MiniGUI的嵌入式系统软件开发指南(二)
- 通过分析系统日志,统计你的电脑开机时间的小程序PC PowerOn Time,附源码
- request一些常用方法
- Mysql事务[学习笔记]
- 图像分割的衡量指标详解
- 51单片机c语言xdata,新概念51单片机c语言教程ppt
- 可以检测手机帧率和温度的软件_腾讯黑鲨游戏手机3评测:深度定制带来的全新游戏体验...
- ddm模型公式_股利增长模型计算公式
- 02-Axure9.0软件布局及介绍
- 好看的typecho心情说说主题模板 记录生活日记
- 游戏修改器制作教程三:内存与Cheat Engine
- 【美化§炫彩篮球火win7电脑主题】