最近应一个老铁的要求,人家是搞房产的,所以就写了这个二手房的爬虫,因为初版,所以比较简单,有能力的老铁可用进行扩展。

import requests
import osfrom bs4 import BeautifulSoupclass GanJi():"""docstring for GanJi"""def __init__(self):super(GanJi, self).__init__()def get(self,url):user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'headers    = {'User-Agent':user_agent}webData    = requests.get(url + 'o1',headers=headers).textsoup       = BeautifulSoup(webData,'lxml')sum        = soup.find('span',class_="num").text.replace("套","")ave        = int(sum) / 32forNum     = int(ave)if forNum < ave:forNum = forNum + 1for x in range(forNum):webData    = requests.get(url + 'o' + str(x + 1),headers=headers).textsoup       = BeautifulSoup(webData,'lxml')find_list  = soup.find('div',class_="f-main-list").find_all('div',class_="f-list-item ershoufang-list")for dl in find_list:print(dl.find('a',class_="js-title value title-font").text,end='|') # 名称# 中间 5 个信息tempDD = dl.find('dd',class_="dd-item size").find_all('span')for tempSpan in tempDD:if not tempSpan.text == '' : print(tempSpan.text.replace("\n", ""),end='|')print(dl.find('span',class_="area").text.replace(" ","").replace("\n",""),end='|') # 地址print(dl.find('div',class_="price").text.replace(" ","").replace("\n",""),end='|') # 价钱print(dl.find('div',class_="time").text.replace(" ","").replace("\n",""),end="|") # 平均print("http://chaozhou.ganji.com" + dl['href'],end="|") # 地址print(str(x + 1))if __name__ == '__main__':temp = GanJi()temp.get("http://chaozhou.ganji.com/fang5/xiangqiao/")

  

转载于:https://www.cnblogs.com/68xi/p/9486957.html

[python]赶集网二手房爬虫插件【可用任意扩展】相关推荐

  1. python二手房课程设计_【Python】赶集网二手房爬虫 (可扩展)

    [Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup class GanJi(): "&quo ...

  2. python官网学习爬虫资料_Python爬虫学习?

    1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...

  3. Python 花瓣网动态爬虫

    好久没有写爬虫了,之前只是止步于爬取静态网页,于是准备找个简单的动态网页进行爬取,在学长的建议下,进军花瓣网. 首先在爬取图片之前肯定要对网页源码进行分析 这里可以使用chrome的F12开发人员工具 ...

  4. 爬取赶集网二手房信息(详细代码)

    基本没有反爬,直接上代码 import requests from lxml import etree import re import xlwt import timeheaders = {'Use ...

  5. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

  6. python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...

    前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...

  7. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  8. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  9. PythonR爬取分析赶集网北京二手房数据(附详细代码)

    本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...

最新文章

  1. EDIUS新建项目工程设置
  2. golang 中的sort 包
  3. keynotes egestas,PPT 渐变背景下载-imsoft.cnblogs
  4. CFileDialog 在使用sdk 后出现异常 Access violation
  5. python qt教程_Python - Python Qt 开发教程(1)
  6. C# 生成 MongoDB 中的 ObjectId
  7. C++工作笔记-使用typeid获取对象的类名
  8. 论述计算机硬件结构的理解论文,论述对汇编语言教学内容和方法及特点的认识与思考...
  9. 基于Linux和MiniGUI的嵌入式系统软件开发指南(二)
  10. 通过分析系统日志,统计你的电脑开机时间的小程序PC PowerOn Time,附源码
  11. request一些常用方法
  12. Mysql事务[学习笔记]
  13. 图像分割的衡量指标详解
  14. 51单片机c语言xdata,新概念51单片机c语言教程ppt
  15. 可以检测手机帧率和温度的软件_腾讯黑鲨游戏手机3评测:深度定制带来的全新游戏体验...
  16. ddm模型公式_股利增长模型计算公式
  17. 02-Axure9.0软件布局及介绍
  18. 好看的typecho心情说说主题模板 记录生活日记
  19. 游戏修改器制作教程三:内存与Cheat Engine
  20. 【美化§炫彩篮球火win7电脑主题】

热门文章

  1. VB 版 RGB 转 Lab 源代码
  2. Bzoj2073 [POI2004] PRZ
  3. Linux中buff/cache内存占用过高-手动清除释放内存
  4. 【2022-09-14】JS逆向之某团影视(jsjiami-v5)
  5. internal/modules/cjs/loader.js:883 throw err;
  6. ardupilot 地形数据触发RTL模式
  7. 用animation实现无缝轮播图
  8. Vue实现ECharts柱状图数据轮播(自动分页加载)
  9. SUMO学习(二)创建路网
  10. python进阶之路——输出print