分析了贝壳的房源信息数据,发现地址链接的参数传递是有规律的

https://tj.ke.com/chengjiao/a3l4/

a3 实际表示的

l4 表示的是

然后 将复合条件拼成一个字符串,带过去。看着真的很像加密过的。赞

import os, re
import requests
import random
import time
from bs4 import BeautifulSoupuser_agent_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1","Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5","Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
UA = random.choice(user_agent_list)  ##从self.user_agent_list中随机取出一个字符串
headers = {'User-Agent': UA}  ##构造成一个完整的User-Agent (UA代表的是上面随机取出来的字符串哦)url = 'https://tj.ke.com/chengjiao/pg'for x in range(2,41):time.sleep(random.randint(2,5))with requests.get(url+str(x)+'ddo22p7', headers=headers, timeout=5) as response:soup = BeautifulSoup(response.text, 'lxml')# print(soup.title.text)  # 打印titleli_list = soup.find('ul', class_='listContent').find_all('li')# print(li_list)for li_quick in li_list:try:#取成交日期dealDate=li_quick.find('div',class_='dealDate').get_text().strip()#取名称title=li_quick.find('div',class_='title').a.get_text().strip()#取总价totalPrice=li_quick.find('div',class_='totalPrice').find('span',class_='number').get_text().strip()#取单价unitPrice=li_quick.find('div',class_='unitPrice').find('span',class_='number').get_text().strip()#取位置信息positionInfo=li_quick.find('div',class_='positionInfo').get_text().strip()#取成交周期dealCycleTxt0=li_quick.find('div',class_='dealCycleeInfo').find('span',class_='dealCycleTxt').find_all('span')[0].get_text().strip()#取挂牌价格dealCycleTxt1=li_quick.find('div',class_='dealCycleeInfo').find('span',class_='dealCycleTxt').find_all('span')[1].get_text().strip()except:continuefinally:print(title,',',dealDate,',',totalPrice,',',unitPrice,',',dealCycleTxt0,',',dealCycleTxt1,',',positionInfo)

  

转载于:https://www.cnblogs.com/duoba/p/11523132.html

python抓取贝壳房源信息相关推荐

  1. python找房源_python抓取贝壳房源信息

    分析了贝壳的房源信息数据,发现地址链接的参数传递是有规律的 a3 实际表示的 l4 表示的是 然后 将复合条件拼成一个字符串,带过去.看着真的很像加密过的.赞 import os, re import ...

  2. python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

  3. Python抓取淘女郎网页信息以及代码下载

    上一篇Python抓取糗事百科网页信息以及源码下载 也是利用python抓取网页信息,轻车熟路,知道一个之后,轻轻松松就是实现啦. 淘女郎网页地址:https://mm.taobao.com/json ...

  4. 李亚涛:python抓取某房源户型图并自动保存到文件夹

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

  5. 使用python抓取美团商家信息

    抓取美团商家信息 import requests from bs4 import BeautifulSoup import jsonurl = 'http://bj.meituan.com/' url ...

  6. 简单的Python抓取招聘网站信息(1)

    作为一名大四狗刚刚经历完找工作的浪潮,发现每天需要去各类招聘网站进行看招聘信息非常麻烦,想到用Python爬虫抓取招聘网站的招聘信息.同届的同学大多找完了工作,文章就给将来需要的同学看吧~因为不着急, ...

  7. Python抓取基金公开信息,从此选基金不再盲目

    全市场近7000只基金,其中股票类基金近4000只.共有140多家基金公司,2000多位基金经理管理这些基金.作为普通基金投资者,怎么找到合适的基金呢? 当然是通过完善的数据库和合适的选择方法.那么, ...

  8. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  9. python抓取微信通讯录信息

    关键词:Bot chats() friends() groups() mps() 库:wxpy code Part_1: from wxpy import * bot = Bot() #初始化 my_ ...

最新文章

  1. 【LeetCode从零单排】No 191.Number of 1 Bits(考察位运算)
  2. Go进阶(2): 变量+数据类型
  3. hyperion高光谱参数_收藏!光纤光谱仪在激光领域的典型应用
  4. Wing IDE 4.1破解教程
  5. Flex(flash)检测摄像头的3种状态(是否被占用,没安装摄像头,正常)
  6. 每日算法系列【LeetCode 42】接雨水
  7. BPF 之巅:洞悉 Linux 系统和应用性能
  8. 海量数据挖掘MMDS week3:流算法Stream Algorithms
  9. 简单实用的 Ubuntu 快捷键
  10. SIGIR 2020最佳论文公布,清华大学揽多个奖项,大三学生摘得最佳短论文奖
  11. linux超级终端配置交换机路由器
  12. 方方格子access_有哪些好用能提高工作效率的 Excel 插件(或 Office 办公插件)值得推荐?...
  13. vue+腾讯位置服务 实现坐标拾取器功能
  14. Java 简单计算器
  15. 笔记(待续)-动力学逆问题相关基础知识
  16. 一行代码解决IE6~IE8以及IE兼容模式下的兼容问题
  17. 重庆市计算机专业高考试题,职业高中高考计算机专业试卷5
  18. 小程序与APP相融共生:两种服务形态的互补
  19. 参加ACM经历及总结
  20. 下载、编译官方Android 4.1.2 源码

热门文章

  1. nodejs+html转换pdf,Nodejs中使用phantom将html转为pdf或图片格式的方法
  2. php用ajaxs上传图片_php+ajax实现图片文件上传功能实例
  3. javacurrentmap_Java 8 并发: 原子变量和 ConcurrentMap
  4. linux管理子进程c,Linux 进程管理 CGroup
  5. java 线程崩溃_java语言中application异常退出和线程异常崩溃的捕获方法,并且在捕获的钩子方法中进行异常处理...
  6. php使用位运算来实现日留存的算法
  7. 浅谈Promise对象在ReactNative中的使用
  8. 远程网络读取服务器文件是否存在,远程读取服务器文件是否存在
  9. spi iic和串口的区别_GMII、SGMII和SerDes的区别和联系
  10. linux批量执行命令脚本,2.3-命令批量执行脚本