如果你想入门数据分析,但是苦于没有数据,那就看下文如何用 10 行代码写一个最简单的自如房源爬虫

首先我们通过分析看到自如手机版有个 url 如下:http://m.ziroom.com/list/ajax-get-data  能够返回 json 数据

这个基本上包括了租房的一些重要信息,价格,小区,地铁沿线,朝向

所以要做的就是遍历这个地址得到所有的 json 数据

下面是代码:

import requests
import timewith open('ziroom.txt', 'a+') as f: for i in xrange(10, 9001, 10): payload = {'step': i} res = requests.post('http://m.ziroom.com/list/ajax-get-data', data=payload) for i in res.json()['data']: print i['id'] f.write(str(i)+'\n') time.sleep(3)

转载于:https://www.cnblogs.com/xihuineng/p/10590399.html

python自如爬虫相关推荐

  1. python网络爬虫程序技术,Python网络爬虫程序技术

    spContent=该课程是2018年广东省精品在线开放课程.课程主要以爬取学生信息.爬取城市天气预报.爬取网站图像.爬起图书网站图书.爬取商城网站商品等5个项目为依托,讲解Web.正则表达式.Bea ...

  2. 第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...

    第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-深度优先与广度优先原理 网站树形结构 深度优先 是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认 ...

  3. Python中爬虫框架或模块的区别

    Python中爬虫框架或模块的区别,我们在Python的学习过程中,需要不断的总结知识点,这样我们才能进步的更快一些. (1)爬虫框架或模块 Python自带爬虫模块:urllib.urllib2; ...

  4. Python Scrapy爬虫框架实战应用

    通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...

  5. python入门爬虫知识点

    Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会发生什么? 简单来说这段过程发生了以下四个步骤: 网络爬虫要做的,简单来说,就是实现浏览器的功 ...

  6. 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型

    Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...

  7. python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

    Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...

  8. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

  9. python小爬虫之天气查询

    python小爬虫之天气查询 刚开始研究爬虫,这个小程序通过抓取网页源代码,使用json解析实现了天气的查询. 1.需求分析 该博客实现了简单的天气查询功能,输入城市名称后可以查询出该城市的天气情况. ...

最新文章

  1. mybatis 一二事(1) - 简单介绍
  2. Fiddler抓取https的设置
  3. Software-Defined Networking之搬砖的故事
  4. mysql执行查询出来的数据_F#连接到在线MySQL数据库执行查询
  5. 微软正式发布Azure Functions 2.0
  6. 爬虫如何监听插件_Go 爬虫之 colly 从入门到不放弃指南
  7. mqtt实例 php_php搭建MQtt协议服务
  8. springboot 定时器_springBoot的定时器应该这样写
  9. [原译]一步步教你制作WPF圆形玻璃按钮
  10. 判断数组、集合list、string、int、double等是否为空,判断是否为值类型
  11. Java研发方向如何准备BAT技术面试
  12. Word 2019怎样自定义模板,并将自定义模板设为默认模板
  13. PR剪辑视频画面翻转缩放滑动特效转场PR预设
  14. 盘点IT职场“最差”程序员,这7个特征尤为典型!
  15. oracle语句查询时间范围
  16. Socks5代理Socks5 Proxy
  17. 随手记——静态Flag变量使用不规范导致的重大流程错误
  18. 网络监测是如何工作的?
  19. 16.停车场车位识别
  20. 合理利用自制力,养成好的习惯

热门文章

  1. 《OpenCV3编程入门-毛星云》第一部分 快速上手OpenCV
  2. KETTLE批量发送邮件(含附件)
  3. 免费Wifi软件哪个好?
  4. 科研项目质量管理的基本概念
  5. 漫谈中国古代十大“酒局”
  6. 专业摄影-水的拍摄技巧
  7. cf两边黑屏怎么解决win10_使命召唤17黑屏怎么解决 使命召唤17黑屏死机解决方法...
  8. 千元机终于来了,华为鸿蒙或再次起飞
  9. 推特目前无法发送确认码
  10. “0x00446d22”指令引用的“0xcccd40d5”内存。该内存不能为read。