#encoding=utf-8
模块导入
import requests
from lxml import etree
import xlwt
import urllib.request

主程序

def main():baseurl = 'https://www.douban.com/group/beijingzufang/discussion?start={0}' #URL地址,{}中间数字可以跟随for循环一直更改datalists=getdata(baseurl)savedata(datalists)

网页解析

def getdata(baseurl): #爬取网页datalist = [] #新建空列表,方便存储爬取到的数据for i in range(0,226,25): #豆瓣每一次翻页,数字增加25,故步长设置为25,左闭右开,226结束url = baseurl.format(i)#生成每一页的urlheaders={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400',}#设置请求头resp=requests.get(url=url,proxies={'https':'IP'},headers=headers,)#访问网页,多次访问豆瓣会屏蔽,因此需要换IPhtml=resp.content.decode('utf-8') #设置网页解码格式tree=etree.HTML(html)#根据xpath的规则解析网页names=tree.xpath('//td[@class="title"]/a/text()')  #//表示全局搜索,页面class="title"的属性刚好是我们需要的,用text()获取到下面具体的文本信息。hrefs = tree.xpath('//td[@class="title"]/a/@href')#用@属性名获取属性值users= tree.xpath('//td[@nowrap="nowrap"]/a/text()')# 如果print(names)#生成的是一个大列表,含25个namesfor x in zip(names,users,hrefs):  #将每一次获取到的标题名和链接,用户名合并成为元组x=list(x) #将元组转化成列表filters=['136964886X7','热心吃瓜群众','1398319X6978','M.','18315277X59','于','1762X9668','紫幕','15223X4445','墨尘若雪','18502X5129','。','1911165X949','1512X0681','16602X860','嘛嘛公寓','18716X0847','招财喵','1327X85500','你是来拉屎的吧','1X22301207','真的 ','157614X040','丁丁猫儿' ,'盯盯猫儿												

python一键获取豆瓣租房小组前十页信息,并导入EXCEL(Xpath法)相关推荐

  1. xpath提取当当网数学书前十页信息

    ''' http://category.dangdang.com/cp01.03.51.00.00.00.htmlget这些书都在一个个的li标签里,先获取所有的li,再分别对每一个li进行xpath ...

  2. 过滤豆瓣租房小组中介贴之 python 实现余弦相似度(转)

    为什么80%的码农都做不了架构师?>>>    前几天做了个微信找房机器人, 爬取豆瓣租房小组的时候发现很多伪装的中介帖,如下这种格式: 可月付 无中介 方庄地铁附近 芳城园一区单间 ...

  3. python爬取豆瓣租房信息

    文章目录 任务描述 完整代码 运行结果 任务描述 使用python爬虫,实现获取豆瓣"北京租房"的租房信息,并筛选适合个人的房源存入Excel.使用方法都写在注释里了,请认真阅读哦 ...

  4. 使用Python爬虫获取豆瓣影评,并用词云显示

    使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...

  5. python爬虫获取豆瓣图书Top250

    在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...

  6. 豆瓣图书短评爬取(其中一本书的短评<前十页>)

    目标图书是"流浪地球"(只是一个图书编号不同) 爬取前十页,包括评论人员的名称.评论日期.评论等级.被赞个数.评论内容. 先看运行结果: (由于输出比较多直截首尾的图): 直接上代 ...

  7. 如何在豆瓣租房小组快速找到满意的房子

    这几天忙着找房子,没怎么更新公众号,新浪本来是提供人才公寓的,可惜我错过了. 在大城市租房真的是一把辛酸泪,至今不知道搬家多少次了,今天就分享下我在北京租房找房的经历,或许对你找房子(不限于北京)有点 ...

  8. 爬虫项目之豆瓣电影排行榜前10页

    目录 一.学习资源: 二.知识点介绍 1.urlib库的基本使用 ​ 2.使用实例 ①获取网页源码 ②从服务器下载网页.图片.视频 3.UA介绍 ①简介 ②实例 三.项目详细讲解 1.分析 2.步骤 ...

  9. node.js中获取请求当前页的前一页URL地址

    2019独角兽企业重金招聘Python工程师标准>>> PHP中获取请求当前页的前一页URL地址,用如下代码就可以实现: $_SERVER['HTTP_REFERER'] 在node ...

最新文章

  1. PHP的CURL报错的排查记录:短连接的成本真的很高啊
  2. Lucene概述第一部分:创建索引
  3. 【SpringCloud】第五篇: 路由网关(zuul)
  4. python获取他人的ip_Python获取指定网段正在使用的IP
  5. Homebrew命令具体解释
  6. HDU-6341 Problem J. Let Sudoku Rotate(dfs 剪枝)
  7. [转载] 大道至简:软件工程实践者的思想——第八章 你看得到工具的本质吗
  8. oracle脑裂的判断机制,Keepalived两节点出现双VIP的情况(脑裂)
  9. 应用中安装第三方apk的两种方法:利用Intent跳转安装页面、利用PackageInstaller静默安装
  10. 科研项目研究的基本步骤
  11. build from source 安装 PyTorch及很多坑
  12. PCB设计中常见的错误与解决方法
  13. 灵性图书馆:好书推荐-《当下的力量》
  14. 小程序用哪个服务器好,小程序用什么服务器好
  15. 计算机如何远程控制对方手机,如何远程控制别人的电脑【图解】
  16. 安徽师大附中%你赛day2T3 巧克力 解题报告
  17. 使用3D-DNA流程,结果不升反降怎么破?
  18. 学python买什么电脑好用又实惠_用不到1000美元攒一台深度学习用的电脑:一次深度学习和便宜硬件的探奇!...
  19. php对数字字符串加解密
  20. c语言马踏棋盘编程分析,C语言马踏棋盘实现

热门文章

  1. eclipse自动提示功能没有的解决办法
  2. python计算选手最后得分_Python模拟决赛现场最终得分计算过程
  3. class Property Get、Property Let 使用说明
  4. 私域流量和裂变营销的关系,什么是超级APP,我们企业能拥有吗?
  5. 2020年每月工作日表_2020年工作场所技能再培训的诫命
  6. android源码编译 老罗,Rx_Android 的简单实用方法(参考老罗代码)
  7. bing 搜索 默认排除csdn 内容
  8. 笔记本外接显示器DELL,显示器总是阶段性黑屏
  9. Lotus Notes常见问题答疑(转)
  10. 计算机软件作文800字,电脑程序选择不走的表作文800字 关于电脑程序选择不走的表的作文800字...