python一键获取豆瓣租房小组前十页信息，并导入EXCEL（Xpath法）

#encoding=utf-8
模块导入
import requests
from lxml import etree
import xlwt
import urllib.request

主程序

def main():baseurl = 'https://www.douban.com/group/beijingzufang/discussion?start={0}' #URL地址，{}中间数字可以跟随for循环一直更改datalists=getdata(baseurl)savedata(datalists)

网页解析

def getdata(baseurl): #爬取网页datalist = [] #新建空列表，方便存储爬取到的数据for i in range(0,226,25): #豆瓣每一次翻页，数字增加25，故步长设置为25，左闭右开，226结束url = baseurl.format(i)#生成每一页的urlheaders={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400',}#设置请求头resp=requests.get(url=url,proxies={'https':'IP'},headers=headers,)#访问网页，多次访问豆瓣会屏蔽，因此需要换IPhtml=resp.content.decode('utf-8') #设置网页解码格式tree=etree.HTML(html)#根据xpath的规则解析网页names=tree.xpath('//td[@class="title"]/a/text()')  #//表示全局搜索，页面class="title"的属性刚好是我们需要的，用text（）获取到下面具体的文本信息。hrefs = tree.xpath('//td[@class="title"]/a/@href')#用@属性名获取属性值users= tree.xpath('//td[@nowrap="nowrap"]/a/text()')# 如果print(names)#生成的是一个大列表，含25个namesfor x in zip(names,users,hrefs):  #将每一次获取到的标题名和链接，用户名合并成为元组x=list(x) #将元组转化成列表filters=['136964886X7','热心吃瓜群众','1398319X6978','M.','18315277X59','于','1762X9668','紫幕','15223X4445','墨尘若雪','18502X5129','。','1911165X949','1512X0681','16602X860','嘛嘛公寓','18716X0847','招财喵','1327X85500','你是来拉屎的吧','1X22301207','真的 ','157614X040','丁丁猫儿' ,'盯盯猫儿												

											
python一键获取豆瓣租房小组前十页信息，并导入EXCEL（Xpath法）相关推荐	

								xpath提取当当网数学书前十页信息
		''' http://category.dangdang.com/cp01.03.51.00.00.00.htmlget这些书都在一个个的li标签里,先获取所有的li,再分别对每一个li进行xpath ...
		
						过滤豆瓣租房小组中介贴之 python 实现余弦相似度（转）
		为什么80%的码农都做不了架构师?>>>    前几天做了个微信找房机器人, 爬取豆瓣租房小组的时候发现很多伪装的中介帖,如下这种格式: 可月付 无中介 方庄地铁附近 芳城园一区单间 ...
		
						python爬取豆瓣租房信息
		文章目录 任务描述 完整代码 运行结果 任务描述 使用python爬虫,实现获取豆瓣"北京租房"的租房信息,并筛选适合个人的房源存入Excel.使用方法都写在注释里了,请认真阅读哦 ...
		
						使用Python爬虫获取豆瓣影评，并用词云显示
		使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...
		
						python爬虫获取豆瓣图书Top250
		在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
		
						豆瓣图书短评爬取（其中一本书的短评＜前十页＞）
		目标图书是"流浪地球"(只是一个图书编号不同) 爬取前十页,包括评论人员的名称.评论日期.评论等级.被赞个数.评论内容. 先看运行结果: (由于输出比较多直截首尾的图): 直接上代 ...
		
						如何在豆瓣租房小组快速找到满意的房子
		这几天忙着找房子,没怎么更新公众号,新浪本来是提供人才公寓的,可惜我错过了. 在大城市租房真的是一把辛酸泪,至今不知道搬家多少次了,今天就分享下我在北京租房找房的经历,或许对你找房子(不限于北京)有点 ...
		
						爬虫项目之豆瓣电影排行榜前10页
		目录 一.学习资源: 二.知识点介绍 1.urlib库的基本使用  2.使用实例 ①获取网页源码 ②从服务器下载网页.图片.视频 3.UA介绍 ①简介 ②实例 三.项目详细讲解 1.分析 2.步骤  ...
		
						node.js中获取请求当前页的前一页URL地址
		2019独角兽企业重金招聘Python工程师标准>>> PHP中获取请求当前页的前一页URL地址,用如下代码就可以实现: $_SERVER['HTTP_REFERER'] 在node ...
		
		

					
最新文章	

						PHP的CURL报错的排查记录：短连接的成本真的很高啊
		
						Lucene概述第一部分：创建索引
		
						【SpringCloud】第五篇: 路由网关(zuul)
		
						python获取他人的ip_Python获取指定网段正在使用的IP
		
						Homebrew命令具体解释
		
						HDU-6341 Problem J. Let Sudoku Rotate（dfs 剪枝）
		
						[转载] 大道至简：软件工程实践者的思想——第八章 你看得到工具的本质吗
		
						oracle脑裂的判断机制,Keepalived两节点出现双VIP的情况（脑裂）
		
						应用中安装第三方apk的两种方法：利用Intent跳转安装页面、利用PackageInstaller静默安装
		
						科研项目研究的基本步骤
		
						build from source 安装 PyTorch及很多坑
		
						PCB设计中常见的错误与解决方法
		
						灵性图书馆：好书推荐-《当下的力量》
		
						小程序用哪个服务器好,小程序用什么服务器好
		
						计算机如何远程控制对方手机,如何远程控制别人的电脑【图解】
		
						安徽师大附中%你赛day2T3 巧克力 解题报告
		
						使用3D-DNA流程，结果不升反降怎么破？
		
						学python买什么电脑好用又实惠_用不到1000美元攒一台深度学习用的电脑：一次深度学习和便宜硬件的探奇！...
		
						php对数字字符串加解密
		
						c语言马踏棋盘编程分析,C语言马踏棋盘实现
		
		
	

热门文章	

									eclipse自动提示功能没有的解决办法
			
						python计算选手最后得分_Python模拟决赛现场最终得分计算过程
			
						class Property Get、Property Let 使用说明
			
						私域流量和裂变营销的关系，什么是超级APP，我们企业能拥有吗？
			
						2020年每月工作日表_2020年工作场所技能再培训的诫命
			
						android源码编译 老罗,Rx_Android 的简单实用方法(参考老罗代码)
			
						bing 搜索 默认排除csdn 内容
			
						笔记本外接显示器DELL，显示器总是阶段性黑屏
			
						Lotus Notes常见问题答疑(转)
			
						计算机软件作文800字,电脑程序选择不走的表作文800字 关于电脑程序选择不走的表的作文800字...