python：爬取贴吧的某个吧的网页信息

#-*-coding:utf-8-*-
import urllib      #负责url编码处理
import urllib2
import sys
import osif sys.getdefaultencoding() != 'utf-8':reload(sys)sys.setdefaultencoding('utf-8')
def writeFile(html, filename):"""作用：保存服务器响应文件到本地磁盘文件里html: 服务器响应文件filename: 本地磁盘文件名"""print "正在存储" + "D://lianxi"with open("D://lianxi//"+filename.encode("GBK"), 'w') as f:f.write(html)print "-" * 20def tiebaSpider(url, beginPage, endPage):"""filename作用：负责处理url，分配每个url去发送请求url：需要处理的第一个urlbeginPage: 爬虫执行的起始页面endPage: 爬虫执行的截止页面"""for page in range(beginPage, endPage + 1):pn = (page - 1) * 50filename = "第" + str(page) + "页.html"# 组合为完整的 url，并且pn值每次增加50fullurl = url + "&pn=" + str(pn)#print fullurl# 调用loadPage()发送请求获取HTML页面html = loadPage(fullurl, filename)# 将获取到的HTML页面写入本地磁盘文件writeFile(html, filename)def loadPage(url, filename):'''作用：根据url发送请求，获取服务器响应文件url：需要爬取的url地址filename: 文件名'''print "正在下载" + filenameheaders = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}request = urllib2.Request(url, headers = headers)response = urllib2.urlopen(request)return response.read()# 模拟 main 函数
if __name__ == "__main__":kw  = raw_input("请输入需要爬取的贴吧:")# 输入起始页和终止页，str转成int类型beginPage = int(raw_input("请输入起始页："))endPage = int(raw_input("请输入终止页："))url = "http://tieba.baidu.com/f?"key = urllib.urlencode({"kw" : kw})# 组合后的url示例：http://tieba.baidu.com/f?kw=lolurl = url + keytiebaSpider(url, beginPage, endPage)

运行过程：

运行结果：

 打开1page.html页面：

python：爬取贴吧的某个吧的网页信息相关推荐

我用Python爬取了14年所有的福彩3D信息，彩民们，只能帮你们到这了
作者|丁彦军来源|恋习Python 前两天,在网上看到一个有意思的问题:彩票预测靠谱么?为什么还有那么多的人相信彩票预测? 暂且不说,彩票预测是否靠谱?彩票预测也分人而异,江湖上骗术很多,有些甚至会 ...
python爬虫能秒杀么_面试题之用python爬取并夕夕不同时段秒杀商品信息
先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...
python 抓包秒杀_面试题之用python爬取并夕夕不同时段秒杀商品信息
先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...
python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
python爬取空气质量指标_python爬虫之静态网页——全国空气质量指数(AQI)爬取
首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...
Python爬取某旅游网站中的中国城市信息
分析这是目标网址可以发现它是通过点击下一页来翻页的,所以可以大概率判断它每一页的链接是有规律的,我们找出它的前两页的链接: https://place.qyer.com/china/citylis ...
python爬取大学生就业分析专科和本科的信息https://edu.jobui.com/major/（上）JSON的存储
一,爬虫步骤 1.导入模块json,requests,lxml 2.url地址 3,请求头 4.get请求 200正常访问 5.解码 6.找到节点 7.创建一个存储所有信息的列表 8.循环遍历li节点 ...
python爬取携程网旅游_爬虫之携程网旅游信息爬取
最近手又有点闲,闲着无聊就爬取了携程的信息,这个爬虫是我随手写的,各位可以看看. # -*- encoding=utf-8 -*- #爬取携程旅游信息 #2017/8/14 from bs4 impo ...
Python爬取哔哩哔哩视频的相关信息后续
上一篇文章通过selenium工具自动搜索爬取哔哩哔哩上面的视频相关信息,今天我们接着上一篇文章,保存视频的图片到本地. 首先找到要爬取的网页数据所在的位置,如下图并且,右键点击该网址,可以选择在新 ...
用python爬取豆瓣《教父》影评等信息
**注,小白,纯属当笔记,有错请指点,谢谢. 本文采用requests库爬取HTML页面,然后用BeautifulSoup库解析网页,再通过re库进行匹配 1.简单介绍一下requests库 #req ...

python：爬取贴吧的某个吧的网页信息

python：爬取贴吧的某个吧的网页信息相关推荐

最新文章

热门文章