#-*-coding:utf-8-*-
import urllib      #负责url编码处理
import urllib2
import sys
import osif sys.getdefaultencoding() != 'utf-8':reload(sys)sys.setdefaultencoding('utf-8')
def writeFile(html, filename):"""作用:保存服务器响应文件到本地磁盘文件里html: 服务器响应文件filename: 本地磁盘文件名"""print "正在存储" + "D://lianxi"with open("D://lianxi//"+filename.encode("GBK"), 'w') as f:f.write(html)print "-" * 20def tiebaSpider(url, beginPage, endPage):"""filename作用:负责处理url,分配每个url去发送请求url:需要处理的第一个urlbeginPage: 爬虫执行的起始页面endPage: 爬虫执行的截止页面"""for page in range(beginPage, endPage + 1):pn = (page - 1) * 50filename = "第" + str(page) + "页.html"# 组合为完整的 url,并且pn值每次增加50fullurl = url + "&pn=" + str(pn)#print fullurl# 调用loadPage()发送请求获取HTML页面html = loadPage(fullurl, filename)# 将获取到的HTML页面写入本地磁盘文件writeFile(html, filename)def loadPage(url, filename):'''作用:根据url发送请求,获取服务器响应文件url:需要爬取的url地址filename: 文件名'''print "正在下载" + filenameheaders = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}request = urllib2.Request(url, headers = headers)response = urllib2.urlopen(request)return response.read()# 模拟 main 函数
if __name__ == "__main__":kw  = raw_input("请输入需要爬取的贴吧:")# 输入起始页和终止页,str转成int类型beginPage = int(raw_input("请输入起始页:"))endPage = int(raw_input("请输入终止页:"))url = "http://tieba.baidu.com/f?"key = urllib.urlencode({"kw" : kw})# 组合后的url示例:http://tieba.baidu.com/f?kw=lolurl = url + keytiebaSpider(url, beginPage, endPage)

 运行过程:

运行结果: 

 打开1page.html页面:

python:爬取贴吧的某个吧的网页信息相关推荐

  1. 我用Python爬取了14年所有的福彩3D信息,彩民们,只能帮你们到这了

    作者|丁彦军 来源|恋习Python 前两天,在网上看到一个有意思的问题:彩票预测靠谱么?为什么还有那么多的人相信彩票预测? 暂且不说,彩票预测是否靠谱?彩票预测也分人而异,江湖上骗术很多,有些甚至会 ...

  2. python爬虫能秒杀么_面试题之用python爬取并夕夕不同时段秒杀商品信息

    先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...

  3. python 抓包秒杀_面试题之用python爬取并夕夕不同时段秒杀商品信息

    先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...

  4. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  5. python爬取空气质量指标_python爬虫之静态网页——全国空气质量指数(AQI)爬取

    首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...

  6. Python爬取某旅游网站中的中国城市信息

    分析 这是目标网址 可以发现它是通过点击下一页来翻页的,所以可以大概率判断它每一页的链接是有规律的,我们找出它的前两页的链接: https://place.qyer.com/china/citylis ...

  7. python爬取大学生就业分析专科和本科的信息https://edu.jobui.com/major/(上)JSON的存储

    一,爬虫步骤 1.导入模块json,requests,lxml 2.url地址 3,请求头 4.get请求 200正常访问 5.解码 6.找到节点 7.创建一个存储所有信息的列表 8.循环遍历li节点 ...

  8. python爬取携程网旅游_爬虫之携程网旅游信息爬取

    最近手又有点闲,闲着无聊就爬取了携程的信息,这个爬虫是我随手写的,各位可以看看. # -*- encoding=utf-8 -*- #爬取携程旅游信息 #2017/8/14 from bs4 impo ...

  9. Python爬取哔哩哔哩视频的相关信息后续

    上一篇文章通过selenium工具自动搜索爬取哔哩哔哩上面的视频相关信息,今天我们接着上一篇文章,保存视频的图片到本地. 首先找到要爬取的网页数据所在的位置,如下图 并且,右键点击该网址,可以选择在新 ...

  10. 用python爬取豆瓣《教父》影评等信息

    **注,小白,纯属当笔记,有错请指点,谢谢. 本文采用requests库爬取HTML页面,然后用BeautifulSoup库解析网页,再通过re库进行匹配 1.简单介绍一下requests库 #req ...

最新文章

  1. 信息大脑如何从物理大脑中涌现?
  2. Nginx之简介与安装(一)
  3. apache常用的配置指令:ServerRoot
  4. [C++] 转义序列
  5. 文本显示变量_几千个IO状态显示.十几分钟搞定实例
  6. 关于灵魂安放,年轻人如何选择适合自己的城市呢?学长有话说
  7. Android移动端开发代码规范与格式化工具
  8. CodeForces 598A Tricky Sum
  9. 分享下我的 netbeans 的配色方案
  10. 微信小程序模板消息(带流程图)
  11. Python SQLite3 教程
  12. 指数函数e^x和对数函数lnx 导数的求导过程
  13. 玩客云 装java_玩客云内置 eMMC 存储刷入 armbian
  14. item的介绍与使用-2.0
  15. 如果写不出好的BUG就该在洒满阳光的屋里躺在床上边刷哔哩哔哩边吃旺仔QQ糖
  16. 机器学习识别颜色_使用机器学习为颜色命名
  17. 一篇很好的《数据分析》文章
  18. 标签设计打印软件:LabelJoy 6.23.0 Crack
  19. 苏州职业大学计算机考试成绩查询系统,苏州工业园区职业技术学院教务管理系统登录入口、成绩查询网上选课查分...
  20. 【 Ecode 流程表单开发 】- 2 流程表单协同区

热门文章

  1. 基于SSM框架的电影院购票系统
  2. 【ADRC控制】使用自抗扰控制器调节起动机入口压力值
  3. 五百丁-ppt模板-创业融资-top45 下载
  4. OCR字符识别,支持手写字体识别,中英文识别
  5. 深度学习工具audioFlux---一个系统的音频特征提取库
  6. string的length()和size()的区别?
  7. 如何打开IIS信息服务管理器
  8. python学习笔记(二):基础知识点
  9. [论文阅读] | Data Augmentation By Paring Sample Mixup
  10. 柠檬浏览器 for linux,柠檬浏览器官方下载