总体功能:查看特定帖子楼主的发言(不包含图片)

前段时间大概看了python的语法,但是确实第一次用python来写东西。很久之前就想学python,学爬虫了,现在终于开始了!谢了自己的第一个爬虫,很开心O(∩_∩)O 觉得学东西兴趣很重要,爬虫真的好玩!

整个功能的实现含有两个类,一个是工具类Tool,另一个是百度贴吧的爬虫类BaiduTieba,提取网页的内容主要还是正则表达式。代码如下:

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re#工具类,用于去除一些链接之类的特殊标签
class Tool:#去除图片链接removeImage = re.compile('<img class="BDE_Image".*?>')#去除<br>removeBR = re.compile('<br>')#去除超链接removeHref = re.compile('<a href=.*?</a>')def replaceStrange(self,x):x = re.sub(self.removeImage,"",x)x = re.sub(self.removeBR,"\n",x)x = re.sub(self.removeHref,"",x)return x.strip()#百度贴吧爬虫类
class BaiduTieba:def __init__(self,baseUrl,seeLZ):#帖子基址self.baseUrl = baseUrl#只看楼主seeLZ=1self.seeLZ = '?see_lz='+str(seeLZ)self.tool = Tool()def getPage(self,pageNum):try:url = self.baseUrl + self.seeLZ + '&pn=' + str(pageNum)request = urllib2.Request(url)response = urllib2.urlopen(request)#print response.read()return response.read().decode('utf-8')except urllib2.URLError,e:if hasattr(e,"reason"):print e.reasonreturn Nonedef getTitle(self):page = self.getPage(1)pattern = re.compile('<h1 class="core_title_txt.*?>(.*?)</h1>',re.S)result = re.search(pattern,page)if result:print "success!"print result.group()else:print "failed!"def getContent(self,page):#正则表达式匹配pattern = re.compile('<div id="post_content_.*?>(.*?)</div>',re.S)items = re.findall(pattern,page)floor = 1for item in items:print '\n',floor,u"楼-----------------------------------------------------------------------------------"print self.tool.replaceStrange(item)floor += 1print u"请输入帖子编号:"
baseURL = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))
baidu = BaiduTieba(baseURL,1)
baidu.getContent(baidu.getPage(1))

效果如图(扒一扒这些年朋友之上恋人未满的逗逼):

我是一只百度贴吧的小爬虫相关推荐

  1. [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫

    [python] view plaincopy # -*- coding: utf-8 -*- #--------------------------------------- #   程序:百度贴吧 ...

  2. Python日记——柿子要捡软的捏,记第一只小爬虫

    2017.12.19 阅读了<零基础入门学习Python>一书第14章"论一只爬虫的自我修养"之后总想跃跃欲试实现一只自己的小爬虫,但可惜的是,或许因为这本书的读者太多 ...

  3. python3.4 百度贴吧小爬虫

    import string,urllib.request def cookie(get_page,begin,end):for i in range(begin,end+1):sname = 'f:/ ...

  4. 我们的新书--《我是一只IT小小鸟》

    <我是一只IT小小鸟>即将由电子工业出版社出版.这本书是由一群IT学子共同创造而成, 每个人分别讲述各自的成长经历.我参加了本书的创作队伍,本书的第一篇文章就是我对于自己大学生活的反思以及 ...

  5. 《我是一只IT小小鸟》读后感

    上了大学后我发现我没有像自己现象中那么刻苦,没有努力的充实自己.也忘了学习这门专业的初衷.以为老师推荐了这本<我是一只IT小小鸟>叫我们去阅读,一开始我只是把它当做作业去完成而已.读完后我 ...

  6. 读《我是一只IT小小鸟》笔记

    很有幸当我在刚上大学迷茫之际,可以读到<我是一只IT小小鸟>这本书.书中写到很多就读IT方面的前辈的各种经验之谈,要知道当迷茫的时候很需要有人给你中肯的建议,而因为有了这本书中前辈们对后辈 ...

  7. 读《我是一只 IT 小小鸟》

    读<我是一只 IT 小小鸟> 作为一个一向看重节操的体面人,即使面临许多 DDL 包括期中考试,在忙乱不堪的时候我也断不断告诫自己,不能迫于课程要求仅为了写出一篇笔记而去读书,以后更是如此 ...

  8. 《我是一只IT小小鸟》目录I

    以下是电子工业出版社博文视点新书<我是一只IT小小鸟>的目录I,欢迎围观. 目  录 I Contents I 蒋宇东  梦断计院,为梦前行  /  1 引子:我的感悟,我的忏悔 上篇·梦 ...

  9. 《我是一只IT小小鸟》连载

    转自csdn,原文链接:http://blog.csdn.net/bvbook/archive/2009/08/18/4458803.aspx <我是一只IT小小鸟>连载之一--梦断计院( ...

最新文章

  1. list存储引用类型注意的问题
  2. java工程前面有个红色感叹号
  3. nginx 如何处理请求系列1-Nginx安装
  4. Django(part2)--创建项目与Django目录结构
  5. 四五六年级计算机教学计划,五六年级信息技术教学计划
  6. python爬取商城数据_Python爬取新版CRMEB小程序商城后台订单数据,保存为excel
  7. PowerDesigner设置线风格(直线,折线。。。)
  8. oracle gather trace,Oracle 12C R2-新特性-新增两个视图:方便查看trace文件和内容
  9. 三、spring中高级装配(1)
  10. ipv6一致性测试(IPv6 Specification)内核修改
  11. 计算机被覆盖文件怎么恢复,如何找回被覆盖的文件?恢复被覆盖文件的方法
  12. cad2016批量修改相关字体,统一文字样式
  13. 数据预处理(数据审核、缺失值处理、标准化正则化、降维等)
  14. 吴文俊应用计算机进行几何定理,我国著名数学家吴文俊院士应用计算机进行几何定理的证明,该应用属于计算机应用领域中的( )。...
  15. 小程序轮播图 swiper当前滑块容器样式
  16. 华为手机文档里的html,华为手机如何扫描文件变成文档 这扫描功能简直太好用了...
  17. 管理是一门艺术,好坏全在细微之间
  18. 计算机专业试讲10分钟教案,10分钟试讲教案模板.doc
  19. WORD公式居中、题注插入、交叉引用
  20. 【机器人】关于工业机器人控制系统,这几方面内容你必须掌握;中国3C电子智造行业优秀的机器人供应商推荐...

热门文章

  1. Echarts 思维导图
  2. 深度剖析‘StringBuilder‘ can be replaced with ‘String‘ 提示
  3. 初级药士考试真题(附上答案解析)
  4. pywinauto java_pywinauto客户端自动化---pywinauto初始
  5. 安装完全分布式 hive 远程安装时出现错误
  6. pywinauto使用笔记
  7. pv vg lv linux中的卷 lvm 等之间的关系和操作
  8. 主题:平面截取圆锥的截面动态图
  9. 如何充分利用短视频营销策略
  10. Matlab画热度图,某地人流密度热力图