其实,爬取百度贴吧是一件非常容易的事情,首先,观察百度贴吧网址变化,如下图

很明显贴吧根据页面的变化是有规律的(网址不变,pn=页数*50),这就导致爬取贴吧数据的时候带来了极大的便利。

代码如下图:

import requestsclass Tiebasprite():def __init__(self,tieba_name):self.tieba_name =tieba_nameself.post_url = 'http://tieba.baidu.com/f?kw='+tieba_name+'%A6&ie=utf-8&pn={}'self.headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0.0; Pixel 2 XL Build/OPD1.170816.004) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Mobile Safari/537.36'}def get_url_list(self):'''得到爬取贴吧的网址'''list =[]for i in range(1000):list.append(self.post_url.format(i*50))return listdef get_post(self,url):'''访问网址'''response = requests.get(url=url,headers = self.headers)return response.content.decode()def save_html(self,html_str,page_num):'''将爬取的数据存入文件当中去'''file_path = '{}--第 {}页'.format(self.tieba_name,page_num)with open(file_path,"w",encoding='utf-8')as f:f.write(html_str)def run(self):#1.获取地址url_list = self.get_url_list()#2.访问for url in url_list:html_str = self.get_post(url)#3.存档page_num = url_list.index(url)+1self.save_html(html_str,page_num)tieba_spider = Tiebasprite('台山侨中') #根据用户输入的内容爬取百度贴吧不同的内容
tieba_spider.run()

效果图:

教你如何一秒爬取贴吧内容相关推荐

  1. python爬表情包_教你用Python来爬取表情包网站的所有表情图片

    教你用Python来爬取表情包网站的所有表情图片 配置环境 安装Python 开发环境 3X系列 win + R 打开运行,输入cmd,输入python,进行验证是否安装Python win + R ...

  2. 手把手教-网络时空大数据爬取与分析DAS系统(瓦片地图获取)

    手把手教 | 网络时空大数据爬取与分析DAS系统(瓦片地图获取) 原创 DAS Team 双评价DAS 地理计算语言,为大众赋能地理智慧. --DAS Team 爬取分析DAS系统下载 地址: htt ...

  3. python爬取论坛付费内容_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...

    欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...

  4. python爬虫吧-Python爬虫如何爬取贴吧内容

    爬取贴吧内容 先了解贴吧url组成: 每个贴吧url都是以'https://tieba.baidu.com/f?'开头,然后是关键字 kw="'贴吧名字"',再后面是 &p ...

  5. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  6. python爬虫贴吧_Python爬虫如何爬取贴吧内容

    爬取贴吧内容 先了解贴吧url组成: 每个贴吧url都是以'https://tieba.baidu.com/f?'开头,然后是关键字 kw=''贴吧名字'',再后面是 &pn=页数 (pn=0 ...

  7. scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...

  8. mfc ajax爬虫,另辟蹊径,爬取Ajax数据内容

    通常利用python 爬取ajax数据 有两种方式: ①基于selenium+phantomjs+python的动态爬虫技术 ②基于逆向分析 但是这两种方式都不太容易. 第一种利用selenium进行 ...

  9. Python爬取问卷星内容

    Python爬取问卷星内容 问卷星标题和选项内容爬取 从以下博客中学习到的,加了些自己的解释 Python3 爬虫- 问卷星内容爬取 先贴代码: import time from requests_h ...

最新文章

  1. 防止接口数据出问题,前端假数据调试
  2. 使用xtrabackup对MySQL进行备份和恢复
  3. 经验之谈——送给年轻的职场人
  4. 小甲鱼 OllyDbg 教程系列 (五) : 破解 PC Surgeon 之 查找字符串
  5. 快给你的代码来点彩虹屁
  6. java纯数字正则表达式_JAVA验证数字的正则表达式,来一发
  7. linux so文件支持系统,让linux支持xfs jfs reiserfs 文件系统
  8. Ubuntu下修改root密码
  9. 通过真实项目截图讲解MDT 2010部署windows 7的具体过程(3)
  10. 公司设备损坏了,怎么处理
  11. 编译原理生成语法树c语言,编译原理
  12. Win10企业版激活方法
  13. 什么是防火墙?防火墙的类型和注意事项
  14. RuntimeError: Output 0 of SelectBackward is a view and is being modified inplace.
  15. 面试题:460道Java后端面试高频题答案版「模块九:Spring」
  16. indexedDB简单介绍
  17. My命名空间——VB.NET
  18. Unity 2019 射线检测失效
  19. 实验七 MapReduce编程进阶
  20. zb薄片怎么往里加厚_ZBRUSH 从入门到精通教程

热门文章

  1. CTSC/APIO2018 帝都一周游
  2. DRR(Digitally Reconstructured Radiograph)分类及原理
  3. fft谱分析中的栅栏效应和频谱泄露
  4. Windows网络编程-简单的多线程聊天室
  5. SolidWorks二次开发 API-SOLIDWORKS Simulation分析参数修改
  6. 真正厉害的程序员,具有“自燃型”特质(精辟)
  7. linux删除物理卷命令,使用vgreduce命令从LVM中的卷组中删除物理卷
  8. SAE下安装wordpress
  9. 区块链溯源:实现更高效的供应链管理,减少信任成本
  10. warning: NULL used in arithmetic [-Wpointer-arith] if(sno!=NULL){