教你如何一秒爬取贴吧内容

其实，爬取百度贴吧是一件非常容易的事情，首先，观察百度贴吧网址变化，如下图

很明显贴吧根据页面的变化是有规律的（网址不变，pn=页数*50），这就导致爬取贴吧数据的时候带来了极大的便利。

代码如下图：

import requestsclass Tiebasprite():def __init__(self,tieba_name):self.tieba_name =tieba_nameself.post_url = 'http://tieba.baidu.com/f?kw='+tieba_name+'%A6&ie=utf-8&pn={}'self.headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 8.0.0; Pixel 2 XL Build/OPD1.170816.004) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Mobile Safari/537.36'}def get_url_list(self):'''得到爬取贴吧的网址'''list =[]for i in range(1000):list.append(self.post_url.format(i*50))return listdef get_post(self,url):'''访问网址'''response = requests.get(url=url,headers = self.headers)return response.content.decode()def save_html(self,html_str,page_num):'''将爬取的数据存入文件当中去'''file_path = '{}--第 {}页'.format(self.tieba_name,page_num)with open(file_path,"w",encoding='utf-8')as f:f.write(html_str)def run(self):#1.获取地址url_list = self.get_url_list()#2.访问for url in url_list:html_str = self.get_post(url)#3.存档page_num = url_list.index(url)+1self.save_html(html_str,page_num)tieba_spider = Tiebasprite('台山侨中') #根据用户输入的内容爬取百度贴吧不同的内容
tieba_spider.run()

效果图：

教你如何一秒爬取贴吧内容相关推荐

python爬表情包_教你用Python来爬取表情包网站的所有表情图片
教你用Python来爬取表情包网站的所有表情图片配置环境安装Python 开发环境 3X系列 win + R 打开运行,输入cmd,输入python,进行验证是否安装Python win + R ...
手把手教-网络时空大数据爬取与分析DAS系统（瓦片地图获取）
手把手教 | 网络时空大数据爬取与分析DAS系统(瓦片地图获取) 原创 DAS Team 双评价DAS 地理计算语言,为大众赋能地理智慧. --DAS Team 爬取分析DAS系统下载地址: htt ...
python爬取论坛付费内容_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...
欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...
python爬虫吧-Python爬虫如何爬取贴吧内容
爬取贴吧内容先了解贴吧url组成: 每个贴吧url都是以'https://tieba.baidu.com/f?'开头,然后是关键字 kw="'贴吧名字"',再后面是 &p ...
python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...
python爬虫贴吧_Python爬虫如何爬取贴吧内容
爬取贴吧内容先了解贴吧url组成: 每个贴吧url都是以'https://tieba.baidu.com/f?'开头,然后是关键字 kw=''贴吧名字'',再后面是 &pn=页数 (pn=0 ...
scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息点击此处,获取 ...
mfc ajax爬虫,另辟蹊径，爬取Ajax数据内容
通常利用python 爬取ajax数据有两种方式: ①基于selenium+phantomjs+python的动态爬虫技术 ②基于逆向分析但是这两种方式都不太容易. 第一种利用selenium进行 ...
Python爬取问卷星内容
Python爬取问卷星内容问卷星标题和选项内容爬取从以下博客中学习到的,加了些自己的解释 Python3 爬虫- 问卷星内容爬取先贴代码: import time from requests_h ...

教你如何一秒爬取贴吧内容

教你如何一秒爬取贴吧内容相关推荐

最新文章

热门文章