爬取百度贴吧内某吧指定页数的html页面

首先创建文件夹tieba，代码使用面向对象的思想进行封装，测试爬取的页数为前10页，

代码如下：

import requests
import time
import threadingclass TieBa(object):def __init__(self):self.name=input('请输入贴吧名字:')self.start_page=int(input('请输入开始页数:'))self.end_page=int(input('请输入结束页数:'))self.url='https://tieba.baidu.com/f'self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}#发送请求def send_request(self,tieba_params):res=requests.get(self.url,headers=self.headers,params=tieba_params)data=res.contentreturn data#保存数据def save_data(self,data,page):file_path='tieba/'+ str(page) +'.html'print('正在抓取第{}页...'.format(page))with open(file_path,'wb') as f:f.write(data)#运行def run(self):self.start_time=time.clock()for page in range(self.start_page,self.end_page+1):tieba_params={'kw':self.name,'pn':(page-1)*50}#1.发送请求data=self.send_request(tieba_params)#2.保存数据self.save_data(data,page)self.end_time = time.clock()self.time=self.end_time-self.start_timeprint('程序执行的时间为:%s s'%self.time)if __name__ == '__main__':tieba=TieBa()t1=threading.Thread(target=tieba.run)t1.start()length = len(threading.enumerate())  # threading.enumerate()可以获取当前运行的线程数print("当前运行的线程数为：%d" % length)

运行结果如下：

然后打开pycharm终端，cd tieba 进入该文件夹下，使用xdg-open 1.html打开爬取到的第一页html内容(虚拟机中安装了浏览器)：

爬取百度贴吧内某吧指定页数的html页面相关推荐

爬虫基础：爬取百度贴吧-猫吧标题，详情页url，详情页图片url，下载图片
学习总结: 1.经试验,无需定义请求头headers也能爬取到数据 2.网站编码使用utf-8,试验时要了解清楚网站编码,以免数据乱码,返回数据可以使用response.encoding='网站编码' ...
python贴吧爬虫-Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...
开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...
java爬取百度贴吧吧内所有帖子数据(图文详解)
因为个人需要爬取某个吧内的所有帖子并保存下来,但是无奈不会写python,于是就想到了利用java的jsoup去做爬虫,尝试了多次后终于获取成功,主要遇到的问题还是百度的反爬机制,解决了后,整理一篇文 ...
Python爬取百度指数搜索结果，查看你想了解的热点信息吧
今天无意间搜索问题的时候跳转到了百度指数这里,索性就打开来看看,下面是首页截图: 这里你可以自己输入自己想要查询的人物.事件等等,anything,只要是你感兴趣的都可以,有一种感觉就是你认为是热点的 ...
爬取百度地图，获取城市楼盘信息
有任何需要修正的地方请大家私信,评论. 大佬轻喷@-@ 以下是小项目的需求: *爬取百度地图,获取目标城市楼盘信息, *包括目标楼盘的经纬度,名称,并保存在excel文档中. 大家稍微等下,<这 ...
使用python和PyQt5编写爬取百度图片的界面工具
使用python和PyQt5编写爬取百度图片的界面工具本篇文章的主要内容是展示我个人编写的,以界面小工具的方式爬取百度上面的图片,功能很单一,根据关键词爬取图片,代码很简单,新手上路请多指教. 代码 ...
FME爬取百度POI数据
FME爬取百度POI数据背景学习准备百度API接口学习 FME学习思路操作截图结果展示注意点背景百度提供了丰富的POI数据,有些场景下我们需要把这些数据放到内网环境下,这个时候就要想 ...
C#爬取百度图片最新（20220627）
常规来说爬取百度图片无非是获取图片的链接然后下载下来. 通常直接获取则会出现百度验证.所以第一步我们要设置cookes以及各种信息. 如何获取cookes很简单,浏览器打开百度图片按F12查看找到co ...

爬取百度贴吧内某吧指定页数的html页面

爬取百度贴吧内某吧指定页数的html页面

爬取百度贴吧内某吧指定页数的html页面相关推荐

最新文章

热门文章