爬取百度贴吧内某吧指定页数的html页面

首先创建文件夹tieba,代码使用面向对象的思想进行封装,测试爬取的页数为前10页,

代码如下:

import requests
import time
import threadingclass TieBa(object):def __init__(self):self.name=input('请输入贴吧名字:')self.start_page=int(input('请输入开始页数:'))self.end_page=int(input('请输入结束页数:'))self.url='https://tieba.baidu.com/f'self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}#发送请求def send_request(self,tieba_params):res=requests.get(self.url,headers=self.headers,params=tieba_params)data=res.contentreturn data#保存数据def save_data(self,data,page):file_path='tieba/'+ str(page) +'.html'print('正在抓取第{}页...'.format(page))with open(file_path,'wb') as f:f.write(data)#运行def run(self):self.start_time=time.clock()for page in range(self.start_page,self.end_page+1):tieba_params={'kw':self.name,'pn':(page-1)*50}#1.发送请求data=self.send_request(tieba_params)#2.保存数据self.save_data(data,page)self.end_time = time.clock()self.time=self.end_time-self.start_timeprint('程序执行的时间为:%s s'%self.time)if __name__ == '__main__':tieba=TieBa()t1=threading.Thread(target=tieba.run)t1.start()length = len(threading.enumerate())  # threading.enumerate()可以获取当前运行的线程数print("当前运行的线程数为:%d" % length)

运行结果如下:

然后打开pycharm终端,cd tieba 进入该文件夹下,使用xdg-open 1.html打开爬取到的第一页html内容(虚拟机中安装了浏览器):

爬取百度贴吧内某吧指定页数的html页面相关推荐

  1. 爬虫基础:爬取百度贴吧-猫吧标题,详情页url,详情页图片url,下载图片

    学习总结: 1.经试验,无需定义请求头headers也能爬取到数据 2.网站编码使用utf-8,试验时要了解清楚网站编码,以免数据乱码,返回数据可以使用response.encoding='网站编码' ...

  2. python贴吧爬虫-Python 爬虫练习: 爬取百度贴吧中的图片

    背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本 实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...

  3. python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...

    开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...

  4. java爬取百度贴吧吧内所有帖子数据(图文详解)

    因为个人需要爬取某个吧内的所有帖子并保存下来,但是无奈不会写python,于是就想到了利用java的jsoup去做爬虫,尝试了多次后终于获取成功,主要遇到的问题还是百度的反爬机制,解决了后,整理一篇文 ...

  5. Python爬取百度指数搜索结果,查看你想了解的热点信息吧

    今天无意间搜索问题的时候跳转到了百度指数这里,索性就打开来看看,下面是首页截图: 这里你可以自己输入自己想要查询的人物.事件等等,anything,只要是你感兴趣的都可以,有一种感觉就是你认为是热点的 ...

  6. 爬取百度地图,获取城市楼盘信息

    有任何需要修正的地方请大家私信,评论. 大佬轻喷@-@ 以下是小项目的需求: *爬取百度地图,获取目标城市楼盘信息, *包括目标楼盘的经纬度,名称,并保存在excel文档中. 大家稍微等下,<这 ...

  7. 使用python和PyQt5编写爬取百度图片的界面工具

    使用python和PyQt5编写爬取百度图片的界面工具 本篇文章的主要内容是展示我个人编写的,以界面小工具的方式爬取百度上面的图片,功能很单一,根据关键词爬取图片,代码很简单,新手上路请多指教. 代码 ...

  8. FME爬取百度POI数据

    FME爬取百度POI数据 背景 学习准备 百度API接口学习 FME学习 思路 操作截图 结果展示 注意点 背景 百度提供了丰富的POI数据,有些场景下我们需要把这些数据放到内网环境下,这个时候就要想 ...

  9. C#爬取百度图片最新(20220627)

    常规来说爬取百度图片无非是获取图片的链接然后下载下来. 通常直接获取则会出现百度验证.所以第一步我们要设置cookes以及各种信息. 如何获取cookes很简单,浏览器打开百度图片按F12查看找到co ...

最新文章

  1. 生产环境LNMP (果图片)
  2. python中字典的value可以为任意对象_Python学习入门(13)—字典
  3. 1048:有一门课不及格的学生
  4. python对word提取数据,如何使用Python从doc / docx文件中提取数据
  5. Qt调用face++的http接口,实现人脸对比
  6. AS负责人说不必用Kotlin重写,但OkHttp拿Kotlin重写了一遍,就发了OkHttp 4.0!
  7. 【小程序项目分享】多功能抽签分组系统
  8. database2sharp mysql_Database2Sharp免费版
  9. 电视台‘自制好剧’,大量剧本从何来?
  10. 回炉重造之JAVA---枚举
  11. Mysql索引灵魂拷问
  12. STM32HAL库串口处理---中断收发
  13. 使用itextpdf生成pdf
  14. /usr/bin/ld: cannot find -lxxx错误的通用解决方法
  15. android高德方向,Android 高德地图进阶功能
  16. JNLP文件具体说明编辑
  17. dedecms注入漏洞feedback.php,织梦(Dedecms) 5.1 feedback_js.php 注入漏洞
  18. 12306订票候补是个坑_12306的候补购票功能是好还是坏?
  19. android地鼠游戏,非常地鼠手游
  20. openEuler安装Docker和踩坑分析

热门文章

  1. 根据实体excel导入导出百万数据,可修改表头名称
  2. 2012第52周四阴雨
  3. windows xp下使用TDI+NDIS实现进程网络流量限速(设计文档)
  4. 【ABviewer从零开始教学编辑器篇③】关于与附加模式相关的主题
  5. 专有云ABC Stack,真正的实力派!
  6. 用比特彗星BitComet1.17下載Magnet
  7. 咖说 | 匿名的「N号房」:数字货币是否应当拥抱监管?
  8. 【CDC翻客】移动端App测试实用指南
  9. 大疆无人机自定义直播
  10. 树莓派编写html,在树莓派3b or 3a or 4a or 4b上搭建OpenWebRX