爬取抽屉新热榜

爬取段子

抽屉网址https://dig.chouti.com/r/scoff/hot/

爬虫的常规操作,根据需求进行分析。我们要爬取段子,也就是每条段子信息。先按F12查看一下网页,审查元素。


我们刚好找到段子信息,看看其他段子是不是也在这个位置。我们发现了25条一样的标签。每条标签下都有段子信息,刚好和这页的25条信息相对应。


提取这些信息,我们同样使用BeautifulSoup。BeautifulSoup的用法我在另一篇文章中有所介绍BeautifulSoup用法

这是一页的信息,如何获取多页呢,看看第二页的网址。

再看看第三页的网址。

我们发现了规律,用表达式写出来
url = 'http://dig.chouti.com/r/scoff/hot/'+str(i)
这样就可以获取多页的段子信息了。

直接上代码

完整代码

import requests
from bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'}
for i in range(10):url = 'http://dig.chouti.com/r/scoff/hot/'+str(i)html=requests.get(url,headers=headers)html.encoding=html.apparent_encodingsoup=BeautifulSoup(html.text,'html.parser')div=soup.find(id='content-list')div2=div.find_all('div',class_="item")for i in div2:a=i.find('div',class_="part2")b = a.get('share-title')print(b)with open('duanzi.txt','a',encoding='utf-8')as f:f.write(b)

python爬虫——爬取抽屉新热榜相关推荐

  1. Python爬虫抓取B站热榜

    Python爬虫抓取B站热榜 环境 Python 3.7.4 bs4==0.0.1 pandas==1.0.1 urllib3==1.24.2 re 实现代码 # -*- coding:utf-8 - ...

  2. python爬虫爬取qq音乐热歌榜的歌曲到本地

    文章目录 项目目标 具体实现步骤 完整代码 运行结果 项目目标 爬取qq音乐热歌榜https://y.qq.com/n/yqq/toplist/26.html到本地文件夹 具体实现步骤 程序思路:用s ...

  3. 每日一练:Python爬虫爬取全国新冠肺炎疫情数据实例详解,使用beautifulsoup4库实现

    Python 爬虫篇 - 爬取全国新冠肺炎疫情数据实例详解 效果图展示 第一章:疫情信息的下载与数据提取 ① 爬取页面数据到本地 ② json 字符串正则表达式分析 ③ 提取数据中的 json 字符串 ...

  4. (6)Python爬虫——爬取中新网新闻

    工欲善其事,必先利其器.我们要进行数据挖掘,就必须先获取数据,获取数据的方法有很多种,其中一种就是爬虫.下面我们利用Python2.7,写一个爬虫,专门爬取中新网http://www.chinanew ...

  5. python爬虫爬取网易云热歌榜top200

    爬取网易热歌榜 爬虫小练习 import requests from lxml import etree# 热歌榜首页网址 url = 'https://music.163.com/discover/ ...

  6. html定位 知乎,从零开始:python实现爬取知乎热榜(随缘更新完善)

    获取URL 获取HTML 解析HTML 获取URL 首先要知道URL是什么: URL: Uniform Resource Identifier,即统一资源标识符. URL: Uniform Resou ...

  7. python爬虫爬取豆瓣图书热评并生成图云

    共4个py文件,按照顺序运行即可绘制出图云,效果图在最后,参考b占up主"龙王山小青椒"[Python爬虫+本科毕业论文速成]豆瓣评论-我是余欢水-[数据抓取-情感分析-评分统计- ...

  8. Python异步爬取知乎热榜

    一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...

  9. 【知乎热榜爬虫】python爬取知乎热榜问题及答案

    所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库 实战背景 主要是爬取知乎热榜的问题及点赞数比较高的答案,通过requests请求库进行爬取 ...

  10. python爬取知乎热榜了解时事

    python爬取知乎热榜了解时事 需求 ​ 知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...

最新文章

  1. oracle websp,探索Web2.0成就SP 2.0之路
  2. MPX2053DP压力传感器简单测量
  3. js提取url参数的几种方法。(搜集)
  4. 【VC基础】 6、VC条件定价
  5. python五种调试或排错的方法
  6. 日本語を勉強するの日記(八)
  7. 用辩证、动态的眼光看世界
  8. 模板:BSGS(数论)
  9. cookie怎样存储数据?
  10. 实现自定义扩展点_spring扩展API接口介绍
  11. springboot之设置mybatis打印sql输出
  12. HashMap底层实现原理详解
  13. Unity URP/SRP可编程渲染管线
  14. YTU OJ 2476 C++习题 继承与组合
  15. arcgis标注转为注记后,如何批量修改注记及牵引线颜色
  16. 2021-04-24 - 电脑主板 - 升级Blos和ME - 学习/实践
  17. mysql数据库多表查询教程
  18. CentOS安装Firefox的Flash播放器插件
  19. iOS程序员眼中的首次使用产品体验
  20. 【css】为什么#fff和#ffffff是一样的?或者说#fff和#ffffff的区别

热门文章

  1. postgresql安装报错
  2. map和set的异同
  3. 杰理之低延时无线麦功能支持以下两种组合配置【篇】
  4. ios使用video播放器,禁止自动全屏
  5. 从零开始安装和配置vim (还是vscode香)
  6. k-近邻算法的优缺点及拓展思考
  7. 学习springboot整合mybatis并编写测试类
  8. Linux内存管理 - slab分配器和kmalloc
  9. 搭建 WordPress 博客教程(超详细)
  10. 人均劳动生产率的单位_生产率的单位是什么?