爬取抽屉新热榜

爬取段子

抽屉网址https://dig.chouti.com/r/scoff/hot/

爬虫的常规操作，根据需求进行分析。我们要爬取段子，也就是每条段子信息。先按F12查看一下网页，审查元素。

我们刚好找到段子信息，看看其他段子是不是也在这个位置。我们发现了25条一样的标签。每条标签下都有段子信息，刚好和这页的25条信息相对应。

提取这些信息，我们同样使用BeautifulSoup。BeautifulSoup的用法我在另一篇文章中有所介绍BeautifulSoup用法

这是一页的信息，如何获取多页呢，看看第二页的网址。

再看看第三页的网址。

我们发现了规律，用表达式写出来
url = 'http://dig.chouti.com/r/scoff/hot/'+str(i)
这样就可以获取多页的段子信息了。

直接上代码

完整代码

import requests
from bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'}
for i in range(10):url = 'http://dig.chouti.com/r/scoff/hot/'+str(i)html=requests.get(url,headers=headers)html.encoding=html.apparent_encodingsoup=BeautifulSoup(html.text,'html.parser')div=soup.find(id='content-list')div2=div.find_all('div',class_="item")for i in div2:a=i.find('div',class_="part2")b = a.get('share-title')print(b)with open('duanzi.txt','a',encoding='utf-8')as f:f.write(b)

python爬虫——爬取抽屉新热榜相关推荐

Python爬虫抓取B站热榜
Python爬虫抓取B站热榜环境 Python 3.7.4 bs4==0.0.1 pandas==1.0.1 urllib3==1.24.2 re 实现代码 # -*- coding:utf-8 - ...
python爬虫爬取qq音乐热歌榜的歌曲到本地
文章目录项目目标具体实现步骤完整代码运行结果项目目标爬取qq音乐热歌榜https://y.qq.com/n/yqq/toplist/26.html到本地文件夹具体实现步骤程序思路:用s ...
每日一练：Python爬虫爬取全国新冠肺炎疫情数据实例详解，使用beautifulsoup4库实现
Python 爬虫篇 - 爬取全国新冠肺炎疫情数据实例详解效果图展示第一章:疫情信息的下载与数据提取 ① 爬取页面数据到本地 ② json 字符串正则表达式分析 ③ 提取数据中的 json 字符串 ...
（6）Python爬虫——爬取中新网新闻
工欲善其事,必先利其器.我们要进行数据挖掘,就必须先获取数据,获取数据的方法有很多种,其中一种就是爬虫.下面我们利用Python2.7,写一个爬虫,专门爬取中新网http://www.chinanew ...
python爬虫爬取网易云热歌榜top200
爬取网易热歌榜爬虫小练习 import requests from lxml import etree# 热歌榜首页网址 url = 'https://music.163.com/discover/ ...
html定位知乎,从零开始：python实现爬取知乎热榜（随缘更新完善）
获取URL 获取HTML 解析HTML 获取URL 首先要知道URL是什么: URL: Uniform Resource Identifier,即统一资源标识符. URL: Uniform Resou ...
python爬虫爬取豆瓣图书热评并生成图云
共4个py文件,按照顺序运行即可绘制出图云,效果图在最后,参考b占up主"龙王山小青椒"[Python爬虫+本科毕业论文速成]豆瓣评论-我是余欢水-[数据抓取-情感分析-评分统计- ...
Python异步爬取知乎热榜
一.错误代码:摘要和详细的url获取不到 import asyncio from bs4 import BeautifulSoup import aiohttpheaders={'user-agent ...
【知乎热榜爬虫】python爬取知乎热榜问题及答案
所用库 requests xpath解析库 multiprocessing多进程 pymysql数据库操作库实战背景主要是爬取知乎热榜的问题及点赞数比较高的答案,通过requests请求库进行爬取 ...
python爬取知乎热榜了解时事
python爬取知乎热榜了解时事需求知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...

python爬虫——爬取抽屉新热榜

爬取抽屉新热榜

完整代码

python爬虫——爬取抽屉新热榜相关推荐

最新文章

热门文章