python爬取贴吧数据_爬取百度贴吧数据（练习Python爬虫）

爬取百度贴吧数据（Python）

1.总代码：

from urllib.request import Request, urlopen

from urllib.parse import quote

def get_html(html):

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0"

}

request = Request(html, headers=headers)

response = urlopen(request)

return response.read().decode()

def save_html(html,filename):

with open(filename,'w',encoding='utf-8') as f:

f.write(html)

def main():

content = input("请输入想要获取哪个贴吧:")

num = int(input("请输入想要获取多少页:"))

for i in range(num):

url = 'https://tieba.baidu.com/f?fr=ala0&kw='+quote(content)+'&tpl={}'.format(i * 50)

html = get_html(url)

filename = '第'+ str(i+1) +'页.html'

save_html(html,filename)

if __name__ == '__main__':

main()

2.分步解析代码

思路：

1.爬取页面，需要有main方法作为入口，需要获取页面方法(get_html)和保存页面方法(save_html)

2.在get_html方法中设定请求头（header）以达到避免页面发现爬虫痕迹；response响应读取返回页面的html代码。

3.在save_html方法中以写的方式将爬取到的页面代码写入自定义的filename文件中

4.在main方法中接收需要的数据，在字符串拼接的过程中注意：要哪个页面（eg:百度贴吧、python）-->然后通过quote进行文字转换成指定字符串；添加页码（以format的形式进行接收）

python爬取贴吧数据_爬取百度贴吧数据（练习Python爬虫）相关推荐

Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据
Java_Hive_UDF函数清洗数据_清洗出全国的省份数据最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...
python爬取抖音评论_爬取抖音299w用户数据后的分析
纯好奇抖音用户构成做了这件事.抓取数据2999801条. (1) AnyProxy 查看app网络请求.发现url 会直接返回某个粉丝列表 . https://api.amemv.com/aweme/ ...
python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取（Python爬取）...
对于腾讯位置大数据平台,有一些商业接口可以调用看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...
python 爬取svg数据_抓取SVG图表
我试图从以下链接中获取以下svg: 我要刮的部分如下: 我不需要图表中的文字(只需要图表本身).但是,我以前从来没有抓取过svg图像,我不确定这是否可能.我环顾四周,但找不到任何有用的python包来 ...
爬取图片到mysql数据库_爬取微博图片数据存到Mysql中遇到的各种坑\mysql存储图片\爬取微博图片...
前言由于硬件等各种原因需要把大概170多万2t左右的微博图片数据存到Mysql中.之前存微博数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才完成 ...
python爬微信朋友圈关键词_爬取朋友圈，Get年度关键词
人生苦短,我用Python && C#. 1.引言最近初学Python,写爬虫上瘾.爬了豆瓣练手,又爬了公司的论坛生成词云分析年度关键词.最近琢磨着2017又仅剩两月了,我的年度关键 ...
python翻页功能url不变_爬取Ajax动态加载和翻页时url不变的网页
这两天投了一家公司的爬虫实习生,笔试题是完成一个爬虫的小需求.网站没有什么反爬的高级技巧.但是有非常常见的,并不是针对我们爬虫的,却让我们新手很难理解的ajax动态加载技术和乍一看不明白的翻页时不变的 ...
python爬取网易云音乐_爬取网易云音乐评论（一）——用python执行JS脚本
抓包分析可以发现网页是post请求,表单数据有两个参数params和encSecKey,应该是经过js加密所得因此在 Initiator 栏里找到对应的js,也就是core...js,点击打开查看 ...
电影票房爬取到MySQL中_爬取最热电影及票房统计
最近过五一小长假,带着老婆孩子出去玩了,偷了点小懒,又没有更新知乎.白天在外面玩,回来就想撸撸代码,撸代码也有瘾,成了生活中不可缺少的一部分.前几篇文章都是讲数据处理的,今天换个风格吧.写个简单的爬虫 ...

python爬取贴吧数据_爬取百度贴吧数据（练习Python爬虫）

python爬取贴吧数据_爬取百度贴吧数据（练习Python爬虫）相关推荐

最新文章

热门文章