爬取百度贴吧数据(Python)

1.总代码:

from urllib.request import Request, urlopen

from urllib.parse import quote

def get_html(html):

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0"

}

request = Request(html, headers=headers)

response = urlopen(request)

return response.read().decode()

def save_html(html,filename):

with open(filename,'w',encoding='utf-8') as f:

f.write(html)

def main():

content = input("请输入想要获取哪个贴吧:")

num = int(input("请输入想要获取多少页:"))

for i in range(num):

url = 'https://tieba.baidu.com/f?fr=ala0&kw='+quote(content)+'&tpl={}'.format(i * 50)

html = get_html(url)

filename = '第'+ str(i+1) +'页.html'

save_html(html,filename)

if __name__ == '__main__':

main()

2.分步解析代码

思路:

1.爬取页面,需要有main方法作为入口,需要获取页面方法(get_html)和保存页面方法(save_html)

2.在get_html方法中设定请求头(header)以达到避免页面发现爬虫痕迹;response响应读取返回页面的html代码。

3.在save_html方法中以写的方式将爬取到的页面代码写入自定义的filename文件中

4.在main方法中接收需要的数据,在字符串拼接的过程中注意:要哪个页面(eg:百度贴吧、python)-->然后通过quote进行文字转换成指定字符串; 添加页码(以format的形式进行接收)

python爬取贴吧数据_爬取百度贴吧数据(练习Python爬虫)相关推荐

  1. Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据

    Java_Hive_UDF函数清洗数据_清洗出全国的省份数据 最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...

  2. python爬取抖音评论_爬取抖音299w用户数据后的分析

    纯好奇抖音用户构成做了这件事.抓取数据2999801条. (1) AnyProxy 查看app网络请求.发现url 会直接返回某个粉丝列表 . https://api.amemv.com/aweme/ ...

  3. python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取)...

    对于腾讯位置大数据平台,有一些商业接口可以调用 看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...

  4. python 爬取svg数据_抓取SVG图表

    我试图从以下链接中获取以下svg: 我要刮的部分如下: 我不需要图表中的文字(只需要图表本身).但是,我以前从来没有抓取过svg图像,我不确定这是否可能.我环顾四周,但找不到任何有用的python包来 ...

  5. 爬取图片到mysql数据库_爬取微博图片数据存到Mysql中遇到的各种坑\mysql存储图片\爬取微博图片...

    前言 由于硬件等各种原因需要把大概170多万2t左右的微博图片数据存到Mysql中.之前存微博数据一直用的非关系型数据库mongodb,由于对Mysql的各种不熟悉,踩了无数坑,来来回回改了3天才完成 ...

  6. python爬微信朋友圈关键词_爬取朋友圈,Get年度关键词

    人生苦短,我用Python && C#. 1.引言 最近初学Python,写爬虫上瘾.爬了豆瓣练手,又爬了公司的论坛生成词云分析年度关键词.最近琢磨着2017又仅剩两月了,我的年度关键 ...

  7. python翻页功能url不变_爬取Ajax动态加载和翻页时url不变的网页

    这两天投了一家公司的爬虫实习生,笔试题是完成一个爬虫的小需求.网站没有什么反爬的高级技巧.但是有非常常见的,并不是针对我们爬虫的,却让我们新手很难理解的ajax动态加载技术和乍一看不明白的翻页时不变的 ...

  8. python爬取网易云音乐_爬取网易云音乐评论(一)——用python执行JS脚本

    抓包分析 可以发现网页是post请求,表单数据有两个参数params和encSecKey,应该是经过js加密所得 因此在 Initiator 栏里找到对应的js,也就是core...js,点击打开查看 ...

  9. 电影票房爬取到MySQL中_爬取最热电影及票房统计

    最近过五一小长假,带着老婆孩子出去玩了,偷了点小懒,又没有更新知乎.白天在外面玩,回来就想撸撸代码,撸代码也有瘾,成了生活中不可缺少的一部分.前几篇文章都是讲数据处理的,今天换个风格吧.写个简单的爬虫 ...

最新文章

  1. linux将字符串转小写_Python教程第10讲:字符串的使用
  2. python中3个单引号_Python中单引号,双引号,3个单引号及3个双引号的区别
  3. ArcGIS时态数据应用——动态展示3个月内犯罪案件数量变化
  4. 移动开发平台性能比較
  5. 局部变量和参数传递的问题
  6. html5绘制矩形动画,HTML5下绘制矩形教程
  7. synchronized 底层了解一下...
  8. 去除listView和recyclerview滑动到顶部和底部边界的阴影
  9. vsftpd增加和删除用户的shell脚本
  10. 每天学点Python Cookbook(三)
  11. java 算法之快速排序
  12. flyme禁止系统更新_彻底关闭魅族flyme系统自动更新的方法分享
  13. 计算机通信普遍采用报文交换,报文交换
  14. IDEA中配置类提示Spring Boot Configuration Annotation Processor not configured
  15. 信念就是一种观念对不对_信念与观念一字之差天差地别
  16. Kubernetes Secrets
  17. python做题记录之切西瓜
  18. 5.Python数据分析项目之文本分类-自然语言处理
  19. 计算机应用基础模拟三答案,《计算机应用基础》模拟试卷三(含答案)
  20. 密码学---数字签名和认证协议---数字签名的基本概念

热门文章

  1. 真机调试移动端端页面的技巧
  2. html5播放qsv文件吗,qsv文件怎么打开?qsv是什么格式?
  3. 十二款硬盘数据恢复软件!恢复数据,最适合你的是这一款
  4. 朴素贝叶斯算法推导分析
  5. MIMEMultipart类型
  6. Python学习:用Selenium读取网页表格
  7. Udacity机器学习入门项目5:预测波士顿房价
  8. bmp格式转换lcd屏幕c语言,BMP转成C语言数组文件工具(用image2lcd代替bmp2h.exe)
  9. Java file outside of soure root 导入项目时idea无法识别为java文件
  10. IT痴汉的工作现状27-高冷MM与奶茶姑娘