• 环境:WIN10+Python3.6
# 完整爬取微博评论程序,只需要修改微博id即可
import requests
import json
import re
#爬取微博评论写入weibo_comment.txt
def get_comment(weibo_id, url, headers, number):count = 0fp = open("weibo_comment_"+str(weibo_id)+".txt", "a", encoding="utf8")#判断爬取数目是否足够while count<number:#判断是否是第一组,第一组不加max_idif count == 0:print('是第一组')try:url = url + weibo_id + '&mid=' + weibo_id +'&max_id_type=0'web_data = requests.get(url, headers = headers)js_con = web_data.json()#获取连接下一页评论的max_idmax_id = js_con['data']['max_id']print(max_id)comments_list = js_con['data']['data']for commment_item in comments_list:comment = commment_item["text"]#删除表情符号label_filter = re.compile(r'</?\w+[^>]*>', re.S)comment = re.sub(label_filter, '', comment)fp.write(comment)count += 1print("已获取"+str(count)+"条评论。")except Exception as e:print(str(count) + "遇到异常")continueelse:print('不是第一组')try:url = url + weibo_id + 'max_id=' + str(max_id) + '&max_id_type=0'web_data = requests.get(url, headers = headers)js_con = web_data.json()#获取连接下一页评论的max_idmax_id = js_con['data']['max_id']comments_list = js_con['data']['data']for commment_item in comments_list:comment = commment_item["text"]#删除表情符号label_filter = re.compile(r'</?\w+[^>]*>', re.S)comment = re.sub(label_filter, '', comment)fp.write(comment)count += 1print("已获取"+str(count)+"条评论。")except Exception as e:print(str(count) + "遇到异常")continuefp.close()if __name__ == "__main__":headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}url = 'https://m.weibo.cn/comments/hotflow?id='weibo_id = '4363505468007923' #微博idnumber = 400 #爬取评论量get_comment(weibo_id,url,headers,number)

欢迎关注,一起学习。有用点个赞吧!

【Python爬虫】requests爬取新浪微博评论代码相关推荐

  1. 【Python爬虫】爬取新浪微博评论看网友如何评价NBA季后赛火箭VS爵士G3

    网友如何评论NBA季后赛火箭VS爵士G3 爬取网友评论 首先我们找到一篇关于比赛的微博 生成词云图 我们看看关键的几个人物:哈登,米切尔,塔克,徐坤(乱入?) 哈登 莫非今天又是常规操作30+?MVP ...

  2. python爬虫: requests爬取flash播放页面的信息

    我们通过查看知道flash类型的网页采取文件格式是amf类型的 AMF(Action Message Format) 是Flash与服务端通信的一种常见的二进制编码模式,其传输效率高,可以在HTTP层 ...

  3. python爬虫——requests爬取高德地图全国天气信息

    一.分析 在浏览器中搜索高德地图,按F12,点击搜索 可以查看到西安市对应的citycode是610100 cityList表示出城市信息,有可能有城市的编号,我们复制他的url查看 在json在线解 ...

  4. python爬虫批量抓取新浪微博用户ID及用户信息、微博内容

    老师给的任务,要对批量的微博文本进行舆情分析.第一步就是数据的抓取.在网上搜了一下大多是基于手机版网页(wap/cn)的爬虫,但是我在电脑上打不开这些网站. 由于自己也是网页小白,所以就参考着别人的代 ...

  5. python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

  6. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  7. python爬虫实现爬取网页主页信息(html代码)

    python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...

  8. python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜

    利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...

  9. python爬虫练习--爬取站长素材中免费简历模板

    python爬虫练习--爬取站长素材中免费简历模板 一.需求 二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾 结语 一.需求 此代码是为完成波波老师 ...

最新文章

  1. pandas使用groupby函数进行分组聚合、使用agg函数指定聚合统计计算的数值变量、并自定义统计计算结果的名称(naming columns after aggregation)
  2. JetBrains产品永久破解
  3. CS224W图机器学习课,斯坦福大牛主讲 | 视频、课件
  4. oracle将查询结果声明为伪表,Oracle查询操作(增删改查,伪表,高级查询)实例讲解...
  5. php中文网地址多少,计算机网络中有几种地址格式
  6. 区块链成熟度评测报告
  7. Django学习笔记之——Forms
  8. [leetcode] 根据String数组构造TreeNode,用于LeetCode树结构相关的测试用例
  9. .NET 6新特性试用 | 异步流
  10. oracle rman备份 归档模式,Oracle RMAN备份归档与非归档模式
  11. 好朋友,记得要经常联系
  12. usb4java android,USB audio on Android platform
  13. 报时功能_拥有自鸣等20种复杂功能的百达翡丽6300G 连日期都可以用打簧报时听出来...
  14. [转]《编程之道》(很老的一篇文章)
  15. 企业级需求管理工具选型报告(2020年3月20日)
  16. go-pitaya学习笔记(12) - 看一看火龙果内置模块
  17. 【Coding】Latex添加表格注释footnote
  18. 【Solidity】注意事项
  19. 前端开发----简介
  20. 最全maven archetype 配置!

热门文章

  1. 【炉石】卡片模型的小分析2--基础法术
  2. 计算机是如何起源的?
  3. d3.js Tree
  4. SparSql 中DataFrame出现_corrupt_record问题解决(DataFrame多行读取JSON数据问题解决)
  5. XML扩展性标记语言
  6. NVM 切换国内源 淘宝源
  7. graylog安装总结
  8. 教妹学 Java:字符串拼接
  9. 【愚公系列】2021年12月 Java教学课程 38-Lambda表达式
  10. Pytorch_YOLOv3调试碰到的问题