【Python爬虫】requests爬取新浪微博评论代码

环境：WIN10+Python3.6

# 完整爬取微博评论程序，只需要修改微博id即可
import requests
import json
import re
#爬取微博评论写入weibo_comment.txt
def get_comment(weibo_id, url, headers, number):count = 0fp = open("weibo_comment_"+str(weibo_id)+".txt", "a", encoding="utf8")#判断爬取数目是否足够while count<number:#判断是否是第一组，第一组不加max_idif count == 0:print('是第一组')try:url = url + weibo_id + '&mid=' + weibo_id +'&max_id_type=0'web_data = requests.get(url, headers = headers)js_con = web_data.json()#获取连接下一页评论的max_idmax_id = js_con['data']['max_id']print(max_id)comments_list = js_con['data']['data']for commment_item in comments_list:comment = commment_item["text"]#删除表情符号label_filter = re.compile(r'</?\w+[^>]*>', re.S)comment = re.sub(label_filter, '', comment)fp.write(comment)count += 1print("已获取"+str(count)+"条评论。")except Exception as e:print(str(count) + "遇到异常")continueelse:print('不是第一组')try:url = url + weibo_id + 'max_id=' + str(max_id) + '&max_id_type=0'web_data = requests.get(url, headers = headers)js_con = web_data.json()#获取连接下一页评论的max_idmax_id = js_con['data']['max_id']comments_list = js_con['data']['data']for commment_item in comments_list:comment = commment_item["text"]#删除表情符号label_filter = re.compile(r'</?\w+[^>]*>', re.S)comment = re.sub(label_filter, '', comment)fp.write(comment)count += 1print("已获取"+str(count)+"条评论。")except Exception as e:print(str(count) + "遇到异常")continuefp.close()if __name__ == "__main__":headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}url = 'https://m.weibo.cn/comments/hotflow?id='weibo_id = '4363505468007923' #微博idnumber = 400 #爬取评论量get_comment(weibo_id,url,headers,number)

欢迎关注，一起学习。有用点个赞吧！

【Python爬虫】requests爬取新浪微博评论代码相关推荐

【Python爬虫】爬取新浪微博评论看网友如何评价NBA季后赛火箭VS爵士G3
网友如何评论NBA季后赛火箭VS爵士G3 爬取网友评论首先我们找到一篇关于比赛的微博生成词云图我们看看关键的几个人物:哈登,米切尔,塔克,徐坤(乱入?) 哈登莫非今天又是常规操作30+?MVP ...
python爬虫: requests爬取flash播放页面的信息
我们通过查看知道flash类型的网页采取文件格式是amf类型的 AMF(Action Message Format) 是Flash与服务端通信的一种常见的二进制编码模式,其传输效率高,可以在HTTP层 ...
python爬虫——requests爬取高德地图全国天气信息
一.分析在浏览器中搜索高德地图,按F12,点击搜索可以查看到西安市对应的citycode是610100 cityList表示出城市信息,有可能有城市的编号,我们复制他的url查看在json在线解 ...
python爬虫批量抓取新浪微博用户ID及用户信息、微博内容
老师给的任务,要对批量的微博文本进行舆情分析.第一步就是数据的抓取.在网上搜了一下大多是基于手机版网页(wap/cn)的爬虫,但是我在电脑上打不开这些网站. 由于自己也是网页小白,所以就参考着别人的代 ...
python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论
新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...
python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
python爬虫实现爬取网页主页信息（html代码）
python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...
python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜
利用python爬虫实现爬取网易云音乐热歌榜发布时间:2020-11-09 16:12:28 来源:亿速云阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...
python爬虫练习--爬取站长素材中免费简历模板
python爬虫练习--爬取站长素材中免费简历模板一.需求二.代码 1. 引入库 2. main() 3. saveData(div_list) 4. 收尾结语一.需求此代码是为完成波波老师 ...

【Python爬虫】requests爬取新浪微博评论代码

【Python爬虫】requests爬取新浪微博评论代码相关推荐

最新文章

热门文章