本文分享爬取微博网页端指定微博的评论数据。
首先登录微博网页端,找一个感兴趣的微博:

打开评论页面,右键检查,点击network,ctrl+R加载页面

得到这个页面的cookie:

代码实现:
爬取了评论的昵称、时间和内容

import time
import  requests,json
from lxml import etree
import xlwt
wookbook=xlwt.Workbook(encoding='utf-8')
sheet=wookbook.add_sheet('sheet',cell_overwrite_ok=True)
sheet.write(0,0,'nick')
sheet.write(0,1,'time')
sheet.write(0,2,'content')headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0','Cookie':'SINAGLOBAL=5322597451823.386.1554213722659; Ugrow-G0=589da022062e21d675f389ce54f2eae7; login_sid_t=535c06faa28c0a73bbf2a70054bed5ac; cross_origin_proto=SSL; YF-V5-G0=bae6287b9457a76192e7de61c8d66c9d; WBStorage=42212210b087ca50|undefined; _s_tentry=passport.weibo.com; Apache=3011672908696.3213.1592668545629; ULV=1592668545635:44:6:1:3011672908696.3213.1592668545629:1591590712267; crossidccode=CODE-yf-1JMFR8-29rJK3-ng3qQtt3hYUdGQeb030fb; ALF=1624204599; SSOLoginState=1592668599; SCF=ApjScoaMbsXtNFObav_TZqQn86gd4_VisrebpOwKJO9-7nKNzPWApotfh41gp7QvIRfB-WzENTDQdqTziGo26tk.; SUB=_2A25z6kHoDeRhGeNJ61MZ8ijPwjmIHXVQnjQgrDV8PUNbmtANLRPtkW9NSBjGUQ-3h0MfrgBtUEtVUHAeybQTIcZ9; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WhQl.su1CrnzMojsR4pBc225JpX5KzhUgL.Fo-Neh2Reoq01K-2dJLoIEnLxK-LBo5L12qLxKML1hqL122LxKqL1KnL1-qLxK-LB.2LBKU9C-_l; SUHB=0Jvg9O4IYZXCjE; wvr=6; UOR=www.psjia.com,widget.weibo.com,graph.qq.com; webim_unReadCount=%7B%22time%22%3A1592668759286%2C%22dm_pub_total%22%3A0%2C%22chat_group_client%22%3A0%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A43%2C%22msgbox%22%3A0%7D; YF-Page-G0=580fe01acc9791e17cca20c5fa377d00|1592668778|1592668627'
}def get_furl():flag=1url1='https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4517608383498080&from=singleWeiBo&page=1'txt=requests.get(url1,headers=headers).textcnt=1while flag==1:time.sleep(2)html=json.loads(txt)['data']['html']html=etree.HTML(html)# 得到该评论源码的所有评论uls = html.xpath('//div[@class="list_con"]')for ul in uls:user = ul.xpath('./div[@class="WB_text"]/a/text()')[0]comment = ul.xpath('./div[@class="WB_text"]/text()')[1]# 去除中文冒号:comment = comment.split(':', maxsplit=1)[-1]tim = ul.xpath('./div[contains(@class,"WB_func")]/div[contains(@class,"WB_from")]/text()')[0]user_url = 'https:' + ul.xpath('./div[@class="WB_text"]/a/@href')[0]print(user)sheet.write(cnt,0,user)print(comment)sheet.write(cnt,2,comment)print(tim)sheet.write(cnt,1,tim)cnt+=1try:net_url=html.xpath('//div[@node-type="comment_loading"]/@action-data')[0]except:try:net_url=html.xpath('//a/@action-data')[-1]except:print(cnt)# print('*'*25)wookbook.save('liziqi.xlsx')exit()print(net_url)url1='https://weibo.com/aj/v6/comment/big?ajwvr=6&'+net_url+'&from=singleWeiBo&__rnd=1592668779880'txt = requests.get(url1, headers=headers).textprint(url1)return  html
if __name__=='__main__':s=requests.Session()data=get_furl()

结果截图:

爬取不同的微博时,需要替换的是第13行Cookie,第18行的id值和第56行的rnd值。获取方法如前文所述。
本代码的不足是不能爬取回复的评论,只能把当前页面显示的评论爬取下来。

python爬虫获取给定新浪微博评论相关推荐

  1. 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

    前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...

  2. python3爬取微博评论api情感分析_如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析...

    param = (comment_id,user_name,created_at,text,likenum,source) try: A = cur.execute(sql,param) conn.c ...

  3. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  4. Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库

    Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...

  5. 使用Python爬虫获取豆瓣影评,并用词云显示

    使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...

  6. 破解网易云js加密,爬虫获取网易云评论

    破解网易云js加密,爬虫获取网易云评论 抓包 这里是对网页版的网易云音乐进行抓包,分析网络请求,url https://music.163.com/#/song?id=36229055 然后可以发现 ...

  7. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  8. python爬虫获取百度贴吧内容

    python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...

  9. python爬虫获取天猫店经营者资质证书(更新到2020.06.13

    python爬虫获取天猫店经营者资质证书(更新到2020.06.13 爬取需求 excel表中给定多个天猫的店铺链接,获取店铺的经营者资质证书,保存为本地图片 代码基于之前写的一个博客https:// ...

最新文章

  1. GMS(cts、gsi、vts、gts、ctsv)问题总结
  2. 超越百度的口罩检测算法
  3. OVS DPDK--网桥配置(四)
  4. 用.net4中的DynamicObject实现简单AOP
  5. 机器学习之贝叶斯垃圾邮件分类
  6. javascript 的 ~ 操作符作用
  7. 01背包、完全背包、多重背包
  8. java 偏向锁 怎么用_Java锁升级、偏向锁、轻量级锁
  9. Java 16 正式发布
  10. 手机问卷调查报告 html,使用手机问卷调查报告
  11. 内存带宽与显示分辨率带宽的关系与计算
  12. MATLAB——LTI Viewer
  13. labelme标记数据后,批量处理json文件,生成标签
  14. Linux_mv命令移动文件夹下所有文件以及“Argument list too long”问题的解决方法
  15. ***实战:教你轻松查看QQ空间加密后的好友图片
  16. 【算法】Sky Map
  17. UVa 11178 Morley‘s Theorem(计算几何基础)
  18. Lemur的disk index
  19. POJ - 1905 (几何+二分)
  20. 判断密码是否为键盘排序密码[C++版本] (3个或者3个以上的连续字符)

热门文章

  1. 【CS224w图机器学习】第一章 图机器学习导论
  2. 集成学习(三):adaboost算法推导
  3. 浅谈百变的人像构图技巧
  4. Ketos 笔记 -- 记 Go Hackathon 2017
  5. ncc,nc手动调用数据库查询
  6. Java基础核心之三大特性
  7. Mac App Store 无法登录/无法连线
  8. Java Array.sort 根据字符串长度排序
  9. 【达梦数据库】DM 集群简介
  10. 利用PyQt5和QSS制作本地音乐播放器(初稿)