要爬取的

import  requests,json
from lxml import etree
import xlwt
wookbook=xlwt.Workbook(encoding='utf-8')
sheet=wookbook.add_sheet('sheet',cell_overwrite_ok=True)
sheet.write(0,0,'昵称')
sheet.write(0,1,'时间')
sheet.write(0,2,'评论内容')headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0','Cookie': 'UOR=cq.people.com.cn,widget.weibo.com,www.baidu.com; SINAGLOBAL=8820348664023.912.1574510643668; ULV=1574590616135:2:2:1:2609036048862.229.1574590616131:1574510643676; SUB=_2AkMqha9xf8NxqwJRmfwRzWvgbYlxygvEieKc2V6qJRMxHRl-yT9jqmI_tRB6AQWBniAs_6LTl13APpmM6HFRJNr8korC; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WhdwXUpZQU.RZS.ObOYcheW; login_sid_t=f7428b2bac48ff3272a6ca1a7f371494; cross_origin_proto=SSL; Ugrow-G0=589da022062e21d675f389ce54f2eae7; TC-V5-G0=799b73639653e51a6d82fb007f218b2f; WBStorage=42212210b087ca50|undefined; _s_tentry=www.baidu.com; Apache=2609036048862.229.1574590616131; wb_view_log=1366*7681; YF-Page-G0=aac25801fada32565f5c5e59c7bd227b|1574591169|1574591031; YF-V5-G0=2583080cfb7221db1341f7a137b6762e; TC-Page-G0=b32a5183aa64e96302acd8febeb88ce4|1574590842|1574590826'
}def get_furl():flag=1url1='https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4430885656881201&from=singleWeiBo&page=1'txt=requests.get(url1,headers=headers).textcnt=1while flag==1:html=json.loads(txt)['data']['html']html=etree.HTML(html)# 得到该评论源码的所有评论uls = html.xpath('//div[@class="list_con"]')for ul in uls:user = ul.xpath('./div[@class="WB_text"]/a/text()')[0]comment = ul.xpath('./div[@class="WB_text"]/text()')[1]# 去除中文冒号:comment = comment.split(':', maxsplit=1)[-1]tim = ul.xpath('./div[contains(@class,"WB_func")]/div[contains(@class,"WB_from")]/text()')[0]user_url = 'https:' + ul.xpath('./div[@class="WB_text"]/a/@href')[0]print(user)sheet.write(cnt,0,user)print(comment)sheet.write(cnt,2,comment)print(tim)sheet.write(cnt,1,tim)cnt+=1try:net_url=html.xpath('//div[@node-type="comment_loading"]/@action-data')[0]except:try:net_url=html.xpath('//a/@action-data')[-1]except:print(cnt)# print('*'*25)wookbook.save('微博.xlsx')exit()print(net_url)url1='https://weibo.com/aj/v6/comment/big?ajwvr=6&'+net_url+'&from=singleWeiBo&__rnd=1574942088520'txt = requests.get(url1, headers=headers).textprint(url1)return  html
if __name__=='__main__':s=requests.Session()data=get_furl()

结果 保存到excel如图所示

爬取微博全部一级评论(简单有效)相关推荐

  1. python爬取“微博”移动端评论数据

    目的 爬取微博移动端的评论数据(如下图),然后将数据保存到.txt文件和.xlsl文件中. 实现过程 实现的方法很简单,就是模拟浏览器发送ajax请求,然后获取后端传过来的json数据. 一.找到获取 ...

  2. scrapy多cookies+ip代理稳定爬取微博m站评论以及子评论

    为了以后的深度学习可以爬取更多更好的语料以及其他资源,先拿weibo移动端试了下手(果然一进就全是坑-) 1.分析weibo登陆以获取cookies 1)预请求获取服务器信息 2)构建请求登陆url ...

  3. python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区

    简介 爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库 步骤 1. 登陆保存cookie 首先,打开m.weib ...

  4. 从零到一学爬虫-爬取微博热搜示例

    爬取微博热搜榜-简单示例 使用爬虫模拟浏览器向微博热搜的服务器发送请求,得到响应,然后将响应的信息进行打印. 当我们直接打开浏览器,输入https://s.weibo.com/top/summary, ...

  5. 简单爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页

    爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页 1.什么是ajax异步数据交换网页 2.用到的工具模块和简单解释 3.网页内容解析 4.代码实现及解释 1.什么是ajax异步数据交换网页 ...

  6. 如何使用python简单的爬取微博搜索的内容

    UI界面输入关键词用python爬取微博内容 第一步:创建main.py文件,用来作为主类. 在main.py文件中进行以下操作. 一.程序入口,明白接下来进行的操作 1.加载UI界面. 2.爬取网页 ...

  7. 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云

    简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...

  8. python爬取微博恶评_Python爬取新浪微博评论数据,了解一下?

    开发工具 **Python版本:**3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装 ...

  9. ajax将数据显示在class为content的标签中_python爬取微博评论(无重复数据)

    python爬取微博评论(无重复数据) 前言 一.整体思路 二.获取微博地址 1.获取ajax地址2.解析页面中的微博地址3.获取指定用户微博地址 三.获取主评论 四.获取子评论 1.解析子评论2.获 ...

最新文章

  1. 动手开发一个简易的 PHP for Git Server 第一章
  2. Navcat:1251 client does not support ...问题
  3. SAP OData的CSRF校验开关
  4. php asp.net 代码量少,.NET_asp.net 反射减少代码书写量, 复制代码 代码如下:public b - phpStudy...
  5. python大文件排序_python实现按创建时间对文件排序
  6. Python线程安全问题及解决方法
  7. 苹果蜂窝网络版iPad mini 6不支持毫米波5G
  8. C++新特性探究(七):初始化列表(Initialization List)
  9. Dubbo分析之Registry层
  10. 台式计算机电源机箱维修,终于理会电脑电源故障的维修方法
  11. 简单的java恶搞小病毒_恶搞电脑病毒代码有哪些
  12. 数据库左连接和右连接有什么区别!
  13. 排课系统asp源代码_高校教务排课系统源代码及全套资料.doc
  14. android 自定义字体 ttf,Android使用自定义字体的方法
  15. m1电脑推荐使用Google Chrome浏览器
  16. 笔记本锁定计算机功能键,笔记本键盘锁定键在哪_笔记本电脑的“键盘锁”是哪一个键-win7之家...
  17. 苹果拍照怎么显示地点和时间_2020年康复理疗师证报名时间怎么报考考试地点...
  18. PHP程序员战地日记
  19. 7 进度指示器(LinearProgressIndicator、CircularProgressIndicator)
  20. widget中文技术文档

热门文章

  1. Java常用类练习(下篇)
  2. Ubuntu18.04开机自动启动终端并运行脚本
  3. python获取未读邮箱数目_利用腾讯企业邮箱开放API获取账户未读邮件数初探
  4. 解决threejs后处理轮廓线outlinePass选中 transformControls的辅助线
  5. 基于JSP的餐饮管理系统
  6. Postgresql generate_series函数使用
  7. DG日志断档解决方法
  8. 查看Safari和钥匙串中的密码
  9. 前端3DOM编程3——Ajax和服务端通信
  10. 5年前的今天,一个小小的部署错误,让美股最大交易商坠入深渊