五种不同的微博评论数据获取方法
接下来简单介绍五种不同的微博评论数据获取方法。
第一种方式:
有4种不同的微博登录方式,m.weibo.cn m.weibo.com(电脑端打不开) weibo.cn weibo.com, 今天我们主要使用m.weibo.cn。
1.登录网址https://m.weibo.cn/detail/4502725984887404
2.注意:要爬评论是需要先登录的,通过登录获取cookie,之后的请求均携带此cookie。有了cookie了,接下来就是按照分析的规则进行评论的爬取
接下来上一段简易版的代码
import requestsimport jsonimport reheaders = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8","accept-encoding": "gzip, deflate, br","accept-language": "zh-CN,zh;q=0.9,en;q=0.8","cache-control": "max-age=0","cookie": "写上你的cookie","upgrade-insecure-requests": "1","user-agent": "你的user agent",}url = 'https://m.weibo.cn/comments/hotflow?id=4502725984887404&mid=4502725984887404&max_id_type=0'weibo_data = requests.get(url,headers,verify=False)# json_com = weibo_data.content.decode('utf-8')# print(json_com)json_com = weibo_data.json()# print(json_com)comments_list = json_com['data']['data']for comment_item in comments_list:comment = comment_item['text']print(comment)lable_filter = re.compile(r'(<span.*>.*</span>)*(<a.*>.*</a>)?')clean_comment = re.sub(lable_filter,'',comment)print(clean_comment)
参考:https://www.jianshu.com/p/8dc04794e35f
第二种:使用Selenium模拟鼠标的点击
这个需要安装谷歌浏览器,以及与相应的浏览器版本对应的webdriver(直接百度就行)。使用时,引入相关包,from selenium import webdriver。
当然也可以安装火狐浏览器,以及对应的driver
参考:https://blog.csdn.net/a19990412/article/details/79944713?from=timeline
第三种:使用八爪鱼
参考:https://mp.weixin.qq.com/s/tAIwmzWyxt65f2bC8Uy4Xg
具体大家可以关注公众号“八爪鱼大数据”(不是广告,没有任何广告费,手动捂脸)
第四种:使用谷歌浏览器的插件Web Scraper抓取
可以在谷歌浏览器的商店里搜索安装
参考:https://chromecj.com/productivity/2018-05/942.html
第五种:使用过公式抓取,就是我们现在即将使用的方法,此方法不需编程,几乎不用担心被反爬~~
1.登录手机端微博 m.weibo.cn
2.滚动下拉按钮,使网页内容全部加载完成后,Ctrl+A全选,复制。
3.打开excel粘贴到excel中。
4.使用excel函数清洗数据,用到的函数有,right函数、left函数、unicode函数、mod函数。具体过程如下:
(1)验证首位是否为数字=AND(UNICODE(LEFT(A2,1))>=48,UNICODE(LEFT(A2,1))<=57)
(2)验证末位是否为数字=AND(UNICODE(RIGHT(A2,1))>=48,UNICODE(RIGHT(A2,1))<=57)
(3)删除无关行
(4)取余
(5)按余数不同整理结果
五种不同的微博评论数据获取方法相关推荐
- 五种WordPress防止垃圾评论方法-过滤垃圾评论提高WP运行效率
点击上方蓝字"优派编程"选择"加为星标",第一时间关注原创干货 最近小编wp后台老是收到烦人的文章垃圾评论,并且评论是机器人发过来的.请看下图: 为了防止对方机 ...
- php实现云盘下载不限速,【合集】【已更新第五种】五种百度云下载不限速方法+软件...
本帖最后由 kof20046 于 2019-3-17 17:46 编辑 目前本人知道的五种百度网盘不限速方法,给大家收集起来,方便查找下载. 还有IDM和FDM也是可以下载,但是我下载的时候总只有10 ...
- html win10虚拟键盘,五种打开win10虚拟键盘的方法 win10虚拟键盘快捷键
电脑在使用的过程中,有时会遇到只有鼠标或实体键盘部分按键失灵,或为了体验系统自带的虚拟键盘等情况.此时就需要开启系统的屏幕键盘.屏幕键盘是一个模拟键盘的系统软件,必要的时候可以代替物理键盘Win10做 ...
- 亲测五种高效实用的脱单方法,赶紧收藏帮你快速找到优质对象!
作为一名多年相亲征友的大龄女青年,试过了特别多的脱单方法走过了不少弯路,最后成功脱单,自己总结了以下五种脱单方法,亲测有效,想要快速脱单找到优质对象的你可以参考一下哦: 1.亲戚朋友介绍 通过介绍的相 ...
- 浅析五种C语言内存分配的方法及区别
点击上方蓝字关注我,了解更多咨询 在C语言中,内存分成5个区,他们分别是堆.栈.自由存储区.全局/静态存储区和常量存储区. 栈,就是那些由编译器在需要的时候分配,在不需要的时候自动清楚的变量的存储区. ...
- 计算机怎样打开鼠标点的键盘,如何打开计算机虚拟键盘?五种打开计算机虚拟键盘的方法简介...
随着社会的发展和时代的进步,人们的生活越来越丰富多彩.越来越多的电子产品的出现给人们的生活增添了无限的兴奋.如今,计算机已成为人们生活中必不可少的电子产品之一.我们总能在生活中看到计算机.当然,键盘经 ...
- 活用这五种软文素材的收集方法,初学者也能变高手
很多小伙伴都觉得软文很难写,其中最大原因无非就二个方面,第一点是本身的知识累积过少,产品资料.资讯.新闻.热点等信息没有提前充分准备,自然很难写出来什么东西.第二点是没有合适的素材和出发点,使得文章没 ...
- 提高CSS文件可维护性的五种方法
当完成一项前端的工作之后,许多人都会忘记该项目的结构与细节.然而代码并不是马上就能完全定型,在余下的时间里还有不断的维护工作,而这些工作也许不会是你自己完成.所以,结构优良的代码能很大程度上优化它的可 ...
- 五种常用异常值检测方法
Toggle navigation 首页 产业趋势 专家观察 CISO洞察 决策研究 登录 APP下载 数据挖掘最前线:五种常用异常值检测方法 安全运营 机器之心 2019-07-05 通过鉴别故障来 ...
- Java数组去重的多种方法,[Java教程]JavaScript常见的五种数组去重的方式
[Java教程]JavaScript常见的五种数组去重的方式 0 2016-12-14 15:00:17 ▓▓▓▓▓▓ 大致介绍 JavaScript的数组去重问题在许多面试中都会遇到,现在做个总结 ...
最新文章
- html js脚本限制 正则,[js]用JAVASCRIPT正则表达式限制文本字节数的代码
- python编程入门书籍推荐-给刚入门python的朋友推荐几本书
- python 加注拼音-Python 获取中文字拼音首个字母的方法
- windows mobile开发循序渐进(5)移动应用程序与webservice之间的数据交互
- python实现一个字典
- 论手残党画交互原型的正确姿势
- sklearn自学指南(part54)--高斯过程的核函数
- 分布与并行计算—生产者消费者模型实现(Java)
- java http的get,post请求
- 双向链表的增、删、查、改、python实现,超详细讲解
- linux用grep查找文件内容
- win7下的python2.7和pip的环境安装
- 全网首发:把一个bit数组矩阵旋转90度
- python教程五(imput和while)
- 懒人必备神器 !一个创意十足的 Python 命令行工具
- Cocos2dx游戏开发系列笔记5:继续润色《忍者飞镖射幽灵》
- 计算机应用技术英语音标,英语国际音标
- 比ownCloud/Nextcloud更好用的免费私有企业网盘
- 20款优秀的移动产品原型和线框图设计
- ansi是什么编码_ANSI的完整形式是什么?
热门文章
- Attempt to invoke virtual method 'void android.support.v4.app.Fragment.setNextAnim(int)'
- SPSS 27 发布了!我为什么要在两个月前买SPSS?为什么?为什么?为什么?
- 2019年上半年软件设计师上午试题及答案
- 一个漂亮的电子数字字体分享electronicFont
- Flutter异常Another exception was thrown: A RenderFlex overflowed by 5.0 pixels on the bottom解决方案
- 软件功能测试ok,S7_200解密软件,测试OK
- 即时通讯创业必读:解密微信的产品定位、创新思维、设计法则等
- 中国大学MOOC电影鉴赏题库(含答案)
- 安防互联网摄像头视频流媒体服务器EasyNVR对接海康流媒体V4.X客户端实现方法
- 性能测试--11Beanshell的脚本开发技术