接下来简单介绍五种不同的微博评论数据获取方法。

第一种方式:

有4种不同的微博登录方式,m.weibo.cn  m.weibo.com(电脑端打不开)  weibo.cn  weibo.com, 今天我们主要使用m.weibo.cn。

1.登录网址https://m.weibo.cn/detail/4502725984887404

2.注意:要爬评论是需要先登录的,通过登录获取cookie,之后的请求均携带此cookie。有了cookie了,接下来就是按照分析的规则进行评论的爬取

接下来上一段简易版的代码

import requestsimport jsonimport reheaders = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8","accept-encoding": "gzip, deflate, br","accept-language": "zh-CN,zh;q=0.9,en;q=0.8","cache-control": "max-age=0","cookie": "写上你的cookie","upgrade-insecure-requests": "1","user-agent": "你的user agent",}url = 'https://m.weibo.cn/comments/hotflow?id=4502725984887404&mid=4502725984887404&max_id_type=0'weibo_data = requests.get(url,headers,verify=False)# json_com = weibo_data.content.decode('utf-8')# print(json_com)json_com = weibo_data.json()# print(json_com)comments_list = json_com['data']['data']for comment_item in comments_list:comment = comment_item['text']print(comment)lable_filter = re.compile(r'(<span.*>.*</span>)*(<a.*>.*</a>)?')clean_comment = re.sub(lable_filter,'',comment)print(clean_comment)

参考:https://www.jianshu.com/p/8dc04794e35f

第二种:使用Selenium模拟鼠标的点击

这个需要安装谷歌浏览器,以及与相应的浏览器版本对应的webdriver(直接百度就行)。使用时,引入相关包,from selenium import webdriver。

当然也可以安装火狐浏览器,以及对应的driver

参考:https://blog.csdn.net/a19990412/article/details/79944713?from=timeline

第三种:使用八爪鱼

参考:https://mp.weixin.qq.com/s/tAIwmzWyxt65f2bC8Uy4Xg

具体大家可以关注公众号“八爪鱼大数据”(不是广告,没有任何广告费,手动捂脸)

第四种:使用谷歌浏览器的插件Web Scraper抓取

可以在谷歌浏览器的商店里搜索安装

参考:https://chromecj.com/productivity/2018-05/942.html

第五种:使用过公式抓取,就是我们现在即将使用的方法,此方法不需编程,几乎不用担心被反爬~~

1.登录手机端微博 m.weibo.cn

2.滚动下拉按钮,使网页内容全部加载完成后,Ctrl+A全选,复制。

3.打开excel粘贴到excel中。

4.使用excel函数清洗数据,用到的函数有,right函数、left函数、unicode函数、mod函数。具体过程如下:

(1)验证首位是否为数字=AND(UNICODE(LEFT(A2,1))>=48,UNICODE(LEFT(A2,1))<=57)

(2)验证末位是否为数字=AND(UNICODE(RIGHT(A2,1))>=48,UNICODE(RIGHT(A2,1))<=57)

(3)删除无关行

(4)取余

(5)按余数不同整理结果

五种不同的微博评论数据获取方法相关推荐

  1. 五种WordPress防止垃圾评论方法-过滤垃圾评论提高WP运行效率

    点击上方蓝字"优派编程"选择"加为星标",第一时间关注原创干货 最近小编wp后台老是收到烦人的文章垃圾评论,并且评论是机器人发过来的.请看下图: 为了防止对方机 ...

  2. php实现云盘下载不限速,【合集】【已更新第五种】五种百度云下载不限速方法+软件...

    本帖最后由 kof20046 于 2019-3-17 17:46 编辑 目前本人知道的五种百度网盘不限速方法,给大家收集起来,方便查找下载. 还有IDM和FDM也是可以下载,但是我下载的时候总只有10 ...

  3. html win10虚拟键盘,五种打开win10虚拟键盘的方法 win10虚拟键盘快捷键

    电脑在使用的过程中,有时会遇到只有鼠标或实体键盘部分按键失灵,或为了体验系统自带的虚拟键盘等情况.此时就需要开启系统的屏幕键盘.屏幕键盘是一个模拟键盘的系统软件,必要的时候可以代替物理键盘Win10做 ...

  4. 亲测五种高效实用的脱单方法,赶紧收藏帮你快速找到优质对象!

    作为一名多年相亲征友的大龄女青年,试过了特别多的脱单方法走过了不少弯路,最后成功脱单,自己总结了以下五种脱单方法,亲测有效,想要快速脱单找到优质对象的你可以参考一下哦: 1.亲戚朋友介绍 通过介绍的相 ...

  5. 浅析五种C语言内存分配的方法及区别

    点击上方蓝字关注我,了解更多咨询 在C语言中,内存分成5个区,他们分别是堆.栈.自由存储区.全局/静态存储区和常量存储区. 栈,就是那些由编译器在需要的时候分配,在不需要的时候自动清楚的变量的存储区. ...

  6. 计算机怎样打开鼠标点的键盘,如何打开计算机虚拟键盘?五种打开计算机虚拟键盘的方法简介...

    随着社会的发展和时代的进步,人们的生活越来越丰富多彩.越来越多的电子产品的出现给人们的生活增添了无限的兴奋.如今,计算机已成为人们生活中必不可少的电子产品之一.我们总能在生活中看到计算机.当然,键盘经 ...

  7. 活用这五种软文素材的收集方法,初学者也能变高手

    很多小伙伴都觉得软文很难写,其中最大原因无非就二个方面,第一点是本身的知识累积过少,产品资料.资讯.新闻.热点等信息没有提前充分准备,自然很难写出来什么东西.第二点是没有合适的素材和出发点,使得文章没 ...

  8. 提高CSS文件可维护性的五种方法

    当完成一项前端的工作之后,许多人都会忘记该项目的结构与细节.然而代码并不是马上就能完全定型,在余下的时间里还有不断的维护工作,而这些工作也许不会是你自己完成.所以,结构优良的代码能很大程度上优化它的可 ...

  9. 五种常用异常值检测方法

    Toggle navigation 首页 产业趋势 专家观察 CISO洞察 决策研究 登录 APP下载 数据挖掘最前线:五种常用异常值检测方法 安全运营 机器之心 2019-07-05 通过鉴别故障来 ...

  10. Java数组去重的多种方法,[Java教程]JavaScript常见的五种数组去重的方式

    [Java教程]JavaScript常见的五种数组去重的方式 0 2016-12-14 15:00:17 ▓▓▓▓▓▓ 大致介绍 JavaScript的数组去重问题在许多面试中都会遇到,现在做个总结 ...

最新文章

  1. html js脚本限制 正则,[js]用JAVASCRIPT正则表达式限制文本字节数的代码
  2. python编程入门书籍推荐-给刚入门python的朋友推荐几本书
  3. python 加注拼音-Python 获取中文字拼音首个字母的方法
  4. windows mobile开发循序渐进(5)移动应用程序与webservice之间的数据交互
  5. python实现一个字典
  6. 论手残党画交互原型的正确姿势
  7. sklearn自学指南(part54)--高斯过程的核函数
  8. 分布与并行计算—生产者消费者模型实现(Java)
  9. java http的get,post请求
  10. 双向链表的增、删、查、改、python实现,超详细讲解
  11. linux用grep查找文件内容
  12. win7下的python2.7和pip的环境安装
  13. 全网首发:把一个bit数组矩阵旋转90度
  14. python教程五(imput和while)
  15. 懒人必备神器 !一个创意十足的 Python 命令行工具
  16. Cocos2dx游戏开发系列笔记5:继续润色《忍者飞镖射幽灵》
  17. 计算机应用技术英语音标,英语国际音标
  18. 比ownCloud/Nextcloud更好用的免费私有企业网盘
  19. 20款优秀的移动产品原型和线框图设计
  20. ansi是什么编码_ANSI的完整形式是什么?

热门文章

  1. Attempt to invoke virtual method 'void android.support.v4.app.Fragment.setNextAnim(int)'
  2. SPSS 27 发布了!我为什么要在两个月前买SPSS?为什么?为什么?为什么?
  3. 2019年上半年软件设计师上午试题及答案
  4. 一个漂亮的电子数字字体分享electronicFont
  5. Flutter异常Another exception was thrown: A RenderFlex overflowed by 5.0 pixels on the bottom解决方案
  6. 软件功能测试ok,S7_200解密软件,测试OK
  7. 即时通讯创业必读:解密微信的产品定位、创新思维、设计法则等
  8. 中国大学MOOC电影鉴赏题库(含答案)
  9. 安防互联网摄像头视频流媒体服务器EasyNVR对接海康流媒体V4.X客户端实现方法
  10. 性能测试--11Beanshell的脚本开发技术