采集腾讯视频里电视剧《在一起》的全部评论信息并且制作词云
作业介绍
作业目标 | Python爬取腾讯视频《在一起》评论,利用分词器处理数据,生成词云,将代码上传到Github |
---|---|
作业源代码 | 第一次个人编程代码 |
时间记录
步骤 | 具体做法 | 时间 |
---|---|---|
1. 进行数据采集 | 采集腾讯视频里电视剧《在一起》的全部评论信息 | 2h |
2.进行数据处理 | 把所有数据下载到本地保存到json文件里面comments.json, 页面用js读取文件 | 5h |
3.数据分析展示 | 将采集到的评论信息做成词云图 | Nh |
4.代码上传到Github | 上传到Github | 30min |
代码介绍
1.Python爬虫
前言
在某些网站 ,当我们滑下去的时候才会显示出后面的内容,就像淘宝一样,滑下去才逐渐显示其他商品,这个就是采用 Ajax 做的,然后我们现在就是要编写这样的爬虫。
主要内容
规律分析
只抓取一页的评论
自动抓取全部评论
总结
规律分析
我们需要分析加载评论的规律
1.首先使用谷歌浏览器打开腾讯视频里电视剧《在一起》的全部评论信息
2.然后再多次点击查看更多评论
3.按下F12键,可以得到多个变化的网址
4.经过多次寻找规律,可以发下如下规律(请求URL 中只有 cursor 和 source 进行了改变,其他是不变的:cursor 其实是上一个用户data中的last所对应的数值; source 是在第一个的基础上进行加一操作)
5.发现评论网址 的规律后,接下来就是评论内容
发现评论内容在 content 里面
只抓取一页的评论
知道规律后,可以试试抓取评论内容
接下来我们尝试只抓取一个链接里面的内容
自动抓取全部评论
由于上学期所学的大数据信息采集与预处理课程中,多次出现了403Forbidden的现象,知道大多数网站都会采取的反爬虫措施。
为防止此现象的出现,借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求。一种有效的方式就是使用代理。
还采取了异常处理,但还不是很全面,仍然是需要改进的。
总结
在爬取数据时,由于利用循环来一页一页的采集腾讯视频里电视剧《在一起》的评论信息,所以需要知道总的评论数来大致得到总的页数,由此会出现少部分评论信息的丢失
2.数据的处理
首先从一个文本文件读入文本,并作了一些简单的替换,比如替换多个空格为单空格等。
使用关键词提取功能,提取权重最高的10个关键词。
使用精确模式对文件内容分词。
根据关键词和分词结果,统计词频。
排序并返回词频最高的单词和出现次数。
3.数据分析展示
利用echarts.js制作词云
4.代码上传到Github
Git具体步骤:
(a).新建一个“第一次编程”文件夹,里面添加几个文件。右击“第一次编程”文件夹根目录,点击“Git Bash Here”,打开git命令行。
(b).在命令行中,输入“git init”,使“第一次编程”文件夹加入git管理
(c).输入“git remote add origin xxxx“ (git remote add origin 你自己的https地址),连接你的guthub仓库。
(d).将Git中的仓库内容复制到该文件夹中,这是文件夹会新建一个first-personal-work文件
(e).进去first-personal-work文件,查看所有分支,如需更换(输入 “git checkout crawl”)
(f).输入“git add .”(不要漏了“.”),将文件夹全部内容添加到git;也可以输入“git add 上传文件的名字” ,将此文件内容添加到git
(g).输入“git commit -m “first””(“git commit -m “提交信息””)
(h).输入“git push -u origin master(可以更换其他分支)”,上传项目到Github。这里会要求输入Github的账号密码,按要求输入就可以。
(i).将两个分支分别合并到主分支,合并后的分支不要删除
从当前分支切换到主干main上(“git checkout main”);合并某个分支到主干master(“git merge chart”);上传代码(git push)
遇到的问题
1.当爬取腾讯视频的评论太多次导致出现反爬的现象,故参考网上的方法,采取IP代理,虽然上学期有学过一点,但学艺不精。
2.第一次接触词云,通过多次在百度搜索各种相关资料来了解,但学习还是比较少,希望以后有时间可以再深入学习下。
参考资料
1.Python爬虫实战:爬取腾讯视频的评论中所使用的代理
2.jieba“结巴”中文分词:做最好的 Python 中文分词组件
3.爬取电影影评 (HTML 页面词云)
4.Python爬取微博热搜并用Echarts词云展示
5.前端可视化数据–echarts
6.git创建分支提交远程分支,将分支branch合并到主干master
采集腾讯视频里电视剧《在一起》的全部评论信息并且制作词云相关推荐
- 下载腾讯视频里的视频_手机腾讯视频如何升级新版本
软件是否好用,还得大家下载腾讯视频安装才知道.本文分享怎么下载腾讯视频里的视频_手机腾讯视频如何升级新版本腾讯视频升级新版本.腾讯视频电影频道拥有大量高清在线电影资源,热门高清电影.好评电影.电影预告 ...
- 腾讯视频免费下载安装_怎样下载腾讯视频里的视频
本文小编给大家分享的是腾讯视频免费下载安装_怎样下载腾讯视频里的视频.腾讯视频放器是腾讯视频旗下的视频客户端产品,支持丰富内容的在线点播及电视台直播.相比其它的视频客户端,腾讯视频的多维度筛选,大数据 ...
- Python制作词云视频(使用B站视频及弹幕文本)
Python制作词云视频-目录 使用到的第三方库 项目思路和代码流程 B站弹幕爬取 思路 实现 参考代码 视频下载 思路 参考命令 视频.音频剪辑和音频提取 思路 参考代码 视频帧提取 思路 参考代码 ...
- bilibili怎么设置弹幕数量_python爬取B站视频弹幕分析并制作词云
1.分析网页 视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己 唯一的爆款 ...
- python爬取b站弹幕分析_python爬取B站视频弹幕分析并制作词云
目录1.分析网页 2.爬虫+jieba分词+制作词云2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https://www.bilibili.co ...
- python爬取胡歌相关视频弹幕,分析并制作词云
养成习惯,先赞后看!!! 目录 1.分析网页 2.爬虫+jieba分词+制作词云 2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https:// ...
- python爬取B站视频弹幕分析并制作词云
1.分析网页 视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己 唯一的爆款 ...
- python爬取腾讯视频《斗罗大陆》弹幕并制作词云(WordCloud)
最近闲来无事,就用前段时间学习的jieba分词和词云WordCloud,以及网上看的python爬虫爬取了<斗罗>最燃的107集弹幕,结合做了词云分析,从这个过程中确实学到了不少技术,下面 ...
- Python制作词云视频,通过词云图来看小姐姐跳舞
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 python免费学习资料 ...
最新文章
- OpenJDK 14 性能保持提升,但 OpenJDK 8 仍是最强王者
- Mybatis 基础 定义别名,属性配置
- 港府拟修例禁止电子烟入口及销售 保障市民健康
- UML图大科普 :14种UML图图例详解
- vim匹配数字及数量限制
- mysql 5.0 乱码_MySQL 5.0.16 乱码问题处理办法
- Supporting Python 3(支持python3)——为Python 3做准备
- 【蓝桥杯官网试题 - 算法提高 】P0404(模拟)
- Python学习笔记之列表(四)
- 某大型银行深化系统技术方案之九:核心层之流程数据管理
- php 判断是否是16进制,如何求解16进制字符串的验证
- 设计缓存系统:缓存穿透,缓存击穿,缓存雪崩解决方案分析
- 用计算机信息术语感恩老师,【感谢老师的对联师恩难忘的对联】_感谢师恩、感恩老师的对联—经典用语大全...
- 风云崛起之matlab求解电路状态方程
- Youtube上播放量前100的单曲整理
- 掌握命令结构,详解monkey命令
- CH9121串口转以太网配置调试
- 微信苹果多开系统官网下载页源码
- socket初识和安装
- 牛人如何利用《老友记》Friends学英语