作业介绍

作业目标 Python爬取腾讯视频《在一起》评论,利用分词器处理数据,生成词云,将代码上传到Github
作业源代码 第一次个人编程代码

时间记录

步骤 具体做法 时间
1. 进行数据采集 采集腾讯视频里电视剧《在一起》的全部评论信息 2h
2.进行数据处理 把所有数据下载到本地保存到json文件里面comments.json, 页面用js读取文件 5h
3.数据分析展示 将采集到的评论信息做成词云图 Nh
4.代码上传到Github 上传到Github 30min

代码介绍

1.Python爬虫

  前言

在某些网站 ,当我们滑下去的时候才会显示出后面的内容,就像淘宝一样,滑下去才逐渐显示其他商品,这个就是采用 Ajax 做的,然后我们现在就是要编写这样的爬虫。

  主要内容

  规律分析
  只抓取一页的评论
  自动抓取全部评论
  总结

规律分析

  我们需要分析加载评论的规律

  1.首先使用谷歌浏览器打开腾讯视频里电视剧《在一起》的全部评论信息


  2.然后再多次点击查看更多评论


  3.按下F12键,可以得到多个变化的网址

  

   4.经过多次寻找规律,可以发下如下规律(请求URL 中只有 cursor 和 source 进行了改变,其他是不变的:cursor 其实是上一个用户data中的last所对应的数值; source 是在第一个的基础上进行加一操作)


  5.发现评论网址 的规律后,接下来就是评论内容

  发现评论内容在 content 里面

只抓取一页的评论

  知道规律后,可以试试抓取评论内容

  接下来我们尝试只抓取一个链接里面的内容

自动抓取全部评论

  由于上学期所学的大数据信息采集与预处理课程中,多次出现了403Forbidden的现象,知道大多数网站都会采取的反爬虫措施。

  为防止此现象的出现,借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求。一种有效的方式就是使用代理。

  还采取了异常处理,但还不是很全面,仍然是需要改进的。

总结

  在爬取数据时,由于利用循环来一页一页的采集腾讯视频里电视剧《在一起》的评论信息,所以需要知道总的评论数来大致得到总的页数,由此会出现少部分评论信息的丢失

2.数据的处理

  首先从一个文本文件读入文本,并作了一些简单的替换,比如替换多个空格为单空格等。
  使用关键词提取功能,提取权重最高的10个关键词。
  使用精确模式对文件内容分词。
  根据关键词和分词结果,统计词频。
  排序并返回词频最高的单词和出现次数。

3.数据分析展示

  利用echarts.js制作词云

  

4.代码上传到Github

   Git具体步骤:

    (a).新建一个“第一次编程”文件夹,里面添加几个文件。右击“第一次编程”文件夹根目录,点击“Git Bash Here”,打开git命令行。

    (b).在命令行中,输入“git init”,使“第一次编程”文件夹加入git管理

     

    (c).输入“git remote add origin xxxx“ (git remote add origin 你自己的https地址),连接你的guthub仓库。

     

    (d).将Git中的仓库内容复制到该文件夹中,这是文件夹会新建一个first-personal-work文件

     

    (e).进去first-personal-work文件,查看所有分支,如需更换(输入 “git checkout crawl”)

     

     

    (f).输入“git add .”(不要漏了“.”),将文件夹全部内容添加到git;也可以输入“git add 上传文件的名字” ,将此文件内容添加到git

     

    (g).输入“git commit -m “first””(“git commit -m “提交信息””)

     

    (h).输入“git push -u origin master(可以更换其他分支)”,上传项目到Github。这里会要求输入Github的账号密码,按要求输入就可以。

     

    (i).将两个分支分别合并到主分支,合并后的分支不要删除

      从当前分支切换到主干main上(“git checkout main”);合并某个分支到主干master(“git merge chart”);上传代码(git push)

遇到的问题

  1.当爬取腾讯视频的评论太多次导致出现反爬的现象,故参考网上的方法,采取IP代理,虽然上学期有学过一点,但学艺不精。

  2.第一次接触词云,通过多次在百度搜索各种相关资料来了解,但学习还是比较少,希望以后有时间可以再深入学习下。

参考资料

1.Python爬虫实战:爬取腾讯视频的评论中所使用的代理

2.jieba“结巴”中文分词:做最好的 Python 中文分词组件

3.爬取电影影评 (HTML 页面词云)

4.Python爬取微博热搜并用Echarts词云展示

5.前端可视化数据–echarts

6.git创建分支提交远程分支,将分支branch合并到主干master

采集腾讯视频里电视剧《在一起》的全部评论信息并且制作词云相关推荐

  1. 下载腾讯视频里的视频_手机腾讯视频如何升级新版本

    软件是否好用,还得大家下载腾讯视频安装才知道.本文分享怎么下载腾讯视频里的视频_手机腾讯视频如何升级新版本腾讯视频升级新版本.腾讯视频电影频道拥有大量高清在线电影资源,热门高清电影.好评电影.电影预告 ...

  2. 腾讯视频免费下载安装_怎样下载腾讯视频里的视频

    本文小编给大家分享的是腾讯视频免费下载安装_怎样下载腾讯视频里的视频.腾讯视频放器是腾讯视频旗下的视频客户端产品,支持丰富内容的在线点播及电视台直播.相比其它的视频客户端,腾讯视频的多维度筛选,大数据 ...

  3. Python制作词云视频(使用B站视频及弹幕文本)

    Python制作词云视频-目录 使用到的第三方库 项目思路和代码流程 B站弹幕爬取 思路 实现 参考代码 视频下载 思路 参考命令 视频.音频剪辑和音频提取 思路 参考代码 视频帧提取 思路 参考代码 ...

  4. bilibili怎么设置弹幕数量_python爬取B站视频弹幕分析并制作词云

    1.分析网页 视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己 唯一的爆款 ...

  5. python爬取b站弹幕分析_python爬取B站视频弹幕分析并制作词云

    目录1.分析网页 2.爬虫+jieba分词+制作词云2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https://www.bilibili.co ...

  6. python爬取胡歌相关视频弹幕,分析并制作词云

    养成习惯,先赞后看!!! 目录 1.分析网页 2.爬虫+jieba分词+制作词云 2.1爬虫 2.2jieba分词 2.3制作词云 3.成品展示 4.完整代码 1.分析网页 视频地址:https:// ...

  7. python爬取B站视频弹幕分析并制作词云

    1.分析网页 视频地址: www.bilibili.com/video/BV19E- 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己 唯一的爆款 ...

  8. python爬取腾讯视频《斗罗大陆》弹幕并制作词云(WordCloud)

    最近闲来无事,就用前段时间学习的jieba分词和词云WordCloud,以及网上看的python爬虫爬取了<斗罗>最燃的107集弹幕,结合做了词云分析,从这个过程中确实学到了不少技术,下面 ...

  9. Python制作词云视频,通过词云图来看小姐姐跳舞

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 python免费学习资料 ...

最新文章

  1. OpenJDK 14 性能保持提升,但 OpenJDK 8 仍是最强王者
  2. Mybatis 基础 定义别名,属性配置
  3. 港府拟修例禁止电子烟入口及销售 保障市民健康
  4. UML图大科普 :14种UML图图例详解
  5. vim匹配数字及数量限制
  6. mysql 5.0 乱码_MySQL 5.0.16 乱码问题处理办法
  7. Supporting Python 3(支持python3)——为Python 3做准备
  8. 【蓝桥杯官网试题 - 算法提高 】P0404(模拟)
  9. Python学习笔记之列表(四)
  10. 某大型银行深化系统技术方案之九:核心层之流程数据管理
  11. php 判断是否是16进制,如何求解16进制字符串的验证
  12. 设计缓存系统:缓存穿透,缓存击穿,缓存雪崩解决方案分析
  13. 用计算机信息术语感恩老师,【感谢老师的对联师恩难忘的对联】_感谢师恩、感恩老师的对联—经典用语大全...
  14. 风云崛起之matlab求解电路状态方程
  15. Youtube上播放量前100的单曲整理
  16. 掌握命令结构,详解monkey命令
  17. CH9121串口转以太网配置调试
  18. 微信苹果多开系统官网下载页源码
  19. socket初识和安装
  20. 牛人如何利用《老友记》Friends学英语

热门文章

  1. 财务共享中心搭建以后,如何进行精细化管理?
  2. es 配置日志管理策略
  3. 解决网页无法复制粘贴(生活小妙招)
  4. 第三次博客园作业---刘浩
  5. python写helloworld代码_helloworld代码怎么写?
  6. PyQt5学习笔记- PyQt5控件介绍
  7. mysql:ERROR 1366: Incorrect string value:错误解决
  8. 【稳定性day6】大众点评高可用的方法与实践
  9. vue中修改Element ui样式不起作用
  10. 上周热点回顾(7.29-8.4)