前言

今天给大家介绍利用Python爬取并简单分析猫眼电影影评。让我们愉快地开始吧~

开发工具

Python版本:3.6.4

相关模块:

requests模块;

pyecharts模块;

jieba模块;

scipy模块;

wordcloud模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

我们想要爬取的数据是猫眼电影中某部电影下方的评论信息:

由于PC端每部电影的评论数据只显示几条而已,因此我们选择爬取移动端的影评数据,这里以电影“狗十三”为例,移动端地址为:

精选讨论 - 狗十三?

注:78480为电影编号,可根据你自己的需求修改。

它大概长这样:

简单抓包可得:

即对其添加页码和时间信息即可获得对应的影评数据,于是我们就可以开始写代码了:

在cmd窗口运行maoyan.py文件测试一下代码,效果如下图所示:

爬取结果保存在comments_data.pkl文件中。

All Done!完整源代码详见主页获取相关文件。

数据分析

这里以爬取到的电影“狗十三”的影评数据为例,时间关系只爬了几千条数据,不过也足够用来做做简单的数据分析了~

首先,让我们来看看发布影评的网友在全国范围内的分布情况吧:

再来看看发布影评的网友男女比例呗:

再来看看电影的评分分布呗:

把影评做成词云玩一哈?

看看评论数量随日期的变化?

Python爬虫系列之爬取猫眼电影,没办法出门就补一下往期电影吧相关推荐

  1. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  2. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

  3. Python爬虫系列之爬取某奢侈品小程序店铺商品数据

    Python爬虫系列之爬取某奢侈品小程序店铺商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学 ...

  4. Python爬虫系列之爬取某优选微信小程序全国店铺商品数据

    Python爬虫系列之爬取某优选微信小程序全国商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅 ...

  5. Python爬虫系列之爬取某社区团微信小程序店铺商品数据

    Python爬虫系列之爬取某社区团微信小程序店铺商品数据 如有问题QQ请> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流,请勿用于非法用途 数据库仅用于去重使用,数据主要存 ...

  6. Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单

    在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...

  7. Python爬虫实例:爬取猫眼电影——破解字体反爬

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  8. Python 爬虫系列:爬取全球机场信息

    前言 最近公司需要全球机场信息,用来做一些数据分析.刚好发现有个网站上有这个信息,只是没有机场的经纬度信息,不过有了机场信息,经纬度信息到时候我们自己补上去就行 网站元素分析 我们找到了有这些信息的网 ...

  9. Python爬虫系列:爬取小说并写入txt文件

    导语: 哈喽,哈喽~都说手机自带的浏览器是看小说最好的一个APP,不须要下载任何软件,直接百度就ok了. 但是小编还是想说,如果没有网,度娘还是度娘吗?能把小说下载成一个.txt文件看不是更香吗?这能 ...

最新文章

  1. 子类窗口向父类窗口传值
  2. VS2012+LUA环境搭建
  3. python 财务报表审计_python 自动化审计
  4. Android开源介绍-UI组件
  5. Java面试题集合(比较实用)
  6. 一文掌握 Redis 常用知识点 | 图文结合
  7. 用g++编译生成动态连接库*.so的方法及连接
  8. 裁剪左上角x左上角y填什么_少了立体裁剪,你的服装设计生涯还完整吗?
  9. STL(1)——查找函数find的使用
  10. verilog实现多周期处理器之——(二)第一条指令ori的实现
  11. HashMap的小知识点
  12. 【知识索引】【数据结构(C语言)】
  13. mongodb之副本集搭建
  14. Fedora14 root用户登陆
  15. 常用的Shell脚本集合
  16. H5开发和原生开发的区别
  17. 智商、情商和逆商与程序员职业生涯发展
  18. 日系插画学习笔记(十二):如何增加画面完整度
  19. 机器学习理论 之 经验风险最小化(Empirical Risk Minimization)
  20. 避坑外连腾讯云服务器redis 6379

热门文章

  1. java findpage 方法_Java Strings.isNotBlank方法代碼示例
  2. 常用的MySql操作
  3. XSS攻击的预防措施
  4. Blockly源码解析
  5. 邀请新用户奖励现金活动的一些反思
  6. Kubernetes 那些奇技淫巧
  7. Excel怎么提取相同背景颜色数据
  8. java poi 导出excel模版
  9. js中preventDefault、stopPropagation、return false三者之间
  10. 路由简易安全配置方案