Python爬虫系列之爬取猫眼电影,没办法出门就补一下往期电影吧
前言
今天给大家介绍利用Python爬取并简单分析猫眼电影影评。让我们愉快地开始吧~
开发工具
Python版本:3.6.4
相关模块:
requests模块;
pyecharts模块;
jieba模块;
scipy模块;
wordcloud模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
数据爬取
我们想要爬取的数据是猫眼电影中某部电影下方的评论信息:
由于PC端每部电影的评论数据只显示几条而已,因此我们选择爬取移动端的影评数据,这里以电影“狗十三”为例,移动端地址为:
精选讨论 - 狗十三?
注:78480为电影编号,可根据你自己的需求修改。
它大概长这样:
简单抓包可得:
即对其添加页码和时间信息即可获得对应的影评数据,于是我们就可以开始写代码了:
在cmd窗口运行maoyan.py文件测试一下代码,效果如下图所示:
爬取结果保存在comments_data.pkl文件中。
All Done!完整源代码详见主页获取相关文件。
数据分析
这里以爬取到的电影“狗十三”的影评数据为例,时间关系只爬了几千条数据,不过也足够用来做做简单的数据分析了~
首先,让我们来看看发布影评的网友在全国范围内的分布情况吧:
再来看看发布影评的网友男女比例呗:
再来看看电影的评分分布呗:
把影评做成词云玩一哈?
看看评论数量随日期的变化?
Python爬虫系列之爬取猫眼电影,没办法出门就补一下往期电影吧相关推荐
- python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...
- Python爬虫系列之爬取微信公众号新闻数据
Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...
- Python爬虫系列之爬取某奢侈品小程序店铺商品数据
Python爬虫系列之爬取某奢侈品小程序店铺商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学 ...
- Python爬虫系列之爬取某优选微信小程序全国店铺商品数据
Python爬虫系列之爬取某优选微信小程序全国商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅 ...
- Python爬虫系列之爬取某社区团微信小程序店铺商品数据
Python爬虫系列之爬取某社区团微信小程序店铺商品数据 如有问题QQ请> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流,请勿用于非法用途 数据库仅用于去重使用,数据主要存 ...
- Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...
- Python爬虫实例:爬取猫眼电影——破解字体反爬
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
- Python 爬虫系列:爬取全球机场信息
前言 最近公司需要全球机场信息,用来做一些数据分析.刚好发现有个网站上有这个信息,只是没有机场的经纬度信息,不过有了机场信息,经纬度信息到时候我们自己补上去就行 网站元素分析 我们找到了有这些信息的网 ...
- Python爬虫系列:爬取小说并写入txt文件
导语: 哈喽,哈喽~都说手机自带的浏览器是看小说最好的一个APP,不须要下载任何软件,直接百度就ok了. 但是小编还是想说,如果没有网,度娘还是度娘吗?能把小说下载成一个.txt文件看不是更香吗?这能 ...
最新文章
- 子类窗口向父类窗口传值
- VS2012+LUA环境搭建
- python 财务报表审计_python 自动化审计
- Android开源介绍-UI组件
- Java面试题集合(比较实用)
- 一文掌握 Redis 常用知识点 | 图文结合
- 用g++编译生成动态连接库*.so的方法及连接
- 裁剪左上角x左上角y填什么_少了立体裁剪,你的服装设计生涯还完整吗?
- STL(1)——查找函数find的使用
- verilog实现多周期处理器之——(二)第一条指令ori的实现
- HashMap的小知识点
- 【知识索引】【数据结构(C语言)】
- mongodb之副本集搭建
- Fedora14 root用户登陆
- 常用的Shell脚本集合
- H5开发和原生开发的区别
- 智商、情商和逆商与程序员职业生涯发展
- 日系插画学习笔记(十二):如何增加画面完整度
- 机器学习理论 之 经验风险最小化(Empirical Risk Minimization)
- 避坑外连腾讯云服务器redis 6379