电影网站数据分析及可视化研究

本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教。

目录

  • 电影网站数据分析及可视化研究
  • 数据爬取
    • 环境配置问题
    • 反爬取处理(headers)
    • 数据获取
  • 数据分析
    • 影片出现次数年份分布
    • 电影类型的数据字段分析
    • 上映区间数据统计
    • 电影评分数据分析
  • 小结

数据爬取

环境配置问题

在进行数据爬取之前,需要进行一些导入

这些导入包括json库,requests方法等等,但是在进行导入的过程中根据计算机的差异可能会出现一些问题。我在进行安装requests的过程当中就遇到了一些问题。

在安装的过程当中,由于pip版本过低需要进行更新,故无法进行requests的安装。

但是命令提示符所给出的系统自动更新的方法却无法进行更新,那么就可以去找一个镜像源来进行安装,并且最好是国内的安装源,运行速度快,可使用清华或是豆瓣安装源进行尝试,安装成功结果如下。

反爬取处理(headers)

在配置好环境后,就可以找到我们需要爬取的网站对其信息进行爬取,但需注意,若非静态页面,一般的动态页面会有一些反爬取的措施,那么我们应该怎么做才能够爬取到我们想要的信息呢,其实很简单。首先我们找到需要爬取的网页:

鼠标右键点击审查元素,找到network——Doc——当前网址——headers,往下滑到最下面就会看到一个叫User-Agent一栏,在爬取的时候进行调用即可

数据获取

获取例如影片名称列表,所在区域的影片简介,评分等等,将获取到的信息保存至csv文件中。存储示例如下:

数据分析

影片出现次数年份分布

进行库的导入和数据读取是每一个分析的先决条件。

分析数据,以柱状图显示

电影类型的数据字段分析



词云图分析

上映区间数据统计


电影评分数据分析


以饼状图显示:

小结

对于数据可视化的学习还远不应止如此,如何将数据更为直观,更为简洁,更为层次分明地展现在大家眼前,这是值得考虑的问题,对于各种环境和工具的运用,如何能够做到更为熟练和精细,是自我提升所必需的。
喜欢本博客的话记得点个赞,也记得关注一下博主哦!

python数据爬取及数据可视化分析相关推荐

  1. 基于python的自媒体和官媒数据爬取、对比可视化分析及云词图提取关键词

    创作不易,如果以下内容对你有帮助,别忘了点一个赞,让更多的小伙伴能看到吧~~ 1. 问题描述 为了研究自媒体和官媒的传播新闻<武汉快递小哥汪勇的先进事迹>的及时性和传播力度,对比两种传播途 ...

  2. Python爬虫爬取疫情数据并可视化展示

    这篇文章主要介绍了Python利用爬虫爬取疫情数据并进行可视化的展示,文中的示例代码讲解清晰,对工作或学习有一定的价值,需要的朋友可以参考一下.编程资料点击领取 目录 知识点 开发环境 爬虫完整代码 ...

  3. python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二)

    上一章: python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一.爬虫思路及代码) 第三步:数据清洗 清洗数据很简单,就是数据太乱的话,就得花些时间,所以一定要有一个好的方法,才能避免在清洗数据 ...

  4. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  5. python初学-爬取网页数据

    python初学-爬取网页数据 1,获取网页源代码 import urllib url = 'http://www.163.com'wp = urllib.urlopen(url) file_cont ...

  6. python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一)

    python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二.数据清洗及存储) 爬起疫情数据,有两个网址: 1.百度:链接 2.丁香园疫情:链接 在这两个中,丁香园的爬虫相对简单一点,所以今天就展示一 ...

  7. Python爬虫爬取网页数据并存储(一)

    Python爬虫爬取网页数据并存储(一) 环境搭建 爬虫基本原理 urllib库使用 requests库使用 正则表达式 一个示例 环境搭建 1.需要事先安装anaconda(或Python3.7)和 ...

  8. python数据可视化字段_python数据爬取及数据可视化分析

    电影网站数据分析及可视化研究 本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教. 数 ...

  9. Python 大数据分析疫情:如何实现实时数据爬取及 Matplotlib 可视化?

    作者 | 杨秀璋 来源 | CSDN博客专家Eastmount 责编 | 夕颜 思来想去,虽然很忙,但还是挤时间针对这次肺炎疫情写个Python大数据分析系列博客,包括网络爬虫.可视化分析.GIS地图 ...

最新文章

  1. LookupError: unknown encoding: uft-8
  2. Java String类源码解析
  3. Sql Server中两个表之间数据备份和导入
  4. 【人工智能作业及答案】什么叫智能?什么叫人工智能?人工智能科学体系大致分哪几个层次?
  5. js get/set Cookie
  6. 云图说 | 云上资源管控有神器!关于IAM,你想知道的都在这里!
  7. 联想服务器imm默认地址_命令下配置ip地址
  8. 当大家都不理解你的时候,就是你成就的捷径
  9. java怎样才算高级_怎样才算是一名java高手?
  10. oracle ora-22992,ORACLE ORA--22992:无法使用远程表选择的LOB定位器,database link
  11. mp4 avc格式_sps_pps
  12. php网页源码学生请假考勤管理系统mysql数据库web结构html布局计算机软件工程
  13. r语言如何计算t分布临界值_R语言系列第四期:R语言单样本双样本差异性检验...
  14. 论文阅读《Characterizing BDS signal-in-space performance from integrity perspective》1
  15. 年底到了,消费者纷纷抢购,特斯拉成为汽车市场的超级网红
  16. 什么是Richard Feynman 积分技巧
  17. 如何一键关闭所有视窗?
  18. 十分钟一起学会Inception网络
  19. 8163 android8,联发科MT8163V/A怎么样 MT8163V/A参数介绍
  20. 2022年最新MCN网红KOL报价(共200份)

热门文章

  1. h5+的Downloader下载网络图片缓存到本地的案例
  2. 臻图信息以科技创新赋能交通管理智慧化发展
  3. 泰安市发布5G产业实施意见,到2022年建成10000个5G基站
  4. 京东云擎(JAE)免费搭建WordPress站点
  5. DolphinScheduler 邮件告警设置
  6. 【React】895- 使用 IOC 解耦 React 组件
  7. mysql中的restrict_数据库中restrict和casecade是什么意思?
  8. 实现点击弹框外关闭弹框功能
  9. 斑马线检测 基于OpenCV
  10. [Android6.0]App中调用init.rc中的服务,从而运行shell脚本