前言

上个礼拜接触爬虫,本身对香港电影比较感兴趣,这2天就去拿豆瓣数据做了份香港近30年电影的分析

正文

数据来源豆瓣

这些路径是有规律 ,设置好循环条件,拿到电影url在进行下一步,在这之前有一部分电影我们过滤掉,典型的就是没有评分的电影,没有评分电影大部分是演出晚会,B级片等电影,

读者有兴趣可以查下,这些电影的数据可用性差我不来拿分析,香港上世纪90-99电影总数2700+,过滤后拿到的1100+。近30年电影初步得到是2500+

然后分析页面结构,电影名会有多的 ,我是空格分开后取的第一个,简体字电影名排在首位,静态页面的数据爬取比较简单这里有几个注意点

一:页面结构要多种预计 (有点页面没有导演或者编剧这些情况)

二:遇到ip封禁的 设定时 ,登陆后拿自己账号cookies加入headers, 或者自己定义ip(r=requests.get(url,proxies={'http':random.choice(pro)},headers=head))

多线程分配url任务时 ,因为我用的是mysql,遇到一个锁表的问题,这个作为以后学习点,不过使用MongoDB这种非关系数据库就没有这种问题

数据结果

可视化的有的是echarts:

一:香港历年电影

在1993-1995年和 2000-2001是香港电影的鼎盛时期 ,前者有霸王别姬,东邪西毒,活着,与大话西游系列,后者有花样年华,卧虎藏龙,无间道这些优秀

影片,在94,95巅峰后年电影有下降的趋势应该是97香港回归的影响,在回归后的2000左右稳定,并且再次有峰值。

二:导演

三:演员

张国荣(2008年的为东西吸毒终极版)

周星驰

刘德华

还有很多蛮有趣的数据就不都展示,这段时间体会到爬虫的乐趣,后面往图像处理方向学习

利用python爬虫电影分析_python 爬虫分析30年香港电影相关推荐

  1. 数据可视化:利用Python和Echarts制作“用户消费行为分析”可视化大屏

    数据可视化:利用Python和Echarts制作"用户消费行为分析"可视化大屏 前言 实验目的: 准备工作: 一.创建项目: 二.建立数据库连接获取数据: 三.页面布局: 四.下载 ...

  2. 利用python做微信聊天记录词云分析——记录美好回忆

    目录 1 概述 2 数据准备 2.1 安卓设备 2.1.1 Root手机,安装Root Explorer 2.1.2 用Root Explorer将聊天记录的数据文件导出并存入电脑 2.1.3 对En ...

  3. 利用 Python 实现简单的主题爬虫

    利用 Python 实现简单的主题爬虫   利用 Python 实现简单的主题爬虫,主要是通过对指定的 主题 和 网站 进行深度爬取,获取对应网页的标题和 url ,仅供学习参考. 爬取结果: 实验源 ...

  4. python爬虫豆瓣电影评价_Python 爬虫实战(1):分析豆瓣中最新电影的影评

    目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...

  5. python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...

    个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...

  6. python基金预测分析_Python爬虫抓取基金数据分析、预测系统设计与实现

    版权声明:本文为博主原创文章,如果转载请给出原文链接:http://doofuu.com/article/4156231.html 目前在开发一款基于Python的基金爬取.分析.预测系统,目前已经开 ...

  7. python网页爬虫漫画案例_Python爬虫 JS案例分析:爬取鬼灭之刃漫

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 文章转载于公众号:快学Python 作者:皖渝 猪油骨,拿来卤~今天,来分享一下python图片爬 ...

  8. python爬虫面试经验_Python爬虫面试简历 经验分析

    分享之前的爬虫简历,仅供参考,因为技术有限,简历技能点逼格不是很高,但提到的很多爬虫常用技术,都已经写入简历,靠这份简历之前找工作时候2天预约了8家面试,面的第二天,在第4家公司通过拿到offer,后 ...

  9. python自动爬取更新电影网站_Python爬虫之—微信实时爬取电影咨询

    本文将介绍如何使用爬虫在微信对话中实现实时的电影咨询爬取功能,希望和大家一起来分享" 1. 撩妹起源 俗话说的好:少壮不撩妹,长大徒伤悲啊! 说的很对,但是在这个撩妹的时代,要想成功把到妹, ...

最新文章

  1. 有限域f9的特征是多少_宽频域谐波的潜在威胁欠缺全面考虑,现有标准需进一步优化...
  2. 关于DataGridViewComboBoxColumn的二三事
  3. 实用windows short cut
  4. RANSAC与圆柱拟合
  5. php报错处理,关于升级php7后的报错处理
  6. 6岁会编程,14岁就被麻省理工录取,神童谎言是如何诞生的?
  7. (一〇二)静态库(.a)的打包
  8. UVALive 4725 Airport(二分)
  9. 数学中的皇冠——数论
  10. Tomcat 内存溢出对应解决方式
  11. 明解c语言答案第11章,《明解C语言第3版.入门篇》练习代码 第11章
  12. 多节点Linux环境打造
  13. 【特征工程】定性数据的编码
  14. 启动hfds文件系统,普通用户查看不到jps中的服务进程,但是root用户可以【该问题已经解决】
  15. Ajax请求URL的写法
  16. IPv4下,划分子网,构造超网(CIDR)
  17. 视频剪辑工作者的福音,视频格式转换工具4Videosoft Video Converter Ultimate的介绍使用,可以转换所有的视频格式
  18. 2021-06-05 吾日三省吾身
  19. 【中级软考—软件设计师】1计算机组成与体系结构1.11性能指标【*】:1.11性能指标
  20. 病毒免杀技术-理论篇

热门文章

  1. html 输入框 焦点事件,input输入框用jquery怎么写失去焦点事件
  2. [Cassandra] Cassandra 设置用户权限
  3. juniper SRX NTP
  4. 【openGauss/MogDB的uncommitted xmin问题解决】
  5. 王丁|怀念王太庆先生
  6. 周迅 演绎“不老传说” (图)
  7. 【Python第二天】输入+变量+bool
  8. Android11什么时候升级,oppo手机什么时候升级安卓11
  9. 关于光纤你必须知道的
  10. 数据库获取当前服务器时间