欢迎点击「算法与编程之美」↑关注我们!

本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。

《权利的游戏》、《天赋异禀》等耳熟能详的美剧,面对如此繁多的美剧,此时不禁会问自己,我喜欢看什么美剧呢?

这是一个非常难以回答的问题,原因在于不同的人会有不同的偏好。为了简化问题的求解,我们将尝试用Python语言进行数据分析来回答"我喜欢看什么美剧",先限定下主题就是我自己。

为了搞明白我喜欢看什么美剧,前提是要知道目前有哪些美剧,然后才能在这些美剧中根据条件筛选出我喜欢看的。所以第一件事要做的就是采集基本的数据。

Python实现数据采集需要用到的第三方库有requests和bs4,其中requests用来处理HTTP请求,bs4中的BeautifulSoup用来解析下载的HTML代码从中得到想要的数据。

1. 安装第三方库。

利用包管理软件pip来完成第三方库的安装。

pip install requests
pip install bs4

2. 利用requests库下载HTML代码。

requsts库是一种非常方便的处理HTTP请求的第三方库,只需要一行代码就可以实现HTML网页的下载。
html = requests.get('https://www.meiju.net/search.php?searchtype=5&tid=2', verify=False).content

代码执行的结果是:

打印的就是返回的HTML代码。

3. 利用BeautifulSoup解析HTML。

有了网页的HTML代码接下来就需要从这些代码中提取需要的、有价值的信息,这个工具就是BeautifulSoup来完成。我们将从代码中提取到美剧名称、URL地址以及评分数据。
soup = BeautifulSoup(html, 'html.parser')
for item in soup.select('div.hy-video-list li > a'):   row = edict()  row.video_name = item['title']   row.video_url = item['href'] row.video_type =  i    score_tag = item.select_one('span.score')    if score_tag is not None:   row.video_score = score_tag.text   print(row)

执行结果为:

4. 批处理所有列表。

前面处理的是一页的列表,接下来利用循环处理所有的列表数据。
for i in tqdm(range(1, 112)): url = 'https://www.meiju.net/search.php?page={}&searchtype=5&tid=2'.format(i) soup = BeautifulSoup(requests.get(url, verify=False).content, 'html.parser')    for item in soup.select('div.hy-video-list li > a'):   row = edict()  row.video_name = item['title']   row.video_url = item['href'] score_tag = item.select_one('span.score')    if score_tag is not None:   row.video_score = score_tag.text   print(row)

至此便完成了网站所有美剧数据的采集,总共有美剧数量3972部。

结语

为了搞清楚"我喜欢看什么美剧"这一重大问题,提出了一种利用Python编程语言进行数据分析的方法,本文主要完成了数据分析的第一步数据采集的过程,采集了某网站所有的美剧基本信息,上面的代码可以看到目前这些数据都只是通过简单的print(row)的方式进行打印,并未进行任何数据保存,那么应该如何存储这些数据呢?
预知后事如何,欢迎持续关注。

 where2go 团队


   

微信号:算法与编程之美

一个专注于分享算法思想的公众号!

温馨提示:点击页面下方“留言”发表评论,期待您的参与!期待您的转发!

Python应用 | 我喜欢看什么美剧(一)相关推荐

  1. Python爬虫带你爬取美剧网站

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...

  2. python爬虫实战:爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao ...

  3. 出现了!豆瓣最高9.9分,2020年最值得看的美剧!你居然还没看过?【内附资源】...

    全世界只有3.14 % 的人关注了 爆炸吧知识 在调性普遍黄暴烧脑的美剧大流中,<This is us>没有大牌主演,没有炫酷特效,却让观众集体沦陷,被称为5年难得一见的美剧. 有人说,这 ...

  4. python:就喜欢看你看不惯我又干不掉我的样子

    今天又是被python广告支配的一天. 小编最近怀疑自己得了病,病名就是"python恐惧症".每天一打开微信,朋友圈,公众号,到处都能看到python的广告,刷刷视频,也是pyt ...

  5. 喜欢的最新美剧更新时间表,最爱《传世》了

    剧集图片 剧集 多久更新一集?(北京时间) 主演 <罪案第六感 第3季> [美国] 共 12 集 开播时间:2014-04-18连载中 状态:乐视网07-23 16:06更新至第6集 前往 ...

  6. android电视 美剧,天天美剧电视tv版apk

    天天美剧app里面收藏有大量的好看的美国电视剧和美国大片,这些都是美剧迷们的最爱看的影视,而且现在通过这款软件能够直接的看到,不需要付费会员,这样看美国影视肯定是超级过瘾的,所以如果你是喜欢看美国影视 ...

  7. python 英语词频统计软件_为了边看美剧边学英语,我写了个字幕处理脚本

    每个英语学渣(好吧,其实这个说的就是学渣本渣了)都有这样一个梦想:能够一边轻松愉快地看着美剧,一边自己的英语听力水平还能蹭蹭地往上涨.知乎上也有很多人分享了自己通过美剧练习听力的方法,比如说只开英文字 ...

  8. python英语词频_为了边看美剧边学英语,我写了个字幕处理脚本

    每个英语学渣(好吧,其实这个说的就是学渣本渣了 ‍♀️)都有这样一个梦想:能够一边轻松愉快地看着美剧,一边自己的英语听力水平还能蹭蹭地往上涨.知乎上也有很多人分享了自己通过美剧练习听力的方法,比如说只 ...

  9. python爬虫美剧下载

    阅前声明:本文旨在交流技术,尊重版权尊重原创,科学上网,不得用于违法途径,安全使用技术,因技术使用不当导致不良后果,本人概不负责 目录 问题起源 网络分析 代码示例 结果展示 问题起源 最近想学学英语 ...

最新文章

  1. 2022-2028年中国微藻行业市场调查研究及前瞻分析报告
  2. 1行代码实现Python数据分析:图表美观清晰,自带对比功能丨开源
  3. python 输入文件名查找_Python实现的根据文件名查找数据文件功能示例
  4. maven hibernat mysql_手把手教你用 maven 搭建 SSH (struts2 +hibernate5 + spring5) 项目
  5. [JOYOI] 1124 花店橱窗
  6. ruby gem passenger依赖关系
  7. C的动态优化 约瑟夫环
  8. 【laravel5.4 + TP5.0】hasOne和belongsTo的区别
  9. Android开发之android与JS互调 | Android与H5互调(附源码)
  10. 小程序云开发实战 - 口袋工具之“历史上的今天”
  11. 2009岁末之复用系统框架(B/S)
  12. 实现页面弹框背景虚化效果
  13. 设计师 VR 成型设计知识收集
  14. Datalogic得利捷推出物流应用领域全新标杆产品——AV900
  15. 微信小程序搭建tabbar
  16. matlab求解极限问题(limit函数的用法)
  17. 韦根通信c语言程序,韦根26通信的示例程序
  18. 照片墙背景html图片,微信照片墙背景图片
  19. Spring Security 密码加密器 Pbkdf2PasswordEncoder 、 BCryptPasswordEncoder
  20. mysql取倍数的数据_MySQL 基本命令

热门文章

  1. 消费者满意度调查方案
  2. 第二章—v-directive自定义指令
  3. rabbitmq——交换机fanout和direct
  4. Repeater控件动态变更列(Header,Item和Foot)信息
  5. PYTHON对数值变量进行标准化,离散变量标签化
  6. candidate master_已毕业研究生
  7. 条码打印软件制作数字+字母的流水号二维码
  8. ps 图层解锁后变成全格子(全透明)的解决方法
  9. 仿b站的动漫视频网站
  10. 获取股票简单数据:腾讯、新浪、东方财富。。。