爬取得猫眼电影前top100排行榜
- 声明
首先声明下这是我在csdn上发表的第一篇关于编程的文章,水平一般,技术含量也不高,所以想看骚操作的请尽快关闭,省得浪费宝贵的时间与生命。
环境介绍
这是一篇关于python爬虫文章,使用的是anaconda_python_3.7版本,编辑器为pycharm,浏览器为谷歌chrome,涉及到的第三方库不多,写过爬虫的应该都能看懂。查看page_source
爬取top100的电影信息。首先用浏览器打开需要爬取数据的网页https://maoyan.com/board/4,观察页面,可以看见电影名,主演,上映时间点击图片,跳转到一个新的界面,可以查看该电影的详细信息
这下清楚了网页的布置,接下来查看我们需要的信息被分别放置在了源码的哪些标签内,右键点击检查
可以看霸王别姬的电影名,跳转链接被放置在了一个class为name的p标签内,主演信息放置在class为name的p标签内,上映时间放置在了class为releasetime标签内,三个标签均为兄弟标签。
仔细观察这个href超链接属性有点奇怪,没有协议没有域名,点击再次跳转到霸王别姬的详情页面。这应该是html一种语法形式,会自动在前面添加主界面的url,组成一个可以跳转的url。是真的nice
收缩标签可以看到关于霸王别姬的电影信息的所有标签都放置在了一个名为dd标签下,其他兄弟类dd标签也放置了其位置对应的电影信息
这就前10名电影信息的分布,但我们要爬取的是top100,点击第二页发现url发生了变化,末尾的0变成了10,第三页变成了20,那么我们可以通过修改末尾值的方法来完成网页跳转要睡觉了,我简单点写
我的思路是通过css标签选择器,选取出我们需要的标签,再使用正则表达式提取关键信息,再使用迭代的方法获取存放电影信息的10个url,再保存再一个txt的文件内
最后将值迭代出来转换成整个的字符串使用with as方法写入文件中
特么
果然这种东西只能找时间多得点写
爬取得猫眼电影前top100排行榜相关推荐
- 爬虫第二式:猫眼电影前100排行榜
hello hello,小伙伴们你们好,今天我就正式进入爬虫稍微高级一点的阶段了,哈哈哈哈上一篇才是入门了,本章就进阶了,所以没学好入门的小伙伴们先去我的上一篇文章看懂看明白啊,丢个小链接: 爬虫第一 ...
- 爬虫实战4:爬取猫眼电影排名Top100的详细数据保存到csv文件
申明:资料来源于网络及书本,通过理解.实践.整理成学习笔记. 文章目录 猫眼电影 完整代码 运行结果 猫眼电影 完整代码 import time import requests import re i ...
- 【python+爬虫】爬去猫眼电影前100名具体信息
爬去猫眼电影前100名具体信息 准备工作 1:requests,json,time,re库 2:python3.x 3:pycharm 4:在线正则表达式测试网址 http://tool.oschin ...
- 爬取猫眼电影评分TOP100
操作系统:macos python版本:3.6 现在查看猫眼电影的页面真实页面源码会自动跳转, 可以在火狐浏览器中查看开发者模式的Network监听组件中查看源码 根据源码来编写的正则表达式('< ...
- BeautifulSoup4爬取猫眼电影前一百
最开始学习python,是因为爬虫.最初学习小甲鱼的教学视频,后来在小甲鱼的论坛上发现了用bs4爬取豆瓣前一百,当时怎么也看不懂.后来系统的学习了一下爬虫.参考了崔大佬的爬虫之后,改编书上的例子(书上 ...
- requests+正则爬取猫眼电影前100
最近复习功课,日常码农生活. import requests from requests.exceptions import RequestException import re import jso ...
- 爬虫(2)-解析库xpath和beautifulsoup爬取猫眼电影排行榜前100部电影
解析库爬取猫眼电影前100部电影 认为有用的话请点赞,码字不易,谢谢. 其他爬虫实战请查看:https://blog.csdn.net/qq_42754919/category_10354544.ht ...
- 爬取猫眼电影专业版实时数据排行榜
这是一个爬取猫眼电影专业版实时排行榜的代码. #猫眼电影实时爬取 #2017/8/1 import os import requests import json import time import ...
- 使用Requests爬取猫眼电影
谈到爬虫大家可能对Requests库不会陌生,相比urllib库的话Requests库在处理网页认证和Cookies时更加方便,话不多少,下面让我通过爬取猫眼电影前100名排行榜实例来说明一下. 首先 ...
最新文章
- 客户端动态调用WCF服务中的方法
- Kafka面试题及答案整理 110道 (持续更新)
- 干货一:通过自定义PopupWindow实现QQ菜单选项功能
- 追一科技热招职位来袭:AI新世界,不做旁观者
- 配置php7.2.4支持swoole2.1.1扩展
- BZOJ 3907: 网格( 组合数 + 高精度 )
- python开发系统架构设计师_系统架构设计师在线题库
- react转跳_您跳过的这些React基础知识可能会杀死您
- Java web--过滤器
- 数学建模:线性回归模型
- IP子网划分概念:IP地址,子网和网关配置——Vecloud
- 利用Excel爬取网页数据
- Pr 入门教程如何修改过渡效果设置?
- 【转】卖萌的大牛你桑不起啊 ——记CVPR2011一篇极品文章
- 阿里云推出云呼叫中心,助力企业强势打造端到端的一站式热线服务
- OCT-模拟电路设计八边形法则的探讨
- 什么是Xcelsius
- 组态王bitset用法_宇电AI系列仪表和组态王在产品检测装置中的应用
- win10html服务器搭建,windows10 系统配置nginx文件服务器的图文教程
- JAVA 实现《捕鱼达人》游戏
热门文章
- linux字体配置要略,Linux字体配置要略.pdf
- Android直播开发之旅(4):MP3编码格式分析与lame库编译封装
- 彭兰 新媒体进阶研究
- 加载主类 Hello 时出现 LinkageError java.lang.UnsupportedClassVersionError
- Nervos:链外扩容 + Layer 2才是区块链的未来(下)
- ABAP - OO ALV基本实现步骤
- 通俗讲解分布式锁:场景和使用方法
- Docker Privileged access
- 如何进行微距摄影(转)
- [转载]我如何在计算机视觉顶级会议CVPR上发表论文?