正则爬取猫眼电影榜单信息
预期效果
代码实现
import requests
from requests.exceptions import RequestException
import re
import jsondef get_one_page(url):try:response = requests.get(url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:57.0) Gecko/20100101 Firefox/57.0'})if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?</dd>', re.S)results = re.findall(pattern, html)for result in results:sub_pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)sub_results = re.findall(sub_pattern, result)for sub_result in sub_results:yield {'index': sub_result[0],'image': sub_result[1],'title': sub_result[2],'actor': sub_result[3].strip()[3:],'time': sub_result[4].strip()[5:],'score': sub_result[5] + sub_result[6]}def write_to_file(content):with open('maoyan_result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')f.close()def main(offset):url = 'http://maoyan.com/board/4?offset='+ str(offset)html = get_one_page(url)for sub_result in parse_one_page(html):print(sub_result)write_to_file(sub_result)if __name__ == '__main__':for i in range(10):main(i*10)
正则爬取猫眼电影榜单信息相关推荐
- Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...
- 使用PHP+QueryList 爬取猫眼电影榜单信息
爬虫是我一直以来跃跃欲试的技术,现在的爬虫框架很多,比较流行的是基于python,nodejs,java,C#的的框架,其中又以基于python的爬虫流行最为广泛,还有的已经是一套傻瓜式的软件操作,如 ...
- 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
- 利用requests库和Xpath爬取猫眼电影榜单【Python】
博主的前几篇有关定向网络爬虫的博客,在解析HTML界面时,都是运用了BeautifulSoup和re库进行解析,这篇博客写一下怎么用Xpath语法进行HTML界面解析,从而得到我们想要的结果. 说明 ...
- 利用python爬取猫眼电影榜单TOP100
代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...
- Python爬取猫眼电影榜单评分,以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
- python爬取豆瓣电影榜单
python爬取豆瓣电影榜单 python爬取豆瓣电影榜单并保存到本地excel中,以后就不愁没片看了. 目标 确定我们想要抓取的电影的相关内容. 抓取豆瓣top250电影的排名.电影名.评价(总结很 ...
- 运用正则爬取猫眼电影流程
一.爬虫爬取网站流程 1.分析网站的数据来源 分析网站结构,待爬取数据在哪. 2.查看页面数据能否通过requests模块获取到 (1)在开发者工具中,找到页面的url对应的请求.通过这条请求 ...
- 利用正则爬取猫眼电影
爬取猫眼电影 import json import requests from requests.exceptions import RequestException import re def ge ...
最新文章
- python怎么定义空矩阵_Python创建一个空的稀疏矩阵
- php获取服务器名称,PHP 获取服务器详细信息
- win10系统卷影复制服务器,如何使用Windows卷影拷贝服务恢复文件和文件夹
- java保留小数点后几位,不足的用0补
- OpenCV-Python实战(21)——OpenCV人脸检测项目在Web端的部署
- My97DatePicker JS时间控件 当前日期前后不能选
- 前端之Angular2实战:依赖注入详解与应用
- Samsung SSD Magician 4.1三星固态硬盘优化工具官方中文版
- 知网查重原理以及降重举例
- Excel中所有图片大小调整方法并将插入图片在单元格居中代码
- openwrt 做二级路由 同网段无线桥接教程 relayd
- 关于程序员的非技术面试题全在这里。
- web下载文件夹的解决方案
- 《c语言入门经典》Ivor Horton第十章练习题4
- 商业银行风险计量 第二章 最低资本要求
- 物流科技杂志物流科技杂志社物流科技编辑部2022年第11期目录
- python中的format什么意思
- 2015最新微信分享功能开发,自定义分享内容。
- npj | 王德华/张学英等揭示荒漠啮齿动物通过“菌群-肠-肾”轴耐受高盐的机制...
- 融创服务危机四伏:体量小、价格高,九成物业收入靠融创中国
热门文章
- 禁止table表格中td的长度随着文本的长度而变化
- 智能车的转弯部分_邛崃斯维刻平衡车维修平衡车不充电怎么处理哪里有
- 智力考验看成语猜古诗句微信小程序源码
- PDFMaker文件遗失怎么办,Word不能转PDF文件
- 1460 卡布列克常数
- javascript insertBefore( )
- 计算机园林辅助设计答案,园林计算机辅助设计 [常会宁编] 2010年版
- 弘辽科技:淘宝商家发布微淘有哪些好处?如何发布微淘?
- 计算机连接公用网络设置路由器,win7隐藏功能让你的电脑共享上网变无线路由器...
- int和float精度