利用正则爬取猫眼电影
爬取猫眼电影
import json
import requests
from requests.exceptions import RequestException
import re
def get_one_page(url):#获取一个页面的信息try:kv = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}# proxies=get_random_ip(proxies)response=requests.get(url,headers=kv)response.encoding='utf-8'if response.status_code==200:return response.textreturn Noneexcept RequestException:return None
def parse_one_page(html)
:#解析页面信息,每个匹配元素后面必须要加结束符号
pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)#re.S使语句可以匹配换行符items=re.findall(pattern,html)for item in items:yield {'index':item[0],'image':item[1],'title':item[2],'actor':item[3].strip()[3:],'time':item[4].strip()[5:],'score':item[5]+item[6]}
def write_to_file(content):#写入文件with open('F://resultfirm.txt','a',encoding='utf-8')as f:f.write(json.dumps(content,ensure_ascii=False)+'\n')f.close()
def main(offset):url='https://maoyan.com/board/4?offset='+str(offset)html=get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)
if __name__ == '__main__':for i in range(10):main(i*10)
#为了解决存储到文件后乱码的问题,在39和40行要加一个encoding和ensure_ascii
开始爬取的时候不成功,以为是ip出问题了,最后发现是改个头文件就行了
利用正则爬取猫眼电影相关推荐
- 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
- 利用正则表达式爬取猫眼电影TOP100信息
本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...
- 运用正则爬取猫眼电影流程
一.爬虫爬取网站流程 1.分析网站的数据来源 分析网站结构,待爬取数据在哪. 2.查看页面数据能否通过requests模块获取到 (1)在开发者工具中,找到页面的url对应的请求.通过这条请求 ...
- Requests+正则爬取猫眼电影TOP100
(一)目标站点的分析 首先打开我们的目标网站,发现每一页有十个电影,最下面有分页标志,而分页只改变的是标签后缀,如下: 而后可以在网页按f12打开源代码管理,查看网页每处信息对应的源代码形式,如下图: ...
- 猫眼api html,Requests库+正则爬取猫眼电影Top100
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 流程框架 1.抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回 ...
- requests+正则爬取猫眼电影前100
最近复习功课,日常码农生活. import requests from requests.exceptions import RequestException import re import jso ...
- 利用python爬取猫眼电影榜单TOP100
代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...
- 正则爬取猫眼电影榜单信息
预期效果 代码实现 import requests from requests.exceptions import RequestException import re import jsondef ...
- 记第一天使用node做爬虫——爬取猫眼电影票房总榜以及指定电影的豆瓣评论前200条
首先,我是一个做前端的应届生,今天朋友想让我帮忙爬取猫眼电影票房总榜的数据,但是我之前一点都没接触过爬虫,但我还是说:okk,我试试: 然后试试就逝世,各种坑接踵而来: 提前声明:这篇文章暂时只是获取 ...
最新文章
- JSON对象和JSON 字符串之间的相互转换
- 大牛市中大师们如何选股长袖善舞——兼谈本周经济与股市
- RocketMq namesvr 最佳实践
- C/C++只做经典编程语言
- 最全深度学习资源列表!
- android 安全 权限,[原创]Android 中的那些权限
- 哪些奇葩问题会让程序员抓狂?
- Java 高级数据结构 —— Properties
- Log对象什么时候会更新LEO
- Hibernate的session一级缓存
- Spring MVC - 介绍
- 密码学40年|重要历史与人物
- 2021年流动式起重机司机模拟考试题库及流动式起重机司机模拟考试系统
- 联想小新i1000拆机图解_联想小新笔记本拆机解析
- 大连雅思培训百家国际雅思考试词汇量要求与记忆方法是什么
- monetDb列式存储架构分析
- Java程序员月薪多少K才能在北上广买得起房?
- 宏基因组分箱CheckM评估结果的提取
- awgn函数 matlab measure 什么意思,Matlab中 awgn 函数输入参数带有‘measured’ 时snr的含义...
- 游戏:三子棋【 C语言 】
热门文章
- 2019 计算机专业课堂测验1
- P2956 [USACO09OCT]机器人犁田The Robot Plow
- 使用nginx前后台项目打包发布
- 浏览器-浏览器内核 ua
- JSON技术的调研报告(四种常见的JSON格式对比及分析)
- 音乐蜂鸣器设计-ISE操作工具
- 曹云金回应公式相声_2年前开创公式相声,还调侃郭德纲的“博士相声夫妇”,结果呢?...
- vant 索引城市不对_手把手Vue移动端使用vant完成索引栏功能
- 距离高手,你还缺少刻意练习
- 视频教程-【吴刚】AE(After Effects)初级入门标准教程-动画制作