利用正则爬取猫眼电影

爬取猫眼电影

import json
import requests
from requests.exceptions import RequestException
import re

def get_one_page(url):#获取一个页面的信息try:kv = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}# proxies=get_random_ip(proxies)response=requests.get(url,headers=kv)response.encoding='utf-8'if response.status_code==200:return response.textreturn Noneexcept RequestException:return None

def parse_one_page(html):#解析页面信息,每个匹配元素后面必须要加结束符号

 pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'+'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)#re.S使语句可以匹配换行符items=re.findall(pattern,html)for item in items:yield {'index':item[0],'image':item[1],'title':item[2],'actor':item[3].strip()[3:],'time':item[4].strip()[5:],'score':item[5]+item[6]}

def write_to_file(content):#写入文件with open('F://resultfirm.txt','a',encoding='utf-8')as f:f.write(json.dumps(content,ensure_ascii=False)+'\n')f.close()
def main(offset):url='https://maoyan.com/board/4?offset='+str(offset)html=get_one_page(url)for item in parse_one_page(html):print(item)write_to_file(item)
if __name__ == '__main__':for i in range(10):main(i*10)

#为了解决存储到文件后乱码的问题，在39和40行要加一个encoding和ensure_ascii
开始爬取的时候不成功，以为是ip出问题了，最后发现是改个头文件就行了

利用正则爬取猫眼电影相关推荐

利用python爬取猫眼电影，分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
利用正则表达式爬取猫眼电影TOP100信息
本文利用requests库和正则表达式爬取了猫眼电影TOP100电影信息,并将电影封面和标题.主演等文字信息保存在了本地.本文完整代码链接:https://github.com/iapcoder/Ma ...
运用正则爬取猫眼电影流程
一.爬虫爬取网站流程 1.分析网站的数据来源分析网站结构,待爬取数据在哪. 2.查看页面数据能否通过requests模块获取到 (1)在开发者工具中,找到页面的url对应的请求.通过这条请求 ...
Requests+正则爬取猫眼电影TOP100
(一)目标站点的分析首先打开我们的目标网站,发现每一页有十个电影,最下面有分页标志,而分页只改变的是标签后缀,如下: 而后可以在网页按f12打开源代码管理,查看网页每处信息对应的源代码形式,如下图: ...
猫眼api html,Requests库+正则爬取猫眼电影Top100
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 流程框架 1.抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回 ...
requests+正则爬取猫眼电影前100
最近复习功课,日常码农生活. import requests from requests.exceptions import RequestException import re import jso ...
利用python爬取猫眼电影榜单TOP100
代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...
正则爬取猫眼电影榜单信息
预期效果代码实现 import requests from requests.exceptions import RequestException import re import jsondef ...
记第一天使用node做爬虫——爬取猫眼电影票房总榜以及指定电影的豆瓣评论前200条
首先,我是一个做前端的应届生,今天朋友想让我帮忙爬取猫眼电影票房总榜的数据,但是我之前一点都没接触过爬虫,但我还是说:okk,我试试: 然后试试就逝世,各种坑接踵而来: 提前声明:这篇文章暂时只是获取 ...

利用正则爬取猫眼电影

利用正则爬取猫眼电影相关推荐

最新文章

热门文章