正则爬取猫眼电影榜单信息

预期效果

代码实现

import requests
from requests.exceptions import RequestException
import re
import jsondef get_one_page(url):try:response = requests.get(url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:57.0) Gecko/20100101 Firefox/57.0'})if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?</dd>', re.S)results = re.findall(pattern, html)for result in results:sub_pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)sub_results = re.findall(sub_pattern, result)for sub_result in sub_results:yield {'index': sub_result[0],'image': sub_result[1],'title': sub_result[2],'actor': sub_result[3].strip()[3:],'time': sub_result[4].strip()[5:],'score': sub_result[5] + sub_result[6]}def write_to_file(content):with open('maoyan_result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')f.close()def main(offset):url = 'http://maoyan.com/board/4?offset='+ str(offset)html = get_one_page(url)for sub_result in parse_one_page(html):print(sub_result)write_to_file(sub_result)if __name__ == '__main__':for i in range(10):main(i*10)

正则爬取猫眼电影榜单信息相关推荐

Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息
爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影之后点击菜单栏的榜单并在下面选择 TOP100榜接着右击检查并刷新界面,在Network中找到4 ...
使用PHP+QueryList 爬取猫眼电影榜单信息
爬虫是我一直以来跃跃欲试的技术,现在的爬虫框架很多,比较流行的是基于python,nodejs,java,C#的的框架,其中又以基于python的爬虫流行最为广泛,还有的已经是一套傻瓜式的软件操作,如 ...
【python爬虫自学笔记】（实战）----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
利用requests库和Xpath爬取猫眼电影榜单【Python】
博主的前几篇有关定向网络爬虫的博客,在解析HTML界面时,都是运用了BeautifulSoup和re库进行解析,这篇博客写一下怎么用Xpath语法进行HTML界面解析,从而得到我们想要的结果. 说明 ...
利用python爬取猫眼电影榜单TOP100
代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...
Python爬取猫眼电影榜单评分，以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
python爬取豆瓣电影榜单
python爬取豆瓣电影榜单 python爬取豆瓣电影榜单并保存到本地excel中,以后就不愁没片看了. 目标确定我们想要抓取的电影的相关内容. 抓取豆瓣top250电影的排名.电影名.评价(总结很 ...
运用正则爬取猫眼电影流程
一.爬虫爬取网站流程 1.分析网站的数据来源分析网站结构,待爬取数据在哪. 2.查看页面数据能否通过requests模块获取到 (1)在开发者工具中,找到页面的url对应的请求.通过这条请求 ...
利用正则爬取猫眼电影
爬取猫眼电影 import json import requests from requests.exceptions import RequestException import re def ge ...

正则爬取猫眼电影榜单信息

预期效果

代码实现

正则爬取猫眼电影榜单信息相关推荐

最新文章

热门文章