预期效果

代码实现

import requests
from requests.exceptions import RequestException
import re
import jsondef get_one_page(url):try:response = requests.get(url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:57.0) Gecko/20100101 Firefox/57.0'})if response.status_code == 200:return response.textreturn Noneexcept RequestException:return Nonedef parse_one_page(html):pattern = re.compile('<dd>.*?</dd>', re.S)results = re.findall(pattern, html)for result in results:sub_pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)sub_results = re.findall(sub_pattern, result)for sub_result in sub_results:yield {'index': sub_result[0],'image': sub_result[1],'title': sub_result[2],'actor': sub_result[3].strip()[3:],'time': sub_result[4].strip()[5:],'score': sub_result[5] + sub_result[6]}def write_to_file(content):with open('maoyan_result.txt', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')f.close()def main(offset):url = 'http://maoyan.com/board/4?offset='+ str(offset)html = get_one_page(url)for sub_result in parse_one_page(html):print(sub_result)write_to_file(sub_result)if __name__ == '__main__':for i in range(10):main(i*10)

正则爬取猫眼电影榜单信息相关推荐

  1. Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息

    爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...

  2. 使用PHP+QueryList 爬取猫眼电影榜单信息

    爬虫是我一直以来跃跃欲试的技术,现在的爬虫框架很多,比较流行的是基于python,nodejs,java,C#的的框架,其中又以基于python的爬虫流行最为广泛,还有的已经是一套傻瓜式的软件操作,如 ...

  3. 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100

    目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...

  4. 利用requests库和Xpath爬取猫眼电影榜单【Python】

    博主的前几篇有关定向网络爬虫的博客,在解析HTML界面时,都是运用了BeautifulSoup和re库进行解析,这篇博客写一下怎么用Xpath语法进行HTML界面解析,从而得到我们想要的结果. 说明 ...

  5. 利用python爬取猫眼电影榜单TOP100

    代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...

  6. Python爬取猫眼电影榜单评分,以及评论

    猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...

  7. python爬取豆瓣电影榜单

    python爬取豆瓣电影榜单 python爬取豆瓣电影榜单并保存到本地excel中,以后就不愁没片看了. 目标 确定我们想要抓取的电影的相关内容. 抓取豆瓣top250电影的排名.电影名.评价(总结很 ...

  8. 运用正则爬取猫眼电影流程

    一.爬虫爬取网站流程 1.分析网站的数据来源 ​ 分析网站结构,待爬取数据在哪. 2.查看页面数据能否通过requests模块获取到 ​ (1)在开发者工具中,找到页面的url对应的请求.通过这条请求 ...

  9. 利用正则爬取猫眼电影

    爬取猫眼电影 import json import requests from requests.exceptions import RequestException import re def ge ...

最新文章

  1. python怎么定义空矩阵_Python创建一个空的稀疏矩阵
  2. php获取服务器名称,PHP 获取服务器详细信息
  3. win10系统卷影复制服务器,如何使用Windows卷影拷贝服务恢复文件和文件夹
  4. java保留小数点后几位,不足的用0补
  5. OpenCV-Python实战(21)——OpenCV人脸检测项目在Web端的部署
  6. My97DatePicker JS时间控件 当前日期前后不能选
  7. 前端之Angular2实战:依赖注入详解与应用
  8. Samsung SSD Magician 4.1三星固态硬盘优化工具官方中文版
  9. 知网查重原理以及降重举例
  10. Excel中所有图片大小调整方法并将插入图片在单元格居中代码
  11. openwrt 做二级路由 同网段无线桥接教程 relayd
  12. 关于程序员的非技术面试题全在这里。
  13. web下载文件夹的解决方案
  14. 《c语言入门经典》Ivor Horton第十章练习题4
  15. 商业银行风险计量 第二章 最低资本要求
  16. 物流科技杂志物流科技杂志社物流科技编辑部2022年第11期目录
  17. python中的format什么意思
  18. 2015最新微信分享功能开发,自定义分享内容。
  19. npj | 王德华/张学英等揭示荒漠啮齿动物通过“菌群-肠-肾”轴耐受高盐的机制...
  20. 融创服务危机四伏:体量小、价格高,九成物业收入靠融创中国

热门文章

  1. 禁止table表格中td的长度随着文本的长度而变化
  2. 智能车的转弯部分_邛崃斯维刻平衡车维修平衡车不充电怎么处理哪里有
  3. 智力考验看成语猜古诗句微信小程序源码
  4. PDFMaker文件遗失怎么办,Word不能转PDF文件
  5. 1460 卡布列克常数
  6. javascript insertBefore( )
  7. 计算机园林辅助设计答案,园林计算机辅助设计 [常会宁编] 2010年版
  8. 弘辽科技:淘宝商家发布微淘有哪些好处?如何发布微淘?
  9. 计算机连接公用网络设置路由器,win7隐藏功能让你的电脑共享上网变无线路由器...
  10. int和float精度