# 导 入 模 块
import requests
from lxml import etree
import jsondef getOnePage(url):"得到一页信息"header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"}html = requests.get(url,headers=header) return html.textdef parseOnPage(text):html = etree.HTML(text)#电影名name = html.xpath("//div[@class='cinema-info']/a/text()")#并非唯一#主演star = html.xpath("//p[@class='cinema-address']/text()")#上映时间releasetime = html.xpath("//p[@class='releasetime']/text()") for item in range(len(name)):yield{"index":item, "name":name[item], "star":star[item], }def wirte2File(content):#路径需要自己重新定义with open(r"C:\Users\chanx\Desktop\maoyan1.txt",'a',encoding='utf-8') as fp: fp.write(json.dumps(content,ensure_ascii=False)+'\n')def main():for offset in range(10):url = "https://maoyan.com/cinemas?offset={}".format(offset*12) text = getOnePage(url)for item in parseOnPage(text):wirte2File(item) print(item)
main()

猫眼电影院爬虫(可用)相关推荐

  1. 猫眼电影爬虫和数据分析

    由于疫情关系,宅在家里.记录一下作业,猫眼电影爬虫及分析,爬取猫眼电影数据,并对爬取的数据进行分析和展示. 猫眼电影爬虫 基于requests库和lxml库进去猫眼电影TOP100榜电影爬取,爬取地址 ...

  2. 字体反爬之猫眼票房爬虫python

    编译环境:win10+python3.6+pycharm2017 目标:获取猫眼票房的电影名称和票房数据 目标网址:https://piaofang.maoyan.com/?ver=normal 网址 ...

  3. php实现猫眼电影院选座思路,高仿猫眼电影选座(选票)模块

    前言: 高仿猫眼选票模块,看着猫眼app选票模块做的如此之帅,网上又没比较好的库,自己手痒痒了就开始模仿起来了,最终用了几天时间实现了,也封装好了一套选座模块. 上图看效果先: 1)画座位图其实不是很 ...

  4. 一次完整的安全渗透测试_如果下一次大规模入侵涉及您的车辆而不是安全摄像机怎么办...

    一次完整的安全渗透测试 But my vehicle doesn't connect to the internet-.Are you sure? Statista estimates 40% of ...

  5. 反击“猫眼电影”网站的反爬虫策略

    0×01 前言 前两天在百家号上看到一篇名为<反击爬虫,前端工程师的脑洞可以有多大?>的文章,文章从多方面结合实际情况列举了包括猫眼电影.美团.去哪儿等大型电商网站的反爬虫机制.的确,如文 ...

  6. 爬虫从头学之Requests+正则表达式爬取猫眼电影top100

    爬取思路 当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤 使用requests库爬 ...

  7. 20200113Python爬虫---猫眼字体反爬

    在做过58同城的字体反爬过后,信心稍微增长点,那么索性找点字体文件反爬的网址,猫眼是客户要求的网址,那么便开始搞起来. 目标网址 猫眼经典电影 2020大陆影片_电影_经典片-猫眼电影 很明显和汽车之 ...

  8. Python爬虫---猫眼字体反爬

    在做过汽车之家论坛的字体反爬过后,信心稍微增长点,那么索性找点字体文件反爬的网址,猫眼便是一个不错的网址,那么便开始搞起来. 目标网址 https://piaofang.maoyan.com/?ver ...

  9. 搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...

    原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://jimmyli.blog.51cto.com/3190309/1183766 搜索 ...

最新文章

  1. Tomcat之the jre_home environment variable is not defined correctly this environment variable is need
  2. 谷歌发布 RLDS,在强化学习生成、共享和使用数据集
  3. DBCP2配置详细说明(中文翻译)
  4. 利用二级指针删除单向链表
  5. sql group by having
  6. Storm精华问答 | 最火的流式处理框架——Storm
  7. sqlmap注入语句整理
  8. ubuntu14.04 下 mysql 存储目录迁移
  9. [转]教你如何在博客园放“可运行代码
  10. RL基础算法优缺点总结
  11. WordPress使用domain/wp-json/api/v1/test 无法到接口可能的原因
  12. 国家知识产权局宣告易百珑自发电专利权有效
  13. iOS开发实战之手机号、座机号正则验证
  14. MATLAB读取Excel标题行特定字符对应数据
  15. 电气火灾监控系统技术分析
  16. 大学数据结构课程设计题目
  17. Java 的 IDEA 神级插件!
  18. Python制作植物大战僵尸,赶快来试试吧
  19. 阿里巴巴矢量图的使用方法详细教程
  20. 广西教师招聘需要计算机考试证,2020广西教师招聘报考需要有教师资格证吗

热门文章

  1. 计算机考证除了软考还有什么(全)
  2. Magic Leap在增强现实中展示了外形如同真人的AI
  3. Elasticsearch实战---------相关名词介绍
  4. JS数组操作 速查手册
  5. 重装系统后附加带区卷
  6. Android之流媒体播放
  7. 大型交易系统之高并发
  8. hbase2.x HBCK Report Region Holes Overlaps问题修复
  9. 在微信小程序中编写金额摇奖效果
  10. 荟聚新动能 数创新经济 2022全国工业App和信息消费大赛在湖南株洲举行