初入爬虫,自己确实对爬虫挺感兴趣,觉得爬到数据的那种感觉很开心。
有两点比较难,一是评分,二是票房,评分可以在这个地方取到,
票房采用的是自定义字体,难度较大,需要将其每个点的坐标下载下来对比–未解决!

import gzip
from urllib import request as r
import MySQLdb
from lxml import etree
from fake_useragent import UserAgent
conn = MySQLdb.connect(host='***',port=3306,user="root",password="***",db="spider",charset="utf8"
)
cursor = conn.cursor()
user_agent = UserAgent()
headers = {'User-Agent': user_agent.random,
}
url = "https://maoyan.com/board/4?offset="
for i in range(10):url = 'http://maoyan.com/board/4?offset='+str(i*10)req = r.Request(url=url,headers=headers)html = r.urlopen(req)# print(html.read().decode())html2 = html.read()try:s = gzip.decompress(html2).decode()except:s = html2.decode()ele = etree.HTML(s)movie_urls = ele.xpath("//dl[@class='board-wrapper']/dd/a/@href")   # 100个电影的urlbig_num = ele.xpath("//i[@class='integer']/text()")small_num = ele.xpath("//i[@class='fraction']/text()")for movie_url in movie_urls:ind = movie_urls.index(movie_url)movie_sorce = big_num[ind] + small_num[ind]url = "https://maoyan.com"+movie_urlreq2 = r.Request(url=url,headers=headers)html3 = r.urlopen(req2)html3 = html3.read().decode()ele = etree.HTML(html3)movie_cn_name = ele.xpath("//h3[@class='name']/text()")   #  电影中文名字movie_en_name = ele.xpath("//div[@class='ename ellipsis']/text()")  # 电影中文名s = ele.xpath("//div[@class='movie-brief-container']/ul/li/text()")s1 = s[1].split("/")print(movie_cn_name[0],movie_en_name[0],s[0],s[1],s[2],movie_sorce)sql = "insert into mao_spider (movie_cn_name,movie_en_name,movie_type,movie_place,movie_show_time,movie_sorce,movie_time) values(%s,%s,%s,%s,%s,%s,%s)"cursor.execute(sql,(movie_cn_name[0],movie_en_name[0],s[0],s1[0],s[2][:10],movie_sorce,s1[1]))conn.commit()print("添加成功!!!")conn.rollback()
cursor.close()
conn.close()

爬取猫眼电影排行版TOP100相关推荐

  1. Python3爬虫——爬取猫眼电影排行

    一.爬取猫眼电影排行 目标:提取猫眼电影TOP100的电影排名.名称.主演.上映时间.评分.海报链接. URL:https://maoyan.com/board/4 保存:JSON # 版本:Pyth ...

  2. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  3. 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100

    目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...

  4. 【崔庆才教材】《Python3网络爬虫开发实战》3.4爬取猫眼电影排行代码更正(绕过美团验证码)

    前情提要 最近有七八个小伙伴私信问我说崔大神的<Python3网络爬虫开发实战>教材中 "3.4爬取猫眼电影排行" 一节的代码目前不能用. 首先附上崔大神的github ...

  5. Python实战之如何爬取猫眼电影排行?本文详解

    本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...

  6. 爬取猫眼电影排行——第一版

    要求 提取出猫眼电影的top100的电影名称.时间.评分图片等信息,提取的URL链接为:https://maoyan.com/board/4 获取的信息需要以文件的形式保存下来 思路 流程图如下所示: ...

  7. 利用python爬取猫眼电影榜单TOP100

    代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...

  8. python学习实践--爬取猫眼电影排行

    爬取前一定要注意观察网站的url地址,如果是分页的话,找出每一页不同的地址规律,同时,尽量在network选项卡部分查看网页源代码,否则源码可能经过JavaScript操作与原始请求不同. 抓取站点 ...

  9. 00_抓取猫眼电影排行TOP100

    前言: 学习python3爬虫有一段时间了,熟悉了爬虫的一些基本原理和基本库的使用,本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容. 1.本次目标: 爬取猫眼电影 ...

最新文章

  1. pci驱动与硬件通信
  2. Linux操作系统下实现远程开机
  3. 使用runnable创建线程
  4. Maven构建项目 — 知识点梳理
  5. 美团java在线笔试题_美团点评春招在线笔试后台开发方向笔试题编程题第一题题解...
  6. @link标签 实现注释里面的类跳转
  7. 2048的核心算法的初步实现
  8. 怎样将图片制作转换圆形图片
  9. C语言:请自定义函数求两个数的和、差、积、商!
  10. 多传感器融合的四种经典结构
  11. 开题报告:基于java医院在线预约挂号系统 毕业设计论文开题报告模板
  12. C++ Primer 笔记
  13. matlab八分之一中点画圆算法,中点八分画圆算法
  14. 如何将notepad++中的xml文件格式化(层级关系展示)
  15. springboot如何解析邮箱
  16. Scene Management --- Culling
  17. 智慧化工厂安全风险生产预警系统软件
  18. 电脑关闭休眠模式清理 C盘内存
  19. aria2c指定下载存储路径的一个问题(可能不算bug)
  20. Fast Fourier transform快速傅里叶变换

热门文章

  1. 非常好用又酷的终端工具 --Tabby
  2. InputStream 简介
  3. DW如何将网页部署到服务器,dw如何设置服务器行为
  4. iBus-pinyin 输入法
  5. Midori64 加解密的实现(Java代码)
  6. 上海宝付花两块钱竟帮助了千百人程序人生的梦想
  7. MYSQL第四次作业
  8. vscode调试代码方法
  9. @Page指令中的AutoEventWireup
  10. python apply lambda if_详解Python中的map、lambda和apply用法