爬取猫眼电影排行版TOP100

初入爬虫，自己确实对爬虫挺感兴趣，觉得爬到数据的那种感觉很开心。
有两点比较难，一是评分，二是票房，评分可以在这个地方取到，
票房采用的是自定义字体，难度较大，需要将其每个点的坐标下载下来对比–未解决！

import gzip
from urllib import request as r
import MySQLdb
from lxml import etree
from fake_useragent import UserAgent
conn = MySQLdb.connect(host='***',port=3306,user="root",password="***",db="spider",charset="utf8"
)
cursor = conn.cursor()
user_agent = UserAgent()
headers = {'User-Agent': user_agent.random,
}
url = "https://maoyan.com/board/4?offset="
for i in range(10):url = 'http://maoyan.com/board/4?offset='+str(i*10)req = r.Request(url=url,headers=headers)html = r.urlopen(req)# print(html.read().decode())html2 = html.read()try:s = gzip.decompress(html2).decode()except:s = html2.decode()ele = etree.HTML(s)movie_urls = ele.xpath("//dl[@class='board-wrapper']/dd/a/@href")   # 100个电影的urlbig_num = ele.xpath("//i[@class='integer']/text()")small_num = ele.xpath("//i[@class='fraction']/text()")for movie_url in movie_urls:ind = movie_urls.index(movie_url)movie_sorce = big_num[ind] + small_num[ind]url = "https://maoyan.com"+movie_urlreq2 = r.Request(url=url,headers=headers)html3 = r.urlopen(req2)html3 = html3.read().decode()ele = etree.HTML(html3)movie_cn_name = ele.xpath("//h3[@class='name']/text()")   #  电影中文名字movie_en_name = ele.xpath("//div[@class='ename ellipsis']/text()")  # 电影中文名s = ele.xpath("//div[@class='movie-brief-container']/ul/li/text()")s1 = s[1].split("/")print(movie_cn_name[0],movie_en_name[0],s[0],s[1],s[2],movie_sorce)sql = "insert into mao_spider (movie_cn_name,movie_en_name,movie_type,movie_place,movie_show_time,movie_sorce,movie_time) values(%s,%s,%s,%s,%s,%s,%s)"cursor.execute(sql,(movie_cn_name[0],movie_en_name[0],s[0],s1[0],s[2][:10],movie_sorce,s1[1]))conn.commit()print("添加成功！！！")conn.rollback()
cursor.close()
conn.close()

爬取猫眼电影排行版TOP100相关推荐

Python3爬虫——爬取猫眼电影排行
一.爬取猫眼电影排行目标:提取猫眼电影TOP100的电影排名.名称.主演.上映时间.评分.海报链接. URL:https://maoyan.com/board/4 保存:JSON # 版本:Pyth ...
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
【python爬虫自学笔记】（实战）----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
【崔庆才教材】《Python3网络爬虫开发实战》3.4爬取猫眼电影排行代码更正（绕过美团验证码）
前情提要最近有七八个小伙伴私信问我说崔大神的<Python3网络爬虫开发实战>教材中 "3.4爬取猫眼电影排行" 一节的代码目前不能用. 首先附上崔大神的github ...
Python实战之如何爬取猫眼电影排行？本文详解
本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...
爬取猫眼电影排行——第一版
要求提取出猫眼电影的top100的电影名称.时间.评分图片等信息,提取的URL链接为:https://maoyan.com/board/4 获取的信息需要以文件的形式保存下来思路流程图如下所示: ...
利用python爬取猫眼电影榜单TOP100
代码如下 import re import requests import json #from multiprocessing import Pool # 多进程#url = 'https://ma ...
python学习实践--爬取猫眼电影排行
爬取前一定要注意观察网站的url地址,如果是分页的话,找出每一页不同的地址规律,同时,尽量在network选项卡部分查看网页源代码,否则源码可能经过JavaScript操作与原始请求不同. 抓取站点 ...
00_抓取猫眼电影排行TOP100
前言: 学习python3爬虫有一段时间了,熟悉了爬虫的一些基本原理和基本库的使用,本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容. 1.本次目标: 爬取猫眼电影 ...

爬取猫眼电影排行版TOP100

爬取猫眼电影排行版TOP100相关推荐

最新文章

热门文章