python爬虫练习（豆瓣电影）

任务：爬取豆瓣高分电影信息

import requests
from bs4 import BeautifulSoup
import pprint
import json

#构造分页数字列表

page_indexs = range(0, 250, 25) #网页每页25 共10页所以用range的方法

list(page_indexs)

def download_all_htmls():

#下载所有页面的html

htmls = []
for idx in page_indexs:
url = f"https://movie.douban.com/top250?start={idx}&filter="
print("craw html:", url)
r = requests.get(url,headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
)

#红色字体是本来不用的，但因为调试不出来在网上的方法可能是电脑版本的问题
if r.status_code !=200:
raise Exception("error")
htmls.append(r.text)
return htmls

htmls = download_all_htmls() #执行爬取

htmls[0]

#解析HTML得到所需数据

def parse_single_html(html):
soup = BeautifulSoup(html, 'html.parser')
article_items = (
soup.find("div", class_="article")
.find("ol", class_="grid_view")
.find_all("div", class_="item")
)
datas = []
for article_item in article_items:
rank = article_item.find("div", class_="pic").find("em").get_text()
info = article_item.find("div", class_="pinfo")
title = info.find("div", class_="hd").find("span", class_="title").get_text()
stars = (
info.find("div", class_="bd")
.find("div", class_="star")
.find_all("span")
)
rating_star = stars[0]["class"][0]
rating_num = stars[1].get_txt()
comment = stars[3].get_txt()

datas.append({
"rank":rank,
"title":title,
"rating_star":rating_star.replace("rating","").replace("-t",""),
"rating_num":rating_num,
"comments":comments.replace("人评价","")
})
return datas

import pprint

pprint.pprint(parse_single_html(htmls[0]))

python爬虫练习（豆瓣电影）相关推荐

python爬虫实战—豆瓣电影TOP250
系列文章目录 python爬虫实战前言本文主要用python爬取豆瓣电影TOP250数据并将爬取到的数据保存到MySQL中.同时也介绍了该项目中遇到的问题. 爬取内容:电影名称,电影别名,导演,主 ...
第一期：【python爬虫】豆瓣电影top250
1.首先看最后的爬取结果还有电影的信息,我保存的是csv文件.可以学到爬虫的相关知识和数据保存的信息. 删除信息,直接上代码. 红色圆点旁边的是清空.(如上图所示) 下面请求中的第一个或者前几个(如 ...
实战python网络爬虫豆瓣_三分钟教会你利用Python爬虫实现豆瓣电影采集（实战篇）...
一.项目背景豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...
三分钟教会你利用Python爬虫实现豆瓣电影采集（实战篇）
一.项目背景豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...
Python爬虫之豆瓣电影评论数据的爬取（十四）
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
Python爬虫获取豆瓣电影TOP250
最近在学python,研究了下,写了两个爬虫成功爬取了一些东西.有一个很黄很暴力,就不放出来了,还有一个比较绿色,简单,适合初学者学习,思路也比较清晰,也方便我以后再捡起来,注释写的很清楚,特把源码放 ...
xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验
影评许可证公众号[2019]第22期本栏目由"数据皮皮侠"独家呈献专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费本期&q ...
基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目（含数据库）
目录项目介绍研究背景国内外研究现状分析研究目的研究意义研究总体设计网络爬虫介绍豆瓣电影数据的采集数据预处理大数据分析及可视化豆瓣影评结构化分析大屏可视化文本可视化总结每文 ...
python爬虫获取豆瓣图书Top250
在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

python爬虫练习（豆瓣电影）

python爬虫练习（豆瓣电影）相关推荐

最新文章

热门文章