任务:爬取豆瓣高分电影信息

import requests
from bs4 import BeautifulSoup
import pprint
import json

#构造分页数字列表

page_indexs = range(0, 250, 25)        #网页每页25 共10页 所以用range的方法

list(page_indexs)

def download_all_htmls():

#下载所有页面的html

htmls = []
    for idx in page_indexs:
        url = f"https://movie.douban.com/top250?start={idx}&filter="
        print("craw html:", url)
        r = requests.get(url,headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
)

#红色字体是本来不用的,但因为调试不出来 在网上的方法 可能是电脑版本的问题
        if r.status_code !=200:
            raise Exception("error")
        htmls.append(r.text)
    return htmls

htmls = download_all_htmls()      #执行爬取

htmls[0]

#解析HTML得到所需数据

def parse_single_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    article_items = (
        soup.find("div", class_="article")
            .find("ol", class_="grid_view")
            .find_all("div", class_="item")
    )
    datas = []
    for article_item in article_items:
        rank = article_item.find("div", class_="pic").find("em").get_text()
        info = article_item.find("div", class_="pinfo")
        title = info.find("div", class_="hd").find("span", class_="title").get_text()
        stars = (
            info.find("div", class_="bd")
                .find("div", class_="star")
                .find_all("span")
        )
        rating_star = stars[0]["class"][0]
        rating_num = stars[1].get_txt()
        comment = stars[3].get_txt()
        
        datas.append({
            "rank":rank,
            "title":title,
            "rating_star":rating_star.replace("rating","").replace("-t",""),
            "rating_num":rating_num,
            "comments":comments.replace("人评价","")
        })
        return datas

import pprint

pprint.pprint(parse_single_html(htmls[0]))

python爬虫练习(豆瓣电影)相关推荐

  1. python爬虫实战—豆瓣电影TOP250

    系列文章目录 python爬虫实战 前言 本文主要用python爬取豆瓣电影TOP250数据并将爬取到的数据保存到MySQL中.同时也介绍了该项目中遇到的问题. 爬取内容:电影名称,电影别名,导演,主 ...

  2. 第一期:【python爬虫】豆瓣电影top250

    1.首先看最后的爬取结果 还有电影的信息,我保存的是csv文件.可以学到爬虫的相关知识和数据保存的信息. 删除信息,直接上代码. 红色圆点旁边的是清空.(如上图所示) 下面请求中的第一个或者前几个(如 ...

  3. 实战python网络爬虫豆瓣_三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)...

    一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...

  4. 三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)

    一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...

  5. Python爬虫之豆瓣电影评论数据的爬取(十四)

    原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...

  6. Python爬虫获取豆瓣电影TOP250

    最近在学python,研究了下,写了两个爬虫成功爬取了一些东西.有一个很黄很暴力,就不放出来了,还有一个比较绿色,简单,适合初学者学习,思路也比较清晰,也方便我以后再捡起来,注释写的很清楚,特把源码放 ...

  7. xhr get获取文件流下载文件_python爬虫实战——豆瓣电影get初体验

    影评许可证 公众号[2019]第22期 本栏目由"数据皮皮侠"独家呈献 专场 python爬虫实战--豆瓣电影get初体验 2019.10.28 / 早上7点场 / 免费 本期&q ...

  8. 基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)

    目录 项目介绍 研究背景 国内外研究现状分析 研究目的 研究意义 研究总体设计 网络爬虫介绍 豆瓣电影数据的采集 数据预处理 大数据分析及可视化 豆瓣影评结构化分析 大屏可视化 文本可视化 总结 每文 ...

  9. python爬虫获取豆瓣图书Top250

    在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...

  10. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

最新文章

  1. oracle 监听数据交互
  2. 成就连自己都惊讶的未来
  3. Linux——线程(总结)
  4. 概率论面试系列第一弹: 贝叶斯公式
  5. 阿里云RPA(机器人流程自动化)干货系列之二:认识RPA(下)
  6. CF 1642 F. Two Arrays 随机 + sosdp
  7. java 获取随机数字的三种方法
  8. 【转】处事22计、心态24条、伤心50句、礼仪73、学会长大20!
  9. 如何选择和部署长尾关键词
  10. windows系统之Hook实例DIPS
  11. node2vec算法
  12. 利用R语言进行主成分分析的步骤
  13. 【20考研】考研数学 复习书籍推荐!
  14. Xcode13.3 13.2以及Flutter新版本的稳定性问题
  15. Orleans 2.0 官方文档 —— 3.1 核心概念 - 什么是grain
  16. 杰理之实验现象【篇】
  17. 计算机怎么调节音乐模式,电脑音频管理器怎么设置,教你电脑音频管理器怎么设置...
  18. python3 unicode字符串类型_Python str与unicode类型
  19. LINUX信息安全系统设计基础第一周学习总结
  20. 学习笔记-会话技术CookieSession

热门文章

  1. 华为Mate Xs 2发布,持续引领折叠屏手机创新
  2. 71_大学的计算机课程有用吗
  3. Yan Goodfellow 在生成对抗网络(GANs)论文中提到的比喻 “the Helvetica Scenario” 的解释及其来龙去脉
  4. doPDF虚拟打印机-把任何文档转换成pdf的利器
  5. 虚拟化的成本计算实例
  6. 软件测试面试题目精选之浦发银行
  7. akka+java实现_使用Akka实现并发
  8. 血糖 miaomiao_血糖和COVID-19
  9. 数据分类分级究竟是什么
  10. Google浏览器插件之闪存过滤器