# -*- coding: utf-8 -*-
"""
Created on Sun Dec 12 18:56:30 2021@author: davis
"""#试一下输入豆瓣网址然后就能自动分析网页上的书名/电影名和评分进行统计import urllib.request
import redef openurl(url):proxy_support=urllib.request.ProxyHandler({'http':'182.84.144.73'})#找一个代理ipopener = urllib.request.build_opener(proxy_support)#定义一个openeropener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0')]#opener的一个headersurllib.request.install_opener(opener)head={}head['Connection']='close'req=urllib.request.Request(url) #先request得到对象response=urllib.request.urlopen(req) #然后得到response对象html=response.read().decode('utf-8')#然后进行解码得到我们要的格式return htmldef get_book(html):p=r'<span class="title">[^/]+<'#正则表达式,规定了我需要爬取的链接的格式,正则表达式,加括号没影响,多个括号代表多个条件#我一直以为[^"]的意思是任何字符,结果不是的, 意思是不包含"的任何字符,只要改成不包含反斜杠,就会搜索到电影名为止了moviename=re.findall(p,html)q=r'property="v:average">[0-9]\.[0-9]<'moviescore=re.findall(q,html)for j in range(0,25):text1=str(moviename[j])text11=text1.lstrip('<span class="title">')text12=text11.rstrip('<')text2=str(moviescore[j])text21=text2.lstrip('property="v:average">')text22=text21.rstrip('<')with open('C://Users/刘子豪/Desktop/doubanmovie.txt','a',encoding='utf-8') as f:#在python当中需要用到的路径符号是反斜杠,a是继续写,w是覆盖text = '\n'+text12+'    '+text22f.write(text)def get_page(html):page=r'start=[0-9]{2,3}' #Newer Comments" href="https://book.douban.com/top250?start=25page_list=re.findall(page,html)page_url='https://movie.douban.com/top250?'+page_list[-2]#他这个本来都是取第一个,不对不对,豆瓣应该有额外的规则return page_urlif __name__ == '__main__':url = 'https://movie.douban.com/top250?start=0'i=0while i != 10:html=openurl(url)get_book(html)url=get_page(html)i=i+1

爬取豆瓣电影top250的脚本相关推荐

  1. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

  2. 案例:爬取豆瓣电影Top250中的电影信息

    案例:爬取豆瓣电影Top250中的电影信息 豆瓣电影Top250首页 分析请求地址 在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏 ...

  3. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  4. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  5. python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250

    今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...

  6. 爬取豆瓣电影Top250影片信息

    爬取豆瓣电影Top250影片信息 查看影片的详细信息 爬取过程 需安装的包 确定爬取地址 发送请求头 解析数据 保存数据 完整代码 查看影片的详细信息 进入豆瓣电影Top250,选择某一影片,右击,选 ...

  7. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  8. 03_使用scrapy框架爬取豆瓣电影TOP250

    前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息.其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中.本次爬取的内容实则不难.主要是熟悉scrapy相关 ...

  9. jsoup爬取豆瓣电影top250

    文章目录 0.准备工作 1. 分析 2. 构思 3. 编程 3.1 定义一个bean,用于保存电影的数据 3.2 按照之前的构思进行编程 4.效果图 5.获取资源 5.1GitHub 5.2百度云 0 ...

最新文章

  1. 一文拆解中国火星车着陆全过程
  2. boost::timer
  3. 转:Swing中的线程探究
  4. 骑士人才linux伪静态,骑士人才CMS伪静态规则
  5. 汇编:以字符形式给出数据
  6. datasnap的线程池
  7. Apache Hudi x Pulsar Meetup杭州站火爆来袭,实践干货就等你来!
  8. STL vector 容器介绍
  9. netty里集成spring注入mysq连接池(二)
  10. php get_token_all函数,pimcore getObjectByToken函数PHP对象注入漏洞
  11. AD域控制器所有使用的端口明细列表
  12. ML--HMM(隐马尔可夫模型及python的实现2)
  13. Matlab里面如何实现多行注释
  14. 2022年下半年软考考哪个科目?看完就懂了
  15. esp8266 安信可AiThinkerIDE_V1.5.2开发环境搭建
  16. 《富爸爸穷爸爸》阅读笔记
  17. 【软件测试】04 -- 软件测试与软件开发
  18. Mendix装备制造业应用 | 质量统计分析人工智能应用APP
  19. MySQL最新通俗易懂
  20. win10查看显卡的运算能力

热门文章

  1. 面向 IoT 物联网的架构设计参考
  2. 安装python-prctl报错
  3. linux 端口复用后门,一条命令实现端口复用后门
  4. Flutter开发(三十):Flutter简单app搭建
  5. 如何基于IT事件全生命管理周期,提升业务连续性?
  6. 湖南人说他美女多,四川人就笑了
  7. HC595简单原理及proteus仿真(一)草履虫能听懂版
  8. Spring: Feign原理解析
  9. HRM人力资源系统-Day07-RabbitMQ java操作
  10. 关于 Java 同名类加载顺序问题排查方案