爬取豆瓣电影top250的脚本

# -*- coding: utf-8 -*-
"""
Created on Sun Dec 12 18:56:30 2021@author: davis
"""#试一下输入豆瓣网址然后就能自动分析网页上的书名/电影名和评分进行统计import urllib.request
import redef openurl(url):proxy_support=urllib.request.ProxyHandler({'http':'182.84.144.73'})#找一个代理ipopener = urllib.request.build_opener(proxy_support)#定义一个openeropener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0')]#opener的一个headersurllib.request.install_opener(opener)head={}head['Connection']='close'req=urllib.request.Request(url) #先request得到对象response=urllib.request.urlopen(req) #然后得到response对象html=response.read().decode('utf-8')#然后进行解码得到我们要的格式return htmldef get_book(html):p=r'<span class="title">[^/]+<'#正则表达式，规定了我需要爬取的链接的格式,正则表达式，加括号没影响，多个括号代表多个条件#我一直以为[^"]的意思是任何字符，结果不是的， 意思是不包含"的任何字符，只要改成不包含反斜杠，就会搜索到电影名为止了moviename=re.findall(p,html)q=r'property="v:average">[0-9]\.[0-9]<'moviescore=re.findall(q,html)for j in range(0,25):text1=str(moviename[j])text11=text1.lstrip('<span class="title">')text12=text11.rstrip('<')text2=str(moviescore[j])text21=text2.lstrip('property="v:average">')text22=text21.rstrip('<')with open('C://Users/刘子豪/Desktop/doubanmovie.txt','a',encoding='utf-8') as f:#在python当中需要用到的路径符号是反斜杠,a是继续写，w是覆盖text = '\n'+text12+'    '+text22f.write(text)def get_page(html):page=r'start=[0-9]{2,3}' #Newer Comments" href="https://book.douban.com/top250?start=25page_list=re.findall(page,html)page_url='https://movie.douban.com/top250?'+page_list[-2]#他这个本来都是取第一个，不对不对，豆瓣应该有额外的规则return page_urlif __name__ == '__main__':url = 'https://movie.douban.com/top250?start=0'i=0while i != 10:html=openurl(url)get_book(html)url=get_page(html)i=i+1

爬取豆瓣电影top250的脚本相关推荐

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
案例：爬取豆瓣电影Top250中的电影信息
案例:爬取豆瓣电影Top250中的电影信息豆瓣电影Top250首页分析请求地址在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏 ...
利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
爬取豆瓣电影Top250影片信息
爬取豆瓣电影Top250影片信息查看影片的详细信息爬取过程需安装的包确定爬取地址发送请求头解析数据保存数据完整代码查看影片的详细信息进入豆瓣电影Top250,选择某一影片,右击,选 ...
Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息前言一.简介二.实例源码展示小结前言相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
03_使用scrapy框架爬取豆瓣电影TOP250
前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息.其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中.本次爬取的内容实则不难.主要是熟悉scrapy相关 ...
jsoup爬取豆瓣电影top250
文章目录 0.准备工作 1. 分析 2. 构思 3. 编程 3.1 定义一个bean,用于保存电影的数据 3.2 按照之前的构思进行编程 4.效果图 5.获取资源 5.1GitHub 5.2百度云 0 ...

爬取豆瓣电影top250的脚本

爬取豆瓣电影top250的脚本相关推荐

最新文章

热门文章