爬取豆瓣电影top250的脚本
# -*- coding: utf-8 -*-
"""
Created on Sun Dec 12 18:56:30 2021@author: davis
"""#试一下输入豆瓣网址然后就能自动分析网页上的书名/电影名和评分进行统计import urllib.request
import redef openurl(url):proxy_support=urllib.request.ProxyHandler({'http':'182.84.144.73'})#找一个代理ipopener = urllib.request.build_opener(proxy_support)#定义一个openeropener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0')]#opener的一个headersurllib.request.install_opener(opener)head={}head['Connection']='close'req=urllib.request.Request(url) #先request得到对象response=urllib.request.urlopen(req) #然后得到response对象html=response.read().decode('utf-8')#然后进行解码得到我们要的格式return htmldef get_book(html):p=r'<span class="title">[^/]+<'#正则表达式,规定了我需要爬取的链接的格式,正则表达式,加括号没影响,多个括号代表多个条件#我一直以为[^"]的意思是任何字符,结果不是的, 意思是不包含"的任何字符,只要改成不包含反斜杠,就会搜索到电影名为止了moviename=re.findall(p,html)q=r'property="v:average">[0-9]\.[0-9]<'moviescore=re.findall(q,html)for j in range(0,25):text1=str(moviename[j])text11=text1.lstrip('<span class="title">')text12=text11.rstrip('<')text2=str(moviescore[j])text21=text2.lstrip('property="v:average">')text22=text21.rstrip('<')with open('C://Users/刘子豪/Desktop/doubanmovie.txt','a',encoding='utf-8') as f:#在python当中需要用到的路径符号是反斜杠,a是继续写,w是覆盖text = '\n'+text12+' '+text22f.write(text)def get_page(html):page=r'start=[0-9]{2,3}' #Newer Comments" href="https://book.douban.com/top250?start=25page_list=re.findall(page,html)page_url='https://movie.douban.com/top250?'+page_list[-2]#他这个本来都是取第一个,不对不对,豆瓣应该有额外的规则return page_urlif __name__ == '__main__':url = 'https://movie.douban.com/top250?start=0'i=0while i != 10:html=openurl(url)get_book(html)url=get_page(html)i=i+1
爬取豆瓣电影top250的脚本相关推荐
- python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
- 案例:爬取豆瓣电影Top250中的电影信息
案例:爬取豆瓣电影Top250中的电影信息 豆瓣电影Top250首页 分析请求地址 在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏 ...
- 利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
- 爬取豆瓣电影Top250影片信息
爬取豆瓣电影Top250影片信息 查看影片的详细信息 爬取过程 需安装的包 确定爬取地址 发送请求头 解析数据 保存数据 完整代码 查看影片的详细信息 进入豆瓣电影Top250,选择某一影片,右击,选 ...
- Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
- 03_使用scrapy框架爬取豆瓣电影TOP250
前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息.其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中.本次爬取的内容实则不难.主要是熟悉scrapy相关 ...
- jsoup爬取豆瓣电影top250
文章目录 0.准备工作 1. 分析 2. 构思 3. 编程 3.1 定义一个bean,用于保存电影的数据 3.2 按照之前的构思进行编程 4.效果图 5.获取资源 5.1GitHub 5.2百度云 0 ...
最新文章
- 一文拆解中国火星车着陆全过程
- boost::timer
- 转:Swing中的线程探究
- 骑士人才linux伪静态,骑士人才CMS伪静态规则
- 汇编:以字符形式给出数据
- datasnap的线程池
- Apache Hudi x Pulsar Meetup杭州站火爆来袭,实践干货就等你来!
- STL vector 容器介绍
- netty里集成spring注入mysq连接池(二)
- php get_token_all函数,pimcore getObjectByToken函数PHP对象注入漏洞
- AD域控制器所有使用的端口明细列表
- ML--HMM(隐马尔可夫模型及python的实现2)
- Matlab里面如何实现多行注释
- 2022年下半年软考考哪个科目?看完就懂了
- esp8266 安信可AiThinkerIDE_V1.5.2开发环境搭建
- 《富爸爸穷爸爸》阅读笔记
- 【软件测试】04 -- 软件测试与软件开发
- Mendix装备制造业应用 | 质量统计分析人工智能应用APP
- MySQL最新通俗易懂
- win10查看显卡的运算能力