多线程爬取豆瓣电影top250

之前写过一篇有关多线程爬虫的文章，里面对分析过程进行了详细的介绍，所以这里就不对过程进行分析了，如果你是刚接触爬虫的新手的话可以参考一下我之前写的爬虫：
https://blog.csdn.net/weixin_40481076/article/details/101312325
本次爬虫的目标网站:https://movie.douban.com/top250?
爬取信息：top250页面电影排名和电影名字、图片url，将图片下载下来，以电影排名+‘—’+电影名字命名图片

代码
程序实现多线程采用的是继承threading.Thread类重写一个新的线程类，爬虫的主要逻辑写在run方法里面。

import os
import threading
import urllib
import lxml
import requests
from lxml import etree'''多线程爬取豆瓣电影top250
'''class ConsumerThread(threading.Thread):def __init__(self,startUrl,headers,startNum,endNum,path,tname):threading.Thread.__init__(self)self.startUrl=startUrlself.headers=headersself.startNum=startNumself.endNum=endNumself.path=pathself.tname=tnamedef run(self):for page in range(self.startNum, self.endNum + 25, 25):res = request_page(self.startUrl + str(page), self.headers)# res.encoding = 'utf-8'#print(res)try:res = lxml.etree.HTML(res)for div in res.xpath("//div[@class='item']"):try:num=div.xpath('./div[1]/em[1]/text()')[0]name = div.xpath('./div[2]/div[1]/a[1]/span[1]/text()')[0]  # .extract()[0]imageUrl = div.xpath('./div[1]/a[1]/img[1]/@src')[0]  # .extract()[0]print(name)print(imageUrl)# introduce=div.xpath('./div[2]/div[2]/p[1]/text()').extract()[0]# dic = dict(zip('num','name','introduce','imageUrl'),[num,name,introduce,imageUrl])print('线程' + self.tname + '正在下载图片')print('')download_pic(imageUrl, str(num)+'---'+name, self.path)except Exception as e:print(str(e))continueexcept Exception as e:print(str(e))continuedef request_page(startUrl,headers):try:res=requests.get(startUrl,headers=headers)   #去掉headersres.encoding="utf-8"if res.status_code == 200:return res.textexcept requests.RequestException:return Nonedef get_headers():headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',# 'Accept-Encoding': 'gzip, deflate, br',   #导致页面乱码'Accept-Language': 'zh-CN,zh;q=0.9','Connection': 'keep-alive','Host': 'movie.douban.com','Referer': 'https://movie.douban.com/top250?start=0&filter=','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}return headers# def makeFile(path,fileName,):
#     if not os.path.exists(path):
#         os.makedirs(path)def download_pic(url,name,path):if not os.path.exists(path):os.makedirs(path)try:res=urllib.request.urlopen(url,timeout=5).read()with open(path+name+'.jpg','wb') as file:file.write(res)file.close()except Exception as e:print(str(e))if __name__ == '__main__':url = 'https://movie.douban.com/top250?start='header=get_headers()thread1 = ConsumerThread(url,header,0,100,'d:/download/豆瓣电影top250AA/','A')thread2 = ConsumerThread(url,header,125,225,'d:/download/豆瓣电影top250BB/','B')thread1.start()thread2.start()thread1.join()thread2.join()print('*'*10+'下载完成！'+'*'*10)'''https://movie.douban.com/top250?start=
'''

多线程爬取豆瓣电影top250相关推荐

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
案例：爬取豆瓣电影Top250中的电影信息
案例:爬取豆瓣电影Top250中的电影信息豆瓣电影Top250首页分析请求地址在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏 ...
利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
爬取豆瓣电影Top250影片信息
爬取豆瓣电影Top250影片信息查看影片的详细信息爬取过程需安装的包确定爬取地址发送请求头解析数据保存数据完整代码查看影片的详细信息进入豆瓣电影Top250,选择某一影片,右击,选 ...
Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息前言一.简介二.实例源码展示小结前言相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
03_使用scrapy框架爬取豆瓣电影TOP250
前言: 本次项目是使用scrapy框架,爬取豆瓣电影TOP250的相关信息.其中涉及到代理IP,随机UA代理,最后将得到的数据保存到mongoDB中.本次爬取的内容实则不难.主要是熟悉scrapy相关 ...
jsoup爬取豆瓣电影top250
文章目录 0.准备工作 1. 分析 2. 构思 3. 编程 3.1 定义一个bean,用于保存电影的数据 3.2 按照之前的构思进行编程 4.效果图 5.获取资源 5.1GitHub 5.2百度云 0 ...

多线程爬取豆瓣电影top250

多线程爬取豆瓣电影top250

多线程爬取豆瓣电影top250相关推荐

最新文章

热门文章