Python 学习笔记---爬取海贼王动漫

最近无聊整理的爬虫代码，可以自动爬取腾讯动漫的任意漫画，思路如下：

1. 先获取想下载的动漫url，这里用了 getUrls ，直接获取动漫的最后一章

2. 然后进入到该动漫去获取要下载的图片url

3. 下载到本地

import os
import random
import time
from random import randintfrom bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver import DesiredCapabilities
import urllib.request as urllib2ROOT_URL = "http://ac.qq.com"
target_url = [ROOT_URL + "/Comic/comicInfo/id/505430",  # 海贼王
]
ua_list = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11","Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
]user_agent=random.choice(ua_list)
dir_path="D:/py/海贼王/"def getImageUrls(comic_url):'''通过Selenium和Phantomjs获取动态生成的数据'''urls = []dcap = dict(DesiredCapabilities.PHANTOMJS)dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/4.0 (compatible; MSIE 5.5; windows NT)")browser = webdriver.PhantomJS(executable_path=r"E:\py\littlepy\tencent_cartoon\phantomjs-2.1.1-windows\bin\phantomjs.exe",desired_capabilities=dcap)browser.get(comic_url)imgs = browser.find_elements_by_xpath("//div[@id='mainView']/ul[@id='comicContain']//img")for i in range(0, len(imgs) - 1):if i == 1:  # 略过广告图片continueurls.append(imgs[i].get_attribute("src"))js = 'window.scrollTo( 800 ,' + str((i + 1) * 1280) + ')'browser.execute_script(js)time.sleep(randint(3, 6))browser.quit()print("urls=",urls)return urlsdef getUrls(comic_url):result = dict()req = urllib2.Request(comic_url)req.add_header('User-Agent', user_agent)print("url=",comic_url)response = urllib2.urlopen(req)soup = BeautifulSoup(response, "lxml")#print("soup=",soup)# 返回最近漫画中的最新20话page = soup.find(attrs={"class": "chapter-page-new works-chapter-list"}).find_all("a")  # 全部漫画 chapter-page-new works-chapter-listtitle = page[-1]['title']result[title] = ROOT_URL + page[-1]['href']print("title=",title)print("result=",result[title])return title,result[title]def downloadComics(dir_path, urls):for url in urls:urllib2.urlretrieve(url, dir_path + url[-8:-2])#print("url=",url[-9:-2])if __name__ == "__main__":title,result_url=getUrls(target_url[0])urls=getImageUrls(result_url)path=dir_path+title+"/"isExists = os.path.exists(path)if not isExists:os.makedirs(path)print(path + '    创建成功')downloadComics(path,urls)

转载于:https://www.cnblogs.com/Ronaldo-HD/p/9708060.html

Python 学习笔记---爬取海贼王动漫相关推荐

python海贼王logo_Python 学习笔记---爬取海贼王动漫
最近无聊整理的爬虫代码,可以自动爬取腾讯动漫的任意漫画,思路如下: 1. 先获取想下载的动漫url, 这里用了 getUrls ,直接获取动漫的最后一章 2. 然后进入到该动漫去获取要下载的图片url ...
Python学习笔记-爬取B站电视剧《风犬少年的天空》弹幕并分析
爬取B站电视剧<风犬少年的天空>弹幕并分析写在前面开始! 简单分析一下弹幕数据蠢并痛苦着的学习过程... 干(烂)货环节-------弹幕的获取与整理关于cid的获取关于弹幕上限 ...
Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...
[python学习] 简单爬取维基百科程序语言消息盒
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...
python学习之爬取ts流电影
爬取ts流电影文件记录需求程序结构目录编写代码基本思路代码编写优化需求 **前言**最近学习Python,语法规则.变量等也看完了,但是觉得啥也没记住,打开py不知道写啥,只能print ...
爬虫学习笔记--爬取静态网页
声明:我这里是学习唐松老师的<Python网络爬虫从入门到实践>的学习笔记只是记录我自己学习的过程详细内容请购买老师正版图书 import requestsr = requests ...
python学习：爬取房源信息
最近挤时间了解了一下python."纸上谈兵终觉浅绝知此事要躬行",只有实际操作才能加深印象.这里参考这篇:https://www.cnblogs.com/gkf0103/p/7 ...
利用img请求一个html页面,爬虫学习笔记——爬取单个网页里的所有图片（入门）...
最近闲着,想学一下爬虫 (^-^)V --[手动比耶]先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多电 ...
python学习实践--爬取猫眼电影排行
爬取前一定要注意观察网站的url地址,如果是分页的话,找出每一页不同的地址规律,同时,尽量在network选项卡部分查看网页源代码,否则源码可能经过JavaScript操作与原始请求不同. 抓取站点 ...

Python 学习笔记---爬取海贼王动漫

Python 学习笔记---爬取海贼王动漫相关推荐

最新文章

热门文章