利用python爬虫下载小说

回想当初自学Python很大一部分原因是想要自己爬数据，今天终于学会了怎么下载小说。于是搞了一波《球状闪电》。

需要用到两个库：requests 和 BeautifulSoup，用 pip 安装即可。

主要的步骤是：

利用 requests.get(url) 获取网页信息。注意如果中文出现乱码，就加上 edcoding = '*'，其中星号代表 html 解码方式，通常在 head 里面的 charset 可以找到。
通过审查元素找到想要抓取内容的路径（右击正文部分打开检查即可）
利用 find_all() 抓取有用信息，并进行过滤

但最后效果是换行有点多，格式有些乱。我用 text.replace() 也没用，可能换行符不大一样吧。

同志还需努力。

import requests, sys
from bs4 import BeautifulSoupdef get_contents(target):   # 获取章节内容req = requests.get(url = target)req.encoding = 'GB2312'html = req.textbf = BeautifulSoup(html, features = "lxml")texts = bf.find_all('div', id = 'content')texts = texts[0].text.replace('\n\n', '\n')    #去不掉多余换行？return textsdef writer(name, path, text):   # 写入 pathwrite_flag = Truewith open(path, 'a', encoding = 'utf-8') as f:f.write(name + '\n')f.writelines(text)f.write('\n\n')if __name__ == "__main__":# 获取目录names, urls = [], []req = requests.get(url = 'http://book.sbkk8.com/xiandai/liucixinzuopinji/qiuzhuangshandian')req.encoding = 'GB2312'html = req.textbf = BeautifulSoup(html, features = "lxml")content = bf.find_all('div', class_ = 'mulu')atmp = BeautifulSoup(str(content[0]), features = "lxml")a = atmp.find_all('a')  # 返回一个listnum = len(a)for u in a:     # 每章名称和链接names.append(u.string)urls.append('http://book.sbkk8.com/' + u.get('href'))print("Downloading...")for i in range(num):writer(names[i], 'Ball-lightning.txt', get_contents(urls[i]))print("%.2f%% has been downloaded" % float(100.0*i/num), end = '\r') print("100.00% has been downloaded\nFinish")

利用python爬虫下载小说相关推荐

利用Python爬虫下载王者荣耀教学视频
前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...
python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...
python爬虫下载小说_python 爬取小说并下载的示例
代码 import requests import time from tqdm import tqdm from bs4 import BeautifulSoup """ ...
Python 简单爬虫下载小说txt
Python 简单爬虫下载小说txt #第一次写爬虫代码欢迎交流指正我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜
利用python爬虫实现爬取网易云音乐热歌榜发布时间:2020-11-09 16:12:28 来源:亿速云阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...
小游戏，利用Python爬虫之制作诗歌接龙
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:数据森麟 ( 想要学习Python?Python学习交 ...
手把手教你利用 python 爬虫分析基金、股票
手把手教你利用 python 爬虫分析基金.股票文章目录手把手教你利用 python 爬虫分析基金.股票第一步:基金数据爬取第二步:股票增持计算第三步:好股基金选取桌面程序 exe 从前大 ...
python爬虫下载影视网站的电影
python爬虫下载影视网站的电影我这边选取了vip网站 F12打开调试抓包模式搜索影片的名称, 观察看看给那个url地址发送了请求, 我看到了这个请求需要携带发送数据而这个数据就是我们要的影 ...

利用python爬虫下载小说

利用python爬虫下载小说相关推荐

最新文章

热门文章