前言

对于使用静态网页的小说网站, 小说的文本内容往往分配在一个<div里, 我们往往可以从这点入手.

PS: 应该也只有盗版网站会这么毫无防备吧ORZ

那就开始吧~

前期准备

安装python3.7¹
安装requests, BeautifulSoup4(或者说bs4?)
安装chrome浏览器
掌握Python基础语法²

流程分析

请求URL指向的页面->获取网页内容
设定筛选条件->获取指定内容
写入本地文件

检查网站代码

ctrl +shift +c, 检查网页源代码³, 得知章节地址
F12, ctrl+shift+i , 右键-检查, 等等均可查看

根据章节地址跳转页面
检查章节页面, 得知章节文本内容

4.代码实现

# coding=utf-8
# **************************Declaration**************************
# @File name:        Crawler
# @Function:         Download Single Novel
# @Author:           Ogiso Kazusa
# @Date:             2018/11/14
# @Version Number:   1.0
# ******************************end******************************#导入模块
import requests
from bs4 import BeautifulSoup#小说网页目录地址, 准备遍历全部章节地址
index_url='https://www.88dush.com/xiaoshuo/27/27584/'#获取页面内容
index_req=requests.get(index_url)
index_html=index_req.content
page_main=BeautifulSoup(index_html,"lxml")#创建D盘根目录文件“单本下载.txt”，
#格式为ab+:向二进制文件末添加数据，且允许读；
fo=open("D:\\单本下载.txt","ab+")#获取div , class="mulu" 包含的内容
chap_BS=page_main.find("div",{"class":"mulu"})#生成器对象
for child in chap_BS.ul.children:if child!="\n":#href：目标url的属性名chap_url=index_url+child.a.get("href")#素质三联，获取lxml文档chap_req=requests.get(chap_url)chap_html=chap_req.content.decode("gbk")soup_text=BeautifulSoup(chap_html,"lxml")#寻找div段落，class=yd_text2的属性块内容chap_text=soup_text.find("div",{"class":"yd_text2"})#.text指获取文字内容，\r\n是指写入文件中的换行符, ==fo.write((child.string+ "\r\n"+chap_text.text+"\r\n").encode('utf-8'))print(child.string+'\t已下载')
fo.close()

最后

Enjoy it !

笔者环境：pycharm+python3.7 ↩︎
可以尝试菜鸟教程-Python 3 教程 ↩︎
本教程仅供参考, 保护创作者版权, 提倡付费阅读, 从我做起 ↩︎

Python爬虫（一）：简单小说爬取实例相关推荐

python爬虫初战之小说爬取
废话不多说,上代码. 总体思路是构建函数然后循环. 函数分两块,第一个函数得到标题和每一章节的网址,第二个函数得到每一章节的具体内容,然后循环就ok. import urllib.request as ...
基于python，实现简单的爬取基金净值的爬虫
Python 基金爬虫基于python,实现简单的爬取基金净值的爬虫基于python,实现简单的爬取基金净值的爬虫基于python的requests和进程池实现了简单的基金数据爬取脚本: imp ...
python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
Python爬虫包 BeautifulSoup 递归抓取实例详解
Python爬虫包 BeautifulSoup 递归抓取实例详解概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到另 ...
python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
python爬虫实战之异步爬取数据
python爬虫实战之异步爬取数据文章目录前言一.需求二.使用步骤 1.思路 2.引入库 3.代码如下总结前言 python中异步编程的主要三种方法:回调函数.生成器函数.线程大法. 以进 ...
python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
python爬虫豆瓣影评的爬取cookies实现自动登录账号
python爬虫豆瓣影评的爬取cookies实现自动登录账号频繁的登录网页会让豆瓣锁定你的账号-- 网页请求使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

Python爬虫（一）：简单小说爬取实例

前言

前期准备

流程分析

检查网站代码

4.代码实现

最后

Python爬虫（一）：简单小说爬取实例相关推荐

最新文章

热门文章