Python爬虫(一):简单小说爬取实例
前言
- 对于使用静态网页的小说网站, 小说的文本内容往往分配在一个<div里, 我们往往可以从这点入手.
- PS: 应该也只有盗版网站会这么毫无防备吧ORZ
- 那就开始吧~
前期准备
- 安装python3.71
- 安装requests, BeautifulSoup4(或者说bs4?)
- 安装chrome浏览器
- 掌握Python基础语法2
流程分析
- 请求URL指向的页面->获取网页内容
- 设定筛选条件->获取指定内容
- 写入本地文件
检查网站代码
- ctrl +shift +c, 检查网页源代码3, 得知章节地址
- F12, ctrl+shift+i , 右键-检查, 等等均可查看
根据章节地址跳转页面
检查章节页面, 得知章节文本内容
4.代码实现
# coding=utf-8
# **************************Declaration**************************
# @File name: Crawler
# @Function: Download Single Novel
# @Author: Ogiso Kazusa
# @Date: 2018/11/14
# @Version Number: 1.0
# ******************************end******************************#导入模块
import requests
from bs4 import BeautifulSoup#小说网页目录地址, 准备遍历全部章节地址
index_url='https://www.88dush.com/xiaoshuo/27/27584/'#获取页面内容
index_req=requests.get(index_url)
index_html=index_req.content
page_main=BeautifulSoup(index_html,"lxml")#创建D盘根目录文件“单本下载.txt”,
#格式为ab+:向二进制文件末添加数据,且允许读;
fo=open("D:\\单本下载.txt","ab+")#获取div , class="mulu" 包含的内容
chap_BS=page_main.find("div",{"class":"mulu"})#生成器对象
for child in chap_BS.ul.children:if child!="\n":#href:目标url的属性名chap_url=index_url+child.a.get("href")#素质三联,获取lxml文档chap_req=requests.get(chap_url)chap_html=chap_req.content.decode("gbk")soup_text=BeautifulSoup(chap_html,"lxml")#寻找div段落,class=yd_text2的属性块内容chap_text=soup_text.find("div",{"class":"yd_text2"})#.text指获取文字内容,\r\n是指写入文件中的换行符, ==fo.write((child.string+ "\r\n"+chap_text.text+"\r\n").encode('utf-8'))print(child.string+'\t已下载')
fo.close()
最后
Enjoy it !
笔者环境:pycharm+python3.7 ↩︎
可以尝试 菜鸟教程-Python 3 教程 ↩︎
本教程仅供参考, 保护创作者版权, 提倡付费阅读, 从我做起 ↩︎
Python爬虫(一):简单小说爬取实例相关推荐
- python爬虫初战之小说爬取
废话不多说,上代码. 总体思路是构建函数然后循环. 函数分两块,第一个函数得到标题和每一章节的网址,第二个函数得到每一章节的具体内容,然后循环就ok. import urllib.request as ...
- 基于python,实现简单的爬取基金净值的爬虫
Python 基金爬虫 基于python,实现简单的爬取基金净值的爬虫 基于python,实现简单的爬取基金净值的爬虫 基于python的requests和进程池实现了简单的基金数据爬取脚本: imp ...
- python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
- Python爬虫包 BeautifulSoup 递归抓取实例详解
Python爬虫包 BeautifulSoup 递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到另 ...
- python爬虫股票市盈率_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
- Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- python爬虫实战之异步爬取数据
python爬虫实战之异步爬取数据 文章目录 前言 一.需求 二.使用步骤 1.思路 2.引入库 3.代码如下 总结 前言 python中异步编程的主要三种方法:回调函数.生成器函数.线程大法. 以进 ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
- python爬虫 豆瓣影评的爬取cookies实现自动登录账号
python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
最新文章
- 七日Python之路--第八天
- 芙蓉之约 , Serverless 技术实践营 3.25 成都站邀你来参加
- otis电梯服务器tt使用说明_南充私人电梯
- linux基础磁盘管理,Linux基础入门-文件系统操作与磁盘管理
- 笨方法“学习python笔记之变量及打印
- 转转Q1手机行情:iPhone13开始“飘香” 二手5G手机市场苹果占一半
- 戴尔电脑开机黑屏怎么办_电脑黑屏开不了机怎么办
- 蓝桥杯 ALGO-72 算法训练 成绩的等级输出
- 正态分布下含绝对值的期望求解 -- 待验证
- ES6学习笔记三(字符串)
- linux svn下载文件到本地
- hybird简介以及安卓应用hybird初体验
- DES算法的加解密原理(详细算法+样例Demo)
- Allegro导出pdf的两种方式
- Android视频播放器没声,Windows/Android/iOS全平台支持的视频播放器EasyPlayerPro,iOS版播放无音频问题如何解决?...
- USB转RS485代替PC/PPI通讯电缆
- freeswitch软电话配置、结合讯时网关,外线电话呼入、呼出配置
- VS注释提示英文变中文的方法
- 【前端技术】一篇文章搞掂:JS
- 全球与中国便携式彩色超声设备市场投资前景及发展趋势预测分析报告2022-2028年
热门文章
- Codeforces 940E Cashback
- Echart API
- 机器人控制器编程课程-教案04-综合
- 计算机网络实验八——聊天程序
- STM32F103—有关BH1750(GY-302)环境光强度传感器模块的代码
- SQL Server 2008 创建标量值函数、存储过程
- The 2020 ICPC Asia Shenyang Regional Programming Contest I题 Rise of Shadows(数论)
- [自动驾驶系列一]Introduction to Self-Driving Cars
- Verilog HDL高级数字设计 从零学习(一)
- 半物理仿真系统——EPB HIL系统解决方案