一 工具准备

我用的是Anaconda+PyCharm的组合
如何安装使用看这篇教程就够了:
URL: https://blog.csdn.net/yggaoeecs/article/details/78378938
非常详细。

二 简单爬取

1 安装requests及BeautifulSoup库

在pyCharm的终端(Terminal)中输入:

pip install requests //安装requests库
pip install BeautifulSoup //安装Beautiful库
pip list //查看这两个库是否安装成功

2 requests库的使用

详细使用方法请参阅官方中文教程地址:
URL: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

这里我们主要用到的是requests.get()方法,这是获取HTML网页的主要方法,对应于HTTP的GET,requests.get()方法实际上就是模仿浏览器向服务器发送GET请求,并从服务器获得数据。

下面以访问笔趣看主页为例展示requests.get()方法的使用:

import requests #首先需要导入requests库
target = 'https://www.biqukan.com/'#将笔趣看网址保存为字符串变量
req = requests.get(url=target)#使用requests.get()方法获取笔趣看网址主页页面内容
print(req.text)#以文本方式在屏幕上打印出来

运行结果如下:

<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
<title>笔趣阁,新笔趣阁小说阅读网,笔趣阁打不开就来 - 笔趣看小说网</title>
<meta name="keywords" content="笔趣阁,新笔趣阁" />
<meta name="description" content="笔趣阁是广大书友比较喜欢的小说阅读网,而笔趣看则是笔趣阁小说阅读网的备份网站,收录了当前最热门、最火爆的小说,笔趣阁打不开就来笔趣看小说网!2016新笔趣阁欢迎收藏!" />
<meta http-equiv="Cache-Control" content="no-transform" />
<meta http-equiv="Cache-Control" content="no-siteapp" />
<meta http-equiv="mobile-agent" content="format=html5; url=https://m.biqukan.com" />
<meta http-equiv="mobile-agent" content="format=xhtml; url=https://m.biqukan.com" />
<link href="/css/style.css" rel="stylesheet" type="text/css" />
<script src="/xxgg/common.js"></script>

至此。我们获得了笔趣看主页的HTML信息。

3 BeautifulSoup库的使用

详细使用方法请参阅官方中文教程地址:
URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/
爬虫的第一步,获取整个网页的HTML信息,我们已经完成。接下来就是爬虫的第二步,解析HTML信息,提取我们感兴趣的内容。
在google chrome浏览器中我们可以看到与requests.get()方法得到的相同的HTML信息,具体查看方法如下:
(1)首先打开开发者模式
(2)在开发者模式中找到感兴趣的内容
(3)找到HTML网页信息中的关键字

文章的所有内容都放在了一个名为div的“东西下面”,这个”东西”就是html标签。HTML标签是HTML语言中最基本的单位,HTML标签是HTML最重要的组成部分。
关键字部分:

<div id="content", class="showtxt">

根据关键字部分,我们就可以使用Beautiful Soup提取我们想要的内容了,编写代码如下:

import requests
from bs4 import BeautifulSoup
target = 'https://www.biqukan.com/1_1094/5403177.html'
req = requests.get(url=target)
html = req.text
soup = BeautifulSoup(html, 'html.parser')
texts = soup.select('.showtxt')//根据关键字中的class,应用BeautifulSoup的select()方法可以得到小说正文的内容。
print(texts[0].text.replace(' ', '\n').replace('\xa0'*8, '\n'))

得到结果如下:

正文内容已经被抓取并且打印在输出中。

三 整合代码

这部分有空再填坑吧,哈哈哈

Python3网络爬虫(一)-小说爬取(以笔趣看网站小说为例)相关推荐

  1. Python3网络爬虫,简单爬取网络小说并下载

    相信我们常常会有想看的小说,但是不能下载,导致无法在没网的环境下观看..下面将解一下如何用python3爬取网络小说. 本文主要是用于学习,希望大家支持正版. 首先我们需要两个包,我们分别是reque ...

  2. [Python3网络爬虫开发实战] -爬取电影排行数据

    爬取猫眼电影排行 利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容,选用正则表达式来作为解析工具. 主要目标 提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取的 ...

  3. python3.6爬虫案例:爬取朝秀帮图片

    一.写在前面 之前写的两篇博客: python3.6爬虫案例:爬取百度歌单点击打开链接: python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)点击打开链接 第一个案例写了如何在百度音乐歌单中 ...

  4. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

  5. [day1]python网络爬虫实战:爬取美女写真图片

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  6. [day2]python网络爬虫实战:爬取美女写真图片(增强版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  7. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

  8. python3.6爬虫案例:爬取某网站所有PPT(上)。

    写在前面   这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT.不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋.闲话不多说,进入正题. 先 ...

  9. 网络爬虫之scrapy爬取某招聘网手机APP发布信息

    1 引言 过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧.目前主流的招聘网站包括前程无忧.智联.BOSS直聘.拉勾等等.有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位 ...

  10. python3 scrapy 爬虫实战之爬取站长之家

    爬取目标 站长之家:http://top.chinaz.com/all/ 爬取工具 win10 python3 scrapy BeautifulSoup 爬取内容 1 网站缩略图 2 网站名称 3 网 ...

最新文章

  1. Java线程之核心概念
  2. javascript:闭包的总结
  3. EF Core的一个紧急bug,我这样修改
  4. 做一个关于我和她微信聊天记录的爱心词云图
  5. 2. 知识图谱-命名实体识别(NER)详解
  6. JAVA基础(2/17)-基本语法_数据类型
  7. 简单易懂的Kubernetes(K8S)之Pod资源管理与harbor创建
  8. 在windows如何操控一些屌炸天的linux命令[利刃篇]
  9. SpringBoot 获取 Yml 配置 信息 Environment
  10. 机器学习方法提高静态图片清晰度
  11. 磨金石教育是正规的吗?插画好学吗?学习插画有哪些小技巧?
  12. RequireJS - 用法
  13. 计算机软考设计师中级真题
  14. git拉取代码报错fatal Authentication failed for ‘httpxxxx.git‘‘解决方案
  15. PPI网络比对文章汇总
  16. 马云:30年后每对年轻人要养8个老人 管理5套房子
  17. 基于单片机的晾衣架仿真设计(#0053)
  18. linux下伪终端的使用,Linux运维培训 Linux伪终端详解
  19. Excel多头表格,单元格备注导出
  20. Windows系统 Prefetch目录 *.pf 文件解析 -- 探索程序运行记录、保护隐私

热门文章

  1. error while trying to retrieving text
  2. APP上架应用市场需要准备什么材料
  3. 人工智能的发展历史概览
  4. 人工智能发展与应用综述--(科普)
  5. paypal标准支付流程图
  6. CentOS 官网下载 iso 镜像
  7. 从句 Clauses
  8. mysql关系范式试题_数据库范式练习题
  9. python3  类中方法的调用
  10. 零数科技获评《互联网周刊》2021元宇宙潜力企业TOP50