python小说爬虫实训报告_python之新手一看就懂的小说爬虫

晚上回来学学爬虫，记住，很多网站一般新手是爬不出来的，来个简单的，往下看：

import urllib.request

from bs4 import BeautifulSoup #我用的pycharm需要手动导入这个包的

import lxml　　#同上

def getHtml(url,headers):

req = urllib.request.Request(url=url, headers=headers)

res =urllib.request.urlopen(req)

html = res.read()

return html

def saveTxt(path,html):

f = open(path,‘wb‘)

f.write(html)

def praseHtml(currentURL,headers,path):

# html = html.decode(‘utf-8‘)

chapter = 0

flag = 1

while flag:

chapter = chapter+1

if chapter >= 30: #控制下载的数量，太多数据电脑要爆。

flag = 0 #停止下载

html = getHtml(currentURL,headers)

savePath = path +"\\"+str(chapter)+ ".txt"

f = open(savePath,"w")

soup =BeautifulSoup(html,"lxml") #注意这里是lxml格式，我第一次居然写成了html，不小心就会吃亏的

nameText = soup.find(‘h3‘,attrs={‘class‘:‘j_chapterName‘})

contentText = soup.find(‘div‘,attrs={‘class‘:‘read-content j_readContent‘})

result = nameText.getText()+‘\n‘+contentText.getText()

result = result.replace(‘ ‘,‘\n ‘)

f = open(savePath,"w")

f.write(result)

nextpage = soup.find(‘a‘,attrs={‘id‘:‘j_chapterNext‘})

if next :

currentURL = "http:" + nextpage[‘href‘]

else:

currentURL = None

flag = 0

def main():

url = "https://www.readnovel.com/chapter/22160402000540402/107513768840595159"

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘} #请求头自己可以再网页中查看 (f12->network->刷新)

path = "D:\\novel"

praseHtml(url,headers,path)

main()

python小说爬虫实训报告_python之新手一看就懂的小说爬虫相关推荐

python飞机大战实训报告200_飞机大战实训报告.doc
您所在位置:网站首页 > 海量文档 &nbsp>&nbsp行业资料&nbsp>&nbsp航空/航天飞机大战实训报告.doc22页本文档一共被下载: ...
python量化投资实训班_Python量化投资实训营
配合大鱼金融联手塑造清华导师领衔授课,全程在清华校园上课五天掌握Python量化投资必备技能 Python量化投资实训营五大课程亮点 1. 结构化课程与实战教学要深入学习量化投资,不仅需要学习 ...
python图书管理实训报告总结_图书管理系统心得-总结报告模板
图书管理系统心得为期两个星期的 c# 图书管理系统实习终于结束了,总算松了一口气,在这短短的两周时间内承受了很大的压力现在终于能够得到"释放"了, 感觉到很轻松. 回顾这两周 ...
python小说爬虫实训报告_1.2Python网络爬虫实践（1）爬取89文学网小说
import requests from bs4 import BeautifulSoup import time import os # 获取所有章节的链接 def get_novel_chapte ...
python网络爬虫实训报告-Python网络爬虫与文本数据分析
原标题:Python网络爬虫与文本数据分析在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学 ...
python爬虫实训心得_Python爬虫小结
原博文 2019-07-09 09:46 − 有些数据是没有专门的数据集的,为了找到神经网络训练的数据,自然而然的想到了用爬虫的方法开始采集数据.一开始采用了网上的一个动态爬虫的代码,发现爬取的图片大 ...
python爬虫实训日志_Python学习学习日志——爬虫《第一篇》（BeautifulSoup）
爬虫简介(学习日志第一篇) 一.爬虫介绍爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Pyyhon爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.U ...
python绘制哆啦a梦实训报告_python画哆啦A梦和大雄
最近从后台收到的消息来看,不少读者对 python 的 turtle 这个库感兴趣,也收到了读者想用 python 画各种图的各种需求.和一些读者沟通后才知道是学校布置了相关的作业,或者是自己想用这个 ...
python爬虫实训心得_python爬虫的一些心得
爬虫用于从网上得到目标数据,根据需要对其予以利用,加以分析,得到想要的实验成果.现在讲一讲我这两天学到的东西. 第一,爬虫的算法结构,包括以下几个方面: (1)读取网络数据 (2)将获取的数据解析为目 ...

python小说爬虫实训报告_python之新手一看就懂的小说爬虫

python小说爬虫实训报告_python之新手一看就懂的小说爬虫相关推荐

最新文章

热门文章