晚上回来学学爬虫,记住,很多网站一般新手是爬不出来的,来个简单的,往下看:

import urllib.request

from bs4 import BeautifulSoup #我用的pycharm需要手动导入这个包的

import lxml  #同上

def getHtml(url,headers):

req = urllib.request.Request(url=url, headers=headers)

res =urllib.request.urlopen(req)

html = res.read()

return html

def saveTxt(path,html):

f = open(path,‘wb‘)

f.write(html)

def praseHtml(currentURL,headers,path):

# html = html.decode(‘utf-8‘)

chapter = 0

flag = 1

while flag:

chapter = chapter+1

if chapter >= 30: #控制下载的数量,太多数据电脑要爆。

flag = 0 #停止下载

html = getHtml(currentURL,headers)

savePath = path +"\\"+str(chapter)+ ".txt"

f = open(savePath,"w")

soup =BeautifulSoup(html,"lxml") #注意这里是lxml格式,我第一次居然写成了html,不小心就会吃亏的

nameText = soup.find(‘h3‘,attrs={‘class‘:‘j_chapterName‘})

contentText = soup.find(‘div‘,attrs={‘class‘:‘read-content j_readContent‘})

result = nameText.getText()+‘\n‘+contentText.getText()

result = result.replace(‘ ‘,‘\n ‘)

f = open(savePath,"w")

f.write(result)

nextpage = soup.find(‘a‘,attrs={‘id‘:‘j_chapterNext‘})

if next :

currentURL = "http:" + nextpage[‘href‘]

else:

currentURL = None

flag = 0

def main():

url = "https://www.readnovel.com/chapter/22160402000540402/107513768840595159"

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36‘} #请求头自己可以再网页中查看 (f12->network->刷新)

path = "D:\\novel"

praseHtml(url,headers,path)

main()

python小说爬虫实训报告_python之新手一看就懂的小说爬虫相关推荐

  1. python飞机大战实训报告200_飞机大战实训报告.doc

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp行业资料&nbsp>&nbsp航空/航天 飞机大战实训报告.doc22页 本文档一共被下载: ...

  2. python量化投资实训班_Python量化投资实训营

    配合大鱼金融联手塑造 清华导师领衔授课,全程在清华校园上课 五天掌握Python量化投资必备技能 Python量化投资实训营 五大课程亮点 1. 结构化课程与实战教学 要深入学习量化投资,不仅需要学习 ...

  3. python图书管理实训报告总结_图书管理系统心得-总结报告模板

    图书管理系统心得 为期两个星期的 c# 图书管理系统实习终于结束了,总算松了一口气,在这 短短的两周时间内承受了很大的压力现在终于能够得到"释放"了, 感觉到很轻 松. 回顾这两周 ...

  4. python小说爬虫实训报告_1.2Python网络爬虫实践(1)爬取89文学网小说

    import requests from bs4 import BeautifulSoup import time import os # 获取所有章节的链接 def get_novel_chapte ...

  5. python网络爬虫实训报告-Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学 ...

  6. python爬虫实训心得_Python爬虫小结

    原博文 2019-07-09 09:46 − 有些数据是没有专门的数据集的,为了找到神经网络训练的数据,自然而然的想到了用爬虫的方法开始采集数据.一开始采用了网上的一个动态爬虫的代码,发现爬取的图片大 ...

  7. python爬虫实训日志_Python学习学习日志——爬虫《第一篇》(BeautifulSoup)

    爬虫简介(学习日志第一篇) 一.爬虫介绍 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Pyyhon爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.U ...

  8. python绘制哆啦a梦实训报告_python画哆啦A梦和大雄

    最近从后台收到的消息来看,不少读者对 python 的 turtle 这个库感兴趣,也收到了读者想用 python 画各种图的各种需求.和一些读者沟通后才知道是学校布置了相关的作业,或者是自己想用这个 ...

  9. python爬虫实训心得_python爬虫的一些心得

    爬虫用于从网上得到目标数据,根据需要对其予以利用,加以分析,得到想要的实验成果.现在讲一讲我这两天学到的东西. 第一,爬虫的算法结构,包括以下几个方面: (1)读取网络数据 (2)将获取的数据解析为目 ...

最新文章

  1. java 动态创建实例_java – 有没有办法动态创建类(而不是实例)?
  2. 我在大学主修计算机 英语,托福雅思英语: 我在大学主修计算机
  3. c 结构体 不允许使用不完整的类型_.NET Core 基础类型介绍
  4. jstl视图_使用JSTL视图探索Spring Controller
  5. python编程入门-Python 基础教程
  6. 关于大型网站技术演进的思考(十四)--网站静态化处理—前后端分离—上(6)...
  7. 百度地图神奇错误--------不显示
  8. 计算机网络传输介质中速率最快的是,通常传输速率最快的网络类型是()
  9. 进程间通信方式 超详细解析全站最全
  10. jquery 进度条 滑块
  11. vue动态创建三级导航
  12. PT站的分享精神,我所向往的PT分享模式(原创)
  13. adams参数化优化设计例子
  14. Lattice LSTM
  15. c c++实现restful api服务 c c++实现http服务
  16. Java的三种代理模式【附源码分析】
  17. Web前端-vue 开发命名规范
  18. 农银e管家怎么显示服务器不对,农银e管家电脑版
  19. 小程序微信支付开发流程记录
  20. 手把手教你通过solidworks模拟摩擦运动

热门文章

  1. 视频怎么转为GIF动态表情包
  2. 给外行能看懂的科普:这就叫自然语言处理
  3. Windowsnbsp;Servernbsp;2003nbsp;SP2企…
  4. [Matlab科学计算] Matlab工具箱介绍和常用工具箱命令
  5. 现场工程师出马:VMware+LVM卷快速在windows Server上部署Kafka集群
  6. android 手机支持什么格式的视频格式,手机高清小普及:手机支持那些视频格式?...
  7. U6 3.2盘点单管理1.01
  8. java基础总结(九十)--AQS
  9. 将macbook内置键盘锁住,只使用外置键盘的方法
  10. JS 自定义用setTimeout 实现 setInterval功能