用java从网上爬取大部头小说

最近,我从网上看到零点看书(www.00ksw.com)网站分章连载了网络作家写的《大主宰》这部玄幻小说。截至目前,这部小说的最新章节已写到第一千三百三十三章 太灵通天光。访问http://www.00ksw.com/html/1/1343/597361.html,首页就能看到“零点看书 > 玄幻小说 >大主宰 > 正文 第一章 北灵院”的内容。想继续看下一章,可以在“章节列表”里点“下一章”。
        但在网上看书,总不如离网来得方便。有没有办法把这部小说的内容下载到电脑呢?答案是肯定的,有。
        今天,我从百度里搜索到一篇名为《java爬虫之下载小说》的网文。这篇网文的作者是:qq_25237663,链接地是:http://www.th7.cn/Program/java/201607/890479.shtml。这篇网文提供了用java从网上爬取这篇小说的源代码。感谢作者,通过访问http://lixiaolin.me/2016/06/30/java-getnovel/,我成功下载了这个源代码。
        这个源代码有以下几个特点。
        一是这个源代码编写得很简单,主要在于分析网页结构、正则匹配以及文件保存。
        二是爬取小说主要需要爬取章节、正文,以及能保证爬取到所有的章节。作者以《大主宰》为例,通过分析其网页结构,可以看到小说正文包含在一个id为content的div里,这极大的帮助了我们的爬取.章节名称保存在一个名为readtitle的js变量中.下一页的url位于a标签的href属性中。
        三是通过分析网页结构,提供了如下正则表达式:
        * 章节名: readtitle = "(.+?)"
        * 正文: <div id="content">(.+?)</div>
        * 下一章:&rarr; <a href="(.+?)">
        如果当前章节是最新章节,那么其下一章的url是以 / 开头的,我们可以根据这个判断章节是否是最新章节。
        根据这个源代码,通过java,我将源代码制作成java格式的文件。
        首先,要做好制作前的准备。

一是要在F盘新建一个文件夹,并将文件夹命名为pachong。

二是要将源代码第一行的package com.lxl.txt;删除,或变为注释//。

三是要在mypachong文件夹里新建一个文本文档,将源代码复制粘贴到新建文本文档里,并将其另存为java格式的文件,将其命名为NovelGet.java。

四是要在D盘里另建一个文本文档,将其命名为test.txt,用来存放下载的小说各章节内容。
        在此基础上,通过输入cmd命令,我成功地将java格式的文件制作成jar格式的软件。
        打开“开始”/“运行”,输入cmd,点“确定”,弹出cmd界面。
        在cmd界面里显示:
        Microsoft Windows [版本 6.1.7601]
        版权所有 (c) 2009 Microsoft Corporation。保留所有权利。
        输入:
        C:\Users\Administrator>f:
        F:\>cd pachong
        F:\pachong>javac NovelGet.java
        F:\pachong>jar -cvf NovelGet.jar NovelGet.class
        已添加清单
        正在添加: NovelGet.class(输入 = 2881) (输出 = 1637)(压缩了 43%)
        F:\pachong>
        这时,在f:\pachong文件夹里右键点击NovelGet.jar,在弹出的右键菜单里点用WinRAR打开,点击,在弹出的输入MAIN-CLASS: NovelGet 敲两次空格键, 敲两次回车。然后点保存,点是,再点文件,点副本。
        至此,NovelGet.jar的制作完成,下一步就可以检测到NovelGet.jar的运行结果了。
        返回cmd,在f:\pachong>的后面输入jara NovelGet,回车后,cmd界面弹出“开始爬取数据”的提示:经过一段时间的爬取,程序运行结束。
        F:\mypachong>java NovelGet
        开始爬取数据...
        用时 489秒...
        经过一段时间的爬取(爬取时间的长短与网速的快慢有关),程序运行结束。
        F:\mypachong>pause
        请按任意键继续. . .
        此时打开f:\test.txt,发现文本的大小已由0变为7.71BM。截至2016年10月14号,《大主宰》这篇玄幻小说的最新章节为第一千三百三十三章 太灵通天光,小说从第1章到第1333章的内容已全部爬取出来,并集中保存在f:\test.txt文件里。

用java从网上爬取大部头小说相关推荐

  1. java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

    完整Java爬取起点小说网小说目录以及对应链接 完整Java爬取起点小说网小说目录以及对应链接 (第一次使用markdown写,其中的排版很不好,望大家理解) ?? 因为最近有一个比赛的事情,故前期看 ...

  2. Java网络爬虫(三)爬取网络小说

    因CSDN版权问题,小说网站的URL.图片不可在此公布,读者根据自己想要爬取的网站,自行选择网站即可. 1.爬取小说章节内容,需要注意的大部分原创小说内容页是禁用右键的,无法直接选取页面内容进行元素检 ...

  3. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  4. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  5. 【Python从零到壹】使用XPath解析数据爬取起点小说网数据

    我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...

  6. Python爬虫之爬取网络小说并在本地保存为txt文件

    Python爬虫之爬取网络小说并在本地保存为txt文件 注:本文使用软件为Sublime Text,浏览器为谷歌浏览器 (新手小白第一次写,写得不好请见谅) **1.**首先找到想要爬取的小说章节目录 ...

  7. 用PYTHON爬虫简单爬取网络小说

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. python爬取晋江小说简介_python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇...

    知识就像碎布,记得"缝一缝",你才能华丽丽地亮相. 1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful S ...

  9. java读取html的全部xpath,Java - XPath解析爬取内容

    所需引入jar包:https://jsoup.org/packages/jsoup-1.13.1.jarorg.jsoupjsoup1.13.1java代码import org.jsoup.Jsoup ...

最新文章

  1. 三维GIS开发——WorldWindJava入门
  2. python图形绘制库turtle中文开发文档及示例大全【最详细、连结果图都有,gif格式的!】
  3. linux multipath.log,Linux Multipath配置
  4. mysql 优化的一些小窍门
  5. ZF环境要求及如何配置
  6. php各种加密特征,php 开发中加密的几种方法总结
  7. linux下pip换源——修改pip.conf文件
  8. 程序员锁死服务器导致公司倒闭,案件终于开庭了
  9. 分分钟搞定LabVIEW读取与写入Excel【三易电子工作室】
  10. kd树 python实现_Python语言描述KNN算法与Kd树
  11. Python 用sympy做高数题,不定积分、定积分、极限、求导样样精通!
  12. tcc-transaction源码详解
  13. 报告显示,2019秋冬高端游南北极、欧洲最受欢迎,海岛热度不减
  14. Android平台下使用BingMaps地图
  15. 计算机模拟图像和数字,模拟与数字的区别
  16. PEM文件和private.key文件生成Tomcat服务器所需的jks文件(配置SSL用)
  17. AI数字攻防看数字社会基建发展
  18. Java基础7 循环语句for、while、do-while
  19. 数据库系列(3):数据库管理系统的分类
  20. ACM-ICPC 2018 南京赛区网络预赛 E. AC Challenge(状压dp)

热门文章

  1. Android 逆向工具大整理,碉堡了
  2. R-CNN FAST-RCNN FASTER-RCNN
  3. 深入浅出工控机防病毒安全现状
  4. 未检测到ca设备或ca驱动异常_【混凝土碳化深度异常原因的探讨】
  5. 共享打印机无响应解决方案
  6. 关于主流直播平台(虎牙,斗鱼)用到的一些技术
  7. 思科交换机配置试题_《CISCO路由器配置》复习题
  8. An interview question from MicroStrategy
  9. 电脑下载python却无法识别出来_python – 在其他计算机上测试EXE时找不到PyInstaller ImportError DLL...
  10. 华为手机中的计算机怎么用高级,华为EMUI10的这个功能 保时捷也在用