Deep Web(深层网络or深度网络)
深层网络:揭示网络中隐藏的价值
World Wide Web(简称WWW,或Web网)自20世纪90年代发明以来就一直呈现蓬勃发展之势,到今天为止其蕴含着海量的丰富资源,包罗万象,是人类一笔宝贵的知识财产。Web网按其分布状况可以分为“表层网”(Surface Web)和“深层网”(Deep Web,也有称Invisible Web,HiddenWeb)。
Surface Web指存储在Web空间、由超链接连接起来的静态网页、文件等资源,一般来说通过超链接就可以访问这些资源。这里所说的Surface Web是指传统网页搜索引擎可以索引的Web,以超链接可以到达的静态网页为主构成的Web。
Deep Web指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。网络数据库包括搜索引擎数据库、在线专业数据库及站内搜索数据库,统称为可搜索数据库(Searchable Database)。
因为担心爬行器会陷入巨量动态网页库而浪费网络带宽资源和存储资源,以及目前的技术还无法发现潜藏在网络数据库中的信息,所以传统搜索引擎,比如Google、百度等网页搜索引擎,一般只索引Surface Web中由超链接可以到达的静态网页、文件等资源,却不索引或很少索引Deep Web中的资源。
我们熟知的是Surface Web,那么Deep Web情况如何呢?容量多大?包含那些内容?内容质量如何?
据BrightPlanet公司技术白皮书(The Deep Web-Surfacing the Hidden Value),Deep Web资源容量约为Surface Web的500倍,而且包含着更多有价值的资源。以下简述他们的研究结果:
(1)Deep Web里包含的可访问公共信息容量是我们熟知的Surface Web的400-500倍。
(2)Deep Web包含7500TB的信息,而Surface Web包含的信息容量只有19TB。
(3)Deep Web包含5500亿独立文档,想对应的Surface Web只包含10亿个。
(4)现有的Deep Web站点估计超过100,000个。
(5)60个最大Deep Web站点就已包含750TB信息,超过Surface Web所包含信息的40倍。
(6)平均看,Deep Web站点的月访问量比Surface Web站点搞出50%,并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。
(7)Deep Web是互联网新信息增长的最大来源。
(8)Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。
(9)Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。
(10)超过一半的Deep Web内容都保存在专业领域的数据库中。
(11) 95%的Deep Web信息都是面向公共访问的,而不是需要付费或者订阅的。
该白皮书还指出,当时最大的搜索引擎只索引了Surface Web中的16%信息量,而如果算上那些无法被传统搜索引擎索引的Deep Web中的信息,那么一般搜索引擎只能搜索0.03%的Web信息。可见,研究和挖掘Deep Web对于提高搜索覆盖率和准确率有着非常重要的意义。
欲了解这方面的信息,请参阅该书:The Deep Web-Surfacing the Hidden Value。
Deep Web(深层网络or深度网络)相关推荐
- matlab中如何创建网络,使用深度网络设计器创建简单的序列分类网络
加载数据 按照 [1] 和 [2] 中的说明加载日语元音数据集.预测变量是包含不同长度序列的元胞数组,特征维度为 12.标签是由标签 1.2.....9 组成的分类向量. [XTrain,YTrain ...
- 深度学习基础--不同网络种类--深度置信网络(DBN)
深度置信网络(DBN) RBM的作用就是用来生成似然分布的互补先验分布,使得其后验分布具有因子形式. 因此,DBN算法解决了Wake-Sleep算法表示分布难以匹配生成分布的难题,通过RBM使 ...
- Deep Learning论文笔记之(七)深度网络高层特征可视化
Deep Learning论文笔记之(七)深度网络高层特征可视化 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- 【深度学习】【积分梯度】深度网络的公理归因(Axiomatic Attribution for Deep Networks)
深度网络的公理归因 Axiomatic Attribution for Deep Networks 相关博客 [自然语言处理][可解释性]NKB:用于预训练Transformers的神经知识银行 [自 ...
- 深度学习基础--不同网络种类--反馈深度网络(feed-back deep networks, FBDN)
深度神经网络可以分为3类: 1)前馈深度网络(feed-forwarddeep networks, FFDN) 2)反馈深度网络(feed-back deep networks, FBDN) ...
- Deep Learing之深度网络与传统的区别以及卷积神经网络的关键想法
深度网络与传统机器学习的重要区别:传统机器学习做分类的时候需要大量的先验经验和领域知识对分类特征进行设计,但是又很难保证特征的泛化能力.而深度学习可以通过网络来拟合特征可以避免这种问题,因为深度学习通 ...
- CVPR2016:ResNet 从根本上解决深度网络退化问题
深度残差网络(Deep residual network, ResNet)的提出是CNN图像史上的一件里程碑事件,在2015年提出的时候便取得了五项第一,而何恺明大神也凭借这一paper斩获CVPR ...
- 深度残差网络和Highway网络
今天讲的这两种网络结构都是最新被业界针对图像处理问题提出的最新的结构,主要解决就是超深层的网络在训练优化中遇到的问题.说实话这两种模型就本身来说数学公式都不复杂,但是确实在实战中取得了非常好的效果(深 ...
- RSE2021/云检测:基于小波变换和连续多尺度空间注意的上下块深度网络云检测
RSE2021/云检测Deep network based on up and down blocks using wavelet transform and successive multi-sca ...
最新文章
- 您会让自己的小孩将来从事软件研发吗?
- Python批量剪裁图片
- 解决canvas画图模糊的问题
- spring5新特性的介绍
- 【openSUSE】软件源和软件搜索
- OPENCV-3 学习笔记
- Infragistics NetAdvantage
- 计算机工程师专用小工具,204个联想工程师专用小工具合集
- 接口 java性能_MyPerf4J 一个极快的Java接口性能监控和统计工具
- Asp.Net MVC学习总结(三)——过滤器你怎么看?
- OllyDBG 入门
- GB35114—②、公共安全视频监控联网信息安全系统互联结构
- 字节跳动计算机视觉算法工程师面试题(秋招)
- java水面倒影效果,Java实现图片倒影代码详解
- 大数据学习根据应用目标,主要可以划分为哪三个阶段?
- 除夕将至,快来定制你的春节头像叭
- python 中角度与弧度间的转换
- 汽车之家联手网易云音乐,打造“车友音乐季”
- 开环放大倍数和闭环放大倍数的区别
- [翻译] Anders Hejlsberg访谈录——Geek of the Week