众所周知,网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。

很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用。但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的。

  

常见的优秀网络爬虫有以下几种类型:

1.批量型网络爬虫:限制抓取的属性,包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面,总之明显的特征就是受限;

2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序;

3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限细化的增量网络爬虫,可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

这些网络爬虫的功能不一,使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬虫,提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取,这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

后来随着爬虫使用越来越灵活,很多网站都使用多个爬虫同步进行抓取。例如现下很多视频网站,都是先通过一般爬虫或者人工批量抓取内容,然后给用户一些可选项,让客户自己给聚焦爬虫划定范围最后找到匹配度足够高的内容,整个过程极大的降低了资源和时间的消耗。相反如果这些内容全部用聚焦爬虫来完成,不仅要消耗大量的网络资源,而且会延长搜索时间时间,影响客户体验。

转载于:https://www.cnblogs.com/zccpython/p/6764942.html

简谈-网络爬虫的几种常见类型相关推荐

  1. 浅谈网络爬虫中广度优先算法和代码实现

    前几天给大家分享了网络爬虫中深度优先算法的介绍及其代码实现过程,没来得及上车的小伙伴们可以戳这篇文章--浅谈网络爬虫中深度优先算法和简单代码实现.今天小编给大家分享网络爬虫中广度优先算法的介绍及其代码 ...

  2. python爬虫学习笔记-网络爬虫的三种数据解析方式

    爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)"抓取系统"的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 ...

  3. 简谈创建字典的几种方式

    简谈创建字典的几种方式 直接用键值对的形式写出 键值对之间用逗号隔开 dict0 = {'name': 'xxx', 'age': 23} 用dict函数 dict1 = dict()

  4. AI芯片:几种常见类型的AI芯片

    引入   近些年来,深度学习网络不断兴起.数据运算量越来越大,对处理器并行处理能力要求越来越高.传统的通用处理器CPU受摩尔定律的影响,已经不能满足大规模的数据处理了.故而,专用AI处理器的设计再一次 ...

  5. 采购订单管理的四种常见类型

    采购管理对于任何成功的企业都至关重要.如果你的企业没有统一的采购管理流程,那么你可能无法对你的采购进行解释,并可能犯下代价高昂的采购错误.采购订单或许是有效采购管理流程中最重要的部分.让我们来看看采购 ...

  6. ADC的几种常见类型

    ADC的几种常见类型 介绍 种类 1. 逐次逼近型 2. 积分型ADC 3. 并行比较A/D转换器 4. 压频变换型ADC 5. ∑-Δ型ADC 6.流水线型ADC reference 介绍 现在的软 ...

  7. golang:正则表达式匹配网页url_网络爬虫:3种网页抓取方法

    3种抓取其中数据的方法.首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块. 1 正则表达式 如果你对正则表达式还不熟悉,或是需要一些提示,那么你可以查阅https ...

  8. crawler_浅谈网络爬虫

    题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天.简单阐述下个人对网络爬虫的理解. 提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 w ...

  9. 浅谈网络爬虫中广度优先算法和深度优先算法

    前言 做爬虫的,最怕业务简单粗暴的来一句"爬一下XXXX网".比如,"爬一下央广网"(示例链接:http://www.cnr.cn),看着密密麻麻的各种子分类, ...

最新文章

  1. ruby(wrong number of arguments (1 for 2) )
  2. 小心robots.txt影响蜘蛛的爬行
  3. QA seven's blog
  4. 有理数的小数表示若无限,则必为无限循环的
  5. 排序算法之low B三人组
  6. 在一基金慈善年会上面发言
  7. leaflet加载离线地图教程以及下载离线地图瓦片工具
  8. SAP Analytics Cloud里如何基于一个已有的model创建Story
  9. Jfinal源码解析系列一
  10. Apsara Stack 技术百科 | 标准化的云时代:一云多芯
  11. springmvc php,SpringMVC 常用注解
  12. 大学计算机四级报名,2016下半年安徽理工大学计算机四级报名
  13. 医药吧网API接口开放
  14. printf以及各种变种
  15. mysql strchr_PHP字符串函数之 strstr stristr
  16. 使用http请求发送文件,文件标题乱码
  17. Odoo12功能模块文档整理
  18. 基于JAVA飞羽羽毛球馆管理系统计算机毕业设计源码+数据库+lw文档+系统+部署
  19. 抖音视频根据用户ID下载方法
  20. 实验六——存储过程实验

热门文章

  1. sql 求同时在线人数(或者同时观看人数/同时浏览人数)
  2. 实景三维数字地图:数字技术赋能地图领域的新时代
  3. [Javascript] 正则表达式匹配的常用方法总结
  4. DvaJS的Effect使用介绍
  5. 第五章 有关IP协议的技术
  6. cc2530IO口使用
  7. 使用excel服务器开发的重中之重
  8. 恶意软件防卫指南:你知道自己感染了恶意软件吗?
  9. 设计模式:简单工厂模式与工厂生产模式的区别
  10. js实现鼠标滚轮放大缩小页面指定区域(css3 scale)