8.1 内容作弊 内容作弊的目的是通过精心更改或者调控网页内容,使得网页在搜索引擎排名中获得与其网页不相称的高排名。搜索引擎排名一般包含了内容相似性和链接重要性计算,内容作弊者
主要针对的是搜索引擎排序算法中的内容相似性计算部分,通过故意加大目标词频,或者在网页重要位置加入与网页内容无关的单词来影响搜索结果排名。8.1.1 常见内容作弊手段 1.关键词重复2.无关查询词作弊3.图片alt标签文本作弊4.网页标题作弊5.网页重要标签作弊6.网页元信息作弊8.1.2 内容农场(Content Farm) 内容农场运营者廉价雇佣大量自由职业者,支持他们付费协作,但是协作内容普遍内容低下,很多文章都是通过复制稍加修改来完成的。但是他们会研究搜索引擎的热门搜索词,并有机的将这些词汇添加到内容中,这样,当普通搜索用户在搜索时,会被吸引进内容农场的网站,通过大量低质量的内容吸引流量,内容农场可以赚广告费。8.2 链接作弊 所谓链接作弊,是网站拥有者考虑到搜索引擎排名中利用了链接分析技术,所以通过网页之间的链接关系,或者操作页面之间的链接锚文字,以此来增加链接排序因子的得分,并影响搜索结果排名的作弊方法。1.链接农场为了提高网页的搜索链接排名,链接农场构建了大量互相紧密链接的网页集合。2.google轰炸锚文字是指向某个网页的链接描述文字,这些描述信息往往体现了被指向网页的内容主题,所以搜索引擎往往会在排序算法中利用这一点。作弊者通过精心设置锚文字内容来诱导搜索引擎给与目标网页较高排名,一般作弊者设置的锚文字和目标网页内容没什么关系。3.交换友情链接4.购买链接5.购买过期域名有些过期域名本身的PageRank排名是很高的。6."门页"作弊"门页"本身不包含正文内容,而是由大量链接构成的,而这些链接往往会指向同一个网站内的页面,作弊者通过制造大量的"门页"来提升网站排名。8.3 页面隐藏作弊 页面隐藏作弊通过一些手段隐瞒搜索引擎爬虫,使得搜索引擎爬取的页面内容和用户点击查看的页面内容不同,以这种方式来影响搜索引擎的搜索结果。1.IP地址隐形作弊网页拥有者在服务端记载搜索引擎爬虫的ip地址列表,如果发现是搜索引擎在请求页面,则会推送给爬虫一个伪造的网页内容,而如果是其他ip地址,则会推送其他内容。2.http请求隐形作弊根据 User Agent 判断是否为搜索引擎爬虫,是的话,推送不同的页面内容。3.网页重定向4.网页内容隐藏通过一些特殊的html标签设置,将一部分内容显示为用户不可见,但是对搜索引擎来说是可见的。8.4 Web 2.0作弊方法 1.博客作弊常见的博客作弊有3种:作弊博客,博客评论作弊和TrackBack作弊。作弊博客是作弊者申请博客空间,而写作的博客内容用于诱导搜索引擎或者博客读者转到作弊者希望提升排名或者营销的网页。博客博主发布内容,往往允许观看博客的用户发表评论,有些作弊者利用这一点,在博客评论内容里推广产品或者增加指向推广网页的链接地址。TrackBack机制是博客作者之间互相引用通知的机制。比如博客A发表了一篇博文,之后博客B看到这篇文章后,发表了一篇类似的博文,并在文中使用链接引用博客A的博文,如果二者的博客系统都支持TrackBack 协议,则博客系统会自动在博客A的文章后增加指向博客B新博文的链接,使用自动 TrackBack 群发软件,向大量博文发出 TrackBack链接,这样就增加了作弊页面被访问的机会。2.点评作弊3.标签(tag)作弊4.SNS作弊一种典型的SNS作弊手段是用户个人描述信息作弊。作弊者建立一个虚假的个人描述,在其他描述部分利用色情等信息吸引他人。5.微博作弊一种是作弊者大量关注他人博客,很多人出于礼貌也会将其作为关注着,在吸引到一定的关注着后,作弊者会发布广告信息。另外一种是利用微博搜索平台,作弊者密切关注热门关键词,之后大量发布包含热门关键词的微博,里面包含一些推广信息。8.5 反作弊技术的整体思路 从基本思路看,可以将反作弊手段大致分为3种:信任传播模型,不信任传播模型和异常发现模型。其中前2种技术模型可以进一步抽象为"链接分析"一章提到的子集传播模型。8.5.1 信任传播模型 信任传播模型,思路如下:在海量的网页数据中,通过一定的技术手段或者人工半人工手段,从中筛选出部分完全值得信任的页面,也就是肯定不会作弊的网页,算法以这些网页作为出发点点,赋予白名单内的网页节点较高的信任度分值,其他页面是否作弊,要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定的阈值,则认为没有问题,低的话就认为是作弊网页。8.5.2 不信任传播模型 与信任传播模型的最大的区别在于:初始的页面子集不是值得信任的页面节点,而是确认存在作弊行为的页面集合。8.5.3 异常发现模型 异常发现模型是一个高度抽象化的算法框架模型,其基本假设认为:作弊网页必然存在有异于正常网页的特征。8.6 通用链接反作弊方法 指的是这种反作弊方法不需要针对某种具体的作弊方式来做特征分析,并根据分析结果去构建有针对性的算法。不论采取哪种连接作弊方法,通用作弊方法都对其有效。8.6.1 TrustRank算法 TrustRank 算法属于信任传播模型,基本遵守信任传播模型的流程,即算法流程如下2步组成:1.确定值得信任的网页集合2.将信任分值从白名单网页按照一定方式传播到其他网页8.6.2 BadRank算法 BadRank 据传是 google 采用的反链接作弊算法。它是一种典型的不信任传播模型,即首先构建作弊网页集合。8.6.3 SpamRank SpamRank 是一种典型的符合异常发现模型的反作弊方法。8.7 专用链接反作弊技术 专用的链接反作弊技术则是非常有针对性的设计算法。8.7.1 识别链接农场 8.7.2 识别Google轰炸 8.8 识别内容作弊 8.9 反隐藏作弊 常见的隐藏作弊方式包括页面隐藏和网页重定向。8.9.1 识别页面隐藏 页面隐藏的本质特征是向搜索引擎爬虫和用户推送不同的内容页面。所以一个直观的识别这种作弊方式的方法就是对网页做两次抓取,第一次是正常的搜索引擎爬虫抓取,第2次抓取则是模拟人工访问网页的方式抓取。如果两次抓取到的内容有较大差距,则会被认为是作弊。8.9.2 识别网页重定向 重定向页面比较容易识别,目前大多数搜索引擎对于采取了重定向的网页都会有相应的降权惩罚。但是重定向的网页未必一定是作弊网站。8.10 搜索引擎反作弊综合框架 

8.这就是搜索引擎:核心技术详解 --- 网页反作弊相关推荐

  1. 《这就是搜索引擎:核心技术详解》---读后感

    搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻.搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大 ...

  2. 这就是搜索引擎核心技术详解@学习笔记

    对应文章的下载地址: http://download.csdn.net/detail/yijiyong100/6356227 背  景 关于本篇学习笔记,只是把书中的一些概念进行了归纳,同时把个人的一 ...

  3. 1.这就是搜索引擎:核心技术详解 --- 搜索引擎及其技术架构

    1.搜索引擎及其技术架构1.2 搜索引擎技术发展史 1.2.1 史前时代:分类目录的一代 1.2.2 第一代:文本检索的一代 1.2.3 第二代:链接分析的一代 这一代的搜索引擎充分利用了网页之间的链 ...

  4. 这就是搜索引擎:核心技术详解

    这就是搜索引擎:核心技术详解 张俊林 著 ISBN 978-7-121-14865-1 2012年1月出版 定价:45.00 元 16开 320页 宣传语:改变全世界人们生活方式的"信息之门 ...

  5. php操作ElasticSearch搜索引擎流程详解

    更多python.php教程请到友情连接: 菜鸟教程https://www.piaodoo.com 茂名一技http://www.enechn.com ppt制作教程步骤 http://www.tpy ...

  6. 详解网页性能参数 performance API

    详解网页性能参数 performance 浏览器核心工作 performance 对象 performance 方法 本文要点: 介绍浏览器核心工作流程: 介绍 performance 对象及方法.通 ...

  7. spring aop实例讲解_Spring核心技术详解(一)

    一.Sring简介 Spring是一个分层的Java SE/EE应用一站式的轻量级开源框架.Spring核心是IOC和AOP. Spring主要优点包括: 方便解耦,简化开发,通过Spring提供的I ...

  8. Spring核心技术详解

    一.Sring简介 Spring是一个分层的Java SE/EE应用一站式的轻量级开源框架.Spring核心是IOC和AOP.  Spring主要优点包括: 方便解耦,简化开发,通过Spring提供的 ...

  9. 全文搜索引擎 Elasticsearch详解

    文章目录 什么是ElasticSearch Elasticsearch 的用途是什么? ElasticSearch基本概念 类型 文档 字段 Node节点 shard:分片 replica:副本 倒排 ...

  10. 大佬带你详解Python反爬虫措施以及爬虫编写注意事项

    Python爬虫开发:反爬虫措施以及爬虫编写注意事项 反爬虫的几重措施 1.IP限制 如果是个人编写的爬虫,IP可能是固定的,那么发现某个IP请求过于频繁并且短时间内访问大量的页面,有爬虫的嫌疑,作为 ...

最新文章

  1. 欧卡智舶发布全球首个城市内河无人驾驶数据集!
  2. Spring Data Redis入门示例:基于RedisTemplate (三)
  3. warning: function declaration isn’t a prototype(函数声明不是原型)的解决办法
  4. 玩转Android之MVVM开发模式实战,炫酷的DataBinding!
  5. android 6.0 蓝牙进程,Android6.0-蓝牙权限问题
  6. 94女,大厂程序员,收入50w+
  7. jQuery.获取子节点
  8. java stream collect_java流stream中的collect()方法详解
  9. UVa 10048 (Floyd变形) Audiophobia
  10. 华为路由器支持ftp服务器,华为路由器FTP配置详解
  11. mybatis3的中文官方文档
  12. 下沉市场不需要巨头,但很需要社区团购
  13. 收藏!这37个自学网站,一年让你省下十几万
  14. YouTube视频推荐系统总结
  15. mysql 表 忽略大小写_mysql表名忽略大小写配置方法详解
  16. Maxima在线性代数的应用
  17. SpringBoot单元测试的@RunWith与@SpringBootTest注解
  18. uni-app获取设备序列号SERIAL
  19. 个人博客标签和文章的表结构设计
  20. linux编程之emacs

热门文章

  1. JSONObject遍历
  2. 2012服务器在IIS部署的SLL(https)网址谷歌浏览器无法访问的问题解决
  3. Python 类和实例
  4. Windows / VS下不同类型变量转换
  5. select选择框在谷歌火狐和IE样式的不同
  6. lzugis——Arcgis Server for JavaScript API在自己的定义InfoWindow
  7. 指尖下的js —— 多触式web前端开发之三:处理复杂手势
  8. ruby入门tips
  9. 20款免费公司企业wordpress主题
  10. SEO知识分享一,选择关键词