今天给大家分享一下倒排索引的一些事情,为什么要说倒排索引呢?因为当用户搜索一个词的时候,返回的搜索结果页面就是经过倒排索引和一系列算法过滤后的结果排序,seo 苦苦追求的不就是排名的多少吗?

说的通俗一点,其实搜索引擎的索引好比是我们平时看书时的目录,为了让大家更快找到适合自己的东西,比如导航站其实就是互联网上小型索引的结构案例。

上面会有一些分类比如新闻、电影、小说、图片等等板块,让用户快速的找到自己所需。

索引是搜索引擎中最为核心的技术之一,因为在大量的网页中,怎样才能更快、更精准的找到用户查询这个词的搜索意图。

先给大家说几个概念,为了下面的讲述中,大家都能看得懂。

1、文档:我们是以网页的形式看到互联网页面的,而网页中包含很多的东西,比如:TXT、EXCEL、PDF等等很多各式各样的文件都被成为文档。

2、文档集合:由很多的文档组成一个集合,称为文档集合。

3、文档编号:互联网上每一个文档都有各自且独一无二的编号。

4、单词编号:每个单词都有各自的唯一编号,用编号来代表这个单词或、短语者句子。

5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取相关的文档。

其实倒排索引非常的简单,下面就结合一些特征案例来渐渐深入的分析这个算法,大家先了解一些基本的思路即可。

上图是每个文档编号对应的不同文档,如编号“1”对应“小明吃早饭”,编号“2”对应“小明早上吃了什么”,以此类推。

另外由于中文和英文的文化属性不相同,中文的汉字之间没有明显像英文单词那样的分隔符,索引首先对中文要进行一下分词(下面举例中暂时不去掉停止词),这样就把一句话变成了一个个的词组,如下图。

上图单词的ID记录了每个单词的编号,第二列是编号所对应的单词,第三列是哪几个文档中包含了这个单词。

比如单词“小明”,其其单词编号为“1”,倒排列表“1,2,4,5”,表示这几个文档集合中都包含了这个单词。实际上搜索引擎更为复杂,不仅仅记录了单词的文档编号,还记录了单词的频率(TF,什么意思呢?很多seo从业者都在说关键词的密度,

市面上计算页面中关键词密度的计算公式有三个:

公式一: 关键词次数/页面总字数 x100%

公式二: 关键词次数/页面总字数/关键词字数 x 100%

公式三: 关键词次数/页面分词数量 x 100%

先不讨论哪个公式的计算方式更加精准,我们发现公式中都出现了关键词的次数,那这个TF就是该单词在页面中出现的次数)

这个TF在搜索引擎计算搜索结果排序时,分析查询词和文档库中哪个文档更为相关的一个参考因素。

上图是比较复杂的,我们来看看文档频率为多个文档包含这个单词,如:“小明”在“4个文档”中出现了。“吃”在“4个文档”中出现了,后面的以此类推。倒排列表小明 (1;1<1>),1为文档1,中间的1为这个词在这个文档中出现的频率,<1>是这个词在文档中出现的位置1,即在文档中第一个词。

实战应用,在纸上谈的再多,不如通过实战去验证这个论点,是否对排名有帮助。下面就来看看。

以首页自然排名的10个网站的网页类型和标题为例:

首页,排名第一,“早点培训_早餐培训班_早点培训学校【免费吃住】”

首页,排名第二,“早餐培训_早餐培训班_早餐培训学校【免费加盟】”

首页,排名第三,“上海顶正小吃培训学校_早点培训_生煎包培训_烧烤培训全国最专.....”

首页,排名第四,“上海早点培训|重庆小面培训|山东杂粮饼培训|卤菜培训|小吃培训.......”

首页,排名第五,“小吃培训_特色小吃_小吃项目加盟-老灶台特色小吃培训学校”

内页,排名第六,“早点培训 正规早点培训班-培训通”

首页,排名第七,“艺尚食代-早餐早点培训”

首页,排名第八,“小吃培训,早点培训,上海面点培训,上海德志厨艺美食培训中心021-...”

首页,排名第九,“早餐店加盟_营养早餐加盟_特色早点加盟店_早餐店连锁加盟培训_开...”

内页,排名第十,“早点培训班 正宗早点培训中心-培训通”

分析得出:早点培训在这个10个网站中基本上都出现了2词,大家有没有发现早点和早餐是近义词,(比如:我早点吃了什么,我早餐吃了什么。这两句话表达的是同一个意思。)等于是增加了一遍词频,也就是3次了,在这里提醒大家关键词千万不要堆砌,要保持一个自然性。

另外通过之前的实验数据得出标题最左边的词权重最高,仅仅结合这两点,排名第一的网站标题做的比其他的网站标题都到位。另外标题结尾处“【免费吃住】”这是一个吸引用户点击的营销点,所以标题是技术与艺术的结合。

下图是网站从上线到目前的收录和权重的部分截图:

从上面的两张图片我们可以看出,这个网站的权重从2017年12月11日的站长权重是0,4天后权重到达1,还是比较轻松的。而且后来站内文章到投稿为止已经5个月没有更新了,为什么有些seoer天天更新文章,网站排名却做不起来?有小伙伴说如果不写文章,那么每天都不知道做些什么。

在我看来这个不是影响排名的重要因素,因为前期网站信任度做好可以节省后期的很多事情(PS:这就是佛系SEO,让网站自己让排名)。

通过上图发现早点培训这个词一直在首页第一,非常的稳定。所以通过算法来优化网站还是非常靠谱的。

搜索引擎是这个世界上最复杂的程序之一,公开的算法不胜其数,有兴趣的小伙伴们可以看看搜索引擎公司他们申请专利的一个文档,文档中也会涉及到高等数学等等知识,如果你能坚持的去看并且结合实践的话,那么你优化网站不用再靠猜排名了。

作者:秦羽

来源:卢松松博客

SEO算法深度分析之倒排索引,来解释SEO排名的问题相关推荐

  1. 四轴之互补滤波与四元数算法简单分析

    有人问我关于四元数姿态解算算法的分析,每次都解释好久,今日空闲,特发一帖,供大家参考.本分析将结合程序,分析姿态解算思路,由于能力有限,难免有错误之处请谅解,同时希望能够抛砖引玉,得到大神指点.感谢圆 ...

  2. SEO技术深度解析(TF-IDF算法原理及公式)

    做为SEO行业老鸟应该听说过TF-IDF算法,TF-IDF算法属于搜索引擎中的核心部分.TF-IDF算法是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分 ...

  3. XGBoost缺失值引发的问题及其深度分析

    XGBoost缺失值引发的问题及其深度分析 2019年08月15日 作者: 李兆军 文章链接 3969字 8分钟阅读 1. 背景 XGBoost模型作为机器学习中的一大"杀器",被 ...

  4. SEO算法:如何通过PageRank算法判断SEO排序结果

    想必在做SEO的时候有同学发现相同的网站有两个页面但是排名的名次不同,既然是同一个网站那么应该权重都一样怎么会一个排名前面一个后面呢?在搜索引擎当中每个网页都有对应的页面得分在决定这两个页面排名顺序是 ...

  5. 深度分析DROP,TRUNCATE与DELETE的区别【我的数据库之路系列】

    深度分析DROP,TRUNCATE与DELETE的区别[我的数据库之路系列] 转载自:http://hi.baidu.com/bjn_wuming/blog/item/8b27a9af36ef26f6 ...

  6. 华为抓取错误日志在哪里_抓取网址进行分析爬虫工具Screaming Frog SEO Spider for Mac...

    Screaming Frog SEO Spider for Mac是一款专门用于抓取网址进行分析的网络爬虫开发工具,你可以通过这款软件来快速抓取网站中可能出现的损坏链接和服务器错误,或是识别网站中临时 ...

  7. 百度seo算法_SEO秘诀:Google的逆向工程算法

    百度seo算法 by benjamin bannister 通过本杰明·班尼斯特 SEO秘诀:Google的逆向工程算法 (SEO Secrets: Reverse-Engineering Googl ...

  8. 深圳大学算法实验一——排序算法性能分析

    深圳大学算法实验一 一.实验目的与要求 1. 掌握九种排序算法原理 2. 掌握不同排序算法时间效率的经验分析方法,验证理论分析与经验分析的一致性. 3. 对多种排序算法提出改进方案 4. 综合比较各种 ...

  9. 05.数据的深度分析(数据挖掘、机器学习)--《数据科学概论》

    前言:基于人大的<数据科学概论>第五章,数据的深度分析(数据挖掘.机器学习).主要是机器学习与数据挖掘.具体的算法.主流工具.特征选择的内容. 文章目录 一.机器学习与数据挖掘 (1)什么 ...

最新文章

  1. WireShark数据包分析数据封装
  2. linux怎么删除端口转发,linux使用rinetd快速实现端口转发
  3. 益生菌可能导致的“菌血症”与死亡(调研手稿六)
  4. GARFIELD@01-07-2005
  5. 利用JasperReport+iReport进行Web报表开发
  6. centos 安装jdk_centos7配置jdk
  7. 微信小程序,技术创业的时代可能要来了,但窗口期不会太长
  8. vi-vim :删除、撤销、恢复删除、复制删除
  9. decimal(18,2)如何保存1.234
  10. 济南大学转专业计算机面试难吗,我校2016-2017学年学生转专业工作结束
  11. HBase的安装和配置
  12. 我们为什么存在于三维空间而不是四维空间
  13. 联想win7旗舰版忘记开机密码--有效处理办法
  14. 医学图像处理——基本概念(色彩、直方图、CT值)
  15. 什么是信念?信任?信仰?
  16. Java流程控制:用for循环打印一个三角形
  17. Hastelloy C22合金板材 圆钢 无缝管
  18. (18)语义分割--paddle--EISeg自动标注软件的使用和自己数据集的测试
  19. 大智慧专业财务数据服务器文件,大智慧专业财务数据及代码内容对照表-2
  20. NBUT 1578-The smart Big Pang Pang【博弈论】 难度:**

热门文章

  1. CMake基础教程(18)find_path查找文件路径
  2. 关于wifi portal认证--为浏览器添加wifi认证功能
  3. 【Linux】学习笔记1
  4. C语言基础知识点(领卓教育)
  5. Java知识点总结【6】抽象类和接口
  6. 【机器学习】RBF神经网络原理与Python实现
  7. ACTF-Junior-2021 linkgame
  8. Vera++ 默认Rules文件功能解读
  9. html使表格位于页面的右下方,在 HTML 页面中,要显示如下图所示的表格,应在下方 HTML 代码的下划线处填写()。 table border=”1” trtd =”2” 性别 /...
  10. 嵌入式学习班到底怎么样?