为什么要学习架构?

Elasticsearch的一些架构设计，对我们做性能调优、故障处理，具有非常重要的影响。下面将从Elasticsearch的准实时索引的实现、自动发现、rounting和replica的读写过程，shard的allocate控制

使文本可以被搜索？

在传统的数据库中，一个字段存一个值，但是这对于全文搜索是不足的。想要让文本中的而每个单词都可以被搜索，这意味着数据库需要多个值。

支持一个字段多个值的最佳数据结构是倒排索引。倒排索引包含了出现在所有文档中唯一的值或或词的有序列表，以及每个词所属的文档列表。

倒排索引存储了比包含一个term的文档列表多地多的信息，它可能包含每一个term的文档数量，一个term出现在制定文档中的频次，每个文档中term的顺序，每个文档的长度，所有文档的平均长度等等。这些统计信息让Elasticsearch知道哪些term更重要，哪些文档更重要，也就是相关性。

在全文搜索的早些时候，会为整个文档集合建立一个大索引，并且写入磁盘。只有新索引准备好了它就会替代旧肚饿索引，最近的修改可以被检索。

不可变性

写入磁盘的倒排索引是不可变的，它有如下好处：

不需要锁。如果从来不需要跟新一个索引，就不必担心多个程序见同时尝试修改。
一旦索引被读入文件系统的缓存，它就一直在那儿，因为不会改变。只要文件系统缓存有足够的空间，大部分的读会直接访问内存而不是磁盘。这有助于性能的提升。
在索引的声明周期内，所有的其他缓存都可用。他们不需要再每次数据变化了都重建，因此数据不会变。
写入单个大的倒排索引，可以压缩数据，较少的磁盘IO和需要缓存索引的大小。

当然，不可变的索引有它的缺点，首先是它不可变。如果想要搜索一个新文档，必须重建整个索引。这不仅限制了一个索引所能装下的数据，还有一个索引可以被更新的频次。

准实时索引的实现？

本文主要介绍Elasticsearch的准实时索引的实现，至于基于Lucene的倒排索引将不在这里介绍，有兴趣的读者可以去Lucene的相关文章，或者阅读《Lucene in Action》等书籍。下面将介绍Elasticsearch索引流程中发生的具体操作，重点在于其中的segment、buffer和translog三部分对性能方面的影响。

1、动态更新的Lucnee索引

要做到实时跟新条件下数据的可用和可靠，就需要在倒排索引的基础上，再做一系列更高级的处理。总结一下Lucene的处理办法：新收到的数据写入新的索引文件里。Lucene把每次生成的倒排索引，叫做一个段(segment)。然后另外使用一个commit文件，记录索引内的所有segment。而生成segment的数据来源，则是内存中的buffer,也就是说，动态跟新过后过程如下：1）当前磁盘上有三个segement可用，同时有一个commit文件记录当前的segment2）新收到的数据进入内存buffer,索引状态如下所示。3）buffer刷到磁盘，生成一个新的segment,commit文件同步跟新。这样可以完成跟新，也产生了几个问题:1、每次一有数据就刷新到磁盘，会增大对磁盘的操作2、刷新到磁盘的时间占据很大一部分时间3、如果刷新的过程中刷新失败应该怎么控制呢？<iframe id="iframe_0.9985394181617475" style="border: medium; border-image: none; width: 503px; height: 380px;" src="data:text/html;charset=utf8,%3Cstyle%3Ebody%7Bmargin:0;padding:0%7D%3C/style%3E%3Cimg%20id=%22img%22%20src=%22http://www.th7.cn/d/file/p/2015/12/30/15c3acfd45d0dbcb84a26e6c5512b1aa.jpg?_=6096072%22%20style=%22border:none;max-width:1850px%22%3E%3Cscript%3Ewindow.onload%20=%20function%20()%20%7Bvar%20img%20=%20document.getElementById('img');%20window.parent.postMessage(%7BiframeId:'iframe_0.9985394181617475',width:img.width,height:img.height%7D,%20'http://www.cnblogs.com');%7D%3C/script%3E" frameborder="0" scrolling="no"></iframe><iframe id="iframe_0.7457630472138725" style="border: medium; border-image: none; width: 748px; height: 492px;" src="data:text/html;charset=utf8,%3Cstyle%3Ebody%7Bmargin:0;padding:0%7D%3C/style%3E%3Cimg%20id=%22img%22%20src=%22http://www.th7.cn/d/file/p/2015/12/30/176ad9e6c5968cff438c251bedaa4bed.jpg?_=6096072%22%20style=%22border:none;max-width:1850px%22%3E%3Cscript%3Ewindow.onload%20=%20function%20()%20%7Bvar%20img%20=%20document.getElementById('img');%20window.parent.postMessage(%7BiframeId:'iframe_0.7457630472138725',width:img.width,height:img.height%7D,%20'http://www.cnblogs.com');%7D%3C/script%3E" frameborder="0" scrolling="no"></iframe>
<iframe id="iframe_0.930191672992274" style="border: medium; border-image: none; width: 746px; height: 493px;" src="data:text/html;charset=utf8,%3Cstyle%3Ebody%7Bmargin:0;padding:0%7D%3C/style%3E%3Cimg%20id=%22img%22%20src=%22http://www.th7.cn/d/file/p/2015/12/30/9cea8a905ceded50467ca2b99564cde7.jpg?_=6096072%22%20style=%22border:none;max-width:1850px%22%3E%3Cscript%3Ewindow.onload%20=%20function%20()%20%7Bvar%20img%20=%20document.getElementById('img');%20window.parent.postMessage(%7BiframeId:'iframe_0.930191672992274',width:img.width,height:img.height%7D,%20'http://www.cnblogs.com');%7D%3C/script%3E" frameborder="0" scrolling="no"></iframe>

2、删除和更新

segment是不可变的，所以文档即不能从旧的段中删除，旧的段也不能更新以反映文档最新的文本。相反，每一个提交点包括一个.del文件，包含了段上已经被删除的文档当一个文档被删除，它是实际上只是在.del文件中被标记删除，亦然可以匹配查询，但最终返回之前会被从结果中删除。文档的跟新操作是类似的：当一个文档被更新，旧版本的文档被标记为删除，新版本的文档在新的段中索引。也许该文档的不同版本都会匹配一个查询，但是老版本会从结果中删除。

3、利用磁盘缓存实现的准实时检索

既然涉及到磁盘，那么一个不可避免的问题就来了：磁盘太慢了！对我们要求的实时性很高的服务来说，这种处理还不够。所以，在刚刚第3步的处理中，还有一个中间状态:1）内存buffer生成一个新的segment，刷到文件系统缓存中，Lucene即可检索到这个新的segment,索引状态如图所示。2）文件系统缓存真正同步到磁盘上，commit文件跟新。刷到文件系统缓存中这个步骤，Elasticsearch默认1s的时间间隔，这也就是说相当于是实时搜索的，Elasticsearch也提供了单独的/_reflush接口，用户如果对1s间隔还是不太满意，可以主动调用接口来保证搜索可见。

POST /_refresh <1>POST /blogs/_refresh <2>

<1> refresh所有索引
<2> 只refresh 索引blogs

一般来说我们会通过/_settings接口或者定制template的方式，加大refresh_interval参数：

PUT /my_logs/_settings{ "refresh_interval": -1 } <1>PUT /my_logs/_settings{ "refresh_interval": "1s" } <2>

<1> 禁用所有自动refresh
<2> 每秒自动refresh

4、translog提供的磁盘同步控制

既然refresh只是写到文件系统缓存中，那么最后一步写到实际磁盘又是由什么来控制的呢？如果这期间发生主机错误、硬盘故障等异常情况，数据会不会丢失？这里，其实Elasticsearch提供了另一个机制来控制。Elasticsearch也把数据写入到内存buffer的同时，其实还另外记录了一个treanslog的日志。也就是说，在内存数据进入到buffer这一步骤时，其实还另外记录了一个translog记录。

Elasticsearch的架构相关推荐

Elasticsearch 分布式架构原理
前言前面介绍了很多ES使用过程中的具体实战知识点,本文主要是谈谈ES分布式架构原理. 一.Elasticsearch特点 elasticsearch是近实时的分布式搜索分析引擎,底层实现基于Luce ...
ElasticSearch部署架构和容量规划
一.前言前面介绍了ElasticSearch原理和使用相关的内容,在生产环境如何比较科学的进行容量规划.部署.调优.排查问题呢,业界和官方也对相关的问题进行总结,我这边也结合自己的经验对这些使用El ...
ES：Elasticsearch的架构（二）
Gateway层 es用来存储索引文件的一个文件系统且它支持很多类型,例如:本地磁盘.共享存储(做snapshot的时候需要用到).hadoop的hdfs分布式存储.亚马逊的S3.它的主要职责是用来对 ...
从Elasticsearch来看分布式系统架构设计，真是666~
欢迎关注方志朋的博客,回复"666"获面试宝典分布式系统类型多,涉及面非常广,不同类型的系统有不同的特点,批量计算和实时计算就差别非常大.这篇文章中,重点会讨论下分布式数据系统的 ...
ElasticSearch是否有架构？
1.ElasticSearch可以有一个架构.架构是描述文档类型以及如何处理文档的不同字段的一个或多个字段的描述.Elasticsearch中的架构是一种映射,它描述了JSON文档中的字段及其数据类型 ...
从 Elasticsearch 来看分布式系统架构设计
云栖君导读: 分布式系统类型多,涉及面非常广,不同类型的系统有不同的特点,批量计算和实时计算就差别非常大.这篇文章中,重点会讨论下分布式数据系统的设计,比如分布式存储系统,分布式搜索系统,分布式分析系 ...
Elasticsearch 架构以及源码概览
https://mp.weixin.qq.com/s/k_FjSOqZmTaCknBRwaiw7Q Elasticsearch 是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基 ...
58同城 Elasticsearch 应用及平台建设实践
分享嘉宾:于伯伟 58同城高级架构师编辑整理:陈树昌内容来源:DataFunTalk 导读:Elasticsearch是一个分布式的搜索和分析引擎,可以用于全文检索.结构化检索和分析,并能将这三 ...
滴滴千万级ElasticSearch平台发展之路！
来自:滴滴技术导读:滴滴 ElasticSearch 团队经过 7 个月的奋斗,将维护国内的 30 多个 ES 集群,2000 多个 ES 节点,4PB 的数据,从 2.3.3 跨大版本无缝升级到 ...

Elasticsearch的架构