wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里...

前面说过，接收indexerRequest的代码在index_worker.go里：

func (engine *Engine) indexerAddDocumentWorker(shard int) {for {request := <-engine.indexerAddDocumentChannels[shard] //关键addInvertedIndex := engine.indexers[shard].AddDocument(request.document, request.dealDocInfoChan) // 向反向索引表(数组)中加入一个文档// saveif engine.initOptions.UsePersistentStorage {for k, v := range addInvertedIndex {engine.persistentStorageIndexDocumentChannels[shard] <- persistentStorageIndexDocumentRequest{typ:            "index",keyword:        k,keywordIndices: v,}}}atomic.AddUint64(&engine.numTokenIndexAdded,uint64(len(request.document.Keywords)))atomic.AddUint64(&engine.numDocumentsIndexed, 1)}
}

持久化的代码：engine/persistent_storage_worker.go

package engineimport ("bytes""encoding/binary""encoding/gob""github.com/huichen/wukong/core""github.com/huichen/wukong/types""sync""sync/atomic"
)type persistentStorageIndexDocumentRequest struct {typ string //"info"or"index"// typ=="info"时，以下两个字段有效
    docId   uint64docInfo *types.DocInfo// typ=="index"时，以下两个字段有效keyword        stringkeywordIndices *types.KeywordIndices
}func (engine *Engine) persistentStorageIndexDocumentWorker(shard int) {for {request := <-engine.persistentStorageIndexDocumentChannels[shard]switch request.typ {case "info":// 得到keyb := make([]byte, 10)length := binary.PutUvarint(b, request.docId)// 得到valuevar buf bytes.Bufferenc := gob.NewEncoder(&buf)err := enc.Encode(request.docInfo)if err != nil {atomic.AddUint64(&engine.numDocumentsStored, 1)return}// 将key-value写入数据库engine.dbs[shard][getDB(request.typ)].Set(b[0:length], buf.Bytes())atomic.AddUint64(&engine.numDocumentsStored, 1)case "index":// 得到keyb := []byte(request.keyword)// 得到valuevar buf bytes.Bufferenc := gob.NewEncoder(&buf)err := enc.Encode(request.keywordIndices)if err != nil {return}// 将key-value写入数据库
            engine.dbs[shard][getDB(request.typ)].Set(b, buf.Bytes())}}
}func (engine *Engine) persistentStorageRemoveDocumentWorker(docId uint64, shard int) {// 得到keyb := make([]byte, 10)length := binary.PutUvarint(b, docId)// 从数据库删除该keyengine.dbs[shard][getDB("info")].Delete(b[0:length])
}func (engine *Engine) persistentStorageInitWorker(shard int) {var finish sync.WaitGroupfinish.Add(2)// 恢复docInfo
    go func() {defer finish.Add(-1)engine.dbs[shard][getDB("info")].ForEach(func(k, v []byte) error {key, value := k, v// 得到docIDdocId, _ := binary.Uvarint(key)// 得到databuf := bytes.NewReader(value)dec := gob.NewDecoder(buf)var data types.DocInfoerr := dec.Decode(&data)if err == nil {// 添加索引core.AddDocInfo(shard, docId, &data)}return nil})}()// 恢复invertedIndex
    go func() {defer finish.Add(-1)engine.dbs[shard][getDB("index")].ForEach(func(k, v []byte) error {key, value := k, v// 得到keywordkeyword := string(key)// 得到databuf := bytes.NewReader(value)dec := gob.NewDecoder(buf)var data types.KeywordIndiceserr := dec.Decode(&data)if err == nil {// 添加索引core.AddKeywordIndices(shard, keyword, &data)}return nil})}()finish.Wait()engine.persistentStorageInitChannel <- true
}

可以看到，倒排索引存在DB里是丑陋的，直接set(key, value) 其中，key是倒排列表的关键字，而value是doc id list也就是数组。

如果索引比较多，每次去DB set是非常耗时的，尤其针对同一个keyword有doc id插入时！

总之，wukong对于持久化的做法很丑陋！

转载于:https://www.cnblogs.com/bonelee/p/6582163.html

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里...相关推荐

wukong引擎源码分析之索引——part 1 倒排列表本质是有序数组存储
searcher.IndexDocument(0, types.DocumentIndexData{Content: "此次百度收购将成中国互联网最大并购"}) engine.go ...
wukong引擎源码分析之索引——part 3 文档评分无非就是将docid对应的fields信息存储起来，为搜索结果rank评分用...
之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里: func (engine *Engine) segmenterWorker() {for {request := ...
wukong引擎源码分析之搜索——docid有序的数组里二分归并求交集，如果用跳表的话，在插入索引时会更快...
searcher.Search(types.SearchRequest{Text: "百度中国"}) // 查找满足搜索条件的文档,此函数线程安全 func (engine *En ...
虚幻引擎源码分析（5）
虚幻引擎源码分析(5)
从源码分析RocketMQ系列-RocketMQ消息持久化源码详解
导语在上篇分析中,提到了一个概念处理器,并且在进入到最终NettyIO的时候看到了一个Pair的对象,这个对象存储了两个对象,一个是执行器,一个是处理器,在进入Runable对象的时候看到封装到 ...
白鹭php源码,egret 2D引擎源码分析(二) 创建播放器
本帖最后由 fightingcat 于 2016-7-16 00:26 编辑上一篇讲到了引擎的入口runEgret为每一个播放器标签(就是index.html中看到的那个之前web.WebPlay ...
bleve搜索引擎源码分析之索引——mapping真复杂啊
接下来看看下面index部分的源码实现: data := struct {Name stringDes string}{Name: "hello world this is bone&quo ...
悟空分词与mysql结合_悟空分词的搜索和排序源码分析之——索引
转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 索引过程分析下面我们来分析索引过程. // 将文档加入索引 // // ...
以太坊共识引擎源码分析
这一篇分析以太坊的共识引擎,先看一下各组件之间的关系: Engine接口定义了共识引擎需要实现的所有函数,实际上按功能可以划分为2类: 区块验证类:以Verify开头,当收到新区块时,需要先验证区块的 ...

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里...

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里...相关推荐

最新文章

热门文章

wukong引擎源码分析之索引——part 2 持久化 直接set（key，docID数组）在kv存储里...

wukong引擎源码分析之索引——part 2 持久化 直接set（key，docID数组）在kv存储里...相关推荐

最新文章

热门文章

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里...

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里...相关推荐