首先介绍annoy :

Annoy是高维空间求近似最近邻的一个开源库。

Annoy构建一棵二叉树,查询时间为O(logn)。

Annoy通过随机挑选两个点,并使用垂直于这个点的等距离超平面将集合划分为两部分。

如图所示,图中灰色线是连接两个点,超平面是加粗的黑线。按照这个方法在每个子集上迭代进行划分。

依此类推,直到每个集合最多剩余k个点,下图是一个k = 10 的情况。

  n_trees在构建时提供,并影响构建时间和索引大小。 较大的值将给出更准确的结果,但更大的索引。

  search_k在运行时提供,并影响搜索性能。 较大的值将给出更准确的结果,但将需要更长的时间返回。

代码实现:

# pip install annoy == 1.17.0 -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn
from tqdm import tq

向量搜索查询faiss、annoy相关推荐

  1. faiss通用向量搜索服务玩转腾讯880万词向量

    通用向量搜索服务 faiss是个高效的向量搜索解决方案,经过测试对比,可以感受到它的飞速,关于faiss性能测试的见这里:faiss包装与性能对比 这次开源的是使用faiss搭建的通用向量搜索服务. ...

  2. 2引擎帮助文档_使用Sentence Transformers和Faiss构建语义搜索引擎

    介绍 您是否曾经想过如何使用Sentence Transformers创建嵌入向量,并在诸如语义文本相似这样的下游任务中使用它们? 在本教程中,您将学习如何使用Sentence Transformer ...

  3. 使用Sentence Transformers和Faiss构建语义搜索引擎

    介绍 您是否曾经想过如何使用Sentence Transformers创建嵌入向量,并在诸如语义文本相似这样的下游任务中使用它们? 在本教程中,您将学习如何使用Sentence Transformer ...

  4. 「新数据」太棘手,向量数据库来帮忙!《新程序员》刊登 Zilliz 长文解读

    新数据库时代,数据库领域有哪些新技术.新应用?谁将改变数据库的游戏规则? 酷爱阅读科技杂志的 Z 宝,刚刚收到了刊登了 Zilliz 长篇署名文章的<新程序员>! 顺手一翻,Z 宝不禁感叹 ...

  5. 算法工程 # 深度学习算法落地最后一公里:工业界中的大规模向量检索

    前言:现代深度学习实践中很多场景其实都是对输入数据进行处理.嵌入,最终获得一个 embedding,然后对 embedding 进行相似度检索,而工业界中的被检索数据往往是海量的,因此深度学习模型落地 ...

  6. 【读点论文】PP-ShiTu: A Practical Lightweight Image Recognition System,百度推出的强大人工智能产品

    PP-ShiTu: A Practical Lightweight Image Recognition System 图像识别,是指利用计算机对图像进行处理.分析和理解,以识别各种不同模式的目标和对象 ...

  7. 引入txtai,这是一种基于Transformers的AI驱动的搜索引擎

    Search is the base of many applications. Once data starts to pile up, users want to be able to find ...

  8. PinSAGE有伴了! 快速了解PinnerSAGE模型

    今天讲解的论文是KDD2020的论文<PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinter ...

  9. Milvus加入LF AI孵化,立志成为最流行的AI数据平台

    作者 |  ZILLIZ RDS 本文系作者投稿,不代表CSDN立场 Milvus 特征向量相似度搜索引擎通过技术委员会投票,正式加入 Linux AI (LF AI)基金会成为其最新的孵化项目.LF ...

最新文章

  1. aaronyang的百度地图API之LBS云 笔记[开发准备]
  2. shell编程之特殊变量
  3. 风控特征:时间滑窗统计特征体系
  4. C语言入门(4)——常量、变量与赋值
  5. HDU1069 最长上升子序列
  6. java代码中何处以main开始_自测题: Java 基础
  7. (软件工程复习核心重点)第二章可行性研究-第四节:数据字典
  8. GNU make manual 翻译(三十一)
  9. 波卡生态DeFi项目Stone将于3月31日在DODO平台创建DVM流动性池并开启交易
  10. HDU 6090 Rikka with Graph 思维 公式
  11. js+运行+php+文件,php中运行JS
  12. TRegExpr正则表达式
  13. 非极大值抑制(non-maximum suppression)的理解与实现
  14. Xilinx Artix-7 Aurora调试过程中遇到的问题
  15. SQL server 数据库查询语句的基本实现
  16. C++Qt开发——Linguist语言家
  17. ICGC:国际肿瘤基因组协会简介
  18. 提高转化率的 3 个客户引导最佳实践
  19. java利用xml生成excel_JAVA环境中基于XML的一种EXCEL报表生成方法
  20. html中鱼眼效果,鱼眼镜头使用入门指南:鱼眼镜头应该怎么用(附后期鱼眼效果)...

热门文章

  1. Kafka的Streams
  2. 淡黄色阴离子交换树脂-CsPbBr3量子点/FA-PEG-DSPE-CdTe的制备
  3. 软件测试缺陷等级划分标准
  4. php实现stripos,PHP stripos
  5. C++ MessageBox
  6. DataView 使用技巧 [转]
  7. Netflix将利用人工智能技术改善手机用户观影体验
  8. WhatWeb 网站指纹识别软件
  9. Linux设备模型分析之kset(基于3.10.1内核)
  10. 区块链/以太坊/读书笔记/精通以太坊思维导图