目录

1.1 搜索引擎怎么工作

1.2 统计学让搜索速度起飞

1.2.1 TF-IDF的计算代码:

1.3 搜索的扩展


1.1 搜索引擎怎么工作

google baidu ……

索引存在库中

蜘蛛爬取

对视频图像等——将图片变成数字,在对比。

多模态搜索

数据量大:批量召回(先构建索引)、粗排(TF-IDF、相似度筛选)、精排

TF:词频 (文章信息的局部信息)

IDF:逆文本频率指数 (系统的全局信息)

1.2 统计学让搜索速度起飞

把语言向量化

TF-IDF(它使用词语的重要程度与独特性来代表每篇文章,然后通过对比搜索词与代表的相似性,给你提供最相似的文章列表)

TF-IDF:不是神经网络或者深度学习,是基于统计学的方法,这种方法在文档量巨大时,搜索速度很快。

TF-IDF数学表达形式:向量

cos距离计算两个文章的夹角

1.2.1 TF-IDF的计算代码:

from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer()
tf_idf = vectorizer.fit_transform(docs)
print("idf: ", [(n, idf) for idf, n in zip(vectorizer.idf_, vectorizer.get_feature_names())])
print("v2i: ", vectorizer.vocabulary_)

计算夹角代码

q = "I get a coffee cup"
qtf_idf = vectorizer.transform([q])
res = cosine_similarity(tf_idf, qtf_idf)
res = res.ravel().argsort()[-3:]
print("\ntop 3 docs for '{}':\n{}".format(q, [docs[i] for i in res[::-1]]))

1.3 搜索的扩展

IDF带有某个领域的全局信息。如果恰好要做一个领域的搜索,又恰好有这个领域的IDF分布,就省去了很多数据收集的烦恼。

在机器学习中神经网络模型方面,迁移学习正好就是这个道理。

集群版搜索——ElasticSearch(BM25)

一个完整的搜索流程:

首先输入搜索问句,然后对其进行预处理,包括分词、敏感词过滤、纠错等等;再通过各种召回策略,比如TF-IDF、ElasticSearch召回等,得到候选答案;最后再做一些业务层面的过滤处理,才能得到你的搜索展示框的内容。

深度学习——NLP-1.搜索相关推荐

  1. [旧文新读] 深度学习在Airbnb搜索的应用实践

    作者 | Mr.张@知乎 整理 | NewBeeNLP 这篇文章是airbnb团队在KDD2019上的一篇文章.在当时来看,GBDT的模型已经对他们的业务有了一定的贡献,这篇文章主要是在讲,该团队在尝 ...

  2. GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)

    目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...

  3. 保健中的深度学习nlp技术用于决策

    介绍 (Introduction) The ubiquitous adoption of electronic health records in hospitals and other health ...

  4. 一文概述2017年深度学习NLP重大进展与趋势

    本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...

  5. 使用深度学习和树搜索进行从零开始的既快又慢的学习

    本文介绍了来自伦敦大学学院(UCL)Thomas Anthony.Zheng Tian 与 David Barber 的深度学习与树搜索研究.该论文已被 NIPS 2017 大会接收. 二元处理机制理 ...

  6. [深度学习-NLP]什么是Self-attention, Muti-attention和Transformer

    系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer 深度学习NLP(三)之 ...

  7. 深度学习(1)---2017年深度学习NLP重大进展与趋势

    深度学习(DL)架构和算法在图像识别.语音处理等领域实现了很大的进展.而深度学习在自然语言处理方面的表现最初并没有那么起眼,不过现在我们可以看到深度学习对 NLP 的贡献,在很多常见的 NLP 任务中 ...

  8. 【自然语言处理】一文概述2017年深度学习NLP重大进展与趋势

    选自 tryolabs 机器之心编译 参与:路雪.黄小天.蒋思源 作者通过本文概述了 2017 年深度学习技术在 NLP 领域带来的进步,以及未来的发展趋势,并与大家分享了这一年中作者最喜欢的研究.2 ...

  9. 今日头条李航:深度学习NLP的现有优势与未来挑战

    近日,AI 技术大牛李航博士(已加入今日头条)在<国家科学评论>(National Science Review,NSR)上发表了一篇题为<Deep Learning for Nat ...

  10. 【AI in 美团】深度学习在美团搜索广告排序的应用实践

    转自:https://mp.weixin.qq.com/s/9Fcj5lO-JPfFVnRSSM_56w [AI in 美团]深度学习在美团搜索广告排序的应用实践 AI(人工智能)技术已经广泛应用于美 ...

最新文章

  1. CSDN博客获取积分规则!不是下载积分!如何快速增长积分!
  2. 第八章 让开发板发出声音:蜂鸣器驱动读后感
  3. 在64-bit机器上运行32-big的应用程序,需要安装ia32-libs库
  4. linux中的3d设计软件,Linux专业画室:免费3D图形设计工具
  5. 倡导国际农民丰收节贸易会-万祥军:中国-中东欧谋定启动.
  6. 【运维技术】Zookeeper单机以及集群搭建教程
  7. 龙岩学院计算机专业宿舍,龙岩学院的各个学院位置有谁能说下
  8. Google电子地图基础及应用
  9. Tomcat服务器的安装及配置
  10. layui 鼠标移入变为小手_游戏技术上不去?看看外设选对没!鼠标篇
  11. [转]ClassPath是什么
  12. jvm 虚拟机的组成部分
  13. gps经纬度坐标 c语言,测试百度地图输入GPS经纬度显示位置API
  14. PID控制算法原理学习
  15. 宏观经济的基本指标及其衡量
  16. 全国所有省市区联动sql(包含台湾、香港、澳门)
  17. 朴树歌词分析--python爬虫
  18. Android Studio入门级教程(详细)【小白必看】
  19. codeforces CF487E Tourists 边双连通分量 树链剖分
  20. MipMap(纹理过滤)

热门文章

  1. Python使用requests和BeautifulSoup爬取网站内容
  2. 现金流量表口诀及财务流程
  3. 支付宝的下个千亿生意!揭秘阿里智能公交布局
  4. 《C++ 开发从入门到精通》——1.5 技术解惑
  5. 空气质量数据分析及web实现
  6. 【Vue】Vue基础知识点介绍(入门级,简单易懂)——day01
  7. 多元一次不定方程的强力算法---同余筛数法
  8. FWT / FMT 快速沃尔什/莫比乌斯变换 P4717
  9. python预测模型各国pm2.5年平均值_用scikit-learn来预测北京的pm2.5
  10. 创客学院知识巩固-06系统移植部分小结