深度学习——NLP-1.搜索
目录
1.1 搜索引擎怎么工作
1.2 统计学让搜索速度起飞
1.2.1 TF-IDF的计算代码:
1.3 搜索的扩展
1.1 搜索引擎怎么工作
google baidu ……
索引存在库中
蜘蛛爬取
对视频图像等——将图片变成数字,在对比。
多模态搜索
数据量大:批量召回(先构建索引)、粗排(TF-IDF、相似度筛选)、精排
TF:词频 (文章信息的局部信息)
IDF:逆文本频率指数 (系统的全局信息)
1.2 统计学让搜索速度起飞
把语言向量化
TF-IDF(它使用词语的重要程度与独特性来代表每篇文章,然后通过对比搜索词与代表的相似性,给你提供最相似的文章列表)
TF-IDF:不是神经网络或者深度学习,是基于统计学的方法,这种方法在文档量巨大时,搜索速度很快。
TF-IDF数学表达形式:向量
cos距离计算两个文章的夹角
1.2.1 TF-IDF的计算代码:
from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer()
tf_idf = vectorizer.fit_transform(docs)
print("idf: ", [(n, idf) for idf, n in zip(vectorizer.idf_, vectorizer.get_feature_names())])
print("v2i: ", vectorizer.vocabulary_)
计算夹角代码
q = "I get a coffee cup"
qtf_idf = vectorizer.transform([q])
res = cosine_similarity(tf_idf, qtf_idf)
res = res.ravel().argsort()[-3:]
print("\ntop 3 docs for '{}':\n{}".format(q, [docs[i] for i in res[::-1]]))
1.3 搜索的扩展
IDF带有某个领域的全局信息。如果恰好要做一个领域的搜索,又恰好有这个领域的IDF分布,就省去了很多数据收集的烦恼。
在机器学习中神经网络模型方面,迁移学习正好就是这个道理。
集群版搜索——ElasticSearch(BM25)
一个完整的搜索流程:
首先输入搜索问句,然后对其进行预处理,包括分词、敏感词过滤、纠错等等;再通过各种召回策略,比如TF-IDF、ElasticSearch召回等,得到候选答案;最后再做一些业务层面的过滤处理,才能得到你的搜索展示框的内容。
深度学习——NLP-1.搜索相关推荐
- [旧文新读] 深度学习在Airbnb搜索的应用实践
作者 | Mr.张@知乎 整理 | NewBeeNLP 这篇文章是airbnb团队在KDD2019上的一篇文章.在当时来看,GBDT的模型已经对他们的业务有了一定的贡献,这篇文章主要是在讲,该团队在尝 ...
- GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)
目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...
- 保健中的深度学习nlp技术用于决策
介绍 (Introduction) The ubiquitous adoption of electronic health records in hospitals and other health ...
- 一文概述2017年深度学习NLP重大进展与趋势
本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...
- 使用深度学习和树搜索进行从零开始的既快又慢的学习
本文介绍了来自伦敦大学学院(UCL)Thomas Anthony.Zheng Tian 与 David Barber 的深度学习与树搜索研究.该论文已被 NIPS 2017 大会接收. 二元处理机制理 ...
- [深度学习-NLP]什么是Self-attention, Muti-attention和Transformer
系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer 深度学习NLP(三)之 ...
- 深度学习(1)---2017年深度学习NLP重大进展与趋势
深度学习(DL)架构和算法在图像识别.语音处理等领域实现了很大的进展.而深度学习在自然语言处理方面的表现最初并没有那么起眼,不过现在我们可以看到深度学习对 NLP 的贡献,在很多常见的 NLP 任务中 ...
- 【自然语言处理】一文概述2017年深度学习NLP重大进展与趋势
选自 tryolabs 机器之心编译 参与:路雪.黄小天.蒋思源 作者通过本文概述了 2017 年深度学习技术在 NLP 领域带来的进步,以及未来的发展趋势,并与大家分享了这一年中作者最喜欢的研究.2 ...
- 今日头条李航:深度学习NLP的现有优势与未来挑战
近日,AI 技术大牛李航博士(已加入今日头条)在<国家科学评论>(National Science Review,NSR)上发表了一篇题为<Deep Learning for Nat ...
- 【AI in 美团】深度学习在美团搜索广告排序的应用实践
转自:https://mp.weixin.qq.com/s/9Fcj5lO-JPfFVnRSSM_56w [AI in 美团]深度学习在美团搜索广告排序的应用实践 AI(人工智能)技术已经广泛应用于美 ...
最新文章
- CSDN博客获取积分规则!不是下载积分!如何快速增长积分!
- 第八章 让开发板发出声音:蜂鸣器驱动读后感
- 在64-bit机器上运行32-big的应用程序,需要安装ia32-libs库
- linux中的3d设计软件,Linux专业画室:免费3D图形设计工具
- 倡导国际农民丰收节贸易会-万祥军:中国-中东欧谋定启动.
- 【运维技术】Zookeeper单机以及集群搭建教程
- 龙岩学院计算机专业宿舍,龙岩学院的各个学院位置有谁能说下
- Google电子地图基础及应用
- Tomcat服务器的安装及配置
- layui 鼠标移入变为小手_游戏技术上不去?看看外设选对没!鼠标篇
- [转]ClassPath是什么
- jvm 虚拟机的组成部分
- gps经纬度坐标 c语言,测试百度地图输入GPS经纬度显示位置API
- PID控制算法原理学习
- 宏观经济的基本指标及其衡量
- 全国所有省市区联动sql(包含台湾、香港、澳门)
- 朴树歌词分析--python爬虫
- Android Studio入门级教程(详细)【小白必看】
- codeforces CF487E Tourists 边双连通分量 树链剖分
- MipMap(纹理过滤)
热门文章
- Python使用requests和BeautifulSoup爬取网站内容
- 现金流量表口诀及财务流程
- 支付宝的下个千亿生意!揭秘阿里智能公交布局
- 《C++ 开发从入门到精通》——1.5 技术解惑
- 空气质量数据分析及web实现
- 【Vue】Vue基础知识点介绍(入门级,简单易懂)——day01
- 多元一次不定方程的强力算法---同余筛数法
- FWT / FMT 快速沃尔什/莫比乌斯变换 P4717
- python预测模型各国pm2.5年平均值_用scikit-learn来预测北京的pm2.5
- 创客学院知识巩固-06系统移植部分小结