NLP基础—1.NLP概述
文章目录
- 引言
- 一、NLP概述
- 1.如何解决NLP中的一词多义问题?
- 2.NLP的经典应用场景
- 3.解决一个NLP问题的经典流程是什么?
引言
AI工程师必备的核心技能:
现实生活问题——>数学优化问题——>通过合适工具来解决
长期学习思路:
- learn:通过视频学习
- read:养成读文章的习惯
- code:完成项目,一定要自己完成,写几万行代码有本质提升
- write:养成写文章的习惯,梳理思路,进行自我总结
- discuss:遇到疑惑的点,要善于与别人讨论
- collaboration:鼓励项目合作
nlp技术栈
一、NLP概述
NLP=NLU+NLG
- NLU:将语音/文本转化为结构化数据
- NLG:将结构化数据输入转化为文本/语音
NLP的难点(语言特性)有如下几点:
- 多种表达方式—Multiple Ways to express
- 一词多义—Ambiguity
- 多模态(需要知道上下文)—Multi-modal
1.如何解决NLP中的一词多义问题?
以Interest为例,
- Bank Loan Interest,这里是利息的意思
- fascination ,这里是兴趣的意思
- Part Ownership,这里是股份的意思
那么我们如何辨析这个词出现在某句话中真正代表的意思?
这就使用到绝大多数自然语言处理任务中的中心思想:使用上下文信息,将这个词的先验概率分布转变成后验概率分布,提升模型性能。
2.NLP的经典应用场景
Question Answering—问答系统
经典的问答系统有Watson,那么问答系统是怎么实现的呢?
先利用语料库生成知识库,许多领域会构建这个领域专有的知识库(知识图谱),知识图谱可以看做是抽取出来的关系(三元组),如何构建知识库?其中要用到信息抽取的一些技术Sentiment Analysis—情感分析
情感分析主要用于了解大众对于某件事情或某个产品的看法(正向/负向)。
情感分析常用于以下场景:股票价格预测(用情感分析系统分析市场上散户的情绪),舆情监控,产品评论,事件监测。由于一句话,可能涉及两种情感,基于这种情况,人们又开发出aspect-level模型
情感分析步骤:
在深度学习还没有兴起之前,人们常用步骤为输入语句——>特征工程——>模型——>情感值
在深度学习兴起后,人们的常用步骤为:
输入语句——>深度学习模型——>情感值
机器翻译
机器翻译领域给NLP领域带来了许多新的技术,这是因为机器翻译领域找到了一个很好的评价方法(评价指标),例如:BLEU。 机器翻译相对来说,已经是一种相对成熟的技术。Text Summarization—自动摘要生成
这个领域现有两种方式:
一种是基于抽取式的摘要生成,比如:100句话,抽取5句话,这5句话代表这100句话。新闻摘要生成可以用到这种方式。
另一种是基于生成式的解决方案,这种方案套用机器翻译中的序列到序列模型,这种方法的优势在于可以生成原文中没有的句子,但是这种方法生成句子的性能有限,所生成句子的流畅性,质量很难保证。lnformation Extraction—信息抽取
应用较广,核心就是从一个非结构化的文本中抽取出结构化的信息。说白了,就是一个NLU任务。
那么如何进行信息抽取?
这个问题可以拆解成几个子问题。信息抽取领域有如下子问题:- NER:命令实体识别
NER所解决的是将这句话中所涉及的实体都给处理出来,实体包括人名、地名、机构名、时间等 - Relation Extraction:关系抽取
获取实体间有什么关系,就可以生成结构化的信息
许多领域会构建这个领域专有的知识库(知识图谱),知识图谱可以看做是抽取出来的关系(三元组),如何构建知识库?其中要用到信息抽取的一些技术
- NER:命令实体识别
Dialoque System—对话系统
这个应用是NLP中的集大成者。通俗来讲,这个技术就是我们跟机器聊天。这个领域有非常长的研究历史,但是这个领域仍然有很多亟待去解决的问题。比较经典的是图灵测试
3.解决一个NLP问题的经典流程是什么?
- 原始文本
网页文本、新闻、报告等 - 分词
- 数据清洗
无用标签、特殊符号、停用词过滤、拼写纠错等 - 标准化
将同一意思的不同表示统一起来
Stemming、Lemmatization等 - 特征提取
tf-idf,word2vec等 - 建模
相似度算法、分类算法等
如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!
NLP基础—1.NLP概述相关推荐
- 【NLP基础】NLP关键字提取技术之LDA算法原理与实践
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要11分钟 跟随小博主,每天进步一丢丢 引文 人们是如何从大量文本资料中便捷得浏览和获取信息?答案你肯定会说通过关键字.仔细想想,我们人类是怎么提 ...
- 推荐一位零基础学 NLP 的大佬,内含成长历程
大佬介绍 大佬:笔名zenRRan,方向自然语言处理,方法主要是深度学习. 未来的目标:人工智能之自然语言处理博士. 写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小 ...
- 从语言学到深度学习NLP,一文概述自然语言处理
来源:萤火虫沙龙2 概要:自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注. 自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注.它已经应用于许多如机 ...
- Task01——零基础入门NLP - 新闻文本分类之赛题理解
本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...
- 零基础入门NLP - 新闻文本分类
本文是对阿里云新人竞赛中的"零基础入门NLP - 新闻文本分类"解体过程进行的记录,目前仅使用了textCNN模型进行预测,后续还会考虑使用LSTM进行对比. 赛题数据 赛题以新闻 ...
- 零基础入门NLP - 新闻文本分类,正式赛第一名方案分享
零基础入门NLP - 新闻文本分类,正式赛第一名方案分享:https://mp.weixin.qq.com/s/7WpZUqdlItBToLYuRLm44g
- 零基础入门NLP - 天池新闻文本分类Task3笔记
零基础入门NLP - 天池新闻文本分类 以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记 赛题链接:https://tianchi.aliyun.com/co ...
- 2021秋招-NLP基础任务模型-NER
NLP基础任务模型-NER 注: 基本全是转载,也都附加了转载链接,侵删. 多谢各位大佬的总结. 目录: 任务定义 简单综述 数据集细节总结 模型细节总结 损失函数计算 总结 NLP实战-中文命名实体 ...
- 零基础入门NLP之新闻文本分类挑战赛——赛题理解
假期还有两周左右就结束了,正巧,Datawhale联合天池发布了零基础入门NLP的学习,于是报名参加了零基础入门NLP-新闻文本分类. 本人之前刚接触NLP没多久,记录一下学习的历程,供和我一样的小白 ...
- nlp基础—8.隐马尔科夫模型(HMM)分词实现
文章目录 引言 HMM分词实现 理论部分传送门: nlp基础-7.隐马尔可夫模型(HMM算法) 数据代码链接见:https://gitee.com/lj857335332/hmm-for-word-s ...
最新文章
- ewebeditor编辑器ASP/ASPX/PHP/JSP版本漏洞利用总结及解决方法
- 清除BSS段的一般做法
- 正确使用stl map的erase方法
- Extjs 中的cookie设置
- 请不要做浮躁的嵌入式系统工程师(谨以此文与大家共勉)
- 8年前端开发的知识点沉淀(不知道会多少字,一直写下去吧,)
- com.mysql.jdbc.jdbc2.optional.MysqlXADataSource 找不到
- 牛奶盒喷码字符识别(基于opencv)————(三)字符的识别
- 23个平台短视频去水印解析下载接口
- 清华大学施一公,刚刚发现他的科学网的博客,好博啊
- 如何关闭谷歌浏览器阅读清单(新方法)
- Excel 录制宏 - 制作工资条
- 用*号输出字母C的图案。
- 银行贷款客户拉新活动分析——数据分析项目实战
- SDL2源码分析之OpenGL ES在windows上的渲染过程
- R语言 高版本 安装DMwR2 用knn插补缺失值
- mysql 更新 自我_ClickOnce DIY全自动更新下载升级的自我实现
- 2021-08-11王汕8.12黄金TD走势外汇黄金价格,现货白银TD投资操作策略
- 有时候努力,并不是自己心甘情愿
- 打造专递课堂,即构成为希沃专递课堂实时音视频技术唯一提供方