文章目录

  • 引言
  • 一、NLP概述
    • 1.如何解决NLP中的一词多义问题?
    • 2.NLP的经典应用场景
    • 3.解决一个NLP问题的经典流程是什么?

引言

  AI工程师必备的核心技能:

现实生活问题——>数学优化问题——>通过合适工具来解决

  长期学习思路:

  • learn:通过视频学习
  • read:养成读文章的习惯
  • code:完成项目,一定要自己完成,写几万行代码有本质提升
  • write:养成写文章的习惯,梳理思路,进行自我总结
  • discuss:遇到疑惑的点,要善于与别人讨论
  • collaboration:鼓励项目合作

  nlp技术栈

一、NLP概述

  NLP=NLU+NLG

  • NLU:将语音/文本转化为结构化数据
  • NLG:将结构化数据输入转化为文本/语音

NLP的难点(语言特性)有如下几点:

  1. 多种表达方式—Multiple Ways to express
  2. 一词多义—Ambiguity
  3. 多模态(需要知道上下文)—Multi-modal

1.如何解决NLP中的一词多义问题?

以Interest为例,

  1. Bank Loan Interest,这里是利息的意思
  2. fascination ,这里是兴趣的意思
  3. Part Ownership,这里是股份的意思

那么我们如何辨析这个词出现在某句话中真正代表的意思?
  这就使用到绝大多数自然语言处理任务中的中心思想:使用上下文信息,将这个词的先验概率分布转变成后验概率分布,提升模型性能。

2.NLP的经典应用场景

  1. Question Answering—问答系统
    经典的问答系统有Watson,那么问答系统是怎么实现的呢?
    先利用语料库生成知识库,许多领域会构建这个领域专有的知识库(知识图谱),知识图谱可以看做是抽取出来的关系(三元组),如何构建知识库?其中要用到信息抽取的一些技术

  2. Sentiment Analysis—情感分析
    情感分析主要用于了解大众对于某件事情或某个产品的看法(正向/负向)。
    情感分析常用于以下场景:股票价格预测(用情感分析系统分析市场上散户的情绪),舆情监控,产品评论,事件监测。

    由于一句话,可能涉及两种情感,基于这种情况,人们又开发出aspect-level模型

    情感分析步骤:
    在深度学习还没有兴起之前,人们常用步骤为

    输入语句——>特征工程——>模型——>情感值

    在深度学习兴起后,人们的常用步骤为:

    输入语句——>深度学习模型——>情感值

  3. 机器翻译
    机器翻译领域给NLP领域带来了许多新的技术,这是因为机器翻译领域找到了一个很好的评价方法(评价指标),例如:BLEU。 机器翻译相对来说,已经是一种相对成熟的技术。

  4. Text Summarization—自动摘要生成
    这个领域现有两种方式:
    一种是基于抽取式的摘要生成,比如:100句话,抽取5句话,这5句话代表这100句话。新闻摘要生成可以用到这种方式。
    另一种是基于生成式的解决方案,这种方案套用机器翻译中的序列到序列模型,这种方法的优势在于可以生成原文中没有的句子,但是这种方法生成句子的性能有限,所生成句子的流畅性,质量很难保证。

  5. lnformation Extraction—信息抽取
    应用较广,核心就是从一个非结构化的文本中抽取出结构化的信息。说白了,就是一个NLU任务。
    那么如何进行信息抽取?
    这个问题可以拆解成几个子问题。信息抽取领域有如下子问题:

    • NER:命令实体识别
      NER所解决的是将这句话中所涉及的实体都给处理出来,实体包括人名、地名、机构名、时间等
    • Relation Extraction:关系抽取
      获取实体间有什么关系,就可以生成结构化的信息
      许多领域会构建这个领域专有的知识库(知识图谱),知识图谱可以看做是抽取出来的关系(三元组),如何构建知识库?其中要用到信息抽取的一些技术
  6. Dialoque System—对话系统
    这个应用是NLP中的集大成者。通俗来讲,这个技术就是我们跟机器聊天。这个领域有非常长的研究历史,但是这个领域仍然有很多亟待去解决的问题。比较经典的是图灵测试

3.解决一个NLP问题的经典流程是什么?

  1. 原始文本
    网页文本、新闻、报告等
  2. 分词
  3. 数据清洗
    无用标签、特殊符号、停用词过滤、拼写纠错等
  4. 标准化
    将同一意思的不同表示统一起来
    Stemming、Lemmatization等
  5. 特征提取
    tf-idf,word2vec等
  6. 建模
    相似度算法、分类算法等

如果对您有帮助,麻烦点赞关注,这真的对我很重要!!!如果需要互关,请评论或者私信!


NLP基础—1.NLP概述相关推荐

  1. 【NLP基础】NLP关键字提取技术之LDA算法原理与实践

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要11分钟 跟随小博主,每天进步一丢丢 引文 人们是如何从大量文本资料中便捷得浏览和获取信息?答案你肯定会说通过关键字.仔细想想,我们人类是怎么提 ...

  2. 推荐一位零基础学 NLP 的大佬,内含成长历程

    大佬介绍 大佬:笔名zenRRan,方向自然语言处理,方法主要是深度学习. 未来的目标:人工智能之自然语言处理博士. 写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小 ...

  3. 从语言学到深度学习NLP,一文概述自然语言处理

    来源:萤火虫沙龙2 概要:自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注. 自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注.它已经应用于许多如机 ...

  4. Task01——零基础入门NLP - 新闻文本分类之赛题理解

    本篇目标 首先本篇文章会对赛题进行介绍以及个人对赛题的理解,带大家接触NLP的预处理.模型构建和模型训练等知识点. 赛题介绍 赛题名称:零基础入门NLP - 新闻文本分类 赛题任务:赛题以自然语言处理 ...

  5. 零基础入门NLP - 新闻文本分类

    本文是对阿里云新人竞赛中的"零基础入门NLP - 新闻文本分类"解体过程进行的记录,目前仅使用了textCNN模型进行预测,后续还会考虑使用LSTM进行对比. 赛题数据 赛题以新闻 ...

  6. 零基础入门NLP - 新闻文本分类,正式赛第一名方案分享

    零基础入门NLP - 新闻文本分类,正式赛第一名方案分享:https://mp.weixin.qq.com/s/7WpZUqdlItBToLYuRLm44g

  7. 零基础入门NLP - 天池新闻文本分类Task3笔记

    零基础入门NLP - 天池新闻文本分类 以下以Datawhale与天池举办的新闻文本分类这个NLP赛题做的NLP入门Task2笔记 赛题链接:https://tianchi.aliyun.com/co ...

  8. 2021秋招-NLP基础任务模型-NER

    NLP基础任务模型-NER 注: 基本全是转载,也都附加了转载链接,侵删. 多谢各位大佬的总结. 目录: 任务定义 简单综述 数据集细节总结 模型细节总结 损失函数计算 总结 NLP实战-中文命名实体 ...

  9. 零基础入门NLP之新闻文本分类挑战赛——赛题理解

    假期还有两周左右就结束了,正巧,Datawhale联合天池发布了零基础入门NLP的学习,于是报名参加了零基础入门NLP-新闻文本分类. 本人之前刚接触NLP没多久,记录一下学习的历程,供和我一样的小白 ...

  10. nlp基础—8.隐马尔科夫模型(HMM)分词实现

    文章目录 引言 HMM分词实现 理论部分传送门: nlp基础-7.隐马尔可夫模型(HMM算法) 数据代码链接见:https://gitee.com/lj857335332/hmm-for-word-s ...

最新文章

  1. ewebeditor编辑器ASP/ASPX/PHP/JSP版本漏洞利用总结及解决方法
  2. 清除BSS段的一般做法
  3. 正确使用stl map的erase方法
  4. Extjs 中的cookie设置
  5. 请不要做浮躁的嵌入式系统工程师(谨以此文与大家共勉)
  6. 8年前端开发的知识点沉淀(不知道会多少字,一直写下去吧,)
  7. com.mysql.jdbc.jdbc2.optional.MysqlXADataSource 找不到
  8. 牛奶盒喷码字符识别(基于opencv)————(三)字符的识别
  9. 23个平台短视频去水印解析下载接口
  10. 清华大学施一公,刚刚发现他的科学网的博客,好博啊
  11. 如何关闭谷歌浏览器阅读清单(新方法)
  12. Excel 录制宏 - 制作工资条
  13. 用*号输出字母C的图案。
  14. 银行贷款客户拉新活动分析——数据分析项目实战
  15. SDL2源码分析之OpenGL ES在windows上的渲染过程
  16. R语言 高版本 安装DMwR2 用knn插补缺失值
  17. mysql 更新 自我_ClickOnce DIY全自动更新下载升级的自我实现
  18. 2021-08-11王汕8.12黄金TD走势外汇黄金价格,现货白银TD投资操作策略
  19. 有时候努力,并不是自己心甘情愿
  20. 打造专递课堂,即构成为希沃专递课堂实时音视频技术唯一提供方

热门文章

  1. Android对话框
  2. sql server 恢复数据库时提示有其他用户连接,怎么办?
  3. Basic INFO: InstallShield 2012安装过程
  4. 机器学习(6)——朴素贝叶斯(文本分类)
  5. C语言中可变参函数介绍与示例
  6. 2018-2019-1 20165307 20165327 20165332 实验二 固件程序设计
  7. Quartz.Net定时任务简单实用(实例)
  8. GeoQuiz初体验
  9. ServletContext的应用
  10. 看代码学知识之(1) 获取当前线程状态