最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM、贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写下此文。

思维导图

https://www.processon.com/mindmap/61888043e401fd453a21e978

文本分类简介

文本分类(Text Classification 或 Text Categorization,TC),又称自动文本分类(Automatic Text Categorization),是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程,实现这一过程的算法模型叫做分类器。文本分类问题算是自然语言处理领域中一个非常经典的问题。

根据预定义的类别不同,文本分类分两种:二分类多分类,多分类可以通过二分类来实现。
从文本的标注类别上来讲,文本分类又可以分为单标签多标签,因为很多文本同时可以关联到多个类别。

文本分类词云一览

这张图真的是太棒了:

文本分类历史

文本分类最初是通过专家规则(Pattern)进行分类,利用知识工程建立专家系统,这样做的好处是比较直观地解决了问题,但费时费力,覆盖的范围和准确率都有限。
后来伴随着统计学习方法的发展,特别是 90 年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典做法,也即特征工程 + 浅层分类模型。又分为传统机器学习方法深度学习文本分类方法

文本分类应用场景

文本分类的主流应用场景有:

  • 情感分析:sentiment analysis ( SA)
  • 话题标记:topic labeling(TL)
  • 新闻分类:news classification (NC)
  • 问答系统:question answering(QA)
  • 对话行为分类:dialog act classification (DAC)
  • 自然语言推理:natural language inference (NLD),
  • 关系分类:relation classification (RC)
  • 事件预测:event prediction (EP)

自然语言处理—文本分类综述/什么是文本分类相关推荐

  1. 自然语言处理——文本分类综述

    最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM.贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写 ...

  2. 【NLP】文本分类综述 (上)

    NewBeeNLP公众号原创出品 公众号专栏作者 @lucy 北航博士在读 · 文本挖掘/事件抽取方向 本系列文章总结自然语言处理(NLP)中最基础最常用的「文本分类」任务,主要包括以下几大部分: 综 ...

  3. 最新综述:用于文本分类的数据增强方法

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 概要 数据增强,即通过转换为机器学习人工创建训练数据,是跨机器学习学科广泛研究的研究领域.它 ...

  4. ig信息增益 java_文本分类综述

    文本分类是一项系统的工程,所涉及的技术很多,按流程可以将文本分类分为:文本预处理阶段.训练阶段.分类阶段.评价四个阶段,其中预处理阶段要文本处理成计算机能识别的格式,首先对文本进行分词处理,中文文本和 ...

  5. 计算机基础知识 综述题,计算机应用的基础知识:文本表示综述及其改进

    文本表示综述及其改进 主要内容: 现阶段文本表示的主要技术 已有的工作对我们的启发 已有的改进工作的介绍 我们的改进(可行性?) 计算机如何解决文本分类问题? 一个中文文本表现为一个由汉字和标点符号组 ...

  6. 【NLP】深度文本匹配综述

    目  录 1.研究背景与意义  2.深度学习在自然语言处理的应用  3.深度文本匹配与传统文本匹配  4.深度文本匹配国内外研究现状  4.1基于单语义表达的文本匹配 4.2基于多语义表达的文本匹配 ...

  7. 初学文本摘要——综述报告

    ** 本报告是本人在自学自然语言处理文本摘要方向初期研读综述性论文.博客.网站等后总结的综述报告. ** 主要内容: 1)文本摘要简介(是什么?) 2)文本摘要现状(怎么样?) 3)文本摘要分类(有哪 ...

  8. NLP之文本分词综述

    文本分词综述 文本分词 介绍 应用场景 常见算法 常用的分词库 代码demo jieba分词: 特点 流程 demo NLTK分词: 特点 流程 demo spaCy分词: 特点 流程 demo St ...

  9. 论文阅读03:深度文本匹配综述

    公众号:数据挖掘与机器学习笔记 1.文本匹配概要 文本匹配在信息检索.自动问答.机器翻译.对话系统.复述问题等自然语言处理任务上应用广泛..这些自然语言处理的任务都可以在一定程度上抽象成文本匹配问题, ...

  10. 自然语言处理(NLP)之使用LSTM进行文本情感分析

    情感分析简介 文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类.它是对带有情感色彩的主观性文本 ...

最新文章

  1. 相关及其快速算法的C++实现
  2. Oracle统计信息的导出、导入
  3. 2021年面试前端岗位需要注意什么?
  4. Android 仿QQ消息界面
  5. 完美解决eWebEditor编辑器按钮失效 IE8、9无法使用方法
  6. Windows 2003 EE升级服务错误号:0x8DDD0018 解决办法
  7. rem和mod的区别
  8. 中文的习题解答中国人看懂, 英文的习题解答外国人能看懂
  9. netbeans使用教程
  10. c语言long可以存几位数,long long 可以支持多少位的数?
  11. DES算法的介绍和实现(转的,其实3des一样的原理就是加密解密加密而已)
  12. Form表单之get提交与post提交
  13. Pr 入门系列之十三:添加字幕
  14. WPS 两个 word 合并
  15. Elasticsearch如何提升查询效率
  16. OCA/OCP Oracle 数据库12c考试指南读书笔记:第31章:Multitenant Container and Pluggable Database Architecture
  17. 搜狗蜘蛛池之搜狗泛站群技巧详解
  18. 三角形内一点对应的重心坐标
  19. 量化投资学习——无套利均衡定价理论(non-arbitrage pricing theory)
  20. 儿童剧本杀行业是好生意吗?剧本杀门店管理系统

热门文章

  1. 使用office tool plus清除office激活状态
  2. Sugar BI数据可视化图表标注
  3. 网络安全思维导图(全套11张)
  4. 现金流量表补充资料的编制公式
  5. Ubuntu Linux全方位学习,哪一种Ubuntu官方版本适合你?
  6. OpenCV-白平衡(灰度世界算法)
  7. 当生命科学遇上AI,会产生怎样1+1>2的效果?
  8. windows 逆向技术必备知识(书籍)
  9. AltiumDesigner 如何快速查看任意两个元器件或者芯片的布线网络线长!
  10. google play 爬虫项目