香侬科技提出了一种基于中文字形的向量表示形式:Glyce,基于Glyce的模型在13个中文NLP任务上达到了SOTA.

摘要:

直觉上,字形信息对于中文这样的表意文字上进行的nlp任务会有很多帮助,但是由于1)象形文字缺乏丰富的象形证据,2)现有的cv模型缺乏针对文字数据的泛化能力,所以,有效的利用这部分信息的方法还有待探索。

在这篇文章中,我们通过提出Glyce:针对中文字符的字符向量来解决上述问题,主要创新有以下三点:1)充分利用各个时期的中文字体(青铜器文字、篆书、繁体字等)以及各种风格的字体(草书、隶书);2)针对中文字符的图像处理提出一种特制的CNN架构 ;3)在多任务学习设置中,利用图像分类作为辅助分类任务开提高模型的泛化能力。

这篇文章在13个中文NLP任务上都取得了SOTA的表现:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4) 命名实体识别 (5) 词性标注 (6) 句法依存分析 (7) 语义决策标注 (8) 语义相似度 (9) 意图识别 (10) 情感分析 (11) 机器翻译 (12) 文本分类 (13) 篇章分析。

1.简介:

中文可以分成表意文字(日,表示太阳)和表音文字(青,睛),在汉朝时期,说文解字就采用字形所谓索引,这种方式今天还在沿用。由于许多汉字是由图片演化而来的,如下图,所以汉字的形状可以提供丰富信息。

在中文nlp任务上,很少有人利用字形信息,也有一些研究利用五笔结构来研究中文文字,取得了一些进展,但是由于五笔结构是随机编码的,所以并不能表示深层次的标识信息。

也有人利用cnn结构对字形信息进行研究,但是并没有产生良好的效果,原因可能如下:1)使用的简体文字进行研究,而简体文字在演变过程中失去了大部分的字形信息。汉字演变过程如下所示;2)使用的cnn结构不合适,由于字符的尺寸偏小,而现有的cnn模型通常用来处理较大的图片;3)数据少,汉字只有大约10000个文字。

本文将中文字符看作图片,用cnn来抽取特征,针对以上问题,本文采用了以下解决办法:

1.采用历史文字和当代文字(如青铜器文字、隶书、篆书、繁体中文等)的组合,丰富字符图像的象形信息,以及不同书写风格的文字(草书),提高模型的泛化能力。

2.提出符合中文字形的Tianzige-CNN(田字格)构架。

3.采用多任务学习方法,通过增加图像分类损失函数来提高模型的泛化能力。

3 Glyce

1.使用的数据

汉字的演化过程是从最初的易于画转变为易于写,在这个过程中,不可避免的失去大量文字中蕴含的字形信息,因此为了丰富文字信息,使用不同时期的文字,为了提高文字的泛化能力,使用不同风格的文字ÿ

论文阅读笔记:Glyce: Glyph-vectors for Chinese Character Representations相关推荐

  1. 论文阅读笔记-Glyce: Glyph-vectors for Chinese CharacterRepresentations

    论文地址:https://arxiv.org/pdf/1901.10125v5.pdf github地址:https://github.com/ShannonAI/glyce Abstract: 对于 ...

  2. 论文阅读笔记《Few-Shot Learning with Global Class Representations》

    小样本学习&元学习经典论文整理||持续更新 核心思想   本文提出一种基于度量学习的小样本学习算法.与其他算法将训练集分成基础类别和新类别,进行两个阶段的训练方式不同,本文将包含大量样本的基础 ...

  3. 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

    论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...

  4. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

  5. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  6. [论文阅读笔记36]CASREL代码运行记录

    <[论文阅读笔记33]CASREL:基于标注与bert的实体与关系抽取>https://blog.csdn.net/ld326/article/details/116465089 总的来说 ...

  7. 《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记

    <Progressive Growing of GANs for Improved Quality, Stability, and Variation>-论文阅读笔记 文章目录 <P ...

  8. Fast R-CNN论文阅读笔记

    文章目录 Fast R-CNN论文阅读笔记2015 Abstract 1. Introduction 1.1 R-CNN and SPPnet 1.2 Contributions 2.Fast R-C ...

  9. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  10. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

最新文章

  1. 影响网站权重的关键性因素有哪些?
  2. Java——BigInteger类和BigDecimal类
  3. 汇编语言--单步中断
  4. Hadoop环境搭建教学(一)运行环境,集群规划介绍;
  5. 正则表达式,grep,sed,
  6. AngularJs angular.bind、angular.bootstrap、angular.copy
  7. redis——客户端
  8. VM安装失败 Failed to create the requested registry key Key:installer Error:1021
  9. CSS word-wrap强制换行截断长字符串
  10. linux解密shadow_Linux /etc/shadow(影子文件)内容解析(超详细)
  11. 如何制作U盘启动盘并且安装系统(保姆级教学)
  12. 安卓电子书格式_在安卓上比较适合看英文电子书的软件
  13. mysql大于小于索引问题
  14. win7 访问局域网共享文件时提示输入网络凭据 设置开机免输入凭证进入共享盘设置
  15. 补码转原数值公式(非常简单实用的公式)
  16. java飞行棋_java飞行棋实现思路
  17. java基础十一---Socket
  18. 主成分分析和主成分回归
  19. 总结了近百个Android优秀开源项目,覆盖Android开发的每个角落。 .
  20. IP KVM分布式支持CCTV打造全球首个8K视频工作室

热门文章

  1. There are no devices registered in your account on the developer website. Plug in and select a devic
  2. srm采购管理系统的基础功能
  3. 【程序员面试金典】面试题 03.06. 动物收容所
  4. PLC学习笔记1:与PC下载与通讯
  5. 从Apple 播客预览下载音乐到本地目录
  6. DuiLib 对键盘消息的处理——ESC、空格键
  7. zsh: command not found 解决方法
  8. Pandas:波浪号“~”在 pandas 中的用法
  9. 20145231《Java程序设计》第五次实验报告
  10. 首个封禁ChatGPT的国家出现,意大利出手了! OpenAI CEO:我觉得没违规