每天给你送来NLP技术干货!


来自:哈工大讯飞联合实验室

在自然语言处理领域中,预训练语言模型已成为重要的基础技术和资源。在多语言理解相关的研究中,预训练模型的使用也愈加普遍。然而,由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,并且现有的多语言模型无法很好地处理绝大多数国内少数民族语言文字。

为了促进中国少数民族语言信息处理的研究与发展,哈工大讯飞联合实验室(HFL)发布首个面向少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model,读音同sino),弥补相关资源的空白。目前相关预训练模型和任务数据已开源,欢迎各位读者下载使用。

项目地址:

  • https://cino.hfl-rc.com

  • https://github.com/ymcui/Chinese-Minority-PLM

CINO模型简介

CINO基于多语言预训练模型XLM-R开发,在多种少数民族语言语料上进行了二次预训练,提供了藏语、蒙语(回鹘体)、维吾尔语、哈萨克语(阿拉伯体)、朝鲜语、壮语、粤语等少数民族语言与方言的理解能力。

为了便于评价包括CINO在内的各个多语言预训练模型在少数民族语言任务上的性能,我们构建了基于维基百科的少数民族语言分类任务数据集Wiki-Chinese-Minority(WCM)。实验结果表明,CINO在WCM数据集以及其他少数民族语言数据集上获得了最好的效果。

本次推出的CINO模型是large版本(参数量:585M),包含24层Transformer,隐层大小为1024。在未来,我们将推出更多版本的预训练模型以适应不同需求。

性能效果

我们在新构建的WCM多语言分类数据集、KLUE推出的朝鲜语文本分类YNAT、复旦大学推出的藏语文本分类TNCC上验证了模型效果。CINO相比其他基线模型获得了显著的性能提升。

1、Wiki-Chinese-Minority(WCM)多语言分类

我们基于少数民族语言维基百科语料及其分类体系标签,构建了分类任务数据集Wiki-Chinese-Minority(WCM)。该数据集覆盖了蒙古语、藏语、维吾尔语、哈萨克语、朝鲜语、粤语、中文共七种语言和方言,包括艺术、地理、历史、自然、自然科学、人物、技术、教育、经济和健康十个类别。我们在中文训练集上训练,在其他语言上做zero-shot测试,评价指标为macro-F1。

表1 少数民族多语言分类数据集WCM效果

2、朝鲜语文本分类(YNAT)

该任务选用KLUE团队发布的朝鲜语新闻主题分类数据集YNAT。训练集包含45,678条样本,分为7个类别,评价指标为macro-F1。

图2 朝鲜语文本分类YNAT效果

3、藏语文本分类(TNCC)

该任务选用由复旦大学自然语言处理实验室发布的藏语新闻数据集Tibetan News Classification Corpus (TNCC)。数据集包含9,203条样本,分为12个类别。我们按8:1:1的比例将其划分为训练、开发、测试集,评价指标为macro-F1。

图3 藏语文本分类TNCC效果

快速加载

哈工大讯飞联合实验室发布的所有预训练语言模型均可通过

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO相关推荐

  1. 中文 哈工大_哈工大讯飞联合实验室发布中文RoBERTawwmext预训练模型

    哈工大讯飞联合实验室(HFL)相继发布了基于Whole Word Masking(WWM)的中文预训练BERT模型(BERT-wwm,BERT-wwm-ext)以及中文预训练XLNet模型(XLNet ...

  2. 招聘 | 哈工大讯飞联合实验室-春季实习生

    哈工大讯飞联合实验室(HFL)发布2023年春季实习生招聘启事,欢迎有意申请的同学填写文章末尾的问卷应聘. ••• 岗位:自然语言处理实习生 [工作地点]北京 [岗位职责] 1.深入自然语言处理相关的 ...

  3. 中文 哈工大_第六届中文语法错误诊断大赛,哈工大讯飞联合实验室再获多项冠军...

    近日,第六届中文语法错误诊断大赛(CGED)研讨会于AACL 2020大会的"面向教育技术的自然语言处理(NLPTEA)"workshop中顺利举行.今年共有国内外14支队伍参赛, ...

  4. 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

    作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...

  5. 哈工大+讯飞推出:高效预训练模型压缩方案GRAIN

    每天给你送来NLP技术干货! 来自:哈工大讯飞联合实验室 点击这里进群->加入NLP交流群 哈工大讯飞联合实验室(HFL)2022年终技术发布第三弹,推出一种结合了知识蒸馏和内部注意力裁剪的预训 ...

  6. 腾讯安全科恩实验室发布最新研究成果,针对奔驰车载娱乐系统的安全研究

    5月12日,腾讯安全科恩实验室发布<梅赛德斯-奔驰汽车信息安全研究综述报告>(以下简称<报告>),这是安全研究机构首次对现代车载娱乐系统进行全面的安全性分析,对指引车企完善网联 ...

  7. 腾讯安全联合阿拉丁发布“小程序安全新品”,护航企业安全合规

    随着移动互联网用户红利下降,获客成本变高,营销欺诈问题日益凸显.企业品牌开展的抢红包.送积分.秒杀.拼团.砍价等活动频频遭遇"攻击".黑产作弊工具多种多样,羊毛党渗透到各行各业,恶 ...

  8. 登顶CLUE榜单,腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 2018年以来,以BERT.GPT等为代表的大规模预训练模型,带来了 ...

  9. 1.75万亿参数,刚刚智源发布了全球最大预训练模型“悟道2.0”

    中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio.David Patterson两位图灵奖得主在内的200多位学者 ...

  10. 1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”...

    边策 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...

最新文章

  1. DB2 runstats、reorgchk、reorg 命令【转载】
  2. 五:二叉树中和为某一直的路径
  3. 『设计模式』一张图告诉你UML图怎么画❀
  4. git 添加用户名和邮箱_Git实用教程(二) | Git简介及安装详解
  5. 大专适合学习php么_我想自学PHP,可以么?
  6. 在ntpdate同步时间的时候出现“the NTP socket is in use, exiting”
  7. Ubuntu下yolov4训练自己的数据集
  8. oracle去除逗号函数,oracle逗号分隔函数
  9. 循序渐进的手动安装k8s笔记-1
  10. QML 圆角进度条实现 圆角剪切
  11. VMware Workstation 12 安装小于4GB的GHOST 64位win7系统
  12. 一款批量修改AE模板的工具
  13. android 绘画笔迹回放_android画板笔锋实现
  14. 用C#实现自定义列表_艾孜尔江撰
  15. AE插件:能量激光描边光效特效Saber
  16. rdesktop安装教程
  17. vs code 不能正确补全结构体成员变量的解决方法
  18. 百度搜狗360快速排名可以解决网站排名的哪些问题呢?
  19. 20172303 20172322 2017-2018-2 暑假作业 结对编程项目-舒尔特方格(增补:计时器的加入与页面优化)...
  20. Ubuntu20.04美化桌面 dock栏居中

热门文章

  1. automake连载--Linux下使用autoconfig automake进阶
  2. ideal使用eclipse快捷键
  3. 面向对象编程思想概览(三)继承
  4. (转)fiddler使用简介--其二
  5. linux下别名alias的设置
  6. poj 1386 欧拉回路
  7. 含有空格或者逗号的字符串反转最有效的办法——栈
  8. Altium Designer(十):极坐标
  9. 【react】 redux 公共状态管理---数据的渲染,数据的修改,再把修改的数据渲染到当前组件...
  10. Anaconda+django写出第一个web app(十一)