来自:哈工大讯飞联合实验室

哈工大讯飞联合实验室发布的中文ELECTRA系列预训练模型再迎新成员。我们基于大规模法律文本训练出中文法律领域ELECTRA系列模型,并且在法律领域自然语言处理任务中获得了显著性能提升。欢迎各位读者下载试用相关模型。

项目地址:http://electra.hfl-rc.com

中文法律领域ELECTRA

我们在20G版(原版)中文ELECTRA的基础上加入了高质量2000万裁判文书数据进行了二次预训练,在不丢失大规模通用数据上学习到的语义信息,同时使模型对法律文本更加适配。本次发布以下三个模型:

  • legal-ELECTRA-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

  • legal-ELECTRA-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

  • legal-ELECTRA-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加载

哈工大讯飞联合实验室发布的所有中文预训练语言模型均可通过huggingface transformers库进行快速加载访问,请登录我们的共享页面获取更多信息。

https://huggingface.co/HFL

模型键值如下:

hfl/chinese-legal-electra-large-discriminator

hfl/chinese-legal-electra-large-generator

hfl/chinese-legal-electra-base-discriminator

hfl/chinese-legal-electra-base-generator

hfl/chinese-legal-electra-small-discriminator

hfl/chinese-legal-electra-small-generator

效果评测

我们在罪名预测以及要素抽取任务上进行了基线测试。其中罪名预测任务使用的是CAIL 2018数据,要素抽取任务为in-house实际应用。可以看到本次发布的法律领域ELECTRA模型均相比通用ELECTRA模型获得了显著性能提升。

表1 罪名预测任务

表2 要素抽取任务

其他相关资源

  • TextBrewer知识蒸馏工具

    • http://textbrewer.hfl-rc.com

  • 中文BERT、RoBERTa、RBT系列模型

    • http://bert.hfl-rc.com

  • 中文XLNet系列模型

    • http://xlnet.hfl-rc.com

  • 中文MacBERT模型

    • http://macbert.hfl-rc.com

编辑:HFL编辑部

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!

哈工大讯飞联合实验室发布法律领域ELECTRA预训练模型相关推荐

  1. 中文 哈工大_哈工大讯飞联合实验室发布中文RoBERTawwmext预训练模型

    哈工大讯飞联合实验室(HFL)相继发布了基于Whole Word Masking(WWM)的中文预训练BERT模型(BERT-wwm,BERT-wwm-ext)以及中文预训练XLNet模型(XLNet ...

  2. 招聘 | 哈工大讯飞联合实验室-春季实习生

    哈工大讯飞联合实验室(HFL)发布2023年春季实习生招聘启事,欢迎有意申请的同学填写文章末尾的问卷应聘. ••• 岗位:自然语言处理实习生 [工作地点]北京 [岗位职责] 1.深入自然语言处理相关的 ...

  3. 中文 哈工大_第六届中文语法错误诊断大赛,哈工大讯飞联合实验室再获多项冠军...

    近日,第六届中文语法错误诊断大赛(CGED)研讨会于AACL 2020大会的"面向教育技术的自然语言处理(NLPTEA)"workshop中顺利举行.今年共有国内外14支队伍参赛, ...

  4. 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

    作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...

  5. 哈工大+讯飞推出:高效预训练模型压缩方案GRAIN

    每天给你送来NLP技术干货! 来自:哈工大讯飞联合实验室 点击这里进群->加入NLP交流群 哈工大讯飞联合实验室(HFL)2022年终技术发布第三弹,推出一种结合了知识蒸馏和内部注意力裁剪的预训 ...

  6. 腾讯安全科恩实验室发布最新研究成果,针对奔驰车载娱乐系统的安全研究

    5月12日,腾讯安全科恩实验室发布<梅赛德斯-奔驰汽车信息安全研究综述报告>(以下简称<报告>),这是安全研究机构首次对现代车载娱乐系统进行全面的安全性分析,对指引车企完善网联 ...

  7. 腾讯安全联合阿拉丁发布“小程序安全新品”,护航企业安全合规

    随着移动互联网用户红利下降,获客成本变高,营销欺诈问题日益凸显.企业品牌开展的抢红包.送积分.秒杀.拼团.砍价等活动频频遭遇"攻击".黑产作弊工具多种多样,羊毛党渗透到各行各业,恶 ...

  8. 登顶CLUE榜单,腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 2018年以来,以BERT.GPT等为代表的大规模预训练模型,带来了 ...

  9. 1.75万亿参数,刚刚智源发布了全球最大预训练模型“悟道2.0”

    中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio.David Patterson两位图灵奖得主在内的200多位学者 ...

  10. 1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”...

    边策 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...

最新文章

  1. lua入门1 helloworld
  2. 2.3.3 进程互斥的硬件实现方法
  3. 反编译查看源码dex2jar
  4. SpringSide示例之HelloWorld
  5. Python3 循环
  6. [前台]---js获取input标签中name相同的各个value值
  7. 线程池三种创建方式和自定义线程池ThreadPoolExecutor
  8. countdownlatch的使用详解(好懂!!)
  9. 摩托罗拉linux专属游戏,摩托罗拉E680g Linux系统手机也可以玩游戏
  10. mysql的data文件夹的位置以及作用
  11. ati hd4570 linux amd 64 安装命令,ATI 显卡的驱动在Linux下的安装方法
  12. 电阻(1)电阻种类篇
  13. java培训老师面试题_千锋Java培训老师分享Java实习生面试题
  14. Excel随机点名,无须VBA又很自动化!
  15. 802.11标准及无线网运行模式
  16. ZBrush坐标轴控制
  17. http,https
  18. Unity 如何实现苹果动态模糊遮罩
  19. mybatis、mysql使用函数实现英文模糊查询中文的功能
  20. ElasticSearch(十一)Java用ElasticSearch 利用搜索词分词搜索

热门文章

  1. [UWP小白日记-9]页面跳转过度动画(二)
  2. Python爬虫从入门到放弃(十五)之 Scrapy框架中Spiders用法
  3. (十二)Linux内核驱动之poll和select
  4. LeetCode 127. Word Ladder
  5. 类似与fiddler的抓包工具 burp suite free edition
  6. javascript flash 弹框
  7. 【leetcode】数组的度-两个map关联初探
  8. 2019年1月13日【回家】
  9. nginx的源代码分析--间接回调机制的使用和类比
  10. 不明意义的字符串匹配问题