官方文档:https://github.com/brightmart/roberta_zh

步骤

  1. 复制项目: git clone https://github.com/brightmart/roberta_zh
  2. 下载中文预训练模型:https://drive.google.com/open?id=1ykENKV7dIFAqRRQbZIh0mSb7Vjc2MeFA,解压到项目外层
  3. 和 run_classifier.py 同一层建立 model(存放微调后得到的新模型)、data(存放训练、测试文件)文件夹
  4. 修改 run_classifier.py 中的文件处理 Class,修改Flag(如data_dir等)
  5. nohup python -u run_classifier.py > run_classifier.log 2>&1

遇到的坑

L12 pytorch版本的,在后面运行会报错,因为是 model.bin 而不是 ckpt

如果用工程的 run_classifier.py 运行,应该要改成这样

export BERT_BASE_DIR=./model/roberta_zh_l12
export MY_DATA_DIR=./data/lcqmc
python run_classifier.py \--task_name=lcqmc_pair \--do_train=true \--do_eval=true \--data_dir=$MY_DATA_DIR \--vocab_file=$BERT_BASE_DIR/vocab.txt \--bert_config_file=$BERT_BASE_DIR/bert_config.json \--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \--max_seq_length=128 \--train_batch_size=64 \--learning_rate=2e-5 \--num_train_epochs=3 \--output_dir=./checkpoint_lcqmc

numpy 版本问题参考:https://blog.csdn.net/qq_15694045/article/details/100577784

RoBERTa 使用相关推荐

  1. Simple Transformer:用BERT、RoBERTa、XLNet、XLM和DistilBERT进行多类文本分类

    作者 | Thilina Rajapakse 译者 | Raku 编辑 | 夕颜 出品 | AI科技大本营(ID: rgznai100) [导读]本文将介绍一个简单易操作的Transformers库- ...

  2. 智源青年科学家杨植麟:为什么预处理模型XLNet比BERT、RoBERTa更加优越

    在2020年2月11日下午的"智源论坛Live | 青年科学家线上报告会"中,智源青年科学家.Recurrent AI联合创始人杨植麟做了题为<Latest Advances ...

  3. 细粒度情感分析:还在用各种花式GNN?或许只用RoBERTa就够了

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自 | 知乎 作者 | 邱锡鹏 地址 | https://zhuanlan.zhih ...

  4. 非常详细的transformer笔记,包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa

    华校专老师更新了个人笔记,增加了 Transformer笔记,包含XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa 等内容,内容十分详细,非常值得学习,特此推荐. 作者华校专 ...

  5. RoBERTa中文预训练模型:RoBERTa for Chinese

    RoBERTa for Chinese, TensorFlow & PyTorch 项目主页:https://github.com/brightmart/roberta_zh 中文预训练RoB ...

  6. for循环数据量太大_中文文本分类roberta大力出奇迹之数据量大的问题

    问题描述: 笔者在文本分类场景中使用了roberta+pool+dense的三分类模型.采用预训练模型做项目的时候经常苦于数据太少,模型泛化性差,因此收集了1300W数据.在我尝试暴力出奇迹的时候,遇 ...

  7. Longformer:超越RoBERTa,为长文档而生的预训练模型

    星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 文 | ChrisCao, 小轶 前言 今天要与大家分享的是AllenAI今年发表的最新工作,Longformer--一种可高效处理长文本 ...

  8. 文本分类器,可自由加载BERT、Bert-wwm、Roberta、ALBert以及ERNIE1.0

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 基于谷歌开源的BERT编写的文本分类器(基于微调方式),可自由加载NLP领域知名的预训练语言模 ...

  9. 系统学习NLP(三十二)--BERT、XLNet、RoBERTa、ALBERT及知识蒸馏

    参考:https://zhuanlan.zhihu.com/p/84559048 一.BERT BERT是一种基于Transformer Encoder来构建的一种模型,它整个的架构其实是基于DAE( ...

  10. 在SQuAD2.0榜单上出现过的部分模型详解StructBert,T5,RoBERTa,RetroReader,ALBert

    文章目录 StructBert Word Structural Objective Sentence Structural Objective T5 Text-to-Text C4数据集--Colos ...

最新文章

  1. APL开发日志--2012-11-08
  2. Java线程同步:synchronized锁住的是代码还是对象
  3. mysql处理存在则更新,不存在则插入(多列唯一索引)
  4. C# 日志管理框架:Common.Logging和log4net
  5. linux经典脚本实例,Linux常用Shell脚本珍藏
  6. 循环,数组,函数作业
  7. 再谈编程范式—程序语言背后的思想
  8. Spark 调优 ——cache(persist)与 checkpoint
  9. php 便利字符串,Go语言遍历字符串——获取每一个字符串元素
  10. 卡尔曼滤波/扩展卡尔曼/粒子滤波算法,dashgo d1与kinect 粒子滤波/EKF扩展卡尔曼滤波融合IMU(heneywell_HG112)+GPS(和芯星通UB482)+stm32室外定位
  11. HTML网页设计结课作业——基于HTML+CSS仿学校官网页面
  12. QT软件开发: 基于FFMPGE设计的流媒体播放器(rtmp/rtsp)
  13. 怎么进计算机更新失败,系统更新失败无法进入系统怎么办?
  14. H5+在浏览器中打开相机扫描二维码
  15. 键盘对应的ASCⅡ码
  16. tp5 操作web3
  17. 【王道】今晚7:30 浙江大学专场,学长学姐帮你指引ZJUCS/SE考研!
  18. 深度学习之CUDA与cuDNN
  19. Mysql 存储过程案例教程
  20. Apizza在线接口调试文档工具如何方便添加测试用例

热门文章

  1. Golang基础链表
  2. 精品课程《微型计算机控制技术》电子教案ppt课件(全),《微型计算机控制技术》于海生第6章课件精品.ppt...
  3. eclipse import netscape.javascript.JSObject
  4. 百度引蜘蛛,秒爬秒收录测试(一)
  5. 王姨,我不想努力了!
  6. 智慧养老解决方案-智慧养老具体方案之一-新导智能
  7. 疫情下的K12在线教育的发展局势
  8. 求表达式偏导(输出的是表达式)(Perl实现)
  9. [生存志] 第52节 晏婴相齐辅三君
  10. html i标签重置样式,去掉斜体I标签斜体样式属性[css技巧]