Introduction

在前几章中，使用了tokenizer库中别人在特定数据集上已经训练好的tokenizer，但是我在尝试用bert-base的checkpoint加载tokenizer到自己的数据集上，发现并不适用，所以就有了这一个章节，我们使用与模型预训练相同的tokenizer——但是当我们想从头开始训练模型时，我们该怎么做？？在这些情况下，使用在来自另一个领域或语言的语料库上预训练的标记器通常是次优的。例如，在英语语料库上训练的分词器在日语文本语料库上表现不佳，因为两种语言中空格和标点符号的使用非常不同。

如何在新的文本语料库上训练与给定checkpoint使用的tokenizer相似的新tokenizer
fast tokenizer的特点
当今 NLP 中使用的三种主要子词标记化算法之间的差异
如何使用

Hugging Face Course-Diving in 抱抱脸 Tokenizers library （Introduction BPE）相关推荐
1. 抱抱脸（hugging face）教程-中文翻译-模型概要
  模型概要这是一个总结的模型可在Transformers.假设您熟悉最初的Transformers模型.或者温柔的介绍,看看有注释的Transformers.在我们关注模特之间的高度差异之前.你可以在 ...
2. 抱抱脸（hugging face）教程-中文翻译-分享一个模型
  分享一个模型最后两个教程展示了如何使用 PyTorch. Keras 和 Accelerate 优化分布式设置的模型.下一步就是把你的模型公之于众!我们相信公开分享知识和资源,使人工智能大众化.我们 ...
3. 抱抱脸（hugging face）教程-中文翻译-预处理
  预处理在您可以在模型中使用数据之前,需要将数据处理为模型可接受的格式.模型不理解原始文本.图像或音频.这些输入需要转换成数字并组装成张量.在本教程中,您将: 用tokenizer处理文本. 用特征提 ...
4. 抱抱脸（hugging face）教程-中文翻译-创建一个自定义架构
  创建一个自定义架构 AutoClass 自动推导模型架构,并下载预先训练的配置和权重.通常,我们建议使用 AutoClass 生成与检查点无关的代码.但是,想要更多地控制特定模型参数的用户可以从几个基 ...
5. 文本预处理跑得慢？抱抱脸团队又放福利，1GB文本语料分词只需20s！
  一只小狐狸带你解锁NLP/DL/ML秘籍正文素材来源:量子位缘起BERT BERT带来的并不是只有一大波paper和嗷嗷上线,还带火了一个NLP团队--Huggingface(中文译作抱抱脸).抱 ...
6. 抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文
  文 | 卖萌酱大家好,我是卖萌酱. 前几天,抱抱脸公司(HuggingFace)发表了一篇博客[1],详细讲解了ChatGPT背后的技术原理--RLHF. 笔者读过之后,觉得讲解的还是蛮清晰的,因此 ...
7. Huggingface抱抱脸实体命名识别NER案例
  NLP之Huggingface抱抱脸实体命名识别NER案例注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,Python Java Scala ...
8. 抱抱脸（hugging face）教程-中文翻译-任务总结
  任务总结任务摘要此页面显示了使用库时最常见的用例.可用的模型允许许多不同的配置,并且在用例中有很大的通用性.这里展示了最简单的方法,展示了问题回答.序列分类.命名实体识别等任务的用法. 这些示例利 ...
9. 调用“抱抱脸团队打造的Transformers pipeline API” 通过预训练模型，快速训练和微调自己的模型
  本文章根据官方文件总结而成,根据第三方库Transformers and pytorch快速搭建自己的神经网络架构,可以直接下载预训练模型,涉及的数据集包括音频.文字.图像等,实用性非常强! 官方链接 ...
10. Hugging Face创始人亲述：一个GitHub史上增长最快的AI项目
  来源|Gradient Dissent 翻译|贾川.胡燕君 Hugging Face,这家以emoji"抱抱脸"命名的开源创业公司,以一种连创始团队不曾预料的速度成为了AI开源社区 ...
最新文章
热门文章

Hugging Face Course-Diving in 抱抱脸 Tokenizers library （Introduction BPE）

Introduction

Hugging Face Course-Diving in 抱抱脸 Tokenizers library （Introduction BPE）相关推荐

最新文章

热门文章