Introduction

在前几章中,使用了tokenizer库中别人在特定数据集上已经训练好的tokenizer,但是我在尝试用bert-base的checkpoint加载tokenizer到自己的数据集上,发现并不适用,所以就有了这一个章节,我们使用与模型预训练相同的tokenizer——但是当我们想从头开始训练模型时,我们该怎么做??在这些情况下,使用在来自另一个领域或语言的语料库上预训练的标记器通常是次优的。例如,在英语语料库上训练的分词器在日语文本语料库上表现不佳,因为两种语言中空格和标点符号的使用非常不同。