原文链接：https://huggingface.co/docs/transformers/master/en/tokenizer_summary

1、前言

众所周知，在NLP任务中，原始文本需要处理成数值型字符才能够被计算机处理，我们熟悉的one-hot编码就是一种转换方式。但这种方式有两个弊端：向量维度太高，且丢失了语义信息。后来人们发明了词向量（或称之为词嵌入，word embedding），它在一定程度了解决了one-hot的上述两个问题。

从「词向量」这个名字上就可以看出，其基本单元是词。因此，要想得到词向量，首先要对句子进行分词，所以，我们需要一个分词工具，简称之为“分词器”。在现代自然语言中，分词器的作用不再是仅仅将句子分成单词，更进一步的，它还需要将单词转化成一个唯一的编码，以便下一步在词向量矩阵中查找其对应的词向量。本文主要介绍一下现代NLP是如何将句子切分为词的。

在中文里，一般将tokenizer直接译为“分词器”，但正如上文所述，这其实只翻译出了其第一层含义。因此，我认为将其翻译为“符化器”——将句子分词并转化为唯一编码——更能体现其作用。本文不对该单词进行翻译。

2、引例

分词的任务看似简单，实际上却大有文章。首先，给一个例句：Don’t you love

tokenizer简介相关推荐

Lucene：基于Java的全文检索引擎简介（转载）
Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基 ...

java Apache Commons jar包简介
一.Commons BeanUtils 说明:针对Bean的一个工具集.由于Bean往往是有一堆get和set组成,所以BeanUtils也是在此基础上进行一些包装. 二.Commons CLI 说明 ...

Lucene：基于Java的全文检索引擎简介车东
Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基 ...

pyhanlp 中文词性标注与分词简介
pyhanlp 中文词性标注与分词简介 pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分 ...

(转)Apache Commons工具集简介
(转)Apache Commons工具集简介 Apache Commons包含了很多开源的工具,用于解决平时编程经常会遇到的问题,减少重复劳动.我选了一些比较常用的项目做简单介绍.文中用了很多网上现成 ...

Huggingface简介及BERT tansformer 开源
链接 Huggingface简介及BERT代码浅析 import torch from transformers import BertModel, BertTokenizer # 这里我们调用ber ...

Java Servlet 技术简介
开始之前关于本教程在您最喜欢的 Web 浏览器中,您所阅读的页面是如何出现的呢?当登录到您最喜欢的 Web 站点时,该 Web 站点如何知道登录的用户是您?而 Web 零售商又如何接受您的在线订购 ...

01.analyzer简介及char_filter组件
文章目录 1. es的词分析组件analyzer简介 1.1 在index的时候如何选择analyzer 1.1.1. 使用index mapping中对该filed进行analysis 1.1.2. ...

lucene简介_Lucene简介
lucene简介本文是我们名为" Apache Lucene基础知识 "的学院课程的一部分. 在本课程中,您将了解Lucene. 您将了解为什么这样的库很重要,然后了解Lucen ...

最新文章

vscode出现磁盘路径大小写问题_vscode下python使用相对路径失败问题

ASLR in optee

2018软工实践第六次作业-团队选题报告

HttpsURLConnection 返回 400

计算机选配注意事项,选择鼠标注意事项有哪些

ON1 photo raw 2021（ps/lr滤镜插件) 下载及安装

博客园markdown公式

微软欲对Silverlight进行部分开源(转载)

阶段3 3.SpringMVC·_06.异常处理及拦截器_4 SpringMVC拦截器之介绍和搭建环境

matlab报错索引超出数组范围

ntlm身份验证_使用隐藏的ntlm身份验证进行内部信息公开

魔戒三曲，黑暗散去；人皇加冕，光明归来

六西格玛黑带考试试题｜优思学院

2017年的博客之路开始---下一个十年

vue m3u8格式实现监控直播

［译］How browsers work

H3C新华三链路聚合介绍

面试连环炮之Mysql

pandas操作大全

Bootstrap 与 Jackknife 笔记

热门文章

“零信任”防御云计算信任危机

数字化体育文化的传承与传播

Essentials

Python学习-7.8

Python爬虫从入门到精通:（42）JS逆向-闭包：凡科网逆向分析_Python涛哥

linux中的grep命令用法

Qt窗体鼠标拖动放大缩小

用python动手写了个自动点检表单脚本

JAVA在线教学质量评价系统计算机毕业设计Mybatis+系统+数据库+调试部署

java位移运算真的比乘除运算快吗？