原文链接:https://huggingface.co/docs/transformers/master/en/tokenizer_summary

1、前言

众所周知,在NLP任务中,原始文本需要处理成数值型字符才能够被计算机处理,我们熟悉的one-hot编码就是一种转换方式。但这种方式有两个弊端:向量维度太高,且丢失了语义信息。后来人们发明了词向量(或称之为词嵌入,word embedding),它在一定程度了解决了one-hot的上述两个问题。

从「词向量」这个名字上就可以看出,其基本单元是词。因此,要想得到词向量,首先要对句子进行分词,所以,我们需要一个分词工具,简称之为“分词器”。在现代自然语言中,分词器的作用不再是仅仅将句子分成单词,更进一步的,它还需要将单词转化成一个唯一的编码,以便下一步在词向量矩阵中查找其对应的词向量。本文主要介绍一下现代NLP是如何将句子切分为词的。

在中文里,一般将tokenizer直接译为“分词器”,但正如上文所述,这其实只翻译出了其第一层含义。因此,我认为将其翻译为“符化器”——将句子分词并转化为唯一编码——更能体现其作用。本文不对该单词进行翻译。

2、引例

分词的任务看似简单,实际上却大有文章。首先,给一个例句:Don’t you love

tokenizer简介相关推荐

  1. Lucene:基于Java的全文检索引擎简介(转载)

    Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基 ...

  2. java Apache Commons jar包简介

    一.Commons BeanUtils 说明:针对Bean的一个工具集.由于Bean往往是有一堆get和set组成,所以BeanUtils也是在此基础上进行一些包装. 二.Commons CLI 说明 ...

  3. Lucene:基于Java的全文检索引擎简介 车东

    Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基 ...

  4. pyhanlp 中文词性标注与分词简介

    pyhanlp 中文词性标注与分词简介 pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式 第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分 ...

  5. (转)Apache Commons工具集简介

    (转)Apache Commons工具集简介 Apache Commons包含了很多开源的工具,用于解决平时编程经常会遇到的问题,减少重复劳动.我选了一些比较常用的项目做简单介绍.文中用了很多网上现成 ...

  6. Huggingface简介及BERT tansformer 开源

    链接 Huggingface简介及BERT代码浅析 import torch from transformers import BertModel, BertTokenizer # 这里我们调用ber ...

  7. Java Servlet 技术简介

    开始之前 关于本教程 在您最喜欢的 Web 浏览器中,您所阅读的页面是如何出现的呢?当登录到您最喜欢的 Web 站点时,该 Web 站点如何知道登录的用户是您?而 Web 零售商又如何接受您的在线订购 ...

  8. 01.analyzer简介及char_filter组件

    文章目录 1. es的词分析组件analyzer简介 1.1 在index的时候如何选择analyzer 1.1.1. 使用index mapping中对该filed进行analysis 1.1.2. ...

  9. lucene简介_Lucene简介

    lucene简介 本文是我们名为" Apache Lucene基础知识 "的学院课程的一部分. 在本课程中,您将了解Lucene. 您将了解为什么这样的库很重要,然后了解Lucen ...

最新文章

  1. vscode出现磁盘路径大小写问题_vscode下python使用相对路径失败问题
  2. ASLR in optee
  3. 2018软工实践第六次作业-团队选题报告
  4. HttpsURLConnection 返回 400
  5. 计算机选配 注意事项,选择鼠标注意事项有哪些
  6. ON1 photo raw 2021(ps/lr滤镜插件) 下载及安装
  7. 博客园markdown公式
  8. 微软欲对Silverlight进行部分开源(转载)
  9. 阶段3 3.SpringMVC·_06.异常处理及拦截器_4 SpringMVC拦截器之介绍和搭建环境
  10. matlab报错索引超出数组范围
  11. ntlm身份验证_使用隐藏的ntlm身份验证进行内部信息公开
  12. 魔戒三曲,黑暗散去;人皇加冕,光明归来
  13. 六西格玛黑带考试试题|优思学院
  14. 2017年的博客之路开始---下一个十年
  15. vue m3u8格式 实现监控直播
  16. [译]How browsers work
  17. H3C新华三链路聚合介绍
  18. 面试连环炮之Mysql
  19. pandas操作大全
  20. Bootstrap 与 Jackknife 笔记

热门文章

  1. “零信任”防御云计算信任危机
  2. 数字化体育文化的传承与传播
  3. Essentials
  4. Python学习-7.8
  5. Python爬虫从入门到精通:(42)JS逆向-闭包:凡科网逆向分析_Python涛哥
  6. linux中的grep命令用法
  7. Qt窗体鼠标拖动放大缩小
  8. 用python动手写了个自动点检表单脚本
  9. JAVA在线教学质量评价系统计算机毕业设计Mybatis+系统+数据库+调试部署
  10. java位移运算真的比乘除运算快吗?