from transformers import BertTokenizer
#uncased是不支持小写
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)
encoded_dict = tokenizer.encode_plus(sent,                      # Sentence to encode.add_special_tokens = True, # Add '[CLS]' and '[SEP]'max_length = 100,           # Pad & truncate all sentences.padding = 'max_length',     #补全操作truncation = True,          #截断操作return_attention_mask = True,   # Construct attn. masks.return_tensors = 'pt',     # Return pytorch tensors.)

tokenizer id转token 和token转id

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
tokenizer.convert_ids_to_tokens(100)
tokenizer.convert_tokens_to_ids('我')
@add_end_docstrings(ENCODE_KWARGS_DOCSTRING, ENCODE_PLUS_ADDITIONAL_KWARGS_DOCSTRING)def encode_plus(self,text: Union[TextInput, PreTokenizedInput, EncodedInput],text_pair: Optional[Union[TextInput, PreTokenizedInput, EncodedInput]] = None,add_special_tokens: bool = True,padding: Union[bool, str, PaddingStrategy] = False,truncation: Union[bool, str, TruncationStrategy] = False,max_length: Optional[int] = None,stride: int = 0,is_split_into_words: bool = False,pad_to_multiple_of: Optional[int] = None,return_tensors: Optional[Union[str, TensorType]] = None,return_token_type_ids: Optional[bool] = None,return_attention_mask: Optional[bool] = None,return_overflowing_tokens: bool = False,return_special_tokens_mask: bool = False,return_offsets_mapping: bool = False,return_length: bool = False,verbose: bool = True,**kwargs) -> BatchEncoding:"""Tokenize and prepare for the model a sequence or a pair of sequences... warning::This method is deprecated, ``__call__`` should be used instead.Args:text (:obj:`str`, :obj:`List[str]` or :obj:`List[int]` (the latter only for not-fast tokenizers)):The first sequence to be encoded. This can be a string, a list of strings (tokenized string using the``tokenize`` method) or a list of integers (tokenized string ids using the ``convert_tokens_to_ids``method).text_pair (:obj:`str`, :obj:`List[str]` or :obj:`List[int]`, `optional`):Optional second sequence to be encoded. This can be a string, a list of strings (tokenized string usingthe ``tokenize`` method) or a list of integers (tokenized string ids using the``convert_tokens_to_ids`` method)."""# Backward compatibility for 'truncation_strategy', 'pad_to_max_length'padding_strategy, truncation_strategy, max_length, kwargs = self._get_padding_truncation_strategies(padding=padding,truncation=truncation,max_length=max_length,pad_to_multiple_of=pad_to_multiple_of,verbose=verbose,**kwargs,)return self._encode_plus(text=text,text_pair=text_pair,add_special_tokens=add_special_tokens,padding_strategy=padding_strategy,truncation_strategy=truncation_strategy,max_length=max_length,stride=stride,is_split_into_words=is_split_into_words,pad_to_multiple_of=pad_to_multiple_of,return_tensors=return_tensors,return_token_type_ids=return_token_type_ids,return_attention_mask=return_attention_mask,return_overflowing_tokens=return_overflowing_tokens,return_special_tokens_mask=return_special_tokens_mask,return_offsets_mapping=return_offsets_mapping,return_length=return_length,verbose=verbose,**kwargs,)

transformers的分词工具BertTokenizer encode_plus参数相关推荐

  1. 中文分词工具jieba分词器的使用

    1.常见的中文分词工具 中科院计算所的NLPIR 哈工大LTP 清华大学THULAC 斯坦福分词器 Hanlp分词器 jieba分词 IKAnalyzer 2.jieba分词算法主要有以下三种: 1. ...

  2. 常用的开源中文分词工具

    转载自:  http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

  3. 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列十七 分词工 ...

  4. 中文分词工具-IKAnalyzer下载及使用

    最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查. 关于IKAnalyzer的介绍,网 ...

  5. 各种中文分词工具的使用方法

    诸神缄默不语-个人CSDN博文目录 本文将介绍jieba.HanLP.LAC.THULAC.NLPIR.spacy.stanfordcorenlp.pkuseg等多种中文分词工具的简单使用方法. 对于 ...

  6. 中文开源汉语分词工具

    本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文 ...

  7. Jieba分词工具介绍及相关API使用方法

    Jieba Introduction Project description jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再 ...

  8. 6大中文分词工具测试比较

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  9. ik分词和jieba分词哪个好_JiebaIK Analyzer——分词工具的比较与使用

    现有的分词工具包概览 现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查.有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解. 常见开源的中文分词工具 接下 ...

最新文章

  1. 十分钟入门 RocketMQ
  2. 读取一个product全部数据的工具
  3. 【python pandas excel操作】
  4. 【今日CS 视觉论文速览】Wed, 16 Jan 2019
  5. 今天起高考能查分了!这种方式超方便的
  6. 鸿合科技成为AMX品牌全系列产品中国(大陆)总代理
  7. 人工智能离前端并不远 一步步教你开发一个机器学习APP(附源码)
  8. Dubbo-Admin-0.2.0服务管理中心安装
  9. linux 混杂模式 收包,Linux下使用混杂模式抓包(2)
  10. HTML- 锚点实例
  11. html+移动端图片点击放大,移动端点击图片放大特效PhotoSwipe.js插件实现
  12. mysql跨库查询 效率_教你用一条SQL搞定跨数据库查询难题
  13. 带时间轴的文章归档的html页面,Css打造伸缩时间轴样式的WordPress归档页面archive.php...
  14. GH4199变形合金
  15. Google 搜索知识
  16. 抢票软件之——py12306使用指南
  17. Range fro mac(随机数字生成软件)
  18. Django分页+增删改查
  19. 自己动手写搜索引擎(常搜吧历程三#搜索#)(Java、Lucene、hadoop)
  20. ElasticSearch快速入门实战

热门文章

  1. Eclipse下open iExplorer插件安装
  2. 天猫放宽男装入驻要求,店宝宝:为传统企业赋能
  3. U盘连接上网本时显示分区变0字节请问咋才能修复??
  4. 【转】不懂得使用工具的测试不是好测试
  5. 一般的口腔诊所设计要点有哪些
  6. 秒杀系统的设计与实现(三)(限时抢购、抢救接口、单用户限制实现)
  7. 【Vue3系列】 父组件调用子组件的方法-子组件向父组件传值
  8. UnityTimeline学习
  9. python调用函数加不加括号
  10. hdu1667The Rotation Game 迭代深搜IDA*