from transformers import BertTokenizer
#uncased是不支持小写
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)
encoded_dict = tokenizer.encode_plus(sent,                      # Sentence to encode.add_special_tokens = True, # Add '[CLS]' and '[SEP]'max_length = 100,           # Pad & truncate all sentences.padding = 'max_length',     #补全操作truncation = True,          #截断操作return_attention_mask = True,   # Construct attn. masks.return_tensors = 'pt',     # Return pytorch tensors.)

tokenizer id转token 和token转id

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
tokenizer.convert_ids_to_tokens(100)
tokenizer.convert_tokens_to_ids('我')

@add_end_docstrings(ENCODE_KWARGS_DOCSTRING, ENCODE_PLUS_ADDITIONAL_KWARGS_DOCSTRING)def encode_plus(self,text: Union[TextInput, PreTokenizedInput, EncodedInput],text_pair: Optional[Union[TextInput, PreTokenizedInput, EncodedInput]] = None,add_special_tokens: bool = True,padding: Union[bool, str, PaddingStrategy] = False,truncation: Union[bool, str, TruncationStrategy] = False,max_length: Optional[int] = None,stride: int = 0,is_split_into_words: bool = False,pad_to_multiple_of: Optional[int] = None,return_tensors: Optional[Union[str, TensorType]] = None,return_token_type_ids: Optional[bool] = None,return_attention_mask: Optional[bool] = None,return_overflowing_tokens: bool = False,return_special_tokens_mask: bool = False,return_offsets_mapping: bool = False,return_length: bool = False,verbose: bool = True,**kwargs) -> BatchEncoding:"""Tokenize and prepare for the model a sequence or a pair of sequences... warning::This method is deprecated, ``__call__`` should be used instead.Args:text (:obj:`str`, :obj:`List[str]` or :obj:`List[int]` (the latter only for not-fast tokenizers)):The first sequence to be encoded. This can be a string, a list of strings (tokenized string using the``tokenize`` method) or a list of integers (tokenized string ids using the ``convert_tokens_to_ids``method).text_pair (:obj:`str`, :obj:`List[str]` or :obj:`List[int]`, `optional`):Optional second sequence to be encoded. This can be a string, a list of strings (tokenized string usingthe ``tokenize`` method) or a list of integers (tokenized string ids using the``convert_tokens_to_ids`` method)."""# Backward compatibility for 'truncation_strategy', 'pad_to_max_length'padding_strategy, truncation_strategy, max_length, kwargs = self._get_padding_truncation_strategies(padding=padding,truncation=truncation,max_length=max_length,pad_to_multiple_of=pad_to_multiple_of,verbose=verbose,**kwargs,)return self._encode_plus(text=text,text_pair=text_pair,add_special_tokens=add_special_tokens,padding_strategy=padding_strategy,truncation_strategy=truncation_strategy,max_length=max_length,stride=stride,is_split_into_words=is_split_into_words,pad_to_multiple_of=pad_to_multiple_of,return_tensors=return_tensors,return_token_type_ids=return_token_type_ids,return_attention_mask=return_attention_mask,return_overflowing_tokens=return_overflowing_tokens,return_special_tokens_mask=return_special_tokens_mask,return_offsets_mapping=return_offsets_mapping,return_length=return_length,verbose=verbose,**kwargs,)

transformers的分词工具BertTokenizer encode_plus参数相关推荐

中文分词工具jieba分词器的使用
1.常见的中文分词工具中科院计算所的NLPIR 哈工大LTP 清华大学THULAC 斯坦福分词器 Hanlp分词器 jieba分词 IKAnalyzer 2.jieba分词算法主要有以下三种: 1. ...
常用的开源中文分词工具
转载自: http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...
自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录自然语言处理系列十七分词工 ...
中文分词工具-IKAnalyzer下载及使用
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查. 关于IKAnalyzer的介绍,网 ...
各种中文分词工具的使用方法
诸神缄默不语-个人CSDN博文目录本文将介绍jieba.HanLP.LAC.THULAC.NLPIR.spacy.stanfordcorenlp.pkuseg等多种中文分词工具的简单使用方法. 对于 ...
中文开源汉语分词工具
本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文 ...
Jieba分词工具介绍及相关API使用方法
Jieba Introduction Project description jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再 ...
6大中文分词工具测试比较
中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...
ik分词和jieba分词哪个好_JiebaIK Analyzer——分词工具的比较与使用
现有的分词工具包概览现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查.有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解. 常见开源的中文分词工具接下 ...

transformers的分词工具BertTokenizer encode_plus参数

tokenizer id转token 和token转id

transformers的分词工具BertTokenizer encode_plus参数相关推荐

最新文章

热门文章