对transformers库不常用记录,方便回溯。

知识点

1. fast的含义

比如BertTokenizerFast,use_fast, 示例如下:

1
AutoTokenizer.from_pretrained('hfl/chinese-electra-180g-small-discriminator', use_fast=True)

它的含义是使用rust加速速度。

嘿嘿,rust现在要进入linux内核了,恭喜恭喜。

2. tokenizer

比如常见的convert_ids_to_tokensencode, encode_plus等等,下面记录一种对句子对的使用方式.

完整例子可参考ne_bert_mrc.py。

1234567891011121314151617181920212223242526272829303132
# -*- coding: utf8 -*-#

from transformers import AutoTokenizer, BertTokenizerFast

tokenizer = AutoTokenizer.from_pretrained('hfl/chinese-electra-180g-small-discriminator', use_fast=True)question = '南京天气怎么样'  # 7context = '我今天早上站在阳台看天空,今天南京天气很好!'  # 22

tokenized_examples = tokenizer(    question,  # 问题文本    context,  # 篇章文本    truncation="only_second",  # 截断只发生在第二部分,即篇章    max_length=20,  # 设定最大长度为384    # stride=5,  # 设定篇章切片步长为128    return_overflowing_tokens=True,  # 返回超出最大长度的标记,将篇章切成多片    return_offsets_mapping=True,  # 返回偏置信息,用于对齐答案位置    padding="max_length",  # 按最大长度进行补齐)

print(tokenized_examples)input_ids = tokenized_examples['input_ids']token_type_ids = tokenized_examples['token_type_ids']attention_masks = tokenized_examples['attention_mask']offset_mappings = tokenized_examples['offset_mapping']overflow_to_sample_mapping = tokenized_examples['overflow_to_sample_mapping']for index, _input_ids in enumerate(input_ids):    print('input_ids -> ', tokenizer.convert_ids_to_tokens(_input_ids))    print('token_type_ids -> ', token_type_ids[index])    print('attention_masks -> ', attention_masks[index])    print('offset_mappings -> ', offset_mappings[index])    print('overflow_to_sample_mapping -> ', overflow_to_sample_mapping[index])

可以自行改动这个例子,其中stride默认注释掉了,默认为0。

transformers-tokenizer备忘相关推荐

  1. vim的一些快捷键,备忘

    vim的一些快捷键,备忘 快捷键                                            作用 ctrl+g                                ...

  2. 资源 | AI、神经网络、机器学习、深度学习以及大数据学习备忘单

    向AI转型的程序员都关注了这个号☝☝☝ 以下是关于神经网络.机器学习.深度学习以及大数据学习的备忘单,其中部分内容和此前发布的<资源 | 值得收藏的 27 个机器学习的小抄>有所重复,大家 ...

  3. 机器学习项目的备忘清单!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Harshit Tyagi,编译:机器之心 机器学习项目中含有众多 ...

  4. 备忘:C语言void *

    由于研究一段代码的时候,看到了 void *.故此进行了学习. 看了 http://www.doc88.com/p-894907672962.html  的说明,感觉写得太好了,已无话可说. 故此备忘 ...

  5. [译] Kotlin 标准方法备忘

    原文地址:Kotlin Standard Functions cheat-sheet 原文作者:Jose Alcérreca 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/go ...

  6. Nancy之结合TinyFox调试备忘

    原文:Nancy之结合TinyFox调试备忘 最近把一个小项目的数据库换成MongoDB,同时用了MongoRepository 这个开源组件来对数据进行操作. 通过NuGet安装之后,它会自动在we ...

  7. CSP浏览器安全策略备忘

    挺久之前过了一遍CSP的安全策略,很多人把它喻为XSS攻击的终结者,因为这种策略不再像传统只靠各种正则和特征匹配来识别跨站攻击Payload,而是直接从协议层把一些存在安全隐患的用法默认给干掉了,把同 ...

  8. Cheat—— 给Linux初学者和管理员一个终极命令行备忘单

    当你不确定你所运行的命令,尤其是那些使用了许多选项的复杂命令时,你会怎么做?在这种情况下,我们使用man pages来获取帮助.还有一些其它的选择可能包括像'help','whereis'和'what ...

  9. 简单备忘一下Linux下的wget和curl如何使用http proxy

    简单备忘一下Linux下的wget和curl如何使用http proxy wget -e "http_proxy=porxyhost:port" www.baidu.com cur ...

  10. (网页的缓存控制)HTML配置no-cache(备忘) “Cache-control”常见的取值

    HTML配置no-cache(备忘) No-cache配置 html表头如下 <meta http-equiv="Content-Type" content="te ...

最新文章

  1. Huawei交换机配置两台交换机堆叠示例
  2. uniapp连接php,thinkphp5 对接手机uni-app的unipush推送(个推)
  3. cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
  4. SSDB 配置文件详解
  5. 程序代码移植和烧录需要注意什么_法人变更需要注意什么
  6. 数据结构之查找的概念及简单实现
  7. 最近在修改statusBar,添加几张图片.编译源码包时,一直提示无法找到R.drawable.xxxx必须手动编译下指定的图片文件生成R.
  8. Linux 配置网络
  9. 【POJ】2823 Sliding Window
  10. 简单的notepad将\n转化为换行
  11. it书籍分享免费下载
  12. 计算机入门 零基础,电脑新手入门指南——零基础一分钟入门电脑硬件
  13. 沪股通、深股通、港股通、陆股通
  14. 明星玩跨界,全民娱乐时代来临!
  15. ccf 201903-5 317号子任务【60分】
  16. 被带走的机密文件WP
  17. KVS(AWS Kinesis Video Stream)HLS IOS端播放声音停顿问题解决办法
  18. python数据库管理实例_Python操作MySQL数据库9个实用实例
  19. 大面积卫片,无人机正射影像DOM修饰及无缝拼接快捷工具——PS
  20. revit二次开发——建连续刚构桥2(带平纵曲线)

热门文章

  1. Tuts4you lena‘s 40 crackme教程[1]
  2. 电度表的分类及型号含义
  3. IT中的去“IOE”
  4. mysql 解表_Access MySql之常规手工注入
  5. ENVI提取NDVI与植被覆盖度估算
  6. 通过笔记本建立wifi热点
  7. 梦幻诛仙linux纯端架设教程,【梦幻诛仙】【双端手游】【最完美,最全的,视频架设教程】...
  8. html radio原生样式修改
  9. 射线和立方体相交的判断
  10. 造车新势力包揽2家,IDG资本投资的小鹏汽车市值超1026亿!