在pytorch-pretrained-BERT/pytorch_pretrained_bert/tokenization.py文件中可以看到BERT使用的vocabulary链接,但是不用特殊的上网方式打不开。

PRETRAINED_VOCAB_ARCHIVE_MAP = {'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt",'bert-large-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-vocab.txt",'bert-base-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-vocab.txt",'bert-large-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-vocab.txt",'bert-base-multilingual-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-uncased-vocab.txt",'bert-base-multilingual-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-vocab.txt",'bert-base-chinese': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt",
}

打开后是这样的:


然后我通过审查元素,把他们都存了下来(除了两个multilingual)。

百度网盘
链接:https://pan.baidu.com/s/18l53W7UcFA1Amk8MbSnchg
提取码:7gjy

BERT的vocabulary字典相关推荐

  1. 我的BERT!改改字典,让BERT安全提速不掉分(已开源)

    文 | 苏剑林 编 | 小轶 背景 当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字.中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这 ...

  2. 预训练模型参数量越来越大?这里有你需要的BERT推理加速技术指南

    ©作者 | 徐超 单位 | 微软亚洲互联网工程院 研究方向 | 文本相关性.多语言扩展 基于 Transformer 的预训练模型,尤其是 BERT,给各种 NLP 任务的 performance 带 ...

  3. Deeplearning4j 实战 (21):Bert简介及NLP问题应用

    Eclipse Deeplearning4j GitChat课程:https://gitbook.cn/gitchat/column/5bfb6741ae0e5f436e35cd9f Eclipse ...

  4. 学习笔记1—Bert

    BERT 迁移学习在自然语言处理(NLP)领域同样也是一种强大的技术.由这种技术训练出来的模型,我们称之为预训练模型. 预训练模型首先要针对数据丰富的任务进行预训练,然后再针对下游任务进行微调,以达到 ...

  5. BERT入门教程学习心得 word embedding

    来源Youtube上一个BERT Tutorial的视频 https://www.youtube.com/channel/UCoRX98PLOsaN8PtekB9kWrw Word Embedding ...

  6. 自然语言处理(NLP)之使用LSTM进行文本情感分析

    情感分析简介 文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类.它是对带有情感色彩的主观性文本 ...

  7. cnn 预测过程代码_代码实践 | CNN卷积神经网络之文本分类

    学习目录阿力阿哩哩:深度学习 | 学习目录​zhuanlan.zhihu.com 前面我们介绍了:阿力阿哩哩:一文掌握CNN卷积神经网络​zhuanlan.zhihu.com阿力阿哩哩:代码实践|全连 ...

  8. 基于Transformer的文本情感分析编程实践(Encoder编码器-Decoder解码器框架 + Attention注意力机制 + Positional Encoding位置编码)

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) Encoder编码器-Decoder解码器框架 + Atten ...

  9. RNN模型与NLP应用笔记(2):文本处理与词嵌入详解及完整代码实现(Word Embedding)

    一.写在前面 紧接着上一节,现在来讲文本处理的常见方式. 本文大部分内容参考了王树森老师的视频内容,再次感谢王树森老师和李沐老师的讲解视频. 目录 一.写在前面 二.引入 三.文本处理基本步骤详解 四 ...

最新文章

  1. rwkj 1422搜索(素数环)
  2. 将matpoltlib绘制好的图片从内存中取出
  3. 忍不住还是装了一下Windows Vista
  4. Git 中.gitignore 使用和.gitignore 无效的解决方法
  5. android helloworld程序
  6. Linux负载均衡--LVS(IPVS)
  7. 【MFC】MFC对话框类
  8. 使用OpenCV进行多边形绘制和填充
  9. linux uboot启动流程分析,uboot启动流程分析
  10. Flask的csrf_token的用法
  11. Leetcode--1371. 每个元音包含偶数次的最长子字符串(Java)
  12. 【C语言】第七章 模块化与函数 题解
  13. 操作系统知识点大总结【进线程管理与调度】
  14. 解析json结构绘制canvas
  15. 深入浅出WPF笔记——属性
  16. 一些比较好用的网站整站下载工具
  17. linux下.dep文件,Linux 安装 golang 和 dep (附错两个误解决方法)
  18. 快递单号查询api接口对接
  19. 四足机器人——12自由度舵机狗DIY(二)
  20. Java核心技术(Java白皮书)卷Ⅰ 第一章 Java程序设计概述

热门文章

  1. mysql 查手机尾数_Mysql条件查询2(根据手机尾号的后四位查询)
  2. Oracle 表空间迁移
  3. Android 读取手机SD卡根目录下某个txt文件的文件内容
  4. python 量子计算包_ProjectQ:解锁Python实现量子计算的新方式!
  5. 详解windows server 2008服务器的服务
  6. Linux测试环境搭建步骤
  7. resharper激活
  8. Semantic UI 之 表格 table
  9. PHP利用CURL_MULTI实现多线程爆破
  10. C语言串口与网口转换,单片机通过串口与电脑连接通信C语言源代码