identical 相同的
identify 识别
lexically distant 词法遥远的
syntactic parsing 句法
transduction model 转换模型
To the best of our knowledge
据我们所知
memory networks
记忆网络
sequence aligned
序列对齐的
abstractive summarization, textual entailment
抽象摘要,文本蕴涵
an effect we counteract with Multi-Head Attention.
我们用多头注意力来抵消这种影响。
albeit 虽然 conj
logarithmically 对数地
In the spirit of reproducibility this work itself is distilled from the same source with images inline.
本着再现性的精神,这项工作本身从相同的来源提取与图像内联。
Blog Post 博客帖子
italicized 用斜体字印刷
excerpt 摘录
The goal is to transcribe a recent paper into a simple and understandable form
目标是将最近的一篇论文转录成简单易懂的形式
new toolsets have made it possible to write simpler more mathematically declarative code.
新的工具集使得编写更简单、更精确的声明性代码成为可能。
extensive 大量的
The recent turn towards deep learning has exerbated this issue
最近向深度学习的转变已经使这个问题得到了解决
turn 转变
pedagogical 教学法的
reproduce 复现
implicit premise 隐性前提
while achieving an efficient usable system
while 同时
While 虽然
worked exercise 工作锻炼
replication 复制
tackle a broad set of NLP tasks.
一系列
In particular 特别地
“LM (ppl)” is the masked LM perplexity of held-out training data.
in passing 顺便
provided that 如果
scaling 缩放
held-out 提供
perplexity 混乱
otherwise 另外 adv
since the RTL model would not be able to condition the answer on the question
since 因为
condition 限制
recognize 认识到
make a good faith attempt 做出真诚的尝试
scheme 方案
“LTR & No NSP” is trained as a left-to-right LM without the next sentence
prediction
facets 特征
continuation 延续
plausible 似合理的
grounded commonsense inference 理性常识推理
Our best performing system 表现最好的系统
allowing for 提及
modest 适度的
top published systems 热门排行榜
crowdsourced 众包的
in terms of model architecture apart from the attention
masking
在某方面 除了
We use a batch size of 32 and fine-tune for 3 epochs over the data for all GLUE tasks subsections
over 翻译成 对于,针对
子段落
Compared to pre-training, fine-tuning is relatively inexpensive
relatively 相对的
entailment or sentiment analysis.
蕴涵或情感分析。
degenerate 退化的
hypothesis-premise pairs in entailment
包含假设-前提对
are analogous to 类似于
analogous
类似的
plug in 插入
unify 统一
bidirectional cross attention
cross 交叉
across 跨过 adj,adv
swapping out
交换
straightforward
直接了当的
text passages
文本段落
end-task
最终任务
The NSP task is closely related to representationlearning objectives
is closely related to
相关
As we show in Figure 1
as 正如
as in a standard LM
就像
as 单独用

as of the date of writing 自xxx日期
搭配用

next sentence prediction (NSP)
monolingual 单语的仅用一种语言的
Natural Language Inference (NLI)
Question Answering (QA)
variations 变化
since the [MASK] token does not appear during fine-tuning
因为
downside 缺点
literature 文献
although 尽管
Even though:虽然
though when 尽管当
Fortunately though
不过,幸运的是
thorough 彻底地,贯穿
the left-context-only version is referred to as a “Transformer decoder
is referred to 被称为
(物做主语)
A “sequence” refers to the input token sequence to BERT
refer to 指 (物做主语)

we will refer to as an RNN Encoder–Decoder
我们将称之为 RNN
(人做主语)

We refer the readers to the original paper 建议读者
及物动词 建议

trivially 简单地
presented 展示
represent 表示
representations 表征
linguistic 语言学的
arbitrary 任意的
unambiguously 明白地
In this work, we denote the number of layers
(i.e., Transformer blocks) as L, the hidden size as
H, and the number of self-attention heads as A.3
We primarily report results on two model sizes:
BERTBASE (L=12, H=768, A=12, Total Parameters=
110M) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

exhaustive 详尽的
recipe 方法
[CLS] is a special symbol added in front of every input example, and [SEP] is a special separator token (e.g. separating questions/answers).
As with the feature-based approaches
和什么一样
proposed learning contextual representations through a task
通过xx方式

sentiment 情感
predecessor 前任
derived objectives 派生的目标
left-to-right generation of next sentence words given a representation of the previous sentence
coarser granularities 粗粒度
generalized 推广的
discriminate 区别
integral 完整的
heavily engineered 大量工程的
shallow 浅的
fuse 融合
objective, 目标
“masked language model” (MLM)
alleviates 减轻
sub-optimal 次优次佳
argue that 认为
objective function 目标函数
Generative Pre-trained Transformer (OpenAIGPT)
ELMo(Embeddings from Language Models)
holistically 全面地
paraphrasing 释义
empirically 以经验为主的经验主义地以经验为主地
jointly conditioning 联合条件
distinguish 区别
distinctive 独特的
predicates 谓词
predict 预测
So True or False distinguishes intra-sentential
interactions which depend on local context from intersentential
ones that require cross sentence reasoning.
distinguish a from b 区别a和b

SSAN (Structured Self-Attention Network),
argue that 主张
outperforms 胜过
spans 跨度
nested 嵌套的

pred
核心词(head)和依存词(dependent)
从属者(modifier,subordinate,dependency)
支配者(governor,regent,head)
词汇功能文法(Lexical Functional Grammar,LFG)、组合范畴文法(Combinatory Categorial Grammar,CCG)等
汇化树邻接文法(Lexicalized Tree Adjoining Grammar, LTAG)
依存关系分析,又称依存句法分析(dependency syntactic parsing),简称依存分析(denpendency parsing),作用是识别句子中词与词之间的相互依存关系。
constituent 成分
message passing 消息传递
Denoising 去噪
One pass 一次通过
affiliation 附属, 包含
Multi hop inference 多跳推理
HIN(Hierarchical Inference Network)
denotes 表示
https://zhidao.baidu.com/question/198174776.html
bilinear 双线性
assigned with 已分配的
assigned to 被分配给
based models 基本模型
first three 前三个
leverage 利用
co-occur 一起发生
counterpart 配对物
alleviating 缓解
Step Beyond 超越
pattern recognition 模式识别
brings up 提出
to be identified 被标识
hierarchy and taxonomy 等级和分类
well defined 定义明确的
notable 显著的
frequent 频繁的
relevance 关联
Bidirectional Encoder Representations from Transformers (BERT)
reidentify 重新标志
address 设法解决
feasible 可行的
fine-grained 细粒度
exhaustively 用尽一切地彻底地
quadratic 二次的
semantically 语义地
To be specific 具体的说
mandatory 强制的
miscellaneous 各种各样的
review, 复审
align 对齐
KBS 知识库系统(Knowledge-base system)
pass :阶段
three iterative passes over the data 数据经过三次迭代
tailored 定制的
negligible 忽略的
Empirical results 实证结果

verify 核实
along with the human-annotated data
along with:还有

人类在文档级RE任务(RE)和联合识别关系和支持证据任务(RE+Sup)上都取得了具有竞争力的结果,

Context-Aware: 上下文感知


监督
弱监督

远端:是否可以理解为 搜索

until:前面的情况直到until后面的情形发生之后才结束
entity mentions 实体提及
formalize 使形式化
infuse 灌输
formuration 表述
state vectors 状态向量
transition 过渡
discourse analysis 篇章分析
entity-grid 实体网络
More recently, 最近地
impose 对xx施加影响
regulate 控制,调节
instructive 有益的
solely 单独地
look into 观察
Superiority 优越性
deviation 偏差
alleviate 减轻
impede 阻碍
built upon 建立于
implicit 含蓄的
bias terms 偏置项目
degenerates 使退化
is of greater 当做形容词来用
are learned from scratch 是从零开始学习的
induced 感应的
alternative 供选择的
relational 相关的
evaluate 评估
relative 相对的

decomposed 已分解的
biaffine 双仿射
compositional 组成的
instantiate 举例说明
Regulated 规定的
employ 使用
assigned 指定的
conform with 符合
Consists Of 由……组成
discrete 离散的
wrapped up 包起来
we assume there is no crucial dependency, and categorize it as NA
finite 有限的
adjacency matrix 邻接矩阵
entity centric 以实体为中心的
categorize 分类
inter-sentential 句间的
intra-sentential 句内的
non-entity (NE)
undirected 无目标的
orthogonal, 正交的
implies 意味着
investigated 研究
denote 表示
cross sentence 跨句
intersentential 句际的
local Context Analysis 局部上下文分析
co-occurrence 共现
reside 属于
detail 详述
elaborates 详细阐述
explicitly 明确地
substantial 实质的,大量的
consistent 一致的
excerpted 摘录
Bassline 大提琴手
intern 实习生
Coming Down Again 早就回来了
illustrates 阐明
exhibit 表现
in between 之间
高速缓存(cache memory)
「提前退出机制」(early exit mechanism)
Conditional Computation Transformer (CCT)
深度循环(recurrence-over-depth)
Universal Transformer (UT)
自适应计算时间(Adaptive Computation Time, ACT)
后来的 Transformer 实现将 LN 层放在 attention 或 FFN 之前的残差连接内,在最后一层之后有一个额外的 LN 来控制最终输出的大小,即 pre-LN。Pre-LN 已被许多后续研究和实现所采用
LN 层位于残差块之间,被称为 post-LN
low rank 低阶
预训练模型(PTM)
(Doc.:文档,Sent.:句子,Ent.:实体,Rel.:关系类型,Inst.:关系实例,Fact:关系事实)。前四个是句子级RE数据集。
anns annotations
EN1_START = “[s1]”
EN1_END = “[e1]”
EN2_START = “[s2]”
EN2_END = “[e2]”

shema 相当于模板
subject 主体
object 客体
消融分析(ablation study)。作者对ERICA框架中的所有组成成分进行了细致的分析,并证明了这些组成成分对于模型整体效果的提升是缺一不可的。
去除某一项看效果
均匀池化 mean pooling
描述(mention)
远程监督(distant supervision)
Part of Speech Tagging (词性标注)
预训练语言模型(PLM
TAC Knowledge Base Population (TAC KBP)
Normal、entity air overlap (EPO) 和 Single Entity Overlap (SEO)
针对webNLG数据集而言
Lexical Level Features 词汇层面的特征
关系分类Relation Classification
关系孪生网络“(Relation Siamese Network,RSN)
领域迁移(domain adaptation)和“以上都不是”检测(none-of-the-above detection)。
资源匮乏领域(low-resource domains)
而神经网络模型作为典型的data-hungry技术,在训练样例过少时性能会受到极大影响
OE:only entities 仅实体
ME:masked entities 掩蔽实体
reinforcement learning 强化学习;
对抗学习 Adversarial Learning
开放信息提取(Open Information Extraction, Open IE)通常指的是这种范式
word sequence patterns 单词序列模式
词性(POS)
信息抽取(Information Extraction, IE
i.i.d:独立同分布
under-trained:训练不足的
Stochastic gradient boosting:SGB 随机梯度提升

bootstrapping system:自启动系统
meta-leanring :learning to learn:(学习如何学习)新的任务上快速学习参数初始化
transfer learning 迁移学习
导致上下文碎片化(context fragmentation)。通俗来讲,一个完整的句子在分割后,一半在前面的片段,一半在后面的片段。

Transformer编码固定长度的上下文,即将一个长的文本序列截断为几百个字符的固定长度片段(segment),然后分别编码每个片段,但片段之间没有任何的信息交互。

https://mp.weixin.qq.com/s/SRL_n2esVZQD2z6wRnVg3A
历史最全机器学习/深度学习/人工智能专业术语表中英对照表

identifier是变量名
isidentifier 标识符
Text REtrieval Conference (TREC) 2000
这也叫元素级乘法(elementwise multiplication)

SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛。
conventional 传统的
information retrieval (IR 信息检索
PMML全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。使用pmml储存好模型之后,任何软件栈都可以调用pmml储存好的模型。主要用于跨平台的机器学习模型部署。

benchmark 基准
LambdaRank NN lambdarank 神经网络
MART(Multiple Additive Regression Tree)算法

L2R算法主要包括三种类别:单文档方法(PointWise Approach),文档对方法(PairWise Approach)和文档列表方法(ListWise Approach)。

査询词的Proximity值(即在文档中多大的窗口内可以出现所有査询词)

完美排序(Ground Truth)
归一化折扣积累增益(Normalized discounted cumulated gain, NDCG)、期望倒数排序(Expected reciprocal rank, ERR)
信息检索评价指标NDCG
case sensitive:大小写敏感

cased表示区分大小写,uncased表示不区分大小写。除非你明确知道你的任务对大小写敏感(比如命名实体识别、词性标注等)那么通常情况下uncased效果更好。

这两个抽象基类(Abstract Base Class,ABC)
Few-Shot Learning(小样本学习)
Try using .loc[row_indexer,col_indexer] = value instead
indexer:索引
statement 语句
tensorFlow 提供一个指标模块 tf.metrics 来计算常用指标。为简单起见,我们将只返回准确率
contrib 普通
磁盘冗余阵列 (RAID)
分布式文件系统(Distributed F仆e System, DFS)
训练集 Vanilla
MNIST:这是最大的手写数字(0~9)数据库。它由 60000 个示例的训练集和 10000 个示例的测试集组成
CIFAR10:这个数据集包含了 10 个类别的 60000 幅 32×32 彩色图像,每个类别有 6000 幅图像
WORDNET:这是一个英文的词汇数据库。它包含名词、动词、副词和形容词,被归为一组认知同义词(Synset),即代表相同概念的词语,
ImageNet 大规模视觉识别挑战赛(ILSVRC)
ImageNET:这是一个根据 WORDNET 层次组织的图像数据集(目前只有名词
YouTube-8M:这是一个由数百万 YouTube 视频组成的大型标签视频数据集
layers:就是指模型中每层
(Deterministic)
狄利克雷(Diriclet)分布
主题“赋值”(Assignment)
主题下标(Index
文档情感分类(Document Sentiment Classification)
“情感分析”(Sentiment Analysis)
broken english :逐字翻译
对话系统

对话系统分为“任务型”和“非任务型”这两种基本类型。
任务型:就是特定场景
针对非任务型对话系统,也就是“聊天机器人”
“自然语言理解器”,也简称为 NLU
自动语音识别器”(Automatic Speech Recognition),简称ASR
“对话管理器”,简称是 DM 的组件
“任务管理器”,简称是 TM 的模块
第五个组件是 NLG,既从管理器的这些中间状态中产生输出的文本,也就是自然和连贯的语言。
最后一个组件是 TTS。在一些产品中,我们还需要把自然语言能够用语音的方法回馈给用户。
“填空”(Slot Filling)
(Conditional Random Field),简称 CRF 的;也有基于“递归神经网络”RNN 的。
“协议学习”(Policy Learning)的步骤。总体来说,协议学习的目的是让对话系统能够更加巧妙和智能地学习到如何补全所有的“空”并且能够完成模块动作。比如,有没有最简化的对话方法能够让用户更加快捷地回答各种信息,这都是协议学习需要考虑的方面。

对话系统
volatile:变化,改变
tensorflow bert
input_ids : 每个分词转换而来
feature :就是把分词,label等转换为id
local_init_op : 可被所有监视器运行的初始化操作。

tensorflow bert
xgboost参数
1、eta学习速率
2、min_child_weight
表示最小叶子节点样本权重的和。可用于避免过拟合。当它的值较大时,可以避免模型学习到局部的特殊样本。但是如果这个值过高,会导致欠拟合。这个参数需要使用CV来调整。
3、max_depth[默认6]
表示树的最大深度。也是用来避免过拟合的。当它的值越大时,模型会学到更具体更局部的样本,可能会导致过拟合。需要使用CV函数来进行调优。 典型值:3-10
4、max_leaf_nodes
表示树上最大的节点或叶子的数量。可以替代max_depth的作用。因为如果生成的是二叉树,一个深度为n的树最多生成n2个叶子。
5、gamma[默认0]
在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。这个参数的值和损失函数息息相关,所以是需要调整的。
6、max_delta_step[默认0]
这参数限制每棵树权重改变的最大步长。如果这个参数的值为0,那就意味着没有约束。如果它被赋予了某个正值,那么它会让这个算法更加保守。 通常,这个参数不需要设置。但是当各类别的样本十分不平衡时,它对逻辑回归是很有帮助的。这个参数一般用不到,但是你可以挖掘出来它更多的用处。
7、subsample[默认1]
这个参数控制对于每棵树,随机采样的比例。减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。 典型值:0.5-1
8、colsample_bytree[默认1]
和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值:0.5-1
9、colsample_bylevel[默认1]
用来控制树的每一级的每一次分裂,对列数的采样的占比。我个人一般不太用这个参数,因为subsample参数和colsample_bytree参数可以起到相同的作用。但是如果感兴趣,可以挖掘这个参数更多的用处。
10、lambda[默认1]
权重的L2正则化项。(和Ridgeregression类似)。 这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数,但是这个参数在减少过拟合上还是可以挖掘出更多用处的。
11、alpha[默认1]
权重的L1正则化项。(和Lassoregression类似)。 可以应用在很高维度的情况下,使得算法的速度更快。
12、scale_pos_weight[默认1]
在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。
1.3学习任务参数
这个参数用来控制理想的优化目标和每一步结果的度量方法。
1、objective[默认reg:linear]
这个参数定义需要被最小化的损失函数。最常用的值有:
binary:logistic
binary:logitraw
2、eval_metric[默认值取决于objective参数的取值]
评价模型的指标,主要是对验证集进行评价。对于回归问题,默认值是rmse,对于分类问题,默认值是error。典型值有:
rmse均方根误差
mae 平均绝对误差
logloss负对数似然函数值
error二分类错误率(阈值为0.5)
merror多分类错误率
mlogloss多分类logloss损失函数
auc曲线下面积
xgboost参数

LaTeX 系统的命令中包含了标记作为构造块的显式语义结构信息,例如摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题

DocBank 数据集是文档布局标注数据集 TableBank[5][6] 的扩展
DocBank 数据集[3][4],这是一个文档基准数据集,其中包含了50万文档页面以及用于文档布局分析的细粒度 Token 级标注。
Token 级 词级
IIT-CDIP 数据集为每个文档提供了多标签的文档类型标注
(Multi-label Document Classification,MDC) 多标签文档分类
(Masked Visual-Language Model,MVLM) 掩码视觉语言模型
(Bounding Box) 边界框
2-D Position Embedding) 二维位置嵌入(
(Image Embedding)图嵌入
(document-level)文档级
(token-level)文本级
(key-value pair)键值对
(Form Understanding)表单理解
(Receipt Understanding 票据理解
(Document Image Classification)文档图像分类
(Document Layout Information) 文档结构信息
(Visual Information) 视觉信息
LayoutLM 通用文档预训练模型
Robotic Process Automation, RPA 机器人流程自动化
AE(自动编码器)
AR(自回归)LM
(residual connection)残差连接
https://blog.csdn.net/kyle1314608/article/details/110311535

(Estimator):估计器 就是分类器这些模型
class ModeKeys:模型模式的标准名称.
global state 全局状态
So cast all int64 to int32 强制转换
To treat sparse input as dense:将稀疏输入处理为密集输入

bert 中segment 应该就是上下句预测
token_type_ids=segment_ids,
预热warmup:就是先用很小的学习率然后再逐步增大学习率

uncased:是指的没有被mask?
broker:代理
隐藏状态 (state embedding)

This research was enabled in part by resources
这项研究部分是由资源促成的
in part 在某种程度上
its runtime thus scales linearly with sentence length.
因此,它的运行时间与句子长度成线性关系。
pairwise 成对地
substantially 实质上
our single-sentence model uses 98 and 349 times fewer parameters than ELMo and BERTLARGE, respectively
多少倍
We do not, however, outperform the deep trans-former models (rows 1 3), doing 4 7 points worse, on average
然而,我们的表现并没有超过深度转换模型(第1行和第3行),平均差了4 7个百分点
Overall, our distilled model is competitive with two previ-ous implementations
竞争性的
they still represent a 4.3-point improvement against our BiLSTM, and a 1.8 2.7-point increase over the previous best BiLSTM (row 8)
与我们的BiLSTM相比,它们仍然提高了4.3个点,与之前最好的BiLSTM相比提高了1.8 2.7个点(第8行)。
our results trail ELMo s by a few points 我们的结果落后于ELMo s几个百分点
coming close to GPT 接近GPT
falls short in F1 score. 在F1得分上落后。
benchmark website 基准测试网站
QQP. Quora Question Pairs (QQP; Shankar Iyer and Csernai, 2017) consists of pairs of poten-tially duplicate questions collected from Quora, a question-and-answer website. The binary label of each question pair indicates redundancy.
MNLI. The Multi-genre Natural Language In-ference (MNLI; Williams et al., 2017) corpus is a large-scale, crowdsourced entailment clas-sification dataset. The objective is to predict the relationship between a pair of sentences as one of entailment, neutrality, or contradiction.
entailment, neutrality, or contradiction
蕴含,中立性或矛盾
crowdsourced 众包的
Multi genre 多风格
SST-2. Stanford Sentiment Treebank 2 (SST-2; Socher et al., 2013) comprises single sentences ex-tracted from movie reviews for binary sentiment classification (positive vs. negative)
We conduct experiments on the General Language Understanding Evaluation (GLUE
一般语言理解评估
preliminary experiments 初步试验
synthetic 合成的
once one rule is appli ed, the other is disregarded
一旦一个规则被应用,另一个规则就会被忽视
We treat masking and POS-guided swapping as mutually exclusive
我们认为掩蔽和位置引导交换是互斥的
drawing from the uniform distribution
从均匀分布中得到
we iterate over the words 遍历
aggressive 激进的
perturb 扰乱
unigram 一元
POS-guided word replacement
part-of-speech (POS) tag
pos 词性
another of the same POS tag
another 前面没有冠词 所以这里做主语
a map of china map 前面有冠词 这里面做修饰词
具有相同词性标签的另一个词
pos 位置
specifically 特别地
a pro-cess analogous to image distortion
类似于图像失真的过程
blueprints 模板
task-agnostic 任务无关的
heuristics 启发法
synthesize 合成
CIFAR-10, for example, is a subset of the 80 million tiny images dataset (Krizhevsky, 2009).
homologous
同源的
to aid in effective knowledge distillation
帮助有效地提炼知识
pseudo-labels
伪标签
ground-truth label 真实的标签
denotes 表示
用中文维基百科得到的300维的词向量,sgns.wiki.word
discrete probability 离散概率
some sentences have a strong sentiment polarity
有些句子有强烈的情感对立
posit that 认为
In particular
尤其
that is, the student network learns to mimic a teacher network’s be-havior given any data point
也就是说,在给定任何数据点的情况下,学生网络学会模仿教师网络的行为
The distillation approach accomplishes knowl-edge transfer at the output level
实现
It should be emphasized that we restrict the ar-chitecture engineering to a minimum to revisit the representation power of BiLSTM itself
需要强调的是,为了重新审视BiLSTM本身的表示能力,我们将建筑工程限制在最低限度
rectified linear units (ReLUs),
修正的线性单元
transfer dataset
转移数据集
aforementioned
前面提及的
binarized networks with both bi-nary weights and binary activations.
具有二元权值和二元激活的二值化网络。
device-centric
以设备为中心
which precludes highly optimized computation routines
排除了高度优化的计算例程
irregular 不规则的
hurting accuracy
伤害准确率
Early pioneering works
早期的开创性工作
A prominent line of work is devoted to compressing large neural networks to accelerate inference
一个突出的工作是致力于压缩大型神经网络以加速推理
massive corpora 大全集
generic 一般的
recursive 递归的
recurrent 循环的
To our knowledge
据我们所知
Exper-iments show that our knowledge distillation pro-cedure significantly outperforms training the orig-inal simpler network alone
outperform a 比a优秀
textual 文本的
To this end 为了这个目的
distortions 扭曲
estimated labels
估计的标签
probability logits
概率分对数
To facilitate effective knowledge transfer
促进
This approach is model agnostic
模型不可知
mimic
模仿
we leverage the knowledge distillation approach
利用
Concretely 具体地
text modeling 文本建模
twofold
两部分的
he continued slowdown of Moore’s Law and Dennard scaling
摩尔定律
They may be inapplicable in real-time systems either
either 也
un-deployable 不可开展的
prob-lematic
有问题的
Devlin et al. (2018) have pushed this line of work even further
进一步推动了这一方面的工作
Ostensibly 表面上的
it becomes easy to dismiss ear-lier
提前驳回
In the midst of all this neural progress
在xxx之中
the neural networks has been an unending yet predictable one
去穷无尽又可预测的
the march of the neural networks
神经网络的发展
litera-ture 文献
Across multiple datasets in paraphrasing
跨多个数据集
lightweight
轻量的
rudimentary 退化的
The recent poster child of this trend
这一趋势最近的典型代表
Polyphone Disambiguation 多音字消歧
**Microsoft Research Paraphrase Corpus (MRPC) **
wwm:whole word masked

IPSE:集成项目支撑环境

CASE:计算机辅助软件工程
squad 阅读理解语料
progressively shrinking 逐步地缩小
successively 相续地
cumbersome
笨重的
Pass the data through the teacher network to get all intermediate outputs and then apply data augmentation (if any) to the same.
if any 如果有的话
Forward Pass through the Teacher network
通过教师网络向前传递
downsample
降低取样
Establish Correspondence
建立对应关系
then the convergence space of the Teacher Network should overlap with the solution space of the student network.
解空间重叠
The soft labels refer to the output feature maps by the bigger network after every convolution layer
软标签是指在每个卷积层之后由更大的网络输出的特征图
exactly what to do using a bigger already trained network
如何利用一个
flops
abbr. 每秒浮点计算(floating-point operations per second)
The second probability distribution has the highest probability at the cell associated with the word “am”
cell 单元格
toy example 小的例子
Say we are training our model. Say it’s our first step in the training phase, and we’re training it on a simple example – translating “merci” into “thanks”.
say 假设
lead up to 导致
(short for ‘end of sentence’)).
forward-pass process 前向传递过程
Recap Of Training 回顾
logits vector 分对数向量
each row corresponds the a positional encoding of a vector
对应
specific pattern 特定模式
account for the order of the words i解释单词的顺序
in a sense 在某种意义上
let’s revisit our example from before
回顾一下之前的例子
Now that we have touched upon attention heads
既然我们已经提到了
That s pretty much all there is to multi-headed self-attention.
That s pretty much all
就这些了
outline 概述
The resulting vector is one we can send along to the feed-forward neural network.
send along to 发送到
That concludes the self-attention calculation 这就是自注意力计算的结论
drown-out 淹没
keep intact 保持不变的
constant 恒定的
So for each word, 对于每个单词
then proceed to look at how it’s actually implemented – using matrices.
proceed to 继续看
bake the “understanding” of other relevant words into the one we’re currently processing.
把a放入b
think of 考虑
incorporate 结合
Let us distill how it works
提炼
Don’t be fooled by me throwing around the word “self-attention”
别被我说的"自我关注"骗了
then sends out the output upwards to the next encoder.
向上输出
switch up 转换
there’s nothing magical about the number six
数字6没什么神奇的
Popping open 砰的一声打开
Let us now complicate the example a little bit more
使XX 复杂化
dummy example 虚拟的例子
Going Deeper 更进一步
no coincidence 并非巧合
It is important to remark that padding was used to make the input sequences in a batch have the same length
remark 需要注意的是
Tokenization, numericalization and word embeddings
标记化 数字化 词嵌入
astronomical 天文数字
When you account for all the different languages the numbers become astronomical
account for 考虑
substantial compounding effect 实质性的复合效应
superpower 超能力
combiner 组合器
hybrid 混合的 杂种
schematically 计划性地
cross-attention 交叉关注
everything moves fast in NLP these days 进行的很快
anticipate 预料
comeback 恢复
go full circle 回到原点
Specifics 细节
Google has released two variants of the model 两种模型
decent result 不错的结果
computer vision 计算机视觉
Sensation 轰动
manifold 非常多 副词
This recurrence mechanism of Transformer-XL takes care of the limitations of using a fixed-length context.
递归机制
attentive 关注的
fixed-length context (input text segments) 输入文本段
they can’t stretch beyond a certain level 延伸超出
And out of this came Transformer-XL 由此产生了
folks 人们
the text is split without respecting the sentence or any other semantic boundary
respect 考虑
semantic boundary 语义边界
a significant amount of context is lost
大量上下文丢失
context fragmentation 上下文碎片
chunking of text 文本块
share of limitations 局限性
text strings 文本串
sum up the resultant vectors to arrive at the final vector (z1).
对合成向量求和
taking the dot product of the Query vector (q1) with the keys vectors (k1, k2, k3) of all the words:
q1 和 k1 等做点击

I have divided this section into various steps for ease of understanding
为了更好的理解
Can you figure out what the term “it” in this sentence refers to?
figure out 指出
refer to 指的什么
intra-attention 内部关注
Getting a Hang of Self-Attention 熟悉
arguably 可争辩的
setup 设置
on top of each other. 在彼此的顶部
multiple identical 多个相同的
superb 极好的
intimidating 令人胆怯的
recurrence completely 完全重现

conversion 转换
transduction model 传导模型

The Transformer in NLP is a novel architecture that aims to solve sequence-to-sequence tasks while handling long-range dependencies with ease
with ease 轻松地

What if it comes out to be 如果结果是
greedily 贪婪地
At each time step, the decoder has to make a decision as to what the next word would be in the sequence
as to 关于
It still needs a bit of tuning to squeeze out the best performance out there to meet expectations
稍微调整 挤出
A sequence to sequence modelling network should not be used out of the box
开箱即可用
conversational agent 会话智能体
its own 他自己的
Broadly 明显地
machinery starting up 机器启动
the sound cues 声音提示
The sequence of events which revolve around the people mentioned in the statements
revolve around 围绕
underlying working 底层工作
A quick glance makes this seem like a simple problem
快速浏览
Suppose you have a series of statements
一系列陈述
go-to architecture 首选框架
Hands-on view of Sequence to Sequence modelling
动手查看
A glance of Sequence to Sequence modelling technique
概述,瞅一眼
you can go through these articles first
你可以看看
refresher 新手
This article assumes that you already are comfortable with basics of Deep Learning
熟悉了
synthesized 合成的
Just to give you a sneak peek of the potential application 先睹为快
requirement 必须要求
a person just starting out on Deep Learning 刚开始深入深度学习
chatbots and bots 聊天机器人和机器人
disrupting 扰乱
Deep Learning at scale 大规模深度学习
uphill task 费力的工作
It’s not that difficult for us to figure out the relationships among such words spread across the text
散布在文本中
transform 改变
in the midst of a golden era 黄金时代的中期
at an unprecedented pace 以前所未有的速度
Leverages Transfer Learning 利用迁移学习
tweak 调整
To mitigate this issue 减轻这个问题
mismatch 不匹配
shallow concatenation 浅的连接
by jointly conditioning on both left and right context in all layers.
通过共同调节
BERT: Bidirectional Encoder Representations from Transformers
getting exposed to a variety of text 接触各种文本
Uni-directional 单向的
Transfer learning 迁移学习
Generative Pre-Trained Transformers(GPT)
Universal Language Model Fine Tuned(ULM-Fit)
syntax and semantics 语法和语义
Leaders across the globe need to address their people on COVID-19. 介绍
addressed this requirement 解决了这个需求
meaning-related 相关的意义
synonyms and antonym 同义词和反义词
break the loop 跳出循环
wherein 在其中
denote 表示
More specifically 更具体地说
scheme 方案
Neural Machine translation (NMT)

blog post 博客帖子
As per 按照

cv:上下文向量
Let’s get technical and dive into the nitty gritty of Attention mechanism
从技术层面深入了解


ANSI/SPARC
Multi-head Self-attention(MHA)和Feed Forward Network(FFN)两个模块
concurrently 同时发生的
consistent with a 与a一致
constituency parsing benchmarks 选区 解析 基准
erroneous 错误的
pseudo 冒充的
Don’t even bother to batch 甚至不用费心 去批处理
Given that 考虑到
paraphrases 释义
useful property 有效成分
Surprisingly, the LSTM did not suffer on very long sentences
并没有被很长的句子所影响
publicly 公开地
outperforms 胜过
unoptimized 非最优化的
so the score was penalized 被惩罚 被扣分
Connectionist Sequence Classification 联结主义序列分类
elegant variant 优雅的变体
data with long range temporal dependencies 长时依赖
essentially 本质上
domain-independent 领域无关
a-priori 先天的
sequences whose lengths are not known 长度未知的序列
sensibly 容易地
intricate computation 复杂的计算
while neural networks are related to conventional statistical models
a 与b 有关
quadratic 二次的
modest number 适度的数量
arbitrary 任意的
active and the passive voice 主动和被动语态
relatively invariant 相对不变的
sensible 合理的
aforementioned 前面提及的
end-to-end approach 端到端
This allows the new scores to en- ter into the existing tuning algorithm with minimal additional overhead in computation
这允许新的分数以最小的额外计算开销进入现有的调优算法

learning the “manifold” (region of prob- ability concentration) 概率集中区
plausible and implausible 貌似合理的和难以置信的
distin- guishing 区别
underlying reason 根本原因
time scales 时间尺度
effectively 有效的
LSTM 的各种门可以理解为 一个比例 不同的比例 以为着运行通过多少信息或者阻止多少信息
update gate 更新门
denotes the j-th element of a vector 表示向量的地j个元素
reset gate 重置门,复位门
differentiable 可微的
graphical depiction 图形化的描述
sequentially 循序地
variable-length 变长的
iteratively 迭代地,反复地
straightforward 直接了当地
Preliminary 初步的
overall 整体的
indirectly 间接地
linguistic regularities 语言的规律
memory capacity 记忆容量
we propose to use a rather sophisticated hidden unit
我们建议使用一个相当复杂的
The two networks are trained jointly to maximize the conditional probability of the target sequence given a source sequence
在给定源序列的情况下,对两个网络进行联合训练,使目标序列的条件概率最大
given 状语

act as an encoder 作为 编码器
SMT 统计机器翻译
feedforward neural networks
前馈神经网络

we show that the proposed model learns a semantically and syntactically meaningful representation of linguistic phrases.
结果表明,该模型对语言短语的语义和句法意义表示进行了学习。
Qualitatively 定性的
is empirically 经验为主地
forward states 前向状态
denote 表示
related terms 相关项
we use a single-layer multilayer perceptron 感受器
less cluttered 更简洁
omit bias terms 省略偏差项
Whenever possible 只要可能
element-wise multiplication 基于元素的乘法
employing 采用 v
suffering too much from the vanishing effect
遭受太多消失的影响
the product of derivatives 导数乘积
unfolded 展开的
counter-intuitive 反直觉的
then looked one word back at a time
一个字一个字的回头看
non-trivial 非平凡的,重大的
diagonal of each matrix 矩阵对角线
monotonic 单调的
plot 图表
superiority 优越性,优势
shows no performance deterioration even with sentences of length 50 or more
没有表现性能下降
underperform with long sentences 在 长句子上运行不佳
resulting in a 导致a,生成a
preceding words 先前的词
in the proposed scheme 在建议的方案中
be selectively retrieved by the decoder accordingly
选择性的获取被 decoder
a spread throughout the sequence of annotations
a 传遍 b
relieve a from b 把b 从a中解放,释放
Intuitively 直观地
translated from 译自
backpropagated 回传的
latent variable 隐藏变量
feedforward neural network 前馈神经网络
(just before emitting yi :发射 yi之前
here the probability is conditioned on a distinct context vector ci for each target word yi
概率取决于XXX
emulates 仿真 v
hybrid 混合的,混合物
We mean by the state-of-the-art performance
我们指的是
underlying framework 基本框架
given a source sentence :给定一个源句子
From a probabilistic perspective
从概率的角度看
plausible 貌似合理的
the proposed approach 本文提出的方法
achieves 实现,达到 v
regardless of its length
不管长度
This frees a neural translation model from having to squash all the information of a source sentence,
把xxx 从xxx 中解放出来
proposed model 拟建模型
deteriorates 恶化
(soft-)alignments 软对齐
qualitative analysis 定量分析
(soft-)search 没有固定界限
hard segment explicitly 有明确界限
propose to 建议
conjecture 推测
minibatch are roughly of the same length
A 大致相同的长度
address this problem 解决问题
LSTMs tend to not suffer from the vanishing gradient problem
hard constraint 硬约束 相当于梯度截断
A 不受B的影响
perplexity: 混乱
resemble:像
To the best of our knowl-edge 据我们所知
discrete regions 分散区域
recurrent steps:重复步骤
To be more spe-cific 更具体些
stringent conditions 严格条件
unwieldy 笨拙的
Heavy models 大模型
one-size-fits-all 通用型
appeal 启发
retrench:节省
in the response of varying request amounts:应对xxx情况
self-distillation mechanism are combined to improve the inference time of NLP model for the first time
A and B are combined to improve C:A和B 结合提高C
Their efficacy is verified on twelve NLP datasets
A is verified on B A在B 上已经被证实
scale up 按比例增加
trade task accuracy for ease in computa-tion 用准确度来换计算上易用性

readily 容易地
样本自适应机制(Sample-wise adaptive mechanism)
n-gram n元
负样本采样 nagetive sampling
hierarchical softmax:层级softmax
跳字模型(skip-gram):通过中心词来推断上下文一定窗口内的单词。
连续词袋模型(continuous bag of words,CBOW):通过上下文来推断中心词。
up front 预先
prog:program 缩写
DAI:分布式人工智能系统
ops 操作
vars 参数
benchmark: 基准
general domain 一般范畴
suffer from 遭受
domain-specific 指定领域 修饰词放在后面 短横线的应用
derive 获得
retrieve 检索
complementary 辅助性的
effectiveness 效力
efficiency 效率
instantiate 举例说明
is referred to 是指
a margin of 什么的优势
over the strong baselines 对XXX 还是在XXX上
provide somebody with something 提供给某人某物
through 介词短语 状语
conjecture 推测
Adaptively 适应性地
ground-truth 真相
promising 有前途的
To induce 引入
repetitively 重复地
preliminary 初步的
alleviate 减轻
instead 反而
Genre 类型
crowd-sourced 众包
entailment 蕴含
with respect to 关于
Quora 果壳

context 上下文

Treebank 树图资料库
sentiment 情绪,观点
Semantic 语义
semantically 语义地
Benchmark 基准,指标
drawn from 来自
news headlines 新闻提要
domains 领域
Paraphrase 释义
span 跨度
except with 除了
subtle 精细的,微妙的
straightforward 直接地,坦率的
distributions 分派
refers to 指的是
comparable 类似的
boost 促进
prior 之前的
down the line 彻底地
stands for 代表,替代
jointly condition 联合条件
alarmed 担忧的
henceforth 从此以后
admittedly 公认地
messy state 混乱的状态
cyclic循环的,周期的
scalable 可扩展的
come with 伴随XXX发生
In this case though 在这种情况下
archive 存档
conceptually 概念上地
empirically 以经验为主地
holistically 整体论地
fine-grained 详细的
Generative 生产的
objective function 目标函数
unidirectional 单向性的
attend to 注意,照料
sub-optimal 次佳的
incorporate 包含
alleviate 减轻
objective 目标
fuse 融合
in contrast to 和…形成对照
shallow 浅的
concatenation 连接
heavily engineered 大量工程地
a large suite of 大批
outperform 胜过
advance 把… 什么提前或者 提高了
general language representations 通用语言表示
active area of research 现役的研究领域
non-neural 非神经
integral part 主要的部分
learned from scratch 从头开始学习
discriminate a from b 辨别 a和b
generalized 被推广
coarser granularities 粗粒度
left-to-right generation of next sentence words given a representation of the previous sentence
generation of 这个时候就不是作为被修饰的名词
而是作为修饰的词了
derived 派生的
predecessor 前任
generalize 推广
along a different dimension 沿着…
context-sensitive 上下文相关的
contextual 上下文的
integrating a with b 集成ab
cloze 完形的
As with 正如,和…一样
More recently 最近
Apart from 除了
There has also been work 还有一些… (工作)
Computer vision 计算机视觉
learning 学问
effective recipe 有效的配方
serve as a running example 充当… (xx例子)
distinctive 独特的
unified 统一的
across different tasks 在不同任务之间
based on based 后面是介词的时候 修饰后面 没有介词 修饰前面
identical 完全相同的
exhaustive 详尽的
refer readers to Vaswani 请读者参考 vaswani
Annotated 有注释的
denote 指示
We primarily report results on two model sizes 主要地
报告 在两个模型上的结果
Critically 关键地
unambiguously 不含糊地
Throughout 遍及
arbitrary span 任意跨度
refer to 指的是
WordPiece 零件
corresponding to a 与a 一致
token 记号,
aggregate 集合的
gregate sequence 总序列
Intuitively 直观地
reasonable 合情合理的
a is strictly more powerful than b a 比 b 好
bidirectional conditioning 双向调节
trivially 轻松地
a is often referred to as b a 作为b 被提及
are fed into 被送入
ver the vocabulary 通过词汇表 在所有词之上

we only predict the masked words rather than recon-structing the entire input.
rather than 介词把
downside 缺点
mitigate 减轻
compare variations 比较 变更
NSP 下一句预测
QA 问题和会回答
NLI :自然语言推理
binarized 二值化的
monolingual 单语的
simplicity 简易
a is closely related to b a 紧密地联系b
existing literature 存在的文献
text passages 文本段落
long contiguous sequences 长连续序列
model 塑造
whether they involve single text or text pairs a 或者 b 连词和介词
swapping out 置换出
common pattern 普通的模式
instead 副词
as 因为 连词
plug in 插入
end-to-end 端对段的,首尾相连的
a are analogous to b a 类似b
hypothesis premise 假设 前提
entailment 蕴涵
degenerate 退化的
sentiment analysis. 情感分析
Compared to b 与b 相比
General Language Understanding Evaluation (GLUE)
一般语言理解能力评估
represent 描述
representation 表现
a is slightly different than b a 不同于b
exclude 排除
problematic 有问题的
Spearman correlations 斯皮尔曼相关系数
accuracy scores are reported for the other tasks
a are reported for b 对于b的a 被报道
entry 条目
use BERT as one of their components.
use a as b 用a 作为b
We use a batch size of 32 and fine-tune for 3 epochs over the data
over 在整个 整体之上
among 5e-5, 4e-5, 3e-5, and 2e-5
among a,b and c
restarts 重新开始
outperform all sys-tems on all tasks by a substantial margin
by a substantial margin 好很多
respective 各自的
Note that +句子 注意到
in terms of a 在a 方面
leaderboard 排行榜
as of the date of writing 自发文之日起
We find that BERTLARGE significantly outper-forms BERTBASE across all tasks
across all tasks 在所有任务上
The effect of model size is explored more thoroughly in Section 5.2
a is explored more thoroughly a 被更深入地探讨 探索
The Stanford Question Answering Dataset (SQuAD v1.1)
analogous 类似的

Table 2 shows top leaderboard entries as well as results from top published systems
a as well as b a 和b
up-to-date 最新的
modest d适度的
ensemble 总体
a wide margin 大幅度
allowing for 考虑到
probability space 概率空间
is extended to 被扩展为
The Situations With Adversarial Generations (SWAG)
grounded commonsense inference 普通常识推理
plausible 貌似有理的
a number of facets of a a的多个方面
bidi-rectionality 双向性
scheme 计划
degraded 削弱
make a good faith attempt 做出真诚的尝试
condition the answer 对答案设置条件
otherwise 副词 另外地
a are already quite large relative to b
relative to 相对于
It has long been known that 人们早就知道这一点
perplexity 困惑
held-out 展示
scaling 缩放比例
small scale 小规模
provided that 如果
sufficiently 充分地
in passing 顺便地
expressive 有变现力的
on top of b 在b 之上
In the input to BERT 在bert 的输入中
case-preserving WordPiece model
保留大小写的单词模型
formulate ,明确地表示
ablate 简化
integral part 主要的部分
tackle a broad set of NLP tasks 处理一套广泛的 b
Masked LM MLM
bias a toward b 使a偏向b
marginally 稍微地
far outweigh 远大于
two spans of text 两段文章
even though 即使
They are sampled such that the com-bined length is ≤ 512 tokens
被采样 以便于
disproportionately 不成比例地
quadratic 二次方的
with the exception of a 除.a…之外
exhaustive search 穷举搜索
exhaustive 详尽的
intentionally 有意地
many of the design decisions in BERT were intentionally made to make it as close to GPT as possible
make as as close to b as possible 使a尽可能地和bxxx
account for a 对a 做出解释
isolate 分离,区分
bidirectionality 双向性
incorporating 合并的
consecutive 连贯的
in terms of a,在a方面,根据a
have the chance to do sth 有机会做什么事
complex recurrent 复杂的 递归
dominant sequence transduction 显性序列转导
performing 表现的
dispensing with a 摒弃a
superior 出众的,优秀的
improving over the existing best results
over 后面加集合名词
by over 超过
a small fraction of 一小部分
constituency 选民
nearly 差不多
involved in 涉及
variants 变体
codebase 代码库
was responsible for 负责
massively 大规模地
Numerous efforts 无数的努力
continued to do sth 继续做…
push 推进
factor computation 因子计算
Aligning the positions to steps in computation time
Aligning a to b 将b和b对齐
inherently 固有地
precludes 排除
factorization 因子分解
conditional computation 条件计算
in case of a 在a的情况下
fundamental 根本的
compelling 引入注目的,强迫
without regard to b 不考虑b,无关于b
In all but a few cases 除少数情况为,都是如此
in conjunction with a 和 a 结合
eschewing 避开
draw 绘制
as little as a 只不过a
building block 基本构成要素
relate 关联
linearly 线性的
logarithmically 指数的
distant positions 遥远的位置
is reduced to a 简化成a
constant number 常数,恒定的数量
albeit 虽然 conj
at the cost of reduced effective resolution
at the cost of a 以a 为代价
attention weighted 注意力加权的
an effect 一个影响
counteract with b 和b抵消
intra 内部的
abstractive summarization 摘要式总结
textual entailment 文本蕴涵
memory network 记忆网络
have been shown to do sth 已被证明
To the best of our knowledge 据我们所知
motivate 激发
auto-regressive 自回归
overall architecture 总体架构
stack 堆叠
point-wise 逐点的
fully connected layers 全连接层
identical layers 相同的层
sub-layers 子层
employ 采用
residual connection 残差连接
facilitate a 使a 更容易
encoder stack 编码器堆
we employ residual connections around each of the sub-layers
around a: 在a 周围
prevent positions from attending to subsequent positions
prevent a from doing sth:防止a做某事
attending to 关注
combined with a 连同a
offset 抵消

a set of 一组
weighted sum 加权和
Scaled 比例的
divide each by √dk 除以 dk
multiplicative 乘法的
is identical to 全等于
except for 除了
scaling factor 缩放因子
Additive 累计的
theoretical complexity 理论的复杂性
space-efficient 省空间的
magnitude 量级
grow large in magnitude 变大
pushing the softmax function into regions where it has extremely small gradients
push a into 会导致a怎么,怎么样
To counteract this effect 抵消这个影响

concatenated 串联的

depicted 描述
up to and including
直至并包括
inside 内部
scaled 缩放的
masking out a 屏蔽 a
correspond to 对应于
is applied to a 被应用到a
linear transformations 线性变换
inject 注入
sinusoid 正弦曲线
geometric progression 几何级数
offset 偏移
be represented as 被表示为
relative positions 相对位置
extrapolate 外推,推断
variable-length 可变长度
desiderata 迫切需要之物
forward and backward 前后的
traverse 穿梭
sequentially executed operations 按顺序执行操作
is most often a 最常见的是a

To improve computational performance for tasks involving very long sequences, self-attention could be restricted to considering only a neighborhood of size r in the input sequence centered around the respective output position
为了提高包含很长序列的任务的计算性能,可以将自关注限制为仅考虑以各自输出位置为中心的输入序列中r大小的邻域
be restricted to n 或者 doing
plan to do sth 计划做xxx
contiguous kernels 连续的内核
dilated 膨胀的
considerably 相当地
As side benefit:作为附带的好处
interpretable 可说明的
inspect 检查
individual attention 个别的关照
appear to 似乎
syntactic 句法的
training regime 训练制度
varied 变换
corresponds to a 对应 a
thereafter 其后
proportionally 成比例地
inverse 倒转的
sustained 持续的
checkpoint averaging 检查点平均
drop off 减少
metrics 指标
determining compatibility 确定兼容性
sophisticated 复制的
is subject to 倾向于
modalities 形式
other than b 不同于a
Making generation less sequential
Making a less sequential 使a xxx 的
Acknowledgements 感谢
completing a 使 a 完整
anaphora resolution 指代消解
Isolated 单独的
are very sharp for b 对a很尖锐
code simplicity the norm is first as opposed to last
code simplicity the norm is a as opposed to b 是a 而不是b
are blocked for 被屏蔽
compatibility function 合并函数 就是 concat
Take in and process 接收和处理
Take in a 考虑a

tends to 趋于
fast-to-execute 短语
cumbersome 麻烦的,笨重的
deployment 部署
collaborators 合作者
acoustic 声学的
heavily used 频繁使用地
fine-grained 细粒的,详细的
mod-els confuse 模式混淆
larval 幼虫的
deployment stage 部署阶段
despite 尽管 介词+n
real time 实时
stringent 严格的
much more + adj 更加
latency 延迟
analogy 类比
be willing to do sth 乐意
transform a from b to c 从b 转移a 到c
pioneered 倡导的,提出的
conceptual 概念上的
a affiliated with b a 隶属于b
It is generally accepted that 人们通常认为
Despite this 尽管如此
It would clearly be better to do sth 这样做显然更好
An obvious way 明显的方式
arithmetic 算术的
high confidence 高可信度
resides in the ratios of very small probabilities in the soft targets
resides in b 驻留在b
other way around 正好相反
rich similarity structure 丰富的相似结构
are so close to zero
are so close to a 如此接近于a
circumvent 规避
consist entirely of a 由a组成
a small term 一个小项
erring in b 在b 上犯错误
turns out to be helpful 结果证明是有帮助的
weighted average 加权平均值
magnitudes of the gradients 梯度大小
meta parameters 元参数
with respect to 至于
unconstrained 不受约束的
rectified 修正的
jittered 晃动的
solely 仅仅
perspective 观点
falls to 13.2%
falls to a 下降到a

temporal 临时的
temporal context 时间性上下文
waveform 波形
discrete 离散的
Hidden Markov Model (HMM)
More specifically 更具体的说
tri-phone 三音素
compromise 妥协
transcription 抄本,转录
marginalizing忽视
stochastic 随机的
excessive 过度的
confusable 已被混淆的
replicas 副本
sharded parameter server 分片参数服务器
spread over a 遍布a
neurons 神经元
Cable-stayed bridge 斜拉桥
only if 只有
baseline model 基准模型
it makes sense for a 这是有道理的
generalist model 通才模型
enriched 浓缩的
The softmax of this type of specialist can be made much smaller by combining all of the classes it does not care about into a single dustbin class.
合并所有不关心到类到一个垃圾类
remainder 其余部分
biased 有偏差的
incrementing a by b 增加a 到b
oversample 过采样
derive 导出
object categories 对象类别
opted for 选择了
we apply a clustering algorithm to the covariance matrix of the predictions of our generalist model
我们将聚类算法应用于广义模型预测的协方差矩阵
of 后面的作为修饰对象?
clustering algorithm 聚类算法
full probability 全概率
KL divergence KL 散度
general 通用的

disjoint 不相交的
One of our main claims 其中一个我们主要的主张是
This shows that soft targets are a very effective way of communicating the regularities discovered by a model trained on all of the data to another model.
communicating a to b 传递 a 到b
collapsed a into b 坍缩 a 都 b
enriched 丰富的
because then 因为这样
resemblance 相似
revise 修订
distinctly 明显地
even when 即使当
one or more 一个或多个
achieved 完成的
infeasible 不可行的
spatial-attention 空间注意
attention map 特征图
elemet-wise 以 element 为单位,为单元
context free manner 上下文无关的方式
Apply as a 适用于 a
well-formed 格式良好的
incrementally 递增地
Mask out 遮盖
never seen 从未见过
sanctified 认可的
mitigate 减轻
asymptote 渐进线
off-by-one 差一
trivial 不重要的
lego blocks 乐高积木
latent space 隐空间
Near-term 近期的
making clever use of a 巧妙应用a
pragmatic distinction 语用差异
prestigious 有声望的
Phrase-Based 基于短语的
a are offloaded to b a 转移到b
This configuration also allows simultaneous computation on the CPU and GPU without contention for memory resources.
对资源的争夺
collectively 共同地
on-chip 芯片内的
LPA :标签传播算法
in compliance with the License
in compliance with a 按照a
Denoising Autoencoder DAE 去噪自编码
prefetch 预先载入
RoundRobin 轮询调度

PSL 描述系统的形式语言
PSA 处理PSL描述的分析程序
TSP travelling salesman problem 旅行商问题

pert

IPSE 集成化项目支持环境

SQA
相似的 含混不清的 要对比

结束

陌生单词-专业英语代码编码符号1相关推荐

  1. 陌生单词-专业英语代码编码符号2

    ips:每秒处理的图片数量 End-to-end evaluation on the validation set with TEDS as the indicator. TLD: text line ...

  2. 计算机专业英语实战记录(整理了上千个相关单词)

    自上一篇<每次阅读外文技术资料都头疼,终于知道原因了>已过去多月,最近又在做简单的实践,实践方式很朴素,就是对照阅读React官方资料和国内翻译的资料,逐句对比,发现了许多问题,特在此记录 ...

  3. 用计算机计算成品率计算公式,计算机专业英语+单词+部分习题.doc

    计算机专业英语单词部分习题 KEY TERMS 第一单元 application software应用软件 basic application基本应用软件 communication device通信 ...

  4. 带你一起学软件工程的专业英语!(IT行业、四六级党快记起来)《软件工程专业英语》第一单元:启动软件项目——单词、短语、名词缩写、难句、备忘录的基本格式样本(必备技能)

    https://blog.csdn.net/hanhanwanghaha宝藏女孩 欢迎您的关注! 欢迎关注微信公众号:宝藏女孩的成长日记 如有转载,请注明出处(如不注明,盗者必究)   英语是全球IT ...

  5. j计算机专业英语题库,计算机专业英语单词习题

    计算机专业英语单词习题 (30页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.9 积分 KEY TERMShard disk 硬?ImiMicroc ...

  6. 计算机代码英语,计算机专业英语 (四)(示例代码)

    计算机专业英语 (四) 第一部分:基本单词 interconnect vt 使互相链接 active adj 主动的,活动的 passive adj 被动的 strengthen v 加强,巩固 mu ...

  7. 计算机专业英语选词填空,专业英语考试+单词翻译+单项选择+选词填空+成成呕心沥血之作.doc...

    专业英语考试单词翻译单项选择选词填空成成呕心沥血之作 第一单元 application software应用软件 basic application基本应用软件 communication devic ...

  8. 用计算机打字英语单词,常用计算机专业英语词汇-前401-500单词

    常用计算机专业英语词汇-前401-500单词 贡献者:邓鹏 类别:中英混合 时间:2020-10-28 16:48:34 收藏数:2 评分:0 返回上页 举报此文章 请选择举报理由: 广告/谣言/欺诈 ...

  9. 计算机必修课程英语单词,《计算机专业英语》课程标准.doc

    文档介绍: <计算机专业英语>课程标准课程代码: 参考学时: 64 学分: 3 课程类型: 公共基础课 2015年1月编一.适用专业计算机应用技术专业(3年制中职,5年制高职)二.开课时间 ...

最新文章

  1. CCN:拥有雄厚实力的BCH将成为下一轮牛市的催化剂
  2. 网站https加载不出css样式_Python Web全栈之旅04--Web前端●走入CSS的世界
  3. SharePoint自动化系列——Error features自动deactivate
  4. 结对-贪吃蛇游戏-开发过程
  5. Android开发之RecyclerView之刷新数据notifyDataSetChanged失败的问题
  6. tp5 前台页面获取url链接里的参数,如下
  7. C语言函数多个返回值
  8. 模型人的因素_肺癌风险预测模型中纳入肺功能如何?
  9. 算数运算符与关系运算符_Swift进阶三——运算符相关
  10. JDBC工具类DataSourceUtils,dao接口代码示例;
  11. [xsy1515]小学生数学题
  12. 防止用户直接访问url
  13. ADS1115的IIC通信
  14. SpringMVC类型转换遇到的问题
  15. 绑定小程序数据助手,查看小程序的统计数据-微信小程序开发-视频教程22
  16. 100个经典C语言程序(益智类)
  17. 【oracle报错】ORA-01722:无效数字
  18. 谏太宗十思疏 魏征(原文/译文)
  19. 1646 获取生成数组中的最大值
  20. Java反射的底层原理,以及Java反射的性能分析及优化

热门文章

  1. 获取某组中最大值sql
  2. 自动驾驶:自动泊车之AVM环视系统算法2
  3. 软件测试岗位绩效管理
  4. 进阶实验 5-3.1 航空公司 VIP 客户查询(25 分)
  5. halcon histo_to_thresh 高斯门槛值分布
  6. 华为 android 安全,华为 EMUI/Magic UI 安全更新 2020-3
  7. 习题 11.9 分别定义Teacher(教师)类和Cadre(干部)类,采用多重继承方式由这两个类派生出新类Teacher_Cadre(教师兼干部)类。
  8. 尚融宝13-后台管理系统前端架构梳理
  9. 基于图灵机器人接口的简单NLP学习
  10. Java分页代码(JFIS)