BilSTM 实体识别

大纲：

1.简介
- 1.1 数据集
- 1.2 BiLSTM-CRF模型
- 1.3 如果我们没有CRF层怎么办？
- 1.4 CRF层可以从训练数据中学习约束
2. CRF层
- 2.1 Emission score
- 2.2 Transition score
- 2.3 CRF 损失函数
- 2.4 真实标签序列得分
  - 2.4.1 Emission Score
  - 2.4.2 Transition Score
- 2.5 所有可能标签序列组合的总得分
- 2.6 CRF的损失函数
  - 2.6.1 emission Score和transition Score

1. 简介

1.1 数据集

假设，我们有一个数据集，其中我们有两个实体类型，Person（人名）和Organization（组织名）。因此，事实上，在我们的数据集中，我们有5个实体标签：

B-Person
I-Person
B-Organization
I-Organization
O

此外，

是一个包含5个单词的句子，

。在句子

中，

是一个Person实体，

是Organization实体，其他是“O”。

1.2 BiLSTM-CRF模型

如下图所示：

图1.1：BiLSTM-CRF模型

虽然没有必要知道BiLSTM层的细节，但为了更容易理解CRF层，我们必须知道BiLSTM层输出的含义。

图1.2：BiLSTM层输出的含义

上图说明了BiLSTM层的输出是每个标签的分数。

例如，对于

，BiLSTM节点的输出为1.5（B-Person），0.9（I-Person），0.1（B-Organization），0.08（I-Organization）和0.05（O）。这些分数将是CRF层的输入。在CRF层中，将选择具有最高预测分数的标签序列作为最佳答案。

1.3 如果我们没有CRF层怎么办？

即使没有CRF层，我们也可以训练BiLSTM命名实体识别模型，如下图所示。

图1.3：没有CRF层输出正确标签的BiLSTM模型

因为每个单词的BiLSTM输出是标签分数。我们可以选择每个单词得分最高的标签。例如，对于

，“

B-Person”得分最高（1.5），因此我们可以选择“B-Person”作为其最佳预测标签,

选择“

I-Person”，

选择"

O"，

选择“

B-Organization”，

选择"

O"。

虽然我们在这个例子中可以取得

的正确标签，但很多情况并不总是那样。请再次尝试下图中的示例。

图1.4：没有CRF层的BiLSTM模型输出一些无效的标签序列

显然，这次输出无效，“I-Organization I-Person”和“B-Organization I-Person”。

1.4 CRF层可以从训练数据中学习约束

CRF层可以为最终预测的标签添加一些约束以确保它们有效。在训练过程中，CRF层可以自动从训练数据集中学习这些约束。约束可能是：

句子中第一个单词的标签应以“B-”或“O”开头，而不是“I-”
“B-label1 I-label2 I-label3 ”，在此模式中，label1，label2，label3 …应该是相同的命名实体标签。例如，“B-Person I-Person”有效，但“B-Person I-Organization”无效。
“O I-label”无效。一个命名实体的第一个标签应以“B-”而非“I-”开头，换句话说，有效模式应为“O B-label”
…

利用这些有用的约束，无效预测标签序列的数量将显着减少。

2 CRF层

在CRF层的loss函数中，有两种score。一种是发射（Emission）score，一种是转移（Transition）score。

2.1 Emission score

Emission Score来自于 BiLSTM 层，如下图所示，

被标记为 B-Person 的 score 是 1.5

图2.1：Emission Score来自BiLSTM层

为方便起见，我们将为每个标签提供一个索引号，如下表所示。

我们使用

代表Emission scrore。

是词的索引，

是标签的索引。

例如，根据图2.1，

，表示

被认为是“

B-Organization”的分数是0.1。

2.2 Transition score

我们使用

表示Transition score。

例如，

,表示标签“B-Person”->“I-Person”的转换分数是0.9。因此，我们有一个转换分数矩阵，用于存储所有标签之间的所有分数。

为了使转移矩阵更加健壮，我们将再添加两个标签，“START”和“END”。“START”表示句子的开头，而不是第一个单词。“END”表示句末。

以下是状态转移矩阵分数（transition matrix score）的示例，包括额外添加的“START”和“END”标签。

如上表所示，我们可以发现状态转移矩阵已经学到了一些有用的约束

句子中第一个单词的标签应以“B-”或“O”开头，而不是“I-” （从“START”到“I-Person或I-Organization”的转换分数非常低。）
“B-label1 I-label2 I-label3 I- …”，在此模式中，label1，label2，label3 …应该是相同的命名实体标签。例如，“B-Person I-Person”有效，但“B-Person I-Organization”无效。（例如，从“B-Organization”到“I-Person”的得分仅为0.0003，远远低于其他人。）
“O I-label”无效。一个命名实体的第一个标签应该以“B-”而不是“I-”开头，换句话说，有效模式应该是“O B-label” （例如，分数
非常小。

）
…

那如何获得状态转移矩阵？

实际上，状态转移矩阵是BiLSTM-CRF模型的参数。

在训练模型之前，您可以随机初始化矩阵中的所有转移分数（transition score）。在之后的训练过程中，这些随机初始化的 score 将会被自动更新。换句话说，CRF层可以自己学习这些约束。我们不需要手动构建矩阵。随着训练迭代次数的增加，分数将逐渐变得越来越合理。

2.3 CRF 损失函数CRF 的损失函数由真实标签序列得分和所有可能标签序列的总得分 两部分组成。真实标签序列得分在所有可能标签序列得分中是最高的。
假如我们的数据集中有这样一些标记：

那么，在第一节中我们假设的句子x，所有可能的标签序列组合为:

(1) START B-Person B-Person B-Person B-Person B-Person END
(2) START B-Person I-Person B-Person B-Person B-Person END
…
(10) START B-Person I-Person O B-Organization O END
…
(N) O O O O O O O

假设一共有N中可能的标签序列组合，且第

个标签序列的得分为

，那么所有N条可能标签序列组合的总得分为：

按照我们之前的假设，第10个是真实的标签序列，那么，我们想要的结果是第10个标签序列得分在所有可能的标签序列得分中是最高的。

因此，我们可以定义模型的损失函数，在整个模型训练过程中，BiLSTM-CRF模型的参数不断地进行更新，使得真实标签序列得分在所有可能标签序列组合得分中的占比是最高的。因此，模型的损失函数格式如下所示：

那么，问题就来了：

如何定义一个标签序列的得分？
如何计算所有可能标签序列组合的总得分？
在计算总得分中，一定需要计算每一个可能的标签序列的得分吗？（提前透露一下答案：不需要！）

接下来，我们来解答每一个问题。

2.4 真实标签序列得分

前面我们定义了标签序列得分为

，以及所有可能标签序列的总得分为：

其中

表示第

个标签序列得分。(加e保证得分>0)

显然，在所有可能的标签序列组合必然存在一个序列是真实标签序列，而剩下的标签序列组合都是错误的，比如序列 "START B-Person I-Person O B-Organization O END " 是正确的，而序列 "START B-Person I-Person B-Person B-Person B-Person END" 是错误的。

在整个模型训练过程中，CRF层的损失函数只需要两个得分：

一个是真实标签序列得分
一个是所有可能标签序列组合的总得分

而我们的学习目的是让真实的标签序列得分在总得分中的占比是最高的。

对于真实标签序列的得分

，我们直接计算

即可。

我们使用之前的案例，真实的标签序列为“START B-Person I-Person O B-Organization O END ”，即：

句子

由5个字符组成，
我们在句子前后增加两个字符，记为

2.4.1 Emission Score

Emission Score计算公式如下所示：

其中：

表示第index个词被标记为label的得分
为

BiLSTM层的输出
一般
和

为0

2.4.2 Transition Score

Transition Score计算公式如下所示:

其中:

表示label1到label2的Transition Score。
Transition Score主要是在CRF层进行计算的，也就是说，transition Score完全是CRF层的参数。

因此，我们通过计算

，可以得到第i条标签序列的得分。

2.5 所有可能标签序列组合的总得分

前面，我们计算了单条标签序列得分，接下来，我们需要计算所有可能标签序列的总得分。由之前内容可知，总得分的计算公式为;

很显然，总得分计算方式就是每一条标签序列得分的求和，那么我们能想到的最简单的方法就是先计算每一条的标签序列得分，然后将所有的标签序列得分进行相加得到总得分。虽然计算很简单，但是效率不高，需要很长的训练时间。

接下来,我们将通过公式推导来认识总得分计算过程。

2.6 CRF的损失函数

由前面可知，CRF层的损失函数为:

我们对其对数化，即：

一般在模型训练过程中，我们希望损失函数最小化，因此，在损失函数添加一个负号，即:

因此，对于总得分，需要一个高效的方法计算

2.6.1 emission Score和transition Score

为了简化公式，我们假设句子的长度为3，即:

假设数据集中只有两个标签，即：

则emission Score矩阵可从BiLSTM层的输出获得，即：

其中

为单元

被标记为

的得分。

而且，我们可以从CRF层中得到transition Score矩阵，即:

其中

为标签

到标签

的得分。

https://blog.csdn.net/zhang2010hao/article/details/85317411

https://blog.csdn.net/zhang2010hao/article/details/85289875

总结：

CRF层可以为最终预测的标签添加一些约束以确保它们有效。在训练过程中，CRF层可以自动从训练数据集中学习这些约束，利用这些有用的约束，无效预测标签序列的数量将显着减少。

在CRF层的loss函数中，有两种score。

一种是发射（Emission）score，来自BiLSTM层，是某个单词对应某个标签的分数

一种是转移（Transition）score，来自CRF层，是标签之间的转移分数，从而得到状态转移矩阵，这个就是CRF层中的参数，是学习到的

CRF 的损失函数由真实标签序列得分和所有可能标签序列的总得分 两部分组成。真实标签序列得分在所有可能标签序列得分中是最高的。

参考：

BILSTM-CRF-1_zhang2010hao的博客-CSDN博客_bilstm crfblog.csdn.net

https://blog.csdn.net/zhang2010hao/article/details/85317411

https://www.jianshu.com/p/9901c60fa8b8www.jianshu.com