论文阅读

《High-speed train fault detection with unsupervised causality-based feature extraction methods》

文章目录

论文阅读
摘要
一、相关内容
- 项目研究背景：
- FDD先前技术：
- 维度困难
- 因果使用进展
二、高维监测变量特征提取方法
- 1、因果网络的构建
- - 1.1 数据离散化
  - 1.2 监测变量因果网络的构建
- 2、邻接矩阵的构造
- - 2.1 因果邻接矩阵
  - 2.2 全因果邻接矩阵
- 3、特征向量提取和数据重建
- - 3.1 Causal-FE 1
  - 3.2 Causal-FE 2
  - 3.3 Causal-FE 3
三、高速列车实验结果
- 1、案例介绍
- 2、基于因果关系的特征提取
- 3、对比分析

摘要

智能传感器为高速列车的复杂系统收集的大量运行数据，为高效和有效的故障检测和诊断（FDD）提供了机会。这些数据也给 FDD 建模过程带来了挑战，因为对于特定子系统的 FDD 建模，各种信号可能是冗余的、无用的和嘈杂的。数据驱动的方法也遭受维度灾难。特征降维可以降低监控数据集的维数，消除无用信息。与基于变量间相关性的经典方法不同，最近的研究表明，基于因果关系的方法可以使 FDD 模型更具解释性和鲁棒性。 从因果网络图的邻接矩阵出发，本文提出了三种基于无监督因果关系的高速列车制动系统FDD特征提取方法。

从因果网络图的邻接矩阵出发，本文提出了三种基于无监督因果关系的高速列车制动系统FDD特征提取方法。通过因果发现算法在原始监测特征变量之间构建因果网络图，所提出的方法基于本文提出的因果邻接矩阵或全因果邻接矩阵提取信息特征。采用这些方法进行故障检测，使用从高速列车制动系统收集的真实数据集来验证它们的有效性。

实验结果表明，与经典的基于相关性的方法相比，所提出的基于因果关系的特征提取方法是有效的，并且具有一定的优势。特别是基于全因果邻接矩阵构造的相关矩阵的特征提取方法比实验中的基准方法取得了更好和稳定的结果。

一、相关内容

项目研究背景：

如今，高铁正在快速发展，尤其是在中国。到2019年底，高铁运营总里程达到3.5万公里。

乘客最关心的是其安全性和可靠性[2,3]。因此，及时准确地检测和识别任何初期故障（即FDD）对于确保安全运行非常重要[3,4]。由于运行速度快，制动系统是安全关键的子系统之一。在电动制动器、真空制动器、空气制动器、不粘制动器等不同类型的制动器中[2,5]，空气制动器是世界各地铁路广泛采用的标准故障安全制动器。空气制动系统的示意图如图 1 所示。分配器的控制是通过改变连接到驾驶室制动阀的制动管中的压力来实现的。通过增加制动管中的压力，可以释放制动器。不可避免地，高速列车的制动系统可能会以不同的方式出现故障，例如转向架上气动制动截止阀关闭、截止阀紧急应用阀关闭、空气压缩机故障、软传感器故障、制动缸组件故障、漏气等 [5-7] 一旦制动系统发生故障，它会降低紧急停车和常规停车的减速效率，因此可能导致严重甚至灾难性的后果。制动系统中的故障检测和诊断 (FDD) 引起了研究人员和工程师的关注 [5,6]。

FDD先前技术：

得益于现代电子传感技术的发展，各种传感器被用于监测高速列车的健康状态。随着来自各种监测传感器的大量数据和人工智能方法的发展，研究人员正试图开发用于FDD的数据驱动方法[8]。 [9] 在多元统计框架下提出了一种新的数据驱动的初始故障估计 (FE) 方法。文献[10]提出了一种基于长短期记忆（LSTM）循环神经网络的高速列车转向架故障诊断方法。用于高速列车制动系统故障检测的支持向量机 (SVM) 框架可在 [5] 中找到。

维度困难

从各种传感器收集的大量监测数据也可能带来一些挑战。最重要的挑战之一是数据驱动方法的维度灾难。随着数据维度的扩大，计算负担呈指数增长，FDD模型的性能甚至可能受到污染，因为存在冗余、无用和噪声的监控信号。
即使是目标子系统中的传感器也并非都提供有关特定故障的有价值信息。因此，通过减少高维监测数据提取有用的关键信息就显得尤为关键。

虽然降维方法对 FDD 模型的性能起着重要作用，但可以观察到，目前有关高速列车 FDD 的大部分工作都致力于开发先进的 FDD 模型，而降维方法却没有深入研究。包括基本特征选择和特征提取的特征降维是应对这一挑战的重要且有效的解决方案。

传统的特征降维方法包括基于相关排序（CR）的特征选择、主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）、等距映射（ISOMAP）、核主成分分析（KPCA） [12,13] PCA 和基于 CR 的特征选择是最常用的。这些经典的特征降维方法通常基于特征变量之间的相关性，并不试图捕捉它们之间的因果关系[14,15]。

因果使用进展

因果关系分析已初步应用于医疗、经济、环境和可解释人工智能等多个领域并取得成功[22,23]。它已在 FDD 中应用。文献[24]采用动态因果有向图推理方法对纸机短循环过程中的故障进行诊断。 [25]中提出了一种基于知识图谱技术和因果搜索算法的方法来挖掘因果关系和诊断根本原因。此外，研究人员还提出了一些基于因果关系的特征降维方法。在[26]中提出了一种自举因果特征选择（BCFS）算法，该算法使用带有因果发现算法的自举来去除不相关的特征。在 [27] 中提出了一种用于流特征选择的近似最优贪心算法，该算法将因果特征选择公式化为基数约束的联合定向信息最大化问题。可以在 [14] 中找到对基于因果关系的特征选择的最新进展的全面回顾，其中提供了第一个开源包。最先进的基于因果关系的特征减少方法主要用于选择原始特征，很少有工作涉及特征提取。因此，本工作试图探索基于因果关系的FDD特征提取方法，以降低高维数据的维数，提高后续FDD建模过程的效率和有效性。本文提出了三种基于高速列车监测变量间因果关系的制动系统FDD无监督特征提取方法。所提出的方法是从 DAG 的邻接矩阵发展而来的。已经提出了用邻接矩阵提取有用特征的不同策略。与相关性相比，被监测变量之间的因果关系稀疏[16]。与基于相关性的降维方法相比，基于因果关系的特征提取方法有望提供有关故障的精细信息。以两种流行的降维方法为基准方法，以验证所提出的特征提取方法在真实高速列车制动系统数据集上的有效性。实验结果表明，与经典的基于相关性的方法相比，所提出的基于因果关系的特征提取方法是有效的

二、高维监测变量特征提取方法

在本节中，将详细介绍本文提出的基于无监督因果关系的特征提取方法。为简单起见，这些方法分别命名为 Causal-FE 1、Causal-FE 2 和 Causal-FE 3。
特征提取的过程可以分为以下三个主要步骤，即构建因果网络、构建邻接矩阵、特征提取和数据重建。流程图如下：

Causal-FE 1 依赖于因果邻接矩阵，其他两种方法依赖于全因果邻接矩阵。 Causal-FE 2 和 Causal-FE 3 的区别在于相关性计算方法。

假设高速列车制动系统的监控数据集 D 由作为输入的传感变量和作为输出的相应故障指标组成的数据驱动模型，分别表示为输入矩阵 X={x_ij} 和标签向量 Y={ y_i : y_i∈{0,1}} 对于 i = 1,2,…,n, j = 1,2,…,m。监控数据集有 n 个数据点和 m 个监控变量。一般来说，监测变量中既有连续变量，也有离散变量。标签变量有两个可能的值，0 表示正常状态，1 表示制动系统故障状态。

1、因果网络的构建

为了构建因果网络，需要考虑所采用的网络构建方法对连续监测变量进行离散化。

1.1 数据离散化

数据离散化方法主要包括无监督离散化和有监督离散化。无监督离散化方法一般包括等宽算法、等频算法、K-means聚类算法。考虑到等宽算法理论上简单且被广泛采用，本文采用的离散化方法为等宽算法。等宽算法要求用户指定区间数 k。然后，将特征的范围划分为等宽的 k 个区间，其中每个区间对应一个离散值。离散化后，X 中的所有输入变量都是离散的。

1.2 监测变量因果网络的构建

因果网络是由变量节点和有向边组成的有向无环，根据监控变量之间的因果关系构建。
本文采用基于分数的方法，主要包括模型选择和模型优化两个步骤。模型选择是指定一个模型选择准则，即打分函数，包括最小描述长度（MDL）得分、贝叶斯信息准则（BIC）得分、Akaike信息准则（AIC）得分等[35,36]模型优化是根据所采用的策略搜索得分最高的因果网络结构，主要包括粒子群优化算法、K2搜索算法、爬山算法等方法。
本文分别使用 BIC 评分和爬山算法作为评分函数和搜索策略。 BIC评分函数使用对数似然来衡量因果网络结构的生成数据与观察数据的拟合程度。使用评分函数 BIC 时，观察数据应该是独立同分布的，可以描述为方程。

其中m是因果网络节点的数量，即特征变量的数量； X和G分别为监测变量的输入矩阵和对应的因果网络结构； q_i是第 i 个特征变量的父集的值组合数； r_i 是第 i 个特征变量的状态数； m_ijk 是第 i 个特征变量为第 k 个状态且其父项为第 j 个状态的样本数； n是X中的样本数。爬山算法的核心原理是不断比较当前节点与其相邻节点的值。得分较大的节点被认为是本次搜索过程的最佳点，直到到达山顶，即得到最优的网络结构。

2、邻接矩阵的构造

根据变量间的因果关系推导出邻接矩阵。除了经典的因果邻接矩阵，在这项工作中提出并定义了完整的因果邻接矩阵，用于特征提取。

2.1 因果邻接矩阵

在构建因果邻接矩阵时，只考虑监控变量的因果关系。假设由特征变量之间的因果网络G构造的m×m因果邻接矩阵为A，第i行第j列的元素为aij

由于非循环因果网络中肯定有没有子节点的节点，所以矩阵A中会有所有元素为0的行向量。由于后面采用了奇异值分解（SVD），这样的行向量和对应的监控变量在 X 中需要删除。

假设矩阵A中零向量的监控变量个数为r。减少的因果邻接矩阵和特征数据集矩阵分别记为 Ap 和 Xp，如方程式所示。

2.2 全因果邻接矩阵

(5)、每一列只告诉对应变量的父节点，没有任何子节点的信息。因此，在这项工作中提出了完整的因果邻接矩阵。假设由监测变量之间的因果网络 G 构造的全因果邻接矩阵为 Af，第 i 行第 j 列元素为 aij，可描述为式。 (7)。
所以这样定义之后都是方阵，不需要像上一节一样删行。

3、特征向量提取和数据重建

Causal-FE 1 基于因果邻接矩阵 A，而 Causal-FE 2 和 Causal-FE 3 基于全因果邻接矩阵 Af。

3.1 Causal-FE 1

Causal-FE 1 的特征提取过程可分为以下四个步骤：
a) 转置约化因果邻接矩阵Ap，得到转置矩阵Ap^T。
b) 矩阵 ApT 的奇异值分解 (SVD)：在提取矩阵特征时，特征值分解（EVD）是一种很好的方法，但它只能处理n×n的方阵，而SVD可以分解任何n×m的矩阵。假设 Q 是一个 n × m 矩阵，它可以分解为方程式所示的三个矩阵。
U和V的列分别是矩阵Q的n×n左奇异向量和m×m右奇异向量。n×m矩阵Σ与奇异值成对角线。
SVD得到的奇异值和右奇异向量可以用来降低原始矩阵ApT的维数。因此，转置矩阵Ap^T经过SVD分解后，将(m-r)个奇异值从大到小排序，得到对应的(m-r)个奇异向量

c) 选取最大k个奇异值对应的奇异向量，形成奇异向量矩阵V1，如式(1)所示。

d) 数据重构，将剪枝后的数据集矩阵 Xp 与奇异向量矩阵 V1 相乘，得到新的特征变量数据集 T1，其中仅包含 k 个重构变量。

最后是这部分的代码流程图

3.2 Causal-FE 2

Causal-FE 2 和 Causal-FE 1 的过程基本相同。但是，Causal-FE 2 的 SVD 是在全因果邻接矩阵 Af 的基础上进行的。 Causal-FE 2的特征提取过程可以分为以下四个步骤：
a) 对全因果邻接矩阵 Af 进行转置，得到转置矩阵 Af^T。
b) 矩阵 Af^T 的奇异值分解 (SVD)。对转置矩阵Af^T进行SVD分解后，得到m个从大到小排序的奇异值，对应的m个奇异向量如式(1)所示

c) 选取最大 k 个奇异值对应的奇异向量，形成奇异向量矩阵 V2，如 Eq. (15)。

d) 数据重构，将数据集 X 与奇异向量矩阵 V2 相乘，得到重构数据集 T2，其中仅包含 k 个特征变量。

3.3 Causal-FE 3

Causal-FE 3 基于全因果邻接矩阵 Af 和监控数据集 X。 Causal-FE 3 的特征提取过程可以分为以下三个步骤：
1）根据全因果邻接矩阵Af计算所有特征变量的相关值，得到相关矩阵C。 C中第i行第j列的值如公式，Cij代表第 i 个特征变量和第 j 个特征变量之间的相关值。其中 a_is 和 a_js 是全因果邻接矩阵 Af 的元素。

2）主成分分析（PCA）。通过对相关矩阵C进行PCA，可以得到特征向量矩阵V3，其中包括最大k个特征值对应的特征向量。

3）数据重构，将监测数据集X与特征向量矩阵V3相乘，得到重构数据集T3。
T₃ = X * V₃

三、高速列车实验结果

本文通过将这三种方法应用于高速列车制动系统的实际案例研究，验证了这三种方法的有效性。实验流程图如图4所示。

1、案例介绍

本文使用的监控数据集涉及一年中日常运行中的制动系统故障。数据集包含 43 个监控变量和 1 个标签变量。每个变量有 73,007 个数据点，其中 72,699 个与正常情况下的制动系统有关，只有 308 个与故障情况有关。监测变量包括21个连续变量和22个离散变量。这些变量包括训练级别的条件，例如GPS 位置、速度和制动系统级条件，例如内部温度，电池电压等。标签变量表示故障状态或正常状态，0 表示正常状态，1 表示制动系统故障状态。

这项工作的目的是根据收集的监控数据检测制动系统中的故障/异常。在特征提取之前，需要对数据集进行预处理。首先将具有奇异值的变量去掉，因为它们对诊断结果没有影响。其次，考虑到第 2 节中提出的框架，文字变量需要转换为数值变量。最后，对连续变量进行离散化，离散化间隔数为10。最后，得到一个由39个离散变量组成的监测数据集。

在降维之后，在这项工作中采用两种分类方法进行故障检测建模[41-45]：随机森林（RF）和支持向量机（SVM）。考虑到数据集的不平衡性，在分类时自动调整类权重，以提高故障检测性能。故障检测方法的性能指标是整体准确度和 AUC 值。二元分类问题的混淆矩阵如表1所示，其中TP为真阳性，FP为假阳性，FN为假阴性，TN为真阴性。

2、基于因果关系的特征提取

为了发现监测变量之间的因果关系，需要基于 2.1.2 节介绍的 BIC 评分函数和爬山算法构建因果网络。基于预处理数据集构建的因果网络如图6所示。然后，可以根据2.2节介绍的因果网络构建因果邻接矩阵和全因果邻接矩阵。在构建因果邻接矩阵时，可以发现如图6中红框突出显示的没有子节点的节点共有8个，并且这8个特征变量对应的矩阵中的行向量都是零向量。因此，因果邻接矩阵中的这些行向量和监控数据集矩阵中相应的特征变量列被删除。

在因果邻接矩阵和全因果邻接矩阵的基础上，执行所提出的特征提取和数据重建方法，以从原始数据集中提取预定义数量的特征。为了验证所提出的因果有限元方法的有效性，选择了两种流行的降维方法，即 PCA 和基于相关排序的特征选择（CR）作为基准方法。 CR 方法依赖于计算监测变量和标签之间的 Pearson 相关系数。并选择与标签相关性最强的k个变量进行建模过程。本文还讨论了提取特征数量的影响。

3、对比分析

SVM 的结果表明，Causal-FE 3 只需 3 到 5 个特征即可达到稳定的结果，而其他方法至少需要 8 个特征，表明 Causal-FE 3 提取的特征在本案例研究中，FE 3 比其他故障检测方法提供更多信息。同样清楚的是，Causal-FE 3 比其他两种提出的特征提取方法取得了更好的结果。原因是 Causal-FE 3 中的相关性同时考虑了父节点和子节点的信息，并且相关性的强度与等式适当区分。 (17)。相反，Causal-FE 1 仅依赖父节点进行特征提取，而 Causal-FE 2 直接采用 SVD 的因果关系而不区分关系的强度。综上所述，三种提出的 Causal-FE 方法均可用于高速列车制动系统的故障检测，而 Causal-FE 3 则强烈推荐用于解决高维数据问题。

与制动系统相关的监控变量之间的因果网络。用红框突出显示的变量是没有子节点的八个节点。

《无监督因果特征提取高速列车故障检测》论文阅读相关推荐

《基于卷积神经网络的深度迁移学习，用于燃气轮机燃烧室的故障检测》论文阅读
目录突出抽象引言 1.1动机 1.2文献综述获得的结论 1.3贡献 1.4组织 2方法 2.1燃汽轮机组故障知识共享 2.2迁移学习 2.3 基于卷积神经网络的深度迁移学习 2.4用于燃气轮机燃 ...
基于卷积神经网络和投票机制的三维模型分类与检索 2019 论文笔记
作者:白静计算机辅助设计与图形学学报 1.解决的问题由于三维模型投影得到的视图是由不同视点得到,具有相对独立性,这种像素级的融合运算并没有直接的物理或者几何意义,更有可能造成图像有益信息淹没和混淆 ...
TextCNN——基于卷积神经网络的文本分类学习
1.CNN基础内容 CNN的全称是Convolutional Neural Network,是一种前馈神经网络.由一个或多个卷积层.池化层以及顶部的全连接层组成,在图像处理领域表现出色. 本文主要学习 ...
读懂深度迁移学习，看这文就够了 | 赠书
百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...
一种基于卷积神经网络的图像去雾研究-含matlab代码
目录一.绪论二.去雾卷积网络 2.1 特征提取 2.2 多尺度映射 2.3 局部均值 2.4 非线性回归三.实验与分析四.Matlab代码获取一.绪论雾是一种常见的大气现象,空气中悬浮的水 ...
机械臂论文笔记（一）【基于卷积神经网络的二指机械手抓取姿态生成研究】
基于卷积神经网络的二指机械手抓取姿态生成研究论文下载摘要第1章绪论 1.1 抓取生成国内外研究现状 1.1.1已知物体抓取生成 1.1.2相似物体抓取生成 1.1.3 未知物体抓取生成 1. ...
毕业设计 - 基于卷积神经网络的乳腺癌分类深度学习医学图像
文章目录 1 前言 2 前言 3 数据集 3.1 良性样本 3.2 病变样本 4 开发环境 5 代码实现 5.1 实现流程 5.2 部分代码实现 5.2.1 导入库 5.2.2 图像加载 5.2.3 ...
基于卷积神经网络与迁移学习的油茶病害图像识别
基于卷积神经网络与迁移学习的油茶病害图像识别 1.研究思路利用深度卷积神经网络强大的特征学习和特征表达能力来自动学习油茶病害特征,并借助迁移学习方法将AlexNet模型在ImageNet图像数据集上 ...
Python深度学习实例--基于卷积神经网络的小型数据处理（猫狗分类）
Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...
基于卷积神经网络实现图片风格的迁移 1
卷积神经网络详解一.实验介绍 1.1 实验内容 Prisma 是最近很火的一款APP,它能够将一张普通的图像转换成各种艺术风格的图像.本课程基于卷积神经网络,使用Caffe框架,探讨图片风格迁移背后 ...

《无监督因果特征提取高速列车故障检测》论文阅读