文章目录

Background
Method（FILM）
- 数据预处理与特征提取
- 不平衡学习分类器
- - 基于灵敏度分析计算权重矩阵
  - 新型不平衡学习机
  - 嵌套BPA生成
- 证据组合与决策制定
Experiment
- 数据采集
- 特征提取
- 变量参数的分类性能消融实验（确定模型参数）
- - 时间窗长度的消融实验
  - I M F IMF IMF的数量选择消融实验
  - 特征融合的消融实验
  - 训练集测试集划分消融实验
- 多分类系统的性能比较（对比实验）
- - 所述方法的故障检测和分类性能
  - 多分类器之间的对比

1、采用无量纲参数结合经验模态分解(EMD)方法提取振动特征，构成多个证据源
2、考虑到不平衡的数据，对ELM的加权线性回归部分测量了类和样本之间的成本敏感性
3、由所提出的不平衡学习算法生成具有嵌套结构的基本概率分配(BPA)
4、采用证据组合程序，推导出关于复合故障的置信系数的最终推断

Background

复合故障的分解问题

贡献：
1、采用不平衡学习的方法解决了测量不平衡和冗余数据（数据不均衡，故障数据偏少）带来的误分类问题。建立了一种基于SA（灵敏度分析）的不平衡学习模型，生成有关故障类的BPA（基本概率分配）。
2、研究了该融合方法中采样条件和局部特征提取过程所带来的不确定性。嵌套结构的BPA由提出的分类器进行证据组合。
3、利用一个大型旋转机械故障诊断实验平台生成非高斯分布振动信号，验证了该方法的有效性。实验结果表明，该方法能有效地提取故障信息，提高复合故障识别率。

Method（FILM）

融合不平衡学习机（FILM）
1、特征提取
2、权重矩阵确定
3、BPA生成
4、证据组合

数据预处理与特征提取

证据1&2 → \rightarrow →EMD → \rightarrow →前 τ \tau τ 个IMF → \rightarrow → 3个无量纲参数（3-5）

期望：

每一个证据的特征数： K = 3 ( τ + 1 ) K=3(\tau+1) K=3(τ+1)

不平衡学习分类器

基于灵敏度分析计算权重矩阵

第 j j j类对应的所有 N j N_j Nj样本的灵敏度系数：

f ^ j ( x n ) \hat{f}_j(x_n) f^j(xn)表示输出层的第 j j j个神经元输出， x n x_n xn表示输入向量，简化

矩阵 S j S_j Sj中的第 n n n个元素表示第 j j j类中第 n n n个样本的灵敏度的梯度

第 j j j类对给定的第 n n n个训练样本的敏感性可以用以下公式的形式计算：

w l k w_{lk} wlk表示第 k k k个输入神经元与第 l l l个隐藏神经元之间的权重， b l b_l bl表示该隐藏层神经元的偏差。 φ l j \varphi_{lj} φlj表示第 l l l个隐藏神经元与第 j j j个输出神经元之间的权重。 g ( ) g() g()表示隐藏层的 S i g m o i d Sigmoid Sigmoid函数

矩阵 S j S_j Sj中的第 n n n个样本的梯度可以计算为下式的形式

隐藏层输出：

输出层输出：

（16）（17）带入（18）：

T = [ t 1 , t 2 , . . . , t N j ] T T=[t_1,t_2,...,t_{N_j}]^T T=[t1,t2,...,tNj]T——输入样本 X X X对应的目标类标签表示
（19）带入（15）：

（21）带入（20）：

给定的第 n n n个样本的第 j j j类灵敏度

（22）带入（24）：

为了得到最终的权值矩阵，矩阵 S A j SA_j SAj中的所有元素都被归一化为一个区间 [ a , b ] ( 0 ≤ a , b ≤ 1 ) [a,b](0\leq a,b\leq 1) [a,b](0≤a,b≤1)

新型不平衡学习机

训练目标：

H H H隐藏层输出， β \beta β隐藏层与输出层之间权重
（26）==（27）

C C C为近似过程中的固定常数， Λ \Lambda Λ为基于 S A SA SA确定的权值矩阵。
ξ \xi ξ表示根据每个训练样本进行的加权学习误差，它基于训练目标T和神经网络估计fˆ之间的偏差进行加权

（27）拉格朗日函数表示：

α \alpha α是对应于训练样本的拉格朗日乘子 α i ∈ α = [ α 1 , . . . , α N ] \alpha_i \in \alpha=[\alpha_1,...,\alpha_N] αi∈α=[α1,...,αN]

最优化条件如下式所示：

求解（30）：

隐层与输出层之间的连接权重矩阵推导式如下：

该分类器的输出函数的计算方法如下：

对于第n个样本， f ( x n ) = [ f 1 ( x n ) , . . . , f J ( x n ) ] f(x_n)=[f_1(x_n),...,f_J(x_n)] f(xn)=[f1(xn),...,fJ(xn)]

嵌套BPA生成

f ( x n ) f(x_n) f(xn)按降序排列得： z n = [ z 1 , z 2 , . . . , z J ] z_n=[z_1,z_2,...,z_J] zn=[z1,z2,...,zJ]， z j ( j = 1 , 2 , . . . , J ) z_j (j=1,2,...,J) zj(j=1,2,...,J)对应的类别为 C j ( j = 1 , 2 , . . . , J ) C_j (j=1,2,...,J) Cj(j=1,2,...,J)， y ( ) y() y()用于表示焦点元素的成员身份， E E E反映训练过程后分类器的准确性。一个样本所属的类的推理用公式（34）和（35）表示。

如果 z i = z i + 1 = . . . = z q ( i , q ∈ Z ; 1 ≤ i < J ; i < q ≤ J ) z_i=z_{i+1}=...=z_q (i,q\in Z;1\leq i<J;i<q\leq J) zi=zi+1=...=zq(i,q∈Z;1≤i<J;i<q≤J)，类别时间的置信度是相同的，执行公式（36）

对（34）、（36）归一化处理得到BPA的最终集合： m ( C 1 ) , m ( C 1 , C 2 ) , . . . , m ( C 1 , C 2 , C 3 , . . . , C J ) m({C_1}),m({C_1,C_2}),...,m({C_1,C_2,C_3,...,C_J}) m(C1),m(C1,C2),...,m(C1,C2,C3,...,CJ)

注1：在步骤4的标准化过程中，根据隶属度分配了嵌套结构的集合。结合训练误差的最低隶属度已分配给所有考虑的故障的通用集。如果总和 S = ∑ i = 1 J z i + E < 1 S=\sum^J_{i=1}z_i+E<1 S=∑i=1Jzi+E<1，则 1 − S 1− S 1−S的值被分配到全局以减少证据冲突。如果 S > 1 S>1 S>1，则 z 1 — ( z J + E ) z_1—(z _J+E) z1—(zJ+E)通过最大值和最小值归一化为 ( 0 , 1 ) (0,1) (0,1)的区间。

注2：通过算法1，对有限的隶属度进行排序，然后分配给多个故障的嵌套子集。最差的时间分析和平均时间复杂度在 O ( n 2 ) O(n^2) O(n2)水平。利用空间复杂度 O ( 1 ) O(1) O(1)进行数值归一化处理。

证据组合与决策制定

单特征提取方法只能提供关于复合故障的局部信息，并被认为是一个证据来源。作为处理局部特征提取的不确定性的框架，所提出的分类器生成一组BPA，表示每个证据源的多个故障的置信系数。来自证据源 1 和证据源 2 的两组BPA分别用 m 1 m_1 m1和 m 2 m_2 m2表示。为了得到关于复合故障的最终推断，多源BPA需要在Dempster 组合规则[45]下进行收缩和融合。

假设 A 1 , . . . , A k A_1,...,A_k A1,...,Ak和 B 1 , . . . , B p B_1,...,B_p B1,...,Bp分别表示 m 1 m_1 m1和 m 2 m_2 m2的焦点元素。（37）（38）给出了分类任务的最终决策

变量 k k k是衡量两项证据之间冲突的系数。具有最大分配的m的焦元可以表示机器的运行状态。

Experiment

该算法通过多个模式分类任务进行了验证。在故障检测部分，将其中一个复合故障与正常状态准确分离。

数据采集

离心多级叶轮风机试验台
单故障模态：

6种故障模态：
F 0 F_0 F0：健康状态
F 1 F_1 F1：左侧轴承外圈磨损与齿轮形变复合
F 2 F_2 F2：左侧轴承内圈磨损与齿轮形变复合
F 3 F_3 F3：左侧轴承滚珠缺失与齿轮形变复合
F 4 F_4 F4：小齿轮形变与齿轮形变复合
F 5 F_5 F5：物体损坏，齿轮形变（单故障）

特征提取

首先用EMD方法将样本数据转换到时频域。
根据每个无量纲参数提供的局部特征，将边际指标（5）、峰值指标（6）和峰度指标（7）相结合，构成一个证据源的特征向量。波形指示器（3）、脉冲指示器（4）和振动强度构成了另一个证据源的特征向量。
振动的强度反映了振动系统的能量，并提供了振动过程的历史信息。根据ISO的建议，振动强度用机械上指定点的振动速度的均方根值表示。

分别绘制正常运行状态 F 0 F_0 F0、单故障 F 5 F_5 F5和复合故障 F 1 F_1 F1的原始振动信号。从正常状态下的旋转机器的振动信号中提取出前四个时频特征。

图8、9分别给出 F 0 F_0 F0、 F 1 F_1 F1的数据特征，从具有时间窗长度（ L 0 = 8192 p o i n t s L_0=8192 points L0=8192points）的振动信号第一个 I M F IMF IMF中提取无量纲参数。

变量参数的分类性能消融实验（确定模型参数）

时间窗长度的消融实验

为了评估时间窗口长度对特征提取步骤中分类精度的影响，我们为故障检测任务选择了7种不同的时间窗口长度，为复合故障分类任务选择了6种不同的时间窗口长度。故障分类任务将标签空间视为{F0，F1，F2，F5}。

在图10中，比较了不同时间窗口长度对故障检测性能的影响。图11比较了时间窗口长度对故障分类性能的影响。

测试时间仅受测试数据量的影响。
当时间窗口长度在 [ L 0 , 8 L 0 ] [L_0,8L_0] [L0,8L0]范围内时，分类精度保持较高水平。
较短的时间窗口导致数据量的增加，相应地导致所提出的分类器的计算时间较长。
另一方面，选择过长的时间窗口意味着在数据点之间删除更详细的信息。
当时间窗口长度减小时，数据集的大小增加32倍，计算时间从0.0148s增加到0.2536s，这意味着保持了计算效率。
较短的时间窗口会影响无量纲参数的完整性，数据冗余也会直接导致分类精度下降。

I M F IMF IMF的数量选择消融实验

输入特征的数量与所选的 I M F IMF IMF数量之间的关系： K = 3 ( τ + 1 ) K=3(\tau+1) K=3(τ+1)

随着 I M F IMF IMF数量的变化，图12显示了所提出方法的故障检测和分类性能。
I M F IMF IMF包含不同时间尺度下原始信号的局部特征。残差特征代表平均趋势。
故障分类任务： F 0 ， F 1 ， F 2 ， F 5 {F0，F1，F2，F5} F0，F1，F2，F5。
当仅采用第一个 I M F IMF IMF来提取特征时，平均分类精度最佳，但精度的显著异常值表明其不稳定。
当 I M F IMF IMF的数量增加到6时，将18个特征放入分类器，随后增加的 I M F IMF IMF特征提供有限的类信息。
实验表明，特征数对测试时间影响不大。

特征融合的消融实验

在特征提取时，时间窗长度设置为 L 0 / 2 L_0/2 L0/2，经过 E M D EMD EMD变换后采用前四个 I M F IMF IMF。表1记录了四种特征组合方法下神经网络的参数值和分类精度。
“ E 1 E_1 E1和 E 2 E_2 E2”分别代表证据源1和2。“NF”是隐藏层神经元的数量。
由于总共提供了相同数量的特征信息，四组任务精度相差不大。
在其他实验中，组合方式被固定为 T 1 T_1 T1。

训练集测试集划分消融实验

时间窗长度被选择为 L 0 / 2 L_0/2 L0/2或 L 0 / 4 L_0/4 L0/4，这决定了样本的最大数量。
采用前5个 I M F IMF IMF和原始信号来提取指标。
由于五倍交叉验证， 80 % 80\% 80%的样本集被用作训练样本。
表2和表3给出了 F 0 ， F 1 ， F 2 ， F 5 {F0，F1，F2，F5} F0，F1，F2，F5标签空间下的分类结果。

样本越多时间越长，准确率越高。
F I L M FILM FILM不经过迭代训练，得到最优权值，从根本上保证了计算效率。

多分类系统的性能比较（对比实验）

所述方法的故障检测和分类性能

在表4中，使用前6个 I M F IMF IMF将复合故障模式与正常工作状态分离。
“不平衡率”是指各运行状态的训练数据比例。
在 T 2 T_2 T2的任务中，标签空间被设置为 F 0 、 F 2 {F_0、F_2} F0、F2。当不平衡率下降到1：0.2时， F 2 F_2 F2类的样本数量仅为 F 0 F_0 F0类样本数量的20%。在上述情况下，故障 F 2 F_2 F2也能有效检测，精度为0.991。

为了评估特征提取过程的效率，表5中 T 1 T_1 T1是一项分类任务，其中使用了没有时频域特征提取的 F I L M FILM FILM。表5 T 2 T_2 T2中使用了集成 F I L M FILM FILM。
“EC”列表示证据组合的情况。通过比较不平衡学习方法和融合不平衡学习方法的多分类结果，评估了该融合方法的效率。在T2的证据组合部分，将组合的18个时频特征放入所提出的分类器中。
在表6中，标签为 F 0 、 F 1 、 F 2 {F_0、F_1、F_2} F0、F1、F2，6个 I M F IMF IMF。
将训练数据的不平衡率设置为变量。在“精度”一栏中，分别计算 F 0 、 F 1 、 F 2 {F_0、F_1、F_2} F0、F1、F2的分类精度，并记录为“Acc0、Acc1、Acc2”。
在[1、0.5、0.25]的不平衡率中， F 0 、 F 1 、 F 2 {F_0、F_1、F_2} F0、F1、F2的训练数据比例设置为1：0.5：0.25，即F2的训练数据为少数训练数据。
隐藏神经元的数量从50个到1500个，显示在“NF”行中。当一个类的样本量下降到50%时，分类性能保持不变，但需要更多的隐藏神经元来完成映射。

多分类器之间的对比

对比实验的主要网络和参数：

表7列出了每个分类器的主要参数和参数选择范围。
所有分类比较任务在特征提取中均采用相同的时间窗长度为 2 ∗ L 0 2∗L_0 2∗L0。
每个分类器中输入具有24维时频特征的相同训练数据。

本实验进行了四类分类，标签空间设置为 F 0 、 F 1 、 F 2 、 F 3 {F_0、F_1、F_2、F_3} F0、F1、F2、F3。列“P”表示表七中列出的参数。
结果表明，改进后的融合ELM方法比经典的方法具有更高的分类精度。由于网络结构简单，该方法的计算速度比深度学习方法要快。
对于五分类，两层LSTM对测试集进行分类的成本约为440秒，而所提出的方法的计算成本小于1秒。
随着越来越多的复合故障被添加到标签空间，分类任务变得更加复杂，因此，分类准确率下降。同时，需要扩大优化的参数范围，以保证良好的分类质量，这也会导致计算时间延长，内存消耗更大。
与BP-ANN和KNN方法等浅层分类器相比， F I L M FILM FILM对不同的复合故障类别具有较高的分类精度。 F I L M FILM FILM总体平均分类精度相对高于SVM。
在相同的范围内迭代搜索BP-ANN和FILM的“隐藏神经元数量”参数。BP-ANN收敛于少量的隐藏神经元，且 F I L M FILM FILM的最优隐藏神经元数量相对较大。但 F I L M FILM FILM的分类精度高于BP-ANN，也保证了其计算效率。

论文

Compound-Fault Diagnosis of Rotating Machinery: A Fused Imbalance Learning Method相关推荐

ART–KOHONEN neural network for fault diagnosis of rotating machinery（翻译）
ART-KOHONEN神经网络在旋转机械故障诊断中的应用原文:ART–KOHONEN neural network for fault diagnosis of rotating machinery ...
（全文翻译）基于深度残差收缩网络的故障诊断Deep Residual Shrinkage Networks for Fault Diagnosis
M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, I ...
《Deep residual shrinkage networks for fault diagnosis》基于深度残差收缩网络的故障诊断（翻译与python代码）
基于深度残差收缩网络的故障诊断(翻译) 赵明航,钟诗胜,付旭云,汤宝平,Michael Pecht 论文连接:https://ieeexplore.ieee.org/document/8850096 ...
Small sample challenge in mechanicall fault diagnosis | 机械故障诊断中的小样本问题文献追踪
在机械故障诊断领域,对智能诊断方法的研究如火如荼.基于对大量机械信号的分析,智能故障诊断方法在实验室数据上取得了很好的结果.然而,工程实际中机械设备长时间处于正常(无故障)的工作状态,能采集到的故障信 ...
论文翻译-基于深度残差收缩网络的故障诊断 Deep Residual Shrinkage Networks for Fault Diagnosis
深度残差收缩网络是深度残差网络的一种改进,针对的是数据中含有噪声或冗余信息的情况,将软阈值化引入深度残差网络的内部,通过消除冗余特征,增强高层特征的判别性.以下对部分论文原文进行了翻译,仅以学习为目的 ...
Limited Data Rolling Bearing Fault Diagnosis With Few-Shot Learning(基于小样本学习的有限数据滚动轴承故障诊断)
Limited Data Rolling Bearing Fault Diagnosis With Few-Shot Learning 基于小样本学习的有限数据滚动轴承故障诊断摘要这一篇文章主要研 ...
深度学习笔记：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of
深度学习笔记:Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of ...
基于深度残差收缩网络的故障诊断 Deep Residual Shrinkage Networks for Fault Diagnosis
深度残差收缩网络针对的是数据中含有噪声或冗余信息的情况,是深度残差网络的一种改进,将软阈值化引入深度残差网络的内部,通过消除冗余特征,增强高层特征的判别性.以下对部分论文原文进行了翻译,仅以学习为目的 ...
【Deep Learning】Deep Residual Shrinkage Networks for Fault Diagnosis（深度残差收缩网络）
[题目]Deep Residual Shrinkage Networks for Fault Diagnosis [翻译]基于深度残差收缩网络的故障诊断 Abstract (摘要) [翻译]本文提出了 ...

Compound-Fault Diagnosis of Rotating Machinery: A Fused Imbalance Learning Method