热门关键词:

不均衡数据下基于CS―Boosting的故障诊断算法

  • 该文件为pdf格式
  • 文件大小:283.68KB
  • 浏览次数
  • 发布时间:2014-12-14
文件介绍:

本资料包含pdf文件1个,下载需要1积分

滚动轴承是旋转机械中最常用、最易受损伤的零部件之-,其状态检测与诊断-直为大家所重视[1]。Adaboost算法因其良好的分类精度,已成功应用于机械故障诊断。在故障诊断应用领域,工程人员准备收集异常样本数据的时候,机械可能已经损坏而无法正常运行,故障样本数量相对于正常样本是相当少的,因此样本不平衡数据下的故障诊断方法由此产生[2]。传统的Adaboost故障诊断方法是在各个类别样本数量相同的前提条件下进行,对于利用代价敏感度Adaboost算法(CS-Boosting)的不均衡样本数据故障诊断,国内外尚无文献可查。传统的Adaboost算法对于均衡数据集合具有很好的分类精度,这在模式分类相关领域已经得到充分验证[3]。

传统的AdaBoost算法开始时给每-个样本都赋予相同的权重,然后再用学习算法对训练集的样本集合进行迭代学习。如果将不平衡样本中的初始权值都设定成相同的,也就是说每-个样本都有相同的重要性,则分类曲线就会像样本点数少的-边移动。

如何在不平衡样本数据下实现正确的故障诊断-直是学者关注的重点 。

笔者通过将每-类样本赋予不同的权重,重新构造-种新 的代价损失 函数 ,通过决 策规则的训 练使代价损失函数最携[4],实现了滚动轴承系统样本不平衡下的故障诊断。试验采用美国凯斯西楚大学电气工程实验室轴承数据 引,将本算法与其他算法进行比较。仿真结果表明 ,该算法在数据不均衡情况下的分类性能较传统方法有-定程度的提高。

1 传统Adaboost算法及描述Adaboost是Boosting算法家族中的-种 ,其基本思想是给定训练集合( ,Y ),其中, -Ex ,z。,,z ],Y ∈-1,1)。首先,将每-组样本赋予相 同的权重;然后 ,用该学习算法对训练样本训练丁次 ,每次训练后 ,对训练失败的样本赋予较大的权重 ,相反则赋予较小的权重 ,从而得到 1个预测 函数序列( ,h -,h ),其中,每1个分类器对应1个权系数,预测结果好的其权系数就大;因此它又可以作为-种分类器的选择方法。具体算法如下:1)输入训练样本集合 Ex ,z。,,z ],Y ∈-1,1),初始化样本权重D ( )-÷2)For T- 1,2, ,t在D 下训练,得到预测函数(弱分类器)计算预测错误率errt- D ( ) (1)hf(t)≠计算权系数- 丢-n( )· 国家 自然科学基金资助项 目(51075330,50975231,61003137)收稿 日期 :2012-04-10;修改稿收到 日期:2012-05-31112 振 动、测 试 与 诊 断 第33卷根据错误率更新样本的权重1D件1( ): Dt( )exp(- hty ) (3)其 中:h ∈-1,1)为预测的结果; 为正则化因子 。

End3)最终分类器输出为H (z)- sign(Ea h ) (4)2 CS-Boosting算法2.1 损失函数 的建立设计-个分类器,( ),并希望该分类器对于正样本满足 ( -1) (z)>O,对于负样本满足 I( -- 1) (z)>0,Y为样本标签。该分类器对于整体样本集合应该满足min- I(y- 1) 厂( )- I(y-- 1) 厂(z))(5)借助于指数函数的单调性,式(5)等价于rainI(y- 1)e-yf I(y-- 1)e- )由于训练集合存在不平衡性,因此建立-个系数约束条件,即f0 if Y- 厂(z)L- Cz if y-- 1 and厂( ) 1 (6)c1 if Y-- 1 and厂(z) 1代价敏感Adaboost算法的代价函数可以写成L厂(厂)-Ex,y ( -1)e-yCt, ( --1)e- 2, )(7)这里存在两个待定系数C ,c。。目前没有-个比较理想的数学表达式来估计这两个参数。定义表达式Cl- C2 (O.5- prior(positive)) (8)通常情况下设定C -1,prior(positive)为正样本的先验概率,表示正样本空间占全部样本空间的比例。当正常样本数量与故障样本数量相同时,pri-or(positive)-0.5,此时C -C ,表示正样本与负样本有相同的惩罚因子。

2.2 CS-Boosting分类算法给定训练样本(z ,Y ) ,并假设第m次迭代的分类结果是由最优步长a 沿着损失函数的最速下降方向g 构成。文献[7]令分类器G( )-ag(z),则J(F g)-Ex,y[ ( 1)exp(-C1(,(z)ag))I(y:- 1)exp(c2(厂(z) g))]-Ex,y[ ( : 1)(cJ(z,1)exp(-C1ag)I(y-- 1) ( ,-1)exp(c2 g)] (9)其 中:60(-z,1)-exp(-C1(厂( )); (-z,-1)-exp(C (/(z))。

希望对于所有样本点z 该损失函数最携,因此第m 次迭代的最速下降方向g 和最佳步长 a 为(0fro,g )-argminErlx[ ( - 1)(cJ(z,1)×exp(- C1ag) I(y--1) (-z,- 1)×exp(Cz g)]-argmin ( )E(e。1 -e-Cl。)6 e-Cl r (e。2。- e-C2 ) e-Cz r- ] (1O)其中fF -iT I -1) 1r-- l - 1) f6-∑叫 [1-I(y g( ))] (12)ldE∑ ~El-I(y -g(五))]- j exp c n (13)exp(c2amg (五)),i∈F-令 -0,计算可得 的方程为2C1bcos(C1d) 2C2dcosh(C2a)-C1Fe-C1。 C2F-e-C2 (14)g argming(e。1。- e-C1 )·b e-C1 I1(e 2 - e-Cz )·d e-C2。r- (15)具体的算法流程如下。

1)输入:训练集合为 (z ,Y ),Y--1,1);代价因子为C ,C ;弱分类器类型;最大迭代次数为 。

2)初始化:每类样本集合选择均匀分布O)i- T,V ∈r, - T,V ∈F-For m-1, , For k1,,K)计算式(11)、式(12),利用牛顿迭代法解式(14),求 口。

利用式(15)计算gEnd for选择最小损失的弱分类器(g ,Gm,并根据式(13)更新权系数End for3)输出:强分类器日(z)-sgn[∑ g ( )]第1期 姚 培,等:不均衡数据下基于CS-Boosting的故障诊断算法3 滚动轴承样本数据不均衡下的故障诊断3.1 不均衡数据下的基于CS-Boosting的故障检测模型不均衡数据下的基于CS-Boosting的故障识别流程 如图 1所示。本试 验 的 目的是 为了展示 CS-Boosting算法对于处理不均衡训练样本有较强能力 。试验数据来 自美 国 Case Western Reserve Uni-versity电气工程实验室。振动信号由安装在风扇端振动加速度传感器获龋轴承型号为SKF6203,故障是 通 过 电火 花加 工 的单 点 损伤,切 割 深度 为0.177 8 mm,采样频率为 12 kHz。本次试验模拟了滚动轴承在 1.73 kr/min时的4种工作状态 :正常工作状态、内圈故障状态、滚动体故障状态和外圈故障状态[8]。时域波形如图2所示 。

r 目≈旦 图1 CS-Boosting的故障诊断流程E三三三三三三三- 1 0 1 2· 0.5g 0.0- 0.5≈t/10 s(b)内圈3 4 5 6 7t/10 s(c)滚动体t/10 0(d)外圈图2 原始振动信号时域波形图特征参数由时域特征参数(均值、中位数、方差、峭度、倾斜度、峰峰值、标准差、标准误差、最大梯度、最大值、最小值、总和)、频域峰值因子及时频域特征参数(小波包能量系数)组成。频域幅值因子表示在频域上的最大幅值与平均幅值之比A -m ea n a m p itude(16) 1 )其 中:max(amplitude)表示功率谱 的最 大幅值;mean(amplitude)表示功率谱的幅值的均值。

利用小波包能量系数作为频域特征参数,利用db4小波对轴承信号进行 3层小波包分解,获取轴承振动信号在不同频带的能量,提取第 3层从低频到高频的8个频率成分的信号特征。通过计算得到以下结论 :轴承在振动时小波能量往往会集 中在低频段,因此将第 3层的前两个频带的小波能量成分作为故障特征参数[9]。

由于训练样本的特征量较多,且随着信号处理方法快速发展,训练样本的维数会越来越大,这会降低分类器的工作效率。为了增加分类器的工作效率,同时不对分类精度产生影响,选用局部保形映射(LPP)方法对这些特征量进行特征提取,将原始特征空间的维数降低到2维空间,结果如图3所示,详细算法见文献[1O]。

图 3 特征提取3.2 试验结果及其评估准则在故障诊断过程中,由于异常的故障样本难以收集,导致故障样本的数量远少于正常样本的数量。

假设正常样本数量与故障样本数量之比为99:1,当故障样本都被错分为正常样本时,得到的分类精度为99 ,然而故障的漏检率为100 。因此,传统的性能评估准则已经不能够满足非均衡数据分布的情况。在此使用二分类方法,将训练集合分为少数类和多数类,并将少数类称为正类,多数类称为反类,构建-个二分类的混合矩阵,如表 1所示。

114 振 动 、测 试 与 诊 断 第 33卷表 1 二分 类的混合矩阵分类器正确预测正类样本的比例TPR为TPR - (17)分类器正确预测负类样本的比例TNR为TNR - (18)利用正、负样本比例的集合平均值 GM 作为评价指标 ,定义为GM - 丽 (19)它综合考虑了两个类的分类性能。若分类器偏向 于多数类-边,即若 TPR-1,TNR-0,则 GM-0,这说明不均衡样本数据对分类器精度的影响比较大;若 GM 值趋近 1,说明该分类器对于不均衡样本集合有较强的处理能力 。

3.3 不均衡数据的CS-Boosting分类器本试验采用197个正常状态样本,其中100个正常样本作为训练集合,内圈故障、滚动体故障和外圈故障的训练样本个数占正常样本个数的比例分别为<-四03·02·5籁 2·O薹L5l·O。·50.06:1,5:1,4:1,3:1,2:1,1:1。测试样本分别为97个正常状态样本、97个外圈损伤样本、97个内圈损伤样本和 97个滚动体损伤样本。试验采用CS-Boosting算法,以GM 作为评价指标,Adaboost的最大迭代次数为20,选择CART作为弱分类器。图4为当正 、负样本 比例分别为 1:1,1:2,1:3,1:4,1:5,1:6情况下FN的个数,即正类样本个数分别为100,50,33,25,20,16时FN 的个数 。从 图4(a)可以看出,当两个样本集合均衡时,将内环损伤错分为正常状态的样本个数为4个。对于其他不均衡的样本状态,将内环损伤样本错分为正常状态样本的个数为5个 。图4(b)为当训练样本的比例分别为1:3,1:2,1:1时,滚动体损伤错分为正常状态的个数为0个,而当训练样本的比例为1:6,1:5,1:4时,滚动体损伤错分为正常状态的个数为3个。图4(c)为训练样本均衡时外环损伤错分为正常状态的个数为0个,而当训练样本的比例为1:3,1:2时,外环损伤错分为正常状态 的个数为 4个 ,当训练样本 比例为 1:4时,外环损伤错分为正常状态 的个数为 5个,训练样本的比例为1:6,1:5时,外环损伤错分为正常状态的个数为8个。

为了验证该算法的优越性,将该算法与传统的Boosting算法比较,采用GM 作为评价指标,仿真结果如图5所示 。

1620 25 33 50 100正类样本个数(b)正常状态与滚动体损伤的分类结果图4 正类样本预测为负类样本的个数正类样本个数(a)正常状态与内环损伤的分类结果正类样本个数(C)正常状态与外环损伤的分类结果正类样本个数(b)正常状态与滚动体损伤的分类结果图5 不均衡数据二分类的几何平均值正类样本个数(C)正常状态与外环损伤的分类结果O 5 O 5 O 5 O 5 O 5 5 4 4 3 3 2 2 1 1 O 咖 娜 啪1 0 O O 0 0 O O 。

第 1期 姚 培,等:不均衡数据下基于CS-Boosting的故障诊断算法 l15可以看 出,在正、负样本 比例分别为 1:6,1:5和 1:4时,CS-Boosting算法的GM 大于传统Ad-aboost算法的GM 值,Opcs-Boosting算法在处理不平衡数据,特别是不平衡度较大时该算法优于传统的 Adaboost算法。

4 结束语E6][7][8]提出了-种基于CS-Boosting分类算法,推导了算法中惩罚因子的代数表达式。针对训练样本不均衡的问题,对比试验表明,该算法的分类精度要优于传统的Adaboost算法,使轴承的损伤状态能够更 [9]准确地检测出来 。

正在加载...请等待或刷新页面...
发表评论
验证码 验证码加载失败