劉敬東
(赤峰市平煤投資公司,內蒙古 赤峰 024000)
診斷機械故障時由于采集到的監(jiān)測數(shù)據(jù)大都包含較多噪聲在內的非線性分布的高維數(shù)據(jù),導致經降維處理后的數(shù)據(jù)給原有高維觀測數(shù)據(jù)幾何結構造成影響。因此有必要在ISOMAP算法基礎上,將采集到的機械故障數(shù)據(jù)轉移到特征空間提取和選擇故障特征,進而識別不同故障類型。
經典ISOMAP算法無法進行監(jiān)督和學習,尤其在數(shù)據(jù)降維處理過程中,不能有效利用故障類型這一重要參數(shù)進行計算,因此很多專家紛紛展開研究,其中較具代表性的為Vlachos等人提出的加權ISOMAP算法。該算法對經典ISOMAP算法進行了改進,在確定任意不同數(shù)據(jù)點歐拉距離時,將影響數(shù)據(jù)點的樣本標簽考慮進去,即在傳統(tǒng)計算歐式距離時引入一個權值因子η,如兩個數(shù)據(jù)點具備相同的樣本標簽滿足η<1,表示歐式距離減小,相同類的數(shù)據(jù)點類內距離也隨之減?。蝗鐑蓚€數(shù)據(jù)點樣本標簽有差別則η>1,歐式距離增大,不同類別的數(shù)據(jù)點類間距增大。很顯然,該種算法中權值因子的作用在于調節(jié)歐式距離,從而進行有效的分類。不過該種算法中的權值因子會給分類結果帶來較大影響,而且在選擇合適的權值因子上也存在較大難度。
有關專家經過研究提出了ISOMAP算法,能夠對數(shù)據(jù)進行有效的分類。將高維觀測空間數(shù)據(jù)記錄為(xi,yi),并且xi∈RD,其中yi為xi的標簽值。則隨意選擇兩個數(shù)據(jù)點A(xi、yi)、B(xj,yj),則兩個數(shù)據(jù)點相似度可用下列公式表示:
上式中的d(xi,xj)表示兩個數(shù)據(jù)間的歐式距離,調節(jié)因子為α、β。
d(xi,xj)處在指數(shù)位置上,如果兩個數(shù)據(jù)點之間的歐式距離過大,此時調節(jié)因子β會發(fā)揮作用,阻止兩個數(shù)據(jù)點相似度過快的增加。所以選擇條件因子β值時,應綜合分析數(shù)據(jù)點的分布情況。一般而言將各個數(shù)據(jù)點間的歐式距離求和平均后即可當做β值,計算公式如下:
而調節(jié)因子α主要負責調整類別不同的數(shù)據(jù)點之間的相似度。為了更清楚的理解調節(jié)因子α發(fā)揮的作用,研究時可以忽略調節(jié)因子α,則不同類別數(shù)據(jù)點間的相似度,可有下列公式確定:
繪制D’(xi,xj)跟隨d2(xi,xj)/β變化曲線,認真分析曲線走勢可知,如果兩個數(shù)據(jù)點具備不同的標簽且無調節(jié)因子α,則兩個數(shù)據(jù)點相似度至少為1。如兩個數(shù)據(jù)點具有相同的標簽,則相似度值會小于1。利用該種處理方法類間距離會增大,而類內間距縮小,對分類有著積極的作用。不過當類間間距非常大時,往往導致輸入數(shù)據(jù)鄰域圖出現(xiàn)短路邊或空洞,導致鄰接圖無法統(tǒng)一,使經典ISOMAP非線性數(shù)據(jù)不能成功降維。因此很有必要將α調節(jié)因子引入進來適當調節(jié)類間間距,不僅能夠進行準確分類,又能防止鄰域圖出現(xiàn)間斷。另外,分析知調節(jié)因子α最小值不能小于0,而且取最大值時應保證曲線相切。在實際應用時通常將α的值控制在[0.38,0.65]范圍內,一般取0.5。
計算數(shù)據(jù)點間相似度時,將標簽信息考慮在內,對非線性數(shù)據(jù)分類比較適合,其優(yōu)勢主要體現(xiàn)在以下幾方面:
首先,任意選取兩個數(shù)據(jù)點其間的歐式距離均相等,且不同類數(shù)據(jù)點間的相似度就會大于同類數(shù)據(jù)點間的相似度,進而有助于相似度的分類;其次,類別不同的數(shù)據(jù)點間的相似度至少為1-α,則同類數(shù)據(jù)點間的相似度必然小于1,此時無論獲得的機械故障含有多少噪聲,均可在調節(jié)因子α的作用下保持在一定范圍內,所以從這個層面分析有監(jiān)督的相似度矩陣的魯棒性和抗噪性性能較強;最后,對相似度變化情況進行監(jiān)督,能夠剔除噪聲。
通過分析我們對有監(jiān)督的相似度矩陣優(yōu)勢有個充分的了解,將這種優(yōu)勢引入到經典ISOMAP算法中,并結合LMDS算法,最終形成SL-ISOMAP算法。利用該算法對機械故障類型進行分類,其步驟如下:
首先,計算出任意兩個數(shù)據(jù)點間的歐式距離矩陣d(xi,ji),并在遵守K-臨近原則基礎上,繪制鄰域圖。同時將數(shù)據(jù)點的標簽信息考慮進來,利用公式1計算出有監(jiān)督的相似度矩陣D(xi,ji);其次,利用Dijkstra算法計算出位于臨域圖上任意兩點的最小路徑dG(i,j),對流行M上的測地距離dM(i,j)進行逼近。然后利用LMDS算法降維測地距離矩陣,進而獲得降維后的數(shù)據(jù)矩陣;最后,利用支持向量機方法分類降維后的數(shù)據(jù),并將其分為測試和訓練樣本集,并在此技術上訓練和學習模型,分類測試測試集獲得相關圖示和分類正確率。
大型機械設備故障診斷信號數(shù)據(jù)具備數(shù)據(jù)量大、隨機性強、維數(shù)高等特點,因此如將高維空間的流行轉化至低維空間能夠減小計算繁瑣程度,本文探討的SL-ISOMAP算法,在提高故障診斷效率上具有重要參考價值。
[1]尹煥.基于ISOMAP的機械故障診斷方法研究與應用[D].華南理工大學2012.
[2]黎敏,陽建宏,徐金梧,楊德斌.基于高維空間流形變化的設備狀態(tài)趨勢分析方法[J].機械工程學報.2009(02).