王峻洲, 王華偉, 侯召國
(南京航空航天大學民航學院, 江蘇 南京 211106)
民機維修是飛機穩(wěn)定運行的重要保障,是飛機滿足持續(xù)適航要求的手段,不恰當?shù)木S修將影響飛機運行、導致可靠性降低,乃至誘發(fā)災難性事故,為航空業(yè)帶來巨大損害[1]。據(jù)統(tǒng)計,民機維修成本一般占航空公司民機運行總成本的10%~20%[2]。因此,實現(xiàn)更有效率的維修成為航空業(yè)和航空公司共同尋求的目標。
民機維修以維修手冊為基礎[3],但與國外長期投入使用的飛機手冊不同,由于國產(chǎn)民機手冊完善性不足,超出手冊記錄范圍的案例經(jīng)常出現(xiàn),對于這類案例的修理稱為民機超手冊維修。
民機超手冊修理包括結(jié)構(gòu)超手冊修理和系統(tǒng)超手冊修理,其中結(jié)構(gòu)超手冊修理問題更為突出,不僅直接影響飛機的安全性,同時也是影響簽派可靠度的重要因素,造成了巨大的經(jīng)濟損失。結(jié)構(gòu)作為飛機設計中的基礎環(huán)節(jié),對飛機整體運行有著決定性的影響,而結(jié)構(gòu)維修則是民機維修中最重要、最關(guān)鍵的環(huán)節(jié)[4]。
在分析結(jié)構(gòu)超手冊維修案例時,一般情況下,需要對維修案例進行具體分析,重新設計方案并向制造方和運行方征詢意見。
為了提高超手冊維修案例處理效率,民機案例維修系統(tǒng)成為了研究的重點??湛团c波音已將民機全周期安全管理系統(tǒng)投入使用,其中包括維修管理系統(tǒng)[5-6]。國產(chǎn)民機運行初期,手冊也在逐步成熟過程中,提升超手冊修理效率,促進民機修理手冊成熟,意義更為重大。國內(nèi)的研究穩(wěn)步進行中,蔡鵬、閆偉等從不同角度出發(fā)提出了維修管理系統(tǒng)的思想[7-8]。劉樹乾基于瀏覽器/服務器(browser/server, B/S)模式設計飛機維修管理系統(tǒng),實現(xiàn)了對飛機故障的記錄、維修和相關(guān)文件的管理[9]。馮蘊雯從平臺構(gòu)建的可行性與功能上設計出基于B/S的民用飛機結(jié)構(gòu)修理方案平臺[10],而這些系統(tǒng)平臺實現(xiàn)的前提是建立合理的民機維修指標體系。
在過去20年內(nèi),機器學習的概念已經(jīng)廣泛用于案例分類與案例匹配[11],如使用支持向量機[12](support vector machine, SVM)進行故障案例的匹配計算,基于最大熵算法[13]、神經(jīng)網(wǎng)絡[14]以及聚類算法[15]對案例匹配和分類,利用規(guī)則算法[16]對案例進行標題搜尋,從樸素貝葉斯(naive Bayes, NB)方法[17]出發(fā)結(jié)合案例語義進行分類或從案例文本的頻率(document frequent, DF)、信息增益(information gain, IG)、互信息(mutual information,MI)等[18]多維方法出發(fā)實現(xiàn)案例的匹配等,這樣的數(shù)據(jù)庫方法都離不開對飛機本身屬性的分析。
傳統(tǒng)的案例匹配方法都是從案例特征屬性出發(fā),在不考慮維修方案與指標工程意義的基礎上,實現(xiàn)案例之間的匹配關(guān)系。本文提出一種新思路,利用現(xiàn)有記錄中的手冊內(nèi)容以及超手冊維修案例,建立民機結(jié)構(gòu)維修數(shù)據(jù)庫,選取指標特征并用數(shù)據(jù)形式描述維修案例的特征,研究信息指標間的相似度,用兩個案例指標的相似度代替單個指標的屬性,建立案例相似度指標體系,確定體系特征指標的權(quán)重分配,從而實現(xiàn)維修案例的相似度匹配與體系性能分析。
在研究指標體系之前,首先要篩選指標作為分析對象。一份飛機維修案例內(nèi)容包括損傷信息與維修信息兩部分。首先需要從損傷信息中提取重要特征作為建立民機結(jié)構(gòu)超手冊維修案例相似體系的指標。一份飛機維修案例可提取的信息如表1所示。
表1 維修案例損傷信息Table 1 Damage information of maintenance cases
損傷信息指標的選取需要滿足代表性與獨立性兩方面,代表性表現(xiàn)為指標能鮮明地表現(xiàn)出維修案例的特點,獨立性表現(xiàn)為指標間相互獨立,不相互影響??紤]到在損傷信息中存在一些相互關(guān)聯(lián)的屬性,本文將關(guān)聯(lián)指標歸為一類,保證大類指標間相互獨立。
根據(jù)損傷信息提取過程,可以發(fā)現(xiàn),損傷信息復雜多樣,數(shù)字、文字描述以及選擇判斷都存在其中。并非所有信息都對維修方案有著顯著影響,需要選擇合理、有代表性的信息作為指標。通過對維修方案統(tǒng)計分析,得出的指標如表2所示。
表2 指標列表Table 2 List of indicators
維修方案是一種復雜的文本信息,相對其他單一形式的指標,維修方案文本長度長,難以歸納且主觀性強,在不同編寫過程中一種語義可能出現(xiàn)多種表達方式。
維修方案獨立于損傷信息指標,作為所有指標綜合處理后的輸出結(jié)果,維修方案的相似度對模型的映射關(guān)系有著十分重要的意義。在對維修方案信息進行處理時,首先對文本的冗余信息進行剔除,一些不能體現(xiàn)文本區(qū)分度的詞句、段落都不應該進行計算,如裝配工藝、緊固件等步驟都可忽略;材料和檢查方法對應維修方案中使用的維修材料和檢測方法單獨處理。其次,對文本進行簡短化,對每一個篩選處理后的案例進行專有用詞的總結(jié),使其達到高度概括性與計算可行性的統(tǒng)一。最后進行文本確認,確保處理后的維修方案信息的詞句在應用的專業(yè)詞典之中,符合進一步的分析要求。
在提取損傷信息與維修方案信息后,需要對損傷信息指標與維修方案進行相似度分析,并將損傷信息相似度作為案例相似度指標體系的輸入基本元素,維修方案相似度作為案例相似度指標體系的輸出基本元素。考慮到指標的獨特性與聯(lián)動性,本文使用對應的相似度度量方法如表3所示。
表3 特征指標相似度計算方法選取Table 3 Selection of calculation methods for similarity of characteristic indexes
1.3.1 飛機機型相似度
飛機屬性分類如圖1所示[19-20],4種屬性對應4種相似度因子,通過如圖2所示的屬性度量法[18]進行相似度計算。
建立決策矩陣后計算設計相似度因子:
(1)
式中:α,β為不同機型的決策矩陣展平后得到的一維向量。
計算幾何、重量、性能相似度時將不同單位的數(shù)據(jù)進行歸一化后按列寫出特征向量:
(2)
式中:xi和yi表示兩個不同機型列向量的第i個元素,simj為幾何相似度因子;simz為重量相似度因子;simx為性能相似度因子;Dj為幾何相關(guān)度因子的相似度距離;Dz為重量相似度因子的相似度距離;Dx為性能相似度因子的相似度距離。
飛機機型相似度計算公式為
sim=αssims+αjsimj+αzsimz+αxsimx
(3)
式中:αs,αj,αz,αx為各相似度因子影響系數(shù)。
1.3.2 飛行循環(huán)相似度
飛行循環(huán)指標為單個數(shù)字形式,將飛行循環(huán)分為如表4所示的4個階段。對運行階段進行相似判定,如果案例的飛行循環(huán)在相同運行階段,相似度計算[21]公式為
(4)
式中:S為飛行循環(huán)相似度;i和j為運行階段下界和上界;m和n為兩個案例中飛行循環(huán)具體數(shù)值。
表4 飛行循環(huán)與運行階段Table 4 Flight cycle and operation phase
如果案例中的飛行循環(huán)在不同階段,且飛行循環(huán)階段相鄰,相似度計算公式為
(5)
式中:i1,j1為m所在階段的下界與上界;i2,j2為n所在階段的下界與上界。如果案例中的飛行循環(huán)在不同階段,且飛行循環(huán)不在相鄰階段,相似度計算公式為
S=0
(6)
1.3.3 手冊信息相似度
對章節(jié)號體系相似度分析:
(7)
式中:α1表示章節(jié)號與部位的相關(guān)系數(shù);α2表示部位與部件編號的相關(guān)系數(shù);S1為章節(jié)號相似度;S2為部位相似度。
在計算章節(jié)號與部位相似度時,使用布爾賦值運算。零件相似度計算公式為
(8)
式中:p為文字布爾賦值;q為數(shù)字布爾賦值。
根據(jù)關(guān)系系數(shù)以及每個部分的相似度計算:
(9)
式中:Sk為手冊信息相似度;k1,k2,k3為各層指標影響系數(shù)。
1.3.4 損傷結(jié)構(gòu)相似度
損傷結(jié)構(gòu)采用布爾值表示相似度,即當損傷結(jié)構(gòu)一致時,相似度計為1,否則計為0。
1.3.5 損傷類型體系相似度
在損傷類型相似度計算中將再次使用圖3中的屬性度量方法,對損傷類型屬性進行分析。構(gòu)造屬性矩陣,構(gòu)造所使用屬性如表5所示。根據(jù)損傷成因、損傷數(shù)量、損傷尺寸維度構(gòu)造屬性矩陣,對于屬性矩陣展平后的一維向量按照式(1)計算,作為損傷類型體系相似度。
表5 損傷類型屬性Table 5 Damage type attribute
1.3.6 其他信息相似度
材料的復雜性增加了對其屬性分析的難度,每一種材料對應其維修方案中所使用的材料,使用布爾賦值法。而損傷方法分為一般目視、詳細目視和無損檢測,使用布爾賦值進行相似度運算。
維修方案信息的相似度分析本質(zhì)上是文本相似度的分析,文本相似度分析的主要出發(fā)點分為詞型[22]、詞頻[23]、詞義[24]。本文以余弦相似度為基礎,利用文本總體制造語料庫,從詞頻的角度出發(fā),使用術(shù)語頻率-逆DF(term frequency-inverse DF, TF-IDF)方法建立模型[25],進行文本相似度分析。
TF-IDF權(quán)重計算法基于頻率統(tǒng)計的原則,具有高效的線性復雜度,適用于系統(tǒng)文本庫中文本數(shù)量較大的情況。TF-IDF的核心思想在于人為地減小高頻率詞語的重要度,增加低頻詞語的重要度。
TF-IDF實際上是TF與IDF的乘積,TF在文本中代表詞頻,一個詞出現(xiàn)的頻率越高,在文本中就更加具有區(qū)分度。DF代表文本頻率,即文本中某個特征出現(xiàn)的次數(shù),IDF是反比文檔頻率,IDF越大,說明該特征越集中分布,更具有區(qū)分意義。IDF計算公式為
(10)
式中:L由實驗確定;N為總文本數(shù);n為N中出現(xiàn)特征t的文本數(shù)。
案例維修方案文本預處理完成后去除民航領(lǐng)域停用詞,分詞[26]并使用dictionary方法獲取詞袋,使用doc2bow制作語料庫,最后使用TF-IDF方法對語料庫建模,計算結(jié)構(gòu)維修案例文本相似度,其步驟如圖3所示。
利用從飛機結(jié)構(gòu)維修案例中提取損傷信息指標相似度以及維修方案相似度,建立案例相似度指標體系,如圖4所示。每個信息塊代表相似度信息,通過已知的損傷信息相似度以及維修案例相似度分析信息處理過程。
在傳統(tǒng)的案例匹配指標體系中,大多數(shù)使用平行邏輯指標結(jié)構(gòu),如圖5所示。指標相同特征值計為1,指標不同則計為0,且指標之間視作不具有關(guān)聯(lián)性,每個指標獨立對維修方案產(chǎn)生影響。
與傳統(tǒng)案例匹配指標體系不同的是,案例相似度指標體系反映了指標間的相互聯(lián)系,側(cè)重于尋找案例與案例之間的關(guān)系,將案例間特定特征的相似度而非特征值作為研究對象,并進一步分析每個指標的相似度。對于不同屬性特征指標的相似度分析,單一地使用布爾賦值法是無法體現(xiàn)指標的工程意義,需要選擇特定的相似度計算方法來分析特定的指標。下一步將進行對兩種體系的權(quán)重分配與模型分析對比,并通過實例來驗證案例相似度指標體系的匹配性能。
在已經(jīng)建立的體系中,在信息處理集成方案過程中需要賦予特征指標權(quán)重,但在實際應用中,指標之間存在關(guān)聯(lián)性、影響性。將所有指標分為兩種:第一種為自變量指標,不論其他指標的系數(shù)怎么變化都無法影響對自身的計算;第二種指標為關(guān)系變量指標,其他的一個或多個指標的變化會對其相似度計算造成影響,這種影響的程度用關(guān)系系數(shù)α表示。在已知所有指標相似度的情況下,維修方案相似度計算公式為
(11)
式中:ωi為自變量權(quán)重;simi為自變量相似度;ωp為關(guān)系變量權(quán)重;simp為關(guān)系變量相似度;αp為關(guān)系系數(shù);simt為維修方案相似度。
對于傳統(tǒng)案例指標體系,指標之間沒有相關(guān)性,指標體系建立下總相似度的計算公式為
(12)
而對于案例相似度指標體系,在指標相似度分析過程中,已經(jīng)通過層次法將所有關(guān)系變量指標轉(zhuǎn)化為自變量指標,在完整的指標體系建立下總相似度的計算公式與式(12)一致。在案例信息提取的基礎上,simt及其對應simi已知,需要確定方法來獲得權(quán)重系數(shù)ωi。
在權(quán)重分配過程中,為形成全面的模型對比,對于案例相似度指標體系與傳統(tǒng)案例指標體系,同時采取先分類后回歸[27]的方法確定權(quán)重分配,如圖6所示,下一步進行實例性能分析。
選取航空公司提供的A、B、C 3種國內(nèi)外民機結(jié)構(gòu)維修案例共300例作為研究對象。提取損傷信息與維修方案后進行相似度分析,建立案例相似度指標體系并進行權(quán)重分配計算,接著使用傳統(tǒng)案例指標體系進行權(quán)重分配,指標的權(quán)重分配結(jié)果如圖7和圖8所示。
在案例相似度指標體系中,機型、飛行循環(huán)、手冊信息以及損傷類型占比分布平滑,而在傳統(tǒng)案例指標體系中出現(xiàn)了飛行循環(huán)指標權(quán)重極低,損傷發(fā)現(xiàn)方法指標權(quán)重過高的不合理情況,損傷結(jié)構(gòu)的權(quán)重在兩種指標體系中均較低。
在使用SVM算法對相似度數(shù)據(jù)集進行分類[28-29]的過程中,兩種指標體系計算精度如表6、圖9和圖10所示,準確率是所有類別預測正確的比重,精確率是正確預測為正的占全部預測為正的比例,接受者操作特性(receiver operating characteristic, ROC)曲線下與坐標軸圍成的面積(area under curve, AUC)代表分類器的分類性能。根據(jù)表6的準確率與精確率結(jié)果,相似指標模型的預測準確性略高于傳統(tǒng)案例指標模型;根據(jù)表6以及圖9、圖10,案例相似度指標模型的分類性能達到了89%,相比于傳統(tǒng)案例模型提高了27%,在第一步案例相似度數(shù)據(jù)分類中相似指標模型有更優(yōu)秀的性能。
表6 模型分類性能評估Table 6 Model classification performance evaluation
兩種指標體系在分類后進行彈性網(wǎng)絡回歸[30]計算,結(jié)果如表7所示,準確率為測試集中符合權(quán)重分配的占比,精確率為驗證集中符合權(quán)重分配的占比,可決系數(shù)反映模型進行彈性回歸后的可靠度,平均絕對誤差(mean absolute error, MAE)、均方誤差(mean squared error, MSE)、均方根誤差(root mean squard error, MSRE)為3種不同的誤差度量尺度[31]。
表7 模型回歸性能評估Table 7 Model regression performance evaluation
傳統(tǒng)案例指標體系在回歸計算中的表現(xiàn)較差,精確率和準確率在50%左右,而案例相似度指標體系達到75%以上,并且其可靠度達到82.3%,相比傳統(tǒng)案例指標體系提高了6%,3項誤差度量數(shù)值總體也更低。
傳統(tǒng)案例指標體系由于其指標特征值為二進制的特性,無法精確確定權(quán)重,而案例相似度指標體系卻在這方面有著較高的準確率,在繼承了高區(qū)分度的基礎上,案例相似度指標體系進一步細化了每種特征指標的數(shù)值,更精確地計算出權(quán)重系數(shù)。除此以外,傳統(tǒng)案例指標體系忽略了指標的工程特征,僅從數(shù)學的角度詮釋體系。而案例相似度指標體系在一定程度上考慮了指標的工程特性,將工程屬性體現(xiàn)在數(shù)值之中,充分利用數(shù)據(jù),實現(xiàn)了分類與回歸的結(jié)合,在保證一定準確率的基礎上可靠地完成了指標權(quán)重計算。
當一個新的民機結(jié)構(gòu)超手冊維修案例出現(xiàn)時,使用案例相似度指標體系確定權(quán)重后,便可對新案例進行匹配分析,并得到一個按照相似度排布的案例序列,給出最相近案例的相似度以及維修方案,從而為民機結(jié)構(gòu)超手冊維修案例提供一定參考。
為確定指標體系的匹配性能,從案例庫中選取幾組特殊的案例組對案例相似度指標體系以及傳統(tǒng)案例指標體系進行應用分析,對比兩種體系的應用特點與準確度。共設立4組對比案例組:1號案例組主要對比不同損傷結(jié)構(gòu)在指標體系計算下的相似度;2號案例組主要對比不同飛行循環(huán)在指標體系計算下的相似度;3號案例組主要對比不同損傷類型在指標體系計算下的相似度;4號案例組主要對比在損傷信息發(fā)現(xiàn)方法外其他指標都不相同的情況下案例的參考性。表8~表11提取了代表性的案例組指標信息。表12為案例相似度匹配分析的結(jié)果。
表8 1號案例組損傷信息Table 8 Damage information of case group 1
表9 2號案例組損傷信息Table 9 Damage information of case group 2
表10 3號案例組損傷信息Table 10 Damage information of case group 3
表11 4號案例組損傷信息Table 11 Damage information of case group 4
表12 案例組相似度Table 12 Case group similarity
從總體上講,案例相似度指標體系對于飛行循環(huán)的區(qū)分效果較差,這與飛行循環(huán)對損傷類型的影響有關(guān),在低飛行循環(huán)值下,出現(xiàn)的損傷多為偶然損傷,而在高飛行循環(huán)值下,出現(xiàn)的損傷多為疲勞損傷,沒有考慮這一關(guān)系,是案例相似度指標體系的一個缺陷。對于其他的特征指標,案例相似度指標體系的匹配則更加符合實際維修方案,更具有工程性。而在無指標相同的維修方案相似度匹配上,案例相似度指標體系的參考性度量更加合理。
本文以航空公司維修案例數(shù)據(jù)庫為基礎,從民機結(jié)構(gòu)維修案例中提取信息進行相似度分析后,建立案例相似度指標體系,在進行權(quán)重分配后用實例進行了性能分析與匹配應用分析,結(jié)論如下。
(1) 案例相似度指標體系分類回歸的性能優(yōu)于傳統(tǒng)案例指標體系,并在保證可靠性的前提下從方法上體現(xiàn)出特征的工程意義。這驗證了案例相似度指標體系的可靠性。
(2) 通過案例相似度指標體系進行案例匹配,實現(xiàn)了飛機結(jié)構(gòu)超手冊維修案例的相似度排序,相似度高的案例為維修方案決策提供參考。
(3) 案例相似度指標體系對飛行循環(huán)的區(qū)分性存在誤差,但區(qū)分其他指標的性能均接近真實案例的情況,并且對于大部分指標都不相同的案例組,案例相似度指標體系實現(xiàn)了更有效的損傷信息利用。在保證可靠度的基礎上進一步符合工程實際。
未來的相似度指標體系模型將進一步實現(xiàn)指標間關(guān)聯(lián)性的優(yōu)化,并考慮加入一些自適應功能,從而更好地實現(xiàn)民機結(jié)構(gòu)超手冊維修案例的相似度匹配。