孟 華, 裴 迪, 阮應(yīng)君, 錢凡悅, 鄧永康, 鄭銘樺
(同濟(jì)大學(xué) 機(jī)械與能源工程學(xué)院,上海 201804)
加強(qiáng)暖通空調(diào)(HVAC)系統(tǒng)、尤其是AHU的故障檢測(cè)和診斷(FDD)研究對(duì)節(jié)能減排意義重大[1-2]。當(dāng)前,HVAC FDD 的研究方法大致包括基于模型、基于知識(shí)和基于數(shù)據(jù)驅(qū)動(dòng)3 類[3],筆者檢索了Web of Science 核心數(shù)據(jù)集2012―2021 十年間HVAC FDD 的研究文獻(xiàn)共528 篇,基于數(shù)據(jù)驅(qū)動(dòng)的文章占比從60%逐年提升至87%,該研究方法已成為主流。而無(wú)論從設(shè)備全壽命周期內(nèi)故障率遵循的 “浴盆曲線” 看,還是從NASA對(duì)復(fù)雜設(shè)備所歸納的典型故障概率看,AHU 作為暖通空調(diào)中的常見(jiàn)設(shè)備,由于人工診斷故障成本高昂,致使其實(shí)際運(yùn)行中的故障標(biāo)簽樣本極少,即處于AHU FDD 貧數(shù)據(jù)情景。而近年來(lái),在貧數(shù)據(jù)情景中針對(duì)歷史運(yùn)行故障數(shù)據(jù)的特征選擇、提高模型診斷準(zhǔn)確率等問(wèn)題,已日益成為研究熱點(diǎn)[4-5]。
在HVAC FDD的故障數(shù)據(jù)特征選擇研究中,通常采用某種算法對(duì)重要特征進(jìn)行篩選,以實(shí)現(xiàn)特征降維、提高計(jì)算速度并提升模型診斷性能。Han等[6]利用最大相關(guān)最小冗余及遺傳算法包裹支持向量機(jī)(SVM)對(duì)冷水機(jī)組的特征子集進(jìn)行特征選擇,節(jié)省約63%~72%的計(jì)算時(shí)間。Yan 等[7-8]使用ReliefF算法從冷水機(jī)組65 個(gè)特征中篩選6 個(gè)典型特征,實(shí)現(xiàn)5 個(gè)故障90.31%的診斷準(zhǔn)確率。Li 等[9]利用基于信息貪婪的特征濾波器剔除AHU 數(shù)據(jù)中的噪聲和冗余特征,在不同的故障診斷模型上獲得3.54%~25.29%的準(zhǔn)確率提升。但是,目前研究尚較少有基于分類模型對(duì)不同算法最優(yōu)特征子集的特性進(jìn)行對(duì)比研究的,尤其是對(duì)在貧數(shù)據(jù)情景中不同算法性能穩(wěn)定性等研究還很有限,而這些研究對(duì)優(yōu)化HVAC FDD特征維度、提高計(jì)算速度及提升模型診斷準(zhǔn)確率至關(guān)重要。
由于分類器性能往往隨故障標(biāo)簽量的減少而降低[10-11],在貧數(shù)據(jù)情景中,自訓(xùn)練算法能夠利用少量故障標(biāo)簽樣本訓(xùn)練分類模型,以故障偽標(biāo)簽擴(kuò)充訓(xùn)練集,并提升模型性能。Yan等[12]開(kāi)發(fā)SVM自訓(xùn)練模型用于貧數(shù)據(jù)時(shí)的AHU FDD,使其在少量故障標(biāo)簽下的診斷準(zhǔn)確率提升到80%和90%以上。Fan等[13-14]將自訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型用于AHU FDD,在不同學(xué)習(xí)率及置信閾值下,利用偽標(biāo)簽使診斷準(zhǔn)確率最高提升約30%,并提高未知故障的檢測(cè)率。盡管自訓(xùn)練算法對(duì)于貧數(shù)據(jù)情景很有效,但是,當(dāng)前針對(duì)深層網(wǎng)絡(luò)自訓(xùn)練的研究還較少,尤其是關(guān)于小故障樣本量、或偽標(biāo)簽選取策略等問(wèn)題對(duì)自訓(xùn)練模型準(zhǔn)確率提升的效果影響等研究還較有限,而加強(qiáng)相關(guān)研究對(duì)提升貧數(shù)據(jù)時(shí)AHU FDD的診斷準(zhǔn)確率大有裨益。
本文就4 種典型特征選擇算法對(duì)于AHU 夏季運(yùn)行故障標(biāo)簽匱乏情景的適用性及在不同特征子集維度下的性能及穩(wěn)定性進(jìn)行對(duì)比研究,甄選最優(yōu)子集,針對(duì)貧數(shù)據(jù)提出將DBN 嵌入自訓(xùn)練框架的故障診斷模型,探究真實(shí)故障標(biāo)簽量及偽標(biāo)簽篩選策略對(duì)模型診斷性能的影響。
選擇在機(jī)器學(xué)習(xí)領(lǐng)域典型數(shù)據(jù)集中表現(xiàn)良好的4種算法[15],其計(jì)算成本低,通用性強(qiáng),適于貧數(shù)據(jù)情景中AHU FDD故障數(shù)據(jù)特征降維。
(1)最大信息系數(shù)(MIC)。用于量化特征與故障的相關(guān)性,即
式中:X是特征向量;Y是故障標(biāo)簽;I[X;Y]是互信息值;i,j是對(duì)二維散點(diǎn)圖的網(wǎng)格劃分;網(wǎng)格分辨率限制常數(shù)B是樣本量n的函數(shù),B=n0.6。
(2)最大相關(guān)最小冗余(MRMR)。利用互信息量化特征子集的冗余度,如下
式中:S指特征子集的維度;D(S,c)指特征子集中每個(gè)特征與故障互信息的和;R(S)指子集中特征之間的互信息之和。
(3)ReliefF 的邏輯是懲罰樣本的類內(nèi)差異并獎(jiǎng)勵(lì)類間差異,以此量化特征對(duì)分類的影響。特征權(quán)重W(Fi)及樣本在特征分量下的差異diff分別為
式中:樣本總量為m;X為所有樣本中隨機(jī)抽取的樣本;A、B為故障類別;從兩類故障樣本中各抽取k個(gè)與X最鄰近的樣本,樣本Xi與X故障類別相同;Xj為不同類故障樣本;P(A)為A故障出現(xiàn)的概率。
(4)ILFS. 它是基于圖的特征選擇算法,以計(jì)算特征xi中元素的Fisher 分?jǐn)?shù)并量子化進(jìn)行特征降維。其鄰接矩陣A儲(chǔ)存的特征關(guān)聯(lián)ai,j=φ(xi,xj)由概率潛在語(yǔ)義分析的變體技術(shù)自動(dòng)賦值,按照無(wú)限特征選擇(Inf-FS)計(jì)算冗余性。
選擇DBN[16]為AHU FDD 的分類模型,它是一種深度學(xué)習(xí)網(wǎng)絡(luò),通過(guò)疊加多個(gè)受限的玻爾茲曼機(jī)構(gòu)建顯、隱兩層結(jié)構(gòu)。先利用不包含故障信息的數(shù)據(jù)初步生成網(wǎng)絡(luò)節(jié)點(diǎn)參數(shù),再利用數(shù)據(jù)故障標(biāo)簽對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。DBN 模型最大的優(yōu)點(diǎn)是能夠有效提取數(shù)據(jù)深層特征,當(dāng)輸入的特征子集維度較小時(shí)可保持良好的診斷性能,模型訓(xùn)練時(shí)間短,適于自訓(xùn)練這種需要大量迭代訓(xùn)練的半監(jiān)督方法。
自訓(xùn)練算法[17]原理為:設(shè)有L種故障,含故障標(biāo)簽的數(shù)據(jù)集為X={(xn,yn),n=1,2,…,N},故障標(biāo)簽為yn∈{1,2,…,L},無(wú)故障標(biāo)簽的數(shù)據(jù)集為U={um,m=1,2,…,M}。自訓(xùn)練的每一次迭代包含兩步,第一步根據(jù)故障標(biāo)簽樣本訓(xùn)練得到 “教師” 模型,第二步由教師模型利用無(wú)標(biāo)簽樣本um生成偽標(biāo) 簽m,得 到 偽 標(biāo) 簽 數(shù) 據(jù) 集={(um,),m=1,2,…,M},由篩選策略選擇含有高質(zhì)量偽標(biāo)簽的樣本集∈,擴(kuò)充訓(xùn)練集得到X′=X∪。本文所提出的DBN 自訓(xùn)練算法用于AHU FDD 的故障診斷流程見(jiàn)圖1。其中 “是否滿足退出條件” 的具體解釋見(jiàn)2.3.1。
圖1 基于特征選擇及DBN自訓(xùn)練的AHU FDD流程圖Fig. 1 AHU FDD flow chart based on feature selection and DBN self-training model
采用三項(xiàng)指標(biāo)對(duì)模型診斷性能進(jìn)行評(píng)價(jià)
式中:TP為正確分類陽(yáng)性樣本;TN為正確分類陰性樣本;FN為將陽(yáng)性樣本錯(cuò)分為陰性;FP代表將陰性樣本錯(cuò)分為陽(yáng)性樣本。上述評(píng)價(jià)指標(biāo)對(duì)二分類及多故障的診斷情景都適用。
數(shù)據(jù)集來(lái)自ASHRAE AHU 夏季故障實(shí)驗(yàn)(PR-1 312)[18-20],其既包含不同類型的AHU 故障,例如新/排風(fēng)閥卡死、冷卻盤管閥門控制失穩(wěn)、AHU管道泄漏等;還包含AHU 同類故障的不同等級(jí),例如對(duì)于 “冷卻盤管閥門卡死” 故障,共有閥門全關(guān)、閥門開(kāi)度15%、閥門開(kāi)度65%及閥門全開(kāi)4 種故障等級(jí)。該數(shù)據(jù)集共包括19 種工況,18 種故障及1 種正常狀態(tài),穩(wěn)態(tài)工況時(shí)每種699個(gè)數(shù)據(jù)樣本,有效樣本總數(shù)為13281。通過(guò)手動(dòng)剔除實(shí)驗(yàn)數(shù)據(jù)中諸如故障控制信號(hào)、實(shí)驗(yàn)啟停布爾邏輯信號(hào)等無(wú)關(guān)特征后,共獲得80 個(gè)有效特征。利用拉伊達(dá)準(zhǔn)則剔除特征向量異常值并標(biāo)準(zhǔn)化,得到數(shù)據(jù)的合理分布。隨機(jī)抽取總樣本的70%為訓(xùn)練集、其余30%為測(cè)試集,各數(shù)據(jù)集中不同工況均勻分布。
為探究對(duì)比MRMR、ReliefF、MIC 和ILFS 這4種特征選擇算法在貧數(shù)據(jù)情景中的性能,各算法中的參數(shù)設(shè)定依次為:初始子集維度取1,K鄰近數(shù)為10,網(wǎng)格分辨率限制常數(shù)取樣本量的0.6次方,特征量子化維度為6。取貧數(shù)據(jù)樣本容量為總樣本的5%(665 個(gè));為消除隨機(jī)性,樣本集隨機(jī)抽樣5 次,診斷結(jié)果取平均。
采用4種特征選擇算法分別計(jì)算80個(gè)有效特征與AHU故障標(biāo)簽之間的量化相關(guān)性并降序排列,得出4個(gè)降序列隊(duì),分別取各列隊(duì)中的前N個(gè)值,得到維度為N的特征子集,由該子集包含的特征值分別訓(xùn)練DBN 模型,得到4 種算法在不同特征子集維度N時(shí)的DBN FDD故障診斷準(zhǔn)確率,見(jiàn)圖2,由于4種算法在模型訓(xùn)練中的耗時(shí)相差很小,故以4 種算法的平均耗時(shí)由圖2中的虛線給出。所用DBN模型的參數(shù)均經(jīng)大量仿真實(shí)驗(yàn)確定,具體見(jiàn)表1。
表1 DBN模型的參數(shù)設(shè)置Tab. 1 Parameters for DBN model
圖2 4種算法在不同維度N時(shí)的DBN FDD診斷準(zhǔn)確率及模型平均訓(xùn)練耗時(shí)Fig. 2 DBN FDD accuracy for MRMR, ReliefF,ILFS, MIC and their average training time at different N
由圖2 可見(jiàn),4 種不同特征排列的DBN FDD 準(zhǔn)確率均隨維度N的增加而升高,這說(shuō)明隨著更多特征的加入,更多的故障信息被DBN 模型學(xué)習(xí);但當(dāng)N超過(guò)20 后,F(xiàn)DD 準(zhǔn)確率上升趨勢(shì)趨于平緩,說(shuō)明特征數(shù)量的增加對(duì)診斷準(zhǔn)確率提升產(chǎn)生邊際效應(yīng),但訓(xùn)練計(jì)算耗時(shí)卻顯著增加。因此,若綜合考慮診斷準(zhǔn)確率和模型計(jì)算量,可取最佳特征子集維度N為20。如圖2,將4 種特征選擇算法的性能進(jìn)行對(duì)比,可見(jiàn)除MRMR 外,當(dāng)維度N低于10 時(shí),ReliefF準(zhǔn)確率較好、計(jì)算耗時(shí)也較低,性能較好,但當(dāng)N高于15時(shí),MIC性能超過(guò)ReliefF與ILFS;而在全部特征子集維度N中,MRMR的性能始終最佳。
為進(jìn)一步探究對(duì)比4種特征選擇算法在貧數(shù)據(jù)情景時(shí)相對(duì)于其在充足數(shù)據(jù)(13 281個(gè))樣本時(shí)的性能穩(wěn)定性,現(xiàn)將其分別應(yīng)用于充足樣本情景,得到各自的理想特征排列。取子集維度N為20,對(duì)比4 種算法選擇的特征子集在貧數(shù)據(jù)情景下與理想情況下所包含特征元素的差異,圖3給出4種算法的特征子集的穩(wěn)定性可視化對(duì)比,圖中D1~D5分別表示五次不同隨機(jī)抽樣產(chǎn)生的5%樣本量的貧數(shù)據(jù)集,白色方框表示各算法在貧數(shù)據(jù)及數(shù)據(jù)充足的情景下都能篩選得到的特征,灰色方框表示各算法在各次隨機(jī)抽樣時(shí)與理想子集的特征差異,由圖可見(jiàn),MRMR幾乎不受樣本數(shù)量的影響,其在貧數(shù)據(jù)條件下篩選的特征子集與理想情況最多相差1 個(gè)特征,甚至在D4 隨機(jī)實(shí)驗(yàn)中的貧數(shù)據(jù)特征能完全代表理想特征子集;而MIC和ReliefF的特征穩(wěn)定性差異達(dá)到2~3個(gè),ILFS最不穩(wěn)定,差異特征數(shù)達(dá)到8~14個(gè)。由此可見(jiàn),在4種特征選擇算法中,MRMR在貧數(shù)據(jù)時(shí)的診斷性能及子集元素穩(wěn)定性均最優(yōu),因此本文后續(xù)將由MRMR 選取的前20 個(gè)特征作為模型訓(xùn)練及測(cè)試的輸入特征。
圖3 4種特征選擇算法在貧數(shù)據(jù)情景下的穩(wěn)定性可視化Fig. 3 Robustness visualization of feature selection algorithms in poor data scenario
自訓(xùn)練算法在缺少故障信息時(shí)能大幅提升模型的診斷準(zhǔn)確率,很適合于貧數(shù)據(jù)情景,但是其提升效果會(huì)受到初始貧數(shù)據(jù)樣本數(shù)量的影響,也受到自訓(xùn)練迭代過(guò)程中偽標(biāo)簽抽樣策略的影響。
現(xiàn)將樣本總量13 281 個(gè)按7:3隨機(jī)劃分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集劃分為故障標(biāo)簽和無(wú)故障標(biāo)簽的樣本集。在上文特征選擇工作中,DBN 利用655個(gè)訓(xùn)練樣本及其最優(yōu)特征子集即可達(dá)到90%以上的診斷準(zhǔn)確率,說(shuō)明此時(shí)訓(xùn)練數(shù)據(jù)相對(duì)充分。鑒于上述結(jié)果,為模擬實(shí)際工程中標(biāo)簽樣本匱乏的貧數(shù)據(jù)情景,在訓(xùn)練集中分別取2.5%、5%及10%的樣本組成3 種大小不同、均含有準(zhǔn)確故障標(biāo)簽信息的初始訓(xùn)練集,分別代表 “故障樣本匱乏” 、 “故障樣本稀少” 、 “故障樣本充足” 3類情景。同時(shí)選取一定量的無(wú)標(biāo)記樣本子集。所有數(shù)據(jù)子集均分層抽樣,以保證各工況樣本數(shù)量均勻分布。在自訓(xùn)練的每一代模型預(yù)測(cè)結(jié)果中,都選取置信度高的故障預(yù)測(cè)作為無(wú)標(biāo)記樣本的偽標(biāo)簽。設(shè)定如圖4 所示 的 “均勻抽樣” 及 “按比例抽樣” 2種策略, “均勻抽樣” 為每種工況選取相同數(shù)量的偽標(biāo)簽,使訓(xùn)練集始終保持平衡; “按比例抽樣” 是對(duì)每類預(yù)測(cè)按相同比例抽取偽標(biāo)簽。
圖4 均勻抽樣策略及按比例抽樣策略Fig. 4 Uniform sampling and proportional sampling
2.3.1 貧數(shù)據(jù)樣本量對(duì)DBN自訓(xùn)練效果的影響
取故障標(biāo)簽數(shù)量比例分別為2.5%、5%和10%的3種貧數(shù)據(jù)樣本同時(shí)作為自訓(xùn)練DBN的初始訓(xùn)練集和單純DBN 的訓(xùn)練集,取MRMR 的特征子集維度N為20,以其作為各模型每次訓(xùn)練的輸入特征,保持無(wú)標(biāo)簽樣本集均一致。當(dāng)自訓(xùn)練滿足退出條件時(shí)停止,本文設(shè)置的退出條件包含兩條:①當(dāng)偽標(biāo)簽數(shù)量不能滿足偽標(biāo)簽篩選策略(均勻抽樣和按比例抽樣)的采樣數(shù)時(shí)自訓(xùn)練停止;或者②當(dāng)無(wú)標(biāo)簽訓(xùn)練集為空時(shí)自訓(xùn)練停止。后者是為了防止自訓(xùn)練陷入死循環(huán),實(shí)際自訓(xùn)練停止通常由條件①觸發(fā)。模型評(píng)估采用診斷準(zhǔn)確率表征模型診斷性能。圖5給出在不同比例貧數(shù)據(jù)樣本量下將DBN 模型嵌入自訓(xùn)練算法前后、即單純DBN 和DBN 自訓(xùn)練的診斷準(zhǔn)確率,其中DBN 自訓(xùn)練的診斷準(zhǔn)確率均按照 “均勻抽樣” 及 “按比例抽樣” 2 種策略取平均值;各診斷準(zhǔn)確率均為多次平均。
圖5 不同貧數(shù)據(jù)樣本量對(duì)DBN自訓(xùn)練診斷準(zhǔn)確率影響Fig. 5 Influence of different sample sizes of poor data on the accuracy of DBN self-training model
由圖5可見(jiàn),隨著貧數(shù)據(jù)樣本數(shù)量比例的增大,DBN 自訓(xùn)練模型及單純DBN 模型的診斷準(zhǔn)確率都會(huì)提高,但是前者準(zhǔn)確率始終高于后者,當(dāng)初始訓(xùn)練集包含2.5%的故障標(biāo)簽、即貧數(shù)據(jù)故障樣本匱乏時(shí),嵌入自訓(xùn)練算法對(duì)模型診斷性能的提升最顯著,DBN 自訓(xùn)練的診斷準(zhǔn)確率較單純DBN 從70.55%提高至84.31%,絕對(duì)值提高13.76%,相對(duì)百分比提高19.5%;而當(dāng)初始訓(xùn)練集包含10%的故障樣本、即故障樣本充足時(shí),自訓(xùn)練算法對(duì)模型的性能提升相對(duì)降低,診斷準(zhǔn)確率僅提高1.59%,相對(duì)百分比僅提升1.66%。由此可見(jiàn),在故障標(biāo)簽匱乏時(shí),本文所提出的基于DBN 自訓(xùn)練的故障診斷方法能夠利用無(wú)標(biāo)記數(shù)據(jù)有效提升診斷性能,自訓(xùn)練模型準(zhǔn)確率提升的效果與故障標(biāo)簽數(shù)量有關(guān),當(dāng)故障樣本稀少、輸入DBN 模型的故障信息有限時(shí),自訓(xùn)練模型可生成無(wú)標(biāo)記樣本的偽標(biāo)簽,可將更多有效信息輸入模型,使診斷性能大幅提升;但若故障標(biāo)簽充足時(shí),輸入DBN 模型的故障信息本來(lái)已較全面,則自訓(xùn)練模型提升準(zhǔn)確率的效果降低。
2.3.2 偽標(biāo)簽抽樣策略對(duì)DBN自訓(xùn)練的影響
(1) 均勻抽樣策略
保持各工況樣本數(shù)量平衡,初始訓(xùn)練集仍采用前述故障標(biāo)簽數(shù)量比例分別為2.5%、5%和10%的3組貧數(shù)據(jù)樣本。在DBN自訓(xùn)練中采用均勻抽樣策略不斷擴(kuò)充訓(xùn)練集。對(duì)于每類工況均設(shè)置抽樣數(shù)分別為5、10、20、30 的4 種情景,相應(yīng)的偽標(biāo)簽數(shù)量分別為95、190、380、570。圖6給出在實(shí)施均勻抽樣策略時(shí)4種情景的DBN自訓(xùn)練診斷準(zhǔn)確率。
圖6 均勻采樣策略4種情景的DBN自訓(xùn)練診斷準(zhǔn)確率Fig. 6 Accuracy of DBN self-training for four scenarios in uniform sampling.
由圖可見(jiàn),觀察每一種不同的貧數(shù)據(jù)樣本量實(shí)驗(yàn),都會(huì)發(fā)現(xiàn)情景1、即抽樣數(shù)為5的DBN自訓(xùn)練診斷準(zhǔn)確率始終最高,且隨著抽樣數(shù)的增加而降低。比如在初始訓(xùn)練集包含2.5%故障標(biāo)簽的貧數(shù)據(jù)樣本量實(shí)驗(yàn)中,情景1 即抽樣數(shù)為5 的DBN 自訓(xùn)練診斷準(zhǔn)確率為85.67%,在4種情景中最高,它比情景4即抽樣數(shù)為30 的準(zhǔn)確率82.25%高出3.42%,這主要是由于當(dāng)嵌入自訓(xùn)練算法后,采用均勻抽樣策略,若抽樣數(shù)越小,選擇要求越嚴(yán)格,則偽標(biāo)簽整體置信度較高,因此DBN 自訓(xùn)練的診斷準(zhǔn)確率也較高;反之,抽樣數(shù)越大,采樣到誤分類的偽標(biāo)簽(即噪聲)的概率越大,故模型自訓(xùn)練診斷準(zhǔn)確率降低。當(dāng)然,值得注意的是,過(guò)低的抽樣數(shù)會(huì)導(dǎo)致自訓(xùn)練過(guò)程迭代次數(shù)增多,增加自訓(xùn)練計(jì)算量。
此外,若對(duì)比初始訓(xùn)練集包含不同比例故障標(biāo)簽的貧數(shù)據(jù)樣本量實(shí)驗(yàn),發(fā)現(xiàn)由抽樣數(shù)造成的診斷準(zhǔn)確率差異隨著貧數(shù)據(jù)樣本量的增加而減小,比如在2.5%貧數(shù)據(jù)的故障樣本匱乏時(shí),4種情景之間的最大診斷準(zhǔn)確率,即情景1抽樣數(shù)5比情景4抽樣數(shù)30高出3.42%;在5%貧數(shù)據(jù)的故障樣本稀少時(shí),這一提升比例降至0.8%;而在10%貧數(shù)據(jù)的故障樣本充足時(shí),這種優(yōu)勢(shì)縮小到僅為0.35%。這是因?yàn)椋S著故障標(biāo)簽貧數(shù)據(jù)樣本量的增大,單純DBN模型的診斷準(zhǔn)確率也相對(duì)提高,偽標(biāo)簽誤分類情況改善,置信度高的樣本偽標(biāo)簽誤分類數(shù)量減少,抽樣數(shù)增加給訓(xùn)練集帶來(lái)的噪聲較少。因此這時(shí),較小抽樣數(shù)的診斷準(zhǔn)確率并未提高多少,但其FDD計(jì)算量卻很大。所以抽樣數(shù)的選取,需要同時(shí)兼顧貧數(shù)據(jù)樣本量和訓(xùn)練時(shí)間。
(2) 均勻抽樣策略與按比例抽樣策略的影響對(duì)比
偽標(biāo)簽抽樣策略對(duì)自訓(xùn)練算法的診斷準(zhǔn)確率影響很大。但當(dāng)前相關(guān)研究中,往往是簡(jiǎn)單地根據(jù)所有種類偽標(biāo)簽置信度統(tǒng)一降序排列并按比例抽樣,而這樣可能會(huì)出現(xiàn)嚴(yán)重的類間不平衡、引入過(guò)多噪聲并降低診斷準(zhǔn)確率。本文前面已采用均勻抽樣策略,現(xiàn)嘗試采用按比例抽樣,先在類內(nèi)根據(jù)置信度對(duì)樣本進(jìn)行降序排列,再取類內(nèi)故障預(yù)測(cè)標(biāo)簽總數(shù)一定比例的偽標(biāo)簽擴(kuò)充訓(xùn)練集,并將均勻抽樣及按比例抽樣2種策略對(duì)DBN自訓(xùn)練的診斷準(zhǔn)確率影響進(jìn)行對(duì)比。實(shí)驗(yàn)中3 組貧數(shù)據(jù)樣本量同前,設(shè)置按比例抽樣偽標(biāo)簽總數(shù)分別為190和380這2種情景,圖7 給出在不同貧數(shù)據(jù)樣本量中每種抽樣策略下2 種情景的DBN自訓(xùn)練診斷準(zhǔn)確率。由圖可見(jiàn),按比例抽樣策略對(duì)診斷準(zhǔn)確率的影響與均勻抽樣類似,準(zhǔn)確率也是隨著抽樣比例的增大而降低,說(shuō)明抽樣比例的擴(kuò)大同樣會(huì)給訓(xùn)練集帶來(lái)更多噪聲。
圖7 2種抽樣策略2種情景的DBN自訓(xùn)練診斷準(zhǔn)確率Fig. 7 Accuracy of DBN self-training for two scenarios in two sampling strategies.
將2 種抽樣策略進(jìn)行對(duì)比,在故障標(biāo)簽數(shù)量比例分別為2.5%、5%和10%的3 組貧數(shù)據(jù)樣本中,每種情景下都使2 種抽樣策略保持相同的抽樣總數(shù),由圖7看出,均勻抽樣的診斷準(zhǔn)確率普遍高于按比例抽樣。在初始訓(xùn)練集只包含2.5%的貧數(shù)據(jù)故障樣本匱乏時(shí),在情景1 即抽樣總數(shù)為190 時(shí),均勻抽樣及按比按抽樣的DBN 自訓(xùn)練診斷準(zhǔn)確率分別為85.12%和83.73%,前者比后者高1.39%;在情景2 即抽樣總數(shù)為380 時(shí),二者的準(zhǔn)確率分別為84.20%和83.40%,前者比后者高0.80%。當(dāng)貧數(shù)據(jù)樣本量增加到5%達(dá)到稀少時(shí),均勻抽樣較按比例抽樣的優(yōu)勢(shì)縮小到0.75%~1.12%,而貧數(shù)據(jù)樣本量到10%即故障樣本充足時(shí),優(yōu)勢(shì)進(jìn)一步縮小到0~0.47%。由此可見(jiàn),均勻抽樣策略較優(yōu),但其優(yōu)勢(shì)將隨貧數(shù)據(jù)樣本量的增大而降低。造成按比例抽樣劣勢(shì)的原因在于,前幾代DBN自訓(xùn)練模型在貧數(shù)據(jù)情景下診斷性能不佳,在給無(wú)標(biāo)記樣本預(yù)測(cè)故障時(shí),易出現(xiàn)誤分類情況,因此導(dǎo)致每種工況按照比例選取的偽標(biāo)簽存在不平衡現(xiàn)象。
為更清晰地對(duì)比2種抽樣策略對(duì)DBN自訓(xùn)練診斷性能的影響,圖8 給出初代DBN 診斷模型對(duì)偽標(biāo)簽的預(yù)測(cè)效果。如圖8中的工況5,當(dāng)偽標(biāo)簽數(shù)量過(guò)高時(shí),伴隨著低精確率和高召回率,這是由將其他故障樣本誤分類為本類樣本(FP)所致,而按比例抽取偽標(biāo)簽,不僅會(huì)加劇這種類間不平衡,而且將更多噪聲(誤分類標(biāo)簽)引入訓(xùn)練集,因此會(huì)降低診斷準(zhǔn)確率。而與之相反,如圖8 中的工況4,其較低的偽標(biāo)簽數(shù)量通常伴隨較高的精確率,均勻抽樣相對(duì)于按比例抽樣,減少了精確率低的樣本采樣,引入噪聲概率小,故有利于提高自訓(xùn)練的診斷準(zhǔn)確率。
圖8 初代DBN模型的故障預(yù)測(cè)分布Fig. 8 Fault prediction distribution of the first generation for DBN model
對(duì)比圖2和圖5的主縱坐標(biāo)可見(jiàn),雖然二者皆為DBN FDD的診斷準(zhǔn)確率,但它們有本質(zhì)不同。圖2描述的是單純DBN 模型的故障診斷性能隨著樣本特征數(shù)量增加而提升的特點(diǎn),而圖5 描述的是DBN自訓(xùn)練模型與單純DBN模型相比較、前者診斷性能的優(yōu)勢(shì)隨著初始訓(xùn)練樣本量的增大而降低的特點(diǎn)。圖2與圖5描述的是不同的實(shí)驗(yàn)現(xiàn)象,從數(shù)據(jù)維度解釋,若將實(shí)驗(yàn)數(shù)據(jù)視為二維張量,圖2 和圖5 分析的是不同維度下的實(shí)驗(yàn)現(xiàn)象,圖9 或能直觀展示出二者的差異。
圖9 圖2與圖5在數(shù)據(jù)維度方面的差異Fig. 9 Fig. 2 VS Fig. 5 from the aspect of data dimension
文中所研究的 “均勻抽樣” 和 “按比例抽樣” 2 種情景,均為目前研究文獻(xiàn)中比較模棱兩可、但卻在基于數(shù)據(jù)驅(qū)動(dòng)FDD中比較典型的抽樣情景,對(duì)其進(jìn)行研究具有一定的理論意義和實(shí)際應(yīng)用價(jià)值。
在DBN自訓(xùn)練中,隨機(jī)抽樣也是實(shí)際情況中或許會(huì)出現(xiàn)的一種情景,但是,由于無(wú)任何條件限定的隨機(jī)抽樣極易導(dǎo)致自訓(xùn)練模型性能惡化,因此這種隨機(jī)抽樣情景并沒(méi)有太多實(shí)際意義;而滿足一定邊界條件限定下的隨機(jī)抽樣更有研究?jī)r(jià)值。
例如:可以研究在 “對(duì)偽標(biāo)簽置信度閾值進(jìn)行設(shè)置” 條件下的隨機(jī)抽樣,通過(guò)對(duì)最佳閾值設(shè)定方法、特點(diǎn)及規(guī)律的探究,更好地在偽標(biāo)簽質(zhì)量及自訓(xùn)練迭代效率間取得平衡,以不斷提升被擴(kuò)充數(shù)據(jù)的總體質(zhì)量,更好地挖掘自訓(xùn)練算法的價(jià)值,提升模型診斷精度。
或者研究在 “對(duì)類間抽樣或類內(nèi)抽樣進(jìn)行設(shè)定” 條件下的隨機(jī)抽樣,這時(shí),由于類間隨機(jī)抽樣是將所有故障工況的偽標(biāo)簽合并抽樣,由此可能產(chǎn)生數(shù)據(jù)不平衡情景中的FDD問(wèn)題,由于其極易致使模型診斷性能退化,也是目前FDD 研究中的難點(diǎn);而類內(nèi)隨機(jī)抽樣,則可以歸并入文中研究的2種策略。
以上工作還有待于進(jìn)一步探究。
本文模擬實(shí)際工程中AHU故障數(shù)據(jù)匱乏情景,基于深層網(wǎng)絡(luò)DBN模型對(duì)4種特征選擇算法的最優(yōu)特征子集特性進(jìn)行對(duì)比研究;為提升貧數(shù)據(jù)時(shí)的分類器診斷性能,提出將DBN 模型嵌入自訓(xùn)練框架的故障診斷模型,分別探討初始數(shù)據(jù)集容量大小及不同偽標(biāo)簽抽取策略對(duì)自訓(xùn)練性能的影響,主要結(jié)論如下:
(1)DBN模型的診斷準(zhǔn)確率隨特征子集維度的增加而增加,但當(dāng)子集維度超過(guò)20 這個(gè)最優(yōu)值后,診斷準(zhǔn)確率的增加趨勢(shì)逐漸飽和;在所研究的4 種特征選擇算法中,MRMR在不同的子集維度下均能保持最佳性能,在貧數(shù)據(jù)時(shí)的診斷性能及子集元素穩(wěn)定性最優(yōu),說(shuō)明其對(duì)冗余特征剔除的策略有效。
(2)深層網(wǎng)絡(luò)自訓(xùn)練算法能夠有效提升故障信息匱乏情景下模型的診斷性能。當(dāng)初始訓(xùn)練集包含2.5%的故障標(biāo)簽、即貧數(shù)據(jù)樣本量很低時(shí), DBN自訓(xùn)練較單純DBN的診斷準(zhǔn)確率可以提高19.5%;隨著貧數(shù)據(jù)樣本量的增加,其準(zhǔn)確率提升幅度漸小,說(shuō)明本文提出的DBN 自訓(xùn)練算法適用于故障信息匱乏的情景。
(3)偽標(biāo)簽抽樣策略對(duì)故障標(biāo)簽匱乏時(shí)DBN自訓(xùn)練模型的診斷性能影響很大。均勻抽樣及按比例抽樣2種策略對(duì)DBN自訓(xùn)練診斷準(zhǔn)確率的影響情況類似,二者在抽樣數(shù)較小時(shí)均表現(xiàn)出更優(yōu)的性能,在不同抽樣數(shù)下的診斷準(zhǔn)確率最大相差3.42%;在不同貧數(shù)據(jù)樣本量中,均勻抽樣始終優(yōu)于按比例抽樣,診斷準(zhǔn)確率最大相差1.39%。因此,在故障標(biāo)簽匱乏、初始診斷模型性能不佳時(shí),均勻抽樣策略更為適用。
作者貢獻(xiàn)聲明:
孟華:參與研究的構(gòu)思、設(shè)計(jì),對(duì)主要學(xué)術(shù)性內(nèi)容做文稿修訂;
裴迪:進(jìn)行研究的構(gòu)思、設(shè)計(jì),數(shù)據(jù)運(yùn)算,起草論文;
阮應(yīng)君:對(duì)重要學(xué)術(shù)性內(nèi)容提出建議,做出修訂;
錢凡悅:參與研究的構(gòu)思、設(shè)計(jì);
鄧永康:參與研究的構(gòu)思、設(shè)計(jì);
鄭銘樺:參與研究的構(gòu)思、設(shè)計(jì)。