亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)堆棧自編碼的診斷錯(cuò)誤標(biāo)簽修正

        2022-01-27 14:14:42黃亦翔肖登宇劉成良李懷洋
        振動(dòng)與沖擊 2022年1期
        關(guān)鍵詞:精確度方法

        張 旭, 黃亦翔, 張 軒, 肖登宇, 劉成良, 李懷洋, 朱 濤

        (1.上海交通大學(xué) 機(jī)械系統(tǒng)與振動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200240;2.徐州重型機(jī)械有限公司 高端工程機(jī)械智能制造國(guó)家重點(diǎn)實(shí)驗(yàn)室,徐州 221004)

        隨著物聯(lián)網(wǎng)的發(fā)展和機(jī)械檢測(cè)設(shè)備的密布,利用大數(shù)據(jù)進(jìn)行故障診斷成為現(xiàn)代工業(yè)發(fā)展的重要方向之一。監(jiān)督學(xué)習(xí)中,正確的標(biāo)簽樣本是診斷的基礎(chǔ),但標(biāo)記錯(cuò)誤的標(biāo)簽會(huì)降低診斷的精度和泛化能力。在實(shí)際工程中,錯(cuò)誤標(biāo)簽的情況難以避免。

        數(shù)據(jù)采集后,試驗(yàn)工作人員會(huì)根據(jù)需要給數(shù)據(jù)設(shè)置標(biāo)簽以便于使用,而標(biāo)簽的設(shè)置依賴于操作人員的水平。故障類型,故障程度的診斷會(huì)因?yàn)闃?biāo)準(zhǔn)不同而造成標(biāo)簽不夠準(zhǔn)確,甚至錯(cuò)誤。數(shù)據(jù)本身也會(huì)存在限制條件,如多故障的齒輪箱,因?yàn)榱鸭y而忽視了其他故障;緩慢變化的故障在前期被認(rèn)為是正常等。另外,在信號(hào)轉(zhuǎn)換,通信傳輸,預(yù)處理中的程序錯(cuò)誤也會(huì)造成錯(cuò)誤標(biāo)簽的產(chǎn)生[1]。

        Quinlan[2]證明,相對(duì)于數(shù)據(jù)本身的特征噪聲,錯(cuò)誤的標(biāo)簽對(duì)于分類器影響更大?,F(xiàn)有算法,如KNN,決策樹,AdaBoost等在進(jìn)行故障診斷時(shí),容易受到錯(cuò)誤標(biāo)簽的負(fù)面影響[3],Zhang等[4]也發(fā)現(xiàn)深度模型會(huì)擬合隨機(jī)標(biāo)簽,進(jìn)而影響預(yù)測(cè)結(jié)果的準(zhǔn)確性。因此,對(duì)原始數(shù)據(jù)標(biāo)簽進(jìn)行修正有助于提高數(shù)據(jù)的可信程度,從而提升模型的泛化能力。

        基于以上原因,錯(cuò)誤標(biāo)簽的研究受到了國(guó)內(nèi)外各個(gè)領(lǐng)域?qū)W者的廣泛關(guān)注和研究。錯(cuò)誤的標(biāo)簽樣本多被認(rèn)為是異常點(diǎn),常采用過(guò)濾篩選方式剔除異常標(biāo)簽,以降低錯(cuò)誤標(biāo)簽率。羅俊杰等[5]將Bayes分類器獲取的樣本信息熵作為樣本歸屬的判斷依據(jù),從而篩選異常樣本。高瓊[6]采用KNN聚類后的樣本類別概率來(lái)判斷樣本歸屬。為了保持樣本中正確標(biāo)簽的流形結(jié)構(gòu),Liu等使用保持流形稀疏圖(MSPA)的方法來(lái)過(guò)濾錯(cuò)誤標(biāo)簽,夏建明等[7]結(jié)合稀疏流行聚類模型(SMCE)和KNN聚類結(jié)果確定樣本的真實(shí)標(biāo)簽。上述方法多假設(shè)原有正確樣本具有一定流形結(jié)構(gòu),方法準(zhǔn)確性易受到樣本分布的影響。因此,有學(xué)者在提升現(xiàn)有方法的魯棒性方面進(jìn)行研究。Liu等[8]首先證明了損失函數(shù)加權(quán)方法在錯(cuò)誤標(biāo)簽中的重要性,并提出了給定錯(cuò)誤標(biāo)簽數(shù)據(jù)分布和變化矩陣情況下的權(quán)重計(jì)算方法。對(duì)于標(biāo)簽未知或不確定的數(shù)據(jù),常采用聚類獲取偽標(biāo)簽以幫助訓(xùn)練的方法。深度聚類[9],根據(jù)聚類結(jié)果建立混合信息增益比參數(shù)以降低錯(cuò)誤標(biāo)簽影響[10]等方法均是如此。除此以外,劉藝[11]結(jié)合知識(shí)圖譜對(duì)訓(xùn)練數(shù)據(jù)權(quán)重進(jìn)行調(diào)整。Jiang等[12]提出了基于數(shù)據(jù)的導(dǎo)師網(wǎng)絡(luò)來(lái)監(jiān)督學(xué)生深層網(wǎng)絡(luò)訓(xùn)練,并提供樣本訓(xùn)練權(quán)重。Han等[13]訓(xùn)練兩個(gè)并行神經(jīng)網(wǎng)絡(luò),利用小損失的數(shù)據(jù)進(jìn)行下一輪交叉訓(xùn)練。上述方法多采取提高正確標(biāo)簽權(quán)重,剔除錯(cuò)誤標(biāo)簽影響的方式,需要大量數(shù)據(jù)樣本,并且會(huì)舍棄一部分?jǐn)?shù)據(jù)樣本,減少了數(shù)據(jù)中的信息量。針對(duì)于神經(jīng)網(wǎng)絡(luò)會(huì)優(yōu)先記憶簡(jiǎn)單數(shù)據(jù),之后記憶復(fù)雜數(shù)據(jù)的特點(diǎn),Guo等[14]利用數(shù)據(jù)的分布密度來(lái)衡量數(shù)據(jù)的復(fù)雜性,并使用排序后數(shù)據(jù)依次訓(xùn)練神經(jīng)網(wǎng)絡(luò)。Cao等[15]采用雙Softmax層進(jìn)行分類,減少深層模型對(duì)錯(cuò)誤標(biāo)簽的過(guò)度擬合,這些方法同樣對(duì)訓(xùn)練的數(shù)據(jù)量提出了一定要求。

        在機(jī)械故障診斷領(lǐng)域,正確的樣本標(biāo)簽是診斷準(zhǔn)確度的保證。目前來(lái)看,與錯(cuò)誤標(biāo)簽相關(guān)的機(jī)械故障診斷研究較少。針對(duì)此問(wèn)題,本文提出一種基于改進(jìn)堆棧自編碼的錯(cuò)誤標(biāo)簽修正方法。該方法通過(guò)編碼器對(duì)樣本特征進(jìn)行映射,利用孤立森林(isolation forest, iFroest)獲取降維后樣本的偽標(biāo)簽,根據(jù)偽標(biāo)簽調(diào)整編碼器的權(quán)重,從而使編碼器注重于正確樣本。考慮到數(shù)據(jù)類別導(dǎo)致的區(qū)別,利用基于隨機(jī)森林的交叉驗(yàn)證方法獲取樣本的信息熵,修正錯(cuò)誤標(biāo)簽。試驗(yàn)表明,本文提出的方法可以獲得信號(hào)的深層特征,而且在多個(gè)錯(cuò)誤標(biāo)簽比例下均能顯著降低樣本錯(cuò)誤標(biāo)簽率,修正錯(cuò)誤標(biāo)簽,提高故障診斷的準(zhǔn)確率。

        1 錯(cuò)誤標(biāo)簽修正原理

        1.1 錯(cuò)誤標(biāo)簽修正流程

        實(shí)際工程中,樣本數(shù)據(jù)量少,數(shù)據(jù)分布未知,單一標(biāo)簽修正方法依賴于數(shù)據(jù)的分布。因此,本文通過(guò)改進(jìn)堆棧自編碼獲得一部分錯(cuò)誤標(biāo)簽率低的樣本,然后用這類數(shù)據(jù)來(lái)訓(xùn)練分類器以實(shí)現(xiàn)標(biāo)簽修正,具體流程如圖1所示。在提取信號(hào)初步特征后,將含有錯(cuò)誤標(biāo)簽的樣本集輸入到堆棧自編碼中,獲得低維度輸出特征。同時(shí)使用孤立森林將樣本賦予“正確”和“錯(cuò)誤”的偽標(biāo)簽,進(jìn)而調(diào)整樣本權(quán)重,使自編碼注重于“正確”標(biāo)簽樣本。循環(huán)結(jié)束后,利用堆棧自編碼獲得所有樣本的低維度特征,通過(guò)孤立森林將所有樣本分為“正確”樣本和“錯(cuò)誤”樣本兩類,并使用所有“正確”標(biāo)簽的樣本訓(xùn)練分類器,通過(guò)對(duì)比分類器下樣本的信息熵來(lái)進(jìn)行錯(cuò)誤標(biāo)簽的修正。

        圖1 錯(cuò)誤標(biāo)簽修正流程圖Fig.1 Noise label correction flow chart

        1.2 堆棧自編碼神經(jīng)網(wǎng)絡(luò)

        自編碼網(wǎng)絡(luò)(auto-encoder, AE)由編碼器(encoder)和解碼器(decoder)兩部分組成[16],如圖2所示。

        (1)

        式中:L(x(i),gθ′(fθ(x(i))))為損失函數(shù);n為樣本個(gè)數(shù)。

        圖2 自編碼網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structureof auto-encoder

        堆棧自編碼神經(jīng)網(wǎng)絡(luò)(stacked auto-encoder, SAE)是由多個(gè)自編碼首尾相連接組成的無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),包括一個(gè)輸入層,一個(gè)輸出層,多個(gè)隱藏層,結(jié)構(gòu)如圖3所示。

        圖3 堆棧自編碼結(jié)構(gòu)Fig.3 Structureof stacked auto-encoder

        正如前文所說(shuō),提高對(duì)正確標(biāo)簽樣本的關(guān)注是降低錯(cuò)誤標(biāo)簽樣本影響的有效方法,本文在訓(xùn)練時(shí)會(huì)剔除錯(cuò)誤標(biāo)簽的樣本對(duì)損失函數(shù)的影響,只選用正確標(biāo)簽樣本所帶來(lái)的損失,式(1)所對(duì)應(yīng)的優(yōu)化函數(shù)更新為

        (2)

        (3)

        式中:n為所有樣本個(gè)數(shù);m為偽標(biāo)簽為“正確”的樣本個(gè)數(shù);wi為基于偽標(biāo)簽的權(quán)重。

        1.3 孤立森林

        孤立森林(iForest)是基于隔離樹(iTree)的集成快速異常點(diǎn)檢測(cè)方法,能夠準(zhǔn)確檢測(cè)出分布稀疏且距離大密度群體遠(yuǎn)的異常點(diǎn)[17]。

        對(duì)于維度為d的n個(gè)樣本數(shù)據(jù)X={x1,x2,…,xn},表1給出了構(gòu)建iTree的具體方法。

        相對(duì)于正常點(diǎn),異常點(diǎn)距離根節(jié)點(diǎn)的路徑較短。對(duì)多個(gè)iTree中點(diǎn)x的平均路徑進(jìn)行計(jì)數(shù),將結(jié)果記作E(h(x)),其中h(x)代表x的平均路徑長(zhǎng)度。

        表1 iTree的構(gòu)建方法

        對(duì)于有n個(gè)點(diǎn)的X,樣本x的異常分?jǐn)?shù)可以表示為

        (4)

        其中c(n)為n個(gè)樣本的平均搜索路徑長(zhǎng)度,用來(lái)歸一化E(h(x))。

        異常分?jǐn)?shù)越接近1,x為異常樣本的可能性越大。在堆棧自編碼每次循環(huán)中,iForest用于給樣本賦予偽標(biāo)簽,調(diào)整堆棧自編碼對(duì)樣本的權(quán)重。其次,在所有循環(huán)結(jié)束后,iForest根據(jù)預(yù)先設(shè)置的錯(cuò)誤標(biāo)簽比例η,將樣本分為正確標(biāo)簽樣本和錯(cuò)誤標(biāo)簽樣本兩類。

        1.4 基于信息熵的標(biāo)簽修正

        信息熵是對(duì)樣本類別不確定性進(jìn)行評(píng)估的有效方法[18]。類別數(shù)為k的樣本集中,樣本x屬于類別i的概率為Pi(x),則x的信息熵H(x)表示為

        (5)

        當(dāng)所有可能相等時(shí),信息熵最大,屬于完全不確定的情況;當(dāng)其中一種情況的概率為1,其他為0時(shí),信息熵H(x)取到最小值0,此樣本被稱為典型樣本。在樣本標(biāo)簽修正中,如果樣本是典型的,則使用預(yù)測(cè)的標(biāo)簽作為此輪中樣本的最終標(biāo)簽。

        k折交叉驗(yàn)證方法將數(shù)據(jù)集D劃分成為k個(gè)大小相似的互斥集合,然后使用k-1個(gè)子集作為訓(xùn)練集,剩下的子集作為驗(yàn)證集,共進(jìn)行k次訓(xùn)練和測(cè)試。圖4是本文5折交叉驗(yàn)證的示意圖。

        圖4 5折交叉驗(yàn)證Fig.4 5-fold cross-validation

        在堆棧自編碼中,孤立森林會(huì)選擇出“正確”標(biāo)簽樣本和“錯(cuò)誤”標(biāo)簽樣本。

        本文的交叉驗(yàn)證主要分為兩部分。在第一輪訓(xùn)練中,“正確”樣本為訓(xùn)練數(shù)據(jù),“錯(cuò)誤”樣本為測(cè)試數(shù)據(jù)。對(duì)于“錯(cuò)誤”標(biāo)簽樣本,默認(rèn)其原始標(biāo)簽是錯(cuò)誤的,選取五次預(yù)測(cè)結(jié)果中的出現(xiàn)次數(shù)最多的標(biāo)簽(相同取平均信息熵小的標(biāo)簽)作為其預(yù)測(cè)標(biāo)簽;對(duì)于“正確”標(biāo)簽樣本,通過(guò)分類概率獲取樣本的信息熵,當(dāng)信息熵小于信息熵閾值β時(shí),認(rèn)為該樣本是典型樣本,將預(yù)測(cè)標(biāo)簽作為樣本的標(biāo)簽。

        在第二輪及以后的輪次中,將“正確”標(biāo)簽樣本與“錯(cuò)誤”標(biāo)簽樣本合起來(lái)作為數(shù)據(jù)集D′,進(jìn)行交叉驗(yàn)證,并基于信息熵修正樣本標(biāo)簽。

        2 試驗(yàn)驗(yàn)證

        齒輪是機(jī)械設(shè)備的核心部件之一,隨著工業(yè)需求的提高,人們對(duì)齒輪的可靠性也提出了更高的要求。本文以不同故障的齒輪為對(duì)象,人工生成錯(cuò)誤標(biāo)簽數(shù)據(jù)來(lái)驗(yàn)證方法的可行性。

        2.1 試驗(yàn)設(shè)置

        實(shí)際工程會(huì)因?yàn)闀r(shí)間、成本、安全性等原因,較少在有故障零部件的情況下進(jìn)行工作并采集數(shù)據(jù),所以采用動(dòng)力傳動(dòng)故障診斷試驗(yàn)臺(tái)來(lái)獲得齒輪故障數(shù)據(jù)以進(jìn)行試驗(yàn)。如圖5所示,試驗(yàn)臺(tái)包含行星齒輪箱,平行軸齒輪箱,負(fù)載控制器以及磁力制動(dòng)器等設(shè)備。測(cè)試齒輪健康狀態(tài)分5類,分別是正常、磨損、缺齒、斷齒、齒根裂紋,圖6是部分故障齒輪圖片。

        圖5 齒輪故障試驗(yàn)臺(tái)Fig.5 Test system for gear fault

        (a) 磨損齒輪

        (b) 缺齒齒輪

        (c) 斷齒齒輪圖6 故障齒輪Fig.6 Faulty gear

        試驗(yàn)使用加速度傳感器采集齒輪箱振動(dòng)信號(hào),采集頻率為10 kHz,電機(jī)輸入轉(zhuǎn)速為15 Hz,每類齒輪采集500 s數(shù)據(jù),各類齒輪的時(shí)域波形如圖7所示。

        圖7 齒輪時(shí)域波形Fig.7 Timedomainwaveformof gear

        2.2 數(shù)據(jù)預(yù)處理

        選取振動(dòng)穩(wěn)定后的數(shù)據(jù)作為后期處理的原始數(shù)據(jù)。每個(gè)數(shù)據(jù)樣本包含5 000個(gè)樣本點(diǎn),5類數(shù)據(jù)共獲得637×5=3 138個(gè)樣本。

        考慮到齒輪箱振動(dòng)頻率復(fù)雜,因此采用經(jīng)驗(yàn)?zāi)B(tài)分解[19](empirical mode decomposition,EMD)得到的內(nèi)涵模態(tài)分量(intrinsic mode functions, IMF)統(tǒng)計(jì)特征作為樣本的初步特征。特征生成步驟如圖8所示。

        圖8 EMD獲取時(shí)域統(tǒng)計(jì)特征Fig.8 Time domain feature through EMD

        對(duì)不同健康狀態(tài)下的數(shù)據(jù)樣本xp利用EMD分解,得到個(gè)數(shù)為Np的IMF分量IMFp={c1,c2,…,cNp}??紤]到不同樣本分解數(shù)量的不同,選用所有樣本前Nmin個(gè)IMF分量作為EMD分解結(jié)果,其中Nmin=min{N1,N2,…,Np}。根據(jù)下式計(jì)算截取IMF分量的能量占原有信號(hào)能量的比例。

        (6)

        計(jì)算結(jié)果顯示,前5個(gè)IMF分量樣本的能量占比達(dá)到93%以上,基本滿足特征提取的要求。圖9是正常齒輪前6階IMF的時(shí)域圖。

        圖9 正常齒輪IMF時(shí)域圖Fig.9 Time domain diagram of IMF ofnormal gear

        對(duì)提取的IMF分量分別計(jì)算時(shí)域統(tǒng)計(jì)特征,包括均值,峰峰值,峭度等20維時(shí)域特征[20]。具體計(jì)算方法如表2所示。

        5個(gè)IMF分量時(shí)域統(tǒng)計(jì)結(jié)果共20×5=100維向量,與原始信號(hào)的20維時(shí)域統(tǒng)計(jì)特征拼接,將其進(jìn)行Min-Max 歸一化獲得120維初始向量。

        (7)

        2.3 錯(cuò)誤標(biāo)簽樣本生成

        實(shí)際工程中,錯(cuò)誤標(biāo)簽產(chǎn)生的情況較為復(fù)雜,難以重現(xiàn)真實(shí)錯(cuò)誤標(biāo)簽產(chǎn)生過(guò)程,因此本文基于齒輪類別間距離生成錯(cuò)誤標(biāo)簽數(shù)據(jù)集。

        實(shí)際錯(cuò)誤標(biāo)簽分兩種情況:一種是隨機(jī)標(biāo)簽,錯(cuò)誤標(biāo)簽的生成過(guò)程是完全隨機(jī)的;另外一種是類別相關(guān)的錯(cuò)誤標(biāo)簽,錯(cuò)誤標(biāo)簽和真實(shí)標(biāo)簽有一定相關(guān)性,如磨損程度所導(dǎo)致的錯(cuò)誤標(biāo)簽。本文根據(jù)類別間中心距離進(jìn)行錯(cuò)誤標(biāo)簽的設(shè)計(jì)。對(duì)于采集得到的5個(gè)類別數(shù)據(jù)集,選定錯(cuò)誤標(biāo)簽比例η,則樣本數(shù)量為nk的數(shù)據(jù)集中錯(cuò)誤標(biāo)簽樣本總個(gè)數(shù)Nnl為

        Nnl=nk×η

        (8)

        為了構(gòu)建類相關(guān)的錯(cuò)誤標(biāo)簽樣本,采用類別中心之間歐拉距離D(i,j)作為衡量相關(guān)性的指標(biāo)。

        (9)

        (10)

        圖10 基于類間中心距的錯(cuò)誤標(biāo)簽樣本生成方法Fig.10 Noise label generation methodbased on center distance

        2.4 堆棧自編碼提取正確樣本

        堆棧自編碼的輸入是人工生成,具有同樣標(biāo)簽的樣本,如圖10中的有噪類別1。在循環(huán)過(guò)程中,通過(guò)iForest對(duì)樣本進(jìn)行分類,獲得正確樣本,從而提高自編碼對(duì)該類樣本的關(guān)注度。在訓(xùn)練結(jié)束后,同樣使用iForest挑選錯(cuò)誤標(biāo)簽比例低的一部分樣本,作為后續(xù)交叉驗(yàn)證第一輪的訓(xùn)練樣本。堆棧自編碼具體參數(shù)如表3所示。

        表3 堆棧自編碼參數(shù)

        iForest在異常點(diǎn)檢測(cè)時(shí),需要設(shè)置閾值以篩選出錯(cuò)誤標(biāo)簽數(shù)據(jù)。綜合考慮后,本文將初始正常點(diǎn)比例設(shè)置為0.8,之后基于前后兩次正確樣本的平均方差σ(x)更新錯(cuò)誤標(biāo)簽比例。

        (11)

        式中,x(i)是數(shù)據(jù)集樣本的第i個(gè)特征。

        錯(cuò)誤標(biāo)簽比例更新方法如圖11所示,具體方法如表4所示。

        圖11 錯(cuò)誤標(biāo)簽比例估計(jì)方法Fig.11 Method of estimating noise label ratio

        改進(jìn)堆棧自編碼是為了獲得一部分具有較低錯(cuò)誤標(biāo)簽率的樣本,因此利用正確樣本的個(gè)數(shù)與偽標(biāo)簽為“正確”樣本個(gè)數(shù)的比值,即精確度作為改進(jìn)堆棧自編碼效果好壞的衡量標(biāo)準(zhǔn)?;诒?所示混淆矩陣,精確度計(jì)算方法如式(12)所示。

        表4 錯(cuò)誤標(biāo)簽比例更新方法

        表5 混淆矩陣

        (12)

        依次將前述生成的5類含有錯(cuò)誤標(biāo)簽的樣本集作為堆棧自編碼的輸入數(shù)據(jù)集,通過(guò)iForest對(duì)樣本進(jìn)行分類。對(duì)比在不同錯(cuò)誤標(biāo)簽比例(0.1,0.2,0.3,0.4)下,方法的分類精確度以及錯(cuò)誤標(biāo)簽比例的估計(jì)情況。

        以初始錯(cuò)誤標(biāo)簽比例0.3為例,圖12(a)為五類齒輪數(shù)據(jù)經(jīng)過(guò)堆棧自編碼和iForest后,分類精確率的變化,12(b)為基于樣本平均偏差的錯(cuò)誤標(biāo)簽比例變化。

        (a) 分類精確度

        (b) 預(yù)測(cè)錯(cuò)誤標(biāo)簽比例圖12 錯(cuò)誤標(biāo)簽比例為0.3時(shí)分類精確度和預(yù)測(cè)錯(cuò)誤標(biāo)簽比例的訓(xùn)練情況Fig.12 Training process of classification precision and predicted noise label ratio when noise label radio is 0.3

        圖12(a)表示,隨著迭代次數(shù)的增加,分類的精確度從最開(kāi)始的0.7先快速上升至0.8,之后緩慢上升并逐步穩(wěn)定。正常齒輪數(shù)據(jù)集的最高精確度可以達(dá)到0.95,最終穩(wěn)定在0.9附近;磨損齒輪數(shù)據(jù)集精確度最低,穩(wěn)定在0.8以上。圖12(b)表明,隨著訓(xùn)練次數(shù)的增加,錯(cuò)誤標(biāo)簽比例朝向?qū)嶋H比例的方向移動(dòng),預(yù)測(cè)的五類齒輪錯(cuò)誤標(biāo)簽比例均落入[0.26,0.32]的區(qū)間。綜合來(lái)看,隨著循環(huán)次數(shù)的增多,改進(jìn)堆棧自編碼的分類精確度在不斷上升并穩(wěn)定,錯(cuò)誤標(biāo)簽比例估計(jì)也趨于真實(shí)情況。

        對(duì)堆棧自編碼獲得的特征使用PCA[21],t-SNE[22]兩種方法實(shí)現(xiàn)可視化,如圖13所示。

        (a) t-SNE

        (b) PCA圖13 特征可視化和分類結(jié)果Fig.13 Visualization of feature and classificationresults

        可視化結(jié)果表明經(jīng)過(guò)改進(jìn)堆棧自編碼后,正確標(biāo)簽樣本與錯(cuò)誤標(biāo)簽樣本的特征具有一定可區(qū)分度。虛線內(nèi)的樣本,錯(cuò)誤標(biāo)簽樣本被賦予了“正確”的偽標(biāo)簽,實(shí)線內(nèi)的樣本,正確標(biāo)簽樣本被賦予了“錯(cuò)誤”的偽標(biāo)簽。此類情況的出現(xiàn),降低了分類樣本的精確率,后續(xù)基于信息熵的標(biāo)簽修正會(huì)改善這一情況。

        對(duì)于錯(cuò)誤標(biāo)簽比例η為0.1,0.2,0.4的樣本,經(jīng)過(guò)200 epoch后的精確度及預(yù)測(cè)錯(cuò)誤標(biāo)簽比例結(jié)果如表6所示。

        表6 精確度及錯(cuò)誤標(biāo)簽比例結(jié)果

        在不同的比例下,上述5類含噪樣本經(jīng)過(guò)改進(jìn)堆棧自編碼提取樣本后,分類精確度受到比例影響,但均有所提高,且能夠?qū)崿F(xiàn)初步的錯(cuò)誤標(biāo)簽比例估算。

        2.5 基于熵的錯(cuò)誤標(biāo)簽修正

        利用五類齒輪數(shù)據(jù)分別訓(xùn)練改進(jìn)的堆棧自編碼網(wǎng)絡(luò),得到5個(gè)自編碼網(wǎng)絡(luò)。對(duì)于每個(gè)樣本,將五個(gè)自編碼器生成的結(jié)果進(jìn)行拼接,得到10×5=50維特征,作為交叉驗(yàn)證中的輸入特征。

        經(jīng)過(guò)30輪交叉驗(yàn)證,錯(cuò)誤標(biāo)簽比例η=0.3的樣本在不同信息熵閾值β下的錯(cuò)誤標(biāo)簽率變化如圖14所示。

        圖14 不同閾值下錯(cuò)誤標(biāo)簽比例變化Fig.14 Noise label ratiounder different thresholds

        由圖14可知,經(jīng)過(guò)信息熵的標(biāo)簽修正后,錯(cuò)誤標(biāo)簽率均下降明顯,可以接近2.5%的錯(cuò)誤標(biāo)簽率。具體來(lái)講,在前幾輪交叉驗(yàn)證中,錯(cuò)誤標(biāo)簽比例有明顯下降,后期錯(cuò)誤標(biāo)簽比例的變化情況與閾值有關(guān)。當(dāng)熵閾值較小時(shí),比例會(huì)隨著循環(huán)次數(shù)逐漸下降,下降速率與閾值大小有關(guān),如β=1與β=0.5的對(duì)比。當(dāng)熵閾值較高時(shí),后期錯(cuò)誤標(biāo)簽比例有上升趨勢(shì),如β=2的情況。因此信息熵的閾值需要根據(jù)樣本種類個(gè)數(shù)進(jìn)行設(shè)置,過(guò)高易增加不確定性因素,過(guò)低的閾值會(huì)降低標(biāo)簽更新速率。

        對(duì)于η為0.1,0.2,0.4的樣本,錯(cuò)誤標(biāo)簽比例下降情況如表7所示。

        可以發(fā)現(xiàn),其他比例下,信息熵閾值所帶來(lái)的結(jié)果相類似。在信息熵閾值較小時(shí),改進(jìn)效果明顯;信息熵閾值變大后,精確率會(huì)有所下降。

        綜合改進(jìn)堆棧自編碼和基于熵的錯(cuò)誤標(biāo)簽修正兩個(gè)步驟,不同情況下錯(cuò)誤標(biāo)簽比例的變化如圖15所示。在不同的初始錯(cuò)誤標(biāo)簽比例情況下,本文提出的方法可以使錯(cuò)誤標(biāo)簽比例有一個(gè)明顯的下降。

        2.6 模型訓(xùn)練

        為了對(duì)比錯(cuò)誤標(biāo)簽數(shù)據(jù)對(duì)模型的影響程度,使用原始含有錯(cuò)誤標(biāo)簽樣本的數(shù)據(jù)集和標(biāo)簽修正后的數(shù)據(jù)訓(xùn)練分類模型,對(duì)比分類的準(zhǔn)確度。

        表7 錯(cuò)誤標(biāo)簽比例變化

        圖15 錯(cuò)誤標(biāo)簽比例與方法的變化關(guān)系Fig.15 Variation of noise ratio and method

        選擇所有樣本中80%的樣本作為訓(xùn)練數(shù)據(jù),20%樣本作為測(cè)試數(shù)據(jù),使用LighGBM,XGBoost,卷積神經(jīng)網(wǎng)絡(luò)三種方法作為分類器。卷積神經(jīng)網(wǎng)絡(luò)參數(shù)如表8所示,另外兩種方法均采用默認(rèn)參數(shù)。

        表8 卷積神經(jīng)網(wǎng)絡(luò)分類器參數(shù)

        不同錯(cuò)誤標(biāo)簽比例下預(yù)測(cè)精確度如圖16所示。

        使用錯(cuò)誤標(biāo)簽數(shù)據(jù)訓(xùn)練分類器,分類器精確度均在85%以下,最低分類精確度為70%,可見(jiàn)錯(cuò)誤標(biāo)簽樣本的存在明顯影響了分類器的性能。在錯(cuò)誤標(biāo)簽修正后,三種分類器的準(zhǔn)確度都有上升,低錯(cuò)誤標(biāo)簽比例下的初步分類精度可以達(dá)到95%。本文所采用的三種分類器受到錯(cuò)誤標(biāo)簽的影響也不同,LightGBM和卷積神經(jīng)網(wǎng)絡(luò)分類器的精確度在各種錯(cuò)誤標(biāo)簽比例下均有15%以上的下降,而XGBoost的分類精確度下降不明顯。

        圖16 錯(cuò)誤標(biāo)簽修正前后分類精確度對(duì)比Fig.16 Comparison of classification accuracy before and after noise label correction

        3 公共數(shù)據(jù)集

        為了進(jìn)一步驗(yàn)證本文的方法在樣本接近的錯(cuò)誤標(biāo)簽數(shù)據(jù)中的效果,本文選用美國(guó)凱斯西儲(chǔ)大學(xué)(Case Western Reserve University,CWRU)的公開(kāi)軸承振動(dòng)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。試驗(yàn)用軸承的內(nèi)圈裂紋長(zhǎng)度分別為0,7,14,21,28 mm,使用采樣頻率為12 kHz的軸承驅(qū)動(dòng)端振動(dòng)數(shù)據(jù)作為樣本。首先基于經(jīng)驗(yàn)?zāi)B(tài)分解獲取樣本特征,選取錯(cuò)誤標(biāo)簽比例η=0.3的情況,按照距離挑選其他類別的數(shù)據(jù),堆棧自編碼網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)與之前相同。圖17,圖18分別是樣本精確度,錯(cuò)誤標(biāo)簽預(yù)估比例的變化情況。

        圖17 樣本精確度Fig.17 Precision of samples

        圖18 錯(cuò)誤標(biāo)簽比例預(yù)測(cè)Fig.18 Predicted noise ratio

        對(duì)于錯(cuò)誤標(biāo)簽比例為0.3的軸承數(shù)據(jù),本文的方法能夠?qū)⑵骄诸悳?zhǔn)確度提升17.5%,并保持較小的波動(dòng)。對(duì)比圖17和圖18可以發(fā)現(xiàn),當(dāng)錯(cuò)誤標(biāo)簽比例預(yù)測(cè)準(zhǔn)確的時(shí)候,精確度能夠得到較好的提升,如裂紋長(zhǎng)度為14 mm時(shí),比例估計(jì)為0.3,與實(shí)際相符,初步的分類精確度在0.95附近波動(dòng),有25%的提升。

        4 對(duì)比分析

        存在錯(cuò)誤標(biāo)簽樣本集可以當(dāng)作未知標(biāo)簽情況處理,有研究人員通過(guò)聚類獲得樣本偽標(biāo)簽進(jìn)而辨別錯(cuò)誤標(biāo)簽。將錯(cuò)誤標(biāo)簽比例η=0.3的齒根裂紋數(shù)據(jù)集作為對(duì)比數(shù)據(jù),在堆棧自編碼降維后依次使用KNN,譜聚類,iForest的方法獲取樣本偽標(biāo)簽以識(shí)別錯(cuò)誤標(biāo)簽。不同方法獲得的樣本精確度如圖19所示。

        圖19 分類精確度對(duì)比Fig.19 Comparison of classification accuracy

        相比于本文的方法,使用聚類獲得偽標(biāo)簽進(jìn)而判斷錯(cuò)誤標(biāo)簽的方法在齒根裂紋數(shù)據(jù)集中的精確度只能達(dá)到80%,譜聚類的方法幾乎沒(méi)有帶來(lái)精確度的提升。本文改變堆棧自編碼對(duì)不同樣本的重視程度,進(jìn)一步提高了樣本之間的區(qū)別,相對(duì)于無(wú)權(quán)重的情況,精確度有8%的提升。

        5 結(jié) 論

        實(shí)際問(wèn)題中,錯(cuò)誤標(biāo)簽的出現(xiàn)會(huì)使得分類模型產(chǎn)生較差的結(jié)果,針對(duì)此問(wèn)題,本文提出了改進(jìn)堆棧自編碼的方法,在錯(cuò)誤樣本標(biāo)簽修正的問(wèn)題上進(jìn)行了探索性的研究。對(duì)于存在錯(cuò)誤標(biāo)簽的樣本集,使用堆棧編碼器進(jìn)行特征的提取以及正確樣本的篩選,利用孤立森林獲取偽標(biāo)簽,從而使堆棧編碼器注重于正確樣本。為了彌補(bǔ)權(quán)重可能引起的數(shù)據(jù)偏差,利用基于隨機(jī)森林的k折驗(yàn)證獲取樣本的信息熵,通過(guò)閾值修正錯(cuò)誤的標(biāo)簽。試驗(yàn)表明,本文提出的方法在多個(gè)錯(cuò)誤標(biāo)簽比例下能夠通過(guò)修正錯(cuò)誤標(biāo)簽來(lái)降低樣本錯(cuò)誤標(biāo)簽率,提高分類器的分類準(zhǔn)確度。

        本文同時(shí)給出了一些簡(jiǎn)單可行的錯(cuò)誤標(biāo)簽數(shù)據(jù)生成,錯(cuò)誤標(biāo)簽比例迭代,以及權(quán)重賦予的方法,不同參數(shù)更新方法對(duì)于整體效果的影響也是進(jìn)一步探索的工作。

        猜你喜歡
        精確度方法
        研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
        “硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
        學(xué)習(xí)方法
        放縮法在遞推數(shù)列中的再探究
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        浙江省大麥區(qū)試的精確度分析
        特级a欧美做爰片第一次| 国产精品亚洲综合久久系列| 久久伊人这里都是精品| 成人午夜性a级毛片免费| 三上悠亚免费一区二区在线| 成年毛片18成年毛片| 中文字幕亚洲精品在线免费| 久久亚洲精品成人无码| 亚洲综合欧美色五月俺也去| 51国偷自产一区二区三区| 亚洲AV秘 无码一区二区三区臀| 精精国产xxxx视频在线播放器| 色小姐在线视频中文字幕| 国产精品视频永久免费播放| www国产无套内射com| 国产亚洲精品综合一区| 一区二区三区亚洲免费| 中文字幕精品人妻在线| 亚洲熟妇av日韩熟妇在线| 国产av天堂成人网| 久久婷婷夜色精品国产| 色大全全免费网站久久| 一本色道久久99一综合| 91日本精品国产免| 国产精品国产三级国av在线观看 | av色综合网站| 国产一区二区不卡av| 日本少妇春药特殊按摩3| 亚洲熟妇少妇任你躁在线观看| 亚洲一区二区女优av| 男女视频在线观看一区| 亚洲美腿丝袜 欧美另类| 狠狠色狠狠色综合网老熟女| 亚洲成熟中老妇女视频| 午夜性色一区二区三区不卡视频 | 女人张开腿让男桶喷水高潮| 人人妻人人澡人人爽曰本| 欧美人与动牲交片免费播放| 亚洲精品一区二区高清| 国产一极内射視颍一| 久久婷婷色香五月综合激情|