亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        小樣本不平衡設(shè)備數(shù)據(jù)下的機(jī)器學(xué)習(xí)策略研究

        2022-09-21 01:04:22劉勤明梁耀旭
        關(guān)鍵詞:閾值噪聲分類(lèi)

        陳 揚(yáng),劉勤明,梁耀旭

        (上海理工大學(xué) 管理學(xué)院,上海 200093)

        隨著我國(guó)科技水平的飛速發(fā)展,我國(guó)對(duì)設(shè)備的健康壽命預(yù)測(cè)準(zhǔn)確度要求越來(lái)越高,很多關(guān)鍵設(shè)備一旦在服役期間出現(xiàn)事故很有可能會(huì)造成大量人員傷亡或巨大經(jīng)濟(jì)損失[1]。因此,及時(shí)準(zhǔn)確地檢查出設(shè)備的健康狀況問(wèn)題至關(guān)重要。

        隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的飛速發(fā)展,越來(lái)越多的人工智能技術(shù)開(kāi)始普及。其中,機(jī)器學(xué)習(xí)中的代表算法支持向量機(jī)(support vector machine,SVM)、神經(jīng)網(wǎng)絡(luò)(neural networks,NNs)、隨機(jī)森林(random forests,RF)和K 鄰近值算法被越來(lái)越多地運(yùn)用到實(shí)際工業(yè)生產(chǎn)中。在機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法的實(shí)際應(yīng)用方面,劉文溢等[2]提出了一種基于隱馬爾可夫鏈的設(shè)備壽命預(yù)測(cè)模型,并通過(guò)算例驗(yàn)證了該算法在實(shí)際工業(yè)壽命預(yù)測(cè)領(lǐng)域的可行性。曹正志等[3]提出卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合預(yù)測(cè)設(shè)備健康數(shù)據(jù)特征發(fā)展趨勢(shì),并通過(guò)實(shí)驗(yàn)證明了該方法的有效性。但是,現(xiàn)階段越來(lái)越多的算法只面向大規(guī)模數(shù)據(jù),在小樣本不平衡數(shù)據(jù)下很多算法不再適用,因此,發(fā)展面向小樣本不平衡數(shù)據(jù)的算法存在必要性[4]。

        SMOTE (synthetic minority oversampling technique)算法是目前適用較多的合成少數(shù)類(lèi)過(guò)采樣技術(shù),它是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案。由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類(lèi)樣本,這樣容易產(chǎn)生模型過(guò)擬合的問(wèn)題,即使得模型學(xué)習(xí)到的信息過(guò)于特別而不夠泛化。SMOTE 算法的基本思想是對(duì)少數(shù)類(lèi)樣本進(jìn)行分析,并根據(jù)少數(shù)類(lèi)樣本人工合成新樣本添加到數(shù)據(jù)集中。SMOTE 算法本身也存在很多問(wèn)題,首先鄰近值的選擇難以確定,同時(shí)面對(duì)異常值以及不平衡數(shù)據(jù)分布的時(shí)候表現(xiàn)并不理想。針對(duì)以上問(wèn)題,Han 等[5]提出了一種Borderline-SMOTE 算法,目前這也是最廣為人接受的改進(jìn)算法。楊賽華等[6]在此基礎(chǔ)上提出了一種BN-SMOTE 改進(jìn)算法,利用最近鄰思想構(gòu)建處于決策邊界附近的多數(shù)類(lèi)樣本集,再一次確定邊界區(qū)域難以學(xué)習(xí)的少數(shù)類(lèi)樣本點(diǎn)從而構(gòu)建一個(gè)新的少數(shù)類(lèi)樣本集。楊毅等[7]在Han 的研究基礎(chǔ)上提出了一種RB-SMOTE 的改進(jìn)模型,通過(guò)合成不平衡率不一的多個(gè)新訓(xùn)練樣本,組成相應(yīng)的多個(gè)基分類(lèi)器,再采用投票的方式對(duì)測(cè)試樣本進(jìn)行分類(lèi)。Bansal 等[8]提出了SMOTE-M算法規(guī)避數(shù)據(jù)不平衡帶來(lái)的問(wèn)題。王超學(xué)等[9]提出了一種GA-SMOTE 算法提高SMOTE 面對(duì)不平衡數(shù)據(jù)集的分類(lèi)性能。以上幾種算法均對(duì)SMOTE 算法進(jìn)行不同程度的改進(jìn),但是,面對(duì)多數(shù)類(lèi)樣本中存在的噪聲的問(wèn)題并沒(méi)有進(jìn)行有效處理,因此,以上幾種改進(jìn)算法并不能很好地對(duì)已有數(shù)據(jù)進(jìn)行優(yōu)化。

        在此基礎(chǔ)上,面對(duì)存在問(wèn)題的數(shù)據(jù),傳統(tǒng)KNN 算法也無(wú)法處理不平衡數(shù)據(jù)和噪聲問(wèn)題,因此,不能直接應(yīng)用于大多數(shù)情況下的設(shè)備壽命數(shù)據(jù)處理。同時(shí),當(dāng)不同種類(lèi)樣本點(diǎn)分布較為緊密時(shí),KNN 算法難以對(duì)數(shù)據(jù)進(jìn)行有效分類(lèi)。針對(duì)此情況,本文提出了一種ISMOTE 算法(Improvement-SMOTE),通過(guò)改進(jìn)SMOTE 算法克服了傳統(tǒng)SMOTE 算法存在的問(wèn)題,使得改進(jìn)后的新增數(shù)據(jù)不再出現(xiàn)邊緣化、存在異常值、分類(lèi)結(jié)果不夠泛化等弊端。由于傳統(tǒng)KNN 算法無(wú)法面向小樣本不平衡以及存在異常值的數(shù)據(jù),利用ISMOTE 算法改進(jìn)后的數(shù)據(jù)剛好可以彌補(bǔ)KNN 算法的不足,使得KNN 算法可以應(yīng)用在存在小樣本不平衡數(shù)據(jù)的設(shè)備壽命預(yù)測(cè)領(lǐng)域。其次,在實(shí)際工業(yè)生產(chǎn)中,出現(xiàn)問(wèn)題的數(shù)據(jù)有時(shí)會(huì)和正常設(shè)備的數(shù)據(jù)緊密分布,當(dāng)不同種類(lèi)的數(shù)據(jù)分布較為緊密時(shí),KNN 算法的分類(lèi)效果并不好。針對(duì)此問(wèn)題,本文提出了一種投票式KNN (Voting-KNN,VKNN)算法。根據(jù)測(cè)試集數(shù)據(jù)分布以及數(shù)據(jù)種類(lèi)引入PSO(particle swarm optimization)尋求每個(gè)設(shè)備狀態(tài)數(shù)據(jù)分布的中心點(diǎn),隨后通過(guò)計(jì)算同簇樣本點(diǎn)到中心點(diǎn)的歐式距離均值建立分隔閾值,對(duì)到中心點(diǎn)距離小于的數(shù)據(jù)點(diǎn)利用“投票法”判斷數(shù)據(jù)種類(lèi),拋棄傳統(tǒng)KNN 算法計(jì)算k個(gè)距離最近樣本點(diǎn)從而判斷樣本種類(lèi)的法則,規(guī)避數(shù)據(jù)混淆引起的誤差。優(yōu)化后的數(shù)據(jù)通過(guò)改進(jìn)KNN 算法在準(zhǔn)確分析設(shè)備健康狀態(tài)的同時(shí)也可以有效預(yù)測(cè)設(shè)備未來(lái)健康發(fā)展趨勢(shì)。

        1 問(wèn)題描述

        目前機(jī)器學(xué)習(xí)領(lǐng)域越來(lái)越多的算法只適用于面向大量有效數(shù)據(jù)的情況。而面向小樣本不平衡數(shù)據(jù),誤用傳統(tǒng)機(jī)器學(xué)習(xí)算法很有可能會(huì)導(dǎo)致人們對(duì)設(shè)備的壽命產(chǎn)生錯(cuò)誤預(yù)測(cè)從而造成巨大的經(jīng)濟(jì)損失[10],因此,在數(shù)據(jù)不足的情況下可以通過(guò)數(shù)據(jù)增強(qiáng)提高樣本質(zhì)量[11]。面對(duì)傳統(tǒng)KNN 算法無(wú)法處理不平衡和異常數(shù)據(jù)的情況,本文采用改進(jìn)SMOTE 算法(ISMOTE)。ISMOTE 算法首先對(duì)數(shù)據(jù)進(jìn)行新增處理,采用類(lèi)似k鄰近值原理剔除分布較為分散的異常數(shù)據(jù),在保持?jǐn)?shù)據(jù)特征的前提下人工合成符合條件的數(shù)據(jù),解決了傳統(tǒng)SMOTE算法新增樣本出現(xiàn)新增樣本點(diǎn)質(zhì)量低、容易邊界模糊以及新增后數(shù)據(jù)分布出現(xiàn)異常的問(wèn)題。最后,通過(guò)VKNN 算法對(duì)優(yōu)化數(shù)據(jù)進(jìn)行分類(lèi),模型如圖1 所示。

        圖1 基于ISMOTE-VKNN 模型的設(shè)備數(shù)據(jù)分析流程Fig.1 Equipment data analysis process based on the ISMOTE-VKNN model

        2 改進(jìn)SMOTE 算法

        2.1 面向不平衡分類(lèi)問(wèn)題的SMOTE 算法

        SMOTE 即合成少數(shù)類(lèi)過(guò)采樣技術(shù)[12],它是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案。由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類(lèi)樣本,SMOTE 算法的基本思想是對(duì)少數(shù)類(lèi)樣本進(jìn)行分析并根據(jù)少數(shù)類(lèi)樣本人工合成新樣本添加到數(shù)據(jù)集中,算法流程如下:

        a.對(duì)于少數(shù)類(lèi)中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類(lèi)樣本集中所有樣本的距離,得到其k個(gè)近鄰。

        b.根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類(lèi)樣本x,從其k個(gè)近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為xn。

        c.對(duì)于每一個(gè)隨機(jī)選出的近鄰xn,分別與原樣本按照如下的公式構(gòu)建新的樣本。

        很顯然,由于設(shè)備會(huì)受到運(yùn)行環(huán)境以及狀況等一系列條件的影響,從設(shè)備中提取的數(shù)據(jù)可能并不能直接用于SMOTE 算法進(jìn)行優(yōu)化。傳統(tǒng)SMOTE 算法存在很多局限性,根樣本或輔助樣本中存在噪聲可能會(huì)導(dǎo)致新增樣本出現(xiàn)質(zhì)量問(wèn)題。在特殊情況下新增樣本處于多數(shù)類(lèi)與少數(shù)類(lèi)樣本的邊界區(qū)域會(huì)導(dǎo)致數(shù)據(jù)集出現(xiàn)邊界模糊的情況,而在此情況下使用傳統(tǒng)SMOTE 算法同樣會(huì)加重原先就存在的問(wèn)題。因此,本文提出了一種改進(jìn)SMOTE(ISMOTE)算法,該改進(jìn)算法可以對(duì)以上問(wèn)題進(jìn)行規(guī)避,從而可以在數(shù)據(jù)存在問(wèn)題的情況下對(duì)設(shè)備健康狀況進(jìn)行評(píng)估。

        2.2 ISMOTE 算法

        面對(duì)存在異常值點(diǎn),也就是噪聲的問(wèn)題。這里的噪聲是指出現(xiàn)在多數(shù)類(lèi)樣本群中的孤立的少數(shù)類(lèi)樣本,在設(shè)備數(shù)據(jù)方面表現(xiàn)為數(shù)據(jù)看起來(lái)正常但是實(shí)際上已經(jīng)因?yàn)槟承┰驘o(wú)法正常運(yùn)行的那一類(lèi)。針對(duì)這種情況,本文選擇設(shè)置噪聲比例β對(duì)每個(gè)少數(shù)點(diǎn)進(jìn)行評(píng)估。噪聲比例β的表達(dá)式為

        式中:NMin為k鄰近值中少數(shù)類(lèi)樣本個(gè)數(shù);NMaj為多數(shù)類(lèi)樣本個(gè)數(shù)。

        設(shè)置噪聲標(biāo)準(zhǔn)α,x為 樣本集。

        若β>α,按照如下公式構(gòu)建新樣本:

        否則刪除該樣本點(diǎn)。

        該改進(jìn)法則的核心思想為通過(guò)噪聲比例判斷某種類(lèi)樣本集中是否出現(xiàn)一定數(shù)量的其他種類(lèi)樣本,如果出現(xiàn)頻率低于所設(shè)置的閾值,則將那些出現(xiàn)的點(diǎn)視為噪聲并刪除。此過(guò)程是在保留樣本分布特征的情況下對(duì)數(shù)據(jù)集進(jìn)行優(yōu)化,并不會(huì)影響后續(xù)步驟。

        而當(dāng)設(shè)備數(shù)據(jù)中正常數(shù)據(jù)與異常數(shù)據(jù)過(guò)于接近的情況發(fā)生的時(shí)候,針對(duì)傳統(tǒng)SMOTE 算法中可能出現(xiàn)的邊界模糊的情況,本文通過(guò)計(jì)算每個(gè)少數(shù)類(lèi)樣本點(diǎn)與周?chē)罱亩鄶?shù)類(lèi)樣本點(diǎn)的歐式距離,通過(guò)與設(shè)置的閾值進(jìn)行比較從而選擇性地對(duì)部分少數(shù)類(lèi)樣本點(diǎn)進(jìn)行新增樣本的處理,歐氏距離的表達(dá)式為

        該改進(jìn)算法不僅僅能處理二維數(shù)據(jù),針對(duì)以多分類(lèi)為目標(biāo)的問(wèn)題也可以優(yōu)化多維數(shù)據(jù)集。

        為了防止少數(shù)類(lèi)樣本點(diǎn)和多數(shù)類(lèi)樣本點(diǎn)在新增過(guò)程中分布過(guò)于接近,需要設(shè)置閾值dmin,這里設(shè)樣本點(diǎn)計(jì)算出的實(shí)際距離為d。

        設(shè)d<dmin的樣本點(diǎn)集為xi,則剩下的樣本點(diǎn)集為

        同樣地,在特殊情況下多數(shù)類(lèi)樣本和少數(shù)類(lèi)樣本本身的分布可能就存在問(wèn)題,即健康的設(shè)備數(shù)據(jù)和不健康的設(shè)備數(shù)據(jù)總是雜糅或是過(guò)于稀疏,這也會(huì)直接導(dǎo)致優(yōu)化后的新增數(shù)據(jù)不夠泛化。部分區(qū)域過(guò)于密集或是過(guò)于稀疏都會(huì)導(dǎo)致新增樣本之后加重本身就存在的問(wèn)題。一旦在這種情況下強(qiáng)行利用SMOTE 算法進(jìn)行新增處理可能會(huì)導(dǎo)致最后利用機(jī)器學(xué)習(xí)算法分類(lèi)時(shí)候準(zhǔn)確性不足。因此,可以采用類(lèi)似B-SMOTE 算法進(jìn)行處理。

        本文根據(jù)Han 提出的Borderline-SMOTE 算法的啟發(fā)采用如下算法進(jìn)行處理,這里計(jì)算少數(shù)類(lèi)樣本與周?chē)?lèi)k鄰近值的距離d并通過(guò)設(shè)置閾值m進(jìn)行比較。根據(jù)比較的結(jié)果數(shù)量將樣本點(diǎn)分為以下幾類(lèi):

        設(shè)樣本點(diǎn)x∈xMin

        a.若對(duì)于任意x,都有d<m,則x=xn

        b.若對(duì)于任意x,至多50%樣本的d<m,則x=xh,從中隨機(jī)抽取部分樣本點(diǎn)xi進(jìn)行新增處理,xi∈xh,抽取比例為25%~50%

        c.若對(duì)于任意x,大于50%樣本的d>m,則x=xu,采用傳統(tǒng)SMOTE 算法新增樣本。

        隨后按照以下步驟對(duì)不同樣本種類(lèi)的樣本點(diǎn)x進(jìn)行處理:

        忽略xn,

        利用此方法可以解決數(shù)據(jù)本身存在的分布不均勻問(wèn)題,同時(shí)將此方法與上述方法進(jìn)行結(jié)合可以有效地對(duì)原本存在諸多問(wèn)題的數(shù)據(jù)進(jìn)行處理,將其變?yōu)榭梢员籏NN 算法進(jìn)行運(yùn)算的數(shù)據(jù)。同時(shí),優(yōu)化后的數(shù)據(jù)可以規(guī)避傳統(tǒng)KNN 算法中可能帶來(lái)的種種問(wèn)題。

        ISMOTE 算法流程如圖2 所示。

        圖2 ISMOTE 算法流程圖Fig.2 Flow chart of ISMOTE algorithm

        該改進(jìn)算法不僅最大程度保留了樣本集的分布特征,同時(shí)也在刪除噪聲、消除邊界模糊、優(yōu)化少數(shù)類(lèi)樣本分布方面對(duì)數(shù)據(jù)集進(jìn)行了一定程度的優(yōu)化,彌補(bǔ)了傳統(tǒng)SMOTE 與B-SMOTE 的不足,使得經(jīng)過(guò)該算法優(yōu)化處理后的數(shù)據(jù)能夠被目前大部分機(jī)器學(xué)習(xí)算法計(jì)算。

        3 VKNN 算法

        3.1 KNN 算法分析

        KNN(K-Nearest Neighbor)法即k最鄰近法,最初由 Cover 和Hart 于1968 年提出,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路非常簡(jiǎn)單直觀:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。該方法在定類(lèi)決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類(lèi)別來(lái)決定待分樣本所屬的類(lèi)別。KNN 算法的核心思想是,如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別,并具有這個(gè)類(lèi)別上樣本的特性。該方法在確定分類(lèi)決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類(lèi)別來(lái)決定待分樣本所屬的類(lèi)別。KNN 方法在類(lèi)別決策時(shí),只與極少量的相鄰樣本有關(guān)。

        在KNN 算法理論方面,Yadav 等[13]比較了KNN 算法與其他機(jī)器學(xué)習(xí)算法在處理分類(lèi)問(wèn)題時(shí)的準(zhǔn)確度,并從數(shù)學(xué)角度證明了KNN 算法擁有不錯(cuò)的分類(lèi)能力。Xu 等[14]將KNN 與超球結(jié)構(gòu)相結(jié)合,使得改進(jìn)后的KNN-MVHM 算法能有效處理不均衡數(shù)據(jù),規(guī)避了傳統(tǒng)KNN 算法的局限性。殷小舟[15]針對(duì)支持向量機(jī)超平面附近的測(cè)試樣本分類(lèi)錯(cuò)誤的問(wèn)題,改進(jìn)了將支持向量機(jī)分類(lèi)和k近鄰分類(lèi)相結(jié)合的方法,形成了一種新的分類(lèi)器。在分類(lèi)階段計(jì)算待識(shí)別樣本和最優(yōu)分類(lèi)超平面的距離時(shí),如果距離差大于給定閾值,可直接應(yīng)用支持向量機(jī)分類(lèi),否則用最佳距離k近鄰分類(lèi)。李歡等[16]提出了一種有效的k近鄰分類(lèi)文本分類(lèi)算法,即SPSOKNN 算法,該算法利用粒子群優(yōu)化方法的隨機(jī)搜索能力在訓(xùn)練集中隨機(jī)搜索,在搜索k近鄰的過(guò)程中,粒子群跳躍式移動(dòng),掠過(guò)大量不可能成為k近鄰的文檔向量,并且去除了粒子群進(jìn)化過(guò)程中粒子速度的影響,從而可以更快速地找到測(cè)試樣本的k個(gè)近鄰。以上算法都對(duì)KNN 算法進(jìn)行了改進(jìn),提高了分類(lèi)精度以及分類(lèi)速率,但是卻沒(méi)有解決KNN 算法數(shù)據(jù)分布重疊導(dǎo)致分類(lèi)誤差較大以及無(wú)法面向不平衡數(shù)據(jù)的問(wèn)題,因此,上述算法在預(yù)測(cè)設(shè)備健康狀態(tài)時(shí)并不適用。

        3.2 VKNN 算法

        本文在面向給定數(shù)據(jù)時(shí),首先利用前文ISMOTE算法對(duì)數(shù)據(jù)本身進(jìn)行優(yōu)化,將優(yōu)化后的數(shù)據(jù)傳遞給KNN。優(yōu)化后的數(shù)據(jù)剛好規(guī)避了傳統(tǒng)KNN 算法最大的幾個(gè)問(wèn)題,能夠更加有效地對(duì)數(shù)據(jù)進(jìn)行計(jì)算。

        在傳統(tǒng)KNN 算法中,k的取值一直是一個(gè)比較困擾的問(wèn)題。如果k值過(guò)低可能會(huì)出現(xiàn)過(guò)擬合的問(wèn)題,不能很好地泛化。如果k值過(guò)高可能使得模型過(guò)于泛化,出現(xiàn)欠擬合的問(wèn)題[17]。針對(duì)此問(wèn)題,本文不再使用KNN 算法中根據(jù)k近鄰樣本點(diǎn)種類(lèi)作為分類(lèi)依據(jù)的原則。通過(guò)利用粒子群算法尋優(yōu)速度快的特點(diǎn)首先對(duì)訓(xùn)練集樣本點(diǎn)進(jìn)行中心點(diǎn)搜索,隨后計(jì)算同簇樣本點(diǎn)到中心點(diǎn)距離均值作為分隔閾值對(duì)樣本點(diǎn)進(jìn)行分隔,最后對(duì)分隔后的樣本點(diǎn)進(jìn)行種類(lèi)“投票”處理并輸出分類(lèi)結(jié)果。在粒子群算法中,個(gè)體和群體間需要不斷交互信息從而尋找最優(yōu)解。在此過(guò)程中,粒子通過(guò)式(10)和式(11)不斷更新自己的速度Vid和位置Xid。

        式中:ω為慣性因子;C1與C2為加速常數(shù),一般取2;Pid為第i個(gè)變量的個(gè)體極值的第d維度;Pgd表示全局最優(yōu)解的第d維度。

        當(dāng)滿足最大迭代次數(shù)時(shí)迭代停止并輸出最優(yōu)解。

        a.樣本點(diǎn)集合為

        b.建立適應(yīng)度函數(shù)為

        搜尋到的樣本點(diǎn)xn中心坐標(biāo)為(xn,yn)。

        c.根據(jù)歐氏距離式(6)對(duì)同簇樣本點(diǎn)到該種類(lèi)樣本分布中心進(jìn)行計(jì)算,計(jì)算出的距離合集D={d1,d2,···,dm},根據(jù)式(12)計(jì)算同簇樣本到中心點(diǎn)距離均值

        d.若di<,則納入隔離樣本集Dnew。

        e.判斷Dnew中多數(shù)類(lèi)樣本種類(lèi)并作為最終輸出結(jié)果。

        相比傳統(tǒng)KNN,該算法克服了因?yàn)閗取值不同而會(huì)出現(xiàn)不同分類(lèi)結(jié)果的問(wèn)題,針對(duì)相同數(shù)據(jù)集VKNN 算法每次分類(lèi)結(jié)果都相同。同時(shí),通過(guò)引入粒子群算法可以最大程度提升VKNN 算法的計(jì)算效率,避免在尋找同簇樣本距離均值過(guò)程中花費(fèi)太多計(jì)算時(shí)間。在實(shí)際生產(chǎn)過(guò)程中,盡可能減少計(jì)算時(shí)間與盡可能提高算法計(jì)算效率無(wú)疑會(huì)給企業(yè)生產(chǎn)效率帶來(lái)巨大提升。

        4 基于ISMOTE-VKNN 的算法流程

        基于ISMOTE-VKNN 算法流程如下:

        a.收集設(shè)備狀態(tài)的數(shù)據(jù),將其數(shù)據(jù)進(jìn)行預(yù)處理后按照2∶1 的比例分為訓(xùn)練集與測(cè)試集。

        b.根據(jù)企業(yè)要求確定噪聲標(biāo)準(zhǔn)α,計(jì)算每個(gè)少數(shù)類(lèi)樣本的噪聲系數(shù)β并進(jìn)行比較,從而選擇合適的樣本點(diǎn)。

        c.設(shè)置距離閾值dmin并計(jì)算少數(shù)類(lèi)樣本距離d進(jìn)行比較,選擇合適的樣本點(diǎn)。

        d.通過(guò)計(jì)算k鄰近值并判斷樣本狀態(tài)選擇不同的新增方式。

        f.分隔樣本點(diǎn)并生成Dnew。

        g.進(jìn)行投票,輸出分類(lèi)結(jié)果。

        ISMOTE-VKNN 流程圖如圖3 所示。

        圖3 ISMOTE-VKNN 算法分析流程圖Fig.3 Flow chart of ISMOTE-VKNN algorithm analysis

        5 ISMOTE_VKNN 仿真分析

        5.1 數(shù)據(jù)來(lái)源

        使用美國(guó)卡特彼勒公司液壓泵與凌津?yàn)┧娬? 號(hào)機(jī)水導(dǎo)軸承狀態(tài)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過(guò)該數(shù)據(jù)以驗(yàn)證SMOTE_KNN 算法的有效性。液壓泵與水導(dǎo)機(jī)器的故障一般是以軸承振動(dòng)的方式表現(xiàn)出來(lái),液壓泵實(shí)驗(yàn)每隔10 min 進(jìn)行一次約1 min 的設(shè)備振動(dòng)數(shù)據(jù)收集,隨后對(duì)收集的數(shù)據(jù)進(jìn)行特征提取以達(dá)到能夠被本文模型處理的要求。水導(dǎo)軸承實(shí)驗(yàn)通過(guò)記錄不同負(fù)荷下的軸承橫向與縱向振動(dòng)數(shù)據(jù)以分析軸承的壽命情況。本文將液壓泵前2/3 的數(shù)據(jù)用于訓(xùn)練,用剩下1/3 的數(shù)據(jù)進(jìn)行測(cè)試以驗(yàn)證模型的有效性。同時(shí)針對(duì)水導(dǎo)軸承數(shù)據(jù)采用同樣的方式進(jìn)行模型驗(yàn)證,具體步驟和前者相同并省略。仿真環(huán)境為Anaconda 3.0。

        5.2 數(shù)據(jù)分布

        為了表現(xiàn)出ISMOTE_KNN 算法的優(yōu)越性,本文將初始的多維數(shù)據(jù)進(jìn)行拆分處理,即將原本的多維數(shù)據(jù)分為n個(gè)二維數(shù)據(jù)并挑選其中一組進(jìn)行驗(yàn)證。使用CH1-1 與CH1-9 振動(dòng)數(shù)據(jù)進(jìn)行模擬。圖4 為進(jìn)行處理后的二維振動(dòng)數(shù)據(jù)點(diǎn)位分布。

        圖4 振動(dòng)數(shù)據(jù)點(diǎn)位分布Fig.4 Distribution of vibration data points

        從圖4 中可以看出,少數(shù)類(lèi)樣本中存在孤立于多數(shù)類(lèi)樣本中的異常值點(diǎn)。其中,黑色點(diǎn)為振動(dòng)數(shù)據(jù)存在異常的點(diǎn),橙色點(diǎn)為狀況健康的點(diǎn),黑色類(lèi)為少數(shù)類(lèi)樣本,橙色類(lèi)為多數(shù)類(lèi)樣本。該數(shù)據(jù)無(wú)法直接用傳統(tǒng)KNN 算法進(jìn)行處理,如果直接使用SMOTE 算法進(jìn)行處理會(huì)出現(xiàn)上文描述的大量問(wèn)題,因此,需要使用ISMOTE 對(duì)數(shù)據(jù)進(jìn)行優(yōu)化以達(dá)到KNN 算法使用的標(biāo)準(zhǔn)。

        5.3 ISMOTE 算法

        通過(guò)應(yīng)用貝葉斯后驗(yàn)概率[18]計(jì)算得出k取4,通過(guò)對(duì)少數(shù)類(lèi)樣本計(jì)算噪聲比例并設(shè)置閾值可以將其中的異常值點(diǎn)找出。這里噪聲比例α取0.1。通過(guò)對(duì)所有少數(shù)類(lèi)樣本點(diǎn)計(jì)算噪聲比例β,得到如表1 所示的結(jié)果。

        表1 β 與閾值α 的比較結(jié)果Tab.1 Comparison results for β and threshold α

        很明顯存在一個(gè)異常值點(diǎn),該點(diǎn)β值為0,將其剔除。

        即使將異常值點(diǎn)剔除,剩余的少數(shù)類(lèi)樣本依然存在與多數(shù)類(lèi)樣本十分接近的點(diǎn)。因此,將dmin設(shè)置為0.5,忽略容易導(dǎo)致邊界模糊的點(diǎn)。

        利用ISMOTE_KNN 模型設(shè)置距離閾值m=0.5,k=4,同時(shí)通過(guò)計(jì)算可得模型中的少數(shù)類(lèi)樣本點(diǎn)均為半正常樣本,隨機(jī)性地對(duì)符合新增要求的樣本點(diǎn)進(jìn)行新增處理。將數(shù)據(jù)按照ISMOTE 算法進(jìn)行處理可得到新增樣本數(shù)據(jù)如圖5 所示。

        圖5 ISMOTE 算法處理后的數(shù)據(jù)分布Fig.5 Data distribution after ISMOTE algorithm processing

        在新增樣本點(diǎn)過(guò)程中,為了保證ISMOTE 算法不會(huì)影響原始數(shù)據(jù)的特征,提取原始數(shù)據(jù)與新增數(shù)據(jù)的異常點(diǎn)擬合壽命曲線如圖6 所示。

        圖6 原始異常數(shù)據(jù)點(diǎn)擬合曲線Fig.6 Fitting curve of original abnormal data points

        如圖7 所示,在進(jìn)行ISMOTE 新增處理后的數(shù)據(jù)幾乎不會(huì)影響原始數(shù)據(jù)點(diǎn)的壽命擬合曲線,因此,使用ISMOTE 算法優(yōu)化數(shù)據(jù)是有效、可行的。

        圖7 ISMOTE 異常數(shù)據(jù)點(diǎn)擬合曲線Fig.7 Fitting curve of ISMOTE abnormal data points

        5.4 VKNN 算法

        在ISMOTE 的基礎(chǔ)上引入VKNN 算法。其中,在PSO 算法中,經(jīng)過(guò)實(shí)驗(yàn)確定 ωini=0.9,ωend=0.4,C1=C2=1.5,最大迭代次數(shù)為100。

        最終PSO 輸出的同簇樣本中心分別為(3.12,6.45)與(2.29,6.16)。根據(jù)式(12)計(jì)算出=0.373,=0.411。由此對(duì)樣本點(diǎn)進(jìn)行分割處理,對(duì)處理后的數(shù)據(jù)種類(lèi)進(jìn)行分類(lèi)并利用“投票”選擇最終結(jié)果。

        用12 組測(cè)試數(shù)據(jù)利用VKNN 算法對(duì)設(shè)備健康狀況處理結(jié)果如表2 所示。

        表2 ISMOTE_VKNN 設(shè)備數(shù)據(jù)預(yù)測(cè)結(jié)果Tab.2 Prediction results of equipment data based on ISMOTE_VKNN

        如果不使用ISMOTE_VKNN 算法,直接進(jìn)行KNN 算法計(jì)算結(jié)果如表3 所示。

        表3 KNN 設(shè)備數(shù)據(jù)預(yù)測(cè)結(jié)果Tab.3 Equipment data prediction results based on VKNN

        通過(guò)比對(duì)可以表明,相比傳統(tǒng)KNN 算法,ISMOTE_VKNN 算法擁有更高的準(zhǔn)確性,并且2 種算法的耗時(shí)在面對(duì)小樣本數(shù)據(jù)的時(shí)候都很短,在時(shí)間上也繼承了KNN 算法的快速性。

        同時(shí)為了保證ISMOTE_KNN 算法的優(yōu)越性,而利用同樣的測(cè)試集與訓(xùn)練集,在ISMOTE 優(yōu)化數(shù)據(jù)的基礎(chǔ)上利用非線性SVM[19-20]以及僅僅對(duì)原始數(shù)據(jù)用非線性SVM 進(jìn)行分類(lèi)效果如表4 所示。

        表4 SVM 與ISMOTE_SVM 處理結(jié)果Tab.4 SVM and ISMOTE_ SVM processing results

        由于測(cè)試集樣本容量較小,所以,ISMOTE 算法的優(yōu)越性主要體現(xiàn)在了容量相對(duì)較大的訓(xùn)練集上。

        將以上結(jié)果進(jìn)行整合如表5 所示。

        表5 液壓泵各算法正確率展示表Tab.5 The correct rate of each algorithm of hydraulic pump

        可以看出,在液壓泵小樣本情況下雖然訓(xùn)練集錯(cuò)誤率已經(jīng)明顯降低,但是,由于測(cè)試集的錯(cuò)誤率偏高,幾乎接近直接使用KNN 算法進(jìn)行計(jì)算的錯(cuò)誤率,由此可以看出,ISMOTE_KNN 算法在小樣本數(shù)據(jù)處理中的優(yōu)越性。

        利用同樣的方式對(duì)水導(dǎo)軸承的振動(dòng)數(shù)據(jù)進(jìn)行分析和計(jì)算,得到的結(jié)果如表6 所示。

        表6 水導(dǎo)軸承各算法正確率展示表Tab.6 Accuracy display table of hydraulic guide bearing

        通過(guò)國(guó)內(nèi)的水導(dǎo)軸承振動(dòng)數(shù)據(jù)分析可知,ISMOTE_KNN 算法在實(shí)際應(yīng)用中相比傳統(tǒng)機(jī)器學(xué)習(xí)算法以及其他聯(lián)合算法擁有更好的分類(lèi)效果,即便是少數(shù)類(lèi)樣本容量不足也能夠?qū)ζ鋽?shù)據(jù)進(jìn)行處理。相比大多數(shù)情況下使用的SVM,本文的算法能夠更加準(zhǔn)確地對(duì)液壓泵狀態(tài)進(jìn)行分析從而淘汰那些狀態(tài)異常的設(shè)備。

        5.5 剩余壽命預(yù)測(cè)

        在實(shí)際工業(yè)中,設(shè)備振動(dòng)方均根值RMS能夠體現(xiàn)設(shè)備健康狀況,因此,本文通過(guò)對(duì)設(shè)備訓(xùn)練集與測(cè)試集數(shù)據(jù)點(diǎn)的RMS數(shù)值進(jìn)行觀察,觀察結(jié)果可作為分析設(shè)備健康狀況的依據(jù)。本文數(shù)據(jù)點(diǎn)的RMS數(shù)據(jù)計(jì)算結(jié)果如圖8 所示。

        圖8 設(shè)備數(shù)據(jù)點(diǎn)RMS 監(jiān)視數(shù)據(jù)Fig.8 RMS monitoring data of equipment data points

        根據(jù)設(shè)備的健康狀況以及對(duì)數(shù)據(jù)點(diǎn)的分析,當(dāng)RMS數(shù)據(jù)區(qū)趨于7 及以上的時(shí)候設(shè)備健康狀況將會(huì)導(dǎo)致設(shè)備無(wú)法完成預(yù)計(jì)的生產(chǎn)目標(biāo)。因此,本文著重對(duì)7 及以上RMS的數(shù)據(jù)點(diǎn)進(jìn)行分析和預(yù)估并擬合數(shù)據(jù)線性趨勢(shì)。其中,設(shè)備真實(shí)RMS數(shù)據(jù)值與預(yù)測(cè)RMS數(shù)據(jù)對(duì)比圖如圖9 所示。

        圖9 RMS 實(shí)際值與測(cè)試值比較圖Fig.9 Comparisons of RMS actual value and test value

        同樣地,對(duì)軸承的振動(dòng)數(shù)據(jù)進(jìn)行分析并擬合出機(jī)器剩余壽命RUL預(yù)測(cè)曲線如圖10 所示。

        圖10 水導(dǎo)軸承RUL 實(shí)際值與測(cè)試值比較圖Fig.10 Comparison between actual RUL value and test value of hydraulic guide bearing

        通過(guò)觀察2 個(gè)設(shè)備真實(shí)RMS數(shù)據(jù)線性擬合結(jié)果與本文算法的預(yù)測(cè)擬合結(jié)果可知,兩者具有高度的相似性,因而可以證明本文提出的算法在數(shù)據(jù)處理中不僅可以保證不會(huì)破壞數(shù)據(jù)的特征,同時(shí)也可以準(zhǔn)確分析出設(shè)備健康狀況以及預(yù)測(cè)設(shè)備未來(lái)壽命發(fā)展趨勢(shì),進(jìn)而可以避免實(shí)際工業(yè)中因?yàn)樵O(shè)備健康問(wèn)題而造成的經(jīng)濟(jì)損失。

        6 結(jié)束語(yǔ)

        通過(guò)引入SMOTE 算法彌補(bǔ)KNN 算法存在的局限性,同時(shí)針對(duì)傳統(tǒng)SMOTE 算法的不足進(jìn)行改進(jìn),通過(guò)設(shè)置噪聲比例β消除存在于多數(shù)類(lèi)樣本附近的少數(shù)類(lèi)樣本噪聲,再通過(guò)設(shè)置閾值dmin忽略那些新增后容易導(dǎo)致邊界模糊的少數(shù)類(lèi)樣本點(diǎn),選擇性地對(duì)部分優(yōu)秀的樣本點(diǎn)進(jìn)行新增處理,提高了新增樣本點(diǎn)的質(zhì)量,規(guī)避了傳統(tǒng)SMOTE 算法存在的局限性。最后通過(guò)PSO 尋找同簇樣本中心,建立分隔閾值對(duì)樣本點(diǎn)進(jìn)行裁剪并投票,規(guī)避KNN 算法面對(duì)交錯(cuò)數(shù)據(jù)無(wú)法準(zhǔn)確分類(lèi)的問(wèn)題。仿真部分比較了各種算法下液壓泵與水導(dǎo)軸承的健康狀況分析準(zhǔn)確度。算例表明,本文提出的聯(lián)合算法相比傳統(tǒng)機(jī)器學(xué)習(xí)算法具有更高的準(zhǔn)確性。在面對(duì)大規(guī)模數(shù)據(jù)時(shí),當(dāng)數(shù)據(jù)本身呈現(xiàn)出緊密離散型分布特點(diǎn)并且樣本分布毫無(wú)規(guī)律時(shí),本文提出的改進(jìn)算法由于法則限制會(huì)出現(xiàn)較大偏差,在此情況下可以適當(dāng)拋棄ISMOTE 并需要對(duì)后續(xù)的機(jī)器學(xué)習(xí)改進(jìn)算法進(jìn)行進(jìn)一步提升。在保持計(jì)算精度要求的前提下可以對(duì)VKNN 算法進(jìn)行集成處理輸出強(qiáng)學(xué)習(xí)器Adaboost。為了保證該集成算法的計(jì)算速率,后續(xù)可以從樣本權(quán)值與弱學(xué)習(xí)器權(quán)值方面對(duì)Adaboost 進(jìn)行進(jìn)一步優(yōu)化以滿足計(jì)算速率要求。同時(shí)為了適應(yīng)實(shí)際工業(yè)中多維數(shù)據(jù)的情況,本文提出的算法在未來(lái)改進(jìn)后應(yīng)盡可能實(shí)現(xiàn)同時(shí)對(duì)多個(gè)因變量進(jìn)行分析的功能,規(guī)避分類(lèi)討論的局限性,由此滿足實(shí)際工業(yè)中的各種需求。

        猜你喜歡
        閾值噪聲分類(lèi)
        分類(lèi)算一算
        噪聲可退化且依賴于狀態(tài)和分布的平均場(chǎng)博弈
        小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
        分類(lèi)討論求坐標(biāo)
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        數(shù)據(jù)分析中的分類(lèi)討論
        控制噪聲有妙法
        教你一招:數(shù)的分類(lèi)
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        室內(nèi)表面平均氡析出率閾值探討
        日韩人妖视频一区二区| 欧美艳星nikki激情办公室| 少妇邻居内射在线| 久久伊人影院| 久久无码高潮喷水免费看| 成人影院免费视频观看| 最新国产精品国产三级国产av| 亚洲精品国产综合久久| 久久精品国产亚洲av麻豆瑜伽| 国产丝袜美女| 亚洲伊人一本大道中文字幕 | 日韩精品无码免费专区网站| 精品乱码久久久久久中文字幕| 亚洲乱在线播放| 亚洲精品中文字幕一二| 精品国产亚洲av麻豆| 久久成人国产精品| 亚洲综合无码一区二区| 色999欧美日韩| 国产福利小视频91| 人妻夜夜爽天天爽三区麻豆av| 69国产成人精品午夜福中文| 国产成人亚洲精品无码av大片| 久久久久99精品成人片试看| 国产精品亚洲综合天堂夜夜| 91国内偷拍一区二区三区| 亚洲天堂久久午夜福利| 午夜久久久久久禁播电影 | 午夜大片又黄又爽大片app | 日本免费一区二区久久久| 老子影院午夜伦不卡| 初尝黑人嗷嗷叫中文字幕| 91久久精品人妻一区二区| 丝袜美腿诱惑区在线播放| 99视频在线精品免费观看6| 亚欧色一区w666天堂| 天天躁日日躁狠狠躁人妻 | 在教室伦流澡到高潮hgl视频 | 国产亚洲精品第一综合麻豆| 亚洲一区二区成人在线视频| 日本精品视频二区三区|