亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于相似度的半監(jiān)督學(xué)習(xí)工業(yè)數(shù)據(jù)分類(lèi)算法

2021-11-10 09:09:42孫栓柱楊晨琛

南京航空航天大學(xué)學(xué)報(bào) 2021年5期

孫栓柱，陳廣，高陽(yáng)，孫彬，李逗，楊晨琛

（1.南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)，南京 210023；2.江蘇方天電力技術(shù)有限公司，南京 211102）

數(shù)據(jù)分類(lèi)問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域的典型問(wèn)題，一個(gè)表現(xiàn)良好的分類(lèi)模型，往往離不開(kāi)充分的有監(jiān)督數(shù)據(jù)的支持。然而在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中，受限于數(shù)據(jù)標(biāo)記的難度以及正負(fù)樣本分布比例等一系列問(wèn)題，含標(biāo)記的有監(jiān)督數(shù)據(jù)往往十分有限，并且這有限的標(biāo)記據(jù)還會(huì)存在類(lèi)別標(biāo)簽分布不平衡的情況。所以對(duì)于此類(lèi)數(shù)據(jù)，基于其數(shù)據(jù)特點(diǎn)，如果將傳統(tǒng)的分類(lèi)算法應(yīng)用于此類(lèi)任務(wù)之中，往往會(huì)過(guò)擬合于標(biāo)記數(shù)據(jù)中的多數(shù)類(lèi)，難以識(shí)別出少數(shù)類(lèi)，從而無(wú)法取得讓人滿意的效果。

針對(duì)一組給定的數(shù)據(jù)Data={(X1，Y1)，(X2，Y2)，…，(Xn，Yn)}，從而預(yù)測(cè)一個(gè)離散值的任務(wù)被稱為“分類(lèi)”，依照輸出分類(lèi)目標(biāo)類(lèi)別的不同，分類(lèi)任務(wù)可以被分為“二分類(lèi)”與“多分類(lèi)”。數(shù)據(jù)分類(lèi)任務(wù)的目標(biāo)便是在于建立輸入空間X到輸出空間Y之間的映射f：X?Y。

數(shù)據(jù)分類(lèi)任務(wù)往往需要有監(jiān)督數(shù)據(jù)的支撐，有監(jiān)督數(shù)據(jù)質(zhì)量的高低很大程度上影響著模型分類(lèi)的效果。對(duì)于大多數(shù)常見(jiàn)的公開(kāi)數(shù)據(jù)集，一般擁有著大量的數(shù)據(jù)標(biāo)記樣本，且樣本在類(lèi)別上的相對(duì)分布比較均勻。然而在現(xiàn)實(shí)的某一應(yīng)用場(chǎng)景之中，數(shù)據(jù)的質(zhì)量與數(shù)量往往是機(jī)器學(xué)習(xí)任務(wù)所要面臨的第一個(gè)難題，這很大程度上制約了模型的效果。

現(xiàn)實(shí)場(chǎng)景下分類(lèi)任務(wù)的的數(shù)據(jù)一般包含以下難題：

（1）數(shù)據(jù)的有監(jiān)督信息有限。現(xiàn)實(shí)場(chǎng)景中的機(jī)器學(xué)習(xí)任務(wù)，很可能積攢了十分豐富的歷史數(shù)據(jù)，然而這些數(shù)據(jù)中包含標(biāo)記的數(shù)據(jù)十分有限，所以從有監(jiān)督學(xué)習(xí)的角度來(lái)看，大量數(shù)據(jù)無(wú)法構(gòu)造監(jiān)督信息，從而造成模型僅能從有限的數(shù)據(jù)中學(xué)習(xí)特征。

（2）數(shù)據(jù)的類(lèi)別分布不平衡。在某一領(lǐng)域的數(shù)據(jù)之中，數(shù)據(jù)在類(lèi)別上的分布可能存在著不平衡的問(wèn)題。在這樣的數(shù)據(jù)集中，不同標(biāo)簽下的數(shù)據(jù)量之間不成正比，與此同時(shí)在類(lèi)別間數(shù)據(jù)量的比例上，以一個(gè)二分類(lèi)任務(wù)而言，負(fù)正樣本之間的比例可能高達(dá)999∶1，這樣的數(shù)據(jù)往往難以實(shí)現(xiàn)對(duì)占比較少的數(shù)據(jù)類(lèi)別進(jìn)行識(shí)別。

（3）數(shù)據(jù)的標(biāo)記內(nèi)容具有強(qiáng)領(lǐng)域性?，F(xiàn)實(shí)中的數(shù)據(jù)標(biāo)注任務(wù)很可能需要領(lǐng)域性很強(qiáng)的專業(yè)知識(shí)，貓狗圖片數(shù)據(jù)的標(biāo)注對(duì)于絕大多數(shù)人而言都可勝任，但是利用X 光片判斷病患是否患有癌癥，卻只有受訓(xùn)多年的腫瘤內(nèi)科醫(yī)生才能勝任。此類(lèi)數(shù)據(jù)標(biāo)注的強(qiáng)領(lǐng)域性，制約了該類(lèi)任務(wù)只能在小樣本的數(shù)據(jù)上展開(kāi)工作，從而限制了模型分類(lèi)的效果。

本文主要討論一種基于相似度的半監(jiān)督分類(lèi)算法，主要針對(duì)有監(jiān)督標(biāo)記數(shù)據(jù)有限，標(biāo)記數(shù)據(jù)類(lèi)別不均衡以及標(biāo)記內(nèi)容領(lǐng)域性強(qiáng)的場(chǎng)景。通過(guò)計(jì)算無(wú)標(biāo)記數(shù)據(jù)與有標(biāo)記數(shù)據(jù)相似度的方式擴(kuò)充少數(shù)類(lèi)集合，利用半監(jiān)督學(xué)習(xí)的方式提高模型對(duì)于少數(shù)類(lèi)的分類(lèi)識(shí)別效果。

1 相關(guān)研究現(xiàn)狀

1.1 不平衡學(xué)習(xí)

對(duì)于部分的數(shù)據(jù)而言，數(shù)據(jù)分布在數(shù)據(jù)的類(lèi)別上往往不是均衡的，對(duì)于那些類(lèi)別嚴(yán)重失衡的問(wèn)題常被定義為不平衡學(xué)習(xí)［1］問(wèn)題。不平衡學(xué)習(xí)是指數(shù)據(jù)集合在類(lèi)別分布上的不平衡。以分類(lèi)任務(wù)為例，數(shù)據(jù)中某一類(lèi)別的數(shù)據(jù)占總數(shù)據(jù)中的比例遠(yuǎn)遠(yuǎn)高于其他類(lèi)別［2］，對(duì)于這樣的數(shù)據(jù)，占比較高的類(lèi)別被稱為多數(shù)類(lèi)，占比較低的被稱為少數(shù)類(lèi)。不平衡數(shù)據(jù)分類(lèi)任務(wù)廣泛地存在與生產(chǎn)與生活中，這種比例失衡的程度很可能達(dá)到1 000∶1，甚至10 000 000∶1。例如，某些罕見(jiàn)疾病的病例數(shù)量遠(yuǎn)遠(yuǎn)小于其他疾病，電廠環(huán)保數(shù)據(jù)監(jiān)測(cè)傳感器異常點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常點(diǎn)的數(shù)量，地震油氣勘探領(lǐng)域有油氣的地震數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于無(wú)油氣地震數(shù)據(jù)的數(shù)量。

針對(duì)不平衡學(xué)習(xí)分類(lèi)任務(wù)的特點(diǎn)，主要從以下兩個(gè)方進(jìn)行解決：（1）通過(guò)調(diào)整數(shù)據(jù)分布的方法進(jìn)行優(yōu)化；（2）通過(guò)改進(jìn)模型算法的方式進(jìn)行優(yōu)化。

通過(guò)改變數(shù)據(jù)分布的優(yōu)化方法，主要是通過(guò)數(shù)據(jù)采樣的方式，利用一定的手段對(duì)數(shù)據(jù)類(lèi)別比例進(jìn)行調(diào)整，這樣將在一定程度上緩解數(shù)據(jù)不平衡的問(wèn)題，使得數(shù)據(jù)的分布趨向于平衡狀態(tài)，數(shù)據(jù)采樣一般分為2 種方法：（1）對(duì)不平衡數(shù)據(jù)集中的少數(shù)類(lèi)Smin進(jìn)行重采樣；（2）對(duì)多數(shù)類(lèi)Smax中的樣本欠采樣［3］。前者主要目的在于增加Smin的樣本，一般采用復(fù)制Smin的方式，但是這在一定程度上造成了Smin的樣本冗余。后者一般采用移除某些Smax數(shù)據(jù)的方式，其主要目的在于降低Smax的比例，但是這種方式很有可能會(huì)在移除數(shù)據(jù)的過(guò)程中造成某些數(shù)據(jù)信息的丟失。

在數(shù)據(jù)分布調(diào)整上，有Chawla 等提出的一種通過(guò)創(chuàng)造合成Smin樣本來(lái)實(shí)現(xiàn)對(duì)少數(shù)類(lèi)過(guò)采樣的方法，稱之為SMOTE（Synthetic minority over?sampling technique）［4］方法，其主要思想是于每一個(gè)樣本xi∈Smin計(jì)算xi與Smin中其他樣本之間的歐氏距離，并返回xi的k個(gè)最近值。隨后根據(jù)全體樣本集合S的樣本不平衡情況，從少數(shù)類(lèi)集合中挑取2 個(gè)相鄰的樣本x及x?，并利用xnew=x+rand(0，1)(x?-x) 的計(jì)算方式構(gòu)造新數(shù)據(jù)。在SMOTE 方法的基礎(chǔ)上，Chawla 等將Boosting 方法結(jié)合起來(lái)，提出了一種SMOTEBoost［5］方法，通過(guò)將SMOTE 方法應(yīng)用于每一個(gè)Boosting 過(guò)程中，對(duì)少數(shù)類(lèi)Smin中構(gòu)造新的樣本，間接改變了樣本分布的不均衡。SMOTE 算法從本質(zhì)上來(lái)看是一種過(guò)采樣的方法，它克服了過(guò)采樣的一些缺點(diǎn)，通過(guò)數(shù)據(jù)增強(qiáng)的方法增加了原始數(shù)據(jù)。除此之外，改進(jìn)的算法還包括Borderline?SMOTE 算法［6］與ADASYN 算法［7］。

在算法模型上，Domingos 等提出了一種基于代價(jià)敏感的學(xué)習(xí)算法［8］，對(duì)于一個(gè)不平衡數(shù)據(jù)集，其不同的類(lèi)別i與j，Cost(i，j)表示類(lèi)別i劃分為類(lèi)別j模型所返回的損失。針對(duì)少數(shù)類(lèi)別Min，與多數(shù) 類(lèi) 別 Max。一般情況下Cost(Max，Min) >Cost(Min，Max)，因?yàn)樯贁?shù)類(lèi)的樣本數(shù)量較少，少數(shù)類(lèi)誤分類(lèi)所導(dǎo)致的代價(jià)往往要高于多數(shù)類(lèi)的誤分類(lèi)。代價(jià)敏感型學(xué)習(xí)的關(guān)鍵是應(yīng)用代價(jià)敏感矩陣［9?10］，其核心思想是針對(duì)數(shù)據(jù)分布的特點(diǎn)以及一些先驗(yàn)知識(shí)，對(duì)于不同的分類(lèi)結(jié)果，返回不同的損失，加強(qiáng)模型對(duì)于少數(shù)類(lèi)的學(xué)習(xí)效果。

1.2 半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)［11?13］的核心思想在于充分利用有限的有標(biāo)記數(shù)據(jù)，結(jié)合大量的無(wú)標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練，從而緩解有標(biāo)記數(shù)據(jù)樣本不充分導(dǎo)致的模型效果表現(xiàn)較差的問(wèn)題。自20 世紀(jì)90 年代起，在自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)需求的驅(qū)使下，半監(jiān)督學(xué)習(xí)取得了長(zhǎng)足的發(fā)展，半監(jiān)督學(xué)習(xí)的思想發(fā)端于Merz 等［14］。半監(jiān)督分類(lèi)學(xué)習(xí)中，Blum 和Mitchell 從基于差異的視角，提出協(xié)同訓(xùn)練方法［15］，針對(duì)有標(biāo)記的數(shù)據(jù)從不同的視圖，構(gòu)造不同的屬性集，隨后利用這些集合進(jìn)行訓(xùn)練，從而得出不同的模型。然后利用上述模型對(duì)大量的無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)測(cè)，并將置信度較高的結(jié)果交叉輸入到其他模型之中，反復(fù)迭代訓(xùn)練，直到滿足條件。該方法表明當(dāng)訓(xùn)練數(shù)據(jù)的視圖充分冗余時(shí)，無(wú)標(biāo)記數(shù)據(jù)在不同學(xué)習(xí)器上的一致性能達(dá)到最大化，可以有效地降低誤分類(lèi)。從判別式方法的角度，半監(jiān)督學(xué)習(xí)利用最大間隔算法［16］訓(xùn)練模型，從而學(xué)習(xí)得出無(wú)標(biāo)記數(shù)據(jù)與有標(biāo)記數(shù)據(jù)之間的劃分邊界?；趫D的半監(jiān)督分類(lèi)方法主要通過(guò)基于流形假設(shè)［17］原理，構(gòu)建數(shù)據(jù)集中樣例之間的圖關(guān)系，隨后基于圖之間的關(guān)系實(shí)現(xiàn)標(biāo)記數(shù)據(jù)的有監(jiān)督信息向無(wú)監(jiān)督數(shù)據(jù)的傳播。首先基于圖的方法會(huì)選擇合適的距離計(jì)算樣例之間的距離，如歐氏距離、切比雪夫距離和馬氏距離等。隨后根據(jù)前述計(jì)算所得的距離選擇合適的連接方式，構(gòu)造樣例之間的連接圖。在圖構(gòu)造完成的基礎(chǔ)上利用核函數(shù)計(jì)算連接邊的權(quán)值，并利用這個(gè)權(quán)值衡量?jī)蓚€(gè)連接點(diǎn)之間的相似度。

2 半監(jiān)督相似度量工業(yè)數(shù)據(jù)分類(lèi)算法

2.1 問(wèn)題分析

對(duì)于一個(gè)分類(lèi)任務(wù)而言，以二分類(lèi)任務(wù)為例，一個(gè)分類(lèi)效果良好的分類(lèi)器往往需要充分利用向好的正負(fù)樣本進(jìn)行學(xué)習(xí)，從而學(xué)習(xí)出正負(fù)類(lèi)別中的特征θ。但是基于前文所述，在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中，經(jīng)常存在數(shù)據(jù)標(biāo)注難度大、數(shù)據(jù)樣本分布不均衡以及標(biāo)記信息有限等諸多問(wèn)題，以上問(wèn)題所導(dǎo)致的直接影響便是用于學(xué)習(xí)的標(biāo)記樣本其分布上存在著不均衡。

基于樣本類(lèi)別分布不均衡的數(shù)據(jù)所訓(xùn)練得到的分類(lèi)器，往往會(huì)過(guò)擬合于不均衡數(shù)據(jù)集中的多數(shù)類(lèi)Smax，從而難以識(shí)別少數(shù)類(lèi)。這種情況下僅從準(zhǔn)確率的視角衡量模型的效果便不夠客觀，因?yàn)閿?shù)據(jù)集中多數(shù)類(lèi)樣本充分，可供學(xué)習(xí)的數(shù)據(jù)眾多，分類(lèi)器便能夠充分學(xué)習(xí)出多數(shù)類(lèi)中的特征θmax。但是這樣的分類(lèi)器在本質(zhì)上過(guò)擬合于多數(shù)類(lèi)Smax，分類(lèi)器幾乎無(wú)法識(shí)別出所有的少數(shù)類(lèi)Smin。在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中，對(duì)于不平衡數(shù)據(jù)而言，相比識(shí)別常見(jiàn)的多數(shù)類(lèi)，識(shí)別出不平衡數(shù)據(jù)中的少數(shù)類(lèi)Smin往往更具有價(jià)值。

本文所要處理的分類(lèi)任務(wù)來(lái)自于某一工業(yè)領(lǐng)域，在某一區(qū)域范圍之內(nèi)均勻散布了幾十萬(wàn)個(gè)傳感器，其中絕大部分?jǐn)?shù)據(jù)是無(wú)標(biāo)記數(shù)據(jù)。有標(biāo)記的數(shù)據(jù)劃分為兩類(lèi)結(jié)果，無(wú)顯示數(shù)據(jù)N與有顯示數(shù)據(jù)P，以及半監(jiān)督數(shù)據(jù)P'，其中有顯示數(shù)據(jù)P為主要的識(shí)別目標(biāo)，D為半監(jiān)督數(shù)據(jù)的篩選范圍，如圖1所示?；谄錁I(yè)務(wù)特點(diǎn)，其所有的標(biāo)記數(shù)據(jù)中，有顯示數(shù)據(jù)P遠(yuǎn)遠(yuǎn)小于無(wú)顯示數(shù)據(jù)N，而且數(shù)據(jù)的標(biāo)簽信息的獲取，需要專業(yè)的工作人員現(xiàn)場(chǎng)在每一個(gè)傳感器安置點(diǎn)進(jìn)行施工采樣，驗(yàn)證傳感器放置點(diǎn)的現(xiàn)場(chǎng)狀況，才可以判斷該監(jiān)測(cè)點(diǎn)的標(biāo)記為有顯示點(diǎn)N，還是無(wú)顯示點(diǎn)P，所以數(shù)據(jù)的標(biāo)記信息十分有限，僅僅幾百條。該工業(yè)領(lǐng)域的業(yè)務(wù)人員表示，有顯示數(shù)據(jù)與無(wú)顯示數(shù)據(jù)往往是以范圍的形式存在，但是在有、無(wú)顯示的范圍內(nèi)僅僅以幾個(gè)傳感器的特征尤為明顯，并基于這些少數(shù)的傳感器進(jìn)行標(biāo)記正負(fù)情況。

此工業(yè)數(shù)據(jù)分類(lèi)任務(wù)存在以下難題：（1）樣本數(shù)據(jù)眾多，但含有標(biāo)記信息樣本較少；（2）標(biāo)記數(shù)據(jù)中正負(fù)樣本比例差距大；（3）數(shù)據(jù)標(biāo)記難度大。

本文提出一種基于相似度度量的半監(jiān)督分類(lèi)算法。其主要的方式是，圍繞任務(wù)目標(biāo)數(shù)據(jù)集中的少數(shù)類(lèi)Smin中的樣本，針對(duì)其中的每一個(gè)少數(shù)類(lèi)正例樣本smin，在smin周?chē)薅ǖ囊粋€(gè)區(qū)域，該區(qū)域范圍內(nèi)包的無(wú)標(biāo)記數(shù)據(jù)集合為D={，，…}，對(duì)與區(qū)域內(nèi)的某一個(gè)樣本，其并不存在標(biāo)簽，隨后對(duì)D內(nèi)的所有數(shù)據(jù)進(jìn)聚類(lèi)。其核心思想是針對(duì)任務(wù)目標(biāo)數(shù)據(jù)中樣本數(shù)量比例差距較大的特點(diǎn)，緩解分類(lèi)器在訓(xùn)練過(guò)程中過(guò)擬合于占比較大類(lèi)別的數(shù)據(jù)所導(dǎo)致的問(wèn)題。

針對(duì)上述任務(wù)描述，在同業(yè)務(wù)人員的交流中得知，標(biāo)記為正例的數(shù)據(jù)其周?chē)臄?shù)據(jù)大概率也為正類(lèi)，相同類(lèi)別的數(shù)據(jù)之間的相似性較高，隨后從聚類(lèi)結(jié)果中挑選與區(qū)域D內(nèi)正例標(biāo)記數(shù)據(jù)P最為相似的類(lèi)別集合P'，將P'其作為可信正例集合，并以此擴(kuò)充正例樣本，緩解數(shù)據(jù)標(biāo)記集合中樣本分布不均衡的情況，最后利用擴(kuò)充集合中的數(shù)據(jù)進(jìn)行模型訓(xùn)練，并得出分類(lèi)器。

2.2 基于K?means 聚類(lèi)相似度擴(kuò)展正例集合

基于前文所述，有顯示數(shù)據(jù)P為數(shù)據(jù)集合中的少數(shù)類(lèi)，由于標(biāo)記數(shù)據(jù)的難度較大，所以訓(xùn)練集中少數(shù)的有顯示數(shù)據(jù)P={p1，p2，…，pn}，無(wú)法充分反映少數(shù)類(lèi)數(shù)據(jù)特征在全局狀態(tài)下對(duì)于全體少數(shù)類(lèi)集合P的分布。因此很有必要針對(duì)P進(jìn)行擴(kuò)充。

本文使用K?means［18］聚類(lèi)算法對(duì)可信正類(lèi)數(shù)據(jù)P周?chē)臒o(wú)標(biāo)記數(shù)據(jù)集合D進(jìn)行聚類(lèi)，依賴半監(jiān)督學(xué)習(xí)中的平滑假設(shè)［19］與聚類(lèi)假設(shè)［20］。所謂的平滑假設(shè)即位于數(shù)據(jù)稠密的區(qū)域中，距離相近的樣例，大概率擁有相同的類(lèi)標(biāo)簽。所謂的聚類(lèi)假設(shè)，即處于相同類(lèi)簇樣例下的樣例，具有相同類(lèi)標(biāo)簽。

存在兩個(gè)問(wèn)題需要明確：

（1）如何制定一套機(jī)制，以確定K?means 算法中k的取值。對(duì)于一個(gè)有監(jiān)督分類(lèi)任務(wù)而言，數(shù)據(jù)需要被劃分的類(lèi)別是明確的。如圖2 所示，對(duì)于需要施加K?means 算法的數(shù)據(jù)集合D={}，其標(biāo)簽集合也為L(zhǎng)abel = {P，N}，類(lèi)別為2。如果直接設(shè)置k的取值為2，那么數(shù)據(jù)集合D將會(huì)很粗略地被劃分為兩個(gè)類(lèi)別，基于聚類(lèi)假設(shè)的原理，會(huì)將一個(gè)數(shù)量較大的類(lèi)簇劃歸為少數(shù)類(lèi)，這種粗糙的少數(shù)類(lèi)數(shù)據(jù)擴(kuò)充方式，無(wú)疑會(huì)增加少數(shù)類(lèi)數(shù)據(jù)中的噪聲，以此數(shù)據(jù)進(jìn)行模型訓(xùn)練將會(huì)得到一個(gè)表現(xiàn)較差的分類(lèi)器。

針對(duì)以上問(wèn)題，本文提出了一種基于K?means聚類(lèi)的相似度收斂算法。通過(guò)設(shè)置一組逐漸遞增的k值，隨著k值的遞增加，K?means 聚類(lèi)得到的類(lèi)別逐步精細(xì)，當(dāng)k個(gè)類(lèi)別中與標(biāo)記數(shù)據(jù)P的距離開(kāi)始收斂的時(shí)候，停止k值的遞增，并將該類(lèi)別作為可信正例集合，其整體流程如圖3 所示。

圖3 半監(jiān)督數(shù)據(jù)擴(kuò)充流程圖Fig.3 Flow chart of semi-supervised data expansion method

以圖4 為例，其為某一標(biāo)記節(jié)點(diǎn)周?chē)嚯x其最近的K?means 聚類(lèi)數(shù)據(jù)分布變化圖，其中，k表示K?means 聚類(lèi)算法中k的取值，num 表示K?means聚類(lèi)結(jié)果中距離標(biāo)記節(jié)點(diǎn)最近集合中數(shù)據(jù)的數(shù)量，d表示該集合中距離標(biāo)記節(jié)點(diǎn)的平均距離?？梢钥吹骄嚯x最近的數(shù)據(jù)始終圍繞在可信節(jié)點(diǎn)的周?chē)D5 展示了隨著K?means 中k值變化過(guò)程中，距離標(biāo)記節(jié)點(diǎn)最近的聚類(lèi)的可信樣本數(shù)量變化情況，以及與標(biāo)記節(jié)點(diǎn)的距離變化情況，可以看到距離與數(shù)量都是逐步下降并最終收斂。

圖4 可信數(shù)據(jù)P 點(diǎn)K-means 聚類(lèi)變化圖Fig.4 K-means cluster change graph of trusted data point P

圖5 聚類(lèi)數(shù)目以及距離變化圖Fig.5 Cluster number and distance change graph

可以看到，利用上述方法可以得到穩(wěn)定的且距離不平衡數(shù)據(jù)中少數(shù)類(lèi)Smin最近的數(shù)據(jù)集合，這些原本沒(méi)有標(biāo)記的數(shù)據(jù)將作為半監(jiān)督學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)。

算法1 基于K?means 聚類(lèi)的相似度收斂算法

2.3 利用多種分類(lèi)算法進(jìn)行數(shù)據(jù)分類(lèi)

為了有效驗(yàn)證利用K?means 聚類(lèi)，并以此取得最相似數(shù)據(jù)，從而進(jìn)行驗(yàn)證并比較半監(jiān)督分類(lèi)學(xué)習(xí)的算法效果。本文利用多種分類(lèi)算法進(jìn)行驗(yàn)證，包括一系列淺層模型與深度模型。其中淺層模型包含以下算法：KNN（K?nearest neighbor）決策樹(shù)、SVM（Support vector machine）和LR（Logistic re?gression）分類(lèi)器。深度學(xué)習(xí)分類(lèi)器包括：全連接神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)評(píng)價(jià)

為了有效地評(píng)價(jià)模型的分類(lèi)效果，本文主要應(yīng)用到了準(zhǔn)確率（Accuracy）、召回率（Recall）以及標(biāo)準(zhǔn)的F1度量，式（2～4）中其他變量含義為：TP 表示數(shù)據(jù)自身為正例并被識(shí)別為正例；FN 表示數(shù)據(jù)自身為正例但是被識(shí)別為負(fù)例；FP 表示數(shù)據(jù)自身為負(fù)例但被識(shí)別為正例；TN 表示數(shù)據(jù)自身為負(fù)例并被識(shí)別為負(fù)例；Precision 表示精確率。其中準(zhǔn)確率主要衡量分類(lèi)器的預(yù)測(cè)結(jié)果中有多少是分類(lèi)正確的。但是基于不平衡數(shù)據(jù)集中樣本不均衡的問(wèn)題，僅僅使用準(zhǔn)確率無(wú)法客觀的評(píng)價(jià)模型的效果，所以模型還會(huì)參考召回率這一指標(biāo)，以衡量對(duì)于少數(shù)類(lèi)的分類(lèi)效果。最后利用F1值綜合評(píng)價(jià)分類(lèi)器的效果。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文所應(yīng)用到的數(shù)據(jù)集來(lái)自于某一工業(yè)領(lǐng)域，共包含傳感器采集的數(shù)據(jù)221 121 條，每一條數(shù)據(jù)包含30 個(gè)特征，其中包含標(biāo)記的數(shù)據(jù)僅有480 條，標(biāo)記數(shù)據(jù)中正例數(shù)據(jù)31 條，其余皆為負(fù)例。在此標(biāo)記數(shù)據(jù)的基礎(chǔ)上，利用前文所述的方法，圍繞著正例標(biāo)記數(shù)據(jù)構(gòu)造可信正例數(shù)據(jù)157 條。以上為本實(shí)驗(yàn)所應(yīng)用到的數(shù)據(jù)集。

3.3 實(shí)驗(yàn)結(jié)果及分析

在實(shí)驗(yàn)過(guò)程中，采用如下方式進(jìn)行實(shí)驗(yàn)，其中對(duì)于標(biāo)記數(shù)據(jù)集，將其中的80% 作為訓(xùn)練集，20%作為測(cè)試集。對(duì)于可信數(shù)據(jù)集，則只將其添加到訓(xùn)練集中，構(gòu)造半監(jiān)督訓(xùn)練集。實(shí)驗(yàn)過(guò)程中將分別利用訓(xùn)練集與半監(jiān)督訓(xùn)練集進(jìn)行模型訓(xùn)練，得出普通的分類(lèi)器與半監(jiān)督分類(lèi)器。然后利用測(cè)試集評(píng)價(jià)上述兩組分類(lèi)器的效果。為準(zhǔn)確衡量本文算法的效果，利用了多個(gè)分類(lèi)器來(lái)評(píng)判算法的效果。

從表1 可以看出，傳統(tǒng)方法的準(zhǔn)確率明顯高于半監(jiān)督方法，但是傳統(tǒng)方法中除決策樹(shù)模型之外，其他模型的召回率與F1值均為0，這表明基于傳統(tǒng)方法訓(xùn)練得出的分類(lèi)器基本上過(guò)擬合于不平衡數(shù)據(jù)集中的多數(shù)類(lèi)，并且模型不具有少數(shù)類(lèi)分類(lèi)的能力，而不平衡數(shù)據(jù)集中的少數(shù)類(lèi)，往往是該類(lèi)型分類(lèi)任務(wù)重關(guān)注的重點(diǎn)。對(duì)比于半監(jiān)督方法，模型的召回率與F1值均有所提高，這表明半監(jiān)督方法相對(duì)于傳統(tǒng)模型，在對(duì)于數(shù)據(jù)集中的少數(shù)類(lèi)而言其識(shí)別率有所提高。

表1 傳統(tǒng)與本文半監(jiān)督方法對(duì)比Table 1 Comparison of traditional and semi?supervised method

4 結(jié)論

本文提出了一種基于半監(jiān)督學(xué)習(xí)的工業(yè)數(shù)據(jù)分類(lèi)算法，該方法針對(duì)需某類(lèi)傳感器數(shù)據(jù)分類(lèi)任務(wù)，在其標(biāo)記信息少、標(biāo)記難度大以及正負(fù)樣本分類(lèi)不均衡的情況下，創(chuàng)新地提出利用K?means 聚類(lèi)算法，將圍繞少數(shù)類(lèi)標(biāo)記數(shù)據(jù)中的數(shù)據(jù)進(jìn)行無(wú)監(jiān)督聚類(lèi)，基于聚類(lèi)數(shù)據(jù)與少數(shù)類(lèi)標(biāo)記數(shù)據(jù)的相似度度量，構(gòu)造一批可信正例半監(jiān)督數(shù)據(jù)，并將其用于模型訓(xùn)練，從而得到半監(jiān)督分類(lèi)器，經(jīng)多種分類(lèi)模型進(jìn)行半監(jiān)督訓(xùn)練測(cè)試驗(yàn)證，雖然模型的準(zhǔn)確率受到了一定的影響，但是模型在召回率與F1值的表現(xiàn)上明顯優(yōu)于傳統(tǒng)的方法，這表明本文方法有效地識(shí)別出了不平衡工業(yè)傳感器數(shù)據(jù)數(shù)據(jù)集中重點(diǎn)需要識(shí)別出的少數(shù)類(lèi)，在真實(shí)的生產(chǎn)與應(yīng)用環(huán)境中具有一定的應(yīng)用價(jià)值。