亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相似度的半監(jiān)督學(xué)習(xí)工業(yè)數(shù)據(jù)分類(lèi)算法

        2021-11-10 09:09:42孫栓柱楊晨琛
        關(guān)鍵詞:分類(lèi)監(jiān)督模型

        孫栓柱,陳 廣,高 陽(yáng),孫 彬,李 逗,楊晨琛

        (1.南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù),南京 210023;2.江蘇方天電力技術(shù)有限公司,南京 211102)

        數(shù)據(jù)分類(lèi)問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域的典型問(wèn)題,一個(gè)表現(xiàn)良好的分類(lèi)模型,往往離不開(kāi)充分的有監(jiān)督數(shù)據(jù)的支持。然而在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中,受限于數(shù)據(jù)標(biāo)記的難度以及正負(fù)樣本分布比例等一系列問(wèn)題,含標(biāo)記的有監(jiān)督數(shù)據(jù)往往十分有限,并且這有限的標(biāo)記據(jù)還會(huì)存在類(lèi)別標(biāo)簽分布不平衡的情況。所以對(duì)于此類(lèi)數(shù)據(jù),基于其數(shù)據(jù)特點(diǎn),如果將傳統(tǒng)的分類(lèi)算法應(yīng)用于此類(lèi)任務(wù)之中,往往會(huì)過(guò)擬合于標(biāo)記數(shù)據(jù)中的多數(shù)類(lèi),難以識(shí)別出少數(shù)類(lèi),從而無(wú)法取得讓人滿意的效果。

        針對(duì)一組給定的數(shù)據(jù)Data={(X1,Y1),(X2,Y2),…,(Xn,Yn)},從而預(yù)測(cè)一個(gè)離散值的任務(wù)被稱為“分類(lèi)”,依照輸出分類(lèi)目標(biāo)類(lèi)別的不同,分類(lèi)任務(wù)可以被分為“二分類(lèi)”與“多分類(lèi)”。數(shù)據(jù)分類(lèi)任務(wù)的目標(biāo)便是在于建立輸入空間X到輸出空間Y之間的映射f:X?Y。

        數(shù)據(jù)分類(lèi)任務(wù)往往需要有監(jiān)督數(shù)據(jù)的支撐,有監(jiān)督數(shù)據(jù)質(zhì)量的高低很大程度上影響著模型分類(lèi)的效果。對(duì)于大多數(shù)常見(jiàn)的公開(kāi)數(shù)據(jù)集,一般擁有著大量的數(shù)據(jù)標(biāo)記樣本,且樣本在類(lèi)別上的相對(duì)分布比較均勻。然而在現(xiàn)實(shí)的某一應(yīng)用場(chǎng)景之中,數(shù)據(jù)的質(zhì)量與數(shù)量往往是機(jī)器學(xué)習(xí)任務(wù)所要面臨的第一個(gè)難題,這很大程度上制約了模型的效果。

        現(xiàn)實(shí)場(chǎng)景下分類(lèi)任務(wù)的的數(shù)據(jù)一般包含以下難題:

        (1)數(shù)據(jù)的有監(jiān)督信息有限。現(xiàn)實(shí)場(chǎng)景中的機(jī)器學(xué)習(xí)任務(wù),很可能積攢了十分豐富的歷史數(shù)據(jù),然而這些數(shù)據(jù)中包含標(biāo)記的數(shù)據(jù)十分有限,所以從有監(jiān)督學(xué)習(xí)的角度來(lái)看,大量數(shù)據(jù)無(wú)法構(gòu)造監(jiān)督信息,從而造成模型僅能從有限的數(shù)據(jù)中學(xué)習(xí)特征。

        (2)數(shù)據(jù)的類(lèi)別分布不平衡。在某一領(lǐng)域的數(shù)據(jù)之中,數(shù)據(jù)在類(lèi)別上的分布可能存在著不平衡的問(wèn)題。在這樣的數(shù)據(jù)集中,不同標(biāo)簽下的數(shù)據(jù)量之間不成正比,與此同時(shí)在類(lèi)別間數(shù)據(jù)量的比例上,以一個(gè)二分類(lèi)任務(wù)而言,負(fù)正樣本之間的比例可能高達(dá)999∶1,這樣的數(shù)據(jù)往往難以實(shí)現(xiàn)對(duì)占比較少的數(shù)據(jù)類(lèi)別進(jìn)行識(shí)別。

        (3)數(shù)據(jù)的標(biāo)記內(nèi)容具有強(qiáng)領(lǐng)域性?,F(xiàn)實(shí)中的數(shù)據(jù)標(biāo)注任務(wù)很可能需要領(lǐng)域性很強(qiáng)的專業(yè)知識(shí),貓狗圖片數(shù)據(jù)的標(biāo)注對(duì)于絕大多數(shù)人而言都可勝任,但是利用X 光片判斷病患是否患有癌癥,卻只有受訓(xùn)多年的腫瘤內(nèi)科醫(yī)生才能勝任。此類(lèi)數(shù)據(jù)標(biāo)注的強(qiáng)領(lǐng)域性,制約了該類(lèi)任務(wù)只能在小樣本的數(shù)據(jù)上展開(kāi)工作,從而限制了模型分類(lèi)的效果。

        本文主要討論一種基于相似度的半監(jiān)督分類(lèi)算法,主要針對(duì)有監(jiān)督標(biāo)記數(shù)據(jù)有限,標(biāo)記數(shù)據(jù)類(lèi)別不均衡以及標(biāo)記內(nèi)容領(lǐng)域性強(qiáng)的場(chǎng)景。通過(guò)計(jì)算無(wú)標(biāo)記數(shù)據(jù)與有標(biāo)記數(shù)據(jù)相似度的方式擴(kuò)充少數(shù)類(lèi)集合,利用半監(jiān)督學(xué)習(xí)的方式提高模型對(duì)于少數(shù)類(lèi)的分類(lèi)識(shí)別效果。

        1 相關(guān)研究現(xiàn)狀

        1.1 不平衡學(xué)習(xí)

        對(duì)于部分的數(shù)據(jù)而言,數(shù)據(jù)分布在數(shù)據(jù)的類(lèi)別上往往不是均衡的,對(duì)于那些類(lèi)別嚴(yán)重失衡的問(wèn)題常被定義為不平衡學(xué)習(xí)[1]問(wèn)題。不平衡學(xué)習(xí)是指數(shù)據(jù)集合在類(lèi)別分布上的不平衡。以分類(lèi)任務(wù)為例,數(shù)據(jù)中某一類(lèi)別的數(shù)據(jù)占總數(shù)據(jù)中的比例遠(yuǎn)遠(yuǎn)高于其他類(lèi)別[2],對(duì)于這樣的數(shù)據(jù),占比較高的類(lèi)別被稱為多數(shù)類(lèi),占比較低的被稱為少數(shù)類(lèi)。不平衡數(shù)據(jù)分類(lèi)任務(wù)廣泛地存在與生產(chǎn)與生活中,這種比例失衡的程度很可能達(dá)到1 000∶1,甚至10 000 000∶1。例如,某些罕見(jiàn)疾病的病例數(shù)量遠(yuǎn)遠(yuǎn)小于其他疾病,電廠環(huán)保數(shù)據(jù)監(jiān)測(cè)傳感器異常點(diǎn)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常點(diǎn)的數(shù)量,地震油氣勘探領(lǐng)域有油氣的地震數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于無(wú)油氣地震數(shù)據(jù)的數(shù)量。

        針對(duì)不平衡學(xué)習(xí)分類(lèi)任務(wù)的特點(diǎn),主要從以下兩個(gè)方進(jìn)行解決:(1)通過(guò)調(diào)整數(shù)據(jù)分布的方法進(jìn)行優(yōu)化;(2)通過(guò)改進(jìn)模型算法的方式進(jìn)行優(yōu)化。

        通過(guò)改變數(shù)據(jù)分布的優(yōu)化方法,主要是通過(guò)數(shù)據(jù)采樣的方式,利用一定的手段對(duì)數(shù)據(jù)類(lèi)別比例進(jìn)行調(diào)整,這樣將在一定程度上緩解數(shù)據(jù)不平衡的問(wèn)題,使得數(shù)據(jù)的分布趨向于平衡狀態(tài),數(shù)據(jù)采樣一般分為2 種方法:(1)對(duì)不平衡數(shù)據(jù)集中的少數(shù)類(lèi)Smin進(jìn)行重采樣;(2)對(duì)多數(shù)類(lèi)Smax中的樣本欠采樣[3]。前者主要目的在于增加Smin的樣本,一般采用復(fù)制Smin的方式,但是這在一定程度上造成了Smin的樣本冗余。后者一般采用移除某些Smax數(shù)據(jù)的方式,其主要目的在于降低Smax的比例,但是這種方式很有可能會(huì)在移除數(shù)據(jù)的過(guò)程中造成某些數(shù)據(jù)信息的丟失。

        在數(shù)據(jù)分布調(diào)整上,有Chawla 等提出的一種通過(guò)創(chuàng)造合成Smin樣本來(lái)實(shí)現(xiàn)對(duì)少數(shù)類(lèi)過(guò)采樣的方法,稱之為SMOTE(Synthetic minority over?sampling technique)[4]方法,其主要思想是于每一個(gè)樣本xi∈Smin計(jì)算xi與Smin中其他樣本之間的歐氏距離,并返回xi的k個(gè)最近值。隨后根據(jù)全體樣本集合S的樣本不平衡情況,從少數(shù)類(lèi)集合中挑取2 個(gè)相鄰的樣本x及x?,并利用xnew=x+rand(0,1)(x?-x) 的計(jì)算方式構(gòu)造新數(shù)據(jù)。在SMOTE 方法的基礎(chǔ)上,Chawla 等將Boosting 方法結(jié)合起來(lái),提出了一種SMOTEBoost[5]方法,通過(guò)將SMOTE 方法應(yīng)用于每一個(gè)Boosting 過(guò)程中,對(duì)少數(shù)類(lèi)Smin中構(gòu)造新的樣本,間接改變了樣本分布的不均衡。SMOTE 算法從本質(zhì)上來(lái)看是一種過(guò)采樣的方法,它克服了過(guò)采樣的一些缺點(diǎn),通過(guò)數(shù)據(jù)增強(qiáng)的方法增加了原始數(shù)據(jù)。除此之外,改進(jìn)的算法還包括Borderline?SMOTE 算法[6]與ADASYN 算法[7]。

        在算法模型上,Domingos 等提出了一種基于代價(jià)敏感的學(xué)習(xí)算法[8],對(duì)于一個(gè)不平衡數(shù)據(jù)集,其不同的類(lèi)別i與j,Cost(i,j)表示類(lèi)別i劃分為類(lèi)別j模型所返回的損失。針對(duì)少數(shù)類(lèi)別Min,與 多 數(shù) 類(lèi) 別 Max。 一 般 情 況 下Cost(Max,Min) >Cost(Min,Max),因?yàn)樯贁?shù)類(lèi)的樣本數(shù)量較少,少數(shù)類(lèi)誤分類(lèi)所導(dǎo)致的代價(jià)往往要高于多數(shù)類(lèi)的誤分類(lèi)。代價(jià)敏感型學(xué)習(xí)的關(guān)鍵是應(yīng)用代價(jià)敏感矩陣[9?10],其核心思想是針對(duì)數(shù)據(jù)分布的特點(diǎn)以及一些先驗(yàn)知識(shí),對(duì)于不同的分類(lèi)結(jié)果,返回不同的損失,加強(qiáng)模型對(duì)于少數(shù)類(lèi)的學(xué)習(xí)效果。

        1.2 半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)[11?13]的核心思想在于充分利用有限的有標(biāo)記數(shù)據(jù),結(jié)合大量的無(wú)標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練,從而緩解有標(biāo)記數(shù)據(jù)樣本不充分導(dǎo)致的模型效果表現(xiàn)較差的問(wèn)題。自20 世紀(jì)90 年代起,在自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)需求的驅(qū)使下,半監(jiān)督學(xué)習(xí)取得了長(zhǎng)足的發(fā)展,半監(jiān)督學(xué)習(xí)的思想發(fā)端于Merz 等[14]。半監(jiān)督分類(lèi)學(xué)習(xí)中,Blum 和Mitchell 從基于差異的視角,提出協(xié)同訓(xùn)練方法[15],針對(duì)有標(biāo)記的數(shù)據(jù)從不同的視圖,構(gòu)造不同的屬性集,隨后利用這些集合進(jìn)行訓(xùn)練,從而得出不同的模型。然后利用上述模型對(duì)大量的無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)測(cè),并將置信度較高的結(jié)果交叉輸入到其他模型之中,反復(fù)迭代訓(xùn)練,直到滿足條件。該方法表明當(dāng)訓(xùn)練數(shù)據(jù)的視圖充分冗余時(shí),無(wú)標(biāo)記數(shù)據(jù)在不同學(xué)習(xí)器上的一致性能達(dá)到最大化,可以有效地降低誤分類(lèi)。從判別式方法的角度,半監(jiān)督學(xué)習(xí)利用最大間隔算法[16]訓(xùn)練模型,從而學(xué)習(xí)得出無(wú)標(biāo)記數(shù)據(jù)與有標(biāo)記數(shù)據(jù)之間的劃分邊界?;趫D的半監(jiān)督分類(lèi)方法主要通過(guò)基于流形假設(shè)[17]原理,構(gòu)建數(shù)據(jù)集中樣例之間的圖關(guān)系,隨后基于圖之間的關(guān)系實(shí)現(xiàn)標(biāo)記數(shù)據(jù)的有監(jiān)督信息向無(wú)監(jiān)督數(shù)據(jù)的傳播。首先基于圖的方法會(huì)選擇合適的距離計(jì)算樣例之間的距離,如歐氏距離、切比雪夫距離和馬氏距離等。隨后根據(jù)前述計(jì)算所得的距離選擇合適的連接方式,構(gòu)造樣例之間的連接圖。在圖構(gòu)造完成的基礎(chǔ)上利用核函數(shù)計(jì)算連接邊的權(quán)值,并利用這個(gè)權(quán)值衡量?jī)蓚€(gè)連接點(diǎn)之間的相似度。

        2 半監(jiān)督相似度量工業(yè)數(shù)據(jù)分類(lèi)算法

        2.1 問(wèn)題分析

        對(duì)于一個(gè)分類(lèi)任務(wù)而言,以二分類(lèi)任務(wù)為例,一個(gè)分類(lèi)效果良好的分類(lèi)器往往需要充分利用向好的正負(fù)樣本進(jìn)行學(xué)習(xí),從而學(xué)習(xí)出正負(fù)類(lèi)別中的特征θ。但是基于前文所述,在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中,經(jīng)常存在數(shù)據(jù)標(biāo)注難度大、數(shù)據(jù)樣本分布不均衡以及標(biāo)記信息有限等諸多問(wèn)題,以上問(wèn)題所導(dǎo)致的直接影響便是用于學(xué)習(xí)的標(biāo)記樣本其分布上存在著不均衡。

        基于樣本類(lèi)別分布不均衡的數(shù)據(jù)所訓(xùn)練得到的分類(lèi)器,往往會(huì)過(guò)擬合于不均衡數(shù)據(jù)集中的多數(shù)類(lèi)Smax,從而難以識(shí)別少數(shù)類(lèi)。這種情況下僅從準(zhǔn)確率的視角衡量模型的效果便不夠客觀,因?yàn)閿?shù)據(jù)集中多數(shù)類(lèi)樣本充分,可供學(xué)習(xí)的數(shù)據(jù)眾多,分類(lèi)器便能夠充分學(xué)習(xí)出多數(shù)類(lèi)中的特征θmax。但是這樣的分類(lèi)器在本質(zhì)上過(guò)擬合于多數(shù)類(lèi)Smax,分類(lèi)器幾乎無(wú)法識(shí)別出所有的少數(shù)類(lèi)Smin。在現(xiàn)實(shí)的應(yīng)用場(chǎng)景之中,對(duì)于不平衡數(shù)據(jù)而言,相比識(shí)別常見(jiàn)的多數(shù)類(lèi),識(shí)別出不平衡數(shù)據(jù)中的少數(shù)類(lèi)Smin往往更具有價(jià)值。

        本文所要處理的分類(lèi)任務(wù)來(lái)自于某一工業(yè)領(lǐng)域,在某一區(qū)域范圍之內(nèi)均勻散布了幾十萬(wàn)個(gè)傳感器,其中絕大部分?jǐn)?shù)據(jù)是無(wú)標(biāo)記數(shù)據(jù)。有標(biāo)記的數(shù)據(jù)劃分為兩類(lèi)結(jié)果,無(wú)顯示數(shù)據(jù)N與有顯示數(shù)據(jù)P,以及半監(jiān)督數(shù)據(jù)P',其中有顯示數(shù)據(jù)P為主要的識(shí)別目標(biāo),D為半監(jiān)督數(shù)據(jù)的篩選范圍,如圖1所示?;谄錁I(yè)務(wù)特點(diǎn),其所有的標(biāo)記數(shù)據(jù)中,有顯示數(shù)據(jù)P遠(yuǎn)遠(yuǎn)小于無(wú)顯示數(shù)據(jù)N,而且數(shù)據(jù)的標(biāo)簽信息的獲取,需要專業(yè)的工作人員現(xiàn)場(chǎng)在每一個(gè)傳感器安置點(diǎn)進(jìn)行施工采樣,驗(yàn)證傳感器放置點(diǎn)的現(xiàn)場(chǎng)狀況,才可以判斷該監(jiān)測(cè)點(diǎn)的標(biāo)記為有顯示點(diǎn)N,還是無(wú)顯示點(diǎn)P,所以數(shù)據(jù)的標(biāo)記信息十分有限,僅僅幾百條。該工業(yè)領(lǐng)域的業(yè)務(wù)人員表示,有顯示數(shù)據(jù)與無(wú)顯示數(shù)據(jù)往往是以范圍的形式存在,但是在有、無(wú)顯示的范圍內(nèi)僅僅以幾個(gè)傳感器的特征尤為明顯,并基于這些少數(shù)的傳感器進(jìn)行標(biāo)記正負(fù)情況。

        此工業(yè)數(shù)據(jù)分類(lèi)任務(wù)存在以下難題:(1)樣本數(shù)據(jù)眾多,但含有標(biāo)記信息樣本較少;(2)標(biāo)記數(shù)據(jù)中正負(fù)樣本比例差距大;(3)數(shù)據(jù)標(biāo)記難度大。

        本文提出一種基于相似度度量的半監(jiān)督分類(lèi)算法。其主要的方式是,圍繞任務(wù)目標(biāo)數(shù)據(jù)集中的少數(shù)類(lèi)Smin中的樣本,針對(duì)其中的每一個(gè)少數(shù)類(lèi)正例樣本smin,在smin周?chē)薅ǖ囊粋€(gè)區(qū)域,該區(qū)域范圍內(nèi)包的無(wú)標(biāo)記數(shù)據(jù)集合為D={,,…},對(duì)與區(qū)域內(nèi)的某一個(gè)樣本,其并不存在標(biāo)簽,隨后對(duì)D內(nèi)的所有數(shù)據(jù)進(jìn)聚類(lèi)。其核心思想是針對(duì)任務(wù)目標(biāo)數(shù)據(jù)中樣本數(shù)量比例差距較大的特點(diǎn),緩解分類(lèi)器在訓(xùn)練過(guò)程中過(guò)擬合于占比較大類(lèi)別的數(shù)據(jù)所導(dǎo)致的問(wèn)題。

        針對(duì)上述任務(wù)描述,在同業(yè)務(wù)人員的交流中得知,標(biāo)記為正例的數(shù)據(jù)其周?chē)臄?shù)據(jù)大概率也為正類(lèi),相同類(lèi)別的數(shù)據(jù)之間的相似性較高,隨后從聚類(lèi)結(jié)果中挑選與區(qū)域D內(nèi)正例標(biāo)記數(shù)據(jù)P最為相似的類(lèi)別集合P',將P'其作為可信正例集合,并以此擴(kuò)充正例樣本,緩解數(shù)據(jù)標(biāo)記集合中樣本分布不均衡的情況,最后利用擴(kuò)充集合中的數(shù)據(jù)進(jìn)行模型訓(xùn)練,并得出分類(lèi)器。

        2.2 基于K?means 聚類(lèi)相似度擴(kuò)展正例集合

        基于前文所述,有顯示數(shù)據(jù)P為數(shù)據(jù)集合中的少數(shù)類(lèi),由于標(biāo)記數(shù)據(jù)的難度較大,所以訓(xùn)練集中少數(shù)的有顯示數(shù)據(jù)P={p1,p2,…,pn},無(wú)法充分反映少數(shù)類(lèi)數(shù)據(jù)特征在全局狀態(tài)下對(duì)于全體少數(shù)類(lèi)集合P的分布。因此很有必要針對(duì)P進(jìn)行擴(kuò)充。

        本文使用K?means[18]聚類(lèi)算法對(duì)可信正類(lèi)數(shù)據(jù)P周?chē)臒o(wú)標(biāo)記數(shù)據(jù)集合D進(jìn)行聚類(lèi),依賴半監(jiān)督學(xué)習(xí)中的平滑假設(shè)[19]與聚類(lèi)假設(shè)[20]。所謂的平滑假設(shè)即位于數(shù)據(jù)稠密的區(qū)域中,距離相近的樣例,大概率擁有相同的類(lèi)標(biāo)簽。所謂的聚類(lèi)假設(shè),即處于相同類(lèi)簇樣例下的樣例,具有相同類(lèi)標(biāo)簽。

        存在兩個(gè)問(wèn)題需要明確:

        (1)如何制定一套機(jī)制,以確定K?means 算法中k的取值。對(duì)于一個(gè)有監(jiān)督分類(lèi)任務(wù)而言,數(shù)據(jù)需要被劃分的類(lèi)別是明確的。如圖2 所示,對(duì)于需要施加K?means 算法的數(shù)據(jù)集合D={},其標(biāo)簽集合也為L(zhǎng)abel = {P,N},類(lèi)別為2。如果直接設(shè)置k的取值為2,那么數(shù)據(jù)集合D將會(huì)很粗略地被劃分為兩個(gè)類(lèi)別,基于聚類(lèi)假設(shè)的原理,會(huì)將一個(gè)數(shù)量較大的類(lèi)簇劃歸為少數(shù)類(lèi),這種粗糙的少數(shù)類(lèi)數(shù)據(jù)擴(kuò)充方式,無(wú)疑會(huì)增加少數(shù)類(lèi)數(shù)據(jù)中的噪聲,以此數(shù)據(jù)進(jìn)行模型訓(xùn)練將會(huì)得到一個(gè)表現(xiàn)較差的分類(lèi)器。

        針對(duì)以上問(wèn)題,本文提出了一種基于K?means聚類(lèi)的相似度收斂算法。通過(guò)設(shè)置一組逐漸遞增的k值,隨著k值的遞增加,K?means 聚類(lèi)得到的類(lèi)別逐步精細(xì),當(dāng)k個(gè)類(lèi)別中與標(biāo)記數(shù)據(jù)P的距離開(kāi)始收斂的時(shí)候,停止k值的遞增,并將該類(lèi)別作為可信正例集合,其整體流程如圖3 所示。

        圖3 半監(jiān)督數(shù)據(jù)擴(kuò)充流程圖Fig.3 Flow chart of semi-supervised data expansion method

        以圖4 為例,其為某一標(biāo)記節(jié)點(diǎn)周?chē)嚯x其最近的K?means 聚類(lèi)數(shù)據(jù)分布變化圖,其中,k表示K?means 聚類(lèi)算法中k的取值,num 表示K?means聚類(lèi)結(jié)果中距離標(biāo)記節(jié)點(diǎn)最近集合中數(shù)據(jù)的數(shù)量,d表示該集合中距離標(biāo)記節(jié)點(diǎn)的平均距離??梢钥吹骄嚯x最近的數(shù)據(jù)始終圍繞在可信節(jié)點(diǎn)的周?chē)D5 展示了隨著K?means 中k值變化過(guò)程中,距離標(biāo)記節(jié)點(diǎn)最近的聚類(lèi)的可信樣本數(shù)量變化情況,以及與標(biāo)記節(jié)點(diǎn)的距離變化情況,可以看到距離與數(shù)量都是逐步下降并最終收斂。

        圖4 可信數(shù)據(jù)P 點(diǎn)K-means 聚類(lèi)變化圖Fig.4 K-means cluster change graph of trusted data point P

        圖5 聚類(lèi)數(shù)目以及距離變化圖Fig.5 Cluster number and distance change graph

        可以看到,利用上述方法可以得到穩(wěn)定的且距離不平衡數(shù)據(jù)中少數(shù)類(lèi)Smin最近的數(shù)據(jù)集合,這些原本沒(méi)有標(biāo)記的數(shù)據(jù)將作為半監(jiān)督學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)。

        算法1 基于K?means 聚類(lèi)的相似度收斂算法

        2.3 利用多種分類(lèi)算法進(jìn)行數(shù)據(jù)分類(lèi)

        為了有效驗(yàn)證利用K?means 聚類(lèi),并以此取得最相似數(shù)據(jù),從而進(jìn)行驗(yàn)證并比較半監(jiān)督分類(lèi)學(xué)習(xí)的算法效果。本文利用多種分類(lèi)算法進(jìn)行驗(yàn)證,包括一系列淺層模型與深度模型。其中淺層模型包含以下算法:KNN(K?nearest neighbor)決策樹(shù)、SVM(Support vector machine)和LR(Logistic re?gression)分類(lèi)器。深度學(xué)習(xí)分類(lèi)器包括:全連接神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)評(píng)價(jià)

        為了有效地評(píng)價(jià)模型的分類(lèi)效果,本文主要應(yīng)用到了準(zhǔn)確率(Accuracy)、召回率(Recall)以及標(biāo)準(zhǔn)的F1度量,式(2~4)中其他變量含義為:TP 表示數(shù)據(jù)自身為正例并被識(shí)別為正例;FN 表示數(shù)據(jù)自身為正例但是被識(shí)別為負(fù)例;FP 表示數(shù)據(jù)自身為負(fù)例但被識(shí)別為正例;TN 表示數(shù)據(jù)自身為負(fù)例并被識(shí)別為負(fù)例;Precision 表示精確率。其中準(zhǔn)確率主要衡量分類(lèi)器的預(yù)測(cè)結(jié)果中有多少是分類(lèi)正確的。但是基于不平衡數(shù)據(jù)集中樣本不均衡的問(wèn)題,僅僅使用準(zhǔn)確率無(wú)法客觀的評(píng)價(jià)模型的效果,所以模型還會(huì)參考召回率這一指標(biāo),以衡量對(duì)于少數(shù)類(lèi)的分類(lèi)效果。最后利用F1值綜合評(píng)價(jià)分類(lèi)器的效果。

        3.2 實(shí)驗(yàn)數(shù)據(jù)集

        本文所應(yīng)用到的數(shù)據(jù)集來(lái)自于某一工業(yè)領(lǐng)域,共包含傳感器采集的數(shù)據(jù)221 121 條,每一條數(shù)據(jù)包含30 個(gè)特征,其中包含標(biāo)記的數(shù)據(jù)僅有480 條,標(biāo)記數(shù)據(jù)中正例數(shù)據(jù)31 條,其余皆為負(fù)例。在此標(biāo)記數(shù)據(jù)的基礎(chǔ)上,利用前文所述的方法,圍繞著正例標(biāo)記數(shù)據(jù)構(gòu)造可信正例數(shù)據(jù)157 條。以上為本實(shí)驗(yàn)所應(yīng)用到的數(shù)據(jù)集。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        在實(shí)驗(yàn)過(guò)程中,采用如下方式進(jìn)行實(shí)驗(yàn),其中對(duì)于標(biāo)記數(shù)據(jù)集,將其中的80% 作為訓(xùn)練集,20%作為測(cè)試集。對(duì)于可信數(shù)據(jù)集,則只將其添加到訓(xùn)練集中,構(gòu)造半監(jiān)督訓(xùn)練集。實(shí)驗(yàn)過(guò)程中將分別利用訓(xùn)練集與半監(jiān)督訓(xùn)練集進(jìn)行模型訓(xùn)練,得出普通的分類(lèi)器與半監(jiān)督分類(lèi)器。然后利用測(cè)試集評(píng)價(jià)上述兩組分類(lèi)器的效果。為準(zhǔn)確衡量本文算法的效果,利用了多個(gè)分類(lèi)器來(lái)評(píng)判算法的效果。

        從表1 可以看出,傳統(tǒng)方法的準(zhǔn)確率明顯高于半監(jiān)督方法,但是傳統(tǒng)方法中除決策樹(shù)模型之外,其他模型的召回率與F1值均為0,這表明基于傳統(tǒng)方法訓(xùn)練得出的分類(lèi)器基本上過(guò)擬合于不平衡數(shù)據(jù)集中的多數(shù)類(lèi),并且模型不具有少數(shù)類(lèi)分類(lèi)的能力,而不平衡數(shù)據(jù)集中的少數(shù)類(lèi),往往是該類(lèi)型分類(lèi)任務(wù)重關(guān)注的重點(diǎn)。對(duì)比于半監(jiān)督方法,模型的召回率與F1值均有所提高,這表明半監(jiān)督方法相對(duì)于傳統(tǒng)模型,在對(duì)于數(shù)據(jù)集中的少數(shù)類(lèi)而言其識(shí)別率有所提高。

        表1 傳統(tǒng)與本文半監(jiān)督方法對(duì)比Table 1 Comparison of traditional and semi?supervised method

        4 結(jié)論

        本文提出了一種基于半監(jiān)督學(xué)習(xí)的工業(yè)數(shù)據(jù)分類(lèi)算法,該方法針對(duì)需某類(lèi)傳感器數(shù)據(jù)分類(lèi)任務(wù),在其標(biāo)記信息少、標(biāo)記難度大以及正負(fù)樣本分類(lèi)不均衡的情況下,創(chuàng)新地提出利用K?means 聚類(lèi)算法,將圍繞少數(shù)類(lèi)標(biāo)記數(shù)據(jù)中的數(shù)據(jù)進(jìn)行無(wú)監(jiān)督聚類(lèi),基于聚類(lèi)數(shù)據(jù)與少數(shù)類(lèi)標(biāo)記數(shù)據(jù)的相似度度量,構(gòu)造一批可信正例半監(jiān)督數(shù)據(jù),并將其用于模型訓(xùn)練,從而得到半監(jiān)督分類(lèi)器,經(jīng)多種分類(lèi)模型進(jìn)行半監(jiān)督訓(xùn)練測(cè)試驗(yàn)證,雖然模型的準(zhǔn)確率受到了一定的影響,但是模型在召回率與F1值的表現(xiàn)上明顯優(yōu)于傳統(tǒng)的方法,這表明本文方法有效地識(shí)別出了不平衡工業(yè)傳感器數(shù)據(jù)數(shù)據(jù)集中重點(diǎn)需要識(shí)別出的少數(shù)類(lèi),在真實(shí)的生產(chǎn)與應(yīng)用環(huán)境中具有一定的應(yīng)用價(jià)值。

        猜你喜歡
        分類(lèi)監(jiān)督模型
        一半模型
        分類(lèi)算一算
        重要模型『一線三等角』
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        監(jiān)督見(jiàn)成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        18禁黄网站禁片免费观看女女| 无码国产精品一区二区AV| 青草青草伊人精品视频| 男人的天堂av一二三区| 青青草视频免费在线播放| 国产女同舌吻1区2区| 国产精品成人观看视频国产奇米 | 波多野结衣av手机在线观看| 亚洲av第一成肉网| 夜夜欢性恔免费视频| 久久精品国产一区二区电影| 妞干网中文字幕| 国产激情小视频在线观看的| 两人前一后地插着她丰满| 帅小伙自慰videogay男男| 超清精品丝袜国产自在线拍| 亚洲中文有码字幕青青| 337p日本欧洲亚洲大胆色噜噜| 久久综合成人网| 九色精品国产亚洲av麻豆一| 国产精品亚洲综合久久| 蜜芽亚洲av无码精品色午夜| 亚洲国产成人片在线观看| 236宅宅理论片免费| 欧美一级视频精品观看| av超碰在线免费观看| 亚洲av激情久久精品人| 久久夜色精品国产噜噜噜亚洲av| 色欲一区二区三区精品a片 | 国产香蕉尹人在线观看视频| 国产一区曰韩二区欧美三区| 亚洲AV无码中文AV日韩A| 久久精品国产亚洲av沈先生| 亚洲第一幕一区二区三区在线观看 | 国产一区二区波多野结衣| 国产乱子伦精品无码码专区| 亚洲精品AⅤ无码精品丝袜无码| 国产一区二区三区在线观看蜜桃| 精品国产日韩一区2区3区| 精品国产免费一区二区三区 | 亚洲一区二区三区一区|