亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        挖掘數(shù)據(jù)模式結(jié)構(gòu)信息的混合數(shù)據(jù)分類方法

        2019-05-08 12:45:262
        計算機(jī)測量與控制 2019年4期
        關(guān)鍵詞:關(guān)聯(lián)分類信息

        2

        (1.常州輕工職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 江蘇 常州 213164;2.江南大學(xué) 數(shù)字媒體學(xué)院, 江蘇 無錫 214122)

        0 引言

        數(shù)據(jù)分類通過訓(xùn)練帶有標(biāo)簽信息的樣本生成分類模型以預(yù)測未標(biāo)記樣本的歸屬類別,是模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及統(tǒng)計學(xué)等領(lǐng)域最基本、最重要的問題之一。傳統(tǒng)的數(shù)據(jù)分類方法,如支持向量機(jī)(Support Vector Machine, SVM)[1-3]、隨機(jī)森林(Random Forest, RF)[4]、k近鄰算法(k-Nearest Neighbor, kNN)[5]、決策樹(C4.5)[6]以及樸素貝葉斯(Naive Bayesian, NB)[7]等,在訓(xùn)練階段利用數(shù)據(jù)的物理特征(如距離、相似性等)構(gòu)建數(shù)據(jù)分類模型,在分類階段,通過確定測試樣本與所建立數(shù)據(jù)分類模型之間的相似性預(yù)測測試樣本的真實標(biāo)簽類型。在大多數(shù)情況下,傳統(tǒng)的分類方法僅僅依靠數(shù)據(jù)之間的距離、相似度等物理特征信息構(gòu)建數(shù)據(jù)分類模型,事實上,實際數(shù)據(jù)集中的每個數(shù)據(jù)并不是孤立的,數(shù)據(jù)之間存在關(guān)聯(lián),數(shù)據(jù)整體上都會呈現(xiàn)一定的模式結(jié)構(gòu),而且數(shù)據(jù)模式結(jié)構(gòu)中蘊(yùn)含著豐富的數(shù)據(jù)關(guān)聯(lián)信息[8-10]。Thiago等[11]提出一種基于網(wǎng)絡(luò)的高層次數(shù)據(jù)分類方法,該方法在建立的復(fù)雜網(wǎng)絡(luò)中通過挖掘數(shù)據(jù)相互間的關(guān)聯(lián)信息探索網(wǎng)絡(luò)的同質(zhì)性、聚集系數(shù)以及度等網(wǎng)絡(luò)屬性捕捉隱藏的數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)信息,將數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)信息與數(shù)據(jù)物理特征相結(jié)合形成一種智能分類方法;Sun等[12]針對傳統(tǒng)推薦系統(tǒng)并未考慮社交網(wǎng)絡(luò)中各個用戶之間的關(guān)系,提出社交正則化方法整合用戶間的朋友等社交關(guān)系;Jiang等[13]研究時尚、建筑及漫畫等不同數(shù)據(jù)模式,針對現(xiàn)有大部分風(fēng)格分類方法從數(shù)據(jù)局部模式中提取的鑒別特征過于多樣化導(dǎo)致較差的分類性能,提出賦予不同特征相應(yīng)權(quán)重的一致風(fēng)格聚集自動編碼策略學(xué)習(xí)魯棒數(shù)據(jù)風(fēng)格特征表示。

        圖1展示了傳統(tǒng)分類方法用于實際數(shù)據(jù)分類過程中存在的不足。假設(shè)有一數(shù)據(jù)集包含三類數(shù)據(jù)A、B及C,運用傳統(tǒng)分類技術(shù)對這三類數(shù)據(jù)進(jìn)行訓(xùn)練并構(gòu)建數(shù)據(jù)分類模型。當(dāng)向已建好的數(shù)據(jù)分類器輸入測試樣本A1-t時(圖1(b)),由于傳統(tǒng)分類方法僅僅利用數(shù)據(jù)物理特征信息構(gòu)建數(shù)據(jù)分類器,從顏色特征角度看,測試樣本A1-t與B1、C1樣本有著相同的顏色特征,它們之間有著極高的相似度,此時A1-t將被歸為紅色一類而不能獲得真實的標(biāo)簽類型A。如果在構(gòu)建數(shù)據(jù)分類器的過程中還考慮到訓(xùn)練樣本之間的模式結(jié)構(gòu)關(guān)系,如從整體的角度看,A1、A2、A3它們都是圓,共同組成圓類A,它們之間的關(guān)聯(lián)比較密切。將樣本之間的關(guān)聯(lián)信息用于數(shù)據(jù)分類模型的建立,構(gòu)建的數(shù)據(jù)分類器將會正確地對測試樣本A1-t進(jìn)行分類。因此,將各種經(jīng)典的分類技術(shù)用于實際數(shù)據(jù)分類時除了應(yīng)考慮數(shù)據(jù)物理特征外還應(yīng)有效地結(jié)合數(shù)據(jù)間的關(guān)聯(lián)等這樣一層模式結(jié)構(gòu)關(guān)系,充分利用模式結(jié)構(gòu)關(guān)系中數(shù)據(jù)間的關(guān)聯(lián)作用信息,這樣才能符合實際狀況下數(shù)據(jù)分類并保證優(yōu)越分類性能。

        圖1 傳統(tǒng)分類方法的分類過程

        本文將僅僅利用數(shù)據(jù)物理特征信息的傳統(tǒng)分類技術(shù)作為普通分類方法,將挖掘并采用數(shù)據(jù)關(guān)聯(lián)信息的分類技術(shù)作為高級分類方法,基于這兩種類型的分類方法,針對數(shù)據(jù)間相互關(guān)聯(lián)的事實,提出一種挖掘數(shù)據(jù)模式結(jié)構(gòu)信息的混合數(shù)據(jù)分類方法(HDCM)。HDCM將輸入的訓(xùn)練樣本映射成復(fù)雜網(wǎng)絡(luò),在復(fù)雜網(wǎng)絡(luò)中挖掘數(shù)據(jù)模式結(jié)構(gòu)信息(網(wǎng)絡(luò)節(jié)點效率、影響力)用于構(gòu)建高級分類方法。使用任意一種傳統(tǒng)分類方法以及高級分類方法分別計算測試樣本對所有數(shù)據(jù)類型的隸屬度,利用模糊分類技術(shù)將測試樣本歸為具有最大隸屬度的數(shù)據(jù)類中,從而實現(xiàn)數(shù)據(jù)分類。由于HDCM考慮了數(shù)據(jù)關(guān)聯(lián)信息,數(shù)據(jù)分類的泛化性能也有了明顯提高。

        1 高級分類模型描述

        本文所提的數(shù)據(jù)分類模型由傳統(tǒng)分類方法和高級分類方法混合而成,這里主要介紹構(gòu)建高級分類模型的基礎(chǔ)工作,包括構(gòu)建k近鄰復(fù)雜網(wǎng)絡(luò)、確定有別于數(shù)據(jù)物理特征的數(shù)據(jù)模式結(jié)構(gòu)特征:網(wǎng)絡(luò)節(jié)點與子網(wǎng)絡(luò)的效率以及節(jié)點影響力。

        1.1 復(fù)雜網(wǎng)絡(luò)

        在建立復(fù)雜網(wǎng)絡(luò)用于數(shù)據(jù)分類的所有方法中,基于k近鄰算法的復(fù)雜網(wǎng)絡(luò)是最常使用的方法[8,11,14],且能夠方便、簡單地表達(dá)數(shù)據(jù)之間的關(guān)聯(lián),其過程可描述如下:對于輸入的整個訓(xùn)練集X={x1,x2,…,xN}中某一樣本xi,xi∈Rd,選取與其距離最小的前k個樣本xj,這里的距離為歐氏距離。如果樣本xi與樣本xj有相同標(biāo)簽,即Lxi=Lxj,則樣本xi可關(guān)聯(lián)于樣本xj,記為xi→xj,對應(yīng)于復(fù)雜網(wǎng)絡(luò)則可建立節(jié)點i到節(jié)點j的有向邊eij,節(jié)點i為有向邊eij的起始點,節(jié)點j為有向邊eij的結(jié)束點。賦予復(fù)雜網(wǎng)絡(luò)中不同有向邊相應(yīng)權(quán)重ωij,使得當(dāng)節(jié)點間的距離越小時權(quán)重ωij越大,權(quán)重ωij定義如下:

        (1)

        其中:ωij取值范圍為(0,1),N為復(fù)雜網(wǎng)絡(luò)所有節(jié)點數(shù),即訓(xùn)練樣本總數(shù),dij為節(jié)點i與節(jié)點j之間的距離。

        當(dāng)輸入的數(shù)據(jù)集包含L類數(shù)據(jù),即C={c1,c2,…,cL},由利用k近鄰算法建立復(fù)雜網(wǎng)絡(luò)的過程可知,建立的復(fù)雜網(wǎng)絡(luò)包含L個子網(wǎng)絡(luò),即CN={cn1,cn2,…,cnL},且子網(wǎng)絡(luò)之間無關(guān)聯(lián),網(wǎng)絡(luò)中每個節(jié)點i與樣本xi相對應(yīng)。

        1.2 模式結(jié)構(gòu)效率特征

        除了顏色、距離等物理特征信息外,數(shù)據(jù)的模式結(jié)構(gòu)關(guān)系中蘊(yùn)含著豐富的數(shù)據(jù)關(guān)聯(lián)信息[15-17],應(yīng)該挖掘并將數(shù)據(jù)關(guān)聯(lián)信息用于數(shù)據(jù)分類。如上述描述傳統(tǒng)方法分類的例子中(圖1),如果僅依據(jù)顏色可將數(shù)據(jù)分為紅、綠、藍(lán)三類,建立的分類模型將不能正確分類測試樣本A1-t,若進(jìn)一步考慮數(shù)據(jù)間的關(guān)聯(lián)作用,可將數(shù)據(jù)分為圓、正方形、正六邊形三類,按照2.1節(jié)可建立圓之間的連接、正方形之間的連接以及正六邊形之間的連接三個子網(wǎng)絡(luò)組成復(fù)雜網(wǎng)絡(luò),從而建立的分類模型可使得測試樣本A1-t獲得真實標(biāo)簽類型。賦予復(fù)雜網(wǎng)絡(luò)中每個節(jié)點效率概念以區(qū)別網(wǎng)絡(luò)中的其他節(jié)點,建立數(shù)據(jù)模式結(jié)構(gòu)關(guān)系中的網(wǎng)絡(luò)效率特征。社交網(wǎng)絡(luò)中最常采用PageRank方法[18-19]計算網(wǎng)絡(luò)節(jié)點的聲譽(yù),其基本思想是網(wǎng)絡(luò)中某個節(jié)點連接其他節(jié)點數(shù)越多,說明該節(jié)點聲譽(yù)越高;網(wǎng)絡(luò)中其他節(jié)點連接某個節(jié)點越多,說明該節(jié)點聲譽(yù)越高,本文復(fù)雜網(wǎng)絡(luò)的節(jié)點效率計算方法正是源于PageRank方法。為了充分考慮節(jié)點之間的關(guān)聯(lián)作用,對于復(fù)雜網(wǎng)絡(luò)中節(jié)點i的效率定義如下:

        (2)

        (3)

        (4)

        (5)

        其中:Ni代表以節(jié)點i為起始點的有向邊個數(shù),Nk代表以節(jié)點i為結(jié)束點的有向邊個數(shù),Nd代表節(jié)點i與其他節(jié)點相關(guān)聯(lián)的有向邊個數(shù),即Nd=Ni+Nk,ξ為一較小值,賦予離群點或噪聲點較小的效率,其對于分類樣本所起的作用可忽略不計。

        當(dāng)計算出復(fù)雜網(wǎng)絡(luò)每個節(jié)點效率后,與訓(xùn)練集每一類數(shù)據(jù)相對應(yīng)的子網(wǎng)絡(luò)cnl效率便可確定,子網(wǎng)絡(luò)效率定義如下:

        (6)

        其中:φcnl代表與訓(xùn)練集第cl類數(shù)據(jù)相對應(yīng)的子網(wǎng)絡(luò)cnl的效率,Ncnl為子網(wǎng)絡(luò)cnl包含的節(jié)點個數(shù)。復(fù)雜網(wǎng)絡(luò)中節(jié)點及子網(wǎng)絡(luò)的效率為基于挖掘數(shù)據(jù)模式結(jié)構(gòu)信息的高級分類模型預(yù)測測試樣本標(biāo)簽提供可靠依據(jù),2.4節(jié)將有詳細(xì)內(nèi)容介紹。

        1.3 模式結(jié)構(gòu)影響力特征

        在利用數(shù)據(jù)模式結(jié)構(gòu)信息建立高級分類模型的過程中,訓(xùn)練集中的每個數(shù)據(jù)樣本對分類未標(biāo)記測試樣本所起的作用大小各不相同,有的數(shù)據(jù)樣本對預(yù)測結(jié)果可能起決定性作用,有的數(shù)據(jù)樣本影響力可能很弱[18-19]。這里定義復(fù)雜網(wǎng)絡(luò)節(jié)點影響力如下:

        (7)

        公式(7)中1/N表示訓(xùn)練樣本是均勻分布的,而大多情況下實際數(shù)據(jù)集中的數(shù)據(jù)并不是均勻分布,每一個數(shù)據(jù)樣本在一定距離范圍內(nèi)被不同個數(shù)的其他數(shù)據(jù)樣本所包圍[21],類似的,復(fù)雜網(wǎng)絡(luò)中的節(jié)點在一定距離范圍內(nèi)被不同個數(shù)的其他節(jié)點所包圍,由此產(chǎn)生節(jié)點在整個網(wǎng)絡(luò)中的濃度概念。復(fù)雜網(wǎng)絡(luò)中第i個節(jié)點濃度定義為:

        (8)

        其中:dc代表截斷距離,可根據(jù)實際的數(shù)據(jù)分類效果手動確定,或者使節(jié)點在dc距離范圍內(nèi)被占復(fù)雜網(wǎng)絡(luò)節(jié)點總數(shù)3%~5%的其他節(jié)點包圍[21],當(dāng)dij-dc<0時χ(·)=1,否則χ(·)=0。在復(fù)雜網(wǎng)絡(luò)中以傳播節(jié)點濃度的方式計算每個節(jié)點在整個網(wǎng)絡(luò)中的真實影響力大小,定義如下:

        (9)

        當(dāng)滿足以下迭代條件時計算節(jié)點真實影響力的迭代過程將會停止。

        (10)

        其中:θ的取值可根據(jù)實際數(shù)據(jù)集分類的效果手動選取,根據(jù)大量的實驗結(jié)果表明θ=10-4即可。

        1.4 高級分類技術(shù)

        經(jīng)典的數(shù)據(jù)分類技術(shù)利用數(shù)據(jù)間的距離、相似性等物理特征實現(xiàn)數(shù)據(jù)分類,典型的方法如SVM及其改進(jìn)方法。但是,實際數(shù)據(jù)集數(shù)據(jù)樣本之間總會存在關(guān)聯(lián),當(dāng)將數(shù)據(jù)集映射成復(fù)雜網(wǎng)絡(luò)時這樣的關(guān)聯(lián)便顯而易見,整體上數(shù)據(jù)樣本具有一定的模式結(jié)構(gòu)關(guān)系,并不是數(shù)據(jù)越靠近哪一類,它的標(biāo)簽就與該類相同,還應(yīng)考慮數(shù)據(jù)的模式結(jié)構(gòu)信息來確定數(shù)據(jù)的真實標(biāo)簽類型[8,22]。本文結(jié)合復(fù)雜網(wǎng)絡(luò)在數(shù)據(jù)分類方面存在的優(yōu)勢,充分挖掘并利用蘊(yùn)含在模式結(jié)構(gòu)關(guān)系中的數(shù)據(jù)關(guān)聯(lián)信息實現(xiàn)高級分類技術(shù),定義如下:

        (11)

        其中:εcnl代表子網(wǎng)絡(luò)cnl的效率,dtj為測試樣本t與節(jié)點j間的歐氏距離,γ為平衡系數(shù),用于平衡數(shù)據(jù)物理特征和數(shù)據(jù)模式結(jié)構(gòu)關(guān)系之間的作用,γ越大則說明數(shù)據(jù)模式結(jié)構(gòu)關(guān)系作用越大,反之則說明數(shù)據(jù)物理特征作用越大。

        當(dāng)輸入一個未標(biāo)記測試樣本時,高級分類技術(shù)將依據(jù)Λt,j確定未標(biāo)記測試樣本與每個子網(wǎng)絡(luò)的連接集,定義如下:

        Ωcnl={j|j∈cnl&Λt,j>0}

        (12)

        兩種情況可將子網(wǎng)絡(luò)cnl中的節(jié)點j加入到連接集Ωcnl中:1)當(dāng)測試樣本與子網(wǎng)絡(luò)cnl中節(jié)點j的Λt,j大于0時將節(jié)點j加入連接集Ωcnl中;2)當(dāng)測試樣本與每個子網(wǎng)絡(luò)cnl中節(jié)點的Λt,j都小于0時,則將與最接近于0的Λt,j對應(yīng)的節(jié)點j加入到連接集Ωcnl中。高級分類模型將依據(jù)測試樣本與子網(wǎng)絡(luò)連接集影響力之和來判斷測試樣本標(biāo)簽類別,最大連接集影響力之和定義如下:

        (13)

        高級分類模型將未標(biāo)記測試樣本歸為與具有最大影響力之和的連接集所對應(yīng)的類別中。

        如圖2所示演示了高級分類方法的詳細(xì)分類過程。針對第2節(jié)高級分類模型的描述可知,高級分類方法涉及3個參數(shù),即k近鄰算法中的參數(shù)k,截斷距離dc以及平衡系數(shù)γ。圖2中3個參數(shù)分別設(shè)置為k=2、dc=3及γ=0.3。圖2(a)為利用k近鄰算法建立的復(fù)雜網(wǎng)絡(luò),包含兩個獨立的子網(wǎng)絡(luò):“■”類,標(biāo)簽為0;“·”類,標(biāo)簽為1。圖2(b)展示了節(jié)點的屬性內(nèi)容:部分節(jié)點之間的歐氏距離(如d12=0.81)及節(jié)點的度(如deg2=3),可用于計算節(jié)點的效率。圖2(c)為利用公式(2) ~ (5)計算出的節(jié)點效率(如ε1=1.76)及利用公式(6)計算出的子網(wǎng)絡(luò)效率(如“■”類:φ0=1.57)。圖2(d)展示了復(fù)雜網(wǎng)絡(luò)中每個節(jié)點的影響力(如In1=0.60);根據(jù)公式(11)可建立測試樣本(“▲”)與每個子網(wǎng)絡(luò)的連接集,如圖2(e)所示。最終將測試樣本歸入到與具有最大連接集節(jié)點影響力之和對應(yīng)的類中,如圖2(f)所示預(yù)測測試樣本的標(biāo)簽類型為0。

        圖2 高級分類方法分類示例

        2 混合數(shù)據(jù)分類方法

        本文混合數(shù)據(jù)分類方法由普通分類方法和高級分類方法混合而成,一方面,普通分類方法(如SVM、RF及kNN等)依據(jù)數(shù)據(jù)的物理特征(如距離、相似性等)訓(xùn)練數(shù)據(jù)分類模型并預(yù)測測試樣本的標(biāo)簽類型;另一方面,高級分類方法首先根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)作用將訓(xùn)練樣本映射成復(fù)雜網(wǎng)絡(luò),在復(fù)雜網(wǎng)絡(luò)中挖掘節(jié)點(每一個節(jié)點與數(shù)據(jù)樣本相對應(yīng))的模式結(jié)構(gòu)特征:節(jié)點及子網(wǎng)絡(luò)效率和節(jié)點影響力,當(dāng)輸入一個測試樣本時,根據(jù)高級分類技術(shù)(式(11))建立測試樣本與每個子網(wǎng)絡(luò)的連接集,最終將測試樣本歸為與具有最大影響力之和的連接集相對應(yīng)的類中。所提混合分類模型定義如下:

        (14)

        (15)

        (16)

        本文混合數(shù)據(jù)分類方法一方面能夠在建立的復(fù)雜網(wǎng)絡(luò)中探索并挖掘數(shù)據(jù)模式結(jié)構(gòu)信息用于數(shù)據(jù)訓(xùn)練與分類;另一方面由公式(11)可知,從數(shù)據(jù)物理特征的角度,當(dāng)一個測試樣本的物理特征(如距離)與訓(xùn)練樣本中的任何一類數(shù)據(jù)都不相似時,高級分類方法將起主要作用,從數(shù)據(jù)模式結(jié)構(gòu)關(guān)系的角度,當(dāng)一個測試樣本的結(jié)構(gòu)并不遵從訓(xùn)練樣本中任何一類數(shù)據(jù)的結(jié)構(gòu)關(guān)系時,普通分類方法將起主要作用。

        3 實驗與結(jié)果

        為了驗證所提混合數(shù)據(jù)分類方法的分類性能及其有效性,實驗采用對比的方式將該方法與模糊SVM[1]、模糊C4.5[6]、加權(quán)的kNN[23]、模糊分類方法0-階TSK及1-階TSK[24-25]分別在人造數(shù)據(jù)集以及UCI真實數(shù)據(jù)集上進(jìn)行實驗,通過實驗結(jié)果與分析突出所提混合分類方法與傳統(tǒng)分類方法的區(qū)別。其中,SVM采用線性及高斯兩種核類型的算法,為了公平起見,所有對比算法涉及的參數(shù)均采用網(wǎng)格搜索結(jié)合交叉驗證的方法進(jìn)行確定。所有對比算法均在Matlab軟件平臺上實現(xiàn)程序編寫并在配置有處理器為Intel(R) Core(TM) i3-3240、CPU主頻為3.40 GHz、內(nèi)存大小為4.00 G、操作系統(tǒng)為windows 7 ultimate system的臺式電腦上進(jìn)行仿真。

        3.1 高級分類方法

        為了詳細(xì)地了解所提高級分類方法的分類性能,組織5組高斯數(shù)據(jù)集實驗,如圖3所示,每組高斯數(shù)據(jù)集包含3類數(shù)據(jù),具有各自的數(shù)據(jù)模式結(jié)構(gòu),3類數(shù)據(jù)分別被標(biāo)記為“·”類、“■”類及“▲”類,類之間有不同程度的交叉重疊,如圖3(e)所示的高斯數(shù)據(jù)集中3類數(shù)據(jù)的交叉程度已達(dá)到80%,根據(jù)我們的知識和經(jīng)驗,這對于傳統(tǒng)分類技術(shù)是一項十分具有挑戰(zhàn)性的分類任務(wù)。

        圖3 5組高斯數(shù)據(jù)集

        圖4分別展示了利用高級分類技術(shù)對5組高斯數(shù)據(jù)集不同參數(shù)組合下的數(shù)據(jù)分類結(jié)果,其中,k的取值范圍為[1,15][11],截斷距離dc使得復(fù)雜網(wǎng)絡(luò)中每個節(jié)點被周圍占節(jié)點總數(shù)3%~5%的其他節(jié)點包圍[21],取值范圍為[0.01,0.1],設(shè)定平衡系數(shù)γ的取值范圍為[0.1,1.5]。圖中“Acc”代表分類精度,顏色條從下至上代表分類精度越來越高,所有實驗結(jié)果均為運行程序10次后取得的平均結(jié)果。由圖4實驗結(jié)果可知,隨著數(shù)據(jù)交叉程度的增加,數(shù)據(jù)分類精度逐漸降低,當(dāng)數(shù)據(jù)交叉程度達(dá)到80%,由于能夠挖掘并利用數(shù)據(jù)模式結(jié)構(gòu)信息,所提高級分類方法依然能夠取得較高的分類精度(如圖4(e)所示的最高分類精度為70%),充分彰顯了所提高級分類方法魯棒的分類性能。

        圖4 5組高斯數(shù)據(jù)集不同參數(shù)組合下的分類結(jié)果

        3.2 人造數(shù)據(jù)集仿真

        挖掘并將數(shù)據(jù)模式結(jié)構(gòu)信息用于數(shù)據(jù)分類的HDCM通過混合傳統(tǒng)分類方法和高級分類方法兩種類型的分類技術(shù)來彌補(bǔ)傳統(tǒng)分類方法僅僅采用數(shù)據(jù)物理特征進(jìn)行模型訓(xùn)練及分類的缺陷。HDCM包含的兩種不同類型分類技術(shù)在數(shù)據(jù)分類過程中所起的作用不同,如圖5所示,當(dāng)數(shù)據(jù)之間關(guān)聯(lián)緊密,數(shù)據(jù)具有典型的模式結(jié)構(gòu)時(藍(lán)色“■”類),HDCM在分類過程中將以高級分類方法為主導(dǎo),即公式(14)中參數(shù)λ的取值偏大。這里將通過圖5所示的數(shù)據(jù)集具體地演示參數(shù)λ如何平衡HDCM中兩種不同類型分類器對數(shù)據(jù)分類所起的作用。圖5所示的數(shù)據(jù)集“·”類包含500個樣本,“■”類包含的樣本數(shù)為40,實驗中選取廣泛使用的SVM作為比較算法[1],算法相關(guān)參數(shù)設(shè)置如下:對于線性SVM,懲罰系數(shù)C=28;高斯型SVM中懲罰系數(shù)C=28,核寬度σ=2-3;混合分類方法中截斷距離dc=1,參數(shù)k=5以及公式(11)中平衡系數(shù)γ=0.1。表1記錄了參數(shù)λ取不同值時采用不同分類方法計算的測試樣本(“▲”)對于數(shù)據(jù)集中不同類數(shù)據(jù)的隸屬度,其中,普通分類方法對應(yīng)Blue列,HDCM對應(yīng)Red列。

        圖5 HDCM的解釋性示例

        由圖5可知,“·”類的樣本數(shù)明顯多于“■”類,且測試樣本距離“·”類較近,如果使用傳統(tǒng)分類方法,測試樣本將被錯誤地歸入到“·”類,即屬于“·”類的模糊隸屬度較大,如表1中當(dāng)λ=0。隨著λ值逐漸變大,混合分類方法中傳統(tǒng)分類方法的作用逐漸減弱,由于“■”類數(shù)據(jù)呈現(xiàn)明顯的模式結(jié)構(gòu),且HDCM能夠有效地挖掘數(shù)據(jù)之間的關(guān)聯(lián)作用信息并用于數(shù)據(jù)分類,因此,HDCM能夠精確地預(yù)測測試樣本的真實標(biāo)簽類型。結(jié)合圖5和表1可知,當(dāng)使用某種分類方法進(jìn)行分類時,測試樣本并不一定屬于距離它較近的數(shù)據(jù)類,還應(yīng)該考慮數(shù)據(jù)之間的關(guān)聯(lián)。

        表1 不同λ值對分類的影響

        挖掘數(shù)據(jù)模式結(jié)構(gòu)信息的混合數(shù)據(jù)分類方法在考慮數(shù)據(jù)物理特征的基礎(chǔ)上,還通過構(gòu)建復(fù)雜網(wǎng)絡(luò)并探索數(shù)據(jù)的模式結(jié)構(gòu),并將數(shù)據(jù)模式結(jié)構(gòu)信息用于數(shù)據(jù)分類。這里利用三組人造數(shù)據(jù)集來驗證HDCM的數(shù)據(jù)分類性能。三組人造數(shù)據(jù)集分別為Circles、Moons以及Rectangle,如圖6所示,Circles中三類包含的樣本數(shù)分別為2001、1001及601;Moons中兩類包含的樣本數(shù)分別為1001、501;Rectangle中兩類包含的樣本數(shù)分別為500、1000。每組數(shù)據(jù)集中的數(shù)據(jù)呈現(xiàn)明顯的模式結(jié)構(gòu),分別為圓、月牙形以及長方形,不同數(shù)據(jù)類之間有重復(fù)交叉且包含不平衡樣本數(shù),即一類包含的樣本數(shù)明顯多于另一類,如Moons中左類樣本數(shù)為1001,而右類樣本數(shù)只有501,這樣的數(shù)據(jù)集對于傳統(tǒng)分類方法具有一定挑戰(zhàn)性。

        圖6 三組人造數(shù)據(jù)集

        數(shù)據(jù)集方法SVM(Linear)(C)SVM(Gaussian)(C,σ)Circles單一90.27±0.43(210)89.58±0.11(1,212)混合96.24±3.87(4,0.2,0.9)95.78±0.24(8,0.2,0.9)Moons單一92.33±1.98(211)88.33±0.71(28,210)混合94.34±1.78(5,0.1,0.8)93.82±2.24(6,0.1,0.8)Rectangle單一95.00±1.52(29)96.00±1.52(22,29)混合97.10±3.31(4,0.2,0.9)97.34±2.49(5,0.3,0.8)

        實驗中,對于每一組人造數(shù)據(jù)集,隨機(jī)選取樣本總數(shù)的80%作為訓(xùn)練樣本,其余作為測試樣本。仍然選取最為經(jīng)典的分類方法SVM作為比較方法,這里使用模糊SVM方法[1]。針對Circles、Moons以及Rectangle,HDCM中截斷距離dc大小具體設(shè)置為0.7、0.1及0.2,算法涉及最優(yōu)參數(shù)經(jīng)網(wǎng)格搜索結(jié)合5折交叉驗證的方法獲得,具體參數(shù)設(shè)置如表2所示。實驗所得數(shù)據(jù)為運行程序5次后的平均結(jié)果。

        表2列出了所有對比算法在人造數(shù)據(jù)集上的詳細(xì)數(shù)據(jù)分類結(jié)果,其中,“單一”表示只使用某一種傳統(tǒng)方法進(jìn)行數(shù)據(jù)分類,“混合”表示使用本文HDCM進(jìn)行數(shù)據(jù)分類,分類精度及其標(biāo)準(zhǔn)差、算法最優(yōu)參數(shù)分別表示為**±**(**)。

        由于圖6三組人造數(shù)據(jù)集中的數(shù)據(jù)之間關(guān)聯(lián)緊密,數(shù)據(jù)整體上呈現(xiàn)典型的模式結(jié)構(gòu),即使在發(fā)生明顯數(shù)據(jù)重疊的情況下,使用本文所提的混合數(shù)據(jù)分類技術(shù)取得的分類結(jié)果普遍優(yōu)于傳統(tǒng)分類方法。人造數(shù)據(jù)集上的實驗結(jié)果表明HDCM能夠有效地挖掘數(shù)據(jù)之間的關(guān)聯(lián)信息,也正因為將數(shù)據(jù)模式結(jié)構(gòu)信息用于分類模型的訓(xùn)練及數(shù)據(jù)分類,使得HDCM具備良好的數(shù)據(jù)分類性能。

        3.3 真實數(shù)據(jù)集仿真

        除了人造數(shù)據(jù)集仿真實驗,本文還將HDCM在UCI真實數(shù)據(jù)集[26]上進(jìn)行實驗,觀察所提混合分類方法的實際分類性能。UCI真實數(shù)據(jù)集的詳細(xì)介紹如表3所示,其中,數(shù)據(jù)集中的樣本數(shù)范圍為178 ~ 4174,最大和最小的數(shù)據(jù)特征維數(shù)分別為3、18,數(shù)據(jù)集包含的類別數(shù)最小為2,最大為28。綜上所述,所選取的真實數(shù)據(jù)集配置符合驗證HDCM實際分類性能的需求。

        表3 UCI真實數(shù)據(jù)集

        實驗中,對于每一組真實數(shù)據(jù)集,隨機(jī)選取樣本總數(shù)的80%作為訓(xùn)練樣本,其余當(dāng)作測試樣本。所有對比算法參數(shù)設(shè)置作如下介紹:HDCM算法共涉及四個參數(shù),即高級分類方法中的k、dc、γ以及混合分類技術(shù)中用于平衡數(shù)據(jù)物理特征與模式結(jié)構(gòu)關(guān)系特征作用的系數(shù)λ。由于截斷距離dc使得復(fù)雜網(wǎng)絡(luò)中的節(jié)點被占節(jié)點總數(shù)3%~5%的其他節(jié)點包圍,這里主要設(shè)置參數(shù)k、γ及λ。根據(jù)大量的實驗結(jié)果,k、γ及λ的取值可分別在{1,2,…,14,15}、{0.1,0.2,…,2.9,3}以及{0,0.1,…,0.9,1}范圍內(nèi)進(jìn)行搜索,另外,針對參數(shù)dc,表1中的真實數(shù)據(jù)集從上往下分別設(shè)置為3.3、0.08、2.9、4.1、0.6、0.2以及0.8。線性SVM中的懲罰系數(shù)C取值范圍為{2-3,2-2,…,211,212},高斯型SVM的性能除了與懲罰系數(shù)C相關(guān)外,還與核寬度σ的設(shè)置有關(guān),其取值范圍為{2-3,2-2,…,211,212}。加權(quán)的k近鄰算法中參數(shù)k的設(shè)置與HDCM相同,其分類結(jié)果主要取決于測試樣本與其所有近鄰的加權(quán)之和,這里的權(quán)值大小為測試樣本與其近鄰之間歐氏距離的倒數(shù)。經(jīng)典模糊分類方法TSK的數(shù)據(jù)分類性能主要與模糊規(guī)則數(shù)R及正則化參數(shù)τ相關(guān),實驗中這兩個參數(shù)的取值搜索范圍分別設(shè)置為{5,10,…,195,200}及{10-5,10-4,…,104,105}。模糊C4.5[6]及對比算法的其他參數(shù)均采用默認(rèn)設(shè)置。實驗中的算法最優(yōu)參數(shù)均由網(wǎng)格搜索結(jié)合5折的交叉驗證方法確定,實驗數(shù)據(jù)為運行程序15次后取得的平均結(jié)果,分類精度及其標(biāo)準(zhǔn)差、算法最優(yōu)參數(shù)分別表示為**±**(**)。表4給出的混合分類方法最優(yōu)參數(shù)為(k,γ,λ),“-” 代表參數(shù)的取值為空,表明HDCM中高級分類方法對分類結(jié)果未起作用。另外,為了探討高級分類方法的實際分類性能,表4最后一列給出在UCI真實數(shù)據(jù)集上單一使用高級分類方法的分類效果,“---”表示無需使用HDCM進(jìn)行分類。

        如表4所示,通過對比算法在UCI真實數(shù)據(jù)集上的實驗結(jié)果可得出以下幾點分析:1)當(dāng)傳統(tǒng)分類方法與HDCM所取得的數(shù)據(jù)分類結(jié)果一致時,在混合分類技術(shù)分類過程中傳統(tǒng)分類方法將起主導(dǎo)作用,HDCM可智能地弱化高級分類方法的作用,即公式(14)中的參數(shù)λ=0,如高斯型SVM對于數(shù)據(jù)集Vehicle、加權(quán)的kNN對于數(shù)據(jù)集Contraceptive等;2)當(dāng)傳統(tǒng)分類方法在真實數(shù)據(jù)集上所取得的分類精度較低時,公式(14)中參數(shù)λ的值將等于或接近1,HDCM中的高級分類方法將對預(yù)測測試樣本的標(biāo)簽類型起決定性作用,如線性SVM對于數(shù)據(jù)集Abalone、加權(quán)的kNN對于數(shù)據(jù)集Contraceptive、模糊C4.5對于數(shù)據(jù)集Abalone等;3)對于每一組真實數(shù)據(jù)集,混合分類方法都給出了不同的γ值,表明數(shù)據(jù)集中數(shù)據(jù)之間的確存在關(guān)聯(lián)作用信息,且所提方法能夠有效挖掘并利用這些不同于數(shù)據(jù)物理特征的數(shù)據(jù)信息來提高傳統(tǒng)分類方法的分類性能;4)當(dāng)單一使用高級分類方法時,通過與普通分類方法相比較,高級分類方法表現(xiàn)出了具有競爭力的分類性能,表明挖掘并使用數(shù)據(jù)模式結(jié)構(gòu)信息確實能夠有助于改善分類方法的性能。

        表5給出了兩種典型的傳統(tǒng)分類器與所提分類技術(shù)在數(shù)據(jù)集Wine、Contraceptive以及Haberman上的算法運行時間對比。由表2結(jié)合表4可知HDCM分類精度均高于普

        表5 算法運行時間分析

        通分類方法,但由于所提混合數(shù)據(jù)分類方法結(jié)合普通分類方法與高級分類方法,因此,從算法復(fù)雜度角度,HDCM并不占明顯優(yōu)勢。

        3.4 工業(yè)應(yīng)用案例

        本文還進(jìn)行工業(yè)應(yīng)用案例分析,將HDCM應(yīng)用于人臉識別。如圖7所示,選取的6組人臉圖像來自Pointing’04 ICPR Workshop[27],它所包含的人臉圖像均為基準(zhǔn)的人臉識別數(shù)據(jù)集。每一組人臉圖像包含15幅序列圖像,圖像中的人臉姿勢以15°的間隔在[-90° 90°]范圍內(nèi)變化,實驗中選取序列圖像的前7或者后7幅圖像組成人臉圖像數(shù)據(jù)集。每一幅人臉圖像的分辨率定為80(120,且利用主成分分析法(Principle Component Analysis, PCA)對圖像特征進(jìn)行降維[28],根據(jù)實驗效果維度大小設(shè)置為30。實驗中選取每一組人臉圖像的前5幅作為訓(xùn)練樣本,其他圖像作為測試樣本。由圖7可知,由于每個人臉的特征不同(如發(fā)型、面部表情等),且每個人臉姿勢或朝右或朝左,因此,對應(yīng)于每個不同人臉的數(shù)據(jù)整體上會呈現(xiàn)明顯的模式結(jié)構(gòu),十分適合驗證挖掘并利用數(shù)據(jù)模式結(jié)構(gòu)信息的混合分類方法的有效性及其分類性能。實驗中,HDCM的參數(shù)dc=6,對比算法給出的所有最優(yōu)參數(shù)均由網(wǎng)格搜索結(jié)合5折的交叉驗證方法獲得,實驗數(shù)據(jù)為運行程序15次后所取的平均結(jié)果(表4最后一行數(shù)據(jù))。

        圖7 人臉識別數(shù)據(jù)集

        由實驗結(jié)果可知,SVM等傳統(tǒng)分類方法因在構(gòu)建分類模型以及分類的過程中依賴單一的數(shù)據(jù)物理特征而忽略了數(shù)據(jù)之間存在關(guān)聯(lián)信息的事實,在人臉識別數(shù)據(jù)集上的分類精度明顯低于所提的混合分類方法,尤其當(dāng)使用0-階TSK及1-階TSK模糊分類方法時實驗對比效果更加明顯。人臉識別數(shù)據(jù)集上的對比實驗結(jié)果充分證明了HDCM不僅能夠挖掘數(shù)據(jù)之間的關(guān)聯(lián)信息、識別數(shù)據(jù)的模式結(jié)構(gòu)關(guān)系,而且可有效地結(jié)合傳統(tǒng)分類方法和高級分類方法兩種不同類型的分類技術(shù)進(jìn)行數(shù)據(jù)分類。

        4 結(jié)束語

        數(shù)據(jù)集中數(shù)據(jù)之間往往存在關(guān)聯(lián),數(shù)據(jù)并不是孤立的存在,在構(gòu)建數(shù)據(jù)分類模型以及分類的過程中應(yīng)考慮這樣一種有別于數(shù)據(jù)物理特征的數(shù)據(jù)關(guān)聯(lián)信息。本文所提的混合數(shù)據(jù)分類方法一方面兼顧了數(shù)據(jù)的物理特征,另一方還能夠有效地識別數(shù)據(jù)的模式結(jié)構(gòu),并將數(shù)據(jù)之間的關(guān)聯(lián)作用信息用于訓(xùn)練數(shù)據(jù)分類模型及數(shù)據(jù)分類。人造數(shù)據(jù)集及真實數(shù)據(jù)集上的仿真實驗結(jié)果證明了HDCM的有效性,HDCM實際分類性能優(yōu)于傳統(tǒng)的分類方法。實驗中發(fā)現(xiàn),HDCM還能夠解決數(shù)樣本比例不平衡情況下的數(shù)據(jù)分類[29],如人造數(shù)據(jù)集Moons及真實數(shù)據(jù)集Yeast,樣本比例分別為2、2.46,因此,在今后的工作中將對此作進(jìn)一步研究。另外,根據(jù)圖論知識,一個復(fù)雜網(wǎng)絡(luò)除了節(jié)點的度等常見屬性外,還包含有同質(zhì)性、聚類系數(shù)等[30],如何將除了度之外其他屬性結(jié)合進(jìn)來探索復(fù)雜網(wǎng)絡(luò)局部與全局特征作為數(shù)據(jù)分類的輔助信息[31]也將是今后的研究內(nèi)容。

        猜你喜歡
        關(guān)聯(lián)分類信息
        “苦”的關(guān)聯(lián)
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        奇趣搭配
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
        精品久久亚洲中文字幕| 亚洲av无码一区二区乱子仑| 色偷偷女人的天堂亚洲网| av人妻在线一区二区三区| 精品久久久久久综合日本 | 97夜夜澡人人爽人人喊中国片| 小12箩利洗澡无码视频网站 | 天天爽夜夜爽人人爽| 国产午夜三级一区二区三| 日韩av二区三区一区| 亚洲最大不卡av网站| 厨房人妻hd中文字幕| 免费a级毛片出奶水| avtt一区| 日本韩国亚洲三级在线| 97色偷偷色噜噜狠狠爱网站| 久久久久99精品国产片| 人妻少妇中文字幕久久69堂| 国产丝袜美腿在线播放| 国产精品中文久久久久久久| 四虎影永久在线观看精品 | 免费人成在线观看播放国产| 伊人久久综合狼伊人久久| 国产成人无码精品久久久免费| 午夜福利麻豆国产精品| 婷婷一区二区三区在线| 国产av天堂一区二区二区| 久久国产加勒比精品无码| 亚洲av无码av在线播放 | 精品精品国产三级av在线| 国产精品扒开腿做爽爽爽视频 | 久久国产精品免费一区二区| 国产视频一区2区三区| 比较有韵味的熟妇无码| 97se在线| 色av色婷婷18人妻久久久| 亚洲开心婷婷中文字幕| 99久久国产综合精品麻豆| 2022AV一区在线| 国产手机在线观看一区二区三区| 天码人妻一区二区三区|