邱 勁,張昭玉
(蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009)
數(shù)據(jù)挖掘是在大量無規(guī)律的數(shù)據(jù)中挖掘有用信息數(shù)據(jù)的過程。在數(shù)據(jù)挖掘過程中,當(dāng)其中某一個(gè)樣本數(shù)據(jù)集的數(shù)據(jù)量與其他數(shù)據(jù)集的數(shù)據(jù)量相差較大時(shí),則認(rèn)為這個(gè)數(shù)據(jù)集中的數(shù)據(jù)為不平衡數(shù)據(jù)。不平衡數(shù)據(jù)通常維數(shù)較其他數(shù)據(jù)相比要高,樣本數(shù)量過小,噪聲較大,且冗余信息過多以及樣本數(shù)據(jù)分布嚴(yán)重不平衡等,因此對其分析和挖掘難度較大。
目前,許多相關(guān)學(xué)者已經(jīng)針對非平衡數(shù)據(jù)的挖掘問題展開研究。文獻(xiàn)[1]提出利用多源數(shù)據(jù)融合算法實(shí)現(xiàn)不平衡數(shù)據(jù)的融合與挖掘。首先,在算法的聚類結(jié)果中引入綜合評價(jià)指標(biāo)法,以此來反映聚類結(jié)果的優(yōu)劣性;其次,將多數(shù)類數(shù)據(jù)與少數(shù)類數(shù)據(jù)融合在一起,利用時(shí)空特征的位置來挖掘數(shù)據(jù)所處的位置區(qū)域,實(shí)現(xiàn)數(shù)據(jù)的有效挖掘。該算法相較于單源數(shù)據(jù)挖掘算法來說,具有更為理想的挖掘結(jié)果,但是該方法的只對不平衡數(shù)據(jù)進(jìn)行了融合處理,導(dǎo)致結(jié)果含有較多的不確定因素;文獻(xiàn)[2]利用SMOTERF法挖掘由數(shù)據(jù)不平衡流失的客戶隱私信息。首先,對客戶信息做平衡處理,引入分類預(yù)測方法提高AUC值,減少有效數(shù)據(jù)的流失;再通過SMOTERF法挖掘數(shù)據(jù)。該算法對于客戶數(shù)據(jù)流失起到了很好的應(yīng)對作用,但是對不平衡數(shù)據(jù)的平衡處理極易出現(xiàn)過度擬合情況,挖掘效果穩(wěn)定性差。
本文在以上兩項(xiàng)研究的基礎(chǔ)上,針對已有方法存在的問題,提出了新的基于不平衡陣列判別的大數(shù)據(jù)集成挖掘方法。首先,針對不平衡數(shù)據(jù)的特點(diǎn),采用過采樣判定方式使其逐漸趨于平衡狀態(tài);通過提取所有不平衡數(shù)據(jù)的特征量,引入到語義動(dòng)態(tài)分析模型中,實(shí)現(xiàn)數(shù)據(jù)挖掘的自適應(yīng)尋優(yōu)。
對于判別出的不平衡數(shù)據(jù),本文通過采樣處理使數(shù)據(jù)達(dá)到平衡。采樣處理主要分為兩種,分別是過采樣處理以及欠采樣處理[3]。過采樣處理,通過在少數(shù)類樣本中增加一些合理的偽樣本,實(shí)現(xiàn)與其他類別的平衡;而欠采樣處理則主要針對多數(shù)類樣本,采用某種算法剔除掉包含的噪聲和雜質(zhì),通過這種操作,來達(dá)到與少數(shù)類樣本平衡的目的。綜合比對之下,本文選擇過采樣處理來使不平衡數(shù)據(jù)達(dá)到平衡狀態(tài)[4]。
在少數(shù)類中增加的偽樣本,主要是通過復(fù)制正樣本來實(shí)現(xiàn)的,這種方法具有較低的成本和計(jì)算復(fù)雜度。但是對于維數(shù)高、噪聲高的不平衡數(shù)據(jù)來說,直接過采樣處理可能會(huì)導(dǎo)致最終結(jié)果出現(xiàn)過度擬合的情況,因此,本文使用概率分布[5]判別不平衡陣列進(jìn)行過采樣處理,通過對數(shù)據(jù)集中每一個(gè)樣本進(jìn)行基因上概率分布計(jì)算判別,根據(jù)計(jì)算結(jié)果生成與之相對應(yīng)的偽樣本。這樣即保證了生成偽樣本的合理性,又保證了概率分布前后數(shù)據(jù)基因的一致性,使得最終生成的偽樣本數(shù)據(jù)集更加合理。
對不平衡陣列中的所有數(shù)據(jù)進(jìn)行基因均值和方差計(jì)算,獲得數(shù)據(jù)在陣列中的正態(tài)分布情況。但是考慮到不平衡數(shù)據(jù)的特點(diǎn),在數(shù)據(jù)樣本數(shù)量過少情況下,最終結(jié)果會(huì)存在較多的不確定因素,含有較多的雜質(zhì)和噪聲。因此,本文通過非參數(shù)的概率密度估計(jì)法剔除噪聲雜質(zhì)。首先,對每個(gè)樣本設(shè)定合理的取值范圍,并對其進(jìn)行離散化處理,劃分該范圍為若干個(gè)等寬但并不相交的區(qū)間。假設(shè)基因的取值范圍在[1,2]之間,按照0.1的寬度進(jìn)行離散化處理[6],那么該基因的取值范圍可以劃分為[1,1.1),[1.1,1.2),……,[1.9,2]共十個(gè)區(qū)間。這十個(gè)區(qū)間在不平衡陣列中的概率分布情況如圖1所示。
圖1 樣本數(shù)據(jù)概率分布評估結(jié)果
從圖1中可以看出少數(shù)類數(shù)據(jù)集中樣本概率的分布情況,本文生成的偽樣本也服從這種分布。實(shí)現(xiàn)過程為:
1)隨機(jī)生成一個(gè)(1,2)之間的數(shù)值;
2)根據(jù)圖1中各個(gè)取值區(qū)間內(nèi)概率的分布情況,計(jì)算隨機(jī)數(shù)的取值區(qū)間;
3)從該取值區(qū)間內(nèi),隨機(jī)選取一個(gè)數(shù)值作為偽樣本在此基因上的表達(dá)值[7]。
綜上所述,利用陣列判別方式生成的偽樣本與原始樣本概率分布情況一致,同時(shí)又存在一部分的隨機(jī)性,在一定程度上提高了少數(shù)類數(shù)據(jù)集的質(zhì)量,使不平衡陣列逐漸趨于平衡。
利用特征匹配方法實(shí)現(xiàn)大數(shù)據(jù)的模糊特征聚類[8],并對完成過采樣處理后的數(shù)據(jù)集自適應(yīng)加權(quán)學(xué)習(xí)計(jì)算。大數(shù)據(jù)模糊特征聚類分布如式(1)所示
(1)
式中,z0表示不平衡陣列中大數(shù)據(jù)的關(guān)聯(lián)估計(jì)值;zi表示在點(diǎn)i處采集到的大數(shù)據(jù)集的實(shí)測值;di表示點(diǎn)i與點(diǎn)0之間具體的距離值;S表示不平衡陣列中大數(shù)據(jù)實(shí)測點(diǎn)的統(tǒng)計(jì)特征量;K表示數(shù)據(jù)挖掘中的插值權(quán)重[9]值大小。
接下來對不平衡陣列進(jìn)行大數(shù)據(jù)的自適應(yīng)加權(quán)計(jì)算。構(gòu)建大數(shù)據(jù)模糊加權(quán)學(xué)習(xí)式,以此來提高自適應(yīng)挖掘能力。得到的空間聚類模型用式(2)表示為
(2)
式中,x、y、z分別表示不平衡陣列中大數(shù)據(jù)在三維空間內(nèi)的語義相似度特征量;σ表示大數(shù)據(jù)的語義本體集;b表示數(shù)據(jù)挖掘過程中產(chǎn)生的模糊度系數(shù);r表示粗糙特征匹配集。
通過上文計(jì)算得到的大數(shù)據(jù)語義關(guān)聯(lián)特征量,與模糊屬性特征檢測方法結(jié)合使用,實(shí)現(xiàn)對不平衡陣列大數(shù)據(jù)的統(tǒng)計(jì)檢測[10]。利用統(tǒng)計(jì)分析方法進(jìn)行語義分割,計(jì)算公式如下所示
(3)
式中,wij表示點(diǎn)i在大數(shù)據(jù)集成挖掘中的全局加權(quán)值;dij表示數(shù)據(jù)集中各個(gè)樣本數(shù)據(jù)分布節(jié)點(diǎn)的聚類中心;N表示大數(shù)據(jù)集成挖掘節(jié)點(diǎn)的維數(shù)。
在實(shí)現(xiàn)大數(shù)據(jù)的挖掘之前,要完成特征提取,本文通過構(gòu)建特征提取模型來實(shí)現(xiàn)。在STARMA(1,1)網(wǎng)絡(luò)模型中,可視化分割大數(shù)據(jù),根據(jù)數(shù)據(jù)的輸出結(jié)果構(gòu)建自相關(guān)特征匹配模型,再引入模糊特征聚類分析方法,完成對大數(shù)據(jù)的分析與統(tǒng)計(jì)。再利用模糊信息對大數(shù)據(jù)進(jìn)行特征提取,隨機(jī)選取一個(gè)特征點(diǎn)i,計(jì)算其在t時(shí)刻下的特征分布集為(w1j,w2j,…wtj),wtj代表的是t時(shí)刻下大數(shù)據(jù)集成挖掘加權(quán)系數(shù)值。結(jié)合語義特征分析方法,構(gòu)建大數(shù)據(jù)模糊語義特征規(guī)則集,以此得到自適應(yīng)加權(quán)系數(shù)為
(4)
式中,F(xiàn)reqij表示大數(shù)據(jù)挖掘?qū)?yōu)的迷糊約束特征量。計(jì)算不平衡陣列的信息素濃度,如式(5)所示
(5)
其中
wij=tfij
(6)
式中,ni表示第i個(gè)數(shù)據(jù)節(jié)點(diǎn)信息在挖掘過程中的嵌入維數(shù);fij表示數(shù)據(jù)節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的關(guān)聯(lián)程度。
構(gòu)建不平衡陣列的語義動(dòng)態(tài)特征分析模型,提取每個(gè)樣本數(shù)據(jù)的統(tǒng)計(jì)特征量,進(jìn)行數(shù)據(jù)挖掘的自適應(yīng)尋優(yōu),計(jì)算公式如式(7)所示
(7)
式中,di、dj分別表示大數(shù)據(jù)挖掘的模糊規(guī)則特征量。利用統(tǒng)計(jì)信息分析方法,構(gòu)建模糊特征分布集,如式(8)所示
(8)
式中,m、n分別表示樣本數(shù)據(jù)的嵌入維數(shù)和分割網(wǎng)格數(shù);amn表示不平衡陣列中所有待挖掘數(shù)據(jù)的幅值大??;gmn(t)表示不平衡數(shù)據(jù)經(jīng)過統(tǒng)計(jì)之后所得的平均值;n(t)表示挖掘過程中的干擾因素。綜上所述,針對不平衡陣列中大數(shù)據(jù)集成挖掘模型為
(9)
式中,XKj表示語義分割的關(guān)聯(lián)維數(shù),F(xiàn)j表示大數(shù)據(jù)集成挖掘的輸出特征量,Qj表示大數(shù)據(jù)集成挖掘的數(shù)據(jù)信息分量。
為驗(yàn)證本文方法對于不平衡數(shù)據(jù)挖掘是否合理有效,與引言中提到的多源數(shù)據(jù)融合算法和SMOTERF法展開對比仿真驗(yàn)證。在實(shí)驗(yàn)中,共選取了sonar(聲納)、vehicle(交通工具)、pendigits(數(shù)字)三組UCI數(shù)據(jù)作為數(shù)據(jù)集(機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)測試數(shù)據(jù)集,是加州大學(xué)歐文分校提出的),詳細(xì)信息如表1所示。
表1 三組UCI數(shù)據(jù)詳細(xì)信息
一般情況下,會(huì)對不平衡度設(shè)定一個(gè)取值區(qū)間,以此來判定該數(shù)據(jù)集的不平衡度程度。在區(qū)間[1.5,3.5)內(nèi)的為低度不平衡,[3.5,9.5)內(nèi)的為中度不平衡,[9.5,+∞)內(nèi)的為高度不平衡。表1中選取的三組數(shù)據(jù)集正是處于不同范圍內(nèi),但是不難發(fā)現(xiàn),sonar數(shù)據(jù)集并不在設(shè)定的取值范圍內(nèi),所以該數(shù)據(jù)集也被稱為平衡數(shù)據(jù)集,選取該數(shù)據(jù)集的目的是為了驗(yàn)證本文方法是否可以在處理平衡數(shù)據(jù)集時(shí)依然有效。
首先對本文方法的挖掘效果進(jìn)行實(shí)驗(yàn)測試,實(shí)驗(yàn)在Matlab軟件中進(jìn)行,將不平衡陣列中數(shù)據(jù)采樣的節(jié)點(diǎn)數(shù)設(shè)定為120,數(shù)據(jù)挖掘的根節(jié)點(diǎn)設(shè)定為12,數(shù)據(jù)特征聚類劃分的類別數(shù)為10。數(shù)據(jù)初期采樣頻率設(shè)定為f1=1.5Hz,末期采樣頻率設(shè)定為f2=2.3Hz。
在上述實(shí)驗(yàn)環(huán)境下,通過不平衡陣列判別數(shù)據(jù)中的不均衡個(gè)體,去除大數(shù)據(jù)內(nèi)噪聲和異常信息,實(shí)驗(yàn)結(jié)果如圖2、圖3、圖4所示。
圖2 sonar數(shù)據(jù)集不平衡陣列判別前后
從圖2能夠看出,處理前sonar數(shù)據(jù)集的特征信號輸出幅值處于一定區(qū)間內(nèi),是平衡數(shù)據(jù)集,但是包含過多干擾信息,無法獲得清晰有效特征。經(jīng)不平衡陣列判別后剔除了大量無規(guī)則干擾,使數(shù)據(jù)集特征明顯,方便后續(xù)集成挖掘處理。
從圖3中可以看出,處理前vehicle數(shù)據(jù)集信號幅值變化沒有規(guī)律,信號中含有較多的噪聲和雜質(zhì),無法實(shí)現(xiàn)精準(zhǔn)的特征識別。而經(jīng)過不平衡陣列判別處理后,信號幅值呈現(xiàn)出明顯的規(guī)律,并且消除了噪聲和雜質(zhì)的影響,為后續(xù)的數(shù)據(jù)集成挖掘做好了基礎(chǔ)工作。
圖3 vehicle數(shù)據(jù)集不平衡陣列判別前后
從圖4中可以看出,pendigits數(shù)據(jù)集在沒有處理之前,信號幅值變化幅度非常大,且沒有規(guī)律可循,要對其進(jìn)行數(shù)據(jù)挖掘幾乎是不可能實(shí)現(xiàn)的。而經(jīng)過處理后的特征信號開始趨于平衡,幅值的變化也具有一定的規(guī)律,有效抑制了不平衡數(shù)據(jù)的干擾影響,幫助后續(xù)精準(zhǔn)挖掘挖掘?qū)崿F(xiàn)有效預(yù)處理。
圖4 pendigits數(shù)據(jù)集不平衡陣列判別前后
4.2.1 評價(jià)指標(biāo)
接下來對本文方法、多源數(shù)據(jù)融合算法以及SMOTERF法,在F-measure值和AUC(ROC曲線下方的面積大小)值方面展開對比測試。F-measure值是精確度和召回率的調(diào)和值,能夠充分驗(yàn)證挖掘結(jié)果優(yōu)劣,其計(jì)算結(jié)果接近于二者中數(shù)值較小的那一個(gè),越高說明集成挖掘方法越有效,精確度和召回率的綜合性能越大,可以充分反映出少數(shù)類的挖掘情況;而AUC值能夠客觀地描述不同閾值下的數(shù)據(jù)挖掘性能。
F-measure的計(jì)算公式為
(10)
AUC的計(jì)算公式如式(11)所示,AUC的最終結(jié)果通常在[0.5,1]區(qū)間內(nèi)波動(dòng),數(shù)值越大,說明算法的挖掘性能越理想。
(11)
實(shí)驗(yàn)中,通過F-measure值和AUC值作為算法挖掘性能的評價(jià)指標(biāo)。
4.2.2 評價(jià)結(jié)果
根據(jù)以上兩個(gè)評價(jià)指標(biāo)進(jìn)行實(shí)驗(yàn)對比,圖5和圖6分別為三種算法對于三組數(shù)據(jù)集的F-measure值和AUC值的計(jì)算結(jié)果。
根據(jù)F-measure的定義,F(xiàn)-measure值越大,說明Recall和Precision的值也就越大,算法的挖掘性能也就越理想。從圖5中可以看出,本文方法對于三種不同不平衡度數(shù)據(jù)集,F(xiàn)-measure值均高于其他兩種方法,說明本文方法具有很好的挖掘性能。這是由于本文方法在進(jìn)行數(shù)據(jù)挖掘之前,進(jìn)行了聚類和特征提取,消除了一部分的冗余信息,使得挖掘效果更為理想。
圖5 三種方法的F-measure值對比
根據(jù)AUC的定義,當(dāng)結(jié)果越接近于1時(shí),說明算法整體的挖掘性能越理想。從圖6中可以看出,三種數(shù)據(jù)集下,本文方法AUC值均高于其他兩種方法,說明方法具有的挖掘價(jià)值越高。
圖6 三種方法的AUC值對比
考慮到不平衡數(shù)據(jù)的特點(diǎn),本文判定并采用過采樣處理不平衡陣列,盡可能地去除陣列中的噪聲和雜質(zhì),使數(shù)據(jù)趨于平衡狀態(tài);然后,對平衡后的數(shù)據(jù)集進(jìn)行聚類和特征提取,通過聚類的形式,對不平衡陣列分別進(jìn)行數(shù)據(jù)層面和算法層面的調(diào)整,以此達(dá)到更為理想的挖掘效果。通過進(jìn)行仿真,結(jié)果也驗(yàn)證了所提方法具有優(yōu)秀的挖掘效果。