張燕
(新疆師范大學(xué),新疆 烏魯木齊 830017)
信息化時(shí)代下,大數(shù)據(jù)挖掘和利用覆蓋了金融行業(yè)、醫(yī)療保健、交通運(yùn)輸、電力行業(yè)等領(lǐng)域。在大數(shù)據(jù)挖掘過程中,由于數(shù)據(jù)模態(tài)、來源、屬性不同,數(shù)據(jù)混合后會(huì)得到多模態(tài)異構(gòu)大數(shù)據(jù)。相比其他類型單一的數(shù)據(jù),多模態(tài)異構(gòu)大數(shù)據(jù)具有數(shù)據(jù)挖掘難度較大、數(shù)據(jù)清理和預(yù)處理較復(fù)雜、數(shù)據(jù)計(jì)算效率較低的特點(diǎn)。因此,多模態(tài)異構(gòu)大數(shù)據(jù)雖然具有較高的研究價(jià)值,但是利用率較低[1]。混合屬性特征匹配與篩選是多模態(tài)異構(gòu)大數(shù)據(jù)處理中一項(xiàng)不可缺少的工作,該工作旨在對(duì)多模態(tài)異構(gòu)大數(shù)據(jù)進(jìn)行縮減,降低數(shù)據(jù)維度,排除冗余數(shù)據(jù)干擾,以此提高數(shù)據(jù)挖掘精度、降低數(shù)據(jù)處理復(fù)雜度、提高計(jì)算算力[2]。
不同領(lǐng)域的專家和學(xué)者都提出了關(guān)于多模態(tài)異構(gòu)大數(shù)據(jù)解決方法。文獻(xiàn)[3]計(jì)算了特征的信息增益比,并以此為基礎(chǔ)對(duì)特征進(jìn)行排序,對(duì)排序后的特征進(jìn)行分組,采用二進(jìn)制編碼方法對(duì)排序的特征進(jìn)行編碼,利用遺傳算法通過不斷迭代篩選出最優(yōu)特征組合。但是該方法在迭代過程中容易陷入局部最優(yōu)解。文獻(xiàn)[4]利用FAST 算法將特征點(diǎn)描述成特征描述子,通過改進(jìn)人工魚群算法進(jìn)行特征點(diǎn)選取和匹配。但是該方法在特征篩選時(shí)沒有考慮到不同特征之間的重要性差異,導(dǎo)致后期特征匹配存在一定誤差。文獻(xiàn)[5]對(duì)待研究數(shù)據(jù)進(jìn)行預(yù)處理,利用核主成分方法降低數(shù)據(jù)維度并進(jìn)行特征融合,通過RSP 方法完成特征匹配。但是該方法計(jì)算效率有待進(jìn)一步提高。
基于此,本文提出多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法,降維多模態(tài)異構(gòu)大數(shù)據(jù)實(shí)施混合屬性,提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性備選特征,實(shí)現(xiàn)混合屬性特征篩選與匹配。通過本文研究以期提高混合數(shù)據(jù)的利用率,提高多模態(tài)異構(gòu)大數(shù)據(jù)挖掘精度。
多模態(tài)異構(gòu)大數(shù)據(jù)中混合了多種屬性,其維度較大,因此需要對(duì)其進(jìn)行降維處理[6]。輸入待處理的多模態(tài)異構(gòu)大數(shù)據(jù),根據(jù)屬性不同,將多模態(tài)異構(gòu)大數(shù)據(jù)劃分為數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),并組成兩個(gè)集合,記為A、B。
計(jì)算A中數(shù)值型數(shù)據(jù)之間的距離:
式中:cij代表第i個(gè)數(shù)值型數(shù)據(jù)和第j個(gè)數(shù)值型數(shù)據(jù)之間的距離;aik代表第i個(gè)第k個(gè)屬性的數(shù)值型數(shù)據(jù);ajk代表第j個(gè)第k個(gè)屬性的數(shù)值型數(shù)據(jù);N代表混合數(shù)據(jù)集合數(shù)量[7]。
建立距離矩陣:
式中C代表距離矩陣。
根據(jù)距離矩陣計(jì)算分類型數(shù)據(jù)相異度:
式中:wk代表第k個(gè)分類屬性的權(quán)重;bik代表第i個(gè)第k個(gè)屬性的分類型數(shù)據(jù);bjk代表第j個(gè)第k個(gè)屬性的分類型數(shù)據(jù);M'代表分類型數(shù)據(jù)數(shù)量。
根據(jù)dij構(gòu)建相異度矩陣D:
計(jì)算混合屬性數(shù)據(jù)點(diǎn)之間的距離e:
結(jié)合條件概率,利用梯度下降法最小化混合屬性數(shù)據(jù)點(diǎn)之間的距離數(shù)據(jù),將混合數(shù)據(jù)映射到低維度[8],完成多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性降維。
基于降維后的多模態(tài)異構(gòu)大數(shù)據(jù),本節(jié)提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征[9]。假設(shè)降維后的多模態(tài)異構(gòu)大數(shù)據(jù)是一個(gè)具有n個(gè)屬性的樣本F,將F進(jìn)行轉(zhuǎn)置:
式中m代表多模態(tài)異構(gòu)大數(shù)據(jù)樣本數(shù)量。
對(duì)F進(jìn)行規(guī)范化處理,得到規(guī)范化后的F':
式中:F'代表規(guī)范化后的多模態(tài)異構(gòu)大數(shù)據(jù);fij代表原始多模態(tài)異構(gòu)大數(shù)據(jù)分別代表最大、最小值。
計(jì)算F'中每列的均值,記為fˉ,完成均值化處理。
式中代表數(shù)據(jù)偏離值。利用主成分分析法計(jì)算多模態(tài)異構(gòu)大數(shù)據(jù)樣本的特征值:
計(jì)算特征值vi的累積貢獻(xiàn)率:
式中di代表方差解釋率。當(dāng)ζ≥8.5時(shí),表明主成分為多模態(tài)異構(gòu)大數(shù)據(jù)樣本濃縮,將這個(gè)主成分看作多模態(tài)異構(gòu)大數(shù)據(jù)樣本的備選特征[10-11]。
在完成特征提取的基礎(chǔ)上,還需要進(jìn)一步篩選特征,完成特征匹配。計(jì)算主成分之間的互信息[12-13],互信息數(shù)值越大,證明該主成分包含的數(shù)據(jù)信息量越多?;バ畔⒂?jì)算公式為:
式中:Q代表主成分的數(shù)量;p(ri)代表主成分ri的信息熵;R代表主成分集合;p(ri,rj)代表第i個(gè)主成分ri與主成分rj之間的聯(lián)合概率分布函數(shù);p(ri)代表主成分ri的信息熵;p(rj)代表主成分rj的信息熵。
將J(ri,rj)>1.0 以上的主成分作為多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征,完成特征篩選。將互信息作為權(quán)重賦值給每個(gè)樣本的特征,記為Y(J1r1,J2r2,…,Jlrl)。計(jì)算每個(gè)多模態(tài)異構(gòu)大數(shù)據(jù)樣本特征的平均差異度h(Li)和總體差異度H:
式中:l代表特征數(shù)量;T(Li,Lj)代表特征Li與特征Lj之間的距離。
對(duì)h(Li)進(jìn)行從大到小排序,選出其中最大值對(duì)應(yīng)的特征作為第1 個(gè)初始匹配中心hi1,將該特征從Y中刪除。從剩余特征中找出h(Li)最大值對(duì)應(yīng)的特征作為第2 個(gè)匹配中心hi2,h(Li)的歐氏距離為:
當(dāng)d≥H時(shí),將特征入選為匹配中心,計(jì)算匹配中心余弦相似度,完成混合屬性特征匹配:
至此完成多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法的研究。
為測試所研究算法在多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選中的應(yīng)用效果,將UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的4 個(gè)真實(shí)數(shù)據(jù)集作為測試樣本。多模態(tài)異構(gòu)大數(shù)據(jù)集基本情況如表1 所示。
表1 多模態(tài)異構(gòu)大數(shù)據(jù)集描述
針對(duì)4 個(gè)多模態(tài)異構(gòu)大數(shù)據(jù)集,在降維的基礎(chǔ)上提取每個(gè)集合的主成分作為其特征,計(jì)算每個(gè)特征的互信息完成特征篩選,結(jié)果如表2 所示。
表2 數(shù)據(jù)特征提取與篩選結(jié)果
從表2 中可以看出:集合1 篩選出7 個(gè)特征;集合2篩選出8 個(gè)特征;集合3 篩選出7 個(gè)特征;集合4 篩選出9 個(gè)特征。
基于篩選特征進(jìn)行每個(gè)數(shù)據(jù)集合中每條數(shù)據(jù)的特征匹配,根據(jù)匹配結(jié)果計(jì)算特征類中特征之間的緊密度,緊密度越大,代表匹配結(jié)果越準(zhǔn)確。計(jì)算公式如下:
式中:xi、xj代表兩個(gè)特征;γ(xi-xj)代表特征之間的相似度。
相同測試數(shù)據(jù)集合下,選擇文獻(xiàn)[3]方法(融合信息增益比和遺傳算法的混合式特征選擇算法)、文獻(xiàn)[4]方法(改進(jìn)人工魚群的ORB 特征匹配算法)和文獻(xiàn)[5]方法(一種多特征融合的特征匹配算法)作為對(duì)比方法,獲取不同方法下的緊密度結(jié)果,如圖1 所示。
圖1 匹配緊密度結(jié)果
從圖1 中可以看出,與文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法相比,所提算法的匹配緊密度較高,集合1、集合2、集合3、集合4 的匹配緊密度均高于0.8。這是因?yàn)樗崴惴ú粌H考慮了數(shù)據(jù)的維度和異構(gòu),還考慮了數(shù)據(jù)屬性之間的互信關(guān)系,從而能夠更加準(zhǔn)確地進(jìn)行特征匹配,提高多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配的效果。
大數(shù)據(jù)中隱藏著較多具有價(jià)值屬性的信息,這些信息對(duì)于決策的制定和規(guī)劃具有重要作用。但是面對(duì)多模態(tài)異構(gòu)大數(shù)據(jù)挖掘時(shí),由于混合多種屬性數(shù)據(jù)的特點(diǎn),提高了數(shù)據(jù)挖掘難度。為此,本文提出一種多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法,該算法在特征提取、篩選基礎(chǔ)上,將相似屬性的特征匹配,提高數(shù)據(jù)挖掘效果。在算法實(shí)現(xiàn)過程中,由于數(shù)據(jù)集的規(guī)模較大,計(jì)算復(fù)雜度較高,容易導(dǎo)致算法運(yùn)行效率較低。因此,在之后的研究中將結(jié)合本文研究結(jié)果,采用分布式計(jì)算方式進(jìn)一步優(yōu)化算法的計(jì)算效率,提高算法的魯棒性。