亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法

2024-02-18 05:49:12張燕

現(xiàn)代電子技術(shù) 2024年3期

張燕

（新疆師范大學(xué)，新疆烏魯木齊 830017）

0 引言

信息化時(shí)代下，大數(shù)據(jù)挖掘和利用覆蓋了金融行業(yè)、醫(yī)療保健、交通運(yùn)輸、電力行業(yè)等領(lǐng)域。在大數(shù)據(jù)挖掘過程中，由于數(shù)據(jù)模態(tài)、來源、屬性不同，數(shù)據(jù)混合后會(huì)得到多模態(tài)異構(gòu)大數(shù)據(jù)。相比其他類型單一的數(shù)據(jù)，多模態(tài)異構(gòu)大數(shù)據(jù)具有數(shù)據(jù)挖掘難度較大、數(shù)據(jù)清理和預(yù)處理較復(fù)雜、數(shù)據(jù)計(jì)算效率較低的特點(diǎn)。因此，多模態(tài)異構(gòu)大數(shù)據(jù)雖然具有較高的研究價(jià)值，但是利用率較低[1]。混合屬性特征匹配與篩選是多模態(tài)異構(gòu)大數(shù)據(jù)處理中一項(xiàng)不可缺少的工作，該工作旨在對(duì)多模態(tài)異構(gòu)大數(shù)據(jù)進(jìn)行縮減，降低數(shù)據(jù)維度，排除冗余數(shù)據(jù)干擾，以此提高數(shù)據(jù)挖掘精度、降低數(shù)據(jù)處理復(fù)雜度、提高計(jì)算算力[2]。

不同領(lǐng)域的專家和學(xué)者都提出了關(guān)于多模態(tài)異構(gòu)大數(shù)據(jù)解決方法。文獻(xiàn)[3]計(jì)算了特征的信息增益比，并以此為基礎(chǔ)對(duì)特征進(jìn)行排序，對(duì)排序后的特征進(jìn)行分組，采用二進(jìn)制編碼方法對(duì)排序的特征進(jìn)行編碼，利用遺傳算法通過不斷迭代篩選出最優(yōu)特征組合。但是該方法在迭代過程中容易陷入局部最優(yōu)解。文獻(xiàn)[4]利用FAST 算法將特征點(diǎn)描述成特征描述子，通過改進(jìn)人工魚群算法進(jìn)行特征點(diǎn)選取和匹配。但是該方法在特征篩選時(shí)沒有考慮到不同特征之間的重要性差異，導(dǎo)致后期特征匹配存在一定誤差。文獻(xiàn)[5]對(duì)待研究數(shù)據(jù)進(jìn)行預(yù)處理，利用核主成分方法降低數(shù)據(jù)維度并進(jìn)行特征融合，通過RSP 方法完成特征匹配。但是該方法計(jì)算效率有待進(jìn)一步提高。

基于此，本文提出多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法，降維多模態(tài)異構(gòu)大數(shù)據(jù)實(shí)施混合屬性，提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性備選特征，實(shí)現(xiàn)混合屬性特征篩選與匹配。通過本文研究以期提高混合數(shù)據(jù)的利用率，提高多模態(tài)異構(gòu)大數(shù)據(jù)挖掘精度。

1 多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選

1.1 降維多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性

多模態(tài)異構(gòu)大數(shù)據(jù)中混合了多種屬性，其維度較大，因此需要對(duì)其進(jìn)行降維處理[6]。輸入待處理的多模態(tài)異構(gòu)大數(shù)據(jù)，根據(jù)屬性不同，將多模態(tài)異構(gòu)大數(shù)據(jù)劃分為數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù)，并組成兩個(gè)集合，記為A、B。

計(jì)算A中數(shù)值型數(shù)據(jù)之間的距離：

式中：cij代表第i個(gè)數(shù)值型數(shù)據(jù)和第j個(gè)數(shù)值型數(shù)據(jù)之間的距離；aik代表第i個(gè)第k個(gè)屬性的數(shù)值型數(shù)據(jù)；ajk代表第j個(gè)第k個(gè)屬性的數(shù)值型數(shù)據(jù)；N代表混合數(shù)據(jù)集合數(shù)量[7]。

建立距離矩陣：

式中C代表距離矩陣。

根據(jù)距離矩陣計(jì)算分類型數(shù)據(jù)相異度：

式中：wk代表第k個(gè)分類屬性的權(quán)重；bik代表第i個(gè)第k個(gè)屬性的分類型數(shù)據(jù)；bjk代表第j個(gè)第k個(gè)屬性的分類型數(shù)據(jù)；M'代表分類型數(shù)據(jù)數(shù)量。

根據(jù)dij構(gòu)建相異度矩陣D：

計(jì)算混合屬性數(shù)據(jù)點(diǎn)之間的距離e：

結(jié)合條件概率，利用梯度下降法最小化混合屬性數(shù)據(jù)點(diǎn)之間的距離數(shù)據(jù)，將混合數(shù)據(jù)映射到低維度[8]，完成多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性降維。

1.2 提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性備選特征

基于降維后的多模態(tài)異構(gòu)大數(shù)據(jù)，本節(jié)提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征[9]。假設(shè)降維后的多模態(tài)異構(gòu)大數(shù)據(jù)是一個(gè)具有n個(gè)屬性的樣本F，將F進(jìn)行轉(zhuǎn)置：

式中m代表多模態(tài)異構(gòu)大數(shù)據(jù)樣本數(shù)量。

對(duì)F進(jìn)行規(guī)范化處理，得到規(guī)范化后的F'：

式中：F'代表規(guī)范化后的多模態(tài)異構(gòu)大數(shù)據(jù)；fij代表原始多模態(tài)異構(gòu)大數(shù)據(jù)分別代表最大、最小值。

計(jì)算F'中每列的均值，記為fˉ，完成均值化處理。

式中代表數(shù)據(jù)偏離值。利用主成分分析法計(jì)算多模態(tài)異構(gòu)大數(shù)據(jù)樣本的特征值：

計(jì)算特征值vi的累積貢獻(xiàn)率：

式中di代表方差解釋率。當(dāng)ζ≥8.5時(shí)，表明主成分為多模態(tài)異構(gòu)大數(shù)據(jù)樣本濃縮，將這個(gè)主成分看作多模態(tài)異構(gòu)大數(shù)據(jù)樣本的備選特征[10-11]。

1.3 篩選與匹配混合屬性特征

在完成特征提取的基礎(chǔ)上，還需要進(jìn)一步篩選特征，完成特征匹配。計(jì)算主成分之間的互信息[12-13]，互信息數(shù)值越大，證明該主成分包含的數(shù)據(jù)信息量越多?；バ畔⒂?jì)算公式為：

式中：Q代表主成分的數(shù)量；p(ri)代表主成分ri的信息熵；R代表主成分集合；p(ri,rj)代表第i個(gè)主成分ri與主成分rj之間的聯(lián)合概率分布函數(shù)；p(ri)代表主成分ri的信息熵；p(rj)代表主成分rj的信息熵。

將J(ri,rj)＞1.0 以上的主成分作為多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征，完成特征篩選。將互信息作為權(quán)重賦值給每個(gè)樣本的特征，記為Y(J1r1,J2r2,…,Jlrl)。計(jì)算每個(gè)多模態(tài)異構(gòu)大數(shù)據(jù)樣本特征的平均差異度h(Li)和總體差異度H：

式中：l代表特征數(shù)量；T(Li,Lj)代表特征Li與特征Lj之間的距離。

對(duì)h(Li)進(jìn)行從大到小排序，選出其中最大值對(duì)應(yīng)的特征作為第1 個(gè)初始匹配中心hi1，將該特征從Y中刪除。從剩余特征中找出h(Li)最大值對(duì)應(yīng)的特征作為第2 個(gè)匹配中心hi2，h(Li)的歐氏距離為：

當(dāng)d≥H時(shí)，將特征入選為匹配中心，計(jì)算匹配中心余弦相似度，完成混合屬性特征匹配：

至此完成多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法的研究。

2 算法應(yīng)用測試

2.1 多模態(tài)異構(gòu)大數(shù)據(jù)集

為測試所研究算法在多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選中的應(yīng)用效果，將UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的4 個(gè)真實(shí)數(shù)據(jù)集作為測試樣本。多模態(tài)異構(gòu)大數(shù)據(jù)集基本情況如表1 所示。

表1 多模態(tài)異構(gòu)大數(shù)據(jù)集描述

2.2 數(shù)據(jù)特征提取與篩選結(jié)果

針對(duì)4 個(gè)多模態(tài)異構(gòu)大數(shù)據(jù)集，在降維的基礎(chǔ)上提取每個(gè)集合的主成分作為其特征，計(jì)算每個(gè)特征的互信息完成特征篩選，結(jié)果如表2 所示。

表2 數(shù)據(jù)特征提取與篩選結(jié)果

從表2 中可以看出：集合1 篩選出7 個(gè)特征；集合2篩選出8 個(gè)特征；集合3 篩選出7 個(gè)特征；集合4 篩選出9 個(gè)特征。

2.3 算法應(yīng)用效果

基于篩選特征進(jìn)行每個(gè)數(shù)據(jù)集合中每條數(shù)據(jù)的特征匹配，根據(jù)匹配結(jié)果計(jì)算特征類中特征之間的緊密度，緊密度越大，代表匹配結(jié)果越準(zhǔn)確。計(jì)算公式如下：

式中：xi、xj代表兩個(gè)特征；γ(xi-xj)代表特征之間的相似度。

相同測試數(shù)據(jù)集合下，選擇文獻(xiàn)[3]方法（融合信息增益比和遺傳算法的混合式特征選擇算法）、文獻(xiàn)[4]方法（改進(jìn)人工魚群的ORB 特征匹配算法）和文獻(xiàn)[5]方法（一種多特征融合的特征匹配算法）作為對(duì)比方法，獲取不同方法下的緊密度結(jié)果，如圖1 所示。

圖1 匹配緊密度結(jié)果

從圖1 中可以看出，與文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法相比，所提算法的匹配緊密度較高，集合1、集合2、集合3、集合4 的匹配緊密度均高于0.8。這是因?yàn)樗崴惴ú粌H考慮了數(shù)據(jù)的維度和異構(gòu)，還考慮了數(shù)據(jù)屬性之間的互信關(guān)系，從而能夠更加準(zhǔn)確地進(jìn)行特征匹配，提高多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配的效果。

3 結(jié)語

大數(shù)據(jù)中隱藏著較多具有價(jià)值屬性的信息，這些信息對(duì)于決策的制定和規(guī)劃具有重要作用。但是面對(duì)多模態(tài)異構(gòu)大數(shù)據(jù)挖掘時(shí)，由于混合多種屬性數(shù)據(jù)的特點(diǎn)，提高了數(shù)據(jù)挖掘難度。為此，本文提出一種多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法，該算法在特征提取、篩選基礎(chǔ)上，將相似屬性的特征匹配，提高數(shù)據(jù)挖掘效果。在算法實(shí)現(xiàn)過程中，由于數(shù)據(jù)集的規(guī)模較大，計(jì)算復(fù)雜度較高，容易導(dǎo)致算法運(yùn)行效率較低。因此，在之后的研究中將結(jié)合本文研究結(jié)果，采用分布式計(jì)算方式進(jìn)一步優(yōu)化算法的計(jì)算效率，提高算法的魯棒性。