亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法

        2024-02-18 05:49:12張燕
        現(xiàn)代電子技術(shù) 2024年3期
        關(guān)鍵詞:數(shù)據(jù)挖掘模態(tài)特征

        張燕

        (新疆師范大學(xué),新疆 烏魯木齊 830017)

        0 引言

        信息化時(shí)代下,大數(shù)據(jù)挖掘和利用覆蓋了金融行業(yè)、醫(yī)療保健、交通運(yùn)輸、電力行業(yè)等領(lǐng)域。在大數(shù)據(jù)挖掘過程中,由于數(shù)據(jù)模態(tài)、來源、屬性不同,數(shù)據(jù)混合后會(huì)得到多模態(tài)異構(gòu)大數(shù)據(jù)。相比其他類型單一的數(shù)據(jù),多模態(tài)異構(gòu)大數(shù)據(jù)具有數(shù)據(jù)挖掘難度較大、數(shù)據(jù)清理和預(yù)處理較復(fù)雜、數(shù)據(jù)計(jì)算效率較低的特點(diǎn)。因此,多模態(tài)異構(gòu)大數(shù)據(jù)雖然具有較高的研究價(jià)值,但是利用率較低[1]。混合屬性特征匹配與篩選是多模態(tài)異構(gòu)大數(shù)據(jù)處理中一項(xiàng)不可缺少的工作,該工作旨在對(duì)多模態(tài)異構(gòu)大數(shù)據(jù)進(jìn)行縮減,降低數(shù)據(jù)維度,排除冗余數(shù)據(jù)干擾,以此提高數(shù)據(jù)挖掘精度、降低數(shù)據(jù)處理復(fù)雜度、提高計(jì)算算力[2]。

        不同領(lǐng)域的專家和學(xué)者都提出了關(guān)于多模態(tài)異構(gòu)大數(shù)據(jù)解決方法。文獻(xiàn)[3]計(jì)算了特征的信息增益比,并以此為基礎(chǔ)對(duì)特征進(jìn)行排序,對(duì)排序后的特征進(jìn)行分組,采用二進(jìn)制編碼方法對(duì)排序的特征進(jìn)行編碼,利用遺傳算法通過不斷迭代篩選出最優(yōu)特征組合。但是該方法在迭代過程中容易陷入局部最優(yōu)解。文獻(xiàn)[4]利用FAST 算法將特征點(diǎn)描述成特征描述子,通過改進(jìn)人工魚群算法進(jìn)行特征點(diǎn)選取和匹配。但是該方法在特征篩選時(shí)沒有考慮到不同特征之間的重要性差異,導(dǎo)致后期特征匹配存在一定誤差。文獻(xiàn)[5]對(duì)待研究數(shù)據(jù)進(jìn)行預(yù)處理,利用核主成分方法降低數(shù)據(jù)維度并進(jìn)行特征融合,通過RSP 方法完成特征匹配。但是該方法計(jì)算效率有待進(jìn)一步提高。

        基于此,本文提出多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法,降維多模態(tài)異構(gòu)大數(shù)據(jù)實(shí)施混合屬性,提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性備選特征,實(shí)現(xiàn)混合屬性特征篩選與匹配。通過本文研究以期提高混合數(shù)據(jù)的利用率,提高多模態(tài)異構(gòu)大數(shù)據(jù)挖掘精度。

        1 多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選

        1.1 降維多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性

        多模態(tài)異構(gòu)大數(shù)據(jù)中混合了多種屬性,其維度較大,因此需要對(duì)其進(jìn)行降維處理[6]。輸入待處理的多模態(tài)異構(gòu)大數(shù)據(jù),根據(jù)屬性不同,將多模態(tài)異構(gòu)大數(shù)據(jù)劃分為數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),并組成兩個(gè)集合,記為A、B。

        計(jì)算A中數(shù)值型數(shù)據(jù)之間的距離:

        式中:cij代表第i個(gè)數(shù)值型數(shù)據(jù)和第j個(gè)數(shù)值型數(shù)據(jù)之間的距離;aik代表第i個(gè)第k個(gè)屬性的數(shù)值型數(shù)據(jù);ajk代表第j個(gè)第k個(gè)屬性的數(shù)值型數(shù)據(jù);N代表混合數(shù)據(jù)集合數(shù)量[7]。

        建立距離矩陣:

        式中C代表距離矩陣。

        根據(jù)距離矩陣計(jì)算分類型數(shù)據(jù)相異度:

        式中:wk代表第k個(gè)分類屬性的權(quán)重;bik代表第i個(gè)第k個(gè)屬性的分類型數(shù)據(jù);bjk代表第j個(gè)第k個(gè)屬性的分類型數(shù)據(jù);M'代表分類型數(shù)據(jù)數(shù)量。

        根據(jù)dij構(gòu)建相異度矩陣D:

        計(jì)算混合屬性數(shù)據(jù)點(diǎn)之間的距離e:

        結(jié)合條件概率,利用梯度下降法最小化混合屬性數(shù)據(jù)點(diǎn)之間的距離數(shù)據(jù),將混合數(shù)據(jù)映射到低維度[8],完成多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性降維。

        1.2 提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性備選特征

        基于降維后的多模態(tài)異構(gòu)大數(shù)據(jù),本節(jié)提取多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征[9]。假設(shè)降維后的多模態(tài)異構(gòu)大數(shù)據(jù)是一個(gè)具有n個(gè)屬性的樣本F,將F進(jìn)行轉(zhuǎn)置:

        式中m代表多模態(tài)異構(gòu)大數(shù)據(jù)樣本數(shù)量。

        對(duì)F進(jìn)行規(guī)范化處理,得到規(guī)范化后的F':

        式中:F'代表規(guī)范化后的多模態(tài)異構(gòu)大數(shù)據(jù);fij代表原始多模態(tài)異構(gòu)大數(shù)據(jù)分別代表最大、最小值。

        計(jì)算F'中每列的均值,記為fˉ,完成均值化處理。

        式中代表數(shù)據(jù)偏離值。利用主成分分析法計(jì)算多模態(tài)異構(gòu)大數(shù)據(jù)樣本的特征值:

        計(jì)算特征值vi的累積貢獻(xiàn)率:

        式中di代表方差解釋率。當(dāng)ζ≥8.5時(shí),表明主成分為多模態(tài)異構(gòu)大數(shù)據(jù)樣本濃縮,將這個(gè)主成分看作多模態(tài)異構(gòu)大數(shù)據(jù)樣本的備選特征[10-11]。

        1.3 篩選與匹配混合屬性特征

        在完成特征提取的基礎(chǔ)上,還需要進(jìn)一步篩選特征,完成特征匹配。計(jì)算主成分之間的互信息[12-13],互信息數(shù)值越大,證明該主成分包含的數(shù)據(jù)信息量越多?;バ畔⒂?jì)算公式為:

        式中:Q代表主成分的數(shù)量;p(ri)代表主成分ri的信息熵;R代表主成分集合;p(ri,rj)代表第i個(gè)主成分ri與主成分rj之間的聯(lián)合概率分布函數(shù);p(ri)代表主成分ri的信息熵;p(rj)代表主成分rj的信息熵。

        將J(ri,rj)>1.0 以上的主成分作為多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征,完成特征篩選。將互信息作為權(quán)重賦值給每個(gè)樣本的特征,記為Y(J1r1,J2r2,…,Jlrl)。計(jì)算每個(gè)多模態(tài)異構(gòu)大數(shù)據(jù)樣本特征的平均差異度h(Li)和總體差異度H:

        式中:l代表特征數(shù)量;T(Li,Lj)代表特征Li與特征Lj之間的距離。

        對(duì)h(Li)進(jìn)行從大到小排序,選出其中最大值對(duì)應(yīng)的特征作為第1 個(gè)初始匹配中心hi1,將該特征從Y中刪除。從剩余特征中找出h(Li)最大值對(duì)應(yīng)的特征作為第2 個(gè)匹配中心hi2,h(Li)的歐氏距離為:

        當(dāng)d≥H時(shí),將特征入選為匹配中心,計(jì)算匹配中心余弦相似度,完成混合屬性特征匹配:

        至此完成多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法的研究。

        2 算法應(yīng)用測試

        2.1 多模態(tài)異構(gòu)大數(shù)據(jù)集

        為測試所研究算法在多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選中的應(yīng)用效果,將UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的4 個(gè)真實(shí)數(shù)據(jù)集作為測試樣本。多模態(tài)異構(gòu)大數(shù)據(jù)集基本情況如表1 所示。

        表1 多模態(tài)異構(gòu)大數(shù)據(jù)集描述

        2.2 數(shù)據(jù)特征提取與篩選結(jié)果

        針對(duì)4 個(gè)多模態(tài)異構(gòu)大數(shù)據(jù)集,在降維的基礎(chǔ)上提取每個(gè)集合的主成分作為其特征,計(jì)算每個(gè)特征的互信息完成特征篩選,結(jié)果如表2 所示。

        表2 數(shù)據(jù)特征提取與篩選結(jié)果

        從表2 中可以看出:集合1 篩選出7 個(gè)特征;集合2篩選出8 個(gè)特征;集合3 篩選出7 個(gè)特征;集合4 篩選出9 個(gè)特征。

        2.3 算法應(yīng)用效果

        基于篩選特征進(jìn)行每個(gè)數(shù)據(jù)集合中每條數(shù)據(jù)的特征匹配,根據(jù)匹配結(jié)果計(jì)算特征類中特征之間的緊密度,緊密度越大,代表匹配結(jié)果越準(zhǔn)確。計(jì)算公式如下:

        式中:xi、xj代表兩個(gè)特征;γ(xi-xj)代表特征之間的相似度。

        相同測試數(shù)據(jù)集合下,選擇文獻(xiàn)[3]方法(融合信息增益比和遺傳算法的混合式特征選擇算法)、文獻(xiàn)[4]方法(改進(jìn)人工魚群的ORB 特征匹配算法)和文獻(xiàn)[5]方法(一種多特征融合的特征匹配算法)作為對(duì)比方法,獲取不同方法下的緊密度結(jié)果,如圖1 所示。

        圖1 匹配緊密度結(jié)果

        從圖1 中可以看出,與文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和文獻(xiàn)[5]方法相比,所提算法的匹配緊密度較高,集合1、集合2、集合3、集合4 的匹配緊密度均高于0.8。這是因?yàn)樗崴惴ú粌H考慮了數(shù)據(jù)的維度和異構(gòu),還考慮了數(shù)據(jù)屬性之間的互信關(guān)系,從而能夠更加準(zhǔn)確地進(jìn)行特征匹配,提高多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配的效果。

        3 結(jié)語

        大數(shù)據(jù)中隱藏著較多具有價(jià)值屬性的信息,這些信息對(duì)于決策的制定和規(guī)劃具有重要作用。但是面對(duì)多模態(tài)異構(gòu)大數(shù)據(jù)挖掘時(shí),由于混合多種屬性數(shù)據(jù)的特點(diǎn),提高了數(shù)據(jù)挖掘難度。為此,本文提出一種多模態(tài)異構(gòu)大數(shù)據(jù)混合屬性特征匹配篩選算法,該算法在特征提取、篩選基礎(chǔ)上,將相似屬性的特征匹配,提高數(shù)據(jù)挖掘效果。在算法實(shí)現(xiàn)過程中,由于數(shù)據(jù)集的規(guī)模較大,計(jì)算復(fù)雜度較高,容易導(dǎo)致算法運(yùn)行效率較低。因此,在之后的研究中將結(jié)合本文研究結(jié)果,采用分布式計(jì)算方式進(jìn)一步優(yōu)化算法的計(jì)算效率,提高算法的魯棒性。

        猜你喜歡
        數(shù)據(jù)挖掘模態(tài)特征
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产精选污视频在线观看| 日本女优中文字幕在线播放| 亚洲精品国产精品乱码视色| 亚洲天堂av在线免费观看| 少妇高潮惨叫久久久久电影69 | 国产在亚洲线视频观看| 最新国产一区二区三区| 久久国产精品亚洲婷婷片| 天天天天躁天天爱天天碰| 亚洲AV激情一区二区二三区| 最新日本免费一区二区三区| 在线观看一级黄片天堂| 亚洲熟妇av一区| 野外性史欧美k8播放| 国内精品视频成人一区二区| 视频区一区二在线观看| 国产不卡视频一区二区三区| 亚洲av无码成人精品区在线观看 | 久久夜色精品国产噜噜麻豆| 中文不卡视频| 久久色悠悠综合网亚洲| 中文字幕亚洲无线码在线一区| a级国产乱理论片在线观看| 2021精品综合久久久久| 大陆成人精品自拍视频在线观看 | 被欺辱的高贵人妻被中出| 久久国产精品国语对白| 久久96国产精品久久久| 国产精品-区区久久久狼| 被驯服人妻中文字幕日本| 可免费观看的av毛片中日美韩| 看黄a大片日本真人视频直播| 国产精品自产拍在线18禁| 国产91在线精品观看| 亚洲欧美v国产一区二区| 97免费人妻在线视频 | 大地资源在线影视播放| 国产又色又爽无遮挡免费动态图| 少妇一级aa一区二区三区片| 成人偷拍自拍视频在线观看 | 极品美女销魂一区二区三|