亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非顯著特征數(shù)據(jù)挖掘中SOM聚類算法的優(yōu)化

        2023-10-29 01:49:28許麗娟葉仕通
        計算機仿真 2023年9期
        關(guān)鍵詞:數(shù)據(jù)挖掘神經(jīng)元代表

        許麗娟,葉仕通

        (廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣東 廣州 511300)

        1 引言

        在數(shù)據(jù)泛濫的當(dāng)下,對于興趣推薦、故障檢測、圖像處理、傳感數(shù)據(jù)融合等應(yīng)用方面,數(shù)據(jù)挖掘需要面對越來越艱巨的挑戰(zhàn)[1]。對于一些傳統(tǒng)應(yīng)用需求,其任務(wù)就是對信息流進行主特征的識別,比較流行的處理手段通常包括特征提取、關(guān)聯(lián)規(guī)則,以及一些結(jié)合生物智能的聚類等[2]。數(shù)據(jù)特征深入研究可以分為顯著與非顯著,目前這些算法的提出主要針對顯著特征的檢測識別,很少有專門針對非顯著特征的算法,對于當(dāng)前日益增長的復(fù)雜應(yīng)用場景,已經(jīng)很難滿足實際應(yīng)用需求。比如存在稀疏甚至非規(guī)則數(shù)據(jù),或者鄰域范圍內(nèi)存在離群現(xiàn)象的場景,會因噪聲數(shù)據(jù)引入很多偽點,影響數(shù)據(jù)挖掘精度的同時,也增加了挖掘耗時,使算法性能整體被拉低[3,4]。

        為了增強對信息的識別性能,一些學(xué)者已經(jīng)關(guān)注到非顯著特征的數(shù)據(jù)處理領(lǐng)域。文獻[5]為了降低視頻圖像檢測的精度偏差,先將原始數(shù)據(jù)采取濾波操作,得到初步特征域,再根據(jù)SUSAN搜索其中的角點,推導(dǎo)灰度差異,最終完成特征識別。由于該算法是基于視頻圖像設(shè)計的,盡管在實驗中表現(xiàn)出優(yōu)秀的魯棒性,可是很難將其遷移到數(shù)據(jù)的檢索和挖掘應(yīng)用中。文獻[6]先對數(shù)據(jù)采取分解,再把各分解屬性做匹配計算,從而得到特征分類。經(jīng)過在云計算數(shù)據(jù)庫上的仿真測試,驗證了該算法擁有良好的實時性,而在精度方面還有欠缺。文獻[7]針對多噪聲干擾引入濾波操作,為防止濾波發(fā)散設(shè)計了協(xié)方差比較,并采用模糊推理進行結(jié)果糾正?;谠朴嬎闫脚_的數(shù)據(jù)實驗,驗證了該算法對于傳感數(shù)據(jù)融合的可靠性,但是對于子域內(nèi)的一些特征挖掘效果不夠理想。

        由于數(shù)據(jù)挖掘的目標(biāo)就是確定數(shù)據(jù)發(fā)展傾向,這與聚類的目標(biāo)不謀而合,而SOM[8]因其在文本處理上表現(xiàn)出良好的學(xué)習(xí)性,本文提出SOM與聚類算法結(jié)合,完成對非顯著特征數(shù)據(jù)的挖掘。在傳統(tǒng)的一些SOM模型設(shè)計中,由于神經(jīng)元規(guī)模過于龐大,使得本應(yīng)歸為一類的特征卻未被支配到同一個神經(jīng)元[9],因此對特征分類結(jié)果產(chǎn)生嚴(yán)重干擾。而當(dāng)前對SOM的優(yōu)化模型,大部分是對數(shù)據(jù)特征的逼近效果做改善處理,從而也帶來了算法過擬合的詬病。本文基于時頻分析和寬平穩(wěn)過濾,來得到非顯著特征。并基于修正鏈接權(quán)重的SOM模型進行特征訓(xùn)練,最終改善聚類的敏感性和適應(yīng)性,增強對非顯著特征的挖掘效果。

        2 非顯著特征挖掘

        假定原始數(shù)據(jù)為U={u1,u2,…,ue},其中任意元素都是矢量,將非顯著特征基于頻域進行分析,得到頻域方程如下

        ue=Uef+δeL(t)

        (1)

        f代表特征傳函;δe代表估計偏差;L(t)代表負載平衡模型,公式如下

        (2)

        wi代表相位;φi代表融合程度;ε代表修正程度;F(Ci+τi)是擬合操作。通過寬平穩(wěn)特征,對特征采取過濾,公式如下

        (3)

        (4)

        hi表示發(fā)送載波。通過時頻域的分析,可以完成非顯著特征的提取,以及擬合處理。在采用學(xué)習(xí)網(wǎng)絡(luò)對特征數(shù)據(jù)進行挖掘訓(xùn)練的過程中,應(yīng)該保證符合如下限定

        (5)

        ri(k)是序號為i的非顯著特征。訓(xùn)練的期望公式如下

        (6)

        η是常系數(shù);δ是訓(xùn)練偏差。

        此外,在訓(xùn)練過程中,由于離群因子對特征分類的具有明顯的影響作用,于是這里針對非顯著特征將其進行重新定義。假定任意數(shù)據(jù)r,它的相似k近鄰記作SK(r)={r1,r2,…,rl+1},l表示r鄰域范圍內(nèi)的對象數(shù)量,且鄰域范圍內(nèi)對象包含r自身。根據(jù)r的鄰域情況,將離群因子公式表示如下

        (7)

        其中,Q(r)表示r的鄰域?qū)ο蠹?dis(i)表示對象i的相似k距離。

        3 SOM網(wǎng)絡(luò)聚類模型

        SOM作為神經(jīng)元聚類,具有無監(jiān)督學(xué)習(xí)優(yōu)勢。利用輸入與神經(jīng)元的比較,決定網(wǎng)絡(luò)輸出結(jié)果,且每次比較輸出具有唯一性。所有輸出根據(jù)加權(quán)值向輸入靠攏,直至全部近似特征完成匯集為止。

        圖1描述了SOM的神經(jīng)元模型。其中,input為特征向量,表示為I={im|m=1,…,k},m代表I的維度。經(jīng)過比較篩選,獲勝的神經(jīng)元來到output層,對于任意獲勝神經(jīng)元n,加權(quán)值可以描述成Wn={ωmn|m=1,…,k;n=1,…,d},d代表output神經(jīng)元數(shù)量。由input層的I與加權(quán)值,就可以得到如下的歐氏距離求解公式

        圖1 SOM網(wǎng)絡(luò)模型

        (8)

        對于SOM學(xué)習(xí)網(wǎng)絡(luò),ωmn代表的含義為input層第m維向量和output層第n個篩選結(jié)果的鏈接權(quán)重。利用式(1),求解出最小dn(I)所對應(yīng)的神經(jīng)元。并以此神經(jīng)元作為基準(zhǔn),在一定范圍內(nèi)對其加權(quán)值進行調(diào)節(jié),從而保證和input層向量的自適應(yīng)近似性。在SOM模型中,output層篩選出的神經(jīng)元數(shù)量對于最終結(jié)果有著重要影響。如果output層的輸出不足,則會使得分類不夠細致;而如果output層的輸出超量,則會使得網(wǎng)絡(luò)產(chǎn)生很多無效節(jié)點?;诖?本文提出如下方式計算output層輸出數(shù)量

        d=nc+as0+b

        (9)

        nc代表聚類的個數(shù);s0代表原始節(jié)點規(guī)模;a代表s0的影響因子;0

        根據(jù)加權(quán)值的變化范圍,SOM鏈接加權(quán)的更新公式為

        ω′mn=N(t)·Rm(t)·(in-ωmn)

        (10)

        t代表學(xué)習(xí)進行至第t輪;N(t)代表學(xué)習(xí)率;Rm(t)代表加權(quán)值的搜索空間。在學(xué)習(xí)輪次增加過程中,由于輸出逐漸趨于穩(wěn)定,學(xué)習(xí)率也將逐漸降低。

        通過以上自組織投影,SOM便能夠?qū)崿F(xiàn)input層樣本的訓(xùn)練工作,在ωmn作用下使網(wǎng)絡(luò)輸出結(jié)果穩(wěn)定接近輸入I。再經(jīng)過屬性計算,就可以達到聚類結(jié)果至output層神經(jīng)元的投影計算。雖然此時的SOM中,任意樣本僅存在唯一的活動神經(jīng)元,可以有效保證ωmn和I具有相同的分布狀態(tài),但是為了能夠令ωmn和所屬類具有更好的擬合效果,需要對ωmn的調(diào)節(jié)方式采取進一步完善。引入加權(quán)調(diào)節(jié)修正因子,于是鏈接加權(quán)的更新過程描述為

        ω′mn=N(t)·Rm(t)·(in-ωmn)+N(t)·C(t)

        (11)

        C(t)是修正向量,表示為

        C(t)={c1(t),c2(t),…,ck(t)}

        (12)

        其中,ck(t)是目標(biāo)函數(shù),它的數(shù)量由輸入向量的維度決定,函數(shù)具體形式為

        (13)

        (14)

        假定α與β滿足高斯分布,則根據(jù)maxck(t)能夠推導(dǎo)出如下關(guān)系

        (15)

        Trace(·)表示對矩陣對角線進行累加計算;T表示Hessen矩陣。

        通過C(t)糾正神經(jīng)元之間的鏈接加權(quán)。由于ck(t)值和逼近程度成反比關(guān)系,因此,糾正過程就是尋求最小ck(t)過程?;诖?再根據(jù)正則因子對糾正的過程進行約束,從而限定ck(t)值,防止出現(xiàn)過擬合現(xiàn)象。

        4 仿真與結(jié)果分析

        4.1 仿真數(shù)據(jù)集

        仿真前,通過電商平臺搜集五類商品數(shù)據(jù),將其映射成固定格式作為原始數(shù)據(jù)集,具體的實例與特征情況如表1中所描述?;赑ython的gensim對數(shù)據(jù)采取向量構(gòu)造,并實現(xiàn)SOM訓(xùn)練模型。訓(xùn)練過程中鄰域半徑是0.3,學(xué)習(xí)率是0.5,原始節(jié)點規(guī)模的影響因子a=1,最大迭代數(shù)量是1000此。

        表1 初始數(shù)據(jù)集

        4.2 聚類效果仿真

        圖2是對數(shù)據(jù)1進行非顯著特征聚類的結(jié)果,實驗設(shè)定了5個非顯著特征的類別。

        圖2 聚類結(jié)果

        通過可視化結(jié)果可以看出,經(jīng)過SOM訓(xùn)練后,確實出現(xiàn)了5個非顯著特征的聚集簇,其它類型數(shù)據(jù)分散周圍。

        為了定量分析所提SOM優(yōu)化算法的聚類性能,引入如下評價指標(biāo):

        1)準(zhǔn)確率,用于衡量被正確分類的樣本占全部樣本的比例,計算公式為

        (16)

        Ncorrect代表被正確分類的樣本數(shù)量;Ntotal代表全部樣本數(shù)量。ACC值越大,意味著聚類算法的識別效果越好。

        2)凝聚程度,用于衡量分類中樣本之間的耦合程度,計算公式為

        (17)

        n代表聚類的數(shù)量;Ni代表聚類i中樣本數(shù)量;i代表聚類i中錯誤分類的樣本數(shù)量;ai代表與聚類i產(chǎn)生關(guān)聯(lián)的神經(jīng)元數(shù)量。C值越大,意味著樣本聚類的越為緊湊,內(nèi)斂效果越好。

        將本文提出的改進SOM聚類與傳統(tǒng)SOM算法做性能比較,針對5個數(shù)據(jù)集,分別得到兩種聚類算法的ACC值與C值,結(jié)果比較如圖3和圖4。

        圖3 準(zhǔn)確率對比

        圖4 凝聚程度對比

        由ACC的結(jié)果可得,改進SOM算法對于不同數(shù)據(jù)集的聚類處理差異相對較小,平均準(zhǔn)確率達到97.44%。而傳統(tǒng)SOM聚類對于不同數(shù)據(jù)集的處理敏感度很高,聚類準(zhǔn)確度波動明顯,平均準(zhǔn)確率僅為92.87%。這表明改進SOM算法具有良好的適應(yīng)性與魯棒性。

        從凝聚程度對比可得,在5中數(shù)據(jù)集測試中,改進SOM算法的最高凝聚程度達到0.553,平均凝聚程度為0.493。而傳統(tǒng)SOM的最高凝聚程度為0.478,平均凝聚程度僅為0.353。這表明改進SOM算法的輸出結(jié)果具有更好的低耦合高內(nèi)斂效果。

        聚類效果的改善,主要得益于鏈接權(quán)重計算時采用了修正因子,并采取貝葉斯對鏈接權(quán)重進行更新計算,保證了算法對不同維度不同類型數(shù)據(jù)的適應(yīng)性和識別率。

        4.3 數(shù)據(jù)挖掘效果仿真

        為了衡量數(shù)據(jù)挖掘性能,對算法的準(zhǔn)確性和執(zhí)行時間進行仿真測試。采用文獻[5]、文獻[6]和文獻[7]中算法,以及傳統(tǒng)SOM算法作為比較,引入均方根誤差和執(zhí)行時間指標(biāo)。其中,均方根誤差計算方式如下

        (18)

        RMSE值越小,意味著數(shù)據(jù)挖掘的準(zhǔn)確性越高。

        關(guān)于RMSE的結(jié)果對比如圖5所示。通過不同算法的比較可得,SOM優(yōu)化算法的RMSE指標(biāo)較文獻[5]、文獻[6]、文獻[7],以及傳統(tǒng)SOM算法分別降低了0.307、0.125、0.062、0.640,對非顯著特征數(shù)據(jù)挖掘精度得到明顯提升。

        圖5 RMSE結(jié)果對比

        關(guān)于各算法的執(zhí)行時間對比如圖6所示。通過比較可得,SOM優(yōu)化算法的執(zhí)行時間雖然不是最短的,但是已經(jīng)能夠滿足當(dāng)前數(shù)據(jù)規(guī)模下的挖掘需求,且同時保證良好可靠的挖掘準(zhǔn)確性。

        圖6 執(zhí)行時間對比

        5 結(jié)束語

        本文針對非顯著特征數(shù)據(jù)挖掘存在的問題,采取時頻分析結(jié)合濾波算法的方式,降低稀疏與噪聲影響。同時考慮到特征訓(xùn)練網(wǎng)絡(luò)的非監(jiān)督性,引入SOM,并對其output輸出和鏈接權(quán)重的更新方式分別進行了優(yōu)化設(shè)計。通過多個數(shù)據(jù)集上的可視化結(jié)果與數(shù)值結(jié)果,證明了改進SOM具有很高的準(zhǔn)確度和凝聚程度;在非特征數(shù)據(jù)挖掘時,在較小的執(zhí)行時間內(nèi),能夠保證較低的挖掘誤差,各項數(shù)據(jù)充分表明所提算法在非特征數(shù)據(jù)挖掘方面的性能優(yōu)勢。

        猜你喜歡
        數(shù)據(jù)挖掘神經(jīng)元代表
        詮釋代表初心 踐行人大使命
        四季的代表
        《從光子到神經(jīng)元》書評
        自然雜志(2021年6期)2021-12-23 08:24:46
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “代表通道”新觀察
        這個代表咋這么拗
        躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于二次型單神經(jīng)元PID的MPPT控制
        免费a级毛片18以上观看精品| 久久精品国产亚洲av沈先生| 日本黑人乱偷人妻在线播放| 337p人体粉嫩胞高清视频| 国产小受呻吟gv视频在线观看| 丰满人妻被黑人中出849| 免费一本色道久久一区| 国产av一区二区内射| 国产白浆在线免费观看| 日夜啪啪一区二区三区| 国产午夜精品理论片| 日本大片在线一区二区三区| 亚洲午夜狼人综合影院| 无码国模国产在线观看| 亚洲av日韩aⅴ无码电影| 精品午夜中文字幕熟女| av在线高清观看亚洲| 国产精品精品自在线拍| 久久97精品久久久久久久不卡| 亚洲精品一区二区三区播放| 给我看免费播放的视频在线观看| 大地资源在线观看官网第三页| 亚洲熟妇少妇69| 亚洲中文字幕永久网站| 国产精品视频自拍在线| 久久久精品456亚洲影院| 亚洲是图一区二区视频| 国产精品美女主播一区二区| 医院人妻闷声隔着帘子被中出| av无码精品一区二区三区四区| 亚洲国产一区二区三区,| 有坂深雪中文字幕亚洲中文| 国产乱码一二三区精品| 一本大道久久东京热无码av| 亚洲免费精品一区二区| 精品国产第一国产综合精品| 妺妺窝人体色www在线图片| 日韩精品极品在线观看视频| 91中文人妻熟女乱又乱| 天堂影院一区二区三区四区| 国产成人av综合色|