亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交互基函數(shù)的數(shù)據(jù)流聚類算法研究

        2024-03-25 02:04:54黃承寧姜麗莉徐平平
        計算機技術與發(fā)展 2024年3期
        關鍵詞:警戒數(shù)據(jù)流聚類

        黃承寧,李 莉,姜麗莉,徐平平

        (1.南京工業(yè)大學浦江學院,江蘇 南京 211222;2.東南大學 信息科學與工程學院,江蘇 南京 210096)

        0 引 言

        數(shù)據(jù)流是一種潛在的海量、連續(xù)、快速的數(shù)據(jù)信息序列,引起了數(shù)據(jù)挖掘領域的極大關注和研究熱潮[1]。在人類生活的各個方面都存在數(shù)據(jù)流,如網(wǎng)絡媒體傳輸?shù)谋O(jiān)測信息、煤礦傳感器傳輸?shù)男畔ⅰ⒕W(wǎng)站信息、金融和證券公司產(chǎn)生的經(jīng)濟信息、天氣預報信息等。由于這種形式的數(shù)據(jù)海量且實時更新,傳統(tǒng)的聚類方法無法對其進行處理,因此迫切需要新的聚類方法[2]。目前,已經(jīng)有很多數(shù)據(jù)流聚類方法被提出,不過均根據(jù)傳統(tǒng)數(shù)據(jù)的聚類算法擴展而來,且均沒有考慮到特征之間的關系。

        該文提出將交互基函數(shù)(IBFs)引入數(shù)據(jù)流聚類,結合模糊ART算法,考慮特征的自交互與交叉交互,以相對較低的計算成本生成靈活決策邊界來找到最優(yōu)聚簇,實現(xiàn)了聚類高精度與低錯誤率,提高了算法的數(shù)據(jù)流聚類質(zhì)量。

        1 數(shù)據(jù)流聚類與自適應諧振理論

        1.1 數(shù)據(jù)流聚類

        數(shù)據(jù)流具有內(nèi)在的特性,包括無限大小、時間順序和動態(tài)變化。與傳統(tǒng)的數(shù)據(jù)挖掘相比,數(shù)據(jù)流挖掘只是在滿足單次通過、實時響應、有界內(nèi)存和概念漂移檢測等約束條件下產(chǎn)生近似結果。

        數(shù)據(jù)流(DS)定義為數(shù)據(jù)對象或樣本序列或為一個帶有時間戳(Time Stamp)的多維數(shù)據(jù)點集合:DS={x1,x2,…,xn},其中xn為第n個到達的數(shù)據(jù)對象(實際應用中n的取值可以為無限大[3-4])。其中每個數(shù)據(jù)點是一個d維的數(shù)據(jù)記錄,其到達時間為ti。

        數(shù)據(jù)流聚類將DS中的相似對象劃分為一個或多個組(稱為“簇”,Cluster),劃分后,同一簇中的元素彼此相似,但相異于其他簇中的元素。

        針對高維、動態(tài)、實時的特點,目前不少研究者都已經(jīng)提出了許多有效的數(shù)據(jù)流聚類算法,但數(shù)據(jù)流信息是不確定的,總是存在離群點且包含噪聲[5],傳統(tǒng)的聚類方法無法對其進行處理,因此發(fā)現(xiàn)新的數(shù)據(jù)流聚類方法越來越迫切。

        目前從實際應用看,數(shù)據(jù)流聚類基本都面臨著許多共性問題[6-7]:(1)內(nèi)存有限:數(shù)據(jù)流中的數(shù)量往往是龐大的,不可能在內(nèi)存和硬盤中存儲整個數(shù)據(jù)流;(2)一次掃描:因為巨大的數(shù)據(jù)量,傳統(tǒng)的掃描方法不再適用,在對數(shù)據(jù)的訪問只能單次線性,也就是只按順序依次讀取一次,不能進行隨機訪問;(3)實時響應:大多數(shù)應用程序要求快速響應,因此挖掘應該是一個連續(xù)的在線過程;(4)概念漂移:數(shù)據(jù)分布經(jīng)常隨時間變化。目前典型的數(shù)據(jù)流聚類算法包括REPSTREAM,ACSC,G-Stream,MR-Stream,CellTree以及RPGStream等[8]。

        1.2 自適應諧振理論

        自適應諧振理論(ART)[9]是一種學習模型,它模擬人腦捕獲,識別和記憶有關對象和事件的信息,既是一種認知理論,也是一種關于大腦如何在不斷變化的世界中快速學會分類、識別和預測物體和事件的神經(jīng)理論。該文提出的算法便是在模糊自適應諧振理論基礎上引入交互基函數(shù)(IBFs)[10]擴展進行數(shù)據(jù)流聚類,從而提升聚類精度與質(zhì)量。

        模糊自適應諧振理論的體系結構由用于接收輸入模式的輸入層F1和用于聚類的類別層F2組成[11],如圖1所示,輸入層F1包含的輸入向量被提交到網(wǎng)絡,與識別層F2中各個類簇的權值向量進行相似度比較并歸類。

        圖1 模糊ART結構

        模糊ART使用模糊算法并引入一個“補編碼”[12]來解決“類別擴散”問題。模糊ART執(zhí)行步驟如下:

        (1)類別選擇:對于每個輸入模式I,模糊ART根據(jù)選擇函數(shù)為識別層F2中的每個聚簇計算一個選擇值,并標識具有最大值的聚簇為獲勝聚簇,第j個簇的選擇函數(shù)定義為:

        (1)

        (2)模板匹配:使用匹配函數(shù)Mj*評估輸入模式I與獲勝聚簇Cj*之間的相似性,該函數(shù)定義為:

        (2)

        如果獲勝聚簇Cj*滿足警戒標準Mj*≥ρ,會發(fā)生諧振,從而導致步驟3的中心學習。否則,將在其余聚類中選擇新的獲勝聚簇。如果沒有獲勝聚簇滿足警戒標準,則將生成一個新的聚簇來對輸入模式進行編碼。

        (3)中心學習:如果Cj*滿足警戒標準,其對應的權重向量Wj*將通過函數(shù)進行更新,定義為:

        (3)

        模糊ART中基于警戒準則計算的簇的VR是由特征空間中與簇關聯(lián)的區(qū)域幾何定義的,它從幾何上解釋了模糊ART的警戒準則,認為落入VR的輸入模式與相應的簇相似,而VR的形狀和功能行為則取決于補編碼的使用[13]。

        2 基于交互基函數(shù)的數(shù)據(jù)流聚類

        2.1 交互基函數(shù)

        如前所述,用于訓練的特征構成了問題的基礎向量。例如,當特征數(shù)量p=2時,搜索空間是由特征的正交軸形成的平面,每個特征都是一個基向量。三個特征形成三維基礎,以此類推。如果把一個特征看作一個基向量,基函數(shù)就是一個變換。在最簡單的情況下,基函數(shù)可以是等式:

        f(X)=X

        (4)

        多項式函數(shù)的一個特殊情況,即當a=1:

        f(X)=Xa

        (5)

        f(X)=(1-X)a

        (6)

        也可以定義其它基函數(shù),例如指數(shù):

        f(X)=(eX)a

        (7)

        回歸分析中常用的是基函數(shù),它們具有改變回歸平面性質(zhì)的作用。例如,從恒等式到變量的平方的轉換具有將回歸線變?yōu)閽佄锞€的效果。但DTs(決策樹)[14]中基函數(shù)的使用并沒有同樣的效果。考慮K個實函數(shù)bi的一般情況:R→R,i=1,2,…,K,稱{f1,f2,…,fK}為一組基函數(shù)。然后利用基函數(shù)得到的T個新特征擴充p個特征集:

        X*=(X1,…,Xp,Xp+1,…,Xp+T)

        (8)

        并且X*∈RP+T,Xp+i=fsi(Xji),i=1,2,…,T,si∈{1,2,…,K},ji∈{1,2,…,p}。

        由于基函數(shù)在原基中仍然產(chǎn)生正交劃分,筆者的建議是在構造X*時使用兩個或多個特征之間的交互信息。這些交互不同于自交互,可以通過一組D函數(shù)來識別,這些M函數(shù)通過基函數(shù)來再現(xiàn)特征變換的功能交互,這些交互函數(shù)被定義為:

        hhi:Rpk→Rh

        (9)

        (b1(X1),b1(X2),…,bk(Xp))

        (10)

        此設置下,定義:

        X*=(X1,…,Xp,Xp+1,…,Xp+D)

        (11)

        Xp+i=hi(b1(X1),b1(X2),…,bk(Xp))
        i=1,2,…,D

        (12)

        通過將標準遞歸劃分方法應用X*上,并考慮到特征之間的相互作用,在X上的投影將提供一個斜劃分(最終也可能是非線性的)。

        IBFs提供的框架不僅允許誘導出斜劃分,還允許誘導出非線性決策邊界[16-17]。這是通過在數(shù)據(jù)集中特征生成的子空間X=(X1,X2,…,Xp)中投影方程hi(b1(X1),b1(X2),…,bk(Xp))=a來完成的。

        2.2 基于交互基函數(shù)的數(shù)據(jù)流聚類算法

        基于交互基函數(shù)的特性,在實驗中將IBFs引入模糊ART,提出IBFs_ART算法,用于對數(shù)據(jù)流進行聚類。通過對原始輸入特征進行分數(shù)階變換,誘導出單一的超參數(shù),在實現(xiàn)上比模糊ART更具靈活性,且進一步提升聚類精度。

        IBFs_ART算法通過分數(shù)階交互基函數(shù)(IBFs)對模糊ART進行了擴展,提出了一種新的生成柔性決策邊界的策略。目標是評估IBFs在IBFs_ART中的表現(xiàn)。當樣本x={x1,x2,…,xd}即將到來時,每個特征在[0,1]中被歸一化。對于IBFs,用d個新特征來擴大d個特征的集合:

        x*=(x1,x2,…,xd,xd+1,xd+2,…,x2d)

        (13)

        其中,使用自交互時x*∈R2d,xd+j=fp(xj),p∈{1,2,…,K}。使用交叉交互時xd+j=g1(f1(x1),f2(x2),…,fK(xd))。

        考慮如下函數(shù):

        f1(xj)=(xj)a

        (14)

        f2(xj)=(1-xj)a

        (15)

        f3(xj)=(exj)a

        (16)

        (17)

        IBFs_ART算法如下所示:

        輸入:DS={x1,x2,…,xn}

        輸出:節(jié)點集合C={c1,c2,…,cn}和權值W={Wc1,Wc2,…,Wcn}

        (1):for eachxn

        (4):使用公式1計算選擇函數(shù),求出活動節(jié)點Λ(Λ∈C)

        (5):從活動節(jié)點中查找獲勝聚簇J:J=argj∈Λmax(Tj)

        (6):使用公式2計算匹配函數(shù);

        (7):if獲勝聚簇J滿足Mj≥ρ

        (8):使用學習函數(shù)(3)更新獲勝聚簇J

        (9):else

        (10):類別J:Λ←Λ-J

        (11):if活動節(jié)點Λ≠?then

        (12):返回執(zhí)行第5步

        (13):else

        (14):J=|C|+1

        (15):創(chuàng)建新的聚類:C←C∪J

        (16):初始化新的聚類:wj=I

        (17):end if

        (18):end if

        (19):end if

        3 實驗與結果

        3.1 實驗環(huán)境

        本次實驗計算機配置為Inter Core i7-7500U 2.90 GHz處理器和4 GB內(nèi)存,Windows10 操作系統(tǒng),所有比較程序均在MATLAB上設計和運行。

        3.1.1 數(shù)據(jù)集

        為了對聚類的有效性進行更好的評價,在實驗中采用了人工數(shù)據(jù)集和真實數(shù)據(jù)集,見表1。

        表1 數(shù)據(jù)集

        Letter4由Java代碼https://github.com/feldob/生成。它包括9 344個樣本,2個維度和7個類。

        KddCup99來源于林肯實驗室的一項入侵檢測評估項目,仿真各種不同的用戶類型、網(wǎng)絡流量和攻擊手段,記錄了9周內(nèi)TCP網(wǎng)絡連接和系統(tǒng)審計數(shù)據(jù)。包含約50萬條連接記錄,這些記錄含1種正常的標識類型和22種訓練攻擊類型,共有23個類,每個連接記錄包含41個維度。

        CoverType來源于某國家森林的四片荒野區(qū)域的觀測。共包含581 012條記錄,分為7種類型,每條觀測記錄包含54個維度。

        Powersupply來源于意大利某電力公司的供電數(shù)據(jù),記錄兩個電能:來自主電網(wǎng)的電能和來自其他電網(wǎng)的電能。該流包含2015年至2018年三年供電記錄。數(shù)據(jù)變化主要來自季節(jié)、天氣、一天的時間(例如早晚),以及工作日和周末的差異。它由29 928個樣本,2個維度,24個類組成。

        3.1.2 聚類評價指標

        為了評價算法性能,引入了三種評價指標:

        (1)Accuracy(purity)。

        (18)

        (2)NMI(normalized mutual information)。

        NMI是一個量化兩個分布之間共享的統(tǒng)計信息的對稱度量,當類簇標簽和樣本類別之間存在一對一的映射時,NMI值達到最大為1.0。A為真實聚簇A={A1,A2,…,Ak},B為通過某個聚類算法得到的聚簇B={B1,B2,…,Bh},C為混淆矩陣,C中的元素Cij表示既在A中又在B中的樣本個數(shù)。

        (19)

        其中,CA(CB)為聚簇A,B同時在矩陣C中的簇數(shù)目,Ci.(C.j)為C中第i行的元素和;N為樣本個數(shù)。

        (3)RI(rand index)。

        RI(蘭德指數(shù))的計算公式為:

        (20)

        3.2 實驗結果

        首先評價IBFs_ART的聚類質(zhì)量,并從Acc,NMI和RI三個方面與G-Stream(警戒參數(shù)較多)以及模糊ART(Fuzzy ART,只有一個警戒參數(shù))進行了比較。對于自交互,使用公式5~7,對于特征交互,使用以下三個函數(shù):

        (21)

        (22)

        (23)

        每個算法重復實驗10次,聚類結果如表2~4所示。通過實驗,發(fā)現(xiàn)取不同的ρ值,IBFs_ART算法從三個方面的評價幾乎都可以找到一個a值(選取1/2和1/4值),使其性能指標均優(yōu)于模糊ART,且性能指標得到不小提升,驗證了IBFs_ART算法的優(yōu)越性。

        表2 IBFs_ART和其他數(shù)據(jù)流聚類算法Acc比較結果

        表3 IBFs_ART和其他數(shù)據(jù)流聚類算法NMI比較結果

        表4 IBFs_ART和其他數(shù)據(jù)流聚類算法RI比較結果

        續(xù)表4

        通過實驗評估了不同警戒參數(shù)ρ的IBFs_ART的性能,該參數(shù)控制了當輸入樣本與類別發(fā)生共振時,隨后是否允許該類別學習樣本。實驗中選擇合理的警戒值ρ可以允許發(fā)現(xiàn)有用的簇,而不需要對許多敏感參數(shù)值進行微調(diào)。圖2~5顯示了IBFs_ART在4個數(shù)據(jù)集上使用Acc,NMI和RI三個評價指標展示警戒參數(shù)ρ的敏感性。

        圖2 IBFs_ART對于Letter4數(shù)據(jù)集ρ的敏感性 圖3 IBFs_ART對于Kddcup99數(shù)據(jù)集ρ的敏感性

        圖4 IBFs_ART對于CoverType數(shù)據(jù)集ρ的敏感性 圖5 IBFs_ART對于Powersupply數(shù)據(jù)集ρ的敏感性

        通過實驗,首先評價了IBFs_ART的聚類質(zhì)量,并從Acc,NMI和RI三個方面將G-Stream以及模糊ART方法進行了比較,并且IBFs_ART同時采用了自交互與交叉交互。其次,采用不同的警戒參數(shù)值進行實驗,證明了警戒參數(shù)對算法的影響。大量的數(shù)據(jù)結果證明,IBFs_ART可以達到更好的聚類效果與更高性能。

        4 結束語

        數(shù)據(jù)流是一種潛在的海量、連續(xù)、快速的數(shù)據(jù)信息序列,引起了數(shù)據(jù)挖掘領域的極大關注和研究熱潮。而聚類又是數(shù)據(jù)挖掘的有效工具,因此數(shù)據(jù)流聚類無疑是數(shù)據(jù)流挖掘研究的重點。該文將交互基函數(shù)引入到模糊ART中,構造IBFs_ART算法,經(jīng)過和原先算法的對比實驗,驗證了該算法能夠提高聚類精度且只需要較低的計算成本,在Acc,NMI和RI三個方面都比傳統(tǒng)算法模型更好,且底層模糊ART遞增執(zhí)行聚類的過程并沒有改變,也就意味著IBFs_ART算法可以在任何算法中實現(xiàn),可用于數(shù)據(jù)流聚類算法的任何擴展。

        猜你喜歡
        警戒數(shù)據(jù)流聚類
        汽車維修數(shù)據(jù)流基礎(下)
        步兵班前進——警戒(XV)
        步兵班前進——警戒(ⅩⅣ)
        步兵班前進——警戒(XII)
        步兵班前進——警戒(Ⅶ)
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于改進的遺傳算法的模糊聚類算法
        基于數(shù)據(jù)流聚類的多目標跟蹤算法
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        亚洲欧美v国产蜜芽tv| 亚洲 日韩 激情 无码 中出 | 国产av专区一区二区三区| 亚洲国产精品无码久久九九大片健| 中文字幕人妻少妇美臀| 日本一区人妻蜜桃臀中文字幕| 天天色天天操天天日天天射| 97色伦图片97综合影院| 亚洲精品无码久久久影院相关影片| 美丽的熟妇中文字幕| 91福利视频免费| 大陆啪啪福利视频| 国产精品女同二区五区九区| 不卡一区二区三区国产| 日本熟妇另类一区二区三区| 潮喷失禁大喷水aⅴ无码| 亚洲精品无码成人a片| 欧美精品区| 中国免费av网| 人妻少妇av中文字幕乱码| 秋霞在线视频| 夜先锋av资源网站| 久久6国产| 曰本亚洲欧洲色a在线| 日本女同性恋一区二区三区网站| 亚洲精品国产第一区二区| 国产精品v片在线观看不卡| 亚洲欧美日韩精品高清| 尤物AV无码色AV无码麻豆| 精品少妇人妻av一区二区蜜桃| 欧美v国产v亚洲v日韩九九| 免费1级做爰片1000部视频| 荡女精品导航| 国产粉嫩高清| 日产一区二区三区的精品 | 免费无码不卡视频在线观看 | 水蜜桃视频在线观看免费18 | 久久免费看黄a级毛片| 成人国产精品一区二区视频| 亚洲男人第一av网站| 91久久国产情侣真实对白|