朱維富,曾智霞,肖如良,4
1(福建師范大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福州 350117)2(福建省應(yīng)用數(shù)學(xué)中心(福建師范大學(xué)),福州 350117)3(福建師范大學(xué) 數(shù)字福建環(huán)境監(jiān)測(cè)物聯(lián)網(wǎng)實(shí)驗(yàn)室,福州 350117)4(福建師范大學(xué) 福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州 350007)
5G 技術(shù)的發(fā)展促使工業(yè)物聯(lián)網(wǎng)得到全面提升,使全球加速進(jìn)入第4 次工業(yè)革命時(shí)代[1].工業(yè)物聯(lián)網(wǎng)在提升生產(chǎn)效率的同時(shí),會(huì)產(chǎn)生海量、超高維、復(fù)雜異構(gòu)的實(shí)時(shí)流數(shù)據(jù),業(yè)界稱(chēng)之為工業(yè)數(shù)據(jù)流[2-4].這些流數(shù)據(jù)不能再做靜態(tài)數(shù)據(jù)假設(shè),數(shù)據(jù)量大實(shí)時(shí)性強(qiáng),又必須在有限內(nèi)存內(nèi)處理[5,6],從而工業(yè)物聯(lián)網(wǎng)所產(chǎn)生的海量實(shí)時(shí)數(shù)據(jù)給數(shù)據(jù)流聚類(lèi)分析帶來(lái)了巨大的挑戰(zhàn).
近年來(lái),數(shù)據(jù)流聚類(lèi)已經(jīng)成為了工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)挖掘分析的關(guān)鍵性研究領(lǐng)域,其目的是為了識(shí)別無(wú)界且無(wú)序觀測(cè)流中的模式[5,7,8].數(shù)據(jù)流聚類(lèi)技術(shù)通常是采用在線和離線兩個(gè)階段.在線階段主要通過(guò)優(yōu)化數(shù)量和更新簇的位置,以便更好地表示底層數(shù)據(jù);在離線階段提取相關(guān)信息,而不對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)并且重新評(píng)估所有的結(jié)果.數(shù)據(jù)流聚類(lèi)技術(shù)發(fā)展至今,主要可以分為這3 類(lèi):基于距離的流聚類(lèi)方法、基于網(wǎng)格的流聚類(lèi)方法、基于預(yù)測(cè)的流聚類(lèi)方法.
第1 類(lèi):基于距離的流聚類(lèi)方法.該類(lèi)方法是最流行的方法,它通過(guò)簡(jiǎn)單的插入規(guī)則來(lái)構(gòu)建簇,基于概要數(shù)據(jù)結(jié)構(gòu)來(lái)總結(jié)與簇相關(guān)的觀測(cè)值,而不存儲(chǔ)每個(gè)單獨(dú)的數(shù)據(jù)點(diǎn).最具有代表性的是:CluStream[9],DBSTREAM[10]以及BOCEDS[11]等.2003年,Aggarwal 等人提出了CluStream 算法[9].其算法核心思想主要是通過(guò)在線階段利用微族的概要存儲(chǔ)結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)流的匯總結(jié)果,并按金字塔式時(shí)間結(jié)構(gòu)將中間結(jié)果進(jìn)行保存;而其離線部分則根據(jù)用戶(hù)指定的觀察階段及聚類(lèi)數(shù)量,快速生成聚類(lèi)結(jié)果.在2016年,Baer 等人提出了DBSTREAM算法[10].該算法采用了微簇之間密度共享機(jī)制來(lái)確定所屬宏族,該機(jī)制利用保持微族的共享密度來(lái)作為它們之間的半徑,并且在離線階段具有高共享密度的微簇歸屬于同一個(gè)宏族.在2019年Islam 等人提出了BOCEDS 算法[11],它仍然采用了概要技術(shù)存儲(chǔ)微簇信息,該算法主要增加了一個(gè)緩存機(jī)制來(lái)處理數(shù)據(jù)流演化以及漂移問(wèn)題.
第2 類(lèi):基于網(wǎng)格的流聚類(lèi)方法.該類(lèi)方法通過(guò)網(wǎng)格將數(shù)據(jù)空間沿各維度進(jìn)行分隔,以創(chuàng)建多個(gè)網(wǎng)格結(jié)構(gòu).通過(guò)將數(shù)據(jù)點(diǎn)映射到單元格,可以保持密度估計(jì)[8].最具有影響力的代表性算法如:2007年Chen 等人提出的D-Stream 流聚類(lèi)方法[12],它將新的數(shù)據(jù)點(diǎn)映射到所屬單元格中,并通過(guò)將所有密集單元格分配給單個(gè)簇進(jìn)行初始化,并經(jīng)相鄰網(wǎng)格擴(kuò)展;還有2014年Amini等人所提出的HDCStream[13]以及其在2016年提出的Mudi-Stream[14]等.基于網(wǎng)格的流聚類(lèi)方法可以識(shí)別任意形狀的簇,這也是該方法所具備的重要特征.
第3 類(lèi):基于預(yù)測(cè)的流聚類(lèi)方法.該類(lèi)方法是一種高維數(shù)據(jù)流的流聚類(lèi)方法.該類(lèi)方法可以在數(shù)據(jù)流維度十分大的空間中識(shí)別簇,從而為高維數(shù)據(jù)流提供了一個(gè)利基.該類(lèi)方法最具有代表性的是:HPStream[15]、HDDStream[16]等.2004年Aggarwal 等人提出了HPStream 算法[15],它基于CluStream 算法[9]在高維上進(jìn)行了擴(kuò)展.通過(guò)定期采樣當(dāng)前簇的標(biāo)準(zhǔn)差,調(diào)整現(xiàn)有的聚類(lèi),使每個(gè)維度標(biāo)準(zhǔn)化,通過(guò)更新簇分配每個(gè)簇的關(guān)聯(lián)維度.在每個(gè)簇中暫定添加一個(gè)新的觀測(cè)點(diǎn),以更新維度.如果聚類(lèi)數(shù)據(jù)點(diǎn)不超過(guò)閾值則不增加聚類(lèi)半徑,且將其添加到最近的聚類(lèi)中.
以上方法各有優(yōu)點(diǎn):基于距離的流聚類(lèi)算法通常計(jì)算負(fù)荷低、基于網(wǎng)格的流聚類(lèi)算法可以識(shí)別任意形狀的簇;基于預(yù)測(cè)的流聚類(lèi)算法能有效應(yīng)對(duì)維度災(zāi)難.但是也存在如下的缺陷:基于距離的流聚類(lèi)算法往往依賴(lài)于參數(shù)的設(shè)定,基于網(wǎng)格的聚類(lèi)算法卻由于網(wǎng)格是動(dòng)態(tài)確定的而增加了計(jì)算負(fù)荷,而基于預(yù)測(cè)的流聚類(lèi)算法增加了宏族選擇子空間的復(fù)雜性.
面對(duì)著內(nèi)存受限、高維度災(zāi)難、低聚類(lèi)質(zhì)量以及低處理速度數(shù)據(jù)流特性來(lái)說(shuō),目前數(shù)據(jù)流聚類(lèi)研究主要存在著以下3 個(gè)方面的困難:
(1)對(duì)于持續(xù)、快速、以及高維數(shù)據(jù)流來(lái)說(shuō),數(shù)據(jù)源源不斷地流入,導(dǎo)致微簇?cái)?shù)量的持續(xù)性增加,聚類(lèi)方法中隱含高負(fù)荷剪枝操作.
(2)聚類(lèi)簇?cái)?shù)的確定一直是流聚類(lèi)方法中的困難問(wèn)題,同時(shí)聚類(lèi)簇?cái)?shù)也對(duì)聚類(lèi)質(zhì)量有非常大的影響.
(3)生產(chǎn)環(huán)境是開(kāi)放的,所產(chǎn)生的數(shù)據(jù)流會(huì)不斷演化,許多數(shù)據(jù)流聚類(lèi)方法未能將一些離核心微簇較遠(yuǎn)、信息量較少的微簇進(jìn)行異常檢測(cè).
針對(duì)工業(yè)物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)流的上述挑戰(zhàn)問(wèn)題,在我們小組已有的基礎(chǔ)性工作[17]的基礎(chǔ)之上,本文提出了一種新的工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流自適應(yīng)聚類(lèi)算法(簡(jiǎn)稱(chēng)MCStream).本文的方法與現(xiàn)有的方法完全不同,第一,在處理海量高維數(shù)據(jù)的聚類(lèi)上,目前基于密度的流聚類(lèi)算法對(duì)于參數(shù)值的變化很敏感,往往由于參數(shù)的細(xì)微變化在很大程度上影響了聚類(lèi)質(zhì)量;第二,在動(dòng)態(tài)數(shù)據(jù)聚類(lèi)過(guò)程中,存在著大量數(shù)據(jù)的插入以及移除操作,進(jìn)一步地引起大規(guī)模的交叉微簇連接操作,目前基于密度的流聚類(lèi)算法未能有效的解決這樣復(fù)雜計(jì)算問(wèn)題.本文算法引入一種新的引力能量函數(shù)的方法對(duì)參數(shù)進(jìn)行遞歸的更新操作,很好地解決了參數(shù)敏感性問(wèn)題,并且通過(guò)高斯核函數(shù)計(jì)算微簇密度峰值方式代替了大規(guī)模交叉微簇連接操作,進(jìn)一步地加快了數(shù)據(jù)流聚類(lèi)映射速度.因此本文的主要貢獻(xiàn)如下:
(1)提出了一種新的微簇構(gòu)建方法.該方法采用引力能量更新函數(shù),對(duì)微集群進(jìn)行遞歸在線更新;同時(shí)取消交叉微簇連接操作,從而達(dá)到微簇構(gòu)建與數(shù)據(jù)映射實(shí)時(shí)響應(yīng).
(2)提出了一種新的自適應(yīng)計(jì)算聚類(lèi)簇?cái)?shù)的方法.該方法以微簇作為參與宏簇聚類(lèi)的樣本數(shù)據(jù),利用各微簇的局部密度以及距離值,計(jì)算微簇的密度峰值,并通過(guò)這兩個(gè)變量值來(lái)自適應(yīng)求出聚類(lèi)簇?cái)?shù),從而更好地處理大規(guī)模數(shù)據(jù).
(3)構(gòu)建了一種新的檢測(cè)異常微簇的判定方法.該方法采用一個(gè)局部密度上界來(lái)標(biāo)識(shí)宏簇,以區(qū)分密集簇和離群簇,使異常族檢測(cè)更加精確.
工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流的自適應(yīng)聚類(lèi)方法是工業(yè)物聯(lián)網(wǎng)時(shí)代信息處理要解決的基本問(wèn)題.本文構(gòu)建了工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流挖掘總體框架.它主要分為:數(shù)據(jù)收集層,數(shù)據(jù)挖掘?qū)右约皵?shù)據(jù)應(yīng)用層,如圖1所示.由于工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)量巨大、協(xié)議標(biāo)準(zhǔn)眾多、安全性考慮不足等缺陷,數(shù)據(jù)收集層大多采用傳統(tǒng)傳感器技術(shù)來(lái)獲取數(shù)據(jù),如GPS、Network Flow 以及海量信息化數(shù)據(jù)等[4,18,19].數(shù)據(jù)挖掘?qū)咏邮諄?lái)自數(shù)據(jù)收集層中的數(shù)據(jù),以流的形式傳入處理器中;在數(shù)據(jù)挖掘?qū)又胁捎玫氖窍壤帽疚奶岢龅墓I(yè)物聯(lián)網(wǎng)自適應(yīng)聚類(lèi)技術(shù)進(jìn)行聚類(lèi)分析,再將聚類(lèi)結(jié)果集通過(guò)數(shù)據(jù)傳輸存儲(chǔ)到總服務(wù)器中.在數(shù)據(jù)應(yīng)用層中,數(shù)據(jù)存儲(chǔ)總服務(wù)器通過(guò)類(lèi)別分別傳入到對(duì)應(yīng)的應(yīng)用上,從而達(dá)到分布式管理.對(duì)數(shù)據(jù)達(dá)到針對(duì)性應(yīng)用.在對(duì)工業(yè)物聯(lián)網(wǎng)自適應(yīng)聚類(lèi)算法詳細(xì)介紹之前,我們先對(duì)工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流及其相關(guān)概念進(jìn)行介紹.
圖1 工業(yè)物聯(lián)網(wǎng)聚類(lèi)框架
定義1 (工業(yè)數(shù)據(jù)流).設(shè)D是一個(gè)工業(yè)數(shù)據(jù)流:D={xi}∞1,其中,{xi}代表著在t時(shí)刻到達(dá)的一個(gè)數(shù)據(jù)樣本,{xi∈Rd}代表著這個(gè)數(shù)據(jù)樣本點(diǎn)是一個(gè)d維向量.
定義2 (概念漂移).設(shè)x為特征向量,其中Pt(l|x)是x在t時(shí)刻的條件分布,隨著時(shí)間t的推移,x的條件分布滿足?x:Pt0(l|x)≠Pt1(l|x).即聚類(lèi)統(tǒng)計(jì)特性正在以不可見(jiàn)的方式進(jìn)行著變化,從而聚類(lèi)精度不斷地降低.
定義3 (微簇結(jié)構(gòu)).設(shè)mc表示一個(gè)微簇,該微族定義為一個(gè)六元組mc=(CNt,Nt,S Nt,C,θ,W),其中:
(1)CNt表示每個(gè)微簇核心區(qū)數(shù)據(jù)點(diǎn)數(shù),微簇核心區(qū)是指在距離微簇中心r/2 范圍內(nèi)的區(qū)域.
(2)Nt表示在t時(shí)刻數(shù)據(jù)點(diǎn)到來(lái)時(shí)相應(yīng)微簇的數(shù)據(jù)點(diǎn)數(shù),t+1 時(shí)刻使用式(1)更新.
(3)S Nt表示微簇殼區(qū)總樣本點(diǎn)數(shù),微簇殼區(qū)表示距離微簇核心r處邊緣;殼區(qū)數(shù)據(jù)點(diǎn)數(shù)用式(2)計(jì)算.每個(gè)微簇分為核心區(qū)和殼區(qū)兩部分.
(4)C為微簇中心,表示微簇在空間中的位置.Ctk表示在t時(shí)刻聚類(lèi)中心C的第K維所對(duì)應(yīng)的值;xkt表示在t時(shí)刻到來(lái)的數(shù)據(jù)點(diǎn)X第K維的值;隨著時(shí)間推移,數(shù)據(jù)點(diǎn)不斷到來(lái),微簇中心C會(huì)進(jìn)行更新改變,如式(3)所示.
(5)微簇的衰減因子我們使用 θ表示,表示單位時(shí)間內(nèi)到達(dá)的數(shù)據(jù)點(diǎn)數(shù)目,當(dāng)微簇需要進(jìn)行微簇更新時(shí),每更新一次權(quán)重都會(huì)進(jìn)行一次衰減因子的更新.
(6)Wt表示微簇的權(quán)重值,采用引力能量函數(shù)進(jìn)行遞歸在線更新;dis(xt+1,Ct)表示在t+1 時(shí)刻到來(lái)的數(shù)據(jù)點(diǎn)距離所屬微簇C的簇中心距離值;r表示微簇半徑.每個(gè)微簇的生存或者死亡都是依賴(lài)于微簇的權(quán)重,權(quán)重值等于或者小于0的微簇都不會(huì)參與到聚類(lèi)當(dāng)中,其中微簇權(quán)重更新使用式(4)進(jìn)行更新.
定義4 (核心簇).核心簇用CoreClusters 表示,在t時(shí)刻的核心簇中,簇總數(shù)據(jù)點(diǎn)數(shù)Nt>minPts最小密度值),微簇權(quán)重Wt>0,它存儲(chǔ)在主存儲(chǔ)器當(dāng)中.
定義5 (潛在核心簇).潛在核心簇用pCoreCluster 表示,在t時(shí)刻的潛在核心簇中,簇總數(shù)據(jù)點(diǎn)數(shù)Nt<minPts微簇權(quán)重值Wt>0,它代表目前這個(gè)簇由于數(shù)據(jù)點(diǎn)不足而無(wú)法構(gòu)成核心簇,但在未來(lái)時(shí)間內(nèi)有可能隨著數(shù)據(jù)點(diǎn)的增加而成為核心簇.
定義6 (離線緩沖簇).離線緩沖簇用OBuffer-Cluster 表示,在t時(shí)刻的離線緩沖簇中,簇總數(shù)據(jù)點(diǎn)數(shù)Nt>minPts,微簇權(quán)重Wt<0,它存儲(chǔ)在緩沖存儲(chǔ)器當(dāng)中,它表示核心簇由于隨著時(shí)間的增加權(quán)重逐漸降至為0 之后變成了離線緩沖簇,但它并不是就沒(méi)有關(guān)聯(lián)了,有可能在未來(lái)某一段時(shí)間它會(huì)隨著數(shù)據(jù)點(diǎn)的到來(lái)再次變?yōu)楹诵拇?
定義7 (微簇局部密度).微簇局部密度Pmi是簇群中與CoreCluster 之間的距離小于截?cái)嗑嚯xdmin的微簇.其中dij表示微簇i和微簇j中心點(diǎn)間的歐式距離.局部密度Pmi的計(jì)算方式可使用一種高斯核函數(shù)來(lái)進(jìn)行計(jì)算,見(jiàn)式(5).
定義8 (微簇距離).基于定義7,對(duì)微族局部密度進(jìn)行排序,當(dāng)微族qi的局部密度最大時(shí),微簇距離δqi的距離是微簇群中與qi最大的距離 m ax{δqj},否則表示簇群中所有微簇局部密度大于qi的微簇中與qi最近距離的微簇 min{dqidqj}.從而微簇距離 δqi可用式(6)計(jì)算.
在上述定義當(dāng)中,微簇中心是通過(guò)計(jì)算殼區(qū)域數(shù)據(jù)點(diǎn)的平均值,而不是通過(guò)計(jì)算整個(gè)簇?cái)?shù)據(jù)點(diǎn)的平均值,這是因?yàn)樗麄兺ㄟ^(guò)限制微簇的移動(dòng)來(lái)阻止微簇?zé)o休止地跟隨數(shù)據(jù)流的漂移[20],在聚類(lèi)過(guò)程中,只有核心簇參與到簇聚類(lèi),對(duì)于離群簇則會(huì)進(jìn)行移除操作,當(dāng)微簇CoreCluster 具有最大局部密度時(shí),δqi表示在核心簇CoreClusters 中與CoreCluster 距離最大的微簇點(diǎn)與CoreCluster 之間的距離;否則,δqi表示在所有局部密度大于CoreCluster的微簇點(diǎn)中,與CoreCluster 距離最小的那些微簇與CoreCluster 之間的距離.
本文算法主要分為6 個(gè)階段,分別為:初始化微族,微族映射,更新微族,移除離群族,構(gòu)建微族決策樹(shù),更新族圖.
在數(shù)據(jù)流D中第一個(gè)數(shù)據(jù)點(diǎn)到來(lái)時(shí)候,它不屬于任何簇結(jié)構(gòu),因此將創(chuàng)建一個(gè)微簇來(lái)存儲(chǔ)信息.這一步與之后的新的微簇創(chuàng)建同時(shí)發(fā)生.微簇的創(chuàng)建首先要初始化特征向量.新簇的簇中心C和半徑r定義了微簇在數(shù)據(jù)空間中位置以及覆蓋范圍;簇中心C初始設(shè)置為xi,衰減因子θ是根據(jù)相關(guān)應(yīng)用程序的專(zhuān)家知識(shí)所設(shè)置的,殼數(shù)據(jù)點(diǎn)數(shù)據(jù)以及微簇?cái)?shù)據(jù)點(diǎn)數(shù)都設(shè)置為1.這些值被記錄以用來(lái)對(duì)微簇中心的遞歸更新,權(quán)重W值是用來(lái)確定微簇群的時(shí)間長(zhǎng)度;它是使用一個(gè)時(shí)間衰減函數(shù)來(lái)進(jìn)行遞歸更新,這在后面詳述.當(dāng)數(shù)據(jù)點(diǎn)到來(lái)之時(shí),它會(huì)判斷是否存在簇結(jié)構(gòu);如果不存在,則會(huì)創(chuàng)建一個(gè)微簇結(jié)構(gòu).
在任意t時(shí)刻,數(shù)據(jù)流D={xi}∞1中數(shù)據(jù)點(diǎn)xi到達(dá)的時(shí)候,該算法首先將計(jì)算數(shù)據(jù)點(diǎn)xi與微簇的歐式距離;如果距離dis滿足式(7),則將數(shù)據(jù)點(diǎn)映射到所屬微簇當(dāng)中.數(shù)據(jù)點(diǎn)有可能映射3 種微簇集合當(dāng)中.
第1 種就是參與集群聚類(lèi)的核心簇(CoreClusters),第2 種就是潛在核心簇(pCoreCluster),第3 種就是存儲(chǔ)在緩沖器當(dāng)中的離線緩沖簇(OBufferCluster).為了找到目標(biāo)微簇,該算法首先計(jì)算核心簇與數(shù)據(jù)點(diǎn)xi的歐式距離.如果滿足式(7),則將數(shù)據(jù)點(diǎn)映射到核心簇當(dāng)中,并記錄該核心簇索引.如果在核心簇中沒(méi)有找到,則同尋找核心簇方法一樣在另外兩種微簇集群當(dāng)中進(jìn)行映射.如果數(shù)據(jù)點(diǎn)xi即滿足核心簇的映射條件也滿足其他一種或者兩種核心簇,則選擇將該數(shù)據(jù)點(diǎn)映射到核心簇當(dāng)中.
在圖像預(yù)對(duì)于集群當(dāng)中任何微簇結(jié)構(gòu).任何一個(gè)微簇集群只要接收到了新數(shù)據(jù),那么該微簇結(jié)構(gòu)的概要信息都會(huì)進(jìn)行更新.如果在t時(shí)刻數(shù)據(jù)點(diǎn)屬于核心簇CoreCluster,那么將會(huì)使用式(1)更新微簇?cái)?shù)據(jù)點(diǎn)的數(shù)量;如果它是映射到核心簇殼區(qū)域,那么會(huì)使用式(3)更新映射微簇中心.這種簇中心更新機(jī)制是為了防止微簇集群由于數(shù)據(jù)點(diǎn)的增加而出現(xiàn)數(shù)據(jù)漂移,并且會(huì)使用式(2)更新殼區(qū)數(shù)據(jù)點(diǎn)的數(shù)量.使用式(4)更新微簇權(quán)重.
如果數(shù)據(jù)點(diǎn)xti是映射到核心區(qū)域,則不會(huì)進(jìn)行簇中心的更新.如果數(shù)據(jù)點(diǎn)xti映射到潛在核心簇pCoreCluster,那么同核心簇一樣會(huì)對(duì)所映射的pCoreCluster 概要信息進(jìn)行更新;并且會(huì)對(duì)pCoreCluster 微簇?cái)?shù)據(jù)樣本點(diǎn)進(jìn)行判斷,看是否滿足Nt>minPts.如果滿足,則將該映射pCoreCluster 移入到核心簇當(dāng)中,并從潛在核心簇去除該簇.如果數(shù)據(jù)點(diǎn)映射到離線緩沖簇當(dāng)中,那么在同核心簇一樣更新微簇概要之后還會(huì)將該簇從離線緩沖簇中移除;并將它移入核心簇當(dāng)中,這是由于數(shù)據(jù)流的演化特性.由于在數(shù)據(jù)演化過(guò)程中微簇權(quán)重可能會(huì)越來(lái)越低,當(dāng)它權(quán)重低于0 則會(huì)與當(dāng)前數(shù)據(jù)流無(wú)關(guān);但是在未來(lái)某一段時(shí)間有可能會(huì)隨著新的數(shù)據(jù)的到來(lái)而重新相關(guān);因此它會(huì)被重新移入核心簇當(dāng)中參與集群聚類(lèi).
伴隨著流數(shù)據(jù)的不斷流入,在數(shù)據(jù)點(diǎn)不斷地映射到微簇群之后;該算法會(huì)對(duì)所有簇群中的微簇進(jìn)行權(quán)重更新.在核心簇、潛在核心簇、離線緩沖簇中,由于有些微簇持續(xù)性沒(méi)有新的數(shù)據(jù)映射進(jìn)來(lái);其微簇權(quán)重都會(huì)不斷地降低,這也體現(xiàn)著數(shù)據(jù)流演化特性.對(duì)于核心簇群來(lái)說(shuō),每個(gè)核心微簇如果權(quán)重小于0,那么該微簇將會(huì)從核心簇當(dāng)中移入緩沖簇中;并且會(huì)對(duì)其能量設(shè)置為原有初始能量的一半.而在對(duì)潛在核心簇以及離線緩沖簇來(lái)說(shuō);如果長(zhǎng)時(shí)間的沒(méi)有新的數(shù)據(jù)對(duì)其微簇進(jìn)行更新,那么說(shuō)明這些微簇跟數(shù)據(jù)流內(nèi)容長(zhǎng)期無(wú)關(guān)并且是正在消亡的微簇.對(duì)于流式算法來(lái)說(shuō)低內(nèi)存是其中一個(gè)不可或缺的評(píng)價(jià)標(biāo)準(zhǔn);因此這些正在消亡的微簇就需要從內(nèi)存中永久性的移除.
當(dāng)核心簇以及其他兩個(gè)簇群發(fā)生改變時(shí),該算法會(huì)進(jìn)行維護(hù)聚類(lèi)圖操作.而對(duì)于聚類(lèi)我們都需要保證聚類(lèi)中心的密度最大,以及各個(gè)微簇聚類(lèi)中心的距離相對(duì)較遠(yuǎn).只有這樣才能讓各簇之間區(qū)分明顯,并且自適應(yīng)的確定宏簇聚類(lèi)簇?cái)?shù).
在微簇進(jìn)行更新之后.為了獲取根據(jù)核心簇的數(shù)據(jù)特性而自適應(yīng)的求出微簇所需要聚類(lèi)簇?cái)?shù);我們首先需要計(jì)算核心微簇群當(dāng)中所有微簇之間相互的歐式距離值.通過(guò)計(jì)算這個(gè)距離值可以構(gòu)建一個(gè)核心微簇的距離矩陣.在獲取到距離矩陣后我們通過(guò)對(duì)這個(gè)距離進(jìn)行排序以此來(lái)獲取一個(gè)截?cái)嗑嚯xdmin;其中等于比dmin更接近核心簇i的數(shù)據(jù)點(diǎn)數(shù).由于這個(gè)值的選擇跟核心簇中不同的微簇距離相關(guān),因此dmin的選擇是魯棒性的.通過(guò)式(5)可知,與微簇i之間的距離小于dc的越多,那么與微簇i的局部密度就越大.當(dāng)微簇i為核心簇局部密度最大的點(diǎn)時(shí),我們通過(guò)計(jì)算與微簇i距離最大的點(diǎn)的距離;而對(duì)于其他局部密度的微簇,則通過(guò)計(jì)算比它局部密度更大的點(diǎn)中距離最小的微簇之間的距離;通過(guò)這兩個(gè)值,我們可以直觀的反應(yīng)聚類(lèi)中心的特性.局部密度大以及各聚類(lèi)中心之間相差很遠(yuǎn).
在簇圖更新中,我們?cè)谑?5)得到了微簇局部密度以及距離.我們將每一個(gè)參與聚類(lèi)的微簇作為一個(gè)數(shù)據(jù)點(diǎn).首先將每個(gè)微簇的局部密度以及距離進(jìn)行歸一化處理;然后將他們的乘積λ作為以微簇為聚類(lèi)點(diǎn)的聚類(lèi)中心的評(píng)判標(biāo)準(zhǔn).如果微簇C[i]是聚類(lèi)中心,并且屬于第k簇,那么將其宏簇屬性設(shè)定為k;如果不是微簇,那么將其屬性賦值為-1.在所有聚類(lèi)中心確定之后,我們需要對(duì)非聚類(lèi)中心微簇進(jìn)行歸類(lèi)操作.這里是按照密度值從大到小的順序進(jìn)行的遍歷;這樣做可以逐層的擴(kuò)充每一個(gè)微簇.微簇通過(guò)這兩步操作,即完成了聚類(lèi)中心及微簇的歸類(lèi)操作.我們進(jìn)一步將每個(gè)宏簇分為cluster core 以及cluster halo 兩類(lèi);這里是通過(guò)屬性來(lái)進(jìn)行標(biāo)識(shí).對(duì)于cluster core,是指那些局部密度較大者;而對(duì)于cluster halo是指那些局部密度較小的,我們通過(guò)了為每一個(gè)宏簇設(shè)定一個(gè)局部密度平均上界來(lái)確定cluster core 以及cluster halo.這樣能將離聚類(lèi)中心以及信息量較少的微簇進(jìn)行標(biāo)識(shí).
算法時(shí)間的消耗主要來(lái)源于數(shù)據(jù)點(diǎn)的映射以及簇圖的聚類(lèi)過(guò)程,假設(shè)在T時(shí)刻M維數(shù)據(jù)流產(chǎn)生了N個(gè)微簇,數(shù)據(jù)點(diǎn)映射時(shí)間與微簇?cái)?shù)以及維度呈正相關(guān)關(guān)系,因此在數(shù)據(jù)點(diǎn)映射的時(shí)間復(fù)雜度為O(MN),在簇圖聚類(lèi)過(guò)程中,假設(shè)產(chǎn)生了d個(gè)核心簇,產(chǎn)生了K個(gè)類(lèi),所需時(shí)間復(fù)雜度為O (d2),因此本文算法整體時(shí)間復(fù)雜度為O(MN)+O(d2).
該算法內(nèi)存消耗主要來(lái)源于微簇的存儲(chǔ)以及簇圖的存儲(chǔ),維度為M的數(shù)據(jù)流產(chǎn)生了N個(gè)微簇且其中產(chǎn)生了C個(gè)核心簇,在簇圖聚類(lèi)過(guò)程中,d個(gè)核心簇在簇圖聚類(lèi)過(guò)程中聚成了K個(gè)類(lèi),因此本文算法整體空間復(fù)雜度為O (N+d),且d?N.
進(jìn)行對(duì)于任何聚類(lèi)算法來(lái)說(shuō),空間復(fù)雜度以及時(shí)間復(fù)雜度兩個(gè)值都決定著聚類(lèi)的優(yōu)劣.而對(duì)于流聚類(lèi)算法來(lái)說(shuō),微簇?cái)?shù)量的邊界決定著算法運(yùn)行速度以及空間存儲(chǔ)需求,因此我們針對(duì)本文算法分析了在每一個(gè)周期內(nèi)微簇?cái)?shù)量M的邊界值.
對(duì)于每一個(gè)時(shí)間周期內(nèi),微簇?cái)?shù)量M的產(chǎn)生總是滿足:
證明:在任意的一個(gè)時(shí)間周期上,衰減因子 θ是從數(shù)據(jù)流中在一個(gè)單位時(shí)間內(nèi)到達(dá)的數(shù)據(jù)點(diǎn)數(shù),由于數(shù)據(jù)點(diǎn)最新映射到潛在核心簇中,但參與聚類(lèi)的簇為核心簇,潛在核心簇到核心簇滿足條件至少需要minPts個(gè)數(shù)據(jù)點(diǎn),因此在一個(gè)時(shí)間內(nèi)核心簇的最大數(shù)量為從而核心簇在一個(gè)周期內(nèi)滿足的微簇?cái)?shù),由于離線緩沖簇是來(lái)自核心簇,且權(quán)重比為核心簇的1/2,因此離線緩沖簇的數(shù)量跟核心簇的數(shù)量成正比,從而離線緩沖簇在一個(gè)周期內(nèi)產(chǎn)生的微簇?cái)?shù)滿足:
因此,對(duì)于一個(gè)時(shí)間周期內(nèi),該算法所產(chǎn)生的微簇?cái)?shù)量M為C_of_c,即:
假設(shè)Wt為某一時(shí)間窗口,Ct為當(dāng)前時(shí)間,Ts為Ct-Wt時(shí)間之前任意序列中最后一次存儲(chǔ)微簇概要信息的時(shí)間,那么Ct-Ts≤2·Wt.
證明:設(shè)δ是最小整數(shù),β是一個(gè)整數(shù)且 β≥1,βδ表示第δ 次存儲(chǔ)微簇概要信息時(shí)間間隔使得 βδ≥Wt.那么βδ-1≥Wt.因?yàn)榭梢灾来嬖谛蛄袨?δ-1)的β微簇概要信息,則在Ct-Wt之前必須始終存在至少一個(gè)序列為(δ-1)的微簇概要信息,讓Ts是發(fā)生在Ct-Wt之前的(δ-1)微 簇概要信息,那么Ct-Wt-Ts≤βδ-1.從而滿足:
為驗(yàn)證本文所提出流聚類(lèi)方法的先進(jìn)性,下面將與當(dāng)前已發(fā)表的同類(lèi)前沿方法進(jìn)行對(duì)比試驗(yàn),針對(duì)各項(xiàng)性能進(jìn)行評(píng)測(cè).所設(shè)定的實(shí)驗(yàn)PC 硬件環(huán)境為:RAM 12 GB,主頻2.4 GHz;操作系統(tǒng)Windows 10 專(zhuān)業(yè)版,語(yǔ)言平臺(tái):Python 3.6.我們使用了多個(gè)數(shù)據(jù)集來(lái)仿真工業(yè)物聯(lián)網(wǎng)中海量傳感器數(shù)據(jù).在快速處理、有限內(nèi)存的約束下,流聚類(lèi)技術(shù)的高聚類(lèi)質(zhì)量是我們的追求目標(biāo),而聚類(lèi)純度、聚類(lèi)精度是評(píng)價(jià)聚類(lèi)質(zhì)量的重要指標(biāo),因此我們擬采用與目前基于密度的聚類(lèi)算法分別從數(shù)據(jù)點(diǎn)處理速度,聚類(lèi)純度以及算法內(nèi)存消耗3 個(gè)方面進(jìn)行對(duì)比,并設(shè)計(jì)了3 組實(shí)驗(yàn).
根據(jù)以上3 個(gè)方面,所進(jìn)行的3 組實(shí)驗(yàn)如下.
實(shí)驗(yàn)1.測(cè)試不同數(shù)據(jù)流長(zhǎng)度對(duì)各類(lèi)密度聚類(lèi)算法處理能力進(jìn)行對(duì)比.
實(shí)驗(yàn)2.比較不同聚類(lèi)算法的平均聚類(lèi)純度.
實(shí)驗(yàn)3.設(shè)置不同衰減因子,測(cè)試CMStream 算法從低維到高維數(shù)據(jù)流處理的響應(yīng)時(shí)間.
工業(yè)物聯(lián)網(wǎng)所產(chǎn)生的數(shù)據(jù)數(shù)量龐大,超高維度,因此為了更好驗(yàn)證CMStream 算法在工業(yè)物聯(lián)網(wǎng)環(huán)境的性能,我們使用了3 個(gè)海量、高維的數(shù)據(jù)集,為了讓數(shù)據(jù)集仿真真實(shí)環(huán)境,本文通過(guò)時(shí)間窗口的形式將靜態(tài)數(shù)據(jù)集進(jìn)行動(dòng)態(tài)化模擬測(cè)試.
(1)KDDCUP’99:數(shù)據(jù)集包含4 898 431 個(gè)實(shí)例,每個(gè)實(shí)例包含著41 維向量,它產(chǎn)生于現(xiàn)代工業(yè)的網(wǎng)絡(luò)流量記錄.
(2)Bag of Words:數(shù)據(jù)集包含著8 000 000 條實(shí)例,每個(gè)實(shí)例包含著100 000 維向量,它從收集于文本數(shù)據(jù)集.
(3)EPM:數(shù)據(jù)流包含著230 318 條數(shù)據(jù)集,每個(gè)數(shù)據(jù)集13 維向量,它是一個(gè)學(xué)習(xí)分析數(shù)據(jù)集.
(1)CEDAS[20]:2016年Hyde 等人提出了CEDAS算法.該算法是一種基于完全在線的算法將演化數(shù)據(jù)流聚成任意形狀的簇,它主要分為兩個(gè)階段,一個(gè)是微簇維護(hù)階段,一個(gè)是宏簇聚類(lèi)階段.
(2)DBCLPG[21]:2019年Halim 等人提出了DBCLPG 算法.該算法是基于密度的大概率圖聚類(lèi),與其他算法不同的是,它在聚類(lèi)過(guò)程是利用節(jié)點(diǎn)度以及鄰域信息為引導(dǎo),通過(guò)圖的密度對(duì)大概率圖進(jìn)行聚類(lèi).
(3)BOCEDS[11]:2018年Islam 等人提出了BOCEDS 算法.該算法是一種基于緩沖區(qū)的演化數(shù)據(jù)流在線聚類(lèi)方法,在CEDAS[20]的基礎(chǔ)上提出了一個(gè)緩存機(jī)制來(lái)存儲(chǔ)無(wú)關(guān)微簇以及從這個(gè)緩沖區(qū)提取暫時(shí)無(wú)關(guān)微簇的在線剪枝聚類(lèi)算法.
(4)microTEDAclus[22]:2019年Maia 等人提出了microTEDAclus 算法.該算法是基于典型性混合的進(jìn)化聚類(lèi)算法,基于TEDA 框架所提出來(lái)的,將聚類(lèi)問(wèn)題劃分為兩個(gè)子問(wèn)題,一個(gè)是微簇構(gòu)建,一個(gè)是微簇進(jìn)化成宏簇.
為了探究在隨著數(shù)據(jù)集中數(shù)據(jù)點(diǎn)不斷流入的情況下MCStream 算法聚類(lèi)處理速度,以及對(duì)于在同樣數(shù)據(jù)集長(zhǎng)度下不同維度數(shù)據(jù)集的聚類(lèi)處理速度,在實(shí)驗(yàn)過(guò)程中,我們分別與當(dāng)前最前沿的多個(gè)方法如:CEDAS[20]方法DBCLPG[21]方法microTEDAclus[22]方法以及BOCEDS[11]方法在不同維度的數(shù)據(jù)集上進(jìn)行了對(duì)比.我們?cè)跀?shù)據(jù)集EPM 以及KDDCUP’99 分別設(shè)置不同長(zhǎng)度來(lái)測(cè)試這些聚類(lèi)算法的處理速度 (如圖2、圖3所示),其中每1 000 個(gè)數(shù)據(jù)點(diǎn)設(shè)置為一個(gè)時(shí)間窗口長(zhǎng)度,圖3顯示了MCStream以及其他算法在不同維度數(shù)據(jù)集上響應(yīng)時(shí)間.
圖2 在EPM 數(shù)據(jù)集上測(cè)試對(duì)MCStream 算法進(jìn)行測(cè)試
從圖2、圖3中可以看出,MCStream 聚類(lèi)算法隨著數(shù)據(jù)點(diǎn)的不斷增大在聚類(lèi)處理時(shí)間上明顯低于其他聚類(lèi)算法.而且在圖2的結(jié)果數(shù)據(jù)中可以看出,面對(duì)著數(shù)據(jù)量更大以及維度更高的EPM 數(shù)據(jù)流來(lái)說(shuō),各類(lèi)聚類(lèi)算法處理時(shí)間長(zhǎng)度都顯著增加.這是由于維度大小與時(shí)間復(fù)雜度存在著線性關(guān)系.對(duì)于CEDAS[20]以及BOCEDS[11]來(lái)說(shuō),隨著數(shù)據(jù)量不斷增加,微簇?cái)?shù)量也呈線性增加;而創(chuàng)建新的微簇來(lái)維護(hù)簇群以及更新微簇的邊緣,這是一個(gè)十分巨大的耗時(shí)任務(wù).MCStream算法都是明顯優(yōu)于其他聚類(lèi)算法,這說(shuō)明MCStream算法聚類(lèi)算法可以在較低的處理時(shí)間和延遲代價(jià)來(lái)擴(kuò)展到更高維的數(shù)據(jù)空間中.
圖3 在KDDCUP’99 數(shù)據(jù)集上測(cè)試對(duì)MCStream 算法進(jìn)行測(cè)試
本組實(shí)驗(yàn)的目的是為了研究MCStream 算法在數(shù)據(jù)流中聚類(lèi)的純度從而反映其聚類(lèi)性能.在評(píng)價(jià)聚類(lèi)的指標(biāo)中聚類(lèi)純度是其中比較流行的一種評(píng)價(jià)方法,在式(9)給出了純度的詳細(xì)定義.
其中,K是所有宏簇?cái)?shù),m是所有參與聚類(lèi)的數(shù)據(jù)點(diǎn)數(shù),mi是聚類(lèi)i中所有數(shù)據(jù)點(diǎn)數(shù),mij是聚類(lèi)i中數(shù)據(jù)類(lèi)j的數(shù)據(jù)點(diǎn)數(shù),這里取平均值是為了降低誤差性.
目前在據(jù)流聚類(lèi)時(shí)比較受歡迎一類(lèi)流聚類(lèi)數(shù)據(jù)集是KDDCUP’99 數(shù)據(jù)集,它可以測(cè)試不斷演化的數(shù)據(jù)流聚類(lèi)算法.我們通過(guò)以500 個(gè)數(shù)據(jù)點(diǎn)為一個(gè)長(zhǎng)度分別設(shè)置不同長(zhǎng)度來(lái)測(cè)試CEDAS[20]、DCLPG[21]、micro TEDAclus[22]、BOCEDS[11]以及本文提出的MCSTream在該數(shù)據(jù)集中聚類(lèi)純度,實(shí)驗(yàn)結(jié)果在圖4柱狀圖中顯示.
圖4 測(cè)試不同算法的聚類(lèi)純度
從圖4數(shù)據(jù)中可以看出,在不同的時(shí)期聚類(lèi)純度都有所不同,在后期所有聚類(lèi)純度都有所降低.這是因?yàn)殡S著數(shù)據(jù)流長(zhǎng)度的不斷增長(zhǎng),微簇?cái)?shù)量也在不斷增加,數(shù)據(jù)點(diǎn)錯(cuò)分的概率也隨著線性增加,從而降低聚類(lèi)純度.盡管這樣,MCStream 聚類(lèi)算法仍然保持了一個(gè)平穩(wěn)的較高聚類(lèi)純度.這是由于在宏簇聚類(lèi)中MCStream移除了信息量較少且離簇中心較遠(yuǎn)卻又參與到宏簇聚類(lèi)的異常簇,從而保證了高質(zhì)量聚類(lèi),這表明MCStream算法在大規(guī)模數(shù)據(jù)集上有著良好的穩(wěn)定性.
在本文所規(guī)劃的實(shí)驗(yàn)中,需要設(shè)定相關(guān)參數(shù)以研究權(quán)重衰減因子對(duì)聚類(lèi)響應(yīng)速度,以及對(duì)于聚類(lèi)精度的影響.
聚類(lèi)精度的定義在式(10)中給出,該公式中變量與式(9)中的變量定義是一樣的.在本實(shí)驗(yàn)中,我們?cè)诟呔S數(shù)據(jù)流Bag of Words 以及KDDCUP’99 中分別測(cè)試了不同衰減因子在不同維度對(duì)于MCStream 聚類(lèi)反應(yīng)時(shí)間,以及不同衰減因子對(duì)于聚類(lèi)精度的影響.為了模擬數(shù)據(jù)流的大規(guī)模性,本文采取了以1 000 個(gè)數(shù)據(jù)點(diǎn)為一個(gè)數(shù)據(jù)窗口長(zhǎng)度,設(shè)置不同數(shù)據(jù)流長(zhǎng)度的方式對(duì)MCStream 算法進(jìn)行測(cè)試.圖3的實(shí)驗(yàn)結(jié)果顯示了不同衰減因子在不同維度下算法MCStream 對(duì)于每個(gè)數(shù)據(jù)點(diǎn)的平均處理速度.在圖4的柱狀圖中顯示了對(duì)于不同的衰減因子對(duì)于聚類(lèi)精度的影響.
從圖5可以看出,各類(lèi)算法在不同維度下無(wú)論設(shè)置什么衰減因子其處理速度都在顯著的增加.這是因?yàn)閿?shù)據(jù)維度是和時(shí)間復(fù)雜度呈線性相關(guān),維度的升高,數(shù)據(jù)映射時(shí)間也會(huì)顯著性增加.而對(duì)于衰減因子來(lái)說(shuō),衰減因子是和微簇?cái)?shù)量呈正相關(guān).衰減因子增加會(huì)導(dǎo)致權(quán)重衰減得越慢,從而微簇?cái)?shù)量勢(shì)必會(huì)增加,這對(duì)于新數(shù)據(jù)點(diǎn)所歸屬簇群的映射計(jì)算量也會(huì)顯著性增強(qiáng).從簇群方面來(lái)說(shuō),微簇的量增加,那么對(duì)于維護(hù)簇群壓力也會(huì)增大.因此,衰減因子越大,數(shù)據(jù)點(diǎn)平均處理延遲也會(huì)越大.
圖5 不同衰減因子在不同維度上對(duì)數(shù)據(jù)點(diǎn)處理速度
從圖6可以看出,隨著衰減因子不斷增加,各類(lèi)聚類(lèi)算法的聚類(lèi)精度也會(huì)隨之下降,這是因?yàn)樯鲜鏊f(shuō)的衰減因子與微簇?cái)?shù)量呈正相關(guān).微簇?cái)?shù)量的增加,將會(huì)導(dǎo)致異常微簇?cái)?shù)量增加,從而導(dǎo)致整體聚類(lèi)精確度降低.對(duì)CEDAS[20]以及BOCEDS[11]來(lái)說(shuō),微簇?cái)?shù)量的增加,會(huì)把更多的異常簇加入到聚類(lèi)宏簇當(dāng)中;而對(duì)于MCStream 來(lái)說(shuō),由于在宏簇聚類(lèi)過(guò)程中有一個(gè)平均局部密度上界來(lái)區(qū)分一些邊緣微簇,從而大大提升了聚類(lèi)的精度.
圖6 不同衰減因子參數(shù)下對(duì)聚類(lèi)精度的影響
在本部分我們通過(guò)使用了3 個(gè)數(shù)據(jù)集在處理時(shí)間、聚類(lèi)純度、精確度以及衰減參數(shù)上分別驗(yàn)證了基于微簇結(jié)構(gòu)的流聚類(lèi)算法的有效性.實(shí)驗(yàn)結(jié)果表明MCStream 具有較高的聚類(lèi)能力,然而對(duì)于高維數(shù)據(jù)仍然對(duì)聚類(lèi)處理時(shí)間有著較大的影響.在與流數(shù)據(jù)聚類(lèi)算法進(jìn)行對(duì)比的過(guò)程中,我們不僅得出了高速聚類(lèi)的重要性,也驗(yàn)證了MCStream的有效性和高效性.
工業(yè)物聯(lián)網(wǎng)產(chǎn)生的工業(yè)數(shù)據(jù)流具有無(wú)限、高維、無(wú)序的特點(diǎn),因此構(gòu)建高質(zhì)量自適應(yīng)流式聚類(lèi)算法處理工業(yè)數(shù)據(jù)流具有十分重要的意義.本文提出了一種工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流自適應(yīng)聚類(lèi)算法,根據(jù)微簇的高密度性,將每一個(gè)微簇作為一個(gè)參與聚類(lèi)的數(shù)據(jù)樣本點(diǎn),計(jì)算每個(gè)微簇的局部密度以及微簇之間的距離,通過(guò)微簇的局部密度以及微簇距離來(lái)構(gòu)建宏簇聚類(lèi)決策樹(shù)從而確定聚類(lèi)中心以及自適應(yīng)確定宏簇聚類(lèi)數(shù).并且通過(guò)引入了引力能量函數(shù)來(lái)不斷地更新微簇權(quán)重,從而來(lái)移除老化的微簇以防止概念演化以及數(shù)據(jù)漂移問(wèn)題.此外,本文方法去除了微簇構(gòu)建過(guò)程中相交微簇之間的計(jì)算,維護(hù)了宏觀簇所需的最小計(jì)算量.通過(guò)在3 個(gè)仿真的大規(guī)模數(shù)據(jù)流中對(duì)算法從多個(gè)方面進(jìn)行了評(píng)測(cè),并且與當(dāng)前前沿的聚類(lèi)算法進(jìn)行了充分的比較,證明了該算法具有顯著性?xún)?yōu)勢(shì).由于該算法面向的是稠密數(shù)據(jù)集,面對(duì)著稀疏數(shù)據(jù)集時(shí)由于會(huì)產(chǎn)生大量單個(gè)稀疏微簇,聚類(lèi)質(zhì)量會(huì)顯著性降低.
目前,工業(yè)物聯(lián)網(wǎng)正發(fā)展迅猛,其數(shù)據(jù)結(jié)構(gòu)越來(lái)越復(fù)雜,其規(guī)模也越來(lái)越大.在未來(lái)工作中,我們將進(jìn)一步提高算法在大規(guī)模稀疏數(shù)據(jù)集上的處理效果,提高算法在現(xiàn)實(shí)工業(yè)領(lǐng)域的適應(yīng)性.