亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

檔案管理中文本數(shù)據(jù)的增量多模態(tài)聚類方法

2022-06-21 06:15:16劉麗華

重慶大學(xué)學(xué)報(bào) 2022年5期

劉麗華

(內(nèi)蒙古財(cái)經(jīng)大學(xué) 檔案館，呼和浩特 010010)

海量檔案文本數(shù)據(jù)急劇增長(zhǎng)，也伴隨著文本數(shù)據(jù)描述的多樣化[1]。例如，一則新聞消息可以通過(guò)不同的語(yǔ)言進(jìn)行表達(dá)和傳播；一個(gè)文本可以利用不同的特征描述(Word2Vec、TF-IDF等)進(jìn)行分析。這樣的數(shù)據(jù)稱為多模態(tài)數(shù)據(jù)，不同領(lǐng)域或不同描述形式可以代表一種模態(tài)。通常，不同模態(tài)之間可以為語(yǔ)義相同的數(shù)據(jù)對(duì)象相互補(bǔ)充信息，結(jié)合多個(gè)模態(tài)的數(shù)據(jù)信息對(duì)一個(gè)物體進(jìn)行描述相比于單模態(tài)可以更加全面地了解該物體的特征并且精準(zhǔn)對(duì)該物體進(jìn)行辨別。另外，隨著檔案文本不斷增長(zhǎng)，給檔案管理帶來(lái)了一定困難，有效對(duì)檔案數(shù)據(jù)進(jìn)行聚類、劃分，能夠按主題對(duì)檔案文本進(jìn)行分類管理，便于后期查閱、處理。

近年來(lái)多模態(tài)文本數(shù)據(jù)聚類或分類算法的研究備受關(guān)注[2]。例如，Amini等[3]將不同語(yǔ)言的文檔看作是原始文檔的不同模態(tài)，成功設(shè)計(jì)了多視圖多數(shù)投票和多視圖共分類[4]等方法對(duì)文檔進(jìn)行學(xué)習(xí)；Bickel等[5]研究了眾多多模態(tài)數(shù)據(jù)形式下的聚類方法，例如k-means、k-medoids和EM(expectation-maximization)等。挖掘不同模態(tài)結(jié)合過(guò)程中潛在的數(shù)據(jù)信息是研究者們共同的目標(biāo)，由此可見(jiàn)，研究多模態(tài)數(shù)據(jù)融合的有效方法已成為文本大數(shù)據(jù)分析中的重要方向。文中針對(duì)海量檔案文本數(shù)據(jù)的多模態(tài)特點(diǎn)，研究有效的增量多模態(tài)文本聚類方法。

非負(fù)矩陣分解[6](NMF, nonnegative matrix factorization)是一種經(jīng)典的矩陣分解技術(shù)，它可以將每個(gè)觀測(cè)對(duì)象解釋為非負(fù)基向量的線性組合相加后得到的結(jié)果[7]，這恰好符合了人們?cè)诖竽X和心理上所習(xí)慣的“局部構(gòu)成整體”的思想[8-9]。近幾年內(nèi)，NMF已經(jīng)被廣泛運(yùn)用于數(shù)據(jù)聚類中，它與許多先進(jìn)的無(wú)監(jiān)督聚類算法相比，其性能極具競(jìng)爭(zhēng)力[10]。例如，Xu等[11]將NMF應(yīng)用于文本聚類，取得了較好的結(jié)果；Brunet等[12]在生物數(shù)據(jù)聚類方面也獲得了類似的成功。這些基于NMF的單模態(tài)聚類算法都取得了不錯(cuò)的成果。如果將NMF技術(shù)應(yīng)用于多模態(tài)檔案文本數(shù)據(jù)將取得令人期待的結(jié)果。NMF本身具有屬性降維的功能，可以很好地解決多模態(tài)檔案文本大數(shù)據(jù)存在的維數(shù)災(zāi)難問(wèn)題。然而，基于NMF的多模態(tài)文本數(shù)據(jù)聚類方法也將面臨以下問(wèn)題：多模態(tài)文本數(shù)據(jù)存在異構(gòu)性，如何充分結(jié)合多個(gè)模態(tài)的數(shù)據(jù)信息是首要的挑戰(zhàn)；當(dāng)多模態(tài)的文本數(shù)據(jù)出現(xiàn)爆炸式增長(zhǎng)的時(shí)候，傳統(tǒng)的學(xué)習(xí)方法需要損耗大量的空間和時(shí)間成本。

針對(duì)以上問(wèn)題，文中將研究基于NMF的增量多模態(tài)文本聚類方法。與傳統(tǒng)的非負(fù)矩陣分解方法使用得到的系數(shù)矩陣進(jìn)行數(shù)據(jù)分析不同，文中提出的方法將直接用融合后的共享特征矩陣進(jìn)行聚類分析，檢測(cè)融合數(shù)據(jù)的效果。該方法是基于語(yǔ)義的，在考慮每種模態(tài)的實(shí)際意義的情況下求得所有模態(tài)的共享特征，并且在多模態(tài)數(shù)據(jù)語(yǔ)義融合的基礎(chǔ)上引入圖規(guī)則化的思想，保證各模態(tài)數(shù)據(jù)與共享特征的幾何結(jié)構(gòu)相似性，力求能夠獲得更好的特征學(xué)習(xí)與聚類分析效果。然而，當(dāng)大規(guī)模檔案文本數(shù)據(jù)遇到實(shí)時(shí)性的需求時(shí)，傳統(tǒng)的多模態(tài)數(shù)據(jù)融合算法無(wú)法滿足在短時(shí)間對(duì)大量數(shù)據(jù)進(jìn)行處理的任務(wù)，因此實(shí)現(xiàn)2種增量自適應(yīng)文本數(shù)據(jù)特征學(xué)習(xí)方案，并求解對(duì)應(yīng)的增量?jī)?yōu)化規(guī)則，可以節(jié)約數(shù)據(jù)處理的時(shí)間成本，同時(shí)學(xué)習(xí)的增量方法在一定程度上也更加節(jié)省數(shù)據(jù)占據(jù)的存儲(chǔ)空間。2個(gè)實(shí)際文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明：文中提出方法優(yōu)于現(xiàn)有的一些增量和非增量學(xué)習(xí)方法，能夠?qū)Χ嗄B(tài)文本數(shù)據(jù)進(jìn)行有效劃分。

1 相關(guān)技術(shù)

1.1 非負(fù)矩陣分解

給定一個(gè)M×N大小的非負(fù)矩陣X(矩陣中的元素均為負(fù))，每個(gè)列向量代表一個(gè)數(shù)據(jù)實(shí)例，數(shù)據(jù)實(shí)例大小為N，每個(gè)行向量代表一種特征屬性，共有M維特征屬性。這個(gè)矩陣被近似分解為一個(gè)M×d的基矩陣U和一個(gè)N×d的編碼矩陣V，其原理如圖1所示[6]。

圖1 非負(fù)矩陣分解原理原理Fig.1 The principle of non-negative matrix factorization

通常，設(shè)定d的數(shù)值遠(yuǎn)遠(yuǎn)小于N，假設(shè)d為數(shù)據(jù)聚類的類數(shù)。非負(fù)矩陣分解可以形式化表示為

X≈UVT(U≥0，V≥0 )。

(1)

為了求得矩陣X的近似表示，可以將目標(biāo)函數(shù)最小化：

(2)

(3)

(4)

按照式(3)和式(4)依次對(duì)U、V進(jìn)行交替迭代直到函數(shù)收斂，求得最后的U、V矩陣。

非負(fù)矩陣分解將一個(gè)原始矩陣分解成一個(gè)基矩陣和一個(gè)編碼矩陣相乘的形式，要求得到的基矩陣和編碼矩陣非負(fù)，因此原矩陣中的某一行數(shù)據(jù)可以看作編碼矩陣中所有列向量的加權(quán)和，具體的系數(shù)對(duì)應(yīng)編碼矩陣中列向量的元素。該分解過(guò)程可以理解為一種特征提取的行為，編碼矩陣則為原始矩陣的潛在特征表示。

1.2 多模態(tài)非負(fù)矩陣分解

(5)

通過(guò)共享矩陣V的耦合，聯(lián)合迭代更新各變量，得到優(yōu)化后的多模態(tài)共享特征。

2 增量多模態(tài)文本聚類方法

文中提出的增量多模態(tài)算法考慮每個(gè)模態(tài)的語(yǔ)義信息，使用NMF抽取出多模態(tài)數(shù)據(jù)的共享特征子空間。為提升其學(xué)習(xí)特征的有效性，算法還嵌入圖拉普拉斯正則化項(xiàng)，保證高維數(shù)據(jù)在降維過(guò)程中盡量維持其原始的數(shù)據(jù)結(jié)構(gòu)，進(jìn)一步提升共享特征學(xué)習(xí)的準(zhǔn)確性。最后，為每個(gè)模態(tài)設(shè)立模態(tài)權(quán)值，通過(guò)權(quán)值的自適應(yīng)更新，合理控制每個(gè)模態(tài)對(duì)于特征子空間的貢獻(xiàn)。在實(shí)際應(yīng)用中，數(shù)據(jù)往往是分批到來(lái)的，這導(dǎo)致了非增量算法時(shí)間開銷巨大。因此，在上述基礎(chǔ)算法的基礎(chǔ)上，進(jìn)行算法的2種增量改進(jìn)來(lái)大幅度減少時(shí)間消耗。第一種增量改進(jìn)算法基于數(shù)據(jù)相對(duì)獨(dú)立這一假設(shè)[13]：當(dāng)新數(shù)據(jù)到來(lái)時(shí)，它僅通過(guò)計(jì)算新數(shù)據(jù)的特征子空間從而減少時(shí)間開銷。第二種增量改進(jìn)算法結(jié)合了緩沖區(qū)的思想[14]，為數(shù)據(jù)開創(chuàng)時(shí)間緩沖區(qū)，通過(guò)緩沖區(qū)來(lái)減少時(shí)間開銷。

2.1 基于圖規(guī)則化的多模態(tài)NMF

拉普拉斯特征映射是一種基于圖的降維方法，它可以使圖中原本相近的2個(gè)點(diǎn)在降維后依然盡量地靠近。因此，拉普拉斯矩陣使數(shù)據(jù)中具有相似性的實(shí)例在降維后的空間內(nèi)依舊保持高度相似，以達(dá)到后續(xù)更好的特征學(xué)習(xí)效果[15]。

根據(jù)數(shù)據(jù)間的歐氏距離，采用p-最近鄰算法構(gòu)造出一個(gè)鄰接矩陣W，Wij表示數(shù)據(jù)實(shí)例i和數(shù)據(jù)實(shí)例j的相似度，要求在降維后的子空間內(nèi)原本靠近的數(shù)據(jù)仍舊相近，即在共享特征子空間V中，原始空間相近的行向量vi與行向量vj(Wij較大)的距離要盡可能的小。故得到目標(biāo)函數(shù)：

Tr(VDVT)-Tr(VWVT) =Tr(VLVT)，

(6)

式中：L是圖的拉普拉斯矩陣，L=D-W；W是鄰接矩陣；D是度矩陣，它是一個(gè)對(duì)角矩陣，其每一行的對(duì)角元素是W矩陣中對(duì)應(yīng)每一行或列之和。

根據(jù)上述方法計(jì)算得到每一個(gè)模態(tài)數(shù)據(jù)的拉普拉斯矩陣L(v)后，便可得到基于圖規(guī)則化的多模態(tài)NMF的目標(biāo)函數(shù)：

s.t.V≥0，U(v)≥0，v=1,2,3,…,nv。

(7)

式中，λ為圖正則化項(xiàng)的控制參數(shù)。

2.2 增量自適應(yīng)圖規(guī)則化多模態(tài)NMF

基于2.1節(jié)的圖規(guī)則化的多模態(tài)NMF，文中提出增量自適應(yīng)圖非負(fù)矩陣分解模型(IAGNMF, incremental adaptive graph regularized multi-modal NMF)。模型中假設(shè)新數(shù)據(jù)與原有數(shù)據(jù)是相對(duì)獨(dú)立的，因此對(duì)于新到來(lái)的數(shù)據(jù)，在保持原有數(shù)據(jù)共享特征子空間不變的基礎(chǔ)上為新數(shù)據(jù)開辟新的特征子空間。對(duì)于圖的增量計(jì)算則是對(duì)每個(gè)模態(tài)新數(shù)據(jù)在全局?jǐn)?shù)據(jù)集合空間上的分布特點(diǎn)進(jìn)行擬合，保證新數(shù)據(jù)對(duì)應(yīng)特征子空間分布與各個(gè)模態(tài)所有數(shù)據(jù)分布相似。最后為每個(gè)模態(tài)設(shè)立一個(gè)模態(tài)權(quán)值，通過(guò)權(quán)值自適應(yīng)更新來(lái)控制各模態(tài)對(duì)于新數(shù)據(jù)特征子空間學(xué)習(xí)的貢獻(xiàn)，具體細(xì)節(jié)如下：

(8)

(9)

(10)

最后，在式(10)的基礎(chǔ)上為模態(tài)添加自適應(yīng)權(quán)重因子(α(v))γ，其中，α(v)為第v個(gè)模態(tài)的權(quán)重因子，γ為控制權(quán)重分散程度的參數(shù)。自動(dòng)更新自身模態(tài)權(quán)重，約束不同模態(tài)對(duì)特征子空間的影響。這樣得到了目標(biāo)函數(shù)：

(11)

(12)

(13)

(14)

(15)

(16)

(17)

利用拉格朗日優(yōu)化函數(shù)對(duì)式(17)進(jìn)行優(yōu)化表示得到：

(18)

其中：?為限定條件Vl≥0的拉格朗日乘子，用式(18)對(duì)Vl求偏導(dǎo)得到：

(19)

通過(guò)KKT(Karush-Kuhn-Tucher)條件(?)ij(Vl)ij=0，得到Vl的更新規(guī)則為：

(20)

(21)

利用拉格朗日優(yōu)化公式對(duì)式(21)進(jìn)行優(yōu)化表示得到

(22)

利用式(22)對(duì)α(v)求導(dǎo)，使導(dǎo)數(shù)為0，得到：

(23)

(24)

2.3 在線自適應(yīng)圖規(guī)則化多模態(tài)NMF

與IAGNMF不同，在線自適應(yīng)圖非負(fù)矩陣分解(OAGNMF, online adaptive graph regularized multi-modal NMF)假設(shè)新數(shù)據(jù)總是與它到達(dá)時(shí)間相近的數(shù)據(jù)關(guān)聯(lián)性更強(qiáng)，而與到達(dá)時(shí)間較遠(yuǎn)的數(shù)據(jù)關(guān)聯(lián)更弱。因此，模型中設(shè)立一個(gè)固定大小的緩沖區(qū)，總是存放s個(gè)最近到來(lái)的數(shù)據(jù)，將其他較早到來(lái)的數(shù)據(jù)丟棄。運(yùn)用緩存區(qū)的數(shù)據(jù)進(jìn)行特征子空間學(xué)習(xí)。

因此，在構(gòu)造圖正則化項(xiàng)時(shí)，僅需要計(jì)算緩沖區(qū)實(shí)例的p-最近鄰圖即可。頂點(diǎn)對(duì)應(yīng)緩存區(qū)的實(shí)例，同樣采用余弦距離來(lái)衡量文本實(shí)例的相似度：

(25)

(26)

類似的，目標(biāo)函數(shù)(26)是非凸的，采取同樣的策略尋找局部最優(yōu)解：

(27)

(28)

同理，對(duì)目標(biāo)函數(shù)(26)進(jìn)行拉格朗日優(yōu)化表示后對(duì)Vs求導(dǎo)，通過(guò)KKT條件使導(dǎo)數(shù)為0得到Vl的更新規(guī)則：

(29)

(30)

2.4 復(fù)雜度分析

設(shè)多模態(tài)數(shù)據(jù)平均模態(tài)維度為M，算法IAGNMF的空間復(fù)雜度為O(V(Mk+Ml+MMc+3(k+l)2+1)+Mc(k+l)+2)(V(Mk+Ml+MMc+3(k+l)2+1)+Mc(k+l)+2)≈O((k+l)2)。假設(shè)迭代更新平均收斂次數(shù)是tt，多模態(tài)數(shù)據(jù)平均模態(tài)維度為M，算法IAGNMF一次增量過(guò)程的時(shí)間復(fù)雜度為O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))≈O(k)O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))。

設(shè)多模態(tài)數(shù)據(jù)平均模態(tài)維度為M，算法OAGNMF的空間復(fù)雜度為O(V(Ms+MMc+3s2+1)+Mcs+2)≈O(1)O(V(Ms+MMc+3s2+1)+Mcs+2)O(V(Ms+MMc+3s2+1)+Mcs+2)。假設(shè)迭代更新平均收斂次數(shù)是tt，多模態(tài)數(shù)據(jù)平均模態(tài)維度為M，那么算法OAGNMF一次增量過(guò)程的時(shí)間復(fù)雜度為O(Vt(2MMcs+Ms2)+VMvs2)≈O(1)O(Vt(2MMcs+Ms2)+VMvs2)O(Vt(2MMcs+Ms2)+VMvs2)。

3 實(shí)驗(yàn)分析

為驗(yàn)證文中提出算法的有效性，設(shè)計(jì)了一系列算法對(duì)比實(shí)驗(yàn)，并在多模態(tài)文本數(shù)據(jù)集LegalText和Webkb上驗(yàn)證算法IAGNMF和OAGNMF和現(xiàn)有的一些相關(guān)算法：ConcatNMF(concatenation NMF)[6]，INMF (incremental NMF)[13]，MultiINMF (multi-view Incremental NMF)[10]和MultiGNMF(multi-view graph NMF)[15]的性能。一是比較共享特征學(xué)習(xí)效果，將算法提取出來(lái)的低維特征進(jìn)行k-means聚類分析，分析聚類的準(zhǔn)確度(ACC, accuracy)和純度(PUR, purity)。二是比較運(yùn)行算法的時(shí)間開銷。

3.1 數(shù)據(jù)集

3.1.1 數(shù)據(jù)集LegalText

LegalText數(shù)據(jù)集是具有7個(gè)大類6 300個(gè)法律案例的文本數(shù)據(jù)，分別是瀆職，妨害社會(huì)管理秩序，破壞社會(huì)主義市場(chǎng)經(jīng)濟(jì)秩序，侵犯財(cái)產(chǎn)，侵犯公民人身權(quán)利、民主權(quán)利，貪污受賄，危害公共安全。通過(guò)預(yù)處理得到150維word2vec特征和500維tfidf特征2個(gè)模態(tài)。

3.1.2 數(shù)據(jù)集Webkb

Webkb數(shù)據(jù)集[16]源自于康奈爾大學(xué)計(jì)算機(jī)科學(xué)系的網(wǎng)頁(yè)文本內(nèi)容，該數(shù)據(jù)集包含屬于4個(gè)類別的8 282個(gè)數(shù)據(jù)樣例，共有2 500維網(wǎng)頁(yè)中的文本特征屬性和1 380維網(wǎng)頁(yè)中超鏈接的錨文本特征屬性2種模態(tài)信息。

3.2 算法比較

文中基于NMF提出2種增量多模態(tài)聚類算法，實(shí)驗(yàn)中，將提出的2種算法與現(xiàn)有的一些基于NMF的增量和非增量方法進(jìn)行比較，驗(yàn)證提出算法的性能。具體比較算法包括：①ConcatNMF：將多模態(tài)數(shù)據(jù)的所有模態(tài)屬性進(jìn)行直接拼接后進(jìn)行非負(fù)矩陣分解[6]；②INMF[13]：為單模態(tài)增量非負(fù)矩陣分解方法，實(shí)驗(yàn)中對(duì)數(shù)據(jù)集中多有模態(tài)數(shù)據(jù)進(jìn)行單模態(tài)增量學(xué)習(xí)，并采用最好模態(tài)結(jié)果；③MultiINMF：為多模態(tài)非負(fù)矩陣分解MultiNMF的增量算法[10]，其增量實(shí)現(xiàn)與INMF相同；④MultiGNMF為基于圖規(guī)則化的多模態(tài)數(shù)據(jù)融合算法，其實(shí)現(xiàn)拓展了圖正則化NMF[15]到多模態(tài)數(shù)據(jù)。

3.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)當(dāng)中，比較算法ConcatNMF、INMF、MultiINMF和MultiGNMF的參數(shù)選擇與其原始文獻(xiàn)中相同。文中提出的IAGNMF圖正則化參數(shù)λ=15，權(quán)重分散程度參數(shù)γ=1.3；OAGNMF圖正則化參數(shù)λ=15，權(quán)重分散程度參數(shù)γ=1.3，緩沖區(qū)大小設(shè)置為40%數(shù)據(jù)集大小。每次實(shí)驗(yàn)非重復(fù)地取1/10數(shù)據(jù)集的實(shí)例作為新到來(lái)的實(shí)例運(yùn)行算法學(xué)習(xí)其低維共享特征，運(yùn)行10次之后完成對(duì)整個(gè)數(shù)據(jù)集的特征學(xué)習(xí)。對(duì)于增量算法，每次學(xué)習(xí)新實(shí)例的低維共享特征后，記錄學(xué)習(xí)時(shí)間，與已經(jīng)完成特征學(xué)習(xí)的實(shí)例的低維共享特征一起進(jìn)行聚類分析驗(yàn)證學(xué)習(xí)效果；對(duì)于非增量算法，新實(shí)例和已完成特征學(xué)習(xí)的實(shí)例一起進(jìn)行特征學(xué)習(xí)，記錄學(xué)習(xí)時(shí)間，將學(xué)習(xí)到的所有實(shí)例的低維共享特征進(jìn)行聚類分析驗(yàn)證學(xué)習(xí)效果。對(duì)于每次模型運(yùn)行，都能得到其時(shí)間開銷，聚類精度和純度。每個(gè)實(shí)驗(yàn)重復(fù)運(yùn)行15次，并取其均值輸出比較結(jié)果。

實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng)，Matlab R2018a軟件平臺(tái)，硬件環(huán)境為Intel?CoreTMi5-7300HQ CPU @ 2.50GHz處理器，8G內(nèi)存。

3.4 結(jié)果分析

LegalText和Webkb 2個(gè)文本數(shù)據(jù)集上的各算法聚類有效性比較結(jié)果如圖2和圖3所示。

圖2 LegalText數(shù)據(jù)集上的聚類結(jié)果比較Fig.2 Comparison of clustering results on LegalText dataset

從圖2和圖3可以看出，相比于ConcatNMF、INMF、MultiINMF和MultiGNMF，文中提出的2種增量多模態(tài)文本聚類方法具有一定的優(yōu)勢(shì)。例如，在LegalText數(shù)據(jù)集上IAGNMF在ACC和PUR 2種聚類指標(biāo)上一直優(yōu)于所有比較算法，這是因?yàn)镮AGNMF實(shí)現(xiàn)了增量的圖規(guī)則化機(jī)制保證了融合空間特征與原始數(shù)據(jù)具有一致的幾何相似結(jié)構(gòu)，此外IAGNMF實(shí)現(xiàn)了模態(tài)權(quán)重的自適應(yīng)調(diào)整，保證了各模態(tài)的有效信息。同樣OAGNMF和MultiGNMF也是用了圖規(guī)則化項(xiàng)，也得到了較好的結(jié)果。OAGNMF采用數(shù)據(jù)緩存機(jī)制，假設(shè)一段時(shí)間內(nèi)數(shù)據(jù)具有相似性，而在實(shí)際的數(shù)據(jù)集LegalText中這個(gè)假設(shè)很難保證，但在標(biāo)準(zhǔn)數(shù)據(jù)集Webkb中便能得到較好的效果(如圖4)。MultiGNMF實(shí)現(xiàn)沒(méi)有考慮各模態(tài)的權(quán)重，所以相比于文中提出的算法其性能略有下降。

圖3 Webkb數(shù)據(jù)集上的聚類結(jié)果比較Fig.3 Comparison of clustering results on Webkb dataset

圖4 2個(gè)數(shù)據(jù)集上的時(shí)間開銷比較Fig.4 Comparison of time consumption on two datasets

圖4給出了幾種比較算法的時(shí)間性能。從圖中可以看出，基于圖規(guī)則化的MultiGNMF比ConcatNMF、INMF和MultiINMF需要消耗更多的時(shí)間。IAGNMF和OAGNMF同樣使用圖規(guī)則化提升算法的性能，但其增量實(shí)現(xiàn)能夠有效減少算法的時(shí)間開銷。

綜上，相比于比較算法文中提出的2種算法在聚類性能和時(shí)間消耗上均具有一定的優(yōu)勢(shì)，適合海量多模態(tài)文本數(shù)據(jù)的增量融合學(xué)習(xí)與聚類分析。當(dāng)數(shù)據(jù)集中數(shù)據(jù)樣本隨采集時(shí)間有一定的前后依賴時(shí)，采用數(shù)據(jù)緩存機(jī)制的OAGNMF算法能夠得到較好的性能；而當(dāng)數(shù)據(jù)間沒(méi)有時(shí)間依賴時(shí)，采用增量圖相似結(jié)構(gòu)度量的IAGNMF算法具有更加的聚類性能。

4 結(jié)束語(yǔ)

文中提出2種增量多模態(tài)文本聚類算法，基于NMF構(gòu)建多模態(tài)文本數(shù)據(jù)特征學(xué)習(xí)基本模型，利用局部相似圖規(guī)則化保證學(xué)習(xí)特征空間的結(jié)合結(jié)構(gòu)與原始數(shù)據(jù)空間的一致性，提升多模態(tài)融合特征學(xué)習(xí)的準(zhǔn)確性。設(shè)計(jì)了2種增量多模態(tài)數(shù)據(jù)特征學(xué)習(xí)機(jī)制，并對(duì)各模態(tài)權(quán)重進(jìn)行自適應(yīng)調(diào)整，實(shí)現(xiàn)海量多模態(tài)文本數(shù)據(jù)的快速、有效融合學(xué)習(xí)。通過(guò)2個(gè)實(shí)際文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，文中提出的2種算法具有一定的優(yōu)越性。