亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        檔案管理中文本數(shù)據(jù)的增量多模態(tài)聚類方法

        2022-06-21 06:15:16劉麗華
        重慶大學(xué)學(xué)報(bào) 2022年5期
        關(guān)鍵詞:規(guī)則化增量實(shí)例

        劉麗華

        (內(nèi)蒙古財(cái)經(jīng)大學(xué) 檔案館,呼和浩特 010010)

        海量檔案文本數(shù)據(jù)急劇增長(zhǎng),也伴隨著文本數(shù)據(jù)描述的多樣化[1]。例如,一則新聞消息可以通過(guò)不同的語(yǔ)言進(jìn)行表達(dá)和傳播;一個(gè)文本可以利用不同的特征描述(Word2Vec、TF-IDF等)進(jìn)行分析。這樣的數(shù)據(jù)稱為多模態(tài)數(shù)據(jù),不同領(lǐng)域或不同描述形式可以代表一種模態(tài)。通常,不同模態(tài)之間可以為語(yǔ)義相同的數(shù)據(jù)對(duì)象相互補(bǔ)充信息,結(jié)合多個(gè)模態(tài)的數(shù)據(jù)信息對(duì)一個(gè)物體進(jìn)行描述相比于單模態(tài)可以更加全面地了解該物體的特征并且精準(zhǔn)對(duì)該物體進(jìn)行辨別。另外,隨著檔案文本不斷增長(zhǎng),給檔案管理帶來(lái)了一定困難,有效對(duì)檔案數(shù)據(jù)進(jìn)行聚類、劃分,能夠按主題對(duì)檔案文本進(jìn)行分類管理,便于后期查閱、處理。

        近年來(lái)多模態(tài)文本數(shù)據(jù)聚類或分類算法的研究備受關(guān)注[2]。例如,Amini等[3]將不同語(yǔ)言的文檔看作是原始文檔的不同模態(tài),成功設(shè)計(jì)了多視圖多數(shù)投票和多視圖共分類[4]等方法對(duì)文檔進(jìn)行學(xué)習(xí);Bickel等[5]研究了眾多多模態(tài)數(shù)據(jù)形式下的聚類方法,例如k-means、k-medoids和EM(expectation-maximization)等。挖掘不同模態(tài)結(jié)合過(guò)程中潛在的數(shù)據(jù)信息是研究者們共同的目標(biāo),由此可見(jiàn),研究多模態(tài)數(shù)據(jù)融合的有效方法已成為文本大數(shù)據(jù)分析中的重要方向。文中針對(duì)海量檔案文本數(shù)據(jù)的多模態(tài)特點(diǎn),研究有效的增量多模態(tài)文本聚類方法。

        非負(fù)矩陣分解[6](NMF, nonnegative matrix factorization)是一種經(jīng)典的矩陣分解技術(shù),它可以將每個(gè)觀測(cè)對(duì)象解釋為非負(fù)基向量的線性組合相加后得到的結(jié)果[7],這恰好符合了人們?cè)诖竽X和心理上所習(xí)慣的“局部構(gòu)成整體”的思想[8-9]。近幾年內(nèi),NMF已經(jīng)被廣泛運(yùn)用于數(shù)據(jù)聚類中,它與許多先進(jìn)的無(wú)監(jiān)督聚類算法相比,其性能極具競(jìng)爭(zhēng)力[10]。例如,Xu等[11]將NMF應(yīng)用于文本聚類,取得了較好的結(jié)果;Brunet等[12]在生物數(shù)據(jù)聚類方面也獲得了類似的成功。這些基于NMF的單模態(tài)聚類算法都取得了不錯(cuò)的成果。如果將NMF技術(shù)應(yīng)用于多模態(tài)檔案文本數(shù)據(jù)將取得令人期待的結(jié)果。NMF本身具有屬性降維的功能,可以很好地解決多模態(tài)檔案文本大數(shù)據(jù)存在的維數(shù)災(zāi)難問(wèn)題。然而,基于NMF的多模態(tài)文本數(shù)據(jù)聚類方法也將面臨以下問(wèn)題:多模態(tài)文本數(shù)據(jù)存在異構(gòu)性,如何充分結(jié)合多個(gè)模態(tài)的數(shù)據(jù)信息是首要的挑戰(zhàn);當(dāng)多模態(tài)的文本數(shù)據(jù)出現(xiàn)爆炸式增長(zhǎng)的時(shí)候,傳統(tǒng)的學(xué)習(xí)方法需要損耗大量的空間和時(shí)間成本。

        針對(duì)以上問(wèn)題,文中將研究基于NMF的增量多模態(tài)文本聚類方法。與傳統(tǒng)的非負(fù)矩陣分解方法使用得到的系數(shù)矩陣進(jìn)行數(shù)據(jù)分析不同,文中提出的方法將直接用融合后的共享特征矩陣進(jìn)行聚類分析,檢測(cè)融合數(shù)據(jù)的效果。該方法是基于語(yǔ)義的,在考慮每種模態(tài)的實(shí)際意義的情況下求得所有模態(tài)的共享特征,并且在多模態(tài)數(shù)據(jù)語(yǔ)義融合的基礎(chǔ)上引入圖規(guī)則化的思想,保證各模態(tài)數(shù)據(jù)與共享特征的幾何結(jié)構(gòu)相似性,力求能夠獲得更好的特征學(xué)習(xí)與聚類分析效果。然而,當(dāng)大規(guī)模檔案文本數(shù)據(jù)遇到實(shí)時(shí)性的需求時(shí),傳統(tǒng)的多模態(tài)數(shù)據(jù)融合算法無(wú)法滿足在短時(shí)間對(duì)大量數(shù)據(jù)進(jìn)行處理的任務(wù),因此實(shí)現(xiàn)2種增量自適應(yīng)文本數(shù)據(jù)特征學(xué)習(xí)方案,并求解對(duì)應(yīng)的增量?jī)?yōu)化規(guī)則,可以節(jié)約數(shù)據(jù)處理的時(shí)間成本,同時(shí)學(xué)習(xí)的增量方法在一定程度上也更加節(jié)省數(shù)據(jù)占據(jù)的存儲(chǔ)空間。2個(gè)實(shí)際文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:文中提出方法優(yōu)于現(xiàn)有的一些增量和非增量學(xué)習(xí)方法,能夠?qū)Χ嗄B(tài)文本數(shù)據(jù)進(jìn)行有效劃分。

        1 相關(guān)技術(shù)

        1.1 非負(fù)矩陣分解

        給定一個(gè)M×N大小的非負(fù)矩陣X(矩陣中的元素均為負(fù)),每個(gè)列向量代表一個(gè)數(shù)據(jù)實(shí)例,數(shù)據(jù)實(shí)例大小為N,每個(gè)行向量代表一種特征屬性,共有M維特征屬性。這個(gè)矩陣被近似分解為一個(gè)M×d的基矩陣U和一個(gè)N×d的編碼矩陣V,其原理如圖1所示[6]。

        圖1 非負(fù)矩陣分解原理原理Fig.1 The principle of non-negative matrix factorization

        通常,設(shè)定d的數(shù)值遠(yuǎn)遠(yuǎn)小于N,假設(shè)d為數(shù)據(jù)聚類的類數(shù)。非負(fù)矩陣分解可以形式化表示為

        X≈UVT(U≥0,V≥0 )。

        (1)

        為了求得矩陣X的近似表示,可以將目標(biāo)函數(shù)最小化:

        (2)

        (3)

        (4)

        按照式(3)和式(4)依次對(duì)U、V進(jìn)行交替迭代直到函數(shù)收斂,求得最后的U、V矩陣。

        非負(fù)矩陣分解將一個(gè)原始矩陣分解成一個(gè)基矩陣和一個(gè)編碼矩陣相乘的形式,要求得到的基矩陣和編碼矩陣非負(fù),因此原矩陣中的某一行數(shù)據(jù)可以看作編碼矩陣中所有列向量的加權(quán)和,具體的系數(shù)對(duì)應(yīng)編碼矩陣中列向量的元素。該分解過(guò)程可以理解為一種特征提取的行為,編碼矩陣則為原始矩陣的潛在特征表示。

        1.2 多模態(tài)非負(fù)矩陣分解

        (5)

        通過(guò)共享矩陣V的耦合,聯(lián)合迭代更新各變量,得到優(yōu)化后的多模態(tài)共享特征。

        2 增量多模態(tài)文本聚類方法

        文中提出的增量多模態(tài)算法考慮每個(gè)模態(tài)的語(yǔ)義信息,使用NMF抽取出多模態(tài)數(shù)據(jù)的共享特征子空間。為提升其學(xué)習(xí)特征的有效性,算法還嵌入圖拉普拉斯正則化項(xiàng),保證高維數(shù)據(jù)在降維過(guò)程中盡量維持其原始的數(shù)據(jù)結(jié)構(gòu),進(jìn)一步提升共享特征學(xué)習(xí)的準(zhǔn)確性。最后,為每個(gè)模態(tài)設(shè)立模態(tài)權(quán)值,通過(guò)權(quán)值的自適應(yīng)更新,合理控制每個(gè)模態(tài)對(duì)于特征子空間的貢獻(xiàn)。在實(shí)際應(yīng)用中,數(shù)據(jù)往往是分批到來(lái)的,這導(dǎo)致了非增量算法時(shí)間開銷巨大。因此,在上述基礎(chǔ)算法的基礎(chǔ)上,進(jìn)行算法的2種增量改進(jìn)來(lái)大幅度減少時(shí)間消耗。第一種增量改進(jìn)算法基于數(shù)據(jù)相對(duì)獨(dú)立這一假設(shè)[13]:當(dāng)新數(shù)據(jù)到來(lái)時(shí),它僅通過(guò)計(jì)算新數(shù)據(jù)的特征子空間從而減少時(shí)間開銷。第二種增量改進(jìn)算法結(jié)合了緩沖區(qū)的思想[14],為數(shù)據(jù)開創(chuàng)時(shí)間緩沖區(qū),通過(guò)緩沖區(qū)來(lái)減少時(shí)間開銷。

        2.1 基于圖規(guī)則化的多模態(tài)NMF

        拉普拉斯特征映射是一種基于圖的降維方法,它可以使圖中原本相近的2個(gè)點(diǎn)在降維后依然盡量地靠近。因此,拉普拉斯矩陣使數(shù)據(jù)中具有相似性的實(shí)例在降維后的空間內(nèi)依舊保持高度相似,以達(dá)到后續(xù)更好的特征學(xué)習(xí)效果[15]。

        根據(jù)數(shù)據(jù)間的歐氏距離,采用p-最近鄰算法構(gòu)造出一個(gè)鄰接矩陣W,Wij表示數(shù)據(jù)實(shí)例i和數(shù)據(jù)實(shí)例j的相似度,要求在降維后的子空間內(nèi)原本靠近的數(shù)據(jù)仍舊相近,即在共享特征子空間V中,原始空間相近的行向量vi與行向量vj(Wij較大)的距離要盡可能的小。故得到目標(biāo)函數(shù):

        Tr(VDVT)-Tr(VWVT) =Tr(VLVT),

        (6)

        式中:L是圖的拉普拉斯矩陣,L=D-W;W是鄰接矩陣;D是度矩陣,它是一個(gè)對(duì)角矩陣,其每一行的對(duì)角元素是W矩陣中對(duì)應(yīng)每一行或列之和。

        根據(jù)上述方法計(jì)算得到每一個(gè)模態(tài)數(shù)據(jù)的拉普拉斯矩陣L(v)后,便可得到基于圖規(guī)則化的多模態(tài)NMF的目標(biāo)函數(shù):

        s.t.V≥0,U(v)≥0,v=1,2,3,…,nv。

        (7)

        式中,λ為圖正則化項(xiàng)的控制參數(shù)。

        2.2 增量自適應(yīng)圖規(guī)則化多模態(tài)NMF

        基于2.1節(jié)的圖規(guī)則化的多模態(tài)NMF,文中提出增量自適應(yīng)圖非負(fù)矩陣分解模型(IAGNMF, incremental adaptive graph regularized multi-modal NMF)。模型中假設(shè)新數(shù)據(jù)與原有數(shù)據(jù)是相對(duì)獨(dú)立的,因此對(duì)于新到來(lái)的數(shù)據(jù),在保持原有數(shù)據(jù)共享特征子空間不變的基礎(chǔ)上為新數(shù)據(jù)開辟新的特征子空間。對(duì)于圖的增量計(jì)算則是對(duì)每個(gè)模態(tài)新數(shù)據(jù)在全局?jǐn)?shù)據(jù)集合空間上的分布特點(diǎn)進(jìn)行擬合,保證新數(shù)據(jù)對(duì)應(yīng)特征子空間分布與各個(gè)模態(tài)所有數(shù)據(jù)分布相似。最后為每個(gè)模態(tài)設(shè)立一個(gè)模態(tài)權(quán)值,通過(guò)權(quán)值自適應(yīng)更新來(lái)控制各模態(tài)對(duì)于新數(shù)據(jù)特征子空間學(xué)習(xí)的貢獻(xiàn),具體細(xì)節(jié)如下:

        (8)

        (9)

        (10)

        最后,在式(10)的基礎(chǔ)上為模態(tài)添加自適應(yīng)權(quán)重因子(α(v))γ,其中,α(v)為第v個(gè)模態(tài)的權(quán)重因子,γ為控制權(quán)重分散程度的參數(shù)。自動(dòng)更新自身模態(tài)權(quán)重,約束不同模態(tài)對(duì)特征子空間的影響。這樣得到了目標(biāo)函數(shù):

        (11)

        (12)

        (13)

        (14)

        (15)

        (16)

        (17)

        利用拉格朗日優(yōu)化函數(shù)對(duì)式(17)進(jìn)行優(yōu)化表示得到:

        (18)

        其中:?為限定條件Vl≥0的拉格朗日乘子,用式(18)對(duì)Vl求偏導(dǎo)得到:

        (19)

        通過(guò)KKT(Karush-Kuhn-Tucher)條件(?)ij(Vl)ij=0,得到Vl的更新規(guī)則為:

        (20)

        (21)

        利用拉格朗日優(yōu)化公式對(duì)式(21)進(jìn)行優(yōu)化表示得到

        (22)

        利用式(22)對(duì)α(v)求導(dǎo),使導(dǎo)數(shù)為0,得到:

        (23)

        (24)

        2.3 在線自適應(yīng)圖規(guī)則化多模態(tài)NMF

        與IAGNMF不同,在線自適應(yīng)圖非負(fù)矩陣分解(OAGNMF, online adaptive graph regularized multi-modal NMF)假設(shè)新數(shù)據(jù)總是與它到達(dá)時(shí)間相近的數(shù)據(jù)關(guān)聯(lián)性更強(qiáng),而與到達(dá)時(shí)間較遠(yuǎn)的數(shù)據(jù)關(guān)聯(lián)更弱。因此,模型中設(shè)立一個(gè)固定大小的緩沖區(qū),總是存放s個(gè)最近到來(lái)的數(shù)據(jù),將其他較早到來(lái)的數(shù)據(jù)丟棄。運(yùn)用緩存區(qū)的數(shù)據(jù)進(jìn)行特征子空間學(xué)習(xí)。

        因此,在構(gòu)造圖正則化項(xiàng)時(shí),僅需要計(jì)算緩沖區(qū)實(shí)例的p-最近鄰圖即可。頂點(diǎn)對(duì)應(yīng)緩存區(qū)的實(shí)例,同樣采用余弦距離來(lái)衡量文本實(shí)例的相似度:

        (25)

        (26)

        類似的,目標(biāo)函數(shù)(26)是非凸的,采取同樣的策略尋找局部最優(yōu)解:

        (27)

        (28)

        同理,對(duì)目標(biāo)函數(shù)(26)進(jìn)行拉格朗日優(yōu)化表示后對(duì)Vs求導(dǎo),通過(guò)KKT條件使導(dǎo)數(shù)為0得到Vl的更新規(guī)則:

        (29)

        (30)

        2.4 復(fù)雜度分析

        設(shè)多模態(tài)數(shù)據(jù)平均模態(tài)維度為M,算法IAGNMF的空間復(fù)雜度為O(V(Mk+Ml+MMc+3(k+l)2+1)+Mc(k+l)+2)(V(Mk+Ml+MMc+3(k+l)2+1)+Mc(k+l)+2)≈O((k+l)2)。假設(shè)迭代更新平均收斂次數(shù)是tt,多模態(tài)數(shù)據(jù)平均模態(tài)維度為M,算法IAGNMF一次增量過(guò)程的時(shí)間復(fù)雜度為O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))≈O(k)O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))O(Vt(2MMc(k+l)+Ml(k+l))+VMvl(k+l))。

        設(shè)多模態(tài)數(shù)據(jù)平均模態(tài)維度為M,算法OAGNMF的空間復(fù)雜度為O(V(Ms+MMc+3s2+1)+Mcs+2)≈O(1)O(V(Ms+MMc+3s2+1)+Mcs+2)O(V(Ms+MMc+3s2+1)+Mcs+2)。假設(shè)迭代更新平均收斂次數(shù)是tt,多模態(tài)數(shù)據(jù)平均模態(tài)維度為M,那么算法OAGNMF一次增量過(guò)程的時(shí)間復(fù)雜度為O(Vt(2MMcs+Ms2)+VMvs2)≈O(1)O(Vt(2MMcs+Ms2)+VMvs2)O(Vt(2MMcs+Ms2)+VMvs2)。

        3 實(shí)驗(yàn)分析

        為驗(yàn)證文中提出算法的有效性,設(shè)計(jì)了一系列算法對(duì)比實(shí)驗(yàn),并在多模態(tài)文本數(shù)據(jù)集LegalText和Webkb上驗(yàn)證算法IAGNMF和OAGNMF和現(xiàn)有的一些相關(guān)算法:ConcatNMF(concatenation NMF)[6],INMF (incremental NMF)[13],MultiINMF (multi-view Incremental NMF)[10]和MultiGNMF(multi-view graph NMF)[15]的性能。一是比較共享特征學(xué)習(xí)效果,將算法提取出來(lái)的低維特征進(jìn)行k-means聚類分析,分析聚類的準(zhǔn)確度(ACC, accuracy)和純度(PUR, purity)。二是比較運(yùn)行算法的時(shí)間開銷。

        3.1 數(shù)據(jù)集

        3.1.1 數(shù)據(jù)集LegalText

        LegalText數(shù)據(jù)集是具有7個(gè)大類6 300個(gè)法律案例的文本數(shù)據(jù),分別是瀆職,妨害社會(huì)管理秩序,破壞社會(huì)主義市場(chǎng)經(jīng)濟(jì)秩序,侵犯財(cái)產(chǎn),侵犯公民人身權(quán)利、民主權(quán)利,貪污受賄,危害公共安全。通過(guò)預(yù)處理得到150維word2vec特征和500維tfidf特征2個(gè)模態(tài)。

        3.1.2 數(shù)據(jù)集Webkb

        Webkb數(shù)據(jù)集[16]源自于康奈爾大學(xué)計(jì)算機(jī)科學(xué)系的網(wǎng)頁(yè)文本內(nèi)容,該數(shù)據(jù)集包含屬于4個(gè)類別的8 282個(gè)數(shù)據(jù)樣例,共有2 500維網(wǎng)頁(yè)中的文本特征屬性和1 380維網(wǎng)頁(yè)中超鏈接的錨文本特征屬性2種模態(tài)信息。

        3.2 算法比較

        文中基于NMF提出2種增量多模態(tài)聚類算法,實(shí)驗(yàn)中,將提出的2種算法與現(xiàn)有的一些基于NMF的增量和非增量方法進(jìn)行比較,驗(yàn)證提出算法的性能。具體比較算法包括:①ConcatNMF:將多模態(tài)數(shù)據(jù)的所有模態(tài)屬性進(jìn)行直接拼接后進(jìn)行非負(fù)矩陣分解[6];②INMF[13]:為單模態(tài)增量非負(fù)矩陣分解方法,實(shí)驗(yàn)中對(duì)數(shù)據(jù)集中多有模態(tài)數(shù)據(jù)進(jìn)行單模態(tài)增量學(xué)習(xí),并采用最好模態(tài)結(jié)果;③MultiINMF:為多模態(tài)非負(fù)矩陣分解MultiNMF的增量算法[10],其增量實(shí)現(xiàn)與INMF相同;④MultiGNMF為基于圖規(guī)則化的多模態(tài)數(shù)據(jù)融合算法,其實(shí)現(xiàn)拓展了圖正則化NMF[15]到多模態(tài)數(shù)據(jù)。

        3.3 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)當(dāng)中,比較算法ConcatNMF、INMF、MultiINMF和MultiGNMF的參數(shù)選擇與其原始文獻(xiàn)中相同。文中提出的IAGNMF圖正則化參數(shù)λ=15,權(quán)重分散程度參數(shù)γ=1.3;OAGNMF圖正則化參數(shù)λ=15,權(quán)重分散程度參數(shù)γ=1.3,緩沖區(qū)大小設(shè)置為40%數(shù)據(jù)集大小。每次實(shí)驗(yàn)非重復(fù)地取1/10數(shù)據(jù)集的實(shí)例作為新到來(lái)的實(shí)例運(yùn)行算法學(xué)習(xí)其低維共享特征,運(yùn)行10次之后完成對(duì)整個(gè)數(shù)據(jù)集的特征學(xué)習(xí)。對(duì)于增量算法,每次學(xué)習(xí)新實(shí)例的低維共享特征后,記錄學(xué)習(xí)時(shí)間,與已經(jīng)完成特征學(xué)習(xí)的實(shí)例的低維共享特征一起進(jìn)行聚類分析驗(yàn)證學(xué)習(xí)效果;對(duì)于非增量算法,新實(shí)例和已完成特征學(xué)習(xí)的實(shí)例一起進(jìn)行特征學(xué)習(xí),記錄學(xué)習(xí)時(shí)間,將學(xué)習(xí)到的所有實(shí)例的低維共享特征進(jìn)行聚類分析驗(yàn)證學(xué)習(xí)效果。對(duì)于每次模型運(yùn)行,都能得到其時(shí)間開銷,聚類精度和純度。每個(gè)實(shí)驗(yàn)重復(fù)運(yùn)行15次,并取其均值輸出比較結(jié)果。

        實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng),Matlab R2018a軟件平臺(tái),硬件環(huán)境為Intel?CoreTMi5-7300HQ CPU @ 2.50GHz處理器,8G內(nèi)存。

        3.4 結(jié)果分析

        LegalText和Webkb 2個(gè)文本數(shù)據(jù)集上的各算法聚類有效性比較結(jié)果如圖2和圖3所示。

        圖2 LegalText數(shù)據(jù)集上的聚類結(jié)果比較Fig.2 Comparison of clustering results on LegalText dataset

        從圖2和圖3可以看出,相比于ConcatNMF、INMF、MultiINMF和MultiGNMF,文中提出的2種增量多模態(tài)文本聚類方法具有一定的優(yōu)勢(shì)。例如,在LegalText數(shù)據(jù)集上IAGNMF在ACC和PUR 2種聚類指標(biāo)上一直優(yōu)于所有比較算法,這是因?yàn)镮AGNMF實(shí)現(xiàn)了增量的圖規(guī)則化機(jī)制保證了融合空間特征與原始數(shù)據(jù)具有一致的幾何相似結(jié)構(gòu),此外IAGNMF實(shí)現(xiàn)了模態(tài)權(quán)重的自適應(yīng)調(diào)整,保證了各模態(tài)的有效信息。同樣OAGNMF和MultiGNMF也是用了圖規(guī)則化項(xiàng),也得到了較好的結(jié)果。OAGNMF采用數(shù)據(jù)緩存機(jī)制,假設(shè)一段時(shí)間內(nèi)數(shù)據(jù)具有相似性,而在實(shí)際的數(shù)據(jù)集LegalText中這個(gè)假設(shè)很難保證,但在標(biāo)準(zhǔn)數(shù)據(jù)集Webkb中便能得到較好的效果(如圖4)。MultiGNMF實(shí)現(xiàn)沒(méi)有考慮各模態(tài)的權(quán)重,所以相比于文中提出的算法其性能略有下降。

        圖3 Webkb數(shù)據(jù)集上的聚類結(jié)果比較Fig.3 Comparison of clustering results on Webkb dataset

        圖4 2個(gè)數(shù)據(jù)集上的時(shí)間開銷比較Fig.4 Comparison of time consumption on two datasets

        圖4給出了幾種比較算法的時(shí)間性能。從圖中可以看出,基于圖規(guī)則化的MultiGNMF比ConcatNMF、INMF和MultiINMF需要消耗更多的時(shí)間。IAGNMF和OAGNMF同樣使用圖規(guī)則化提升算法的性能,但其增量實(shí)現(xiàn)能夠有效減少算法的時(shí)間開銷。

        綜上,相比于比較算法文中提出的2種算法在聚類性能和時(shí)間消耗上均具有一定的優(yōu)勢(shì),適合海量多模態(tài)文本數(shù)據(jù)的增量融合學(xué)習(xí)與聚類分析。當(dāng)數(shù)據(jù)集中數(shù)據(jù)樣本隨采集時(shí)間有一定的前后依賴時(shí),采用數(shù)據(jù)緩存機(jī)制的OAGNMF算法能夠得到較好的性能;而當(dāng)數(shù)據(jù)間沒(méi)有時(shí)間依賴時(shí),采用增量圖相似結(jié)構(gòu)度量的IAGNMF算法具有更加的聚類性能。

        4 結(jié)束語(yǔ)

        文中提出2種增量多模態(tài)文本聚類算法,基于NMF構(gòu)建多模態(tài)文本數(shù)據(jù)特征學(xué)習(xí)基本模型,利用局部相似圖規(guī)則化保證學(xué)習(xí)特征空間的結(jié)合結(jié)構(gòu)與原始數(shù)據(jù)空間的一致性,提升多模態(tài)融合特征學(xué)習(xí)的準(zhǔn)確性。設(shè)計(jì)了2種增量多模態(tài)數(shù)據(jù)特征學(xué)習(xí)機(jī)制,并對(duì)各模態(tài)權(quán)重進(jìn)行自適應(yīng)調(diào)整,實(shí)現(xiàn)海量多模態(tài)文本數(shù)據(jù)的快速、有效融合學(xué)習(xí)。通過(guò)2個(gè)實(shí)際文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,文中提出的2種算法具有一定的優(yōu)越性。

        猜你喜歡
        規(guī)則化增量實(shí)例
        提質(zhì)和增量之間的“辯證”
        論黨的民主集中制的規(guī)則化
        理論探索(2021年6期)2021-05-26 17:06:22
        數(shù)據(jù)規(guī)則化技術(shù)的研究及應(yīng)用
        “價(jià)增量減”型應(yīng)用題點(diǎn)撥
        數(shù)據(jù)規(guī)則化技術(shù)在焉耆盆地老資料處理中的應(yīng)用
        采用移動(dòng)掃描成像法實(shí)現(xiàn)高壓氣瓶?jī)?nèi)壁凹坑缺陷檢測(cè)
        基于均衡增量近鄰查詢的位置隱私保護(hù)方法
        德州儀器(TI)發(fā)布了一對(duì)32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
        完形填空Ⅱ
        完形填空Ⅰ
        亚州终合人妖一区二区三区| 亚洲欧美成人一区二区在线电影| 法国啄木乌av片在线播放| 骚片av蜜桃精品一区| 国产午夜精品av一区二区三| 国产av一级二级三级| 国语对白在线观看免费| 成人精品一区二区三区电影| 亚洲中文字幕成人无码| 麻豆精产国品| 激情综合网缴情五月天| 中文字幕视频一区二区| 91九色视频在线国产| 亚洲欧美中文日韩在线v日本| 亚洲av无码乱码在线观看性色| 少妇私密会所按摩到高潮呻吟| 亚洲精品国产美女久久久| 午夜一区二区三区在线视频| 日韩伦理av一区二区三区| 插上翅膀插上科学的翅膀飞| 天天影视性色香欲综合网| 欧美午夜精品久久久久久浪潮| 亚洲另类欧美综合久久图片区| 人片在线观看无码| 日本不卡视频一区二区三区| 久久久国产精品| 香港日本三级亚洲三级| 免费人成毛片乱码| 亚洲精品国产主播一区二区| 久久96日本精品久久久| 久久久久亚洲av综合波多野结衣| 中文字幕有码无码av| 国产欧美日本亚洲精品一4区| 亚洲成人av大片在线观看| 日本做受120秒免费视频| 久久精品久久精品中文字幕| 免费人成黄页网站在线观看国产| 国产精品国产三级国产密月| 日本50岁丰满熟妇xxxx| 国产精品丝袜美女在线观看| 国产喷白浆精品一区二区豆腐|