亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DMA與特征劃分的多源文本主題模型

        2021-07-26 11:54:50許偉佳秦永彬黃瑞章陳艷平
        計算機(jī)工程 2021年7期
        關(guān)鍵詞:文本模型

        許偉佳,秦永彬,黃瑞章,陳艷平

        (1.貴州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽550025;2.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,貴陽550025)

        0 概述

        隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各種各樣的Internet/Intranet 應(yīng)用在全球范圍內(nèi)日益普及,產(chǎn)生了大量的文本信息。研究人員將來自多個應(yīng)用平臺的不同來源的文本集合到一起構(gòu)成多源文本數(shù)據(jù)集。在一般情況下,多源文本數(shù)據(jù)集中的主題信息要比單源文本數(shù)據(jù)集中的主題信息更加全面準(zhǔn)確。因此,研究一種能挖掘多源文本數(shù)據(jù)集中主題信息的文本挖掘模型是非常必要的[1]。

        主題模型是目前較流行的文本挖掘模型,因此需研究一種針對多源文本數(shù)據(jù)集的主題模型來挖掘多源文本數(shù)據(jù)集中的文本信息,但傳統(tǒng)主題模型挖掘多源文本數(shù)據(jù)集信息時存在兩方面的問題。一方面,在多源文本數(shù)據(jù)集中,每一篇文檔都由大量的詞來表示,包括特征詞和大量的無關(guān)噪聲詞,并且由于書寫風(fēng)格的不同,因此來自不同數(shù)據(jù)源的噪聲詞也不同,不相關(guān)的噪聲詞會干擾模型構(gòu)建,導(dǎo)致模型性能不佳。另一方面,每個數(shù)據(jù)源中相同主題的詞分布相似但不相同也會影響主題模型的性能,例如新聞網(wǎng)站和社交媒體論述同一主題,部分能夠明確指向主題含義的詞語會同時出現(xiàn)在這兩個數(shù)據(jù)源中,但由于描述角度的不同會導(dǎo)致一些特定詞語只出現(xiàn)在其中一個數(shù)據(jù)源中。因此,直接采用傳統(tǒng)主題模型挖掘多源文本的詞特征等信息會因?yàn)椴煌瑏碓吹闹黝}的書寫風(fēng)格差異以及描述角度的不同嚴(yán)重影響模型性能,并且在多源文本數(shù)據(jù)集中對主題數(shù)量的估計也非常困難。對于多數(shù)傳統(tǒng)主題模型而言,主題數(shù)量被認(rèn)為是需用戶事先確定的參數(shù),但在進(jìn)行主題模型挖掘前提供正確的主題數(shù)量是不切實(shí)際的。此外,對于不同的數(shù)據(jù)源,主題數(shù)量通常是不同的,從而大幅增加了主題數(shù)量正確估計的難度。因此,如果多源文本主題模型能夠自動地估計每個數(shù)據(jù)源的主題數(shù)量,則對于模型的推廣和應(yīng)用是非常有利的。本文提出一種新的多源文本主題模型MCDMAfp。MCDMAfp 以狄利克雷多項(xiàng)式分配(Dirichlet Multinomial Allocation,DMA)模型為基礎(chǔ)。當(dāng)主題數(shù)量無窮大時,DMA 模型近似為狄利克雷過程混合(Dirichlet Process Mixture,DPM)模型[2]。DMA 模型作為DPM 模型的近似模型,能夠自動推斷出數(shù)據(jù)集的主題數(shù)量,而無需提前設(shè)置主題數(shù)量。

        1 相關(guān)工作

        網(wǎng)絡(luò)信息隨著互聯(lián)網(wǎng)的高速發(fā)展呈現(xiàn)爆炸式增長,如何快速準(zhǔn)確地從這些海量數(shù)據(jù)中獲取有用的信息成為研究人員關(guān)注的焦點(diǎn)。主題模型是目前較流行的文本挖掘模型,其中較常見的隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型由BLEI等[3]于2003年提出。后續(xù)的主題模型多數(shù)建立在LDA 模型的基礎(chǔ)上,例如針對短文本集的PYPM 模型[4]以及TRTD 模型[5],其中,PYPM 模型可在無需人為提前設(shè)置主題數(shù)量的情況下進(jìn)行主題聚類,TRTD 模型利用詞的貼近性和重要性,解決了短文本集信息稀疏的問題。但是,目前文本信息的來源多樣,而上述模型均在單源數(shù)據(jù)集上進(jìn)行,不能直接應(yīng)用于多源數(shù)據(jù)集。

        近年來,針對多源文本的主題模型被陸續(xù)提出,例如DLDA 模型[6]、DDMAfs 模型[7]和DDMR 模型[8],這3 種模型的主要思想是利用輔助數(shù)據(jù)源的文本信息提升目標(biāo)數(shù)據(jù)源的主題發(fā)現(xiàn)效果,但其目標(biāo)仍是解決單個數(shù)據(jù)源的建模問題。除此之外,一部分多源文本主題模型雖然旨在解決多數(shù)據(jù)源的建模問題,但僅能應(yīng)用于特定領(lǐng)域[9],例如:結(jié)合ATM[10]與LDA 模型的HTM 模型[11],HTM 模型假設(shè)Twitter文本為ATM 模型生成,新聞文本由LDA 模型生成,兩者受同一主題-詞分布影響,提升了整體聚類效果;COTM 模型[12]是針對新聞及其評論數(shù)據(jù)源的主題模型,能從這兩個數(shù)據(jù)源中學(xué)習(xí)相應(yīng)的主題,并提升整體聚類效果;HHTM 模型[13]主要針對新聞報道和用戶評論,提高了摘要生成質(zhì)量。

        由于上述主題模型僅能應(yīng)用于特定領(lǐng)域,不具備普適性,因此針對多源文本的主題模型的研究也逐漸增多。文獻(xiàn)[14]提出的mf-CTM 模型適用于多源文本數(shù)據(jù)集,基于CTM[15]模型擴(kuò)展得到,繼承了CTM 的優(yōu)點(diǎn),能夠?qū)χ黝}之間的相關(guān)性進(jìn)行建模,并且能對多領(lǐng)域及多數(shù)據(jù)源進(jìn)行主題建模,但mf-CTM 模型假設(shè)所有數(shù)據(jù)源的文本集共享相同的主題分布參數(shù),而現(xiàn)實(shí)生活中不同數(shù)據(jù)源通常有不同的主題分布,這就導(dǎo)致了mf-CTM 模型不能很好地應(yīng)用于多源數(shù)據(jù)集主題模型的構(gòu)建。文獻(xiàn)[16]提出的Probabilistic Source LDA 模型能夠?yàn)槊總€數(shù)據(jù)源計算潛在主題,維護(hù)源之間的主題-主題對應(yīng)關(guān)系,保留每個數(shù)據(jù)源獨(dú)特的特征,但是該模型的構(gòu)建需要已知數(shù)據(jù)源的先驗(yàn)知識,這提升了模型構(gòu)建的難度,并且該模型是標(biāo)準(zhǔn)的LDA[17]擴(kuò)展模型,不能自動推斷每個數(shù)據(jù)源的主題數(shù)量。文獻(xiàn)[18]提出的C-LDA 和C-HDP 模型擴(kuò)展了ccLDA 以適應(yīng)集合主題級的不對稱性,使得兩個模型能發(fā)現(xiàn)具有不同主題數(shù)量的任意集合之間的主題關(guān)聯(lián)性。C-LDA 模型與LDA 模型類似,需要人為提前設(shè)定主題數(shù)量。C-HDP 模型繼承了HDP 模型[19]的優(yōu)點(diǎn),無需人為設(shè)定主題數(shù)量,方便了模型的應(yīng)用。但是,C-HDP 與C-LDA 模型多數(shù)針對同一數(shù)據(jù)源的多個數(shù)據(jù)集,若應(yīng)用于多源數(shù)據(jù)集,則不能較好地學(xué)習(xí)每個數(shù)據(jù)源的源級詞特征。

        2 MCDMAfp 模型

        2.1 相關(guān)定義

        單詞w是文本的最小單元,是{1,2,…,W}詞匯表中的一項(xiàng)。詞匯表由所有數(shù)據(jù)源共享,每個數(shù)據(jù)源都可以使用詞匯表中的部分單詞。一篇文檔由W維向量xd={xd1,xd2,…,xdW}表示,其中xdj是第d個文檔中第j個單詞出現(xiàn)的次數(shù)。數(shù)據(jù)源χ是由D個文檔組成的集合,表示為χ={x1,x2,…,xD}。多源文本數(shù)據(jù)集M是由S個數(shù)據(jù)源組成的集合,表示為M={χ1,χ2,…,χS}。

        由于詞匯表中只有一部分詞對數(shù)據(jù)集中的不同文檔有區(qū)分作用,因此本文引入一個潛在的二元向量γ={γ1,γ2,…,γW}來識別有區(qū)分作用的特征詞,其中Ω表示特征詞集。對于每個j∈{1,2,…,W},γ表示為:

        本文為γ分配一個先驗(yàn)參數(shù),并假設(shè)γ是由伯努利分布B(1,ω)生成的,參數(shù)ω可以看作是詞匯表中每個單詞的先驗(yàn)概率。潛在變量γ采用文獻(xiàn)[19]中的隨機(jī)變量搜索思想進(jìn)行選擇。

        2.2 模型基本思想

        MCDMAfp 模型的基本思想是:1)多源文本數(shù)據(jù)集中同一主題的詞分布共享同一先驗(yàn);2)多源文本數(shù)據(jù)集中每個數(shù)據(jù)源具有主題分布、主題-詞分布以及噪音詞分布參數(shù)。MCDMAfp 模型的圖形化表示如圖1所示。

        圖1 MCDMAfp 模型的圖形化表示Fig.1 Graphical representation of MCDMAfp model

        本文模型假設(shè)多源文本數(shù)據(jù)集M的生成過程如下:

        2)對于每個主題i∈N

        3 Gibbs 采樣算法

        傳統(tǒng)主題模型多數(shù)為了方便計算,將主題-詞分布的狄利克雷先驗(yàn)參數(shù)設(shè)置為統(tǒng)一值,但實(shí)際上先驗(yàn)參數(shù)代表了詞的分布情況,例如,表示在主題i中獲得單詞j的概率比獲得單詞x的概率大,即單詞j在主題i中更具代表性。筆者發(fā)現(xiàn)不同數(shù)據(jù)源具有不同但相似的主題-詞分布,因此認(rèn)為不同數(shù)據(jù)源的主題-詞分布由同一先驗(yàn)產(chǎn)生,通過研究多源文本數(shù)據(jù)中表現(xiàn)較好的數(shù)據(jù)源的文本信息得到更具代表性的先驗(yàn)參數(shù)λ[21],從而提升模型的整體性能表現(xiàn)。

        3.1 先驗(yàn)參數(shù)

        本文通過優(yōu)化生成整個數(shù)據(jù)集的后驗(yàn)概率來獲得參數(shù)λ,已知多源數(shù)據(jù)集中數(shù)據(jù)源χs的概率近似為:

        為了方便計算,本文使用對數(shù)似然函數(shù)進(jìn)行運(yùn)算,計算如下:

        然后得到參數(shù)λ的梯度函數(shù):

        其中,Ψ(x)是Γ(x)的對數(shù)導(dǎo)數(shù)函數(shù),由式(12)可得到更新后的:

        3.2 基于Blocked-Gibbs 的參數(shù)學(xué)習(xí)

        1)通過重復(fù)以下步驟R次更新潛在特征詞指示符γ:通過隨機(jī)選取γold中的W個索引中的一個并改變其值,生成新的候選γnew并添加或刪除特征詞。新候選值被接受的概率q為:

        其中,f(γ|χs,zs)∝f(χs|γs,zs)p(γs)。

        2)在給定其他潛在變量的條件下,對于i=1,2,…,N,如果i不在中,則從以λi為參數(shù)的Dirichlet 分布中得出,否則將T1作為Dirichlet 分布的參數(shù),采樣更新:

        3)將T2作為Dirichlet 分布的參數(shù),采樣更新ηs0:

        4)將T3作為Dirichlet 分布的參數(shù),采樣更新P:

        其中,I(zd=i)為示性函數(shù),當(dāng)zd=i時,I(zd=i)=1,否則I(zd=i)=0。

        5)在給定其他潛在變量時,對于d=1,2,…,Ds,通過從參數(shù)為{sd,1,sd,2,…,sd,N}的離散分布中采樣更新,其中。

        在采樣過程的不同數(shù)據(jù)源中,為保證主題的一一對應(yīng),即數(shù)據(jù)源si中的簇類k和數(shù)據(jù)源sj中的簇類k相同,可在開始時將所有數(shù)據(jù)源的文本看成單個數(shù)據(jù)源進(jìn)行一次采樣,再對每個數(shù)據(jù)源進(jìn)行單獨(dú)采樣。在采樣結(jié)果收斂后,根據(jù)各個數(shù)據(jù)源在算法運(yùn)行過程中的最大生成概率判斷表現(xiàn)最優(yōu)秀的數(shù)據(jù)集,按照式(15)對參數(shù)λ進(jìn)行更新操作。性能表現(xiàn)差的數(shù)據(jù)源因?yàn)榈玫搅溯^準(zhǔn)確的先驗(yàn)知識,提升了整體效果,作為更新依據(jù)的數(shù)據(jù)源也因?yàn)閺?qiáng)化了自身的先驗(yàn)知識,整體效果也有所提升。在獲得新的參數(shù)λ后重復(fù)采樣過程,便可得到更好的主題發(fā)現(xiàn)結(jié)果。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 度量標(biāo)準(zhǔn)

        本文使用標(biāo)準(zhǔn)化互信息(Normalized Mutual Information,NMI)來評估聚類質(zhì)量。NMI 表示主題模型得到的聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果之間的相似性,其取值區(qū)間為(0,1),越接近1,表示主題發(fā)現(xiàn)的效果越好,計算公式如下[22]:

        其中:D表示文檔數(shù);dh表示主題h中的文檔數(shù);cl表示集群l中的文檔數(shù);dh,l表示主題h和集群l中的文檔數(shù)。

        4.2 數(shù)據(jù)集

        本文使用NASet 和BTSet 兩個真實(shí)的多源文本數(shù)據(jù)集來驗(yàn)證MCDMAfp 模型的準(zhǔn)確性:

        1)NASet 數(shù)據(jù)集。該數(shù)據(jù)集包含9 986 篇文本和food 與sport 兩個主題,其中,5 000 篇文本來自HuffPost 網(wǎng)站的新聞文章(記為NewSet),剩余文本來自Amazon 網(wǎng)站的評論文本(記為ASet)。

        2)BTSet 數(shù)據(jù)集。該數(shù)據(jù)集包含10 000 篇文本和4 個主題,其中:5 000 篇文本來自BBC 網(wǎng)站收集的新聞文章(記為bbcSet),共有travel、bussiness、sport、politic等4 個主題;5 000 篇文本來自Twitter 收集的文章(記為TSet),共有bussiness、sport、politic 等3 個主題。

        對于這兩個數(shù)據(jù)集,本文進(jìn)行以下預(yù)處理:1)將字母轉(zhuǎn)換為小寫字母;2)刪除非拉丁字符和停止字符;3)刪除長度小于2 或大于15 的單詞。

        4.3 實(shí)驗(yàn)結(jié)果

        本文在NASet 和BTSet 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并評估MCDMAfp 模型的性能。為便于對比研究,將K-means 模型[23]作為基線模型,對比模型包括基于單源數(shù)據(jù)集的PYPM 模型以及基于多源數(shù)據(jù)集的C-LDA 和C-HDP 模型。各模型在NASet 和BTSet 數(shù)據(jù)集上的聚類效果如表1所示。PYPM 模型與K-means 模型表示將每個多源數(shù)據(jù)集中每個數(shù)據(jù)源的文本集單獨(dú)作為該模型的輸入。PYPMall模型和K-meansall模型表示將多源數(shù)據(jù)集中所有數(shù)據(jù)源的文本集融合成一個數(shù)據(jù)集,并當(dāng)作單源數(shù)據(jù)集作為該模型的輸入。K-means 模型(k=30)表示在K-means模型中設(shè)定的主題數(shù)量為30,K-means 模型(k為真實(shí)值)表示在K-means 模型中設(shè)定的主題數(shù)量為各數(shù)據(jù)集中真實(shí)的主題數(shù)量。PYPMall模型在NASet和BTSet 多源數(shù)據(jù)集上的NMI 值為0.770 和0.237。K-meansall模型(k=30)在NASet 和BTSet 多源數(shù)據(jù)集上的NMI 值為0.276 和0.207。K-meansall模型(k為真實(shí)值)在NASet 和BTSet 多源數(shù)據(jù)集上的NMI 值為0.209 和0.110。從表1 可以看出,MCDMAfp 模型相比其他模型聚類效果更好。

        表1 5種模型在NASet和BTSet多源數(shù)據(jù)集上的NMI值Table 1 NMI values of five models on NASet and BTSet multi-source datasets

        各模型估計的主題數(shù)量如表2所示,其中PYPMall模型在NASet 和BTSet 多源數(shù)據(jù)集上的主題數(shù)量為9 986 和10 000。從表2 可以看出:PYPM 模型估計的主題數(shù)量比較多,這是因?yàn)镻YPM 模型無需提前輸入主題數(shù)量,而是直接將文檔數(shù)目當(dāng)作主題數(shù)量,所以PYPM 模型估計的主題數(shù)目比較大;MCDMAfp 模型相比其他模型發(fā)現(xiàn)的主題數(shù)量更接近于真實(shí)情況,而且每個數(shù)據(jù)源都擁有被估計的主題數(shù)量,這證明了MCDMAfp 模型能保留多源數(shù)據(jù)集中每個數(shù)據(jù)源的主題特征。

        表2 4 種模型在NASet 和BTSet 多源數(shù)據(jù)集上估計的主題數(shù)量Table 2 Number of topics estimated by four models on NASet and BTSet multi-source datasets

        本文進(jìn)一步研究了NASet 多源數(shù)據(jù)集中每個數(shù)據(jù)源的部分特征詞和噪音詞,如表3所示??梢钥闯觯總€數(shù)據(jù)源的噪音詞集不同,并且與特征詞集無關(guān)。這證明了MCDMAfp 模型能夠?qū)⒚總€數(shù)據(jù)源的特征詞集與噪音詞集分開,避免了噪音詞集對模型的干擾。在表3 中的特征詞展示的是每個主題下概率最大的前20 個特征詞。針對food 主題,兩個數(shù)據(jù)集都出現(xiàn)了food、chocolate 等詞,主要原因?yàn)檫@些詞可以明確指示主題的含義,即使數(shù)據(jù)源不同,這些詞也會在不同數(shù)據(jù)源的詞分布中占據(jù)重要地位。但因?yàn)椴煌臄?shù)據(jù)源側(cè)重點(diǎn)不同,taste 和price 等判別詞只會較多出現(xiàn)在Aset 數(shù)據(jù)集中,而幾乎不出現(xiàn)在NewSet 數(shù)據(jù)集中,主要原因?yàn)閬嗰R遜的評論通常側(cè)重從食物的價格和味道來評判食物,而新聞主要是從食物本身的風(fēng)味特征來描述食物,所以不同數(shù)據(jù)源下相同主題的判別詞雖然相似但不同。類似地,對于sport 主題,新聞文章與評論文章都有g(shù)ame、player 等詞,但新聞文章通常集中在奧運(yùn)會等重要的體育賽事上,而評論文章對sport 主題的評論通常與普通賽事有關(guān),這證明了不同數(shù)據(jù)源具有不同但相似的主題-詞分布,而判別詞的不同也證明了MCDMAfp 模型能夠?qū)W習(xí)并保留每個數(shù)據(jù)源獨(dú)特的源級詞特征。

        表3 NASet 多源數(shù)據(jù)集上每個數(shù)據(jù)源的部分特征詞和噪音詞Table 3 Some feature words and noise words of each data source in NASet multi-source dataset

        4.4 超參數(shù)對MCDMAfp 模型性能的影響

        4.4.1 超參數(shù)ω

        本文研究了ω值對MCDMAfp 模型性能的影響,將迭代次數(shù)、α、N、λ和β分別設(shè)為160、1.0、30、0.9 和4.0,通過改變ω值,觀察MCDMAfp 模型的性能變化,其中ω的取值為0.5、0.6、0.8、0.9 和1.0。圖2給出了當(dāng)ω取不同值時,由NMI 評估的MCDMAfp模型的文檔聚類性能變化??梢钥闯?,當(dāng)ω值位于0.5~0.9 時,NMI 值較穩(wěn)定,當(dāng)ω取值為1.0 時,多源數(shù)據(jù)集的NMI 值有明顯降低。圖3 給出了當(dāng)ω取不同值時,MCDMAfp 模型發(fā)現(xiàn)的噪音詞數(shù)量的變化曲線。

        圖2 ω 值對MCDMAfp 模型聚類效果的影響Fig.2 The influence of the values of ω on clustering effect of MCDMAfp model

        圖3 不同ω 值下MCDMAfp 模型發(fā)現(xiàn)的噪音詞數(shù)量Fig.3 The number of noise words found by MCDMAfp model under different values of ω

        由圖3 可知,當(dāng)ω值為1.0 時,MCDMAfp 模型發(fā)現(xiàn)的噪音詞數(shù)量為0,這表示沒有區(qū)分噪音詞集與特征詞集,因此文檔聚類效果較差。隨著ω值的增大,MCDMAfp 模型發(fā)現(xiàn)的噪音詞越來越少,這是因?yàn)樵胍粼~的指示符γ服從B(1,ω)的伯努利分布。除此之外,可以看出在ASet 數(shù)據(jù)集中發(fā)現(xiàn)的噪音數(shù)總比在NewSet 數(shù)據(jù)集中發(fā)現(xiàn)的多,這是因?yàn)樾侣勎臋n用詞較專業(yè),而評論文檔用詞較隨意。

        4.4.2 超參數(shù)α

        本文研究了α值對MCDMAfp 模型性能的影響,將迭代次數(shù)、N、β、λ和ω分別設(shè)為160、30、4.0、0.9 和0.9,通過改變α值,觀察MCDMAfp 模型的性能變化,其中α的取值為0.2、0.4、0.6、0.8 和1.0。圖4給出了當(dāng)α取不同值時,由NMI 評估的MCDMAfp模型的文檔聚類性能變化??梢钥闯觯琈CDMAfp模型在不同α值下聚類效果能夠保持相對的穩(wěn)定,這說明α值對MCDMAfp 模型的影響較小。

        圖4 α 值對MCDMAfp 模型聚類效果的影響Fig.4 The influence of the values of α on clustering effect of MCDMAfp model

        4.4.3 超參數(shù)β

        本文研究了β值對MCDMAfp 模型性能的影響,將迭代次數(shù)、N、λ、ω和α分別設(shè)為160、30、0.9、0.9和1.0,通過改變β值,觀察MCDMAfp 模型的性能變化,其中β的取值為2、3、4、5 和6。圖5 給出了當(dāng)β取不同值時,以NMI為評估標(biāo)準(zhǔn)的MCDMAfp 模型的文檔聚類性能變化??梢钥闯觯S著β值的改變,MCDMAfp 模型的聚類效果波動幅度不大,這說明β值對MCDMAfp 模型的影響較小。

        圖5 β 值對MCDMAfp 模型聚類效果的影響Fig.5 The influence of the values of β on clustering effect of MCDMAfp model

        4.4.4 超參數(shù)λ

        本文研究了λ值對MCDMAfp模型性能的影響,將迭代次數(shù)、N、β、ω和α分別設(shè)為160、30、4.0、0.9 和1.0,通過改變λ值,觀察MCDMAfp 模型的性能變化,其中λ的取值分別為0.7、0.8、0.9、1.0 和1.2。圖6 給出了當(dāng)λ取不同值時,由NMI 評估的MCDMAfp 模型的文檔聚類性能變化??梢钥闯觯?dāng)λ初始值在一定范圍內(nèi)變化時,對MCDMAfp 模型的聚類效果沒有較大影響。這是因?yàn)镸CDMAfp 模型會對λ值進(jìn)行更新,最大程度地減少λ初始值對模型的干擾,從而證明MCDMAfp 模型具有較強(qiáng)的魯棒性。

        圖6 λ 值對MCDMAfp 模型聚類效果的影響Fig.6 The influence of the values of λ on clustering effect of MCDMAfp model

        4.4.5 主題數(shù)量N

        本文為證明MCDMAfp 模型能夠較好地估計每個數(shù)據(jù)源的主題數(shù)量,研究N值對MCDMAfp 模型性能的影響,將迭代次數(shù)、β、ω、α和λ分別設(shè)為160、4.0、0.9、1.0 和0.9,通過改變N值,觀察MCDMAfp 模型的性能變化,其中N的取值分別為10、15、20、25 和30。圖7 給出了當(dāng)N取不同值時,由NMI 評估的MCDMAfp 模型的文檔聚類性能的變化??梢钥闯?,MCDMAfp 模型在不同N值下保持了一定的穩(wěn)定性,這證明了提前設(shè)定的N值對MCDMAfp 模型的影響較小,但隨著N值的增加,MCDMAfp 模型的運(yùn)行時間有所增加。

        圖7 N 值對MCDMAfp 模型聚類效果的影響Fig.7 The influence of the values of N on clustering effect of MCDMAfp model

        5 結(jié)束語

        本文提出一種基于DMA與特征劃分的多源文本主題模型MCDMAfp。MCDMAfp 模型采用Gibbs采樣算法自動估計每個數(shù)據(jù)源的主題數(shù)量,并為每個數(shù)據(jù)源提供單獨(dú)的主題分布、噪音詞分布以及主題-詞分布參數(shù)學(xué)習(xí)每個數(shù)據(jù)源的主題特點(diǎn),同時利用特征劃分方法識別每個數(shù)據(jù)源內(nèi)的特征詞和噪聲詞,防止混合后的結(jié)果影響主題發(fā)現(xiàn)效果。在兩個真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MCDMAfp 模型能夠保留多源數(shù)據(jù)集中每個數(shù)據(jù)源的獨(dú)特性,并具有較好的主題發(fā)現(xiàn)效果。下一步考慮將文字嵌入與多源文本主題模型相結(jié)合,進(jìn)行基于語義的多源文本主題發(fā)現(xiàn)研究。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲国产欧美在线成人| 国产亚洲2021成人乱码| 99精品视频在线观看免费| 三级国产女主播在线观看| 国产三级三级精品久久| 亚洲国产精品一区二区久久恐怖片| 大地资源中文第3页| 婷婷四房播播| 一区二区三区蜜桃在线视频| 国产白色视频在线观看| 国产欧美一区二区三区在线看| 无码aⅴ在线观看| AV在线毛片| 久久精品亚洲成在人线av乱码| 色综合久久精品亚洲国产 | 国产山东熟女48嗷嗷叫| 精品亚洲一区二区99| 一区视频免费观看播放| 777米奇色狠狠俺去啦| 亚洲av成人一区二区三区av| 日韩最新av一区二区| 激情在线一区二区三区视频| 97成人精品在线视频| 国产精品白丝久久av网站| 亚洲爆乳少妇无码激情| 久久久精品2019免费观看| 国内精品国产三级国产| 婷婷色香五月综合激激情| 国产91成人精品亚洲精品| 亚洲中文字幕诱惑第一页| 成人影院在线视频免费观看| 老外和中国女人毛片免费视频| 亚洲成a∨人片在线观看无码| 亚洲日本中文字幕乱码| 亚洲精品久久久久久久蜜桃| 成人免费ā片在线观看| 韩国美女主播国产三级| 在线视频国产91自拍| 啪啪无码人妻丰满熟妇| 日本韩国三级aⅴ在线观看 | 大陆成人精品自拍视频在线观看|