亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于LDA 的k話題增量訓(xùn)練算法

        2015-06-14 07:37:52謝志強(qiáng)
        關(guān)鍵詞:增量個(gè)數(shù)語(yǔ)料庫(kù)

        辛 宇,楊 靜,謝志強(qiáng)

        (1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001;2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150080)

        0 引 言

        LDA(Latent dirichlet allocation,LDA)模型是近些年來(lái)話題提取的通用模型[1]。目前,話題模型相關(guān)的工作大多是對(duì)LDA 模型進(jìn)行修改,或者是將LDA 模型作為整個(gè)概率模型的一個(gè)部件。在LDA 模型中,假設(shè)每個(gè)文檔的主題概率分布服從Dirichlet分布,并沒(méi)有對(duì)不同主題之間相關(guān)性進(jìn)行刻畫。然而,在真實(shí)的語(yǔ)料中,不同主題之間存在相關(guān)性的現(xiàn)象很普遍[2]。

        在面向LDA 模型演化研究方面,2004 年,Blei 等[3]提 出 了 主 題 間 為 樹 結(jié) 構(gòu) 的 層 級(jí)(Hierarchical LDA)。在該模型中,樹中的每個(gè)節(jié)點(diǎn)代表一個(gè)主題,該模型還有一個(gè)特點(diǎn)是可以從語(yǔ)料中估計(jì)出主題的個(gè)數(shù),并與使用LDA 模型在不同主題數(shù)下重復(fù)實(shí)驗(yàn)得到的最佳主題個(gè)數(shù)一致。Blei等[4-5]于2006年又在層級(jí)LDA 的基礎(chǔ)上提出了相關(guān)主題模型(Correlated topic model,CTM),與LDA 不同的是,CTM 從對(duì)數(shù)正態(tài)分布中對(duì)主題概率分布進(jìn)行采樣。Li等[6]針對(duì)CTM 只考慮兩個(gè)主題間關(guān)系的不足,提出了PAM 模型(Pachinko allocation model,PAM),該模型的特點(diǎn)是把主題之間的關(guān)系表示成一個(gè)有向無(wú)環(huán)圖,其中葉子節(jié)點(diǎn)是單詞,可以看成是由所包含的子節(jié)點(diǎn)(主題或單詞)構(gòu)成。之后Mimno等[7]又在PAM 的基礎(chǔ)上提出了層級(jí)PAM 模型,該模型可以看成是把層級(jí)LDA 和PAM 結(jié)合起來(lái),使得PAM 模型中的非葉子節(jié)點(diǎn)也具有單詞的概率分布。Wang等[8]向模型中添加了一個(gè)作為觀測(cè)值的時(shí)間隨機(jī)變量后得到了主題隨時(shí)間變化的主題模型(Topic over time,TOT),該模型認(rèn)為主題概率分布受到時(shí)間信息的影響,且時(shí)間變量服從beta分布。

        在面向上下文信息分析的話題提取方面,通常主題模型假設(shè)單詞序列中的單詞是可交換的,即單詞的順序和模型的訓(xùn)練結(jié)果無(wú)關(guān),在考慮當(dāng)前節(jié)點(diǎn)和其他節(jié)點(diǎn)的關(guān)系時(shí),就破壞了LDA 的可交 換 性 假 設(shè)。Griffiths 等[9]認(rèn) 為 可 以 通 過(guò)HMM 來(lái)捕捉句法結(jié)構(gòu)信息,通過(guò)LDA 來(lái)提示語(yǔ)義關(guān)系,并將兩者結(jié)合在一起提出了HMM-LDA模型。Wallach[10]認(rèn)為語(yǔ)料庫(kù)生成過(guò)程中,一個(gè)單詞除了依賴于其對(duì)應(yīng)的主題外還與前一個(gè)單詞有關(guān),提出超越詞袋(Beyond bag-of-words)的主題模型。張晨逸[11]等人提出利用MB-LDA 進(jìn)行微博主題挖掘,該模型在挖掘出微博主題的同時(shí)還可挖掘出聯(lián)系人關(guān)注的主題,并將LDA 模型推廣到了社交網(wǎng)絡(luò)中。韓曉暉[12]等人提出了一種基于LDA 的低質(zhì)量回貼檢測(cè)方法,利用檢測(cè)回貼質(zhì)量的二元分類性訓(xùn)練SVM 分類器,以區(qū)分出質(zhì)量回貼。

        在面向特定任務(wù)研究方面,Blei等[13]針對(duì)分類問(wèn)題提出了有監(jiān)督LDA 模型(Supervised latent dirichlet allocation,sLDA),該模型將訓(xùn)練語(yǔ)料中的文檔類別標(biāo)記為觀測(cè)值加入LDA 模型,且類別標(biāo)號(hào)服從一個(gè)與文檔主題概率分布有關(guān)的正態(tài)線性分布。Steyvers等[14]提出作者主題模型(Author topic,AT),認(rèn)為每個(gè)作者有一個(gè)主題概率分布。McCallum 等[15]又在AT 模型的基礎(chǔ)上,提出了作者接受者主題模型(Author recipient topic,ART)以判定個(gè)人的社會(huì)角色。

        以上模型的話題個(gè)數(shù)k 均需預(yù)先給定,若要確定最優(yōu)話題個(gè)數(shù)k*?jiǎng)t需要循環(huán)探測(cè),其復(fù)雜度過(guò)高。文獻(xiàn)[5]和文獻(xiàn)[7]的實(shí)驗(yàn)表明,當(dāng)k 的個(gè)數(shù)超過(guò)某一數(shù)據(jù)時(shí),k*的選擇開始變得模糊,導(dǎo)致LDA 的最優(yōu)話題個(gè)數(shù)選擇方法復(fù)雜度高且結(jié)果不精確。因此,設(shè)計(jì)一種高效可行的最優(yōu)話題個(gè)數(shù)選擇方法是LDA 研究的關(guān)鍵問(wèn)題。本文針對(duì)LDA 模型的最優(yōu)k 值選取問(wèn)題,提出LDA 話題增量訓(xùn)練算法,并通過(guò)對(duì)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析驗(yàn)證了本文算法對(duì)最優(yōu)k值選取的有效性和可行性。

        1 LDA 模型分析

        LDA 模型是以單詞-話題-參數(shù)先驗(yàn)關(guān)系構(gòu)成的3層貝葉斯模型,三者之間的關(guān)系表達(dá)模型如圖1所示,其中M 為語(yǔ)料庫(kù)中的文檔個(gè)數(shù),N 為單詞表中的單詞個(gè)數(shù),zdn為文檔d中單詞n所屬話題的概率,θd為文檔d中話題zdn分布的先驗(yàn)參數(shù),α為語(yǔ)料庫(kù)中θ的全局先驗(yàn)參數(shù),β為k×N 單詞 -話題概率矩陣,其中k為話題個(gè)數(shù),βi,j =p(w =j(luò)|z=i)且βi,*=1。根據(jù)上述條件概率關(guān)系,文檔-單詞的數(shù)學(xué)模型可表示為:

        語(yǔ)料庫(kù)-單詞的數(shù)學(xué)模型可表示為:

        圖1 LDA“盤子”模型Fig.1 Plate model of LDA

        LDA 的生成模型可假設(shè)如下:

        (1)p(θ|α)~Dir(α)。其表達(dá)式為:

        (2)p(z|θ)~Multinomial(θ)。

        根據(jù)式(3)(4),式(2)可表示為:

        加入文檔內(nèi)部估計(jì)參數(shù)γ和φ,γ為β 的文檔樣本估計(jì)值,φ 為文檔內(nèi)部話題的后驗(yàn)概率,φi,j=p(z=j(luò)|w =i)。

        假設(shè)γ和φ 相互獨(dú)立。利用變量β和z 建立文檔內(nèi)部隱含參數(shù)的估計(jì)模型如下:變分推理以極大化單詞-話題分布的似然函數(shù)p(w|α,β)為目標(biāo),通過(guò)在似然函數(shù)中加入樣本估計(jì)參數(shù)γ 和φ,實(shí)現(xiàn)對(duì)全局參數(shù)α 和β 的優(yōu)化。為此,式(5)的似然函數(shù)表達(dá)式如下:

        2 LDA 變分推理過(guò)程

        2.1 建立變分似然函數(shù)表達(dá)式模型

        式中:Eq為利用估計(jì)參數(shù)γ 和φ 計(jì)算的期望,由于Dirichlet分布屬于一種指數(shù)分布族,根據(jù)文獻(xiàn)[1]可知:

        變分推理的優(yōu)化過(guò)程即尋找L(γ,φ;α,β)的極值過(guò)程。根據(jù)式(8)可得:

        根據(jù)式(9)可得:

        2.2 變分推理參數(shù)關(guān)系模型

        式(11)包 含 了(α,β,γ,φ)4 個(gè) 參 數(shù),其 中利用拉格朗日乘子法對(duì)(α,β,γ,φ)進(jìn)行優(yōu)化求值可得到如下結(jié)果:

        式(12)~(15)分別對(duì)(α,β,γ,φ)求零值導(dǎo)數(shù)可得到(α,β,γ,φ)的極值關(guān)系式如下:

        2.3 變分推理運(yùn)行過(guò)程

        根據(jù)式(16)~(19)變分推理的參數(shù)訓(xùn)練過(guò)程分為文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過(guò)程(訓(xùn)練γ,φ)和語(yǔ)料庫(kù)總體參數(shù)訓(xùn)練過(guò)程(訓(xùn)練α,β)。文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過(guò)程是語(yǔ)料庫(kù)總體參數(shù)過(guò)程的子過(guò)程。圖2為訓(xùn)練過(guò)程的盤子模型圖,其中黃色箭頭線表示文檔內(nèi)部參數(shù)訓(xùn)練過(guò)程,參數(shù)γ,φ 根據(jù)式(17)和(19)以α,β 為參數(shù)進(jìn)行循環(huán)迭代以優(yōu)化參數(shù)γ,φ;棕色箭頭表示語(yǔ)料庫(kù)總體參數(shù)訓(xùn)練過(guò)程,在語(yǔ)料庫(kù)內(nèi)所有文檔完成對(duì)參數(shù)γ,φ 的訓(xùn)練后,根據(jù)式(16)和(18)調(diào)整全局參數(shù)α,β;藍(lán)色箭頭表示LDA 模型的似然函數(shù)的計(jì)算過(guò)程。

        圖2 LDA變分推理過(guò)程Fig.2 Variational inference process of LDA

        3 變分推理優(yōu)化改進(jìn)策略

        LDA 話題提取存在兩方面問(wèn)題需要改進(jìn):

        (1)由于LDA 算法在初始運(yùn)行時(shí)需要人為給定話題個(gè)數(shù)k(較小的整數(shù)),k與最佳話題個(gè)數(shù)k*的偏離度決定了LDA 話題發(fā)現(xiàn)的質(zhì)量,若k<k*會(huì)導(dǎo)致話題訓(xùn)練的欠擬合,若k>k*會(huì)導(dǎo)致話題訓(xùn)練的過(guò)擬合,如何選擇k值是LDA 話題發(fā)現(xiàn)尚未解決的問(wèn)題。

        (2)LDA 在樣本的訓(xùn)練過(guò)程中缺少對(duì)β 中“模糊單詞”(即話題歸屬不確定的單詞)的處理,導(dǎo)致β 矩陣中各話題間的模糊化,并使得后續(xù)的訓(xùn)練結(jié)果出現(xiàn)相似的話題結(jié)果,影響話題分類的有效性。

        為說(shuō)明以上兩方面問(wèn)題,本文統(tǒng)計(jì)了CNN網(wǎng)站中的50組話題,建立了50個(gè)樣本話題,并在每組話題中選擇詞頻最高的5個(gè)名詞作為樣本話題詞匯,如表1所示。隨機(jī)選擇2~5組樣本話題構(gòu)成文檔,并以1000個(gè)隨機(jī)文檔為單位,建立40組語(yǔ)料庫(kù)。

        表1 CNN 50個(gè)話題的概率表Table 1 50-topics Probability Table of CNN

        3.1 likelihood值分析

        本文對(duì)40 組語(yǔ)料庫(kù)建立10~70 個(gè)話題的LDA 跟蹤運(yùn)算,所得的likelihood值如圖3所示,其中橫坐標(biāo)為話題個(gè)數(shù),縱坐標(biāo)為likelihood值。由于本文所建立的40組語(yǔ)料庫(kù)是50個(gè)話題的混合,因此理想狀態(tài)下50個(gè)話題的likelihood值應(yīng)為極值,且50個(gè)話題的各每組樣本likelihood值的偏差應(yīng)該較小。但圖3所示的結(jié)果說(shuō)明LDA算法在話題個(gè)數(shù)大于40時(shí),出現(xiàn)likelihood值的模糊化,無(wú)法根據(jù)likelihood值判斷最優(yōu)話題個(gè)數(shù)k*。

        圖3 表1數(shù)據(jù)集likelihood值(話題個(gè)數(shù)為10~70)Fig.3 Likelihood of the datasets in table 1(the number of topics are 10~70)

        3.2 β矩陣分析

        本文對(duì)第1、8、15、22、29、36 組語(yǔ)料庫(kù)LDA訓(xùn)練后的β 值進(jìn)行分析,由于表1數(shù)據(jù)集中屬于同一話題的單詞編號(hào)鄰近,因此屬于同一話題的單詞在β 矩陣的位置鄰近,可將β 矩陣元素中的最大值進(jìn)行聚類以分析LDA 的分類效果。β矩陣的聚類輪廓圖如圖4所示,其中x 軸為話題號(hào),y軸為單詞號(hào)。由于表1數(shù)據(jù)集中各樣本話題單詞無(wú)重復(fù),因此理想狀態(tài)下β 矩陣聚類輪廓圖的每行每列僅有一個(gè)話題聚類簇,從圖4中可直觀看到語(yǔ)料庫(kù)中第1、8、15、22組數(shù)據(jù)的LDA 分析結(jié)果較差。

        另外,圖4中LDA 算法所挖掘出的編號(hào)相鄰的話題相似度較大,且有效識(shí)別個(gè)數(shù)最多為40(語(yǔ)料庫(kù)36)。為了提高LDA 的話題精度,降低話題間的相似度,本文提出LDA 話題增量訓(xùn)練算法,在提高話題分類精度的同時(shí)增量挖掘優(yōu)化話題個(gè)數(shù)k*。

        圖4 語(yǔ)料庫(kù)1,8,15,22的β矩陣分析結(jié)果Fig.4 βmatrix of corpus 1,8,15,22

        3.3 LDA話題增量訓(xùn)練算法

        變分推理的執(zhí)行過(guò)程中,以文檔內(nèi)部話題-單詞的后驗(yàn)概率φ 作為α 和β 訓(xùn)練的中間變量φi,j=p(z=j(luò)|w =i),若話題個(gè)數(shù)為k(k<k*,k*為最優(yōu)話題個(gè)數(shù)),必存在某一單詞的話題不確定度較高,即φi,*的熵值entropy(φi,*)較大,其中某一單詞wi的熵值表達(dá)式為:

        entropy(φi,*)是對(duì)單詞wi的不確定性度量,entropy(φi,*)越大則wi的不確定性越高,當(dāng)前的k個(gè)話題對(duì)wi的劃分越不合理。此時(shí),可提取entropy值較大的單詞重新組合為一個(gè)新的話題,并復(fù)用之前的迭代結(jié)果。由于話題的增加需要進(jìn)行一次語(yǔ)料庫(kù)總體參數(shù)訓(xùn)練(增加參數(shù)α 和β的維數(shù)),為此LDA 話題增量訓(xùn)練算法對(duì)參數(shù)α和β 的修改如下:

        (1)增加β矩陣的維數(shù)。引入熵的閾值參數(shù)σ,選擇entropy(φi,*)大于σ的wi構(gòu)成新的話題,并將新話題按熵值歸一化,加入β矩陣。

        (2)增加α 的維數(shù)。以新的β 和α 作為初始參數(shù)執(zhí)行新一次迭代。

        在LDA 的執(zhí)行過(guò)程中,迭代次數(shù)越高參數(shù)β和α 的訓(xùn)練越充分,為防止LDA 話題增量訓(xùn)練算法在β和α 尚未充分訓(xùn)練的條件下進(jìn)行φ 的熵值選擇,導(dǎo)致LDA 訓(xùn)練不充分而影響話題發(fā)現(xiàn)質(zhì)量,需要在LDA 迭代過(guò)程中加入迭代參數(shù)c,每進(jìn)行c次迭代時(shí)執(zhí)行一次LDA 話題增量訓(xùn)練算法。

        圖5為L(zhǎng)DA 話題增量訓(xùn)練算法的參數(shù)訓(xùn)練過(guò)程,其中綠色箭頭為L(zhǎng)DA 話題增量訓(xùn)練算法對(duì)α 和β 的增量訓(xùn)練過(guò)程。

        具體的算法描述如下:

        功能:利用LDA 話題增量訓(xùn)練算法對(duì)訓(xùn)練最優(yōu)話題個(gè)數(shù)k*

        輸入:初始話題個(gè)數(shù)k

        輸出:最優(yōu)話題個(gè)數(shù)k*及語(yǔ)料庫(kù)參數(shù)α和β

        4 實(shí)驗(yàn)分析

        4.1 CNN 數(shù)據(jù)集分析

        圖6為語(yǔ)料庫(kù)13的LDA 迭代跟蹤過(guò)程(語(yǔ)料庫(kù)13 共進(jìn)行57 次迭代),從中可以直觀發(fā)現(xiàn)LDA 算法對(duì)66~70 號(hào)單詞“makeup”話題的識(shí)別較差,其原因在于LDA 迭代過(guò)程中未能在β矩陣中提取“makeup”話題,使得“makeup”單詞的話題隸屬度相對(duì)模糊,影響了β 后序訓(xùn)練過(guò)程中對(duì)“makeup”話題的識(shí)別。

        本文利用大量模擬實(shí)驗(yàn)驗(yàn)證了LDA 話題增量訓(xùn)練算法參數(shù)的有效范圍分別為σ =(0 ~1.6),c=(3~12),并在4.3節(jié)分析了參數(shù)σ和c的最優(yōu)取值問(wèn)題,圖7為利用本文LDA 話題增量訓(xùn)練算法(以10為初始k值,σ=0.3,c=5)對(duì)語(yǔ)料庫(kù)13的增量迭代過(guò)程,該圖直觀顯示了話題個(gè)數(shù)從10增量訓(xùn)練到50的過(guò)程中,話題間的獨(dú)立逐漸增強(qiáng),相比于圖6中LDA 話題增量訓(xùn)練算法更趨于理想狀態(tài)。

        圖6 語(yǔ)料庫(kù)13的LDA迭代跟蹤過(guò)程Fig.6 LDA iterative tracking process of corpus 13

        圖7 語(yǔ)料庫(kù)13的LDA跟蹤過(guò)程Fig.7 LDA tracking process of corpus 13

        圖8 為40 組語(yǔ)料庫(kù)在本文算法下的likelihood值(以10為初始值,σ=0.3,c=5),該圖顯示了本文算法的最佳話題發(fā)現(xiàn)個(gè)數(shù)集中在40~50之間。

        圖8 表1數(shù)據(jù)集LDA話題增量訓(xùn)練算法下的likelihood值Fig.8 Likelihood of the dataset in Table 1by the LDA topic increments training algorithm

        4.2 真實(shí)數(shù)據(jù)集對(duì)比

        在數(shù)據(jù)集的選擇方面,本文采用有明確文檔分類的數(shù)據(jù)集,以分析本文算法對(duì)話題個(gè)數(shù)選取的有效性,本文分別選取了自然語(yǔ)言處理中常用的3組數(shù)據(jù)集,各數(shù)據(jù)集的介紹如下:

        (1)所選擇的數(shù)據(jù)庫(kù)包括第36屆加拿大國(guó)會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)和b卷(共40個(gè)議案),總單詞量約為1 300 000個(gè)。將每個(gè)議案的章節(jié)作為L(zhǎng)DA 分析的“文檔”,由于同一議案趨近于同一話題,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)均為40。

        (2)蘭卡斯特新聞書籍語(yǔ)料庫(kù)The Lancaster Newsbooks Corpus,本文算法取其中25 類(500本書)書籍為數(shù)據(jù)集,以每本書的摘要作LDA 分析的“文檔”,由于同一類書籍的新聞話題近似,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為25。

        (3)路透社經(jīng)典文檔分類語(yǔ)料庫(kù)Reuters 21578 Classic text categorization corpus(共50類),以每本書的摘要作LDA 分析的“文檔”,該數(shù)據(jù)集已將各文檔進(jìn)行了分類,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為50。

        本文算法對(duì)上述數(shù)據(jù)分別利用LDA 和LDA話題增量訓(xùn)練算法(σ=0.3,c=5)進(jìn)行40次實(shí)驗(yàn),其對(duì)比結(jié)果如圖9所示,其中藍(lán)色為L(zhǎng)DA 算法的分析結(jié)果,紅色為本文算法的分析結(jié)果,從結(jié)果可直觀判斷本文算法的likelihood 高于LDA算法,驗(yàn)證了本文算法的話題分類合理性高于LDA 算法。在話題個(gè)數(shù)識(shí)別方面,各組數(shù)據(jù)的話題個(gè)數(shù)分別為40、45、23、55,接近于理想話題個(gè)數(shù)。

        圖9 4種語(yǔ)料庫(kù)likelihood對(duì)比圖Fig.9 Comparison chart of 4corpuses

        4.3 參數(shù)σ 和c 分析

        本文利用LDA 話題增量訓(xùn)練算法對(duì)第36屆加拿大國(guó)會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)作為數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行15次實(shí)驗(yàn),其中參數(shù)分別為σ =(0.1∶0.1∶1.5),c=5,每次將話題個(gè)數(shù)收斂于38~42的結(jié)果判定為正確(共有1036次正確分類),其統(tǒng)計(jì)直方圖如圖10(a)所示。以AHPC數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行8次實(shí)驗(yàn),其中參數(shù)分別為σ=0.3,c=(3∶1∶10),每次將話題個(gè)數(shù)收斂于38~42 的結(jié)果判定為正確(共有966 次正確分類),其統(tǒng)計(jì)直方圖如圖10(b)所示。通過(guò)圖10(a)與(b)的分析可知:當(dāng)σ>1.5時(shí)分類的趨于無(wú)效,且c 的 最 優(yōu) 取 值 區(qū) 間 為(3,10)。圖11 為AHPC的三維stem 圖,其中LDA 話題增量訓(xùn)練算法的最優(yōu)值為σ=0.45,c=6。

        圖10 AHPC數(shù)據(jù)集統(tǒng)計(jì)直方圖Fig.10 Histogram of AHPC dataset

        圖11 AHPC的三維stem 圖Fig.11 3Dstem figure of AHPC

        5 結(jié) 論

        本文利用LDA 話題增量訓(xùn)練算法,創(chuàng)新采用以單詞-話題概率熵值作為L(zhǎng)DA 迭代過(guò)程中模糊單詞選擇標(biāo)準(zhǔn),將所選擇模糊單詞歸入新的話題優(yōu)化LDA 的迭代過(guò)程,以提高話題獨(dú)立性為手段提高各單詞的合理化分類;所提出的LDA話題增量訓(xùn)練算法可在實(shí)現(xiàn)LDA 話題分類優(yōu)化的同時(shí)對(duì)最優(yōu)話題個(gè)數(shù)k 進(jìn)行增量訓(xùn)練,最后通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了本文算法在話題分類合理度likelihood與k自動(dòng)選擇方面的優(yōu)越性,對(duì)深入研究話題分類模型具有一定的理論和實(shí)際意義。

        [1]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [2]徐戈,王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.Xu Ge,Wang Hou-feng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1436.

        [3]Blei D M,Griffitchs T L,Jordan M I,et al.Hierarchical topic models and the nested Chinese restaurant process[C]∥Advances in Neural Information Processing Systems 16.Cambridge,MA:MIT Press,2004:17-24.

        [4]Blei D M,Lafferty J D.Correlated topic models[C]∥Advances in Neural Information Processing Systems 18.Cambridge,MA:MIT Press,2006.

        [5]Blei D,Lafferty J.A correlated topic model of science[J].Annals of Applied Statistics,2007,1(1):17-35.

        [6]Li W,McCallum A.Pachinko allocation:DAGstructured mixture models of topic correlations[C]∥Proceeding of the ICML.Pittsburgh,Pennsylvania,USA,2006:577-584.

        [7]Mimno D,Li W,McCallum A.Mixtures of hierarchical topics with pachinko allocation[C]∥Proceeding of the ICML.Corvllis,Oregon,USA,2007:633-640.

        [8]Wang X,McCallum A.Topics over time:a nonmarkov continuous-time model of topical trends[C]∥Proceeding of the Conference on Knowledge Discovery and Data Mining(KDD).Philadelphia,USA,2006:113-120.

        [9]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C]∥Advances in Neural Information Processing Systems 18.Vancouver,Canada,2004.

        [10]Wallach H.Topic modeling:beyond bag-of-words[C]∥Proceeding of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:977-984.

        [11]張晨逸,孫建伶,丁軼群.基于MB-LDA 模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.Zhang Chen-yi,Sun Jian-ling,Ding Yi-qun.Topic mining for microblog based on MB-LDA model[J].Journal of Computer Research and Development,2011,48(10):1795-1802.

        [12]韓曉暉,馬軍,邵海敏,等.一種基于LDA 的Web論壇低質(zhì)量回貼檢測(cè)方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(9):1937-1946.Han Xiao-h(huán)ui,Ma Jun,Shao Hai-min,et al.An LDA based approach to detect the low-quality reply posts in web forums[J].Journal of Computer Research and Development,2012,49(9):1937-1946.

        [13]Blei D M,McAuliffe J.Supervised topic models[C]∥Advances in Neural Information Processing Systems(NIPS).Vancouver,Canada,2008.

        [14]Steyvers M,Smyth P,Rosen-Zvi M,et al.Probabilistic author-topic models for information discovery[C]∥Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle,Washington,2004:306-315.

        [15]McCallum A,Corrada-Emmanuel A,Wang X.The author recipient-topic model for topic and role discovery in social networks:experiments with enron and academic email[R].Technical Report UM-CS-2004-096,2004.

        猜你喜歡
        增量個(gè)數(shù)語(yǔ)料庫(kù)
        提質(zhì)和增量之間的“辯證”
        怎樣數(shù)出小正方體的個(gè)數(shù)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        “價(jià)增量減”型應(yīng)用題點(diǎn)撥
        等腰三角形個(gè)數(shù)探索
        怎樣數(shù)出小木塊的個(gè)數(shù)
        怎樣數(shù)出小正方體的個(gè)數(shù)
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于均衡增量近鄰查詢的位置隱私保護(hù)方法
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開發(fā)與實(shí)現(xiàn)
        亚洲av日韩专区在线观看| 76少妇精品导航| 亚洲中文字幕在线爆乳| 日韩不卡无码三区| 亚洲免费精品一区二区| 丁香婷婷激情视频在线播放| 亚洲av无码一区东京热| 中文成人无码精品久久久不卡 | 亚洲另类欧美综合久久图片区| 无遮高潮国产免费观看| 噜噜噜色97| 亚洲肥婆一区二区三区| 国产精品无码制服丝袜| 色avav色av爱avav亚洲色拍| 亚洲级αv无码毛片久久精品| 亚洲天堂无码AV一二三四区| 精品熟女av中文字幕| 精品欧美一区二区三区久久久| 中文字幕av免费专区| 含羞草亚洲AV无码久久精品| 亚洲高清美女久久av| 亚洲天堂一区二区偷拍| 亚洲一区二区三区一站| 日韩有码在线一区二区三区合集| 无码人妻精品中文字幕| 男女爽爽无遮挡午夜视频| 日韩爱爱视频| 老熟女一区二区免费| 精品人妻一区二区三区不卡毛片| 中国一级特黄真人片久久| 99精品国产一区二区| 精品一精品国产一级毛片| 亚洲国产日韩综一区二区在性色 | 国产亚洲欧美另类久久久| 亚洲国产大胸一区二区三区| 日韩亚洲中文有码视频| 国产精品欧美福利久久| 九九99国产精品视频| 白白色青青草视频免费观看| 99久久国产精品网站| 国产如狼似虎富婆找强壮黑人|