亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于LDA 的k話題增量訓(xùn)練算法

2015-06-14 07:37:52謝志強(qiáng)

吉林大學(xué)學(xué)報(bào)(工學(xué)版) 2015年4期

辛宇，楊靜，謝志強(qiáng)

（1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，哈爾濱150001；2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，哈爾濱150080）

0 引言

LDA（Latent dirichlet allocation，LDA）模型是近些年來(lái)話題提取的通用模型［1］。目前，話題模型相關(guān)的工作大多是對(duì)LDA 模型進(jìn)行修改，或者是將LDA 模型作為整個(gè)概率模型的一個(gè)部件。在LDA 模型中，假設(shè)每個(gè)文檔的主題概率分布服從Dirichlet分布，并沒(méi)有對(duì)不同主題之間相關(guān)性進(jìn)行刻畫。然而，在真實(shí)的語(yǔ)料中，不同主題之間存在相關(guān)性的現(xiàn)象很普遍［2］。

在面向LDA 模型演化研究方面，2004 年，Blei 等［3］提出了主題間為樹結(jié) 構(gòu) 的層級(jí)（Hierarchical LDA）。在該模型中，樹中的每個(gè)節(jié)點(diǎn)代表一個(gè)主題，該模型還有一個(gè)特點(diǎn)是可以從語(yǔ)料中估計(jì)出主題的個(gè)數(shù)，并與使用LDA 模型在不同主題數(shù)下重復(fù)實(shí)驗(yàn)得到的最佳主題個(gè)數(shù)一致。Blei等［4－5］于2006年又在層級(jí)LDA 的基礎(chǔ)上提出了相關(guān)主題模型（Correlated topic model，CTM），與LDA 不同的是，CTM 從對(duì)數(shù)正態(tài)分布中對(duì)主題概率分布進(jìn)行采樣。Li等［6］針對(duì)CTM 只考慮兩個(gè)主題間關(guān)系的不足，提出了PAM 模型（Pachinko allocation model，PAM），該模型的特點(diǎn)是把主題之間的關(guān)系表示成一個(gè)有向無(wú)環(huán)圖，其中葉子節(jié)點(diǎn)是單詞，可以看成是由所包含的子節(jié)點(diǎn)（主題或單詞）構(gòu)成。之后Mimno等［7］又在PAM 的基礎(chǔ)上提出了層級(jí)PAM 模型，該模型可以看成是把層級(jí)LDA 和PAM 結(jié)合起來(lái)，使得PAM 模型中的非葉子節(jié)點(diǎn)也具有單詞的概率分布。Wang等［8］向模型中添加了一個(gè)作為觀測(cè)值的時(shí)間隨機(jī)變量后得到了主題隨時(shí)間變化的主題模型（Topic over time，TOT），該模型認(rèn)為主題概率分布受到時(shí)間信息的影響，且時(shí)間變量服從beta分布。

在面向上下文信息分析的話題提取方面，通常主題模型假設(shè)單詞序列中的單詞是可交換的，即單詞的順序和模型的訓(xùn)練結(jié)果無(wú)關(guān)，在考慮當(dāng)前節(jié)點(diǎn)和其他節(jié)點(diǎn)的關(guān)系時(shí)，就破壞了LDA 的可交換性假設(shè)。Griffiths 等［9］認(rèn) 為可以通過(guò)HMM 來(lái)捕捉句法結(jié)構(gòu)信息，通過(guò)LDA 來(lái)提示語(yǔ)義關(guān)系，并將兩者結(jié)合在一起提出了HMM－LDA模型。Wallach［10］認(rèn)為語(yǔ)料庫(kù)生成過(guò)程中，一個(gè)單詞除了依賴于其對(duì)應(yīng)的主題外還與前一個(gè)單詞有關(guān)，提出超越詞袋（Beyond bag－of－words）的主題模型。張晨逸［11］等人提出利用MB－LDA 進(jìn)行微博主題挖掘，該模型在挖掘出微博主題的同時(shí)還可挖掘出聯(lián)系人關(guān)注的主題，并將LDA 模型推廣到了社交網(wǎng)絡(luò)中。韓曉暉［12］等人提出了一種基于LDA 的低質(zhì)量回貼檢測(cè)方法，利用檢測(cè)回貼質(zhì)量的二元分類性訓(xùn)練SVM 分類器，以區(qū)分出質(zhì)量回貼。

在面向特定任務(wù)研究方面，Blei等［13］針對(duì)分類問(wèn)題提出了有監(jiān)督LDA 模型（Supervised latent dirichlet allocation，sLDA），該模型將訓(xùn)練語(yǔ)料中的文檔類別標(biāo)記為觀測(cè)值加入LDA 模型，且類別標(biāo)號(hào)服從一個(gè)與文檔主題概率分布有關(guān)的正態(tài)線性分布。Steyvers等［14］提出作者主題模型（Author topic，AT），認(rèn)為每個(gè)作者有一個(gè)主題概率分布。McCallum 等［15］又在AT 模型的基礎(chǔ)上，提出了作者接受者主題模型（Author recipient topic，ART）以判定個(gè)人的社會(huì)角色。

以上模型的話題個(gè)數(shù)k 均需預(yù)先給定，若要確定最優(yōu)話題個(gè)數(shù)k＊?jiǎng)t需要循環(huán)探測(cè)，其復(fù)雜度過(guò)高。文獻(xiàn)［5］和文獻(xiàn)［7］的實(shí)驗(yàn)表明，當(dāng)k 的個(gè)數(shù)超過(guò)某一數(shù)據(jù)時(shí)，k＊的選擇開始變得模糊，導(dǎo)致LDA 的最優(yōu)話題個(gè)數(shù)選擇方法復(fù)雜度高且結(jié)果不精確。因此，設(shè)計(jì)一種高效可行的最優(yōu)話題個(gè)數(shù)選擇方法是LDA 研究的關(guān)鍵問(wèn)題。本文針對(duì)LDA 模型的最優(yōu)k 值選取問(wèn)題，提出LDA 話題增量訓(xùn)練算法，并通過(guò)對(duì)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析驗(yàn)證了本文算法對(duì)最優(yōu)k值選取的有效性和可行性。

1 LDA 模型分析

LDA 模型是以單詞－話題－參數(shù)先驗(yàn)關(guān)系構(gòu)成的3層貝葉斯模型，三者之間的關(guān)系表達(dá)模型如圖1所示，其中M 為語(yǔ)料庫(kù)中的文檔個(gè)數(shù)，N 為單詞表中的單詞個(gè)數(shù)，zdn為文檔d中單詞n所屬話題的概率，θd為文檔d中話題zdn分布的先驗(yàn)參數(shù)，α為語(yǔ)料庫(kù)中θ的全局先驗(yàn)參數(shù)，β為k×N 單詞－話題概率矩陣，其中k為話題個(gè)數(shù)，βi，j ＝p（w ＝j(luò)｜z＝i）且βi，＊＝1。根據(jù)上述條件概率關(guān)系，文檔－單詞的數(shù)學(xué)模型可表示為：

語(yǔ)料庫(kù)－單詞的數(shù)學(xué)模型可表示為：

圖1 LDA“盤子”模型Fig.1 Plate model of LDA

LDA 的生成模型可假設(shè)如下：

（1）p（θ｜α）～Dir（α）。其表達(dá)式為：

（2）p（z｜θ）～Multinomial（θ）。

根據(jù)式（3）（4），式（2）可表示為：

加入文檔內(nèi)部估計(jì)參數(shù)γ和φ，γ為β 的文檔樣本估計(jì)值，φ 為文檔內(nèi)部話題的后驗(yàn)概率，φi，j＝p（z＝j(luò)｜w ＝i）。

假設(shè)γ和φ 相互獨(dú)立。利用變量β和z 建立文檔內(nèi)部隱含參數(shù)的估計(jì)模型如下：變分推理以極大化單詞－話題分布的似然函數(shù)p（w｜α，β）為目標(biāo)，通過(guò)在似然函數(shù)中加入樣本估計(jì)參數(shù)γ 和φ，實(shí)現(xiàn)對(duì)全局參數(shù)α 和β 的優(yōu)化。為此，式（5）的似然函數(shù)表達(dá)式如下：

2 LDA 變分推理過(guò)程

2.1 建立變分似然函數(shù)表達(dá)式模型

式中：Eq為利用估計(jì)參數(shù)γ 和φ 計(jì)算的期望，由于Dirichlet分布屬于一種指數(shù)分布族，根據(jù)文獻(xiàn)［1］可知：

變分推理的優(yōu)化過(guò)程即尋找L（γ，φ；α，β）的極值過(guò)程。根據(jù)式（8）可得：

根據(jù)式（9）可得：

2.2 變分推理參數(shù)關(guān)系模型

式（11）包含了（α，β，γ，φ）4 個(gè) 參數(shù)，其中利用拉格朗日乘子法對(duì)（α，β，γ，φ）進(jìn)行優(yōu)化求值可得到如下結(jié)果：

式（12）～（15）分別對(duì)（α，β，γ，φ）求零值導(dǎo)數(shù)可得到（α，β，γ，φ）的極值關(guān)系式如下：

2.3 變分推理運(yùn)行過(guò)程

根據(jù)式（16）～（19）變分推理的參數(shù)訓(xùn)練過(guò)程分為文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過(guò)程（訓(xùn)練γ，φ）和語(yǔ)料庫(kù)總體參數(shù)訓(xùn)練過(guò)程（訓(xùn)練α，β）。文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過(guò)程是語(yǔ)料庫(kù)總體參數(shù)過(guò)程的子過(guò)程。圖2為訓(xùn)練過(guò)程的盤子模型圖，其中黃色箭頭線表示文檔內(nèi)部參數(shù)訓(xùn)練過(guò)程，參數(shù)γ，φ 根據(jù)式（17）和（19）以α，β 為參數(shù)進(jìn)行循環(huán)迭代以優(yōu)化參數(shù)γ，φ；棕色箭頭表示語(yǔ)料庫(kù)總體參數(shù)訓(xùn)練過(guò)程，在語(yǔ)料庫(kù)內(nèi)所有文檔完成對(duì)參數(shù)γ，φ 的訓(xùn)練后，根據(jù)式（16）和（18）調(diào)整全局參數(shù)α，β；藍(lán)色箭頭表示LDA 模型的似然函數(shù)的計(jì)算過(guò)程。

圖2 LDA變分推理過(guò)程Fig.2 Variational inference process of LDA

3 變分推理優(yōu)化改進(jìn)策略

LDA 話題提取存在兩方面問(wèn)題需要改進(jìn)：

（1）由于LDA 算法在初始運(yùn)行時(shí)需要人為給定話題個(gè)數(shù)k（較小的整數(shù)），k與最佳話題個(gè)數(shù)k＊的偏離度決定了LDA 話題發(fā)現(xiàn)的質(zhì)量，若k＜k＊會(huì)導(dǎo)致話題訓(xùn)練的欠擬合，若k＞k＊會(huì)導(dǎo)致話題訓(xùn)練的過(guò)擬合，如何選擇k值是LDA 話題發(fā)現(xiàn)尚未解決的問(wèn)題。

（2）LDA 在樣本的訓(xùn)練過(guò)程中缺少對(duì)β 中“模糊單詞”（即話題歸屬不確定的單詞）的處理，導(dǎo)致β 矩陣中各話題間的模糊化，并使得后續(xù)的訓(xùn)練結(jié)果出現(xiàn)相似的話題結(jié)果，影響話題分類的有效性。

為說(shuō)明以上兩方面問(wèn)題，本文統(tǒng)計(jì)了CNN網(wǎng)站中的50組話題，建立了50個(gè)樣本話題，并在每組話題中選擇詞頻最高的5個(gè)名詞作為樣本話題詞匯，如表1所示。隨機(jī)選擇2～5組樣本話題構(gòu)成文檔，并以1000個(gè)隨機(jī)文檔為單位，建立40組語(yǔ)料庫(kù)。

表1 CNN 50個(gè)話題的概率表Table 1 50－topics Probability Table of CNN

3.1 likelihood值分析

本文對(duì)40 組語(yǔ)料庫(kù)建立10～70 個(gè)話題的LDA 跟蹤運(yùn)算，所得的likelihood值如圖3所示，其中橫坐標(biāo)為話題個(gè)數(shù)，縱坐標(biāo)為likelihood值。由于本文所建立的40組語(yǔ)料庫(kù)是50個(gè)話題的混合，因此理想狀態(tài)下50個(gè)話題的likelihood值應(yīng)為極值，且50個(gè)話題的各每組樣本likelihood值的偏差應(yīng)該較小。但圖3所示的結(jié)果說(shuō)明LDA算法在話題個(gè)數(shù)大于40時(shí)，出現(xiàn)likelihood值的模糊化，無(wú)法根據(jù)likelihood值判斷最優(yōu)話題個(gè)數(shù)k＊。

圖3 表1數(shù)據(jù)集likelihood值（話題個(gè)數(shù)為10～70）Fig.3 Likelihood of the datasets in table 1（the number of topics are 10～70）

3.2 β矩陣分析

本文對(duì)第1、8、15、22、29、36 組語(yǔ)料庫(kù)LDA訓(xùn)練后的β 值進(jìn)行分析，由于表1數(shù)據(jù)集中屬于同一話題的單詞編號(hào)鄰近，因此屬于同一話題的單詞在β 矩陣的位置鄰近，可將β 矩陣元素中的最大值進(jìn)行聚類以分析LDA 的分類效果。β矩陣的聚類輪廓圖如圖4所示，其中x 軸為話題號(hào)，y軸為單詞號(hào)。由于表1數(shù)據(jù)集中各樣本話題單詞無(wú)重復(fù)，因此理想狀態(tài)下β 矩陣聚類輪廓圖的每行每列僅有一個(gè)話題聚類簇，從圖4中可直觀看到語(yǔ)料庫(kù)中第1、8、15、22組數(shù)據(jù)的LDA 分析結(jié)果較差。

另外，圖4中LDA 算法所挖掘出的編號(hào)相鄰的話題相似度較大，且有效識(shí)別個(gè)數(shù)最多為40（語(yǔ)料庫(kù)36）。為了提高LDA 的話題精度，降低話題間的相似度，本文提出LDA 話題增量訓(xùn)練算法，在提高話題分類精度的同時(shí)增量挖掘優(yōu)化話題個(gè)數(shù)k＊。

圖4 語(yǔ)料庫(kù)1，8，15，22的β矩陣分析結(jié)果Fig.4 βmatrix of corpus 1，8，15，22

3.3 LDA話題增量訓(xùn)練算法

變分推理的執(zhí)行過(guò)程中，以文檔內(nèi)部話題－單詞的后驗(yàn)概率φ 作為α 和β 訓(xùn)練的中間變量φi，j＝p（z＝j(luò)｜w ＝i），若話題個(gè)數(shù)為k（k＜k＊，k＊為最優(yōu)話題個(gè)數(shù)），必存在某一單詞的話題不確定度較高，即φi，＊的熵值entropy（φi，＊）較大，其中某一單詞wi的熵值表達(dá)式為：

entropy（φi，＊）是對(duì)單詞wi的不確定性度量，entropy（φi，＊）越大則wi的不確定性越高，當(dāng)前的k個(gè)話題對(duì)wi的劃分越不合理。此時(shí)，可提取entropy值較大的單詞重新組合為一個(gè)新的話題，并復(fù)用之前的迭代結(jié)果。由于話題的增加需要進(jìn)行一次語(yǔ)料庫(kù)總體參數(shù)訓(xùn)練（增加參數(shù)α 和β的維數(shù)），為此LDA 話題增量訓(xùn)練算法對(duì)參數(shù)α和β 的修改如下：

（1）增加β矩陣的維數(shù)。引入熵的閾值參數(shù)σ，選擇entropy（φi，＊）大于σ的wi構(gòu)成新的話題，并將新話題按熵值歸一化，加入β矩陣。

（2）增加α 的維數(shù)。以新的β 和α 作為初始參數(shù)執(zhí)行新一次迭代。

在LDA 的執(zhí)行過(guò)程中，迭代次數(shù)越高參數(shù)β和α 的訓(xùn)練越充分，為防止LDA 話題增量訓(xùn)練算法在β和α 尚未充分訓(xùn)練的條件下進(jìn)行φ 的熵值選擇，導(dǎo)致LDA 訓(xùn)練不充分而影響話題發(fā)現(xiàn)質(zhì)量，需要在LDA 迭代過(guò)程中加入迭代參數(shù)c，每進(jìn)行c次迭代時(shí)執(zhí)行一次LDA 話題增量訓(xùn)練算法。

圖5為L(zhǎng)DA 話題增量訓(xùn)練算法的參數(shù)訓(xùn)練過(guò)程，其中綠色箭頭為L(zhǎng)DA 話題增量訓(xùn)練算法對(duì)α 和β 的增量訓(xùn)練過(guò)程。

具體的算法描述如下：

功能：利用LDA 話題增量訓(xùn)練算法對(duì)訓(xùn)練最優(yōu)話題個(gè)數(shù)k＊

輸入：初始話題個(gè)數(shù)k

輸出：最優(yōu)話題個(gè)數(shù)k＊及語(yǔ)料庫(kù)參數(shù)α和β

4 實(shí)驗(yàn)分析

4.1 CNN 數(shù)據(jù)集分析

圖6為語(yǔ)料庫(kù)13的LDA 迭代跟蹤過(guò)程（語(yǔ)料庫(kù)13 共進(jìn)行57 次迭代），從中可以直觀發(fā)現(xiàn)LDA 算法對(duì)66～70 號(hào)單詞“makeup”話題的識(shí)別較差，其原因在于LDA 迭代過(guò)程中未能在β矩陣中提取“makeup”話題，使得“makeup”單詞的話題隸屬度相對(duì)模糊，影響了β 后序訓(xùn)練過(guò)程中對(duì)“makeup”話題的識(shí)別。

本文利用大量模擬實(shí)驗(yàn)驗(yàn)證了LDA 話題增量訓(xùn)練算法參數(shù)的有效范圍分別為σ ＝（0 ～1.6），c＝（3～12），并在4.3節(jié)分析了參數(shù)σ和c的最優(yōu)取值問(wèn)題，圖7為利用本文LDA 話題增量訓(xùn)練算法（以10為初始k值，σ＝0.3，c＝5）對(duì)語(yǔ)料庫(kù)13的增量迭代過(guò)程，該圖直觀顯示了話題個(gè)數(shù)從10增量訓(xùn)練到50的過(guò)程中，話題間的獨(dú)立逐漸增強(qiáng)，相比于圖6中LDA 話題增量訓(xùn)練算法更趨于理想狀態(tài)。

圖6 語(yǔ)料庫(kù)13的LDA迭代跟蹤過(guò)程Fig.6 LDA iterative tracking process of corpus 13

圖7 語(yǔ)料庫(kù)13的LDA跟蹤過(guò)程Fig.7 LDA tracking process of corpus 13

圖8 為40 組語(yǔ)料庫(kù)在本文算法下的likelihood值（以10為初始值，σ＝0.3，c＝5），該圖顯示了本文算法的最佳話題發(fā)現(xiàn)個(gè)數(shù)集中在40～50之間。

圖8 表1數(shù)據(jù)集LDA話題增量訓(xùn)練算法下的likelihood值Fig.8 Likelihood of the dataset in Table 1by the LDA topic increments training algorithm

4.2 真實(shí)數(shù)據(jù)集對(duì)比

在數(shù)據(jù)集的選擇方面，本文采用有明確文檔分類的數(shù)據(jù)集，以分析本文算法對(duì)話題個(gè)數(shù)選取的有效性，本文分別選取了自然語(yǔ)言處理中常用的3組數(shù)據(jù)集，各數(shù)據(jù)集的介紹如下：

（1）所選擇的數(shù)據(jù)庫(kù)包括第36屆加拿大國(guó)會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada（AHPC）a卷（共40個(gè)議案）和b卷（共40個(gè)議案），總單詞量約為1 300 000個(gè)。將每個(gè)議案的章節(jié)作為L(zhǎng)DA 分析的“文檔”，由于同一議案趨近于同一話題，因此該數(shù)據(jù)集的理想話題個(gè)數(shù)均為40。

（2）蘭卡斯特新聞書籍語(yǔ)料庫(kù)The Lancaster Newsbooks Corpus，本文算法取其中25 類（500本書）書籍為數(shù)據(jù)集，以每本書的摘要作LDA 分析的“文檔”，由于同一類書籍的新聞話題近似，因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為25。

（3）路透社經(jīng)典文檔分類語(yǔ)料庫(kù)Reuters 21578 Classic text categorization corpus（共50類），以每本書的摘要作LDA 分析的“文檔”，該數(shù)據(jù)集已將各文檔進(jìn)行了分類，因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為50。

本文算法對(duì)上述數(shù)據(jù)分別利用LDA 和LDA話題增量訓(xùn)練算法（σ＝0.3，c＝5）進(jìn)行40次實(shí)驗(yàn)，其對(duì)比結(jié)果如圖9所示，其中藍(lán)色為L(zhǎng)DA 算法的分析結(jié)果，紅色為本文算法的分析結(jié)果，從結(jié)果可直觀判斷本文算法的likelihood 高于LDA算法，驗(yàn)證了本文算法的話題分類合理性高于LDA 算法。在話題個(gè)數(shù)識(shí)別方面，各組數(shù)據(jù)的話題個(gè)數(shù)分別為40、45、23、55，接近于理想話題個(gè)數(shù)。

圖9 4種語(yǔ)料庫(kù)likelihood對(duì)比圖Fig.9 Comparison chart of 4corpuses

4.3 參數(shù)σ 和c 分析

本文利用LDA 話題增量訓(xùn)練算法對(duì)第36屆加拿大國(guó)會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada（AHPC）a卷（共40個(gè)議案）作為數(shù)據(jù)集進(jìn)行200次迭代，每次迭代進(jìn)行15次實(shí)驗(yàn)，其中參數(shù)分別為σ ＝（0.1∶0.1∶1.5），c＝5，每次將話題個(gè)數(shù)收斂于38～42的結(jié)果判定為正確（共有1036次正確分類），其統(tǒng)計(jì)直方圖如圖10（a）所示。以AHPC數(shù)據(jù)集進(jìn)行200次迭代，每次迭代進(jìn)行8次實(shí)驗(yàn)，其中參數(shù)分別為σ＝0.3，c＝（3∶1∶10），每次將話題個(gè)數(shù)收斂于38～42 的結(jié)果判定為正確（共有966 次正確分類），其統(tǒng)計(jì)直方圖如圖10（b）所示。通過(guò)圖10（a）與（b）的分析可知：當(dāng)σ＞1.5時(shí)分類的趨于無(wú)效，且c 的最優(yōu) 取值區(qū) 間為（3，10）。圖11 為AHPC的三維stem 圖，其中LDA 話題增量訓(xùn)練算法的最優(yōu)值為σ＝0.45，c＝6。

圖10 AHPC數(shù)據(jù)集統(tǒng)計(jì)直方圖Fig.10 Histogram of AHPC dataset

圖11 AHPC的三維stem 圖Fig.11 3Dstem figure of AHPC

5 結(jié) 論

本文利用LDA 話題增量訓(xùn)練算法，創(chuàng)新采用以單詞－話題概率熵值作為L(zhǎng)DA 迭代過(guò)程中模糊單詞選擇標(biāo)準(zhǔn)，將所選擇模糊單詞歸入新的話題優(yōu)化LDA 的迭代過(guò)程，以提高話題獨(dú)立性為手段提高各單詞的合理化分類；所提出的LDA話題增量訓(xùn)練算法可在實(shí)現(xiàn)LDA 話題分類優(yōu)化的同時(shí)對(duì)最優(yōu)話題個(gè)數(shù)k 進(jìn)行增量訓(xùn)練，最后通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了本文算法在話題分類合理度likelihood與k自動(dòng)選擇方面的優(yōu)越性，對(duì)深入研究話題分類模型具有一定的理論和實(shí)際意義。

［1］Blei D M，Ng A Y，Jordan M I.Latent dirichlet allocation［J］.Journal of Machine Learning Research，2003，3：993－1022.

［2］徐戈，王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展［J］.計(jì)算機(jī)學(xué)報(bào)，2011，34（8）：1423－1436.Xu Ge，Wang Hou－feng.The development of topic models in natural language processing［J］.Chinese Journal of Computers，2011，34（8）：1423－1436.

［3］Blei D M，Griffitchs T L，Jordan M I，et al.Hierarchical topic models and the nested Chinese restaurant process［C］∥Advances in Neural Information Processing Systems 16.Cambridge，MA：MIT Press，2004：17－24.

［4］Blei D M，Lafferty J D.Correlated topic models［C］∥Advances in Neural Information Processing Systems 18.Cambridge，MA：MIT Press，2006.

［5］Blei D，Lafferty J.A correlated topic model of science［J］.Annals of Applied Statistics，2007，1（1）：17－35.

［6］Li W，McCallum A.Pachinko allocation：DAGstructured mixture models of topic correlations［C］∥Proceeding of the ICML.Pittsburgh，Pennsylvania，USA，2006：577－584.

［7］Mimno D，Li W，McCallum A.Mixtures of hierarchical topics with pachinko allocation［C］∥Proceeding of the ICML.Corvllis，Oregon，USA，2007：633－640.

［8］Wang X，McCallum A.Topics over time：a nonmarkov continuous－time model of topical trends［C］∥Proceeding of the Conference on Knowledge Discovery and Data Mining（KDD）.Philadelphia，USA，2006：113－120.

［9］Griffiths T L，Steyvers M，Blei D M，et al.Integrating topics and syntax［C］∥Advances in Neural Information Processing Systems 18.Vancouver，Canada，2004.

［10］Wallach H.Topic modeling：beyond bag－of－words［C］∥Proceeding of the 23rd International Conference on Machine Learning.Pittsburgh，Pennsylvania，2006：977－984.

［11］張晨逸，孫建伶，丁軼群.基于MB－LDA 模型的微博主題挖掘［J］.計(jì)算機(jī)研究與發(fā)展，2011，48（10）：1795－1802.Zhang Chen－yi，Sun Jian－ling，Ding Yi－qun.Topic mining for microblog based on MB－LDA model［J］.Journal of Computer Research and Development，2011，48（10）：1795－1802.

［12］韓曉暉，馬軍，邵海敏，等.一種基于LDA 的Web論壇低質(zhì)量回貼檢測(cè)方法［J］.計(jì)算機(jī)研究與發(fā)展，2012，49（9）：1937－1946.Han Xiao－h(huán)ui，Ma Jun，Shao Hai－min，et al.An LDA based approach to detect the low－quality reply posts in web forums［J］.Journal of Computer Research and Development，2012，49（9）：1937－1946.

［13］Blei D M，McAuliffe J.Supervised topic models［C］∥Advances in Neural Information Processing Systems（NIPS）.Vancouver，Canada，2008.

［14］Steyvers M，Smyth P，Rosen－Zvi M，et al.Probabilistic author－topic models for information discovery［C］∥Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle，Washington，2004：306－315.

［15］McCallum A，Corrada－Emmanuel A，Wang X.The author recipient－topic model for topic and role discovery in social networks：experiments with enron and academic email［R］.Technical Report UM－CS－2004－096，2004.