張紹武,邵 華,林鴻飛,楊 亮
(1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024; 2. 新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,新疆 烏魯木齊 830013)
近幾年,隨著互聯(lián)網(wǎng)的飛速發(fā)展,新聞在網(wǎng)絡(luò)平臺(tái)上得到廣泛的傳播。由于網(wǎng)絡(luò)新聞是網(wǎng)絡(luò)輿情傳播的主要途徑之一,隨之而來的由網(wǎng)絡(luò)輿情引發(fā)的問題也日益突出。尤其是近年來發(fā)生的新疆暴恐事件,引起了公眾的熱議和關(guān)注,并形成了強(qiáng)大的輿論動(dòng)向。隨著時(shí)間的推移不斷演化發(fā)展,網(wǎng)絡(luò)輿論會(huì)給人們的現(xiàn)實(shí)生活帶來一些影響,同時(shí)也會(huì)給社會(huì)管理工作提出一些要求,帶來一些困難。所以,準(zhǔn)確把握輿論動(dòng)向,有助于政府對新疆暴恐問題采取及時(shí)有效的監(jiān)管和處理措施。
主題演化是網(wǎng)絡(luò)輿情分析的重要部分。主題模型作為新的一種統(tǒng)計(jì)方法,用來發(fā)現(xiàn)文本中蘊(yùn)含的主題,已被廣泛地運(yùn)用在文本挖掘和信息檢索等領(lǐng)域中,并且在主題演化方面也得到了廣泛的發(fā)展。本文以層級(jí)式狄利克雷過程(Hierarchical Dirichlet Processing, HDP)模型作為對比實(shí)驗(yàn),運(yùn)用動(dòng)態(tài)主題模型(Dynamic Topic Model,DTM),通過分析和比較,總結(jié)出新疆暴恐主題在演化中存在的某些規(guī)律。
本文的主要貢獻(xiàn)是: 針對新疆暴恐網(wǎng)絡(luò)輿情問題,結(jié)合數(shù)據(jù)集涵蓋暴恐這一特點(diǎn),對基于NMF的DTM主題演化模型進(jìn)行了改進(jìn),在主題一致上取得了更好的效果,并通過比較和分析給出了新疆暴恐主題演化中存在的某些規(guī)律。
本文組織如下: 第一節(jié)將對相關(guān)工作進(jìn)行介紹;第二節(jié)介紹實(shí)驗(yàn)用到的方法及實(shí)驗(yàn)過程;第三節(jié)進(jìn)行實(shí)驗(yàn)結(jié)果分析;第四節(jié)總結(jié)并規(guī)劃未來工作。
主題模型旨在從海量文本數(shù)據(jù)中挖掘出有價(jià)值的主題,然后對主題進(jìn)行檢測、跟蹤和預(yù)測。主題演化就是從主題的產(chǎn)生、發(fā)展、再到成熟,最后到消失的一系列過程。當(dāng)前主題演化模型主要分為兩大類: 基于LDA概率模型和基于矩陣分解模型。此外,本節(jié)也在1.3中對新疆暴恐輿情分析相關(guān)研究進(jìn)行了介紹。
TOT(Topic Over Time)模型[1]最早被提出,它是在LDA模型中引入時(shí)間因素構(gòu)建而成, 實(shí)現(xiàn)簡單。TOT將時(shí)間也作為可觀測變量, 然后與文檔和單詞一起生成主題。DTM(Dynamic Topic Model)[2]先根據(jù)時(shí)間窗分割文本集合, 并假設(shè)每個(gè)時(shí)間窗口的文本都由K個(gè)話題的LDA模型生成。上述模型都是在LDA 基礎(chǔ)上,擴(kuò)展改進(jìn)后得到的。其思路及方法都較為簡單,而且在主題個(gè)數(shù)方面都缺少靈活性。
2008年, Ahmed等[3]人提出TDPM (Temporal Dirichlet Process Mixture Model), 通過Dirichlet Process確定演化過程中每個(gè)時(shí)間窗中的主題個(gè)數(shù)。2010年, Ahmed 等[4]人又提出iDTM(infinite Dynamic Topic Models), 引入HDP[5-7]方法, 解決了單純使用LDA過程中各時(shí)間窗內(nèi)主題數(shù)固定的問題。
(1)
當(dāng)顧客選擇一張新桌子的時(shí)候,還需要給新桌子供應(yīng)一道菜,選菜的過程服從分布(2)。
(2)
非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)[8]是一種新的矩陣分解方法。一般的矩陣分解,如SVD(奇異值分解),PCA(主成分分析)等都會(huì)出現(xiàn)分解結(jié)果中出現(xiàn)負(fù)值的情況。而負(fù)值在某些環(huán)境下是沒有意義的,比如文本中單詞的統(tǒng)計(jì),數(shù)字圖像中的像素等。
NMF是另一種有效的提取主題的方法[9-11]。處理大規(guī)模數(shù)據(jù)更快更便捷,且實(shí)現(xiàn)簡便、占用存儲(chǔ)空間少。Saha & Sindhwani[12]提出了在社交媒體上運(yùn)用NMF做主題演化的方法。Derek Greene[13]在NMF的基礎(chǔ)上對歐洲政治議程做了主題演化分析。
針對本實(shí)驗(yàn)數(shù)據(jù)類型是網(wǎng)絡(luò)新聞這一特點(diǎn),本文借鑒了Derek Greene提出的基于NMF的主題演化方法。由于本實(shí)驗(yàn)的數(shù)據(jù)集是結(jié)合新疆暴恐的,所以本實(shí)驗(yàn)在進(jìn)行NMF分解時(shí),對單詞的權(quán)重進(jìn)行了改進(jìn),可以看到改進(jìn)后實(shí)驗(yàn)效果有一定的提升。最后為了驗(yàn)證該模型的有效性,和HDP模型進(jìn)行了對比分析。
近年來對新疆暴恐輿情研究的論文也有很多。如戴繼誠[14]對當(dāng)前新疆暴恐活動(dòng)新變化的探析,發(fā)現(xiàn)受國內(nèi)外各種因素影響,當(dāng)前新疆的暴恐活動(dòng)出現(xiàn)一些新的變化。如活動(dòng)主體的年輕化、活動(dòng)范圍的擴(kuò)大化、活動(dòng)方式的小團(tuán)體化、暴恐手段的激烈化等。王定等[15]對當(dāng)前全球化背景下新疆暴恐活動(dòng)呈現(xiàn)特點(diǎn)進(jìn)行了研究。研究指出自2008 年“七五事件”以來,一些極端的外來宗教滲透到新疆各地。西方敵對勢力與反華勢力對新疆分裂勢力的支持,使中國境內(nèi)的暴恐活動(dòng)呈現(xiàn)高發(fā)狀態(tài)。全球化時(shí)代的恐怖活動(dòng)給我國的社會(huì)發(fā)展帶來了嚴(yán)峻挑戰(zhàn)。
然而,這些作者都是在傳統(tǒng)的統(tǒng)計(jì)方法上,從政治,社會(huì)學(xué)的角度出發(fā)看待和研究問題。本文嘗試通過機(jī)器學(xué)習(xí)的方法,即通過主題演化模型來描述和分析數(shù)據(jù),從而發(fā)現(xiàn)規(guī)律并給予驗(yàn)證。
本節(jié)主要介紹基于NMF的DTM方法。該方法基于新疆暴恐?jǐn)?shù)據(jù)采用NMF兩次分解,進(jìn)行主題演化和輿情分析。目的是通過輿情分析,發(fā)現(xiàn)規(guī)律從而對輿情的把握提供一定的借鑒意義。實(shí)驗(yàn)首先從互聯(lián)網(wǎng)中爬取新疆暴恐相關(guān)的新聞,然后對數(shù)據(jù)進(jìn)行預(yù)處理,接著兩次運(yùn)用NMF生成窗口和動(dòng)態(tài)主題,最后對實(shí)驗(yàn)結(jié)果進(jìn)行可視化和分析。具體如框架圖1。
首先,本文對含有n個(gè)文檔的語料集,建立一個(gè)矩陣A∈IRn×m,其中m是語料集中不同單詞數(shù)目。運(yùn)用NMF方法,就是把A近似成兩個(gè)非負(fù)矩陣乘積的形式A≈WH,并且最小化A與WH間的誤差。其中的H∈IRk×m,每一行代表一個(gè)topic,行上的元素代表了不同單詞在該topic下的相對權(quán)重。W∈IRn×k的每一列,表示了文檔對該topic的貢獻(xiàn)情況。
圖1 實(shí)驗(yàn)框架圖
本文通過設(shè)定主題個(gè)數(shù)區(qū)間來增加主題個(gè)數(shù)的靈活性,然后選取主題連貫性取值最大的個(gè)數(shù)作為最終的主題個(gè)數(shù)。這里的topic coherence,計(jì)算公式如式(3)、式(4)所示。
對每個(gè)主題,文中采用TC-W2V[8]方法來計(jì)算主題連貫性。即用主題的關(guān)鍵詞集合在word2vec詞向量空間上的相似度,來表征該主題關(guān)鍵詞間的相關(guān)程度。實(shí)驗(yàn)中基于權(quán)重較大的前t個(gè)單詞兩兩之間的余弦相似度均值來表示。最后該模型的主題連貫性用所有topic的coherence均值來表示。
由于主題動(dòng)態(tài)演化的特性,某些主題可能分布在多個(gè)時(shí)間窗口下,所以還需要生成動(dòng)態(tài)主題。整體計(jì)算過程如下:
1) 計(jì)算窗口主題(window topics)
① 刪除窗口下出現(xiàn)文檔數(shù)小于5的單詞。
② 構(gòu)造文本和單詞輸入矩陣,計(jì)算單詞的TF-IDF權(quán)重,計(jì)算式如式(5)所示。
(5)
C是歸一化系數(shù),w(d,r)對應(yīng)文本d中單詞r的權(quán)重,s(r)對應(yīng)單詞r與暴恐的相關(guān)程度,實(shí)驗(yàn)中用該單詞與暴恐詞集合的相似程度來表示,即在word2vec詞向量空間上的余弦相似度均值。
③ 選取要生成的主題個(gè)數(shù)k的區(qū)間,本實(shí)驗(yàn)選取4~25。
④ 對每個(gè)k運(yùn)用NMF生成主題,計(jì)算該k個(gè)主題下的主題連貫性,然后選取取值最大的k作為窗口最終的主題個(gè)數(shù)。
該算法偽代碼如算法一所示。
算法 1: generating window topics: Input:A : a matrix of document-word weightsk_min,k_max : interval of topic numbersw2v-bin : word2vec for the wordsOutput:H : a matrix of topic-word weights1 for every time window T:2 mx=0,best_k=-13 for K in the range(k_min,k_max):4 do NMF using the inputs above and outputs H5 sum=06 for topic k in the range(1,K):7 compute topic coherence coh using H8 sum+=coh
續(xù)表
2) 計(jì)算動(dòng)態(tài)主題(dynamic topics)
① 構(gòu)造一個(gè)空矩陣B,對于每個(gè)時(shí)間窗口計(jì)算出的H,在每一行選取前t個(gè)權(quán)重較大的單詞,其余單詞權(quán)重設(shè)為0,然后把該行添加到B里。最后去掉B中只包含0元素的列。
② 采用NMF對B進(jìn)行分解。B分解后的H,其每一行的前t個(gè)單詞,描述了本行的動(dòng)態(tài)主題。B分解后的W,其每一列表示了各個(gè)時(shí)間窗口和該動(dòng)態(tài)主題的相關(guān)程度。
該算法的偽代碼如算法2所示。
算法2: generating dynamic topics: Input:B : a matrix of window-topic-word weightsk_min,k_max : interval of topic numbersw2v-bin : word2vec for the wordsOutput:H : a matrix of dynamic-topic-word weights1 B=[]2 for every time window T:3 select top t words in H,and add the row in B4 remove the empty columns in B5 mx=0,best_k=-16 for K in the range(k_min,k_max):7 do NMF using B and outputs H8 sum=09 for topic k in the range(1,K):10 compute topic coherence coh using H11 sum+=coh 12 sum/=K13 if best_k==-1 or mx 本文的數(shù)據(jù)集依賴一個(gè)谷歌的全球新聞關(guān)系數(shù)據(jù)庫(Gdelt)。數(shù)據(jù)集來源于數(shù)據(jù)庫中從2013年開始至今全球每天發(fā)生的重大新聞事件。它有兩種存儲(chǔ)方式,一種是按天劃分以csv的格式保存在硬盤里,另一種是保存在谷歌的BigQuery數(shù)據(jù)庫里。兩種形式都記錄了事件發(fā)生的時(shí)間、地點(diǎn),事件的類別,事件的發(fā)起者和承受者,事件新聞所在的網(wǎng)址以及谷歌標(biāo)注的情感分?jǐn)?shù)等。而不足之處在于數(shù)據(jù)庫沒有提供新聞的文本內(nèi)容。 實(shí)驗(yàn)首先對數(shù)據(jù)進(jìn)行了清洗工作。先進(jìn)行了去停用詞、詞干化處理,并刪去了長度小于4的單詞。本文以季度為單元?jiǎng)澐謺r(shí)間窗口,每個(gè)時(shí)間窗口下的數(shù)據(jù)集是對應(yīng)季度的新聞集合。最終劃分后的數(shù)據(jù)集如圖2所示,橫坐標(biāo)代表時(shí)間窗,縱坐標(biāo)代表時(shí)間窗內(nèi)文本數(shù)。 從圖中可以看出2014年1~3月及7~9月以及2015年下半年的新聞量較大。在這些時(shí)間段內(nèi)發(fā)生過一些影響比較大的事件,分別為2014年3月發(fā)生的昆明火車站暴力恐怖襲擊事件, 7月發(fā)生的莎車縣爆恐襲擊案,2015年阿克蘇地區(qū)拜城縣爆恐襲擊案以及最近的泰國移民事件。這些事件不僅在新聞上迅速傳播,在微博等社交媒體上也迅速蔓延開來,形成強(qiáng)烈的網(wǎng)絡(luò)輿論。 圖2 各時(shí)間窗口下文檔數(shù)分布 本文共做了3組實(shí)驗(yàn),第一組是不同時(shí)間窗下的主題一致性分析,通過改進(jìn)后的NMF和原始NMF及HDP作對比,驗(yàn)證了改進(jìn)后的DTM模型的效果。見表1。第二組實(shí)驗(yàn)和第三組實(shí)驗(yàn)是對整個(gè)時(shí)間序列下動(dòng)態(tài)主題的分析,其中第二組實(shí)驗(yàn)分析了動(dòng)態(tài)主題的演化,見表2。第三組實(shí)驗(yàn)分析了主題關(guān)鍵詞的演化,見表3。 3.2.1 不同時(shí)間窗下主題一致性分析 本節(jié)實(shí)驗(yàn)通過主題分析,來驗(yàn)證改進(jìn)后的DTM方法其在主題連貫性值上的提升,同時(shí)與HDP[5]方法作對比,驗(yàn)證了針對本實(shí)驗(yàn)數(shù)據(jù),該方法比HDP更加適用。 表1 DTM與HDP每個(gè)時(shí)間窗下的主題連貫性 表1是3個(gè)方法在各個(gè)時(shí)間窗下生成最優(yōu)主題數(shù)后的主題連貫性值,表1里的DTM1表示NMF的輸入單詞權(quán)重矩陣是原始的TF-IDF,DTM表示本實(shí)驗(yàn)改進(jìn)后的模型。通過對比可以發(fā)現(xiàn),結(jié)合新疆暴恐的特點(diǎn),對主題的連貫性有一定的提升。 表2 DTM與HDP在每個(gè)時(shí)間窗最優(yōu)主題數(shù) 表2是DTM與HDP在各個(gè)時(shí)間窗下生成的最優(yōu)主題數(shù)。從表1和表2可以看出,DTM產(chǎn)生的最優(yōu)主題數(shù)相對HDP較少,但主題連貫性是相對較高的。而HDP的優(yōu)點(diǎn)是其生成的主題較多,覆蓋范圍廣,生成能力較強(qiáng)。 表3和表4分別是HDP和DTM在2013-01~03時(shí)間窗下生成的主題,這組實(shí)驗(yàn)是為了驗(yàn)證DTM模型在本實(shí)驗(yàn)數(shù)據(jù)集下的主題一致性比HDP更強(qiáng)。表中每行代表一個(gè)主題,每列是該主題相關(guān)的關(guān)鍵詞。 表3 HDP在2013-01~03時(shí)間段下生成的主題 續(xù)表 從對比中可以看出HDP生成的主題不僅包含了DTM生成的主題,還涉及了一些與暴恐不太相關(guān)的主題。如表3中第14行對festival和sport的描述,第18行對game的描述等。并且相比DTM模型,其主題關(guān)鍵詞描述的主題語義并不是很明顯,主題連貫性大部分較低。所以,DTM模型更適用于本實(shí)驗(yàn)數(shù)據(jù)。 3.2.2 所有時(shí)間窗下的動(dòng)態(tài)主題分析 下面是關(guān)于DTM模型生成的動(dòng)態(tài)主題的實(shí)驗(yàn)結(jié)果分析,主要對動(dòng)態(tài)主題在時(shí)間上的演化,及話題熱度的變化和其關(guān)鍵詞云做了分析。首先給出了DTM模型生成的主題連貫性較大的前10個(gè)主題,如表5所示。表5中每行代表一個(gè)動(dòng)態(tài)主題,以及該主題的簡短描述和前10個(gè)關(guān)鍵詞。從中可見新疆暴恐語料在整個(gè)時(shí)間序列上生成的主要主題。 表4 DTM在2013-01~03時(shí)間段下生成的主題 DTM模型生成的最優(yōu)動(dòng)態(tài)主題數(shù)是10,該主題數(shù)下主題連貫性最大。從表5中可見主題涉及了種族、恐怖活動(dòng)、移民、齋月、偷渡等。例如,表5中第二行主要描述恐怖活動(dòng),其關(guān)鍵詞主要包括attack、police、killed、terrorist等。表5中第四行是描述難民的,尤其指最近的泰國移民事件,其關(guān)鍵詞主要包括thailand、turkey、refugee、immigration等。 表5 動(dòng)態(tài)主題對應(yīng)的前10個(gè)單詞 續(xù)表 圖3是前4個(gè)動(dòng)態(tài)主題在整個(gè)時(shí)間序列上的演化,圖4是描述這4個(gè)動(dòng)態(tài)主題的關(guān)鍵詞。結(jié)合圖3和圖4,在下文進(jìn)行了詳細(xì)的分析。 圖3 前4個(gè)動(dòng)態(tài)主題的演化發(fā)展 圖4 前4個(gè)動(dòng)態(tài)主題的關(guān)鍵詞云 主題1主要跟政府、人權(quán)和種族相關(guān)。這也說明“疆獨(dú)”勢力是影響中國及新疆社會(huì)穩(wěn)定和安全的重要因素。從圖2中可以看出它在各個(gè)時(shí)間段內(nèi)占的比例都比較大,也說明該主題一直是公眾輿論的焦點(diǎn)。尤其是15年以來,隨著政府加大了對恐怖分子的打擊力度,該話題熱度也呈現(xiàn)上升的趨勢。 主題2主要跟暴力事件相關(guān)。從圖中可以看出它的熱度和事件發(fā)生的時(shí)期基本吻合。例如,2013年6月新疆吐魯番地區(qū)鄯善縣襲警事件,2014年3月昆明火車站嚴(yán)重暴恐事件及5月份在烏魯木齊發(fā)生的2起爆炸案,2015年9月新疆莎車縣爆炸案等。發(fā)生的時(shí)間大部分集中在一年里的正月、5月及9月,也就是穆斯林的齋月期間。這說明齋月期是個(gè)敏感時(shí)期,政府需在此期間加強(qiáng)社會(huì)的保衛(wèi)工作。 主題3主要跟印度、巴基斯坦和阿富汗有關(guān)。主題4主要跟泰國、土耳其和敘利亞有關(guān)。主題3和4在演化的分布以及關(guān)鍵詞云的描述上都十分相似,都反映的是國際勢力因素。尤其在2015年7月發(fā)生的泰國向中國遣返非法移民事件表現(xiàn)最為突出。這說明近年來新疆暴恐事件的發(fā)生與國外恐怖勢力有一定的聯(lián)系。而且從敘利亞事件上也說明,中國籍極端分子也參與其中,表明境內(nèi)的暴恐分子與國際恐怖勢力已經(jīng)合流。所以,打擊暴恐犯罪活動(dòng)就需要切斷“疆獨(dú)”勢力與國際恐怖主義之間的聯(lián)系。 3.2.3 動(dòng)態(tài)主題關(guān)鍵詞的演變分析 這組實(shí)驗(yàn)是對動(dòng)態(tài)主題隨時(shí)間推移其關(guān)鍵詞的分布變化進(jìn)行分析。表6和表7是上述動(dòng)態(tài)主題1和2在各個(gè)時(shí)間窗口下,其關(guān)鍵詞分布的變化。表中第一列代表時(shí)間,隨著序號(hào)遞增而推移,第二列代表不同時(shí)間下描述該主題的關(guān)鍵詞。 表6 動(dòng)態(tài)主題1的關(guān)鍵詞變化 表7 動(dòng)態(tài)主題2的關(guān)鍵詞變化 從表6和表7可以看出,主題關(guān)鍵詞圍繞著事件而變化。例如,表6是關(guān)于種族人權(quán)主題的描述,從國內(nèi)的西藏、新疆宗教問題,衍生到巴基斯坦、伊拉克等國際問題上。也說明了國內(nèi)暴恐活動(dòng)與國際恐怖勢力存在著一定的聯(lián)系。表7是關(guān)于暴恐主題的描述,從北京天安門襲擊事件(表中第3行)到昆明火車站襲擊事件(表中第5行),以及最近的加油站襲擊事件(表中第10行)等。其關(guān)鍵詞的變化,也反映了暴恐分子的行動(dòng)特征。例如,暴恐手段以傳統(tǒng)的刀砍、車碾、縱火為主。但最近的槍擊爆炸說明暴恐分子對“熱兵器”使用頻率的上升,對抗性和危害性也隨著在增加。所以,政府也應(yīng)加強(qiáng)對槍支、火藥等的管理。 本文針對新疆暴恐事件的輿情進(jìn)行分析,結(jié)合數(shù)據(jù)自身跟暴恐相關(guān)的這一特點(diǎn),對基于NMF的DTM主題模型進(jìn)行了改進(jìn),實(shí)現(xiàn)對新疆暴恐輿情展開了詳細(xì)的分析,從多個(gè)角度分析主題演變的現(xiàn)象和規(guī)律;通過與HDP實(shí)驗(yàn)方法的比較,可以看出該模型適用于本文所涉及的數(shù)據(jù)集。再通過可視化分析,總結(jié)了關(guān)于暴恐事件的一些現(xiàn)象和規(guī)律,對把握輿論動(dòng)向提供了一定的借鑒意義。在未來研究工作中,會(huì)嘗試一些復(fù)雜的模型,從而發(fā)現(xiàn)更多的現(xiàn)象和規(guī)律;對于可視化方面,也會(huì)嘗試更為豐富的可視化數(shù)據(jù)分析手段。 [1] Wang X, McCallum A. Topics Over Time: A Non-Markov Continuous-Time Model of Topical Trends [C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2006: 424-433. [2] Ding W, Chen C. Dynamic Topic Detection and Tracking: A Comparison of HDP, C-word, and Cocitation Methods [J].Journal of the Association for Information Science and Technology, 2014, DOI: 10.1002/asi.23134. [3] Ahmed A, Xing E P. Dynamic Non-Parametric Mixture Models and the Recurrent Chinese Restaurant Process: With Applications to Evolutionary Clustering [C]//Proceedings of the SIAM International Conference on Data Mining,Atlanta, Georgia, USA, 2008: 219-230. [4] Ahmed A, Xing E P. Timeline: A Dynamic Hierarchical Dirichlet Process Model for Recovering Birth/Death and Evolution of Topics in Text Stream [C]//Proceedings of the 26th Conference on Uncertainty in Artificial Intelligence.AUAI Press, 2010. [5] Teh Y W, Jordan M I, Beal M J, et al. Hierarchical Dirichlet Processes [J]. Journal of the American Statistical Association,2004, 101(476): 1566-1581. [6] 方瑩, 黃河燕, 辛欣,等. 面向動(dòng)態(tài)主題數(shù)的話題演化分析[J]. 中文信息學(xué)報(bào), 2014, 28(3):142-149. [7] Wang C, Paisley J W, Blei D M. Online Variational Inference for the Hierarchical Dirichlet Process [C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,2011: 752-760. [8] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999,401: 91-788. [9] O’Callaghan D, Greene D, Carthy J, et al. An analysis of the coherence of descriptors in topic modeling[J]. Expert Systems with Applications An International Journal, 2015, 42(13):5645-5657. [10] Wang Q, Cao Z, Xu J, Li H. Group matrix factorization for scalable topic modeling[C]//Proceedings of the 35th SIGIR Conf. on Research and Development in Information Retrieval, ACM, 2012: 375-384. [11] 肖永磊, 劉盛華, 劉悅,等. 社會(huì)媒體短文本內(nèi)容的語義概念關(guān)聯(lián)和擴(kuò)展[J]. 中文信息學(xué)報(bào), 2014, 28(4):21-28. [12] Saha A and Sindhwani V. Learning evolving and emerging topics in social media: A dynamic NMF approach with temporal regularization[C]//Proceedings of the 5th ACM Int. Conf. Web search and data mining, 2012: 693-702 . [13] Greene, Derek, and James P. Cross. Unveiling the Political Agenda of the European Parliament Plenary: A Topical Analysis[C]//Proceedings of the ACM Web Science Conference. ACM, 2015. [14] 戴繼誠.當(dāng)前新疆暴恐活動(dòng)新變化探析[J]. 科學(xué)與無神論, 2016(1):29-34. [15] 王定, 吳紹忠. 去“極端化”背景下的新疆反暴恐情報(bào)體系研究[J]. 情報(bào)雜志, 2016, 35(4):21-26.3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集與預(yù)處理
3.2 結(jié)果分析
4 結(jié)束語