亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DTM-LPA的突發(fā)事件話題演化方法研究*——以H 7 N 9微博為例

        2015-03-09 07:41:02吳小蘭章成志
        圖書與情報 2015年3期
        關(guān)鍵詞:禽流感節(jié)點文本

        吳小蘭 章成志

        (1.南京理工大學(xué)信息管理系 江蘇南京 210094)

        (2.安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院 安徽蚌埠 233030)

        (3.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室(南京大學(xué)) 江蘇南京 210093)

        1 引言

        截止2015年3月,新浪微博月均活躍用戶數(shù)(Mau’s)為 1.98 億。 盡管每個用戶允許發(fā)布的微博文本通常受限制于140字以內(nèi),但規(guī)模如此龐大的微博群體所發(fā)布的言論在引發(fā)公共議題和公眾情緒等方面體現(xiàn)出了強(qiáng)大的輿論引導(dǎo)作用和傳播效果。有時微博上一些過激的言論被盲目地操縱或利用,如果不能積極控制與回應(yīng),可能小的負(fù)面情緒會滾雪球式地被放大,將政府、企業(yè)或其他機(jī)構(gòu)推向風(fēng)口浪尖,因此,研究微博平臺上民眾對公共突發(fā)事件的討論、跟蹤突發(fā)事件的事態(tài)發(fā)展等工作變得尤為重要。

        話題演化的首先任務(wù)是話題發(fā)現(xiàn),有研究中有專門針對微博上話題識別的研究,如文獻(xiàn)[2-4],也有專門研究話題演化的,如文獻(xiàn)[5-6],但這些方法主要針對的是新聞類或科技文獻(xiàn)類的數(shù)據(jù)上,并不一定適合于微博這樣的短文本。為此,本文提出了一種結(jié)合動態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)的DTM-LPA話題演化方法。而自2013年3月4日上海第一例人感染禽流感病毒患者死亡開始,H7N9禽流感疫情長時間處于網(wǎng)絡(luò)輿論的核心,也成為我國微博廣泛使用后遇到的第一個全國性突發(fā)公共衛(wèi)生事件,因此本文采用所提出的DTM-LPA方法,以新浪微博(Sina Weibo)上H7N9禽流感事件為例進(jìn)行研究,重點關(guān)注H7N9中民眾所關(guān)心的話題與話題的演化。

        2 話題演化相關(guān)研究概述

        話題演化衡量的是同一話題隨時間推移表現(xiàn)出的動態(tài)性、發(fā)展性和差異性。在話題檢測與跟蹤(Topic Detect ion and Tracking,簡稱TDT)中,話題被定義為一個種子事件或活動以及與之相關(guān)的所有事件或活動。但是TDT并沒有有效利用語料中的時間信息,隨著話題模型的興起,借助話題模型,引入語料中的時間信息,研究話題隨時間的演化,逐漸成為在機(jī)器學(xué)習(xí)領(lǐng)域、文本挖掘領(lǐng)域研究的熱點。

        根據(jù)文獻(xiàn)[7]的總結(jié),現(xiàn)有以下三類基于話題模型的話題演化方法:(1)將時間信息融入LDA(Latent Dirichlet Allocation)模型中的方法;(2)后離散分析(Post-discretized Analysis)的方法;(3)按時間先離散(Pre-discretized)方法。其中,第一類方法是將文本的時間信息作為可觀測變量結(jié)合到LDA話題模型中去訓(xùn)練文本集合上話題的分布,如Topic Over Time(TOT) 模型;第二類方法先忽略時間,再在整個文本集合上運用LDA或者LDA的改進(jìn)模型獲取話題,最后利用文本的時間信息檢查話題在離散時間上的分布來衡量演化,如2004年Griffiths等人提出的方法、2008年Hall等人提出的方法等;第三類方法先根據(jù)其時間信息將文本離散到時間序列上對應(yīng)的時間窗口內(nèi),然后依次地處理每個時間窗口上的文本集合,最終形成話題隨時間的演化,如動態(tài)話題模型(Dynamic Topic Mo del,DTM)、連續(xù)時間的動態(tài)話題模型(Continuous Time Dynamic Topic Model,CT-DT M)、動態(tài)混合模型(Dynamic Mixture Model,DMM)、Multiscale Topic Tomography 模型(MTTM)、增量 LDA(Incremental Latent Dirichlet Allocation,ILDA)等。

        上述話題模型中,除了ILDA外,其余方法都假設(shè)話題數(shù)目是固定不變的,顯然這不符合現(xiàn)實。在現(xiàn)實中,隨著時間的推移,會產(chǎn)生新話題,也會有舊話題的消亡和分裂。除此之外,利用LDA模型時,話題的表示和話題可解釋性也存在比較大的爭議。為了提升LDA建模時話題的表示,文獻(xiàn)[20]中通過對表示話題的詞語進(jìn)行分析組合,用更有意義的詞組(ngram)代替單個詞語來表示話題。因此本文也利用話題模型進(jìn)行話題演化分析,但是本文利用話題模型的主要目的不是得到各個話題內(nèi)容,而是得到各個時間窗口上有價值的演化詞,因此本文可以不受話題模型話題數(shù)目不變的限制。另外,在得到有價值的演化詞后,本文從詞語的關(guān)系特性(即語義特征)入手去挖掘各個話題和解釋各個話題,并根據(jù)不同時間窗口的對比來追蹤各個話題的演化。

        3 基于DTM-LPA的微博話題演化分析方法

        3.1 基本框架

        微博具有與傳統(tǒng)長文本不同的特點,即內(nèi)容短小、格式雜亂等,這使得話題演化模型DTM在微博上的運用很不理想,得到的話題很難解釋和被理解,為此,本文在不固定話題數(shù)目時利用DTM獲得高價值的演化詞,然后結(jié)合這些高價值演化詞的共現(xiàn)關(guān)系來表征詞之間的語義關(guān)系,并借用社區(qū)發(fā)現(xiàn)技術(shù)挖掘出的詞之間語義關(guān)系來解釋話題模型結(jié)果。在詞的語義關(guān)系挖掘方面,史劍虹等使用了頻繁項集算法FP-growth來挖掘詞之間語義關(guān)系,但由于FP-growth算法時間復(fù)雜度過高,因此該方法不適用于大量微博數(shù)據(jù)集上使用,本文使用了具有線性時間復(fù)雜度算法的標(biāo)簽傳播算法 (Label Propagation Algorithm,LPA)來實現(xiàn)。本文將基于動態(tài)話題模型與社區(qū)發(fā)現(xiàn)技術(shù)想結(jié)合的話題演化方法,簡稱為DTM-LPA微博話題演化分析(基本框架見圖1)。

        話題演化部分主要利用DTM生成各個時間窗口中高價值的演化詞。首先進(jìn)行數(shù)據(jù)采集及數(shù)據(jù)處理,這里的數(shù)據(jù)處理主要包括數(shù)據(jù)噪聲處理等清洗工作、中文分詞、停用詞過濾、詞大小寫的預(yù)處理(如“H7N9禽流感”處理成“h7n9禽流感”);然后根據(jù)微博發(fā)布的月份劃分微博,形成各個月份的微博數(shù)據(jù)集,處理成DTM所需的格式,利用DTM進(jìn)行話題演化建模;本文演化結(jié)果解釋部分主要利用社區(qū)發(fā)現(xiàn)技術(shù)LPA挖掘DTM演化詞中隱含的社區(qū)。為此,文文先根據(jù)DTM得到的結(jié)果,抽取每個時間窗口中高價值的演化詞,同時根據(jù)這些詞在各個時間片上的微博原文生成詞共現(xiàn)網(wǎng)絡(luò);然后利用LPA發(fā)現(xiàn)演化詞的之間社區(qū),并根據(jù)各個社區(qū)話題追蹤各個時間片上的話題給出演化分析。

        圖1 基于DTM-LPA的微博話題演化分析流程圖

        3.2 關(guān)鍵技術(shù)描述

        3.2.1 各個時間窗口中演化詞生成及其關(guān)鍵技術(shù)

        根據(jù)文獻(xiàn)[22]的分析,從較短時間周期上來看,所有以網(wǎng)絡(luò)為載體的內(nèi)容存在著積累性和變革性,存在一個主題內(nèi)容的 “產(chǎn)生”、“生長”、“成熟”、“分化”、“消退”等階段,同樣承載著這些主題內(nèi)容的這些詞也會出現(xiàn)一個“生長”、“爆發(fā)”、“流行”、“消退”、“再增長”等不同的階段。因此,本文使用這類具有生命特征的演化詞(見定義1)來進(jìn)行話題演化分析。

        定義1:演化詞是指具備自然衰減特征能代表話題內(nèi)容的重要詞。所謂自然衰減特征是指詞在第一次出現(xiàn)后可能在后續(xù)文檔中不再出現(xiàn)、再次出現(xiàn)、多次出現(xiàn)或一段時間內(nèi)的頻繁出現(xiàn)。

        為了生成各個時間窗口中高價值的演化詞,本文首先收集了事件生后一年(2013.3-2014.2)的所有相關(guān)微博言語文本,并以月為時間粒度劃分?jǐn)?shù)據(jù)集,借用DTM獲取話題在各個時間窗口上的分布強(qiáng)度和話題的內(nèi)容演化。在DTM模型中,文本先根據(jù)其時間信息離散到時間序列上對應(yīng)的時間窗口內(nèi),然后依次地處理每個時間窗口上的文本集合,最終形成話題隨時間的演化。DTM模型中下一時刻模型參數(shù)往往依賴于當(dāng)前時刻模型參數(shù)的后驗 (模型見圖2),且前后事件參數(shù)之間存在以下關(guān)聯(lián):

        (1)β|β~N(β,σI);

        圖2 動態(tài)話題模型圖模型[15]

        (2)α|α~N(β,δI)。

        其中,α,β分別是自然參數(shù)。

        3.2.2 演化詞詞網(wǎng)絡(luò)構(gòu)建及其社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)

        在利用DTM生成各個時間窗口的演化詞后,本文利用各個時間窗口上的微博來構(gòu)建詞網(wǎng)絡(luò)。本文主要用共現(xiàn)性方式來構(gòu)建演化詞網(wǎng)絡(luò)。本文定義演化詞的共現(xiàn)為:若演化詞Term和Term同時出現(xiàn)在某一條微博中,則稱Term和Term共現(xiàn)。這樣,演化詞共現(xiàn)關(guān)系網(wǎng)可以使用一個無向帶權(quán)圖(見定義2)來表示。

        定義2:演化詞關(guān)系網(wǎng)絡(luò)是由演化詞及演化詞共現(xiàn)關(guān)系構(gòu)成的無向帶權(quán)圖,表示為G=(G,E,W),其中 G為演化詞集,E為演化詞共現(xiàn)關(guān)系集,W為演化詞共現(xiàn)次數(shù)集。如果兩個演化詞出現(xiàn)在一條微博中,則它們之間存在一條邊,邊的權(quán)值也增加1。

        在演化詞共現(xiàn)關(guān)系網(wǎng)構(gòu)建完成后,由于微博條數(shù)較多,構(gòu)建出的演化詞網(wǎng)絡(luò)規(guī)模將很大,本文將使用具有線性時間復(fù)雜度的LPA算法找出演化詞的社區(qū)。LPA(Label Propagation Algorithm,標(biāo)簽傳播算法)是 Zhu等人于2002年提出的一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思想是用已標(biāo)記節(jié)點的標(biāo)簽信息去預(yù)測未標(biāo)記節(jié)點的標(biāo)簽信息。2007年,Raghavan等首次將LPA應(yīng)用于社區(qū)發(fā)現(xiàn),并在Zachary Karate 網(wǎng) 絡(luò)、College Football網(wǎng) 絡(luò)等 真實基準(zhǔn)網(wǎng)上進(jìn)行了測試,結(jié)果表明LPA的社區(qū)結(jié)構(gòu)檢測效果良好。LPA應(yīng)用于社區(qū)發(fā)現(xiàn)的步驟為:(1)初始化網(wǎng)絡(luò)中所有節(jié)點的標(biāo)簽,依次為每個節(jié)點分配唯一的標(biāo)簽;(2)令迭代次數(shù) t=1;(3)隨機(jī)排列網(wǎng)絡(luò)中的節(jié)點,生成序列X;(4)按照序列X中的順序,對X中的每個節(jié)點 v,使用來更新自身的標(biāo)簽,其中是擁有l(wèi)標(biāo)簽的v的鄰居節(jié)點集。如果存在多個標(biāo)簽數(shù)量最多時,則隨機(jī)選擇其中一個;(5)如果每個節(jié)點具有的標(biāo)簽都是其鄰居節(jié)點中出現(xiàn)次數(shù)最多的標(biāo)簽,那么算法停止,否則令t=t+1,轉(zhuǎn)到步驟(3)。

        在衡量社區(qū)劃分質(zhì)量時,通常使用的一個指標(biāo)是模塊度(modularity),其計算公式是:

        其中,A是網(wǎng)絡(luò)圖的鄰接矩陣,m是網(wǎng)絡(luò)圖的邊數(shù),P表示空模型中節(jié)點i和j之間邊的期望值,如果節(jié)點 i和 j在同一個社區(qū),δ(C,C)=1,否則為 0。

        4 實驗與結(jié)果分析

        4.1 數(shù)據(jù)集概述

        H7N9禽流感疫情屬于突發(fā)公共衛(wèi)生事件,在社交媒體上有大量的相關(guān)用戶生成內(nèi)容產(chǎn)生和傳播。文本使用新浪微博上有關(guān)H7N9的微博作為本文實驗的數(shù)據(jù)集。自2013年3月開始,項目組采集集了隨后1年時間內(nèi)有關(guān)H7N9的微博數(shù)據(jù) (使用結(jié)巴分詞包分詞、停用詞過濾后得到的各個月份的微博數(shù)見表1)。

        表1 新浪H7N9微博數(shù)據(jù)集統(tǒng)計

        4.2 結(jié)果分析

        4.2.1 基于DTM的演化詞抽取與演化詞共現(xiàn)網(wǎng)絡(luò)構(gòu)建

        本文僅僅是為了獲得各個時間窗口上高價值的演化詞,在利用DTM建模時不需要關(guān)心文本內(nèi)的話題數(shù)目,為此本文將話題數(shù)目設(shè)置為1進(jìn)行DTM建模。

        DTM建模過程如下:編譯Blei的DTM模型;②自編程序?qū)㈩A(yù)處理后的微博文檔處理成ldac格式,ldac格式要求按時間先后順序排列各個時段微博,一行一條微博,每一行形式為“詞數(shù) 詞1編號:詞1頻次 詞2編號:詞2頻次……詞n編號:詞n頻數(shù)”(詞數(shù)只指該微博內(nèi)不同詞的個數(shù),詞的編號指該詞在整個微博語料集中的編號;③生成微博時間信息文檔,文檔里包括總的時間窗口數(shù)和各個時間窗口上對應(yīng)的微博數(shù);④設(shè)置主題數(shù)及最大EM迭代次數(shù)進(jìn)行模型訓(xùn)練。

        在利用DTM將訓(xùn)練模型后,最初本文選取了各個時間窗口中前1000個作為有價值的演化詞,并根據(jù)這些演化詞在各個時間窗口的共現(xiàn)關(guān)系去了解這些詞之間的關(guān)系。但是發(fā)現(xiàn)每個時間窗口若只根據(jù)當(dāng)前窗口上DTM得到的前1000個詞構(gòu)造出的網(wǎng)絡(luò)非常稀疏,如根據(jù)2013年4月份336177條微博利用DTM上前1000個詞構(gòu)造的加權(quán)網(wǎng)絡(luò)的邊數(shù)為2815,節(jié)點數(shù)僅為217,利用其他微博數(shù)規(guī)模小的月份甚至都難以得到一個完整的網(wǎng)絡(luò)。上述問題極有可能是由于以下原因?qū)е碌模孩傥⒉┒涛谋颈旧砭拖∈瑁虎贒TM模型中下一時間窗口的模型參數(shù)依賴于前一時間窗口的結(jié)果,因此不能僅僅根據(jù)當(dāng)前時間窗口中的價值較高的演化詞來構(gòu)造詞網(wǎng)絡(luò)。所以,本文采用了增量式的方法構(gòu)造重要演化詞:當(dāng)前一個時間窗口的演化詞由該時間窗口DTM的前1000個演化詞與前面所有時間窗口的所有演化詞共同構(gòu)成。根據(jù)增量式的方法得到每個時間窗口的重要演化詞后,我們根據(jù)在各個時間窗口上的微博文本中的共現(xiàn)構(gòu)造出了這些演化詞的共現(xiàn)網(wǎng)絡(luò) (結(jié)果見表2)。

        表2 各個時間窗口上演化詞共現(xiàn)網(wǎng)絡(luò)規(guī)模

        從結(jié)果中可以看出,盡管隨著時間的推移,重要演化詞的數(shù)目在逐漸增加,但是最終得到的共現(xiàn)網(wǎng)絡(luò)規(guī)模并不一直逐漸增大,這主要是因為各時間窗口上微博條數(shù)不一樣所導(dǎo)致的。

        4.2.2 共現(xiàn)網(wǎng)絡(luò)上的社區(qū)發(fā)現(xiàn)與微博話題演化結(jié)果生成

        在得到重要演化詞的共現(xiàn)網(wǎng)絡(luò)后,本文利用LPA算法進(jìn)行了社區(qū)發(fā)現(xiàn),并選取LPA多次執(zhí)行中模塊度最大的結(jié)果作為社區(qū)劃分結(jié)果,直到舍棄到在規(guī)模小于6的無意義社區(qū)后,并按照節(jié)點度數(shù)從大到小的順序給出了得到的各個時間窗口中前三個規(guī)模大的社區(qū)的結(jié)果(見圖3),其中在2013.04這個月份僅僅得到一個社區(qū),所以只給出了一個社區(qū)的結(jié)果。

        從演化結(jié)果可以看出:(1)在這1年的有關(guān)H7N9的微博上,H7N9相關(guān)的話題還是占主要部分,在每個時間窗口上最大的社區(qū)總是“H7N9禽流感”。但對比各個時間窗口“H7N9禽流感”這個話題其結(jié)果,可以看出還是存在一個大致演化,尤其是在2013.07月,其最大社區(qū)內(nèi)容演化為 “新聞通報”與“北京患者研究”相關(guān)的2個主要社區(qū),這個“北京”出現(xiàn)與高頻詞統(tǒng)計結(jié)果(見下圖4)極為相似;(2)在2013.04月所有的節(jié)點都被劃分進(jìn)一個社區(qū),這說明在這個月大家的注意力都集中在“H7N9”方面,討論的其他話題相對減弱,這也可以從2013.04這一個月的微博數(shù)占據(jù)量(336177/446126=75%)能得到進(jìn)一步的驗證;(3)除了2013.04外,在其余各個窗口上用戶也都會討論一些日常討論的內(nèi)容,如2013.10月的“娛樂”、2013.11 月的“金融”、2014.01 月的“驅(qū)寒”、“過年”、2014.02 月的“臘味”(表明強(qiáng)烈過年的氛圍)、2014.02 月的“中國好聲音”(“畢夏”為參加“中國好聲音”的學(xué)員);(4)從整體上來看,“H7N9 禽流感”話題的討論也引發(fā)了大家對“養(yǎng)鴨”等家禽業(yè)、“個人衛(wèi)生”、“醫(yī)藥產(chǎn)業(yè)”、“非典”等話題的討論。

        圖3 基于DTM-LPA的微博話題演化結(jié)果

        4.2.3 結(jié)果比較分析

        最后,在實驗中本文使用了基于DTM方法和常用的詞頻統(tǒng)計方法作為Baseline,得到基于DTM的微博演化結(jié)果(見圖4),其中,話題數(shù)設(shè)置為3,第1、2、3列分別對應(yīng)圖3第一、二、三個話題)和基于高頻詞統(tǒng)計的微博演化結(jié)果(見表五)。

        可以發(fā)現(xiàn)這種DTM結(jié)果不太理想:2013.07窗口上有2個話題基本相近,2013.08窗口上也有2個話題基本一樣,2013.11窗口上甚至3個話題都是一樣。除此之外,整體上各個窗口的差異性很小,微博都在討論“禽流感”、“死亡”等相關(guān)話題,很難細(xì)辨出各個窗口討論的差異。經(jīng)過多次設(shè)置不同的主題數(shù)進(jìn)行DTM建模,其結(jié)果可讀性均不強(qiáng)。

        通過高頻詞演化結(jié)果,直觀上每個時間窗口得到的結(jié)果極為相似,各個時間窗口的差異性不明顯,除了一些“上?!?、“北京”、“廣東”、“浙江”、“疫苗”詞存在差異外,其余高頻詞都大致一樣。可見,在這種只涉

        圖4 基于DTM的微博演化結(jié)果

        圖5 基于高頻詞統(tǒng)計的微博演化結(jié)果

        及H7N9一個事件的微博文本上,詞頻統(tǒng)計方法得到的話題可區(qū)分性較差,很難識別出各個階段的話題。

        對比三種方法得到的演化結(jié)果,可以發(fā)現(xiàn)本文提出的基于DTM-LPA方法相對來說更適合分析H7N9事件的演化:能清晰地看出各個時段文本內(nèi)容演化,更能區(qū)分出文本內(nèi)容演化中詞的出現(xiàn)、發(fā)展、流行、成熟、消退等階段(例如,2014.01月“驅(qū)寒”、“過年”、2014.02月“臘味”等詞的出現(xiàn))。分析其中的原因,主要在于:本文所用的突發(fā)事件語料比較單一(僅僅只選用H7N9這一個突發(fā)事件的微博),這樣各個時間窗口話題差異性不大,話題太接近,導(dǎo)致DTM和基于詞頻方法效果差。這也進(jìn)一步說明DTM方法和基于詞頻統(tǒng)計方法可能更適合處理話題差異性大的語料上。

        5 結(jié)語

        突發(fā)事件話題追蹤研究對我國經(jīng)濟(jì)、軍事和政府部門都有著極大的現(xiàn)實意義和應(yīng)用需求,因此本文提出了一種結(jié)合動態(tài)話題模型與社區(qū)發(fā)現(xiàn)方法的話題追蹤分析的方法,并以微博上H7N9禽流感事件為例進(jìn)行了分析。結(jié)果顯示本文提出的方法較詞頻統(tǒng)計法與單純的動態(tài)話題模型方法要好,也能基本呈現(xiàn)出各個時段民眾在H7N9禽流感事件期間所討論的話題。但是,本文同樣會存在一個比較大眾的問題,即無法給出一個話題演化的評判標(biāo)準(zhǔn)。

        盡管本文所提方法能對微博話題進(jìn)行演化分析,但是對不同時間窗口上的各個話題所處的生命周期(如“新生”、“生長”、“分化”、“消退”)并沒有進(jìn)行深入研究,這將是未來下一步的一個研究工作。除此之外,利用規(guī)模更大的其他突發(fā)事件語料庫進(jìn)行測試及探索更加合理的話題演化分析評估方法也是本文后續(xù)的研究工作。

        [1] 2015年第一季度財務(wù)報告:微博Q1凈營收達(dá)9630萬美元[EB/OL].[2015-06-18].http://www.chinabgao.com/stat/stats/42373.html.

        [2] 史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發(fā)現(xiàn)[J].計算機(jī)應(yīng)用研究,2014,31(3):700-704.

        [3] 米文麗,孫曰昕.利用概率主題模型的微博熱點話題發(fā)現(xiàn)方法 [J].計算機(jī)系統(tǒng)應(yīng)用,2014,23(8):163-167.

        [4] 鄭斐然,苗奪謙,張志飛.一種中文微博新聞話題檢測的方法[J].計算機(jī)科學(xué),2012,39(1):138-141.

        [5] 楚克明,李芳.基于 LDA話題關(guān)聯(lián)的話題演化[J].上海交通大學(xué)學(xué)報,2010,44(11):1496-1500.

        [6] 趙旭劍.中文新聞話題動態(tài)演化及其關(guān)鍵技術(shù)研究 [D].合肥:中國科學(xué)技術(shù)大學(xué),2012.

        [7] 單斌,李芳.基于 LDA話題演化研究方法綜述[J].中文信息學(xué)報,2010,24(6):43-49.

        [8] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報,2007,21(6):71-87.

        [9] Hofmann T,editor Probabilistic latent semantic indexing [C].Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,1999:50-57.

        [10] Griffiths T,Steyvers M.A probabilistic approach to semantic representation [C].Proceedings of the 24th annual conference of the cognitive science society,2002:381-386.

        [11] Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].the Journal of machine Learning research,2003(3):993-1022.

        [12] Wang X,McCallum A,editors.Topics over time:a non-Markov continuous-time model of topical trends[C].Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:424-433.

        [13] Griffiths TL,Steyvers M.Finding scientific topics [J].Proceedings of the National Academy of Sciences.2004,101(suppl 1):5228-5235.

        [14] Hall D,Jurafsky D,Manning CD.Studying the history of ideas using topic models [C].Proceedings of the conference on empirical methods in natural language processing,2008:363-371.

        [15] Blei DM,Lafferty JD.Dynamic topic models [C].Proceedings of the 23rd international conference on Machine learning,2006:113-120.

        [16] Wang C,Blei D,Heckerman D.Continuous time dynamic topic models[J].arXiv preprint arXiv:12063298.2012.

        [17] Wei X,Sun J,Wang X.Dynamic Mixture Models for Multiple Time-Series [C].Proceedings of the International Joint Conference on Artificial Intelligence(IJCAI),2007:2909-2914.

        [18] Nallapati RM,Ditmore S,Lafferty JD,etal.Multiscale topic tomography [C].In:Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining,2007:520-529.

        [19] Song X,Lin C-Y,Tseng BL,etal.Modeling and predicting personal information dissemination behavior [C].Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining,2005:479-488.

        [20] Blei DM,Lafferty JD.Visualizing topics with multi-word expressions[J].arXiv preprint arXiv:09071013.2009.

        [21] Raghavan UN,Albert R,Kumara S.Near linear time algorithm to detect community structures in large-scale networks[J].Physical Review E.2007,76(3):036106.

        [22] 洪娜,錢慶,李亞子,等.網(wǎng)絡(luò)內(nèi)容演化趨勢影響因素分析——從詞的生命周期和背景詞簇環(huán)境中挖掘演化線索[J].情報理論與實踐,2012,35(6):44-48.

        [23] Zhu X,Ghahramani Z.Learning from labeled and unlabeled data with label propagation [R].Technical Report CMUCALD-02-107,Carnegie Mellon University,2002.

        [24] Zachary WW.An information flow model for conflict and fission in small groups [J].Journal of anthropological research.1977(33):452-473.

        [25] Girvan M,Newman ME.Community structure in social and biological networks[C].Proceedings of the National Academy of Sciences,2002:821–7826.

        [26] Newman ME,Girvan M.Finding and evaluating community structure in networks [J].Physical review E.2004,69(2):026113.

        猜你喜歡
        禽流感節(jié)點文本
        CM節(jié)點控制在船舶上的應(yīng)用
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        防治H7N9 禽流感 家長知多少
        啟蒙(3-7歲)(2017年4期)2017-06-15 20:28:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        抓住人才培養(yǎng)的關(guān)鍵節(jié)點
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        雞大腸桿菌病并發(fā)禽流感的診治
        富婆猛男一区二区三区| 依依成人影视国产精品| 一片内射视频在线观看| 日韩女优图播一区二区| 国产免费a∨片在线软件| 婷婷丁香社区| 国产一区二区丁香婷婷| 极品美女调教喷水网站| 欧美日韩精品久久久免费观看| 乱人妻中文字幕| 免费人成视频在线观看视频| 欧美日韩国产乱了伦| 日本一区二区高清精品| 国产精品久久久久免费观看| 婷婷亚洲综合五月天小说| 一区二区无码精油按摩| 国产一区二区三区最新地址| 少妇内射兰兰久久| 国产黄三级三·级三级| 在线看片免费人成视久网不卡| 一区二区三区四区亚洲免费| 特黄大片又粗又大又暴| 最近中文av字幕在线中文| 亚洲精品高清av在线播放 | 亚洲一区二区精品在线| 国产大片黄在线观看| 日本一区午夜艳熟免费| 亚洲嫩模一区二区三区视频| 日本一区二区视频高清| 国产亚洲真人做受在线观看| 亚洲AV综合久久九九| 日本在线观看一区二区三区视频 | 最近日本免费观看高清视频| 91精品国产免费久久久久久青草| 国产精品丝袜一区二区三区在线 | 国产成人精品av| 中文字幕亚洲无线码a| 在线精品国产亚洲av麻豆| 小sao货水好多真紧h无码视频| 色妺妺视频网| 丝袜美腿一区二区在线观看|