高盛祥,余正濤,龍文旭,丁 硙,閆春婷
(昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明650500)
當(dāng)今,互聯(lián)網(wǎng)上每天涌現(xiàn)出大量的新聞事件,借助機器學(xué)習(xí)方法,從這些海量的新聞事件中獲取新聞話題,分析海量新聞報道的關(guān)聯(lián)性和新聞事件之間的演化關(guān)系,成為了國內(nèi)外研究的熱點之一。越南與中國緊密相連,如何借助自然語言處理手段自動分析漢越新聞事件,實現(xiàn)漢越信息的互聯(lián)互通對兩國人民交流有非常重要的支撐作用。新聞事件分析主要通過話題分析來體現(xiàn),一個新聞事件可看成全局話題,事件的開端、發(fā)展、高潮、結(jié)局等演化便是一系列的局部子話題(子事件)在時間軸上的演化過程。這些子事件的檢測實質(zhì)就是靜態(tài)話題的發(fā)現(xiàn),子事件在時間軸上的演化過程,實質(zhì)就是動態(tài)話題的跟蹤。目前,靜態(tài)話題發(fā)現(xiàn)方面的研究,主要集中于建立特定的話題模型,根據(jù)其數(shù)學(xué)表達(dá)方式不同分為三類:(1)向量空間模型,它選擇文本中具有代表性的關(guān)鍵詞、詞性、語法結(jié)構(gòu)等詞項作為文本的特征,構(gòu)成多維特征向量,通過向量計算文本相似度實現(xiàn)話題的分析[1-4]。(2)概率模型,它通過發(fā)現(xiàn)文本中詞語分布與話題分布的統(tǒng)計規(guī)律,建立話題統(tǒng)計概率模型,如PLSA,LDA,對話題進行預(yù)測[5-6]。(3)圖模型,它通過對文檔中的特征進行分析,提取特征及特征關(guān)系,如提取特征詞及詞關(guān)系,構(gòu)建特征概率圖模型,依據(jù)圖求解思路提取文本的話題[7]。動態(tài)話題的研究是在靜態(tài)模型的基礎(chǔ)上,引入時間描述,構(gòu)建基于時間系列的子話題系列分析,其中,第一類分析方法先對新聞文本集合建立靜態(tài)模型,然后提取文本集合中的時間序列,離散化分析不同階段的話題,如Griffiths等提出的LDA和時間窗的話題模型[8],Chen提出基于向量空間的時間段話題動態(tài)研究方法[9];第二類分析方法是將文本集合離散到時間序列的細(xì)粒度窗口,在窗口內(nèi)抽取話題模型,最后將窗口整合到整個序列上發(fā)現(xiàn)話題演化規(guī)律,如Song提出的增量LDA[10],Alsumait提出的在線LDA[11]。Ahmed提出的將RCRP算法與主題模型融合實現(xiàn)動態(tài)話題發(fā)現(xiàn)[12]。在雙語話題主題分析研究方面,主要有通過雙語詞典及雙語機器翻譯方式對分析文本進行轉(zhuǎn)化,在目標(biāo)語言的基礎(chǔ)上進行話題分析[13],也有一些研究主要利用雙語平行語料庫,構(gòu)建基于雙語LDA主題模型實現(xiàn)雙語話題分析[14-15]。漢越雙語新聞事件話題發(fā)現(xiàn),其主要核心問題是要解決雙語文本中的跨語言文本分析問題,因此,本文提取表征事件全局/局部共現(xiàn)詞對特征,結(jié)合RCRP算法和漢越雙語新聞的對齊語料,構(gòu)建有監(jiān)督話題生成主題模型,獲得相應(yīng)時間跨度下代表事件發(fā)展進程的子話題分布,通過子話題的分布反映事件發(fā)展的線索,實現(xiàn)事件線索分析。
目前有許多研究集中于事件線索的產(chǎn)生,其目的是從大量的新聞文檔集合中產(chǎn)生一個簡潔的事件過程的概要。通常每個事件包含多個子事件,事件線索應(yīng)該是對所有子事件的總結(jié)和概要。然而,不同的子事件與主要事件之間,有不同的部分與整體的關(guān)系,區(qū)分不同類型的子事件。以“2014年越南排華暴動”這一話題為例,“5月12日晚,平陽市一臺資鞋廠約一百名越南員工發(fā)起游行。到13日早上,全場工人罷工…”,“5月14日下午2時,河靜省正在興建的中方鋼鐵廠遭到入侵…”,“5月15日越南總理阮晉勇要求越南公安部等有關(guān)部委,…防止與懲罰擾亂秩序的人?!比绻麑⒃侥吓湃A當(dāng)成主要事件,以天為時間粒度,那么每個時間窗內(nèi)都對應(yīng)了相應(yīng)的子事件。
在同一個話題下的新聞文本集合中,每一個句子都打上了特定的時間標(biāo)簽,同一個時間標(biāo)簽下的句子集合可以劃分為一個子集。如果將這個話題當(dāng)成全局的主題分布,那么具有區(qū)分度的句子構(gòu)成的子集可以當(dāng)成局部詞語分布,這種局部/全局詞語分布的對應(yīng)關(guān)系也反映了局部/全局的事件關(guān)系。在越南排華事件中,分別提取了5月12日至15日四個時段,假設(shè)一個時間標(biāo)簽下只對應(yīng)同一個子事件,那么在全局事件集合中每個子事件集的事件元素與全局事件將會有高度的共現(xiàn)頻率。
設(shè)C={Ct|t=1,2,3,…,T }是T個時刻的子事件集合;Sc是事件集合C中句子數(shù),Nc,s表示事件集合C中句子Sc中詞的個數(shù),wc,s,n表示句子Sc中第n個詞;v是一個時間窗,服從參數(shù)λ的Dirichlet先驗分布,它包含Sp個連續(xù)時間窗的子事件集合,即v= {Ct|t=i,i+1,…,i+Sp-1};通過unigram語言模型分析全局詞分布Ag和局部詞分布Al,假設(shè)這些詞語都遵循參數(shù)β的Dirichlet先驗分布;多項式分布π表示在句子中全局詞和局部詞出現(xiàn)的頻率,它服從Dirichlet的參數(shù)γ的先驗分布;全局主題θg服從αg的Dirichlet先驗分布,局部主題θl服從αl的Dirichlet先驗分布;ρ表示對每個時間窗v,表征局部/全局詞對的優(yōu)先性分布,它服從αm的Beta先驗分布;zc,s表示句子S所屬主題z,yc,s,n表示第n個詞是否由模型生成。單語種事件線索生成模型如圖1所示[16],通過吉布斯采樣,即可生成單語種的事件線索。
圖1 單語種事件線索分析模型
周期性中餐館算法(Recurrent Chinese Restaurant Process,簡稱RCRP),是狄利克雷過程的一個特例,其核心是一種非貝葉斯方法,通過某一時刻樣本的觀測值預(yù)測下一周期對應(yīng)時刻的參數(shù),在連續(xù)的周期中實現(xiàn)對數(shù)據(jù)的動態(tài)分析。根據(jù)馬爾科夫假設(shè),αt|αt-1~N(αt-1,δ2I),βt|βt-1~N(βt-1,δ2I),而不是假定α、β在一個時間范圍內(nèi)的所有時間點都保持不變。基于RCRP算法的時序模型如圖2所示,陰影部分為觀測值,它表示當(dāng)前報道中詞語的分布;白色圈表示隱含變量,表示報道的發(fā)展過程。依據(jù)RCRP算法,事件的報道集合s服從關(guān)于RCRP分布。
圖2 基于RCRP算法的時序模型
對于每個時間窗:
采樣std,同時得出std|s1,st-1,
采樣得到參數(shù)分布βs|β0,
采樣得到文檔di詞分布wdi~βstd。
為了融合雙語的局部/全局詞對到線索分析模型中,本文使用跨語言LDA構(gòu)建雙語主題模型。在LDA主題模型的基礎(chǔ)上,利用雙語詞典得到漢語VS到越南語VT的互譯詞對集合mD,其元素定義為(vi,vj),其中vi∈VS,vj∈VT?;プg詞對集合mD可以看作是VS到VT的二分圖,圖中的每個詞要么不配對,或是只是連接到越南語的一個詞。類似地,可以利用事件本體知識庫計算雙語文檔中名詞、動詞和實體的語義相似度,選取相似度高的配對作為近義詞對集合mK。同時,利用雙語新聞事件要素對齊方法,獲得雙語新聞中的對齊要素,構(gòu)成雙語事件要素對齊集合mE。和傳統(tǒng)LDA不同的是漢語-越南語雙語主題模型,不僅依賴于文檔中詞語的分布,同時也依賴于互譯詞對集合mD、近義詞對集合mK和雙語事件要素對齊集合mE。漢語-越南語雙語主題構(gòu)建的概率圖模型參見圖3,該模型的主要過程是:首先,根據(jù)先驗概率πi,j從配對集合m=mD∪mD∪mE中選擇一個配對mi,j;然后,分別為漢語和越南語計算不在m中的詞的基礎(chǔ)分布ρL~Dir(γ),并利用m中配對(vS,vT)計算主題i={1,2,...,K}的分布βL~Dir(λ);最后,針對每個文檔d={1,2,...,D},選擇主題比重θd~Dir(α);緊接著文檔中的每個位置n={1,2,...,Md},選擇主題標(biāo)記zn~Multi (1,θd);隨機選擇cn∈{matched,unmatched};如果cn=matched,則從wn~Multi (1 ,βzn(m))選擇一個配對,并根據(jù)語言得到對應(yīng)的詞wn,否則wn~Multi (1,ρld)。
圖3 雙語主題模型概率圖模型
新聞中的詞由新聞的話題和主題產(chǎn)生,而新聞中的命名實體只產(chǎn)生于話題。新聞被看作是主題的混合,并且只屬于一個話題,而話題定義為主題的一個先驗分布。在聚類過程中,我們將爬取到的新聞頁面按時間片進行劃分,并認(rèn)為時間片中的新聞是無序的。則聚類過程為:當(dāng)時間片中的第n+1個新聞出現(xiàn)時,假設(shè)已經(jīng)有k個話題,這些話題分別有C1,C2,…,Ck個新聞頁面,那么第n+1個頁面可以以概率pi歸屬到話題i,同時以概率γ創(chuàng)建一個新的話題。
我們將時序動態(tài)信息、雙語信息與事件線索分析模型相結(jié)合得出在線雙語事件線索分析模型如圖4所示。
圖4 漢越雙語事件線索分析模型
該模型的算法如下:
算法1:漢越雙語事件線索分析模型采樣φB~Dir(βt),ψt(v)~Dir(λ采樣Ag次φg|β0~Dir(βt),采樣Al次φl|β0~Dir(βt),),分別計算雙語的詞語分布βt~Dirβ( )0 ,以及雙語互譯詞對和雙語近義詞對的分布mE~Dir()φ,設(shè)全局主題參數(shù)θg~Dirα(g),采樣Ωt~DirΩ( )t,計算當(dāng)前文檔的主題比例θtd|std~Dirθ(l),對于文檔中的每個位置,隨機選擇cn∈{matched,unmatched}:若cn=matched,則從etd選擇一個雙語事件要素對齊,并根據(jù)文檔的語言得到對應(yīng)的詞wtd,否則從文檔語言對的分布Ωt生成wtd。對于時刻t對應(yīng)的子集c:設(shè)θlc,t~Dirα(l),設(shè)ρc,t~Dirα(m),對于每個句子s對應(yīng)的子集c:設(shè)vc,t~ψc,設(shè)ηc,t~ρc,w,z,若ηc,s=g,zc,s~θg,若ηc,s=loc,zc,s~θlocc,v ,0,計算雙語事件要素對齊的分布etd~DirΩ()
對于子集c句子s中每個詞w:采樣yc,s,n~Multi(π),采樣wc,s,n~Multiφ(B),若yc,s,n=1,采樣wc,s,n~Multiφz,c,( s),若yc,s,n=2。
我們通過最大化概率分布p(z,y|w;α,β,γ,λ)來求出模型中的隱含變量,在時刻t生成的分布概率為式(1)和式(2)。
其中nch*=#{sentence|vc,sentence=v-td+h*+1},代表事件集合c中句子sentence出現(xiàn)在第h*時間窗的次數(shù),h=-td+h*+1;事件集合c中,表示事件集合c中句子數(shù),和表示在時間窗vh內(nèi)分別出現(xiàn)全局主題和局部主題的句子數(shù),表示在時間窗vh內(nèi)出現(xiàn)的總句子數(shù),表示在全局主題的句子中出現(xiàn)局部主題α的句子數(shù),表示局部主題的句子中出現(xiàn)局部主題α的句子數(shù);Ag是全局主題數(shù),Al是局部主題數(shù);E(l)是當(dāng)前句子中出現(xiàn)詞l且該詞l被分配到一個主題詞的次數(shù),E(.)是當(dāng)前句子中被分配到一個主題詞的總詞數(shù)
其中的參數(shù)計算公式為式(3)。
那么事件線索詞語分布的概率為式(4)和式(5)。
我們采用ROUGE(Recall Oriented Understudy for Gisting Evaluation)準(zhǔn)則來評測雙語事件線索模型,這一準(zhǔn)則由ISI的Lin等提出,廣泛應(yīng)用于摘要質(zhì)量評估。我們將局部話題看作全局話題下的摘要成分,ROUGH準(zhǔn)則基于局部話題中n元詞的共現(xiàn)信息,得出n元詞召回率。這一準(zhǔn)則包括多種評價方法,如ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4以及ROUGE-L,ROUGE-W。使用最多的是ROUGE-N,它可以包含ROUGE-1至ROUGE-4以及ROUGE-W的結(jié)果,計算方法如式(6)。
其中,N-gram表示n元詞,RS表示可用參考摘要,Countmatch(N-gram)表示模型輸出摘要和參考摘要中都出現(xiàn)N-gram的個數(shù),Count(N-gram)表示參考摘要中出現(xiàn)N-gram的個數(shù)。結(jié)果打分越高,表示局部話題(摘要)的產(chǎn)生效果越好。
從漢語網(wǎng)站上抓取了376 274條漢語新聞報道以及在越南語網(wǎng)站抓取了221 035條報道,這些新聞包含了比較完整的報道標(biāo)題、發(fā)布時間和內(nèi)容,作為我們的實驗數(shù)據(jù)集。在進行實驗前,我們先對數(shù)據(jù)集中的文檔按照逗號分解成句子,對于每個句子打上時間標(biāo)志。為了驗證所提出方法的有效性,在此數(shù)據(jù)集上進行實驗,主要包括對模型本身的參數(shù)進行調(diào)節(jié),同時對幾種不同算法之間的線索產(chǎn)生準(zhǔn)確率進行對比,模型中的參數(shù)初始值,取值分別為β0=0.1,φ0=0.01,Ω0=0.001,α0=,λ= 0.5,Δ=3。
(1)指定不同主題數(shù)
在實驗中指定Gibbs采樣次數(shù)N=500,測試了在同一個全局話題下不同主題數(shù)量K下的模型效果。
表1 不同主題數(shù)量K下的模型評估
從表1看出,在K=100時,ROUGE-N取值最大;K<50或K>100時,ROUGE-N的變化趨于平緩。說明對于一定的數(shù)據(jù)集下的同一話題,存在一個合適的主題數(shù)使得模型發(fā)現(xiàn)局部話題的準(zhǔn)確率最高;模型的準(zhǔn)確率在一定的主題數(shù)范圍內(nèi)隨著主題數(shù)增加而增加,當(dāng)主題數(shù)到達(dá)某閾值時,其增長對模型的影響越來越小。
(2)對比不同算法
實驗中選擇自動文摘的幾種算法跟提出的模型進行對比,因為摘要的產(chǎn)生類似于事件線索的產(chǎn)生。
·Random[17]:隨機的選擇句子集合中的單句作為摘要的組成部分。
·LexPageRank[18](LexRank):采用基于圖的鏈接分析來提取多文檔的摘要。首先計算句子的余弦相似度,然后采用PageRank[19]選擇top-Ranked的句子。
·Chieu[20]:利用用戶興趣和突發(fā)性進行句子排序,選擇與用戶查詢最相關(guān)的句子來構(gòu)造線索。
·LDA+LexPageRank:首先采用標(biāo)準(zhǔn)的LDA模型得到潛在的主題分布,對多文檔進行聚類,然后通過PageRank選擇帶有主題詞的具有代表性的句子作為摘要。這種方法不考慮全局主題和局部主題的關(guān)系。
· 提出的方法:將全局/局部主題的關(guān)系融入LDA模型,獲得具有高質(zhì)量的主題詞分布。
實驗中指定主題數(shù)K=100,采樣次數(shù)N=500。
表2 六個不同主題下的算法對比
續(xù)表
從實驗結(jié)果表2可以看出,隨機算法Random的表現(xiàn)是最差的,LexPageRank由于發(fā)掘多文檔中句子的特征,相對Random算法能夠選取較有特點的句子。Chieu算法優(yōu)于前兩者,是因為它將句子中的時間維度考慮進來,同時將用戶興趣和事件突發(fā)性作為權(quán)重,從而進一步挖掘文本信息。LDALexPageRank則主要分析詞語分布和主題之間的關(guān)系,在一定程度上,主題分布中包含了全局事件和局部事件的關(guān)系,但缺點是這種關(guān)系沒有清晰地表現(xiàn)出來。最后論文中提出的模型,針對以上算法存在的問題,結(jié)合了句子(事件)的時間信息,同時通過分析全局主題-局部主題詞語分布的規(guī)律,將多個條件輸入標(biāo)準(zhǔn)LDA模型,最終得到優(yōu)于前四種算法的結(jié)果。
以2014年5月越南針對中國的暴力事件為全局主題,通過所提出的模型,輸出的事件線索如表3和表4所示。
續(xù)表
表4 事件線索輸出結(jié)果2
其中表3為以天為跨度的事件線索,表4為以月為跨度的事件線索。
本文在雙語動態(tài)話題模型實現(xiàn)新聞事件的文本聚類及全局話題發(fā)現(xiàn)的基礎(chǔ)上,分析局部n元詞與全局主題分布的共現(xiàn)關(guān)系,挖掘出了全局/局部事件的分布規(guī)律,進而得出局部話題分布,分析新聞事件線索,取得了較好的分析結(jié)果。
針對全局/局部共現(xiàn)詞對的分布特點,提出了一個漢越雙語新聞事件線索分析模型,該模型除了能夠有效地將新聞核心事件元素、時間序列及雙語對齊詞信息融合到一個主題模型中,實現(xiàn)融合雙語在線新聞文本話題聚類分析,還能夠在這一分析結(jié)果的基礎(chǔ)上,進行局部話題的挖掘,得出全局話題下的子事件線索。實驗結(jié)果也證明了提出方法的有效性。下一步的工作將圍繞事件間關(guān)聯(lián)關(guān)系分析展開研究,討論事件間關(guān)聯(lián)關(guān)系對事件線索分析的貢獻作用。
[1] Gerard Salton.Introduction to modern information retrieval[M].New York:McGraw-Hill,1983:289-317.
[2] Niek Hoogma.The Modules and Methods of Topic Detection and Tracking[C]//Proceedings of the 2nd Student Conference on IT.Enschede,Netherlands: University of Twente,2005:1-6.
[3] 趙華,趙鐵軍,于浩等.基于查詢向量的英語話題跟蹤研究[J].計算機研究與發(fā)展,2007,44(8):1412-1417.
[4] Hischeng Chang.Extraction of Topic and Event Keywords from News Story[C]//Proceedings of 2007National Computer Symposium.Taichung,Taiwan,2007:1-10.
[5] Thomas Hofmann.Probalilistic Latent Semantic Indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Berkeley,California:ACM,1999:50-57.
[6] David M Blei,Andrew Y Ng,Michael I Jordan.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4-5):993-1022.
[7] Paul Ogilvie,James Allan,David Jensen,et al.Extracting and using relationships found in text for topic tracking[R].CIIR Technical Report IR-209Undergraduate Honors Thesis,2000.
[8] Thomas L Griffiths,Mark Steyvers.Finding scientific topics[C]//Proceedings of the National Academy of Sciences.USA:2004,101(suppl 1):5228-5235.
[9] Kuanyu Chen,Luesak Luesukprasert,Seng-cho T Chou.Hot Topic Extraction Based on Timeline Analysis and Multidimensional Sentence Modeling[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(8):1016-1025.
[10] Ruihua Song,Haifeng Liu,Jirong Wen,et al.Learning block importance models for web pages[C]//Proceedings of the 13th international conference on World Wide Web.New York:ACM,2004:203-211.
[11] Loulwah AlSumait,Daniel Barbara,Carlotta Domeniconi.On-Line Lda:Adative Topic Models for Min-ing Text Streams with Applications to Topic Detection and Tracking[C]//Proceedings of the 2008 8th IEEE International Conference on Data Mining.Pisa,Italy:IEEE,2008:3-12.
[12] Amr Ahmed,Eric Xing.Dynamic Non-parametric Mixture Models and the Recurrent Chinese Restaurant Process:With Applications to Evolutionary Clustering[C]//Proceedings of 8th SIAM International Conference on Data Mining in Applied Mathematics 130.Atlanta,GA,United states:Society for Industrial and Applied Mathematics Publications,2008:219-230.
[13] YingJu Chen,HsinHsi Chen.NLP and IR approaches to monolingual and multilingual link detection[C]//Proceedings of the 19th International Conference on Computational Linguistics.Stroudsburg,PA,USA:ACL,2002:1-7.
[14] 陸前.英、漢跨語言話題檢測與追蹤技術(shù)研究[D].北京:中央民族大學(xué)博士論文,2013.
[15] Wenxu Long,Jixun Gao,Zhengtao Yu,et al.Online Chinese-Vietnamese Bilingual Topic Detection Based on RCRP Algorithm with Event Elements[J].Communications in Computer and Information Science,2014,496(1):422-429.
[16] Lifu Huang,Lian’en Huang.Optimizd Event Storyline Generation based on Mixture-Event-Aspect Model[C]//Proceedings of the 2013Conference on Empirical Methods in Natural Language Processing.Seattle,WA,United states:ACL,2013:726-735.
[17] Dragomir R Radev,Hongyan Jing,Malgorzata Stys,et al.Centroid-based summarization of multiple documents[J].Information Processing and Management,2004,40(6):919-938.
[18] Gunes Erkan,Dragomir R Radev.LexRank:Graphbased Lexical Centrality as Salience in Text Summarization[J].Journal of Artificial Intelligence Research,2004,22(2):457-479.
[19] Gunes Erkan,Dragomir R Radev.Lexpagerank:Prestige in multi-document text summarization[C]//Proceedings of EMNLP,Barcelona,Spain:ACM,2004:365-371.
[20] Hai Leong Chieu,Yoong Keok Lee.Query based event extraction along a timeline[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Sheffield,United Kingdom:ACM,2004:425-432.