劉雅筠
(長沙南方職業(yè)學(xué)院 湖南·長沙 410208)
在眾多形式的在線社交網(wǎng)絡(luò)應(yīng)用中,以微博為代表的社會化新媒體的發(fā)展更是舉世矚目。微博類應(yīng)用以其快速的信息傳播能力,廣泛的用戶參與特性以及顯著的自媒體特征,為信息傳播掀起了劃時代的變革浪潮,形成了深遠(yuǎn)的社會影響。例如近年來我國頻繁發(fā)生了多起突發(fā)公共事件,這些事件均能在微博中找到對應(yīng)的第一手信息。另一方面,與及時發(fā)布的事件信息同時出現(xiàn)在微博這一平臺上的還有洶涌的輿論,即公眾對事件的看法、意見、態(tài)度等信息。社會輿論在微博上不斷匯集,逐漸形成了不可小覷的民意力量,進(jìn)而又推動事件進(jìn)一步向前發(fā)展,這在近年來發(fā)生的事件中屢見不鮮?,F(xiàn)實(shí)世界中的事件與虛擬世界中的微博信息之間是如何相互作用、相互影響的,逐漸成為了一個重要且富有挑戰(zhàn)性的研究課題。
話題發(fā)現(xiàn)與跟蹤技術(shù)在國內(nèi)外都有著長足的研究。社會的生產(chǎn)生活秩序由各行各業(yè)的緊密關(guān)聯(lián)所維系,因而處在社會一環(huán)的群體或個體都需要準(zhǔn)確把握社會動態(tài),其中尤為重要的是洞察和掌握公共事件的發(fā)生與發(fā)展。例如政府機(jī)構(gòu)關(guān)注于突發(fā)的群體性事件以及可能引發(fā)它的重大輿情事件;公司企業(yè)關(guān)注于影響品牌市場的商業(yè)行為以及業(yè)務(wù)領(lǐng)域的最新動態(tài)等等。而了解和引導(dǎo)社會輿論的走向更是把握公共事件的重中之重,例如政府關(guān)注民生,問政于民,又如企業(yè)服務(wù)客戶,營銷品牌等,都離不開對公共事件中的社會輿論進(jìn)行準(zhǔn)確的分析。因此研究和分析公共事件和社會輿論對政治經(jīng)濟(jì)生活都有重要的現(xiàn)實(shí)意義。
20世紀(jì)90年代末,由美國國防高等研究計劃署(Defense Advanced Research Projects Agency,DARPA)發(fā)起,馬薩諸塞大學(xué)阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大學(xué)(Carnegie Mellon University,CMU),Dragon Systems等研究機(jī)構(gòu)共同參與制定和設(shè)計了話題檢測與跟蹤任務(wù)及評測體系(Topic Detection and Tracking,TDT)。
TDT將這些語料按照話題進(jìn)行標(biāo)注。為了盡可能消除概念上的歧義,TDT對話題、活動、事件做了如下非形式化的定義:
事件(Event):發(fā)生在特定時間、地點(diǎn)的事,有著必要的前提條件和不可避免的結(jié)果;
活動(Activity):具有共同焦點(diǎn)或目的,發(fā)生在特定時間、地點(diǎn)的相關(guān)事件的集合;
話題(Topic):一個事件或活動及直接與其相關(guān)的事件和活動。
這一定義明確了話題和事件的結(jié)構(gòu)關(guān)系,認(rèn)為話題是由相互關(guān)聯(lián)的事件構(gòu)成的。但實(shí)際研究中由于話題這一概念的外延很難確定,有時會把話題與事件的概念不加區(qū)分地相互替代。例如在TDT的前瞻性研究(Pilot study)中,將話題這一概念進(jìn)行了狹化,選擇了25個事件作為目標(biāo)話題,因而研究中話題與事件的概念等同。
基于標(biāo)注好的語料庫,TDT提出了多項(xiàng)基本任務(wù)。例如1996年基于TDT-Pilot語料庫,研究者提出的任務(wù)分別是:
(1)報道切分任務(wù)(The Segmentation Task):將連續(xù)的文本流依報道邊界進(jìn)行切分;(2)事件檢測任務(wù)(The Detection Task):在目標(biāo)事件信息未知的情況下檢測出事件;(3)回顧事件檢測(Retrospective Event Detection):檢測出語料庫新聞報道中的所有事件,即將新聞報道按事件進(jìn)行劃分;(4)在線新事件檢測(On-line New Event Detection):在新聞報道流中檢測出新事件,即檢測討論了新事件的首篇新聞報道;(5)事件跟蹤任務(wù)(The Tracking Task):給定已知事件,檢測出所有討論相同事件的新聞報道。
隨著研究的深入,TDT研究任務(wù)也發(fā)生著變化。一些任務(wù)的內(nèi)容發(fā)生微調(diào),一些任務(wù)由于需求降低逐漸淡出,而又有一些新的任務(wù)被補(bǔ)充進(jìn)來。例如基于TDT-4語料庫,研究任務(wù)主要劃分為:
(1)新事件檢測(New Event Detection):檢測報道流中每個話題的首次出現(xiàn);(2)話題檢測(Topic Detection):檢測預(yù)先未知的話題;(3)話題跟蹤(Topic Tracking):在流中檢測出討論目標(biāo)話題的報道;(4)關(guān)聯(lián)檢測(Link Detection):判斷兩篇報道是否討論同一話題。
2004年,基于TDT-5語料庫,研究者又引入了有監(jiān)督的自適應(yīng)話題跟蹤(Supervised Adaptive Topic Tracking)與層次式話題檢測(Hierarchical Topic Detection)兩項(xiàng)實(shí)驗(yàn)性任務(wù)。前者旨在讓話題模型隨著話題的演化自動更新,后者則嘗試建立層次化的話題模型。
Trieschnigg等定義了層次式話題檢測這一任務(wù),提出用XML描述有向無環(huán)圖的標(biāo)準(zhǔn),并提出用話題的檢測損耗函數(shù)和圖中遷移邊的檢測損耗函數(shù)二者的加權(quán)平均值來度量檢測方法的優(yōu)劣。Allan等基于TDT-3和TDT-5語料庫提出了一種可伸縮的層次式話題結(jié)構(gòu):首先從語料庫中采樣獲得種子文檔,然后通過種子文檔構(gòu)建層次類簇結(jié)構(gòu),再通過優(yōu)化代價函數(shù)得到種子文檔的二叉樹,最后將剩下的文檔聚攏到先前得到的層次結(jié)構(gòu)中完成構(gòu)建。
早期的研究中,報道的所有詞匯特征被同等對待,反映在同一個向量空間中。例如 Schultz等設(shè)計的話題跟蹤系統(tǒng)首先從單個報道或多個報道中選擇話題特征詞,利用tfidf特征值將報道映射到向量空間中,再通過計算向量與話題間的余弦夾角度量報道間的相似性。
很快研究者發(fā)現(xiàn),單一的向量表示忽略了詞匯在報道中重要性及語義的差異,一些研究者遂將自然語言處理中的研究成果運(yùn)用在話題模型的建立上。張曉艷等將自然語言處理中的命名實(shí)體識別技術(shù)引入到新事件檢測中,將每篇報道轉(zhuǎn)化為三種詞匯特征向量,一種只由報道中的命名實(shí)體構(gòu)成,一種只由報道中的話題詞構(gòu)成,一種由全部詞匯構(gòu)成。通過三類特征訓(xùn)練支持向量機(jī),從而將新事件檢測轉(zhuǎn)化為二元分類任務(wù)。隨后又對全文詞匯向量,命名實(shí)體向量,非命名實(shí)體向量三種表達(dá)方式在TDT-3和TDT-4語料庫上進(jìn)行了比較,發(fā)現(xiàn)命名實(shí)體在一些語料中起到很好的區(qū)分作用,而在另一些語料中則效果完全相反,提出“命名實(shí)體是一把雙刃劍”的論斷。Lavrenko等將單一的事件向量分解為四個子向量,用四種不同類型的詞匯表征,分別是:人物機(jī)構(gòu)指示詞,地點(diǎn)位置指示詞,時間日期指示詞和事件指示詞。將時間表達(dá)式進(jìn)行形式化,并利用本體知識對地點(diǎn)信息進(jìn)行擴(kuò)展,進(jìn)而應(yīng)用在話題檢測中。
2004年,基于TDT-5語料庫,研究者提出了層次式話題檢測(Hierarchical Topic Detection,HTD)這一新任務(wù),任務(wù)的目標(biāo)是將無結(jié)構(gòu)的新聞報道組織成有向無環(huán)圖(Directed Acyclic Graph,DAG)的形式以表達(dá)話題。Tan等針對TDT-5語料庫中多來源多語種的語料采用了先從來自同一語種、同一來源的新聞流中采用1-NN的聚類方法抽取事件鏈,再采用凝聚式聚類方法將不同語種和來源的多條事件鏈按時間進(jìn)行對齊和合并,構(gòu)成層次結(jié)構(gòu)。
大多數(shù)TDT方法都可用于離線處理,例如Zhang等提出以事件為核心的新聞報道產(chǎn)生式模型,從內(nèi)容和時序兩個角度入手,抓住多個媒體會對同一事件發(fā)表許多冗余報道這一特點(diǎn),依據(jù)概率分布特征發(fā)現(xiàn)事件,在語料中回顧式地檢測話題。而另一方面,適用于在線處理的方法相對較少,尤其是只有少數(shù)概率模型適用于在線處理,這一空缺成為近年來研究的熱點(diǎn)。例如吳斌等提出的在線文檔聚類的概率模型采用了狄里克萊過程對類簇的增長進(jìn)行了建模,用英語語言模型判斷新類簇的產(chǎn)生。
微博是公眾廣泛參與的社交媒體平臺,若將微博流視為一種特殊的新聞報道流,則可以將很多TDT中的研究方法推廣到微博中。Lin等提出和比較了直接模型、兩步流水線模型和兩步混合模型等三種模型檢測Twitter中諸如奧巴馬獲得諾貝爾和平獎等具有爭議性的事件。
Deng等使用Tibetan網(wǎng)絡(luò)中的標(biāo)簽訓(xùn)練話題模型,利用分類器從微博流中鑒別話題。通過實(shí)驗(yàn)對前景模型、背景模型的平滑技術(shù)和歷史信息的組織方式進(jìn)行了評測。
Shiwen等在兩狀態(tài)自動機(jī)模型上加以改進(jìn),提出了一種話題多樣性的度量方法從檢測結(jié)果中提煉具有新聞報道價值的突發(fā)特征,又提出用上下文模型為突發(fā)特征賦以有意義的標(biāo)簽,增強(qiáng)突發(fā)特征的可解釋性。
在Weng等針對Twitter的博文數(shù)據(jù)量大,噪音多的特點(diǎn),提出了一種基于小波信號分析的事件檢測方法(EDCoW),首先應(yīng)用小波分析方法對每個詞匯構(gòu)造信號流,根據(jù)信號的相關(guān)性過濾掉瑣碎的噪音詞匯,再基于圖劃分技術(shù)將剩下的詞匯聚類構(gòu)成事件。
Dou等提出基于內(nèi)容相似度、事件近似度和文檔分布近似度三重因素對事件進(jìn)行關(guān)聯(lián),構(gòu)造事件演化圖。
馬雯雯等提出一種隱含語義分析的微博話題發(fā)現(xiàn)方法,用無監(jiān)督的隱式馬爾科夫方法建模出話題的線性序,但這一算法被證明只適用于地震、災(zāi)害等結(jié)構(gòu)簡單的話題。
在得到事件演化模型之后,研究者提出了一種新的應(yīng)用方法稱為預(yù)期事件檢測(Anticipatory Event Detection,AED),其主旨是檢測出事件狀態(tài)發(fā)生遷移的時機(jī)。Pan等首先提出這一概念,并通過一種句子分類的方法自動發(fā)現(xiàn)NBA比賽的最終比分。Zhang等將突發(fā)特征檢測引入AED,提出突發(fā)向量空間模型,檢測事件遷移中的突發(fā)特征。He等也提出AED中由于檢測狀態(tài)遷移的二元分類模型無法找到具有很強(qiáng)區(qū)分能力的特征詞,因而將突發(fā)特征作為分類的依據(jù)以提升檢測能力。Zhang等以復(fù)雜網(wǎng)絡(luò)理論為基礎(chǔ),基于評論詞語間的共現(xiàn)關(guān)系構(gòu)建基于事件發(fā)展的子事件網(wǎng)絡(luò),通過社群發(fā)現(xiàn)算法來識別子事件評論網(wǎng)絡(luò)中的話題社群。
綜上所述,盡管話題檢測與跟蹤(TDT)已經(jīng)針對新聞報道等較長篇幅的語料提出了許多切實(shí)有效的方法,但對于充斥噪音,語言簡短,語法不規(guī)范,上下文結(jié)構(gòu)松散的微博語料而言,依然面臨著嚴(yán)峻的挑戰(zhàn)。如何構(gòu)建更好的檢測模型,提高微博話題發(fā)現(xiàn)的精度,可能成為目前研究的一個方向。