李方馨 李成城
摘要:微博已經成為廣大用戶發(fā)布和獲取信息的重要渠道之一,微博平臺上集聚著大量的用戶群體和文本信息資源,如何從大量的微博信息中準確、有效獲取微博事件關鍵內容至關重要。提出一種基于VSM和LDA主題模型相結合的方法,對微博文本生成自動文摘。實驗結果表明,該方法能夠比較準確地抽取微博文本的文摘內容,從而實現用戶對實時消息的搜索。
關鍵詞:LDA主題模型;中文微博;自動文摘;VSM
DOIDOI:10.11907/rjdk.161596
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2016)005-0160-03
0 引言
隨著互聯網的普及和計算機信息技術的高速發(fā)展,社交網絡平臺迅速興起,并逐漸滲透到社會各用戶群體,極大提高了人們交流的頻率。如今,微博已經成為廣大用戶發(fā)布和獲取信息的重要渠道之一,微博平臺上集聚著大量的用戶群體和文本信息資源。研究如何從大量微博文本中快速、準確找到他們感興趣的內容具有重要意義[1]。
1 微博的文本特性
本文以新浪微博的文本內容作為背景語料進行話題文摘研究,其主要特征有:①篇幅短小,信息量小。每條微博輸入文本的字符數限定在140個字符以內,微博所表達的信息量有限;②數據類型多,包含大量噪聲。微博上內容包含文本、圖片、視頻、表情、網絡用語和超鏈接等,由于用戶在平臺上的表達以快捷、及時為主,因而文本的精確性不高,包含縮寫、不規(guī)范詞匯、錯誤詞匯等多種噪音數據[2];③傳播速度快,實時性強。微博文本的更新速度與傳播速度很快,一條有價值的消息被公布之后,往往會在很短的時間內被大量轉發(fā)。
2 相關工作
2.1 語料獲取及預處理
本實驗選用新浪微博的文本數據作為實驗語料。通過新浪微博開放平臺的API接口獲取微博文本數據,實現微博數據自動爬取。
由于微博文本字數少,大多微博是一個句子或者一個短語。這就導致文本處理時的數據稀疏問題。所以,在預處理階段首先去除微博長度小于20字的內容;其次,根據正則表達式,除去內容中含有視頻和語音的超鏈接;最后過濾掉“@”及后面的用戶名部分。通過中國科學院的漢語詞法分析系統ICTCLAS進行中文分詞。按照停用詞表中的詞語將語料中對文本內容識別意義不大但出現頻率很高的詞、符號、標點、副詞、助詞等頻度高的詞及亂碼等去掉。在已有停用詞表的基礎上,統計微博中出現頻率過高且無意義的詞語和符號,如“轉發(fā)”等,構建出適用于中文微博文本的停用詞表,對中文分詞后的詞語進行停用詞過濾。
2.2 基于向量空間模型的微博文本建模
3 LDA主題模型介紹
LDA(Latent Dirichlet Allocation)主題模型由Blei提出,是一個針對離散數據集建模的主題生成模型,用一個服從Dirichlet分布的K維隱含隨機變量表示文檔話題混合比例,模擬文檔產生過程,通過變分方法推斷話題隱變量[4]。
LDA模型是一個三層貝葉斯網絡結構的有向概率圖模型,分別為詞層、主題層和文檔層。它將每個文檔表示為一個主題混合,每個主題是固定詞匯表上的一個多項式分布。首先,假設文檔與文檔之間順序無關,文檔中單詞與單詞之間順序無關,僅考慮文本的詞頻,而不考慮單詞在文本中出現的先后順序及其約束關系。然后,根據單詞在文檔中的分布建立文檔單詞矩陣,再將該矩陣分解為文檔主題與主題單詞矩陣,相應的單詞即會聚類到特定的主題中去。通過對LDA模型中參數的調節(jié),可以使特定的單詞分配到對應的主題[5]。
LDA的概率模型圖如圖1所示。其中,θm表示第m篇文檔的主題分布;zm,n表示第m篇文檔的第n個單詞的主題編號;φk表示主題編號為k時的單詞分布;wm,n表示第m篇文檔的第n個單詞;α和β分別為θm和φk的先驗參數;K表示主題個數,M表示文檔篇數。
4 微博文摘句抽取
在生成微博文摘時,考慮多種因素衡量句子的權重值,如主題重要度、句子中含有的關鍵詞覆蓋度、句子詞頻、句子長度、評論數和轉發(fā)數等。
4.1 主題重要度
在微博文本中,敘述一件事或描述一個事物時,都會圍繞一個中心主題,同時每一條微博文本會從不同的角度來介紹與主題背景相關方面的內容。根據句子的LDA主題特征,考慮句子主題與抽取到的微博話題的相似度。
4.2 句子中含有的關鍵詞覆蓋度
句子中出現關鍵詞的次數越多,則進一步說明該句子的重要性也就越大。所以它也將有一定的優(yōu)先權被選入到文摘句子當中。
4.3 句子長度
5 實驗與結果分析
實驗選用新浪微博的文本數據作為實驗語料,經過預處理最終得到的中文微博語料,選定5 625條微博數據,分為訓練數據3 612條和測試數據1 013條。將VSM和LDA主題模型相結合,對中文微博短文本進行劃分類簇。通過對微博的文本分類進行挖掘,構建特征句子中特征詞文檔和詞頻文檔。設置Gibbs采樣的主題數目為6,迭代次數初始值設為100進行反復迭代,得到主題和關鍵詞概率如表1所示。
從實驗結果可以看出存在6個潛在主題。根據各個主題的高頻關鍵詞可以看出6個主題分別是經濟、體育、軍事、旅游、健康和教育。由此可見,基于LDA主題模型挖掘得到的主題和關鍵詞不僅準確率較高,而且各個主題之間的獨立性強,很容易根據關鍵詞得出相關主題。
模型中存在3個可變量:超參數α和β,以及主題個數K值。令α=50/K,β=0.01,迭代次數均為2 000次。在本實驗環(huán)境下,經過不同主題數進行多次實驗,得出:當主題數K=50時,聚類效果最佳,F值達到最高。抽取到的熱門話題語句如表2所示。
實驗結果表明,在中文微博語料中生成文摘,相對于單獨使用空間向量模型VSM或LDA模型生成微博文摘,VSM和LDA模型的恰當結合可以明顯地提高效果。對比空間向量VSM模型,準確率、召回率、F值分別提高了6.9%、11%、9.07%;對比LDA主題模型,分別提高了3.3%、4.1%、3.71%。實驗結果如表3所示。
實驗證明,VSM和LDA主題模型相結合的方法,能夠比較準確地抽取微博文本的文摘內容,進一步挖掘主題和關鍵詞,從而實現用戶對實時消息的搜索。
6 結語
本文提出一種中文微博自動文摘方法,在LDA模型的基礎上,提出了LDA和VSM結合的自動摘要算法,同時考慮句子特征和由重要主題產生的句子的LDA特征,從而提高摘要的準確率。后續(xù)將研究如何利用重要主題自動確定LDA模型的主題個數。
參考文獻:
[1]李志清.基于LDA主題特征的微博轉發(fā)預測[J].情報雜志,2015(9):158-162.
[2]文坤梅,徐帥,李瑞軒.微博及中文微博信息處理研究綜述[J].中文信息學報,2012,26(6):27-37.
[3]SHARIFI B,HUTTON M, KALITA J.Experiments in microblog summarization[C].Washington, DC: IEEE Computer Society,2010.
[4]鄭影,李大輝.面向微博內容的信息抽取模型研究[J].計算機科學,2014(2):270-275.
[5]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發(fā)現與排序方法[J].計算機研究與發(fā)展,2013(1):179-185.
(責任編輯:陳福時)