王路路,鄭濤,程倩倩,姬東鴻
武漢大學(xué)計算機(jī)學(xué)院,武漢 430072
基于語義共現(xiàn)圖的中文微博新聞話題識別
王路路,鄭濤,程倩倩,姬東鴻
武漢大學(xué)計算機(jī)學(xué)院,武漢 430072
提出一種在大規(guī)模微博短文本數(shù)據(jù)集中自動發(fā)現(xiàn)新聞話題的方法。該方法在微博數(shù)據(jù)預(yù)處理之后,綜合TF-IDF、文檔頻率增長率和命名實體識別等幾個因素抽取微博數(shù)據(jù)中的主題詞。根據(jù)主題詞之間的語義關(guān)系來構(gòu)建主題詞的語義共現(xiàn)圖,計算出語義共現(xiàn)圖的連通子圖,把每個不連通的簇集看成一個新聞話題。在新浪微博數(shù)據(jù)集上進(jìn)行實驗,實現(xiàn)了對微博中新聞話題的識別。該方法能較好檢測出當(dāng)前時間的熱門話題,能夠在一定程度上有效地避免錯誤傳播,實驗結(jié)果驗證了該方法的有效性。
微博;主題詞;語義共現(xiàn)圖;新聞話題識別
微博客(微博)是一個基于用戶關(guān)系的信息分享、傳播及其獲取平臺。用戶可以通過Web、Wap以及各種客戶端組建個人社區(qū),以140字左右的文字更新信息,并實現(xiàn)及時分享。隨著互聯(lián)網(wǎng)的快速發(fā)展,微博改變了人們獲取信息的方式,能夠讓普通網(wǎng)民更快更準(zhǔn)確地了解當(dāng)前的社會動態(tài)。如何從海量微博數(shù)據(jù)中檢測出當(dāng)前的熱門新聞話題,對于輿情監(jiān)控、民意調(diào)查、行業(yè)調(diào)研等都有著十分重要的意義。
微博具有傳播快、數(shù)量大、語言簡練等特點,對輿情分析提出了更高的要求。如何對微博文本進(jìn)行分析、聚類,是發(fā)現(xiàn)熱點話題的關(guān)鍵,很多研究者在這方面做了嘗試:閆瑞等[1]提出了一種面向短文本的動態(tài)組合分類算法,獲得了較好的準(zhǔn)確率和召回率。彭澤映等[2]提出了一種大規(guī)模短文本的不完全聚類算法,可以有效地提高短文本的聚類性能。Liu等[3]提出了一種基于part-ofspeech和How Net的方法來擴(kuò)展詞匯的詞義特征,增加文本特征向量的維度,進(jìn)而改進(jìn)聚類效果。王樂等[4]針對即時短語消息關(guān)鍵詞數(shù)量少甚至是隱藏的這一特性,提出了WR-KMeans短語消息聚類方法。
微博短文本用詞精煉,敘事簡潔,傳統(tǒng)的基于詞共現(xiàn)的聚類算法[5-8]忽視了微博的語義關(guān)系,不能達(dá)到很好的聚類效果,從而難以識別出微博中描述的熱門話題。鑒于微博文本的短小和主題詞分布的稀疏性,基于模型的話題識別方法[9-12]訓(xùn)練周期較長、數(shù)據(jù)標(biāo)注困難,很難達(dá)到滿意的準(zhǔn)確率。如何計算微博之間的語義關(guān)系,對微博文本進(jìn)行語義層面的聚類,是微博話題識別的一個大膽嘗試。例如,有如下兩條微博:
(1)噢,本來我工資不高,可這個月餅貴,所以我繳納了月餅稅~
(2)中秋將至,不少單位把月餅當(dāng)做福利發(fā)給員工。今日,地稅部門也接到市民電話咨詢企業(yè)發(fā)放月餅及其代金券給員工,應(yīng)該如何代扣個人所得稅。
上述兩條微博相似度較高,因此可以將之劃分為同一類別。但是從字符串角度判斷除了共有的一個詞“月餅”,很難判斷兩條微博屬于同一類別。
在實驗過程中,還發(fā)現(xiàn)傳統(tǒng)的基于詞共現(xiàn)的聚類算法很容易導(dǎo)致“錯誤傳播”。例如,一個微博話題描述“章子怡出席電影節(jié)”,其相關(guān)的主題詞為:[章子怡、上海、電影節(jié)、紅毯];另一個微博話題描述“章子怡和汪峰密戀”,其相關(guān)的主題詞為:[章子怡、汪峰、紐約、酒店、密戀]。由于詞“章子怡”在兩個話題中出現(xiàn)的頻率都很高,基于詞共現(xiàn)的聚類算法很難區(qū)分這兩個微博話題。
針對微博數(shù)據(jù)稀疏性、實時性、不規(guī)范性的特點,本文提出了一種語義共現(xiàn)圖模型。首先將微博短文本按照特定的時間窗口進(jìn)行劃分,綜合TF-IDF,主題詞文檔頻率增長率和命名實體等因素,來提取主題詞。然后構(gòu)建了一個語義集合,把微博主題詞進(jìn)行語義層面的聚類,從而識別出新聞話題。實驗表明,本文中的方法能夠降低“錯誤傳播”發(fā)生的概率,比較準(zhǔn)確地識別新聞話題。
2.1 方法思想和基本框架
從大規(guī)模的短文本微博客中識別新聞話題,需要克服兩個難點:(1)如何從短文本中提取有效的能直接反映話題內(nèi)容的主題詞;(2)如何對主題詞準(zhǔn)確聚類,以便發(fā)現(xiàn)新聞話題。
本文提出的方法框架可以用圖1來表示。
圖1 微博中發(fā)現(xiàn)新聞話題的整體框架圖
下面將依次介紹上面提出的3個步驟。
2.2 數(shù)據(jù)預(yù)處理
在進(jìn)行主題詞抽取之前,首先用中科院張華平等開發(fā)的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[13]的分詞工具進(jìn)行分詞,然后進(jìn)行詞性過濾、停用詞過濾等。預(yù)處理之后便可對得到的文本數(shù)據(jù)抽取主題詞。預(yù)處理的過程如圖2所示。
圖2 預(yù)處理過程
2.3 主題詞的抽取
(1)TF-IDF
一個與話題相關(guān)的主題詞,相對于其他詞匯,通常是非常熱門的,即主題詞出現(xiàn)的頻率相對較高。TF-IDF是一種統(tǒng)計方法,用于評估一字詞對于一個文件集或者一個語料庫中的其中一份文件的重要度。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。在微博數(shù)據(jù)集中TF可以衡量該微博描述新聞話題的廣泛性,而IDF可以衡量其典型性。本文中采用歸一化的TF-IDF函數(shù),將一個詞對新聞話題識別貢獻(xiàn)度進(jìn)行量化:
式中,Tij是詞匯i相對于文檔j的TF-IDF值,fij是詞匯i在j時間窗口的頻率,Docnumber是文檔數(shù)目,這里指有效的微博條數(shù)。dfij表示詞匯i在j時間窗口的文檔頻率。M為文檔j中包含的詞語個數(shù)。
(2)文檔頻率的增長率
一個與話題相關(guān)的詞,在某個時間窗口內(nèi)出現(xiàn)的頻次會明顯增加,即主題詞在某個窗口內(nèi)相對于其之前窗口的頻次明顯增多。這種詞頻的變化率在一定程度上意味著它和當(dāng)前一些比較新的新聞話題關(guān)聯(lián)。文檔頻率增長率能夠客觀衡量主題詞的典型性,因此本文使用文檔頻率增長率進(jìn)行量化。
式中,Gij表示詞匯i在j時間窗口內(nèi)文檔頻率增加率,dfij表示詞匯i在j時間窗口內(nèi)的文檔頻率。
對微博數(shù)據(jù)進(jìn)行分詞,詞性過濾,詞頻過濾,命名實體標(biāo)注等預(yù)處理之后,有選擇地留下有意義的動詞和名詞,并對名詞進(jìn)行更細(xì)粒度的劃分為時間、地點、人物、機(jī)構(gòu)等,在此基礎(chǔ)上考察TF-IDF和詞頻增加率兩個方面的復(fù)合權(quán)值來評價一個特征詞的權(quán)重W:
式中,Wij值表示特征詞的權(quán)重,權(quán)重越大說明該詞匯是主題詞的概率越大;λ參數(shù)用來調(diào)節(jié)TF-IDF和詞頻增加率的比重關(guān)系。TF-IDF主要用來控制主題詞匯的廣泛性,文檔頻率增加率主要用來調(diào)節(jié)主題詞匯的典型性。
對每個時間窗口內(nèi)的詞計算其Wij值,按照閾值T選取出其中權(quán)值最大的特征詞得到一個主題詞表。根據(jù)主題詞表,就可以對這些主題詞進(jìn)行語義共現(xiàn)分析來構(gòu)建語義共現(xiàn)圖,進(jìn)而實現(xiàn)新聞話題識別。
2.4 微博新聞話題識別
2.4.1 主題詞共現(xiàn)圖的構(gòu)建
詞的共現(xiàn)分析是自然語言處理技術(shù)在信息檢索領(lǐng)域的成功應(yīng)用之一,它的核心思想是詞與詞之間的共現(xiàn)頻率在某種程度上反映了詞與詞之間的語義關(guān)聯(lián)。為了從理論上進(jìn)一步地闡述詞共現(xiàn)理論在微博新聞話題識別的原理,給出了下面的定義。
定義1詞匯x與詞匯y的共現(xiàn)度定義如下:
故有C(x,y)=C(y,x)。式中,f(x,y)為單位時間段窗口內(nèi)詞x與詞y在同一條微博中共同出現(xiàn)的次數(shù)。f(x)為詞x在單位時間段窗口內(nèi)出現(xiàn)的次數(shù)。
按照詞共現(xiàn)原理,當(dāng)2個主題詞經(jīng)常出現(xiàn)在同一條微博中,則可以認(rèn)為這兩個主題詞在意義上相互關(guān)聯(lián),表述同一個潛在的主題信息。計算每一對主題詞之間的共現(xiàn)度,得到一個詞共現(xiàn)度矩陣M:
式中,keyi表示由主題詞抽取算法抽取的第i個主題詞。C(keyi,keyj)是由公式(2)計算得到的主題詞的共現(xiàn)度。
考慮微博語義層面的相似度,計算任意兩個主題詞的語義相似度,得到主題詞語義相似度矩陣N:
式中,keyi表示由主題詞抽取算法抽取的第i個主題詞。S(keyi,keyj)是由參考文獻(xiàn)[16]的語義計算公式計算得到的主題詞的語義相似度。
2.4.2 微博新聞話題識別
為了提升主題詞聚類的效果,進(jìn)而引入集合的概念。為此把矩陣M、N每行均按照公式(5)做歸一化處理得到矩陣M',N'。
其中Yij為歸一化之后的值,Xij為矩陣M和N中的元素第i行和第j列的元素,mini、maxi分別為矩陣M和N中第i行的最小值和最大值。
在聚類之前,根據(jù)矩陣M'和N'為每一個主題詞抽取了共現(xiàn)度最高的k個詞構(gòu)成該主題詞的候選語義集合,標(biāo)記為KEYi={ki1,ki2,…,kik}。k值的大小直接影響主題詞聚類的效果,從而調(diào)控“錯誤傳播”發(fā)生的概率。k值過大會造成本來不屬于同一語義集合的詞匯信息也融入到計算中,會使實驗結(jié)果產(chǎn)生一定的偏差;k值太小會漏掉同一語義集合中詞匯的信息,從而造成實驗結(jié)果精度缺失。k值由實驗調(diào)參得到,本文中取k為4。
為描述方便,引入如下公式:
其中,Sim1描述兩個語義集合詞詞素共現(xiàn)的信息,Sim2描述兩個語義集合語義層面共現(xiàn)的信息。
語義集合更直觀、準(zhǔn)確地反映了兩個主題詞匯之間的語義關(guān)系,在本文中使用如下公式對主題詞進(jìn)行聚類:
即,第i個主題詞應(yīng)該歸入使上式最大化的主題詞j的集合KEYj。
最后根據(jù)矩陣M'和N',把同一語義集合內(nèi)的主題詞之間連邊,并把孤立點去除之后得到語義共現(xiàn)圖。共現(xiàn)圖中可能包含多個簇,也就意味著該時間窗口中包含多個熱點話題,簇的大小也直觀地反映了該話題的熱度。
本文提出的算法不是單純地考慮兩個主題詞之間的共現(xiàn)度,而是對微博進(jìn)行了語義計算,從而構(gòu)建語義共現(xiàn)圖。實驗證明,本文采用的方法能夠有效地降低“錯誤傳播”的風(fēng)險,提升主題詞匯聚類的正確率。
3.1 數(shù)據(jù)準(zhǔn)備
為了本文的研究,使用由武漢大學(xué)自然語言處理實驗室共享的新浪微博話題檢測數(shù)據(jù)集。該數(shù)據(jù)集包括2013年4月16日到2013年4月24日,共9天約150萬條的實時微博數(shù)據(jù)。除去停用詞之后,將長度小于5的微博刪除,剩下的微博作為有效的微博。有效微博的分布情況如圖3。
圖3 有效微博文本分布圖
3.2 評測主題詞的抽取
為了評估主題詞的抽取效果,把2013-04-16到2013-04-24共9天的微博數(shù)據(jù)分成了9組(以天為單位),對該時間段內(nèi)的微博數(shù)據(jù)進(jìn)行人工標(biāo)注。該時間段內(nèi)微博熱議的主要新聞話題有“復(fù)旦投毒案”、“波士頓爆炸”、“黃金暴跌”、“雅安地震”等事件。對每個時間窗口中的數(shù)據(jù)按照前面所述的主題詞抽取算法進(jìn)行主題詞抽取,考慮到每天新聞話題的數(shù)量及其主題詞的分布,實驗中設(shè)定閾值T為100,即權(quán)重最高的100個詞作為主題詞。為了評估主題詞抽取的質(zhì)量,人工計算該100個主題詞與當(dāng)前標(biāo)注的新聞話題相關(guān)的主題詞數(shù),最后求平均值。實驗中λ依次從0.1取到0.9,比較λ對相關(guān)主題詞數(shù)的影響,如圖4所示。
圖4 λ對相關(guān)主題詞的影響
實驗表明,當(dāng)λ取0.4時,主題詞的抽取效果達(dá)到最佳,此時前100個主題詞中有64個是相關(guān)主題詞。
3.3 評測話題識別
為了評估主題詞聚類的效果,選取了若干熱門話題,u依次從0.1取到0.9,比較u對這些話題相關(guān)主題詞數(shù)的影響,如圖5所示。實驗表明,當(dāng)u取0.6時,主題詞的聚類效果達(dá)到最佳。
圖5 u對話題質(zhì)量的影響
圖6給出了本文方法抽取的4月26日的熱門話題,可以看出,本文方法不僅檢測出了熱門的新聞話題,“黃金暴跌”、“國防部公布海陸空力量”這樣的新聞話題也被檢測出來,這說明本文的方法具備一定的靈敏性,能夠識別出盡可能多的新聞話題。
圖6 主題詞共現(xiàn)圖
表1是若干天的實驗結(jié)果(僅列出最熱門的一個話題)。從實驗結(jié)果中可以看出,使用詞共現(xiàn)方法檢測的話題“波士頓爆炸”和“雅安地震”都存在“錯誤傳播”。原因是波士頓爆炸期間襄樊某地發(fā)生了火災(zāi),爆炸案和火災(zāi)二者詞共現(xiàn)的頻率較高,但是二者沒有語義上的關(guān)聯(lián)?!把虐驳卣稹痹掝}的錯誤傳播是由于巴基斯坦和雅安先后發(fā)生過地震,而二者屬于兩個不同的熱門話題。從對比實驗可以看出,本文提出的基于語義共現(xiàn)的方法在一定程度上解決了“錯誤傳播”的問題,抽取出來的話題的質(zhì)量更高。
表1 若干天的熱門話題
微博熱點新聞話題的識別研究有著重要的應(yīng)用背景,本文提出了一種基于語義共現(xiàn)圖的微博新聞話題識別的方法。該方法通過預(yù)處理、抽取主題詞、構(gòu)建語義共現(xiàn)圖等步驟來識別微博新聞話題。實驗結(jié)果證明了本文方法的有效性、靈敏性。本文充分利用了微博主題詞之間的語義關(guān)系,從而能夠在一定程度上避免“錯誤傳播”,較準(zhǔn)確地區(qū)分出當(dāng)前的熱門話題。
本文仍有可以改進(jìn)之處。一方面,分詞破壞了詞之間的語義關(guān)系,尤其對于微博這樣的短文本。避開分詞,直接提取短語或者詞串能夠更直觀地反應(yīng)一個新聞話題。另一方面本文只考慮了新浪微博一個數(shù)據(jù)源,而熱門的新聞話題往往廣泛分布在不同的數(shù)據(jù)源中(比如騰訊微博、網(wǎng)易微博等)。整合多個數(shù)據(jù)源的信息,進(jìn)而進(jìn)行熱門話題的識別能夠保證話題的廣泛性和公正性,也是將來工作的方向。
[1]閆瑞,曹先彬,李凱.面向短文本的動態(tài)組合分類算法[J].電子學(xué)報,2009,37(5):1019-1024.
[2]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報,2011,25(1):54-59.
[3]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short text feature selection for microblog mining[C]//The 4th International Conference on Computational Intelligence and Software Engineer,Wuhan,China,2010:1-4.
[4]王樂,田李,賈焰,等.擴(kuò)展向量空間上的短語消息聚類[J].計算機(jī)研究與發(fā)展,2007(2).
[5]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國信息檢索學(xué)術(shù)會議論文集.北京:中國中文信息學(xué)會,2010.
[6]Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property[J]. Journal of Networks,2013,8(4):917-923.
[7]Sun Q,Wang Q,Qiao H.The algorithm of short message hot topic detection based on feature association[J]. Information Technology Journal,2009,8:236-240.
[8]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機(jī)科學(xué),2012,39(1):138-141.
[9]周振宇.基于LDA的微博與傳統(tǒng)媒體的話題對比研究[D].上海:上海交通大學(xué),2013.
[10]聶恩倫,陳黎,王亞強(qiáng),等.基于K近鄰的新話題熱度預(yù)測算法[J].計算機(jī)科學(xué),2012,39(S6):257-260.
[11]趙愛華.面向網(wǎng)絡(luò)新聞的話題檢測技術(shù)研究[D].濟(jì)南:山東師范大學(xué),2013.
[12]林雪能,陳光,朱帥,等.基于語義框架的新聞話題檢測[EB/OL].(2012-12-27).http://www.paper.edu.cn/releasepaper/content/201212-1055.
[13]張華平,劉群.計算所漢語詞法分析系統(tǒng)ICTCLAS[EB/OL].(2010-08-25).http://www.nlp.org.cn/project/project.php.
[14]Wartena C,Brussee R.Topic detection by clustering keywords[C]//19th International Workshop on Database and Expert Systems Application,2008:54-58.
[15]Chen K Y,Luesukprasert L,Chou S.Hot topic extraction based on timeline analysis and multidimensional sentence modeling[J].IEEE Transactions on Know ledge and Data Engineering,2007,19(8):1016-1025.
[16]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學(xué),2002,7(2):59-76.
WANG Lulu,ZHENG Tao,CHENG Qianqian,JI Donghong
School of Computer,Wuhan University,Wuhan 430072,China
A method of new s topics detection from large-scale short posts of microblogs is proposed.The TF-IDF,the document frequency increase rate and the named entity recognition are considered to extract new keywords from microblogs after pretreatment.A semantic co-occurrence graph is build by co-occurrence degrees of keywords,each unconnected cluster in a semantic co-occurrence graph is taken as a new s topic.Experiments are taken on Sina microblogs data sets and the experimental results show the proposed method works well.
microblog;keywords;semantic co-occurrence graph;new s topic detection
WANG Lu lu,ZHENG Tao,CHENG Qianqian,et al.Discovering new s topics from microb logs based on semantic co-occurrence.Computer Engineering and Applications,2014,50(17):150-154.
A
TP391.1
10.3778/j.issn.1002-8331.1312-0102
國家自然科學(xué)基金重點項目(No.61133012);國家自然科學(xué)基金面上項目(No.61173062)。
王路路(1989—),男,碩士生,研究領(lǐng)域為社交網(wǎng)絡(luò)數(shù)據(jù)挖掘、個性化推薦等;鄭濤(1992—),男,碩士生,研究領(lǐng)域為信息檢索等;程倩倩(1989—),男,碩士生,研究領(lǐng)域為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等;姬東鴻(1968—),男,博士,博士生導(dǎo)師,研究領(lǐng)域為自然語言處理、語義網(wǎng)技術(shù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。E-mail:wang_uu89@163.com
2013-12-09
2014-01-07
1002-8331(2014)17-0150-05
能夠準(zhǔn)確地描述一個新聞話題,主題詞的抽取效果直接影響著新聞話題識別的效果。根據(jù)文獻(xiàn)[14-15],一般新聞話題中的主題詞有兩個重要的特性:(1)廣泛性,一個話題的出現(xiàn)的短期內(nèi),會引起大量的關(guān)注,從而與該話題相關(guān)的主題詞將廣泛分布在微博中;(2)典型性,新聞話題一般內(nèi)容新穎,之前很少出現(xiàn)相似的內(nèi)容,在某個特定時間段內(nèi)忽然出現(xiàn)。本文把TF-IDF和文檔頻率增長率作為抽取主題詞的2個主要影響因素。