高永兵,張貴娟,胡文江,馬占飛
GAO Yongbing1,ZHANG Guijuan1,HU Wenjiang1,MAZhanfei2
1.內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭 014010
2.包頭師范學(xué)院 計算機(jī)系,內(nèi)蒙古 包頭 014010
1.School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou,Inner Mongolia 014010,China
2.Department of Computer,Baotou Teachers College,Baotou,Inner Mongolia 014010,China
隨著大量組織機(jī)構(gòu)平臺微博的開通,官方微博開始進(jìn)入人們的視野,官方微博是經(jīng)過官方認(rèn)證后的微博,即真實性已通過驗證。其博文信息不但具有權(quán)威性、組織性、真實性,而且還具有地區(qū)性。通過觀察發(fā)現(xiàn)官方微博中包含地區(qū)性相關(guān)事件的微博數(shù)據(jù)量很多,用戶想從中獲取有價值的地區(qū)事件信息,逐條閱讀微博數(shù)據(jù)造成時間浪費,若針對官方微博中的地區(qū)微博進(jìn)行聚類形成事件摘要,將大大提高用戶獲取地區(qū)事件信息的效率,且地區(qū)官方微博數(shù)據(jù)很容易從新浪微博提供的應(yīng)用程序接口(Application Programming Interface,API)中爬取,因此對地區(qū)官方微博數(shù)據(jù)進(jìn)行自動摘要技術(shù)研究具有重要意義。目前針對地區(qū)官方微博摘要研究還很少,地區(qū)官方微博在形成摘要時有如下挑戰(zhàn):(1)地名別稱及地區(qū)不同層級劃分;(2)混雜了除本地區(qū)外的事件信息;(3)地區(qū)標(biāo)簽屬性突顯等特征,因此進(jìn)行事件摘要時要充分考慮這些特征。
例如張家口地區(qū)官方微博的3條博文信息:
W1:#河北張家口涿鹿縣3.2級地震#…張垣涿鹿縣發(fā)生3.2級地震,震源深度15千米…。
W2:#地震快訊#…廣州省汕尾市陸豐市…發(fā)生3.8級地震,震源深度16千米…。
W3:#涿鹿縣地震 北京多地有震感#…河北省張家口市涿鹿縣發(fā)生3.2級地震。多名北京網(wǎng)友表示石景山、門頭溝有震感… 。
從以上例子可以看出張家口地區(qū)微博信息中有廣州省汕尾市陸豐市地震事件信息,當(dāng)進(jìn)行事件聚類時,可能將與本地區(qū)的地震事件聚類一起提取出來。同時張家口地區(qū)微博信息中存在著地區(qū)別稱(如:張家口別稱張垣)和地區(qū)不同層級劃分(如:張家口下的涿鹿縣)的特征。此外還存在相似事件或同一個事件所強(qiáng)調(diào)突出的不同如何進(jìn)行描述的選擇(如涿鹿縣地震、北京多地有震感),這需要進(jìn)一步從微博的社會特征、地區(qū)標(biāo)簽屬性上來判斷。因此如何將不是本地區(qū)事件信息過濾掉提取出重要的不同層級的本地區(qū)事件摘要信息是本文的重點。
針對微博的事件聚類的研究,目前國內(nèi)外也已經(jīng)取得了很多成果。如下:童薇等[1]提出了基于主題模型的微博事件檢測方法,充分利用了數(shù)據(jù)語義相似度、時序相似度和社交關(guān)系相似度。Long Rui等[2]提出了4個基準(zhǔn)選取話題關(guān)鍵字,從而建立圖模型進(jìn)行聚類。Phuvipadawat S等[3]提出了基于命名實體加權(quán)的改進(jìn)TF-IDF(Term Frequency-Inverse Document Frequency,詞頻和逆向文件頻率)方法。Weng Jianshu等[4]提出了一種基于小波分析的圖模型。而Sakaki T等[5]提出了基于概率的時空模型來提取主題事件。以上所述主要針對是公眾微博的聚類,并沒有考慮地區(qū)別稱特征,對于語義上相關(guān)、相同地區(qū)的微博內(nèi)容聚類效果不好。
聚類是幫助用戶在浩如煙海的微博數(shù)據(jù)中快速、有效地找出有價值的事件,但針對事件的詳細(xì)信息,需要進(jìn)一步研究形成事件摘要,即聚類是事件摘要的一個前提,它們之間有著密切的聯(lián)系。
目前關(guān)于自動摘要技術(shù)的研究,大多數(shù)主要關(guān)注如何選取句子,比較有代表性的研究如下:Sharifi B等[6-7]提出面對微博自動摘要Hybrid TF-IDF和詞語加強(qiáng)方法。Wang Peng等[8]使用隱馬爾科夫模型描述事件的發(fā)展過程從而對該事件進(jìn)行摘要。Duan Yajuan等[9]提出了使用相互增強(qiáng)式圖模型同時考慮文本內(nèi)容、作者社會影響力對文本質(zhì)量的影響,抽取高質(zhì)量的摘要。彭敏等[10]提出了基于時頻轉(zhuǎn)換的信息提取方法,獲得高質(zhì)量的微博摘要。以上所述都是針對公眾微博進(jìn)行研究的,對于微博中的地區(qū)層次區(qū)別并沒有考慮。
為此,本文針對地區(qū)官方微博數(shù)據(jù),提出了一種基于后綴樹算法的地區(qū)微博摘要技術(shù)研究。充分考慮地區(qū)微博的特征,首先把地區(qū)微博數(shù)據(jù)進(jìn)行預(yù)處理,將不是本地區(qū)的微博信息過濾掉,并應(yīng)用知網(wǎng)HowNet[11-12]、地區(qū)權(quán)值樹,進(jìn)行語義相似度及地名替換,使其更好地實現(xiàn)事件聚類;然后,應(yīng)用后綴樹聚類(Suffix Tree Clustering,STC)方法、奇異值分解(Singular Value Decomposition,SVD)來進(jìn)行事件聚類;最后,對地區(qū)微博計算標(biāo)簽屬性、地區(qū)名稱、社會特征的權(quán)值得分,選取權(quán)值較高的微博句子作為事件摘要。
本文第2章介紹針對本文地區(qū)微博中地區(qū)別稱、地區(qū)不同層級區(qū)分問題提出的地區(qū)權(quán)值樹,第3章介紹本文事件聚類算法,第4章介紹本文進(jìn)行提取事件摘要的方法,第5章介紹實驗過程及對實驗結(jié)果進(jìn)行的分析,最后對工作進(jìn)行總結(jié)展望。
本文的研究目標(biāo)是從地區(qū)歷史微博中挖掘出與本地區(qū)相關(guān)的重要事件。而對于本地區(qū)這個名詞存在著地區(qū)別稱、地區(qū)不同層級區(qū)分問題,因此本文綜合地區(qū)微博的特征提出了應(yīng)用地區(qū)權(quán)值樹來解決以上兩個問題。
定義1(地區(qū)權(quán)值樹)根據(jù)地區(qū)不同層級建立的一棵樹,最高級別的地區(qū)名稱為根節(jié)點,其下的子樹為其下一級別地區(qū)名稱節(jié)點,并以此類推。并且樹中的節(jié)點包含地區(qū)別稱和地區(qū)不同層級的權(quán)值。
地區(qū)權(quán)值為了能夠區(qū)分用戶主要想了解的地區(qū)事件。某地區(qū)微博中也包括了其所屬省及其下許多縣鄉(xiāng)等事件信息,如何區(qū)別主次事件信息,需要地區(qū)權(quán)值樹中的權(quán)值設(shè)定來區(qū)分。
如:主要想了解張家口地區(qū)近兩年的事件信息時,出現(xiàn)張家口下縣鄉(xiāng)的事件信息,把張家口的權(quán)值以某種緩慢遞減的方式賦給縣鄉(xiāng),出現(xiàn)河北省的事件信息時,把張家口的地區(qū)權(quán)值以某種快速遞減的方式賦給河北省,并以此類推,這樣保證提取出的事件信息與張家口市最大相關(guān)。
地區(qū)別稱為了解決地區(qū)微博中出現(xiàn)的地區(qū)名稱不統(tǒng)一的情況,同時為了得到更好、更精準(zhǔn)的事件聚類信息,所以本文選擇在進(jìn)行事件聚類之前應(yīng)用地區(qū)權(quán)值樹將地區(qū)名稱統(tǒng)一。
如:河北-冀,張家口-張垣、山城等。
如圖1所示為河北省地區(qū)權(quán)值樹。
圖1 河北省地區(qū)權(quán)值樹圖
在進(jìn)行好數(shù)據(jù)預(yù)處理(去除本地區(qū)外的事件信息和地區(qū)別稱、語義相似度替換)之后,本文針對事件聚類首先采用STC算法發(fā)現(xiàn)頻繁短詞束,并通過SVD提取抽象概念和聚類標(biāo)簽,最后應(yīng)用Jaccard[13]相似系數(shù)進(jìn)行聚類合并。這個部分分為:后綴樹建立、基本類選取、聚類標(biāo)簽選取、聚類合并。
STC算法是一種直觀的聚類算法,它將文本聚類為一組的依據(jù)是文本含有共同的短語。實際上是將文本看成詞的序列,充分利用了詞與詞之間的距離信息,在尋找文本共同的最大短語的過程中使用了后綴樹這種數(shù)據(jù)結(jié)構(gòu),其聚類效果很好。
后綴樹的特征:后綴樹中的每一個內(nèi)部節(jié)點v都代表著一組文檔,并且從根節(jié)點到該內(nèi)部節(jié)點vp的標(biāo)識為這組文檔所共享的短語。所有從v開始的節(jié)點對應(yīng)的葉子都是字符串vp的后綴,所以包含vp的文檔集能由這些葉子的標(biāo)志信息得到。
因此,可以利用后綴樹的特征快速獲得最大短語束。
如下是針對張家口地區(qū)“2022年冬奧會”事件進(jìn)行建立后綴樹數(shù)據(jù)結(jié)構(gòu)的例子。
首先,在對微博數(shù)據(jù)進(jìn)行預(yù)處理(其中包括語義相似度替換、地區(qū)別稱的統(tǒng)一),STC算法為每一條微博構(gòu)造所有的詞語后綴,每一條微博用D={D1,D2,…,Dn}表示。如下是4條經(jīng)過預(yù)處理后的微博信息。
D1.成功 冬奧會
D2.山城 獲得 舉辦 2022年 冬奧會(“山城”替換成“張家口”)
D3.張家口 2022年 冬奧會 主辦 城市(“主辦”替換成“舉辦”)
D4.北京 攜手 張家口 冬奧會 申辦 成功
針對微博D1到D4的后綴樹數(shù)據(jù)結(jié)構(gòu)如圖2所示。
使用后綴樹數(shù)據(jù)結(jié)構(gòu)識別基本類。在后綴樹中每一個節(jié)點代表一個基本類,框節(jié)點表示從根節(jié)點到當(dāng)前節(jié)點詞項串聯(lián)的連貫短語在哪些微博中出現(xiàn)過。從節(jié)點到節(jié)點的邊標(biāo)記的是詞語,并且這些詞語是作為聚類標(biāo)簽使用。基本類是從圖中的節(jié)點中選取,每一個節(jié)點至少包含了來自兩條不同的微博中才可以選擇作為基本類,其他形式除外。如表1所示為上述圖2進(jìn)行選取基本類的結(jié)果。
圖2 后綴樹數(shù)據(jù)結(jié)構(gòu)
針對原有的STC方法,它主要包括3個步驟:(1)文檔的準(zhǔn)備;(2)基本類的發(fā)現(xiàn);(3)基本類的合并。但是STC算法不能很好地控制重疊聚類的缺陷,并且不能去選取聚類數(shù)量。所以本文提出應(yīng)用一種改進(jìn)的聚類算法,在其構(gòu)建后綴樹結(jié)構(gòu)找到完整短語后,結(jié)合SVD產(chǎn)生候選聚類標(biāo)簽,選取更為有效的聚類標(biāo)簽,并且應(yīng)用SVD能夠選取聚類的數(shù)量。應(yīng)用SVD獲取聚類標(biāo)簽具體步驟如下:
(1)在去除重復(fù)詞語的基本類后(如表1中B、G、K,C、H,F(xiàn)、J和 D、C重復(fù)),通過計算詞項TF-IDF值建立詞項-微博矩陣 At×d;其中 A的秩 rank(A)=r。 λ1≥λ2≥…≥λr是AAT及ATA的r個非負(fù)特征值,對應(yīng)的正交特征向量分別為x1,x2,…,xt和y1,y2,…,yd。
(2)利用奇異值分解A將分解成A=USVT形式,其中矩陣U是由詞語間關(guān)系矩陣AAT導(dǎo)出的特征向量矩陣,VT是由微博文檔間關(guān)聯(lián)矩陣ATA導(dǎo)出的特征向量矩陣,S是r×r階奇異值對角矩陣,S=diag(δ1,δ2,…,δr),而 δi=√λi(i=1,2,…,r)被稱為矩陣 A的奇異值。
(3)應(yīng)用矩陣F-范數(shù)(如式(1)所示),選取適應(yīng)的k值,將S中最大的k個奇異值及其相應(yīng)的行、列保存,其他的奇異值及其相對應(yīng)的行、列刪除;再取U、V最前面的k個列向量,由此得到Ak=UkSkVTk,其中k(k<r)是降維后的概念空間的維度。
表1 基本類
其中q是一個控制集群個數(shù)的參數(shù),本文設(shè)定q的值為0.9[14]。
(4)抽象概念及短語匹配,由于特征提取過程中,無論是抽象概念還是詞組的發(fā)現(xiàn)都表示在同樣的空間即原始詞語-微博矩陣的列向量空間,因此,本文定義一個t×(p+t)的矩陣P,其中t是去除重后詞項的個數(shù),p是其短語的個數(shù),p中將詞項和短語(p+t)看作偽微博,用TD-IDF值表示其權(quán)重;然后計算M=UTkP將能產(chǎn)生所有抽象概念-詞組對的夾角余弦,然后根據(jù)M挑選出候選聚類標(biāo)簽。
(5)聚類內(nèi)容發(fā)現(xiàn),定義一個矩陣Q,其中Q中列向量是每一個聚類標(biāo)簽。計算C=QTA,得到聚類內(nèi)容的分配。其中A是原始的詞語-微博矩陣。矩陣C的元素Cij表示第 j條微博屬于第i的聚類的程度。對于每一個候選聚類標(biāo)簽,對C中元素根據(jù)聚類分配閾值進(jìn)行篩選,最后,將所有未被分類的微博文檔信息放入其他類。
為了更好地得到聚類結(jié)果,本文利用Jaccard相似系數(shù),進(jìn)一步合并聚類標(biāo)簽及相應(yīng)的聚類內(nèi)容。如式(2)所示:
其中,C_Sim(Ci,Cj)表示Ci,Cj兩個聚類之間的相似度,BN(Ci)表示Ci聚類對應(yīng)的微博編號集合;BN(Cj)表示Cj聚類對應(yīng)的微博編號集合。如果其值大于一定的閾值就將其聚類標(biāo)簽進(jìn)行合并,并將其內(nèi)容也進(jìn)行合并。
在進(jìn)行事件聚類完成之后,需要對子事件進(jìn)行摘要抽取。本文結(jié)合地區(qū)微博特征計算微博綜合得分來進(jìn)行摘要提取。進(jìn)行聚類完成后,針對每一個聚類標(biāo)簽中的內(nèi)容,首先計算每條微博句子的綜合得分,然后按照得分將每個聚類中的微博句子進(jìn)行排序,最后在每個聚類中抽取出排名前一條微博句子作為摘要。微博的綜合得分是分別計算微博地區(qū)名稱、社會特征和標(biāo)簽屬性的權(quán)值。
為了區(qū)分用戶想主要了解的地區(qū)事件,根據(jù)地區(qū)權(quán)值樹,先查找主要了解的地區(qū)名稱的權(quán)值,然后按照它的上一級別權(quán)值快遞遞減,下一級別權(quán)值緩慢遞減,并以此類推,進(jìn)行地區(qū)權(quán)值計算。主要了解的地區(qū)名稱權(quán)值如式(3)所示:
其中,lf_weight(fij)表示在第 j條微博中i地區(qū)名稱的權(quán)值,N表示進(jìn)行預(yù)處理后所有微博中地區(qū)名稱的總數(shù)量,Ni表示所有微博中主要了解的地區(qū)名稱的數(shù)量。
微博消息的質(zhì)量高低不僅與文本內(nèi)容有關(guān),還和一些社會特征有關(guān)。在微博中這些社會特征表現(xiàn)為對微博文本信息的評論數(shù)、轉(zhuǎn)發(fā)數(shù)還有微博用戶的權(quán)威性即粉絲數(shù)。微博的社會特征權(quán)值表達(dá)式如式(4)所示:
其中,sf_weight(fj)表示第 j條微博的社會特征權(quán)值。Cj表示第 j條微博的評論量,Rj表示第 j條微博的轉(zhuǎn)發(fā)量,F(xiàn)j表示第 j條微博所屬用戶的粉絲量。C表示微博 j所屬聚類中所有微博的評論量。R表示微博 j所屬聚類中所有微博的轉(zhuǎn)發(fā)量。F表示微博 j所屬聚類中所有用戶的粉絲數(shù)。 α1、β1、γ1為3個可變系數(shù),且相加為1。
根據(jù)觀察地區(qū)微博歷史數(shù)據(jù)特征,發(fā)現(xiàn)地區(qū)微博大部分帶有標(biāo)簽特征,而微博標(biāo)簽是微博主題的體現(xiàn),所以標(biāo)簽在地區(qū)微博中很重要。標(biāo)簽在地區(qū)微博中分為3種情況,一種是有標(biāo)簽且包含候選聚類詞項,有標(biāo)簽但是不包含候選聚類詞項,還有就是沒有標(biāo)簽的。針對這3種情況,計算微博標(biāo)簽屬性的權(quán)值如式(5)所示:
第一個表達(dá)式表示標(biāo)簽詞項在候選聚類標(biāo)簽中出現(xiàn)的情況,第二個表示是其他的兩種情況,其中,htfij表示標(biāo)簽中的相對詞頻,hN代表的是帶有標(biāo)簽微博的個數(shù),hni代表的是標(biāo)簽中包含詞i的微博個數(shù),θ是一個常數(shù)。
因此,地區(qū)微博的綜合得分的公式如式(6)所示:
其中,lf_weight(fij)是微博地區(qū)權(quán)值得分,sf_weight(fij)是微博社會特征得分,ht_weight(fij)是微博標(biāo)簽屬性權(quán)值得分,α2、β2、γ2是3個可變系數(shù),作用為平衡每個權(quán)重因子,且相加為1。
計算地區(qū)微博的綜合權(quán)值之后,對子事件中的微博進(jìn)行排序,然后按比例從中提取出排名前一條微博句子作為子事件的摘要。并做進(jìn)一步地處理,按時間順序?qū)⑺鼈兣判?,這樣做的目的是為了使得到摘要文本具有連貫性和一致性;最終生成包含事件各個方面且按時間順序排序的地區(qū)事件摘要。
實驗的目的是驗證本文提出的基于后綴樹算法的地區(qū)微博摘要技術(shù)研究方法的效果。
實驗硬件環(huán)境:CPU Inter?Core?i5(3.20 GHz),RAM為8 GB,操作系統(tǒng)為64位的Windows 8;實驗軟件:編程軟件為Eclipse,數(shù)據(jù)庫為SQL Server。
本文使用的數(shù)據(jù)集來源于新浪微博,是利用程序獲取河北省張家口市、滄州市、邢臺市,內(nèi)蒙古呼和浩特市、包頭市這5個地區(qū)每個地區(qū)20個官方認(rèn)證微博賬戶數(shù)據(jù),獲取數(shù)據(jù)時間范圍是為2015年5月1日至2016年9月1日,總計160 481條微博數(shù)據(jù)。
由于獲取的地區(qū)微博數(shù)據(jù)內(nèi)容混雜,如:除5個地區(qū)外的微博數(shù)據(jù)信息、地名的別稱、表情、英文字符、其他對地區(qū)事件信息分析無意義的符號等,故需對數(shù)據(jù)進(jìn)行預(yù)處理以提高模型預(yù)測的精度。預(yù)處理分成宏觀與微觀兩個層次進(jìn)行。
(1)宏觀:過濾掉5個地區(qū)外的地區(qū)微博數(shù)據(jù)(如江蘇、遼寧等),而針對地區(qū)別稱的微博數(shù)據(jù)將進(jìn)行保留(如張家口-張垣、山城,河北-冀,包頭-鹿城等)。
(2)微觀:對剩余的微博數(shù)據(jù),進(jìn)行逐條處理,刪除每條微博中的英文、表情符號,刪除非文本微博,如圖片、視頻等,然后對處理后的地區(qū)微博文本進(jìn)行分詞、去除停用詞、低頻詞,最后再應(yīng)用HowNet和地區(qū)權(quán)值樹進(jìn)行語義相似度和地區(qū)別稱的替換。
先通過實驗對相關(guān)的閾值、參數(shù)進(jìn)行設(shè)定。針對式(2)設(shè)定聚類合并的閾值,當(dāng)式(2)的值大于0.5時,則進(jìn)行聚類的合并。
針對式(3)地區(qū)上下級別權(quán)值的設(shè)定,不同的權(quán)值對于提取的地區(qū)事件摘要有不同的效果,通過對獲取的地區(qū)官方微博數(shù)據(jù)信息進(jìn)行實驗,上一級別設(shè)定為lf_weight(fij)/3,下一級別設(shè)定為lf_weight(fij)/2時獲得主要了解的地區(qū)事件摘要效果最佳,并以此類推。
此對于式(4),α1、β1、γ1這3個可變系數(shù),當(dāng) α1的值為0.5,β1、γ1均為0.25時,最能反映出評論數(shù)是最能體現(xiàn)微博包含有用信息的程度。
對于θ,當(dāng)θ=1時,式(5)退化為傳統(tǒng)的TF-IDF公式,θ過大時,忽略微博文本Hashtag話題詞之外的詞,由于帶有Hashtag的微博文本占文本總數(shù)量的50.2%,但是存在一些沒有意義的標(biāo)簽,如“早安張家口、邢臺播報”等,這些標(biāo)簽并不能代表本地發(fā)生的事件,因此話題詞內(nèi)容不能完全決定微博的主題,故而導(dǎo)致一些不處于Hashtag中的詞語的權(quán)重過低,造成形成事件摘要準(zhǔn)確率下降。通過對本文的數(shù)據(jù)反復(fù)實驗,發(fā)現(xiàn)當(dāng)θ=1.6時的正確率最高。所以本文選擇θ=1.6。
對于式(6)中 α2,β2,γ2這3個可變系數(shù),當(dāng) α2的值為0.4,β2,γ2均為0.3時,最能反映地區(qū)權(quán)值對地區(qū)摘要提取的價值。
對于變量l,通過對實驗的分析,當(dāng)l為10%~15%時,提取的有代表微博能夠最大限度地包含事件有用信息,且在生成摘要時,不會造成事件摘要的冗余。當(dāng)l值太大會造成一定的信息冗余現(xiàn)象,而l值太小會造成信息的缺失,生成的摘要無法為讀者提供事件的有用信息。
由于地區(qū)微博事件沒有公開的評測數(shù)據(jù)集,因此本文選擇3位不同研究人員通過網(wǎng)易客戶端觀測當(dāng)?shù)厥录硖崛∵@5個地區(qū)發(fā)生的事件作為本文的測評數(shù)據(jù)集。
表2是3位不同研究人員針對張家口、滄州、邢臺市通過網(wǎng)易客戶端提取的事件。
表2 人工提取事件
表3是應(yīng)用本文事件聚類算法對這3個城市進(jìn)行事件聚類的結(jié)果。
表3 本文算法提取事件
從以上兩個表格上可以看出,應(yīng)用本文提取的事件更全面,能夠?qū)⒈镜貐^(qū)所發(fā)生的較少談?wù)摰降男∈录崛〕鰜?,這更能突出在查詢時間內(nèi)想了解地區(qū)所發(fā)生的詳細(xì)的一系列事件。
由于地區(qū)微博自動事件摘要沒有公開的評測數(shù)據(jù)集,因此同時讓其3位不同研究人員分別對從微博中提取出的5個地區(qū)事件進(jìn)行人工提取摘要并作為摘要的評測數(shù)據(jù)集。
本文以張家口“2022年冬奧會”事件為例,提取其摘要。并將該方法生成的事件摘要信息與改進(jìn)的LexRank[15]方法、改進(jìn)的TextRank[16-17]方法、人工產(chǎn)生的摘要進(jìn)行對比,如表4所示。
雖然改進(jìn)的LexRank、TextRank方法在針對公眾微博提取事件摘要時取得了很好的效果,但是針對地區(qū)微博摘要的提取由于這兩種方法缺少考慮地區(qū)微博的特征,從表4可以看出,本文形成的摘要較其兩種方法生成的摘要更全面,子話題覆蓋性更強(qiáng),且能夠準(zhǔn)確表達(dá)當(dāng)?shù)厥录畔ⅰ?/p>
為了驗證本文提取算法的有效性,本文采用文檔摘要研究中的通用評價標(biāo)準(zhǔn)ROUGE[18]對地區(qū)事件摘要的質(zhì)量進(jìn)行測評。在ROUGE測評指標(biāo)中有很多子指標(biāo),其中每一項測評指標(biāo)中都能產(chǎn)生3個得分(召回率、準(zhǔn)確率、F1值)。下面對ROUGE-N進(jìn)行說明。
N元語言模型的召回率ROUGE-N-R為:
以上兩者的F1值為:
其中,N是N元語言模型的長度,N-gram∈G表示在標(biāo)準(zhǔn)答案摘要G中出現(xiàn)的N元語言模型,N-gram∈S表示在系統(tǒng)自動生成的摘要中出現(xiàn)的N元語言模型。Cm(N-gram)是在候選文檔摘要中和標(biāo)準(zhǔn)答案中都出現(xiàn)的N元語言模型數(shù)量,C(N-gram)則表示僅出現(xiàn)在標(biāo)準(zhǔn)答案摘要或是系統(tǒng)自動生成的摘要中的N元語言模型數(shù)量??紤]本文針對的是微博短文本數(shù)據(jù),所以本文選擇ROUGE-2。
用ROUGE-2-F對本文方法、改進(jìn)LexRank方法、改進(jìn)TextRank方法提取的張家口市、邢臺市、滄州市事件摘要進(jìn)行對比評測,結(jié)果如圖3~5所示。
表4 張家口“2022年冬奧會”事件摘要
圖3 張家口市ROUGE-2-F對比結(jié)果
圖4 邢臺市ROUGE-2-F對比結(jié)果
圖5 滄州市ROUGE-2-F對比結(jié)果
通過圖3~5顯示表明本文算法提取摘要判別能力是最強(qiáng)的,且生成摘要優(yōu)于其他兩種方法,其次是TextRank、LexRank最弱。這是因為改進(jìn)TextRank方法在進(jìn)行摘要提取時比LexRank方法多考慮了微博的標(biāo)題和句子位置等信息,而本文方法充分考慮了地區(qū)微博的特征。
實驗結(jié)果表明,利用采用后綴樹和奇異值分解來進(jìn)行事件聚類并綜合考慮地區(qū)微博的特征生成的摘要表現(xiàn)出較大信息的覆蓋率、更準(zhǔn)確的更好的可讀性和更全面性地區(qū)事件摘要信息的特征,這也充分的證明了本文算法的有效性。
本文以地區(qū)微博的事件為研究對象,它涉及了文本的聚類、文本內(nèi)容質(zhì)量的計算、文本的相關(guān)性的計算等。在分析了傳統(tǒng)的提取摘要的算法的基礎(chǔ)上,考慮了摘要的可讀性、全面性和有用性,提出了一種基于后綴樹算法的地區(qū)微博摘要技術(shù)研究方法,首先在對地區(qū)微博進(jìn)行預(yù)處理時結(jié)合其本身的特征點使用HowNet、地區(qū)權(quán)值樹進(jìn)行語義相似度替換和地區(qū)別稱的統(tǒng)一;接著應(yīng)用STC算法、SVD來進(jìn)行地區(qū)微博事件的聚類;然后綜合考慮地區(qū)微博的特征,計算微博總權(quán)值;最后通過對微博進(jìn)行排序選擇、加工,得到最終摘要。對比實驗結(jié)果表明,本文方法生成的摘要效果更加合理有效,地區(qū)相關(guān)性事件更準(zhǔn)確。
目前關(guān)于地區(qū)微博信息的事件聚類和摘要進(jìn)行了初步的研究,今后需要在句法方面對微博文本進(jìn)行研究,使摘要的可讀性更高、信息更豐富、內(nèi)容更全面,更好地讓用戶快速閱讀和了解地區(qū)事件。
參考文獻(xiàn):
[1]童薇,陳威,孟小峰.EDM:高效的微博事件檢測算法[J].計算機(jī)科學(xué)與探索,2012,6(12):1076-1086.
[2]Long R,Wang H,Chen Y,et al.Towards effective event detection,tracking and summarization on microblog data[J].Web-Age Information Management,2011:652-663.
[3]Phuvipadawat S,Murata T.Breaking news detection and tracking in Twitter[C]//International Conference on Web Intelligence and International Conference on Intelligent Agent Technology.Washington D C:IEEE Computer Society,2010:120-123.
[4]Weng J,Lee B S.Event detection in twitter[C]//International Conference on Weblogs and Social Media,Barcelona,Catalonia,Spain,2011:311-312.
[5]Sakaki T,Okazaki M,Matsuo Y.Earthquake shakes twitter users:Real-time event detection by social sensors[C]//Proceedings of the 19th International Conference on World Wide Web,2010:851-860.
[6]Sharifi B,Hutton M A,Kalita J K.Summarizing microblogs automatically[C]//Human Language Technologies:the 2010 Conference of the North American Chapter of the ACL,Los Angeles,USA,2010:685-688.
[7]Sharifi B,Hutton M A,Kalita J K.Experiments in microblog summarization[C]//Proceedings of IEEE Second International Conference on Social Computing(ICSC2010),Minneapolis,USA,2010:49-56.
[8]Wang Peng,Wang Haixun,Liu Majin,et al.An algorithmic approach to event summarization[C]//ACM SIGMOD International Conference on Management of Data,Indianapolis,Indiana,USA,2010:183-194.
[9]Duan Yajuan,Chen Zhumin,Wei Furu,et al.Twitter topic summarization by ranking tweets using social influence and content quality[C]//Proceedings of the 24th International Conference on Computational Linguistics,New York,2012:763-780.
[10]彭敏,高斌龍,黃濟(jì)民,等.基于高質(zhì)量信息提取的微博自動摘要[J].計算機(jī)工程,2015,41(7):36-42.
[11]Dong Z D,Dong Q,Hao C.HowNet and its computation of meaning[C]//Proceedings of the 23rd International Conference on Computational.Linguistics(COLING’10),New York,2010:53-56.
[12]劉杰,郭宇,湯世平.基于知網(wǎng)2008的詞語相似度計算[J].小型微型計算機(jī)系統(tǒng),2015,36(8):1729-1734.
[13]Parikh R,Karlapalem K.ET:Events from tweets[C]//International Conference on World Wide Web Companion.New York:ACM,2013:613-620.
[14]Poomagal S,Visalakshi P,Hamsapriya T.A novel method for clustering tweets in Twitter[J].International Journal of Web Based Communities,2015,11(2):170-187.
[15]朱明峰,葉施仁,葉仁明.基于Lex-PageRank的微博摘要優(yōu)化方法[J].計算機(jī)科學(xué),2016,43(9):261-265.
[16]Milhalces R,Tarau P.TextRank:Bringing order into texts[C]//Association for Computational Linguistics,Barcelona,Spain,2004:118-126.
[17]余珊珊,蘇錦鈿,李鵬飛.基于改進(jìn)的TextRank的自動摘要提取方法[J].計算機(jī)科學(xué),2016,43(6):240-247.
[18]席耀一,李弼程,李天彩,等.基于詞語對狄利克雷過程的時序摘要[J].自動化學(xué)報,2015(8):1452-1460.