趙旭劍++鄧思遠++李波++張暉++楊春明++喻瓊++王耀彬
摘要:新聞話題的特征表示是建立話題模型以及進行話題聚類(融合)的基礎,傳統的特征構建一般采用關鍵字構成的向量表示模型,未對特征的選取、分類以及質量等方面進行完整的研究,因此本文擬針對互聯網新聞文檔進行特征提取、特征構建以及話題聚類質量分析等方面的系統研究,闡明話題特征的選擇與構建對文本話題研究的影響,為后續(xù)的話題檢測與追蹤等應用提供更科學的特征理論模型。實驗結果表明經過話題特征優(yōu)選后的聚類效果有助于提高話題模型的準確性,避免噪聲特征帶來的話題歧義。
關鍵詞:話題特征;話題模型;話題聚類;特征選擇
中圖分類號:TP391
文獻標識碼:A
DOI: 10.3969/j.issn.1003-6970.2015.07.004
0 引言
信息技術的快速發(fā)展以及互聯網的迅速普及,在線新聞文檔數據成爆炸式增長。然而,這些文檔數據大部分是半結構化或者非結構化的文本數據,人們要想從中快速、準確地找到自己所想要的內容極其困難。因此,如何合理、有效地組織和管理這些信息,從而提高人們檢索數據的速度和準確程度,已經成為信息檢索和數據挖掘領域中的熱點課題,文本聚類和分類作為處理這一難題的有力手段,已經成為研究的熱點課題。文本聚類、分類等針對互聯網新聞的分析和挖掘技術在推薦系統、信息過濾、輿情分析和個性化推薦等領域具有較高的應用價值。實現對新聞話題的挖掘應用,需要首先對新聞報道構建話題模型,將話題轉化為可進行計算和比較的信息表示模型,因此,如何有效選擇話題特征構建話題模型將對互聯網的新聞話題挖掘研究產生重要影響。
有效的特征選擇方法不僅可以降低文本的特征向量維數,刪除冗余特征,保留類別區(qū)分能力較強的特征,而且在處理非平衡數據集分類時,也應該能夠克服類別當中特征分布不平衡的問題,提高正類樣本的識別率,從而有助于提高分類器的整體性能;合理的特征加權方法可以扼制噪聲特征對分類的負面影響,并將特征代表文檔屬于某個類別的能力差別最大化。從話題模型的類別來看,目前話題特征的選擇主要采用三種方式。首先,作為信息檢索領域一種重要的文本表示模型,向量空間模型(Vector Space Model, VSM)以其結構簡單、方便計算等特點得到了諸多學科和應用的廣泛關注,該模型主要采用詞項作為話題特征,而概率主題模型(Probabilistic Topic Model,PTM)則根據詞項、文檔和話題三者的貝葉斯概率來表示話題特征,具有扎實的數學基礎。詞項與詞項之間的語義關聯體現了話題的線索,因此,采用詞匯鏈的方式構建話題特征也具有一定代表性。然而,傳統的話題特征選擇方法未闡明特征選擇與構建對話題挖掘性能的影響,沒有考慮特征的分類和選擇策略,針對該問題,本文擬針對互聯網新聞文檔進行特征提取、特征構建以及話題聚類質量分析等方面的系統研究,建立面向互聯網新聞話題的話題特征選擇和構建機制,為話題挖掘研究提供科學的特征模型。
1 話題特征提取
對于新聞文檔,我們采用報道中的詞項作為話題特征的基本對象,通過對詞項的選擇構建新聞報道的話題特征。因此,本文首先利用自然語言處理技術對新聞文本進行話題特征提取。
1.1 停用詞過濾和命名實體識別
在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。對于一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'iS'、at、'which'、'on'等。另一類詞包括詞匯詞,這些詞應用十分廣泛,但是對詞搜索引擎無法保證能夠給出真正相關的搜索結果,難以幫助縮小搜索范圍,同時還會降低搜索的效率,所以通常會把這些詞從文本中移去,從而提高搜索性能。中文中常見的停用詞包括“一下”,“一直”,“三番兩次”,“不僅…而且”,“具體地說”等等。
而命名實體識別(NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。本文正是基于不同命名實體的類別,并結合詞項的其余特征,進行話題特征的選擇,因此,命名實體的識別性能將影響話題特征的選擇。命名實體識別的過程通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,而且相對于實體類別標注子任務,實體邊界的識別更加困難。
1.2 詞性標注
詞性標注即判定給定句子中每個詞的語法范疇,確定其詞性并加以標注的過程。因為在中文中一個詞語往往會有很多種詞性,為了更加精準的區(qū)分每個詞在句中的含義,所以我們需要使用詞性標注。在本文的研究中,我們認為詞性體現了話題的語義信息,通過對詞項詞性進行篩選,有助于提高話題特征的準確性。針對600篇中文新聞的新聞標題,我們進行了中文分詞和詞性標注,得到如表1所示的統計結果。從表格數據不難發(fā)現新聞核心四元素主要集中來源于五類詞語,即名詞、動詞、非謂語形容詞、時態(tài)詞以及數詞。因此,對于標注后的結果我們只需要關注以上五類詞語,在細化抽取對象的同時排除助詞、連詞等噪聲詞語對于話題抽取的干擾。
1.3 特征權重計算
構建話題特征模型后,每一維特征值根據詞項的TF-IDF模型計算得到。文檔的權重向量d表示為 ,其中
是詞組t在文檔d中出現的頻率(一個局部參數), 可是逆向文件頻率(一個全局參數),IDI是文件集中的文件總數, 是含有詞組t的文件數。因此,文件 和q之間的余弦相似度可通過公式3計算得到。