摘要:根據(jù)中文文本的特點,不僅考慮文本中詞匯概率信息,還結合文本語義等多方面信息來計算文本特征項的權值,從而提出一種基于多重因子加權的特征項權值計算方法,并給出具體算法#65377;通過與基于詞頻及基于TF-IDF的特征項權值計算方法的比較試驗,證明文中提出的特征項權值計算方法能有效提高文本聚類的正確率#65377;
關鍵詞:特征項;文本聚類;中文文本;自然語言處理
中圖分類號:TP301
文獻標識碼:A
1引言
隨著Internet的日益發(fā)展和網(wǎng)上各類信息的迅猛增長,文本聚類成為處理和組織大量文本數(shù)據(jù)的關鍵技術之一[1]#65377;因此,研究利用計算機進行文本聚類成為自然語言處理和人工智能領域中一項具有重要應用價值的課題#65377;
但是,在現(xiàn)在的文本自動信息處理的研究中,研究者往往只試圖從改進后期的處理算法來提高其效率或精度,而忽略了特征項權值計算方法的重要性#65377;因此,文章對特征項的權值計算方法進行了研究,并提出了一種基于多重因子加權的特征項權值計算方法#65377;在該方法中,首先不是簡單的依據(jù)詞頻來計算特征項的權值,而是對詞匯在文本中的出現(xiàn)概率及語義特點進行分析并通過多重加權的方法來確定特征項的權值#65377;文章將此特征項權值計算方法應用于文本聚類,并進行了對比實驗,實驗表明這種特征項權值計算方法提高了聚類精度#65377;這說明好的特征項權值計算方法能夠更好地反映文本類型的根本特點和屬性,對于提高文本信息處理的性能有著重要的作用#65377;
2特征項分析及多重加權
通常文本數(shù)據(jù)具有有限的結構, 甚至大部分沒有結構, 而文本的內(nèi)容是用自然語言描述, 計算機無法直接理解其語義和進行相應的處理,所以需要對文本進行特征表示,抽取代表其特征的元數(shù)據(jù)#65377;在中文文本中,詞是具有獨立語義特性的最小單位,因此,在文本的特征值提取中都是按詞來抽取特征項,然后將這些特征項用結構化的形式表示#65377;目前, 在文本信息處理領域中, 向量空間模型(Vector Space Model, VSM)是應用較多且效果較好的表示方法之一[2]#65377;在VSM中,文本被形式化為多維空間中的一個點,其形式為:d=d(t1,w1,t2,w2,…,tn,wn),其中ti為特征項,wi為特征項的權值,簡記為d=d(w1,w2,…,wn)#65377;可見,向量空間模型中每一維的值表示該詞語在此文本中的權重,用以刻畫該詞語在描述文本內(nèi)容時所起作用的重要程度#65377;傳統(tǒng)計算詞語權重的方法是詞頻,但是詞頻只是反映詞語的出現(xiàn)頻率,不能真正反映詞語在文本中出現(xiàn)的重要程度#65377;因此,文章從文本特征項的出現(xiàn)頻率和語義兩個角度來考慮提出了一種基于多重因子加權的文本特征項權值計算方法#65377;下面,先介紹頻率加權因子#65377;
2.1頻率加權因子
頻率加權因子是指特征項在文本中出現(xiàn)的概率(即詞頻)及特征項在文本集中出現(xiàn)的頻率(即文本頻數(shù))兩個權重因子#65377;
將這兩個因子結合在一起,就得到了頻率加權因子的計算公式,也就通常的TF-IDF公式[3],如公式(1)所示:
其中,tf(ti,d)表示ti在文本d中出現(xiàn)的頻率,如果一個詞在這個文本中出現(xiàn)得非常多,那么它就非??赡芘c這個主題密切相關,所以重要性就高,反之重要性就低#65377;N是文本集中文本的個數(shù),df(ti)是詞ti在文本集中出現(xiàn)詞ti的文本個數(shù),N/df(ti)是逆文本頻數(shù),說明特征項在較多的文本出現(xiàn),它的重要性就越低,集中在少數(shù)文本中,就具有較高的權重#65377;
在得到w(ti,d)之后,下一步就來考慮詞語的語義信息,并且通過不斷修改權值w(ti,d)的方式來反映詞匯不同的特點#65377;
2.2語義加權因子
對于自然語言(這里指中文),詞語與詞語之間存在著大量的語義關系,如同義#65380;近義#65380;同現(xiàn)等,另外,詞語出現(xiàn)在文中的不同位置也有不同的語義特點#65377;語義分析,就是從中文文本的語義角度出發(fā),希望能用對相應權值的改變來反映文本的語義特征#65377;文章主要從下面三個方面來將語義信息反映到向量權值中#65377;
2.2.1位置權重
國內(nèi)有人抽樣統(tǒng)計,國內(nèi)中文期刊自然科學論文的標題與文本的基本符合率為98%,新聞文本的標題與主題的基本符合率為95%[4]#65377;美國一學者進行過統(tǒng)計,反映主題的句子,80%出現(xiàn)在段首,10%出現(xiàn)在段尾#65377;這說明不同位置的詞對文本的作用也是不一樣的,有些詞雖然出現(xiàn)頻率不高,但卻很能反映文本的特性#65377;因此,對于不同位置的詞進行加權來處理#65377;位置權重設為σti,其值為:σti=1.0如果ti出現(xiàn)在標題中0.8如果ti出現(xiàn)在第一段中0.4如果ti出現(xiàn)在其它段中0.6如果ti出現(xiàn)在段尾(2)設sti為詞在相應位置出現(xiàn)的次數(shù),加入了位置權重的詞權重計算公式如公式(3)所示:
2.2.2詞長權重
一般說來,短詞具有較高的頻率和更多的含義, 是面向功能的;而長詞的頻率較低,是面向內(nèi)容的, 增加長詞的權重, 有利于詞匯進行分割, 從而更準確地反映出特征詞在文章中的重要程度#65377;例如,“計算機”,“電子計算機”,“數(shù)字電子計算機”三個詞專指性依次增強,而概括性依次減弱#65377;因此,長詞應該具備較高的權重,加入了詞長權重的計算公式如公式(4)所示:其中,ɑ表示詞ti的長度,如“電子計算機”中ɑ=5
2.2.3詞同現(xiàn)頻率
在中文文本中,句義的表達是由組成句的詞義以及詞與詞的關系表達,而同現(xiàn)關系是詞與詞之間最直接的關系#65377;根據(jù)文獻[5]:在同一詞中出現(xiàn)的所有字兩兩之間的同現(xiàn)關系是詞所表現(xiàn)的意義所在#65377;
如果兩個詞出現(xiàn)在同一句子中,這兩個詞具有最直接的相關性,所以文章指的同現(xiàn)頻率是指句內(nèi)同現(xiàn)頻率#65377;
設詞ti在文本d中出現(xiàn)的總次數(shù)為si,即詞頻tf(ti,d),詞tj在文本d中出現(xiàn)的總的次數(shù)為sj,即詞頻tf(tj,d),詞ti與詞tj同現(xiàn)頻率記為sij(句內(nèi)不重復計數(shù)),可知
其中,pij為詞ti與詞tj的同現(xiàn)概率,可知pij=pji,pii≡1#65377;
最終,在一篇文本中我們能夠得到一個詞空間內(nèi)的詞與詞之間的一個同現(xiàn)概率矩陣,它是一 個n 行n 列的對稱矩陣,n 表示的該文本特征項的數(shù)量#65377;
利用該矩陣對w(ti,d)的權值進行修正,特征項ti的權值修正為:
這樣,對同現(xiàn)概率大的詞的權重就得到了加強,同現(xiàn)概率大就表示該詞經(jīng)常修飾其他詞或被其他詞修飾,那么,就認為這是一個比較重要的詞,對反映文本的主題思想具有重要的貢獻,相應的該詞的權重應該得到加強,并且與之關聯(lián)比較大的詞的權重也得到了加強,新得到的文本特征描述蘊涵了詞的同現(xiàn)特點,突出了該文本的語義信息,與人的思維習慣相符#65377;
2.3基于多重因子加權的特征項權值計算算法
設待聚類的文本集為D, D={d1,d2,…,dN},N為文本集中的文本個數(shù),文本集中的特征項集為T,特征項權值計算方法如下:
對于每個tr∈T,其中r=1,…,v#65377;
步驟1 計算tr在di中出現(xiàn)的次數(shù)及它與其它詞同時出現(xiàn)在一個句子內(nèi)的次數(shù),在文本集D中出現(xiàn)該詞的文本數(shù)及位置信息以及tr的詞長ɑ;
步驟2 分別計算出tr的詞頻tf(tr,di)#65380;文本頻數(shù)df(tr);
步驟3 利用詞頻和文本頻數(shù)計算tr的權值w(tr,di) (公式(1));
步驟4 利用步驟1中給出的位置信息,計算加入了位置權重的特征項的權值(公式(2))
步驟5 利用步驟1計入的詞長,擴充w(tr,di) (公式(3),(4));
步驟6 計算tr的同現(xiàn)概率矩陣(公式(5),(6));
步驟7 根據(jù)詞的同現(xiàn)頻率矩陣修正w(tr,di)((公式(7));
步驟8 tr的最終權值為w(tr,di),程序結束#65377;
3實驗與結果
文本來源:人民網(wǎng)(www.people.com.cn)聚類算法:k-means聚類算法;
評價指標:F-meɑture=2×準確率×查全率準確率+查全 率;
測試結果:如表1所示#65377;表1比較實驗結果基于詞頻的特征 項權值計算方法基于TF-IDF的特征項權值計算方法基于多重因子加權的特征項權值計算方法類型名稱文本數(shù)目測試分析:從實驗結果可以看出,基于多重因子加權的特征項權值計算方法的準確率要比基于詞頻的特征項權值計算方法的F—measure值平均高15~20個百分點;比基于TF-IDF的特征項權值計算方法的F—measure值平均高6~10個百分點#65377;
當然,文中采取k-means算法來聚類,由于k-means算法是隨機選擇初始聚類中心,使得在聚類時正確率并不是很好,這些方面將在今后的工作中加以改進#65377;
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。