李少博,邸書靈,范通讓
(石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)
隨著信息技術(shù)的不斷發(fā)展,海量的文本數(shù)據(jù)隨之產(chǎn)生。如何對文本進(jìn)行有效的組織分類,方便人們快速、精確的進(jìn)行查找已成為人們研究的熱點(diǎn)問題。文本聚類技術(shù)的提出很好的解決了文檔的組織分類問題。文本聚類技術(shù)就是將一組文檔或文本信息進(jìn)行比較,將比較相似的文檔或文本信息歸為同一類的技術(shù),文本聚類不需要預(yù)先訓(xùn)練,類別在聚類過程中自動生成。文本聚類技術(shù)大都采用向量空間模型方法,將文檔表示為向量,通過計算向量之間的距離度量文檔之間的相似度,這種方法割斷了文檔原有的語義聯(lián)系,導(dǎo)致生成的聚類結(jié)果不能滿足人們的需求。
筆者在向量空間模型的基礎(chǔ)上,引入本體技術(shù)對文檔進(jìn)行語義標(biāo)注,保留了文檔中的語義聯(lián)系;同時對所有映射到本體中的概念進(jìn)行壓縮,移除與主題不相關(guān)的概念,進(jìn)一步減少不相關(guān)概念對聚類的干擾,提升了文本聚類的性能。
Ming-yu Yao等人[1]利用tf-idf技術(shù)對詞進(jìn)行加權(quán),再利用空間向量模型計算文本之間相似度。該方法只是計算了詞在文檔中出現(xiàn)的次數(shù),沒有考慮詞之間的聯(lián)系,同時也會造成向量空間的空間維度很高。Bo-Yeong Kang,Sang-Jo Lee等人[2]提出在文檔中同時考慮詞和概念,并對概念聚類,選擇最重要的聚類表示文檔,降低了使用向量空間模型計算文本相似度時的空間維度。雖然向量空間模型能夠很好的對文檔進(jìn)行表示,但是其在處理高維稀疏、同義詞和多義詞方面仍存在明顯的缺陷。
隨著語義網(wǎng)和本體研究的不斷深入,本體在信息檢索方面的應(yīng)用研究逐漸增多,研究成果主要集中在本體表示文本和文本相似度計算兩個方面。在文本表示方面,David Sánchez,Montserrat Batet等人[3]提出利用本體對概念進(jìn)行分類,通過分類的概念集提取文檔的特征集合。Sa?a Ne?i,Mehdi Jazayeri等人[4]提出利用領(lǐng)域本體對文檔進(jìn)行標(biāo)注,文檔表示為本體的集合。在文本相似度計算方面,王剛等人[5]采用本體表示文檔,分別計算概念、關(guān)系、本體的相似度最終得出文本的相似度。鄭曉潔等人[6]從本體概念的語義相似度、屬性、實例、結(jié)構(gòu)等方面計算概念的相似度。邱玉輝等人[7]提出使用有限狀態(tài)自動機(jī)提取概念,并對概念語義進(jìn)行擴(kuò)展后,在計算本體語義相似度度量文本相似度。
WordNet是一部在線詞典數(shù)據(jù)庫系統(tǒng)[8],與其他的詞典不同,WordNet按照詞義而不是詞形來組織詞匯信息。WordNet將名詞、動詞、形容詞和副詞組織為同義詞集合,每一個同義詞集合表示一個基本的詞匯概念,并在這些概念之間建立了包括同義關(guān)系、反義關(guān)系、上下位關(guān)系、部分關(guān)系等多種語義關(guān)系,通過概念節(jié)點(diǎn)之間的相互鏈接,組成了覆蓋范圍很大的語義網(wǎng)。
綜上所述,本文結(jié)合基于本體的文本表示和文本相似度計算方法,使用WordNet詞典對文檔進(jìn)行預(yù)處理,將文檔表示為本體的集合??紤]到文檔中概念的多樣性以及概念關(guān)系的差異性,在進(jìn)行文檔相似度計算之前,首先進(jìn)行概念聚類操作,進(jìn)一步壓縮文檔中的概念數(shù)量,提取出文檔的核心主題,然后計算主題之間的相似度,最后利用ACH(層次聚類算法)算法完成主題聚類。
本文所提出模型的主要步驟為:文檔預(yù)處理;語義標(biāo)注;概念聚類形成文檔主題;主題聚類。該模型的具體流程如圖1所示。
圖1 基于本體的文本聚類模型流程圖
在具體介紹本模型之前,先說明以下兩個定義:
定義1 概念集合C是全文概念的集合,結(jié)構(gòu)表示為C={c1c2c3…cn},ci={w1w2w3…wn}。ci表示概念集合C中的子概念,wi表示描述原文檔中描述子概念ci的詞匯。
定義2 具有相關(guān)性的子概念ci和cj之間通過一條無向邊連接,邊的長度大小代表概念間聯(lián)系的緊密度。
在將文檔表示為本體的集合之前,首先需要對文檔進(jìn)行預(yù)處理,將文檔中的句子和詞進(jìn)行拆分。預(yù)處理過程主要包括分詞、詞性標(biāo)注、移除停用詞。預(yù)處理完成后,生成分詞結(jié)果W。
得到分詞結(jié)果W后,將W中的詞逐一與WordNet詞典進(jìn)行比對,利用WordNet詞典中的概念以及概念間的語義關(guān)系生成文檔的概念集合C。
通常情況下每一篇文檔所描述都是特定的主題和內(nèi)容,由于概念集C中涵蓋的是文檔中所有詞匯映射的概念,概念集C必然會包含一些與文檔主題不相關(guān)的概念。因此,為了獲取能夠更加準(zhǔn)確描述文檔特定主題和內(nèi)容的概念集合,本文提出一種新的方法對概念集合C進(jìn)行壓縮:
(1)對于概念集C中每一個概念ci,計算描述概念ci的詞匯數(shù)量ni;
(2)設(shè)定詞匯數(shù)量閾值T1;
(3)如果ni>T1,則將概念ci列入主題集合S;
(4)利用WordNet的最短距離公式[9]計算主題集合S中的兩兩概念之間的相似度sim(ci,cj):
其中C,k為常數(shù),d為路徑中的分叉的數(shù),length(ci,cj)表示概念ci和cj之間的距離。
(5)設(shè)定聚類閾值T2,當(dāng)sim(ci,cj)>T2時,將相似度sim(ci,cj)最大的兩個概念聚為一類,返回步驟4繼續(xù)執(zhí)行;否則算法結(jié)束,提取文檔的主題集合S。
經(jīng)過上述處理,文檔集合中的每一個文檔都對應(yīng)一個主題集合Si,Si中包含的是最能代表文檔主題和內(nèi)容的核心概念以及概念之間的關(guān)系。文本聚類就轉(zhuǎn)變?yōu)閷χ黝}Si的聚類,提高了聚類效率。采用基于層次的ACH算法進(jìn)行主題聚類。主要步驟如下:
(1)將所有的主題集合S1S2…Sn看作是一類;
(2)每一個概念Si中包含概念以及概念之間的聯(lián)系,根據(jù)2.2節(jié)中介紹的算法計算不同主題集合中概念的相似度sim(cij,cmn),cij表示第i個主題中的第j個概念:sim(si,sm)=∑sim(sij,smn)
(3)選擇相似度最大的兩個主題合并為一個新的類;
(4)重復(fù)上述步驟,直到所有的主題集處理完畢。
分析了向量空間模型應(yīng)用在文本聚類的缺點(diǎn),并在此基礎(chǔ)上引入了本體技術(shù)進(jìn)行文本聚類,保留了文檔中原有的語義聯(lián)系。同時提出了一種新的方法,根據(jù)描述概念的詞匯數(shù)量以及概念相似度去除不相關(guān)概念,實現(xiàn)了對文檔概念集合的壓縮,提高了相似度計算效率。在未來的工作中,將會對本文中移除不相關(guān)概念閾值選擇標(biāo)準(zhǔn)、主題相似度計算方法改進(jìn)以及主題聚類算法優(yōu)化做進(jìn)一步的研究。
[1]Yao M,Pi D,Cong X.Chinese text clustering algorithm based k-means[J].Physics Procedia,2012,33:301-307.
[2]Kang B Y,Lee S J.Document indexing:a concept-based approach to term weight estimation[J].Information processing &management,2005,41(5):1065-1080.
[3]Sánchez D,Batet M,Isern D,et al.Ontology-based semantic similarity:A new feature-based approach[J].Expert Systems with Applications,2012,39(9):7718-7728.
[4]Ne?ic′S,Crestani F,Jazayeri M,et al.Concept-based semantic annotation,indexing and retrieval of office-like document units[C]//Adaptivity,Personalization and Fusion of Heterogeneous Information.LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE,2010:134-135.
[5]王剛,鐘國祥.一種基于本體相似度計算的文本聚類算法研究[J].計算機(jī)科學(xué),2010,37(9):222-224.
[6]鄭曉潔,張琳.本體映射中相似度計算的改進(jìn)[J].計算機(jī)科學(xué),2013,40(12):108-112.
[7]王剛,邱玉輝.基于本體及相似度的文本聚類研究倡[J].計算機(jī)應(yīng)用研究,2010,27(7).
[8]Boubekeur F,Boughanem M,Tamine L,et al.Using WordNet for Concept-based document indexing in information retrieval[C]//SEMAPRO 2010,The Fourth International Conference on Advances in Semantic Processing.2010:151-157.
[9]Budanitsky A,Hirst G.Semantic distance in WordNet:An experimental,application-oriented evaluation of five measures[C]//Workshop on WordNet and Other Lexical Resources.2001,2.