亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用本體技術(shù)的文本聚類模型

2014-07-09 02:31:40李少博邸書靈范通讓

河北省科學(xué)院學(xué)報 2014年2期

李少博，邸書靈，范通讓

（石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院，河北石家莊 050043）

隨著信息技術(shù)的不斷發(fā)展，海量的文本數(shù)據(jù)隨之產(chǎn)生。如何對文本進(jìn)行有效的組織分類，方便人們快速、精確的進(jìn)行查找已成為人們研究的熱點(diǎn)問題。文本聚類技術(shù)的提出很好的解決了文檔的組織分類問題。文本聚類技術(shù)就是將一組文檔或文本信息進(jìn)行比較，將比較相似的文檔或文本信息歸為同一類的技術(shù)，文本聚類不需要預(yù)先訓(xùn)練，類別在聚類過程中自動生成。文本聚類技術(shù)大都采用向量空間模型方法，將文檔表示為向量，通過計算向量之間的距離度量文檔之間的相似度，這種方法割斷了文檔原有的語義聯(lián)系，導(dǎo)致生成的聚類結(jié)果不能滿足人們的需求。

筆者在向量空間模型的基礎(chǔ)上，引入本體技術(shù)對文檔進(jìn)行語義標(biāo)注，保留了文檔中的語義聯(lián)系；同時對所有映射到本體中的概念進(jìn)行壓縮，移除與主題不相關(guān)的概念，進(jìn)一步減少不相關(guān)概念對聚類的干擾，提升了文本聚類的性能。

1 相關(guān)工作

1.1 向量空間模型和本體研究

Ming－yu Yao等人［1］利用tf－idf技術(shù)對詞進(jìn)行加權(quán)，再利用空間向量模型計算文本之間相似度。該方法只是計算了詞在文檔中出現(xiàn)的次數(shù)，沒有考慮詞之間的聯(lián)系，同時也會造成向量空間的空間維度很高。Bo－Yeong Kang，Sang－Jo Lee等人［2］提出在文檔中同時考慮詞和概念，并對概念聚類，選擇最重要的聚類表示文檔，降低了使用向量空間模型計算文本相似度時的空間維度。雖然向量空間模型能夠很好的對文檔進(jìn)行表示，但是其在處理高維稀疏、同義詞和多義詞方面仍存在明顯的缺陷。

隨著語義網(wǎng)和本體研究的不斷深入，本體在信息檢索方面的應(yīng)用研究逐漸增多，研究成果主要集中在本體表示文本和文本相似度計算兩個方面。在文本表示方面，David Sánchez，Montserrat Batet等人［3］提出利用本體對概念進(jìn)行分類，通過分類的概念集提取文檔的特征集合。Sa?a Ne?i，Mehdi Jazayeri等人［4］提出利用領(lǐng)域本體對文檔進(jìn)行標(biāo)注，文檔表示為本體的集合。在文本相似度計算方面，王剛等人［5］采用本體表示文檔，分別計算概念、關(guān)系、本體的相似度最終得出文本的相似度。鄭曉潔等人［6］從本體概念的語義相似度、屬性、實例、結(jié)構(gòu)等方面計算概念的相似度。邱玉輝等人［7］提出使用有限狀態(tài)自動機(jī)提取概念，并對概念語義進(jìn)行擴(kuò)展后，在計算本體語義相似度度量文本相似度。

1.2 WordNet詞典

WordNet是一部在線詞典數(shù)據(jù)庫系統(tǒng)［8］，與其他的詞典不同，WordNet按照詞義而不是詞形來組織詞匯信息。WordNet將名詞、動詞、形容詞和副詞組織為同義詞集合，每一個同義詞集合表示一個基本的詞匯概念，并在這些概念之間建立了包括同義關(guān)系、反義關(guān)系、上下位關(guān)系、部分關(guān)系等多種語義關(guān)系，通過概念節(jié)點(diǎn)之間的相互鏈接，組成了覆蓋范圍很大的語義網(wǎng)。

綜上所述，本文結(jié)合基于本體的文本表示和文本相似度計算方法，使用WordNet詞典對文檔進(jìn)行預(yù)處理，將文檔表示為本體的集合?？紤]到文檔中概念的多樣性以及概念關(guān)系的差異性，在進(jìn)行文檔相似度計算之前，首先進(jìn)行概念聚類操作，進(jìn)一步壓縮文檔中的概念數(shù)量，提取出文檔的核心主題，然后計算主題之間的相似度，最后利用ACH（層次聚類算法）算法完成主題聚類。

2 基于本體相似度的文本聚類模型

本文所提出模型的主要步驟為：文檔預(yù)處理；語義標(biāo)注；概念聚類形成文檔主題；主題聚類。該模型的具體流程如圖1所示。

圖1 基于本體的文本聚類模型流程圖

在具體介紹本模型之前，先說明以下兩個定義：

定義1 概念集合C是全文概念的集合，結(jié)構(gòu)表示為C＝｛c1c2c3…cn｝，ci＝｛w1w2w3…wn｝。ci表示概念集合C中的子概念，wi表示描述原文檔中描述子概念ci的詞匯。

定義2 具有相關(guān)性的子概念ci和cj之間通過一條無向邊連接，邊的長度大小代表概念間聯(lián)系的緊密度。

2.1 文檔預(yù)處理

在將文檔表示為本體的集合之前，首先需要對文檔進(jìn)行預(yù)處理，將文檔中的句子和詞進(jìn)行拆分。預(yù)處理過程主要包括分詞、詞性標(biāo)注、移除停用詞。預(yù)處理完成后，生成分詞結(jié)果W。

得到分詞結(jié)果W后，將W中的詞逐一與WordNet詞典進(jìn)行比對，利用WordNet詞典中的概念以及概念間的語義關(guān)系生成文檔的概念集合C。

2.2 概念聚類

通常情況下每一篇文檔所描述都是特定的主題和內(nèi)容，由于概念集C中涵蓋的是文檔中所有詞匯映射的概念，概念集C必然會包含一些與文檔主題不相關(guān)的概念。因此，為了獲取能夠更加準(zhǔn)確描述文檔特定主題和內(nèi)容的概念集合，本文提出一種新的方法對概念集合C進(jìn)行壓縮：

（1）對于概念集C中每一個概念ci，計算描述概念ci的詞匯數(shù)量ni；

（2）設(shè)定詞匯數(shù)量閾值T1；

（3）如果ni＞T1，則將概念ci列入主題集合S；

（4）利用WordNet的最短距離公式［9］計算主題集合S中的兩兩概念之間的相似度sim（ci，cj）：

其中C，k為常數(shù)，d為路徑中的分叉的數(shù)，length（ci，cj）表示概念ci和cj之間的距離。

（5）設(shè)定聚類閾值T2，當(dāng)sim（ci，cj）＞T2時，將相似度sim（ci，cj）最大的兩個概念聚為一類，返回步驟4繼續(xù)執(zhí)行；否則算法結(jié)束，提取文檔的主題集合S。

2.3 主題聚類

經(jīng)過上述處理，文檔集合中的每一個文檔都對應(yīng)一個主題集合Si，Si中包含的是最能代表文檔主題和內(nèi)容的核心概念以及概念之間的關(guān)系。文本聚類就轉(zhuǎn)變?yōu)閷χ黝}Si的聚類，提高了聚類效率。采用基于層次的ACH算法進(jìn)行主題聚類。主要步驟如下：

（1）將所有的主題集合S1S2…Sn看作是一類；

（2）每一個概念Si中包含概念以及概念之間的聯(lián)系，根據(jù)2.2節(jié)中介紹的算法計算不同主題集合中概念的相似度sim（cij，cmn），cij表示第i個主題中的第j個概念：sim（si，sm）＝∑sim（sij，smn）

（3）選擇相似度最大的兩個主題合并為一個新的類；

（4）重復(fù)上述步驟，直到所有的主題集處理完畢。

3 總結(jié)與展望

分析了向量空間模型應(yīng)用在文本聚類的缺點(diǎn)，并在此基礎(chǔ)上引入了本體技術(shù)進(jìn)行文本聚類，保留了文檔中原有的語義聯(lián)系。同時提出了一種新的方法，根據(jù)描述概念的詞匯數(shù)量以及概念相似度去除不相關(guān)概念，實現(xiàn)了對文檔概念集合的壓縮，提高了相似度計算效率。在未來的工作中，將會對本文中移除不相關(guān)概念閾值選擇標(biāo)準(zhǔn)、主題相似度計算方法改進(jìn)以及主題聚類算法優(yōu)化做進(jìn)一步的研究。

［1］Yao M，Pi D，Cong X.Chinese text clustering algorithm based k－means［J］.Physics Procedia，2012，33：301－307.

［2］Kang B Y，Lee S J.Document indexing：a concept－based approach to term weight estimation［J］.Information processing ＆management，2005，41（5）：1065－1080.

［3］Sánchez D，Batet M，Isern D，et al.Ontology－based semantic similarity：A new feature－based approach［J］.Expert Systems with Applications，2012，39（9）：7718－7728.

［4］Ne?ic′S，Crestani F，Jazayeri M，et al.Concept－based semantic annotation，indexing and retrieval of office－like document units［C］//Adaptivity，Personalization and Fusion of Heterogeneous Information.LE CENTRE DE HAUTES ETUDES INTERNATIONALES D＇INFORMATIQUE DOCUMENTAIRE，2010：134－135.

［5］王剛，鐘國祥.一種基于本體相似度計算的文本聚類算法研究［J］.計算機(jī)科學(xué)，2010，37（9）：222－224.

［6］鄭曉潔，張琳.本體映射中相似度計算的改進(jìn)［J］.計算機(jī)科學(xué)，2013，40（12）：108－112.

［7］王剛，邱玉輝.基于本體及相似度的文本聚類研究倡［J］.計算機(jī)應(yīng)用研究，2010，27（7）.

［8］Boubekeur F，Boughanem M，Tamine L，et al.Using WordNet for Concept－based document indexing in information retrieval［C］//SEMAPRO 2010，The Fourth International Conference on Advances in Semantic Processing.2010：151－157.

［9］Budanitsky A，Hirst G.Semantic distance in WordNet：An experimental，application－oriented evaluation of five measures［C］//Workshop on WordNet and Other Lexical Resources.2001，2.