亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用本體技術(shù)的文本聚類模型

        2014-07-09 02:31:40李少博邸書靈范通讓
        河北省科學(xué)院學(xué)報 2014年2期
        關(guān)鍵詞:本體文檔預(yù)處理

        李少博,邸書靈,范通讓

        (石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)

        隨著信息技術(shù)的不斷發(fā)展,海量的文本數(shù)據(jù)隨之產(chǎn)生。如何對文本進(jìn)行有效的組織分類,方便人們快速、精確的進(jìn)行查找已成為人們研究的熱點(diǎn)問題。文本聚類技術(shù)的提出很好的解決了文檔的組織分類問題。文本聚類技術(shù)就是將一組文檔或文本信息進(jìn)行比較,將比較相似的文檔或文本信息歸為同一類的技術(shù),文本聚類不需要預(yù)先訓(xùn)練,類別在聚類過程中自動生成。文本聚類技術(shù)大都采用向量空間模型方法,將文檔表示為向量,通過計算向量之間的距離度量文檔之間的相似度,這種方法割斷了文檔原有的語義聯(lián)系,導(dǎo)致生成的聚類結(jié)果不能滿足人們的需求。

        筆者在向量空間模型的基礎(chǔ)上,引入本體技術(shù)對文檔進(jìn)行語義標(biāo)注,保留了文檔中的語義聯(lián)系;同時對所有映射到本體中的概念進(jìn)行壓縮,移除與主題不相關(guān)的概念,進(jìn)一步減少不相關(guān)概念對聚類的干擾,提升了文本聚類的性能。

        1 相關(guān)工作

        1.1 向量空間模型和本體研究

        Ming-yu Yao等人[1]利用tf-idf技術(shù)對詞進(jìn)行加權(quán),再利用空間向量模型計算文本之間相似度。該方法只是計算了詞在文檔中出現(xiàn)的次數(shù),沒有考慮詞之間的聯(lián)系,同時也會造成向量空間的空間維度很高。Bo-Yeong Kang,Sang-Jo Lee等人[2]提出在文檔中同時考慮詞和概念,并對概念聚類,選擇最重要的聚類表示文檔,降低了使用向量空間模型計算文本相似度時的空間維度。雖然向量空間模型能夠很好的對文檔進(jìn)行表示,但是其在處理高維稀疏、同義詞和多義詞方面仍存在明顯的缺陷。

        隨著語義網(wǎng)和本體研究的不斷深入,本體在信息檢索方面的應(yīng)用研究逐漸增多,研究成果主要集中在本體表示文本和文本相似度計算兩個方面。在文本表示方面,David Sánchez,Montserrat Batet等人[3]提出利用本體對概念進(jìn)行分類,通過分類的概念集提取文檔的特征集合。Sa?a Ne?i,Mehdi Jazayeri等人[4]提出利用領(lǐng)域本體對文檔進(jìn)行標(biāo)注,文檔表示為本體的集合。在文本相似度計算方面,王剛等人[5]采用本體表示文檔,分別計算概念、關(guān)系、本體的相似度最終得出文本的相似度。鄭曉潔等人[6]從本體概念的語義相似度、屬性、實例、結(jié)構(gòu)等方面計算概念的相似度。邱玉輝等人[7]提出使用有限狀態(tài)自動機(jī)提取概念,并對概念語義進(jìn)行擴(kuò)展后,在計算本體語義相似度度量文本相似度。

        1.2 WordNet詞典

        WordNet是一部在線詞典數(shù)據(jù)庫系統(tǒng)[8],與其他的詞典不同,WordNet按照詞義而不是詞形來組織詞匯信息。WordNet將名詞、動詞、形容詞和副詞組織為同義詞集合,每一個同義詞集合表示一個基本的詞匯概念,并在這些概念之間建立了包括同義關(guān)系、反義關(guān)系、上下位關(guān)系、部分關(guān)系等多種語義關(guān)系,通過概念節(jié)點(diǎn)之間的相互鏈接,組成了覆蓋范圍很大的語義網(wǎng)。

        綜上所述,本文結(jié)合基于本體的文本表示和文本相似度計算方法,使用WordNet詞典對文檔進(jìn)行預(yù)處理,將文檔表示為本體的集合??紤]到文檔中概念的多樣性以及概念關(guān)系的差異性,在進(jìn)行文檔相似度計算之前,首先進(jìn)行概念聚類操作,進(jìn)一步壓縮文檔中的概念數(shù)量,提取出文檔的核心主題,然后計算主題之間的相似度,最后利用ACH(層次聚類算法)算法完成主題聚類。

        2 基于本體相似度的文本聚類模型

        本文所提出模型的主要步驟為:文檔預(yù)處理;語義標(biāo)注;概念聚類形成文檔主題;主題聚類。該模型的具體流程如圖1所示。

        圖1 基于本體的文本聚類模型流程圖

        在具體介紹本模型之前,先說明以下兩個定義:

        定義1 概念集合C是全文概念的集合,結(jié)構(gòu)表示為C={c1c2c3…cn},ci={w1w2w3…wn}。ci表示概念集合C中的子概念,wi表示描述原文檔中描述子概念ci的詞匯。

        定義2 具有相關(guān)性的子概念ci和cj之間通過一條無向邊連接,邊的長度大小代表概念間聯(lián)系的緊密度。

        2.1 文檔預(yù)處理

        在將文檔表示為本體的集合之前,首先需要對文檔進(jìn)行預(yù)處理,將文檔中的句子和詞進(jìn)行拆分。預(yù)處理過程主要包括分詞、詞性標(biāo)注、移除停用詞。預(yù)處理完成后,生成分詞結(jié)果W。

        得到分詞結(jié)果W后,將W中的詞逐一與WordNet詞典進(jìn)行比對,利用WordNet詞典中的概念以及概念間的語義關(guān)系生成文檔的概念集合C。

        2.2 概念聚類

        通常情況下每一篇文檔所描述都是特定的主題和內(nèi)容,由于概念集C中涵蓋的是文檔中所有詞匯映射的概念,概念集C必然會包含一些與文檔主題不相關(guān)的概念。因此,為了獲取能夠更加準(zhǔn)確描述文檔特定主題和內(nèi)容的概念集合,本文提出一種新的方法對概念集合C進(jìn)行壓縮:

        (1)對于概念集C中每一個概念ci,計算描述概念ci的詞匯數(shù)量ni;

        (2)設(shè)定詞匯數(shù)量閾值T1;

        (3)如果ni>T1,則將概念ci列入主題集合S;

        (4)利用WordNet的最短距離公式[9]計算主題集合S中的兩兩概念之間的相似度sim(ci,cj):

        其中C,k為常數(shù),d為路徑中的分叉的數(shù),length(ci,cj)表示概念ci和cj之間的距離。

        (5)設(shè)定聚類閾值T2,當(dāng)sim(ci,cj)>T2時,將相似度sim(ci,cj)最大的兩個概念聚為一類,返回步驟4繼續(xù)執(zhí)行;否則算法結(jié)束,提取文檔的主題集合S。

        2.3 主題聚類

        經(jīng)過上述處理,文檔集合中的每一個文檔都對應(yīng)一個主題集合Si,Si中包含的是最能代表文檔主題和內(nèi)容的核心概念以及概念之間的關(guān)系。文本聚類就轉(zhuǎn)變?yōu)閷χ黝}Si的聚類,提高了聚類效率。采用基于層次的ACH算法進(jìn)行主題聚類。主要步驟如下:

        (1)將所有的主題集合S1S2…Sn看作是一類;

        (2)每一個概念Si中包含概念以及概念之間的聯(lián)系,根據(jù)2.2節(jié)中介紹的算法計算不同主題集合中概念的相似度sim(cij,cmn),cij表示第i個主題中的第j個概念:sim(si,sm)=∑sim(sij,smn)

        (3)選擇相似度最大的兩個主題合并為一個新的類;

        (4)重復(fù)上述步驟,直到所有的主題集處理完畢。

        3 總結(jié)與展望

        分析了向量空間模型應(yīng)用在文本聚類的缺點(diǎn),并在此基礎(chǔ)上引入了本體技術(shù)進(jìn)行文本聚類,保留了文檔中原有的語義聯(lián)系。同時提出了一種新的方法,根據(jù)描述概念的詞匯數(shù)量以及概念相似度去除不相關(guān)概念,實現(xiàn)了對文檔概念集合的壓縮,提高了相似度計算效率。在未來的工作中,將會對本文中移除不相關(guān)概念閾值選擇標(biāo)準(zhǔn)、主題相似度計算方法改進(jìn)以及主題聚類算法優(yōu)化做進(jìn)一步的研究。

        [1]Yao M,Pi D,Cong X.Chinese text clustering algorithm based k-means[J].Physics Procedia,2012,33:301-307.

        [2]Kang B Y,Lee S J.Document indexing:a concept-based approach to term weight estimation[J].Information processing &management,2005,41(5):1065-1080.

        [3]Sánchez D,Batet M,Isern D,et al.Ontology-based semantic similarity:A new feature-based approach[J].Expert Systems with Applications,2012,39(9):7718-7728.

        [4]Ne?ic′S,Crestani F,Jazayeri M,et al.Concept-based semantic annotation,indexing and retrieval of office-like document units[C]//Adaptivity,Personalization and Fusion of Heterogeneous Information.LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE,2010:134-135.

        [5]王剛,鐘國祥.一種基于本體相似度計算的文本聚類算法研究[J].計算機(jī)科學(xué),2010,37(9):222-224.

        [6]鄭曉潔,張琳.本體映射中相似度計算的改進(jìn)[J].計算機(jī)科學(xué),2013,40(12):108-112.

        [7]王剛,邱玉輝.基于本體及相似度的文本聚類研究倡[J].計算機(jī)應(yīng)用研究,2010,27(7).

        [8]Boubekeur F,Boughanem M,Tamine L,et al.Using WordNet for Concept-based document indexing in information retrieval[C]//SEMAPRO 2010,The Fourth International Conference on Advances in Semantic Processing.2010:151-157.

        [9]Budanitsky A,Hirst G.Semantic distance in WordNet:An experimental,application-oriented evaluation of five measures[C]//Workshop on WordNet and Other Lexical Resources.2001,2.

        猜你喜歡
        本體文檔預(yù)處理
        Abstracts and Key Words
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計
        基于RI碼計算的Word復(fù)制文檔鑒別
        淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        亚洲成人观看| 久久久久亚洲av成人片| 99精品人妻少妇一区二区| 91视频香蕉| 亚洲福利av一区二区| 邻居美少妇张开腿让我爽了一夜| 日本高清视频永久网站www | 在线播放亚洲第一字幕| 亚洲欧美日韩中文综合在线不卡| 男女搞基视频免费网站| 亚洲无av在线中文字幕| 狠狠躁夜夜躁人人爽超碰97香蕉| 欧美性猛交xxxx富婆| 精品国产91天堂嫩模在线观看| 日本久久一级二级三级| 91丝袜美腿亚洲一区二区| 东北妇女肥胖bbwbbwbbw| 国产精品亚洲专区在线播放| 免费黄网站一区二区三区| 98色婷婷在线| 国产精品va在线播放我和闺蜜| 亚洲AV无码日韩综合欧亚| 国产午夜免费啪视频观看| 国内成+人 亚洲+欧美+综合在线| 欧美激情二区| 免费人妻精品区一区二区三| 2021亚洲国产精品无码| 久久久精品人妻一区二区三区四| 国产亚洲欧美在线播放网站| 日本不卡视频一区二区三区| 精品久久久无码人妻中文字幕豆芽 | 久久国产黄色片太色帅| 欧美极品色午夜在线视频| 亚洲 欧美 激情 小说 另类| 国产一区二区熟女精品免费| 国产精品综合色区在线观看| 无码少妇一级AV便在线观看 | 人妻中文字幕一区二区视频| 狠狠色噜噜狠狠狠777米奇小说| 亚洲一区二区三区成人| 91久久精品一二三区色|