亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用本體技術(shù)的文本聚類模型

        2014-07-09 02:31:40李少博邸書靈范通讓
        河北省科學(xué)院學(xué)報 2014年2期
        關(guān)鍵詞:本體文檔預(yù)處理

        李少博,邸書靈,范通讓

        (石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)

        隨著信息技術(shù)的不斷發(fā)展,海量的文本數(shù)據(jù)隨之產(chǎn)生。如何對文本進(jìn)行有效的組織分類,方便人們快速、精確的進(jìn)行查找已成為人們研究的熱點(diǎn)問題。文本聚類技術(shù)的提出很好的解決了文檔的組織分類問題。文本聚類技術(shù)就是將一組文檔或文本信息進(jìn)行比較,將比較相似的文檔或文本信息歸為同一類的技術(shù),文本聚類不需要預(yù)先訓(xùn)練,類別在聚類過程中自動生成。文本聚類技術(shù)大都采用向量空間模型方法,將文檔表示為向量,通過計算向量之間的距離度量文檔之間的相似度,這種方法割斷了文檔原有的語義聯(lián)系,導(dǎo)致生成的聚類結(jié)果不能滿足人們的需求。

        筆者在向量空間模型的基礎(chǔ)上,引入本體技術(shù)對文檔進(jìn)行語義標(biāo)注,保留了文檔中的語義聯(lián)系;同時對所有映射到本體中的概念進(jìn)行壓縮,移除與主題不相關(guān)的概念,進(jìn)一步減少不相關(guān)概念對聚類的干擾,提升了文本聚類的性能。

        1 相關(guān)工作

        1.1 向量空間模型和本體研究

        Ming-yu Yao等人[1]利用tf-idf技術(shù)對詞進(jìn)行加權(quán),再利用空間向量模型計算文本之間相似度。該方法只是計算了詞在文檔中出現(xiàn)的次數(shù),沒有考慮詞之間的聯(lián)系,同時也會造成向量空間的空間維度很高。Bo-Yeong Kang,Sang-Jo Lee等人[2]提出在文檔中同時考慮詞和概念,并對概念聚類,選擇最重要的聚類表示文檔,降低了使用向量空間模型計算文本相似度時的空間維度。雖然向量空間模型能夠很好的對文檔進(jìn)行表示,但是其在處理高維稀疏、同義詞和多義詞方面仍存在明顯的缺陷。

        隨著語義網(wǎng)和本體研究的不斷深入,本體在信息檢索方面的應(yīng)用研究逐漸增多,研究成果主要集中在本體表示文本和文本相似度計算兩個方面。在文本表示方面,David Sánchez,Montserrat Batet等人[3]提出利用本體對概念進(jìn)行分類,通過分類的概念集提取文檔的特征集合。Sa?a Ne?i,Mehdi Jazayeri等人[4]提出利用領(lǐng)域本體對文檔進(jìn)行標(biāo)注,文檔表示為本體的集合。在文本相似度計算方面,王剛等人[5]采用本體表示文檔,分別計算概念、關(guān)系、本體的相似度最終得出文本的相似度。鄭曉潔等人[6]從本體概念的語義相似度、屬性、實例、結(jié)構(gòu)等方面計算概念的相似度。邱玉輝等人[7]提出使用有限狀態(tài)自動機(jī)提取概念,并對概念語義進(jìn)行擴(kuò)展后,在計算本體語義相似度度量文本相似度。

        1.2 WordNet詞典

        WordNet是一部在線詞典數(shù)據(jù)庫系統(tǒng)[8],與其他的詞典不同,WordNet按照詞義而不是詞形來組織詞匯信息。WordNet將名詞、動詞、形容詞和副詞組織為同義詞集合,每一個同義詞集合表示一個基本的詞匯概念,并在這些概念之間建立了包括同義關(guān)系、反義關(guān)系、上下位關(guān)系、部分關(guān)系等多種語義關(guān)系,通過概念節(jié)點(diǎn)之間的相互鏈接,組成了覆蓋范圍很大的語義網(wǎng)。

        綜上所述,本文結(jié)合基于本體的文本表示和文本相似度計算方法,使用WordNet詞典對文檔進(jìn)行預(yù)處理,將文檔表示為本體的集合??紤]到文檔中概念的多樣性以及概念關(guān)系的差異性,在進(jìn)行文檔相似度計算之前,首先進(jìn)行概念聚類操作,進(jìn)一步壓縮文檔中的概念數(shù)量,提取出文檔的核心主題,然后計算主題之間的相似度,最后利用ACH(層次聚類算法)算法完成主題聚類。

        2 基于本體相似度的文本聚類模型

        本文所提出模型的主要步驟為:文檔預(yù)處理;語義標(biāo)注;概念聚類形成文檔主題;主題聚類。該模型的具體流程如圖1所示。

        圖1 基于本體的文本聚類模型流程圖

        在具體介紹本模型之前,先說明以下兩個定義:

        定義1 概念集合C是全文概念的集合,結(jié)構(gòu)表示為C={c1c2c3…cn},ci={w1w2w3…wn}。ci表示概念集合C中的子概念,wi表示描述原文檔中描述子概念ci的詞匯。

        定義2 具有相關(guān)性的子概念ci和cj之間通過一條無向邊連接,邊的長度大小代表概念間聯(lián)系的緊密度。

        2.1 文檔預(yù)處理

        在將文檔表示為本體的集合之前,首先需要對文檔進(jìn)行預(yù)處理,將文檔中的句子和詞進(jìn)行拆分。預(yù)處理過程主要包括分詞、詞性標(biāo)注、移除停用詞。預(yù)處理完成后,生成分詞結(jié)果W。

        得到分詞結(jié)果W后,將W中的詞逐一與WordNet詞典進(jìn)行比對,利用WordNet詞典中的概念以及概念間的語義關(guān)系生成文檔的概念集合C。

        2.2 概念聚類

        通常情況下每一篇文檔所描述都是特定的主題和內(nèi)容,由于概念集C中涵蓋的是文檔中所有詞匯映射的概念,概念集C必然會包含一些與文檔主題不相關(guān)的概念。因此,為了獲取能夠更加準(zhǔn)確描述文檔特定主題和內(nèi)容的概念集合,本文提出一種新的方法對概念集合C進(jìn)行壓縮:

        (1)對于概念集C中每一個概念ci,計算描述概念ci的詞匯數(shù)量ni;

        (2)設(shè)定詞匯數(shù)量閾值T1;

        (3)如果ni>T1,則將概念ci列入主題集合S;

        (4)利用WordNet的最短距離公式[9]計算主題集合S中的兩兩概念之間的相似度sim(ci,cj):

        其中C,k為常數(shù),d為路徑中的分叉的數(shù),length(ci,cj)表示概念ci和cj之間的距離。

        (5)設(shè)定聚類閾值T2,當(dāng)sim(ci,cj)>T2時,將相似度sim(ci,cj)最大的兩個概念聚為一類,返回步驟4繼續(xù)執(zhí)行;否則算法結(jié)束,提取文檔的主題集合S。

        2.3 主題聚類

        經(jīng)過上述處理,文檔集合中的每一個文檔都對應(yīng)一個主題集合Si,Si中包含的是最能代表文檔主題和內(nèi)容的核心概念以及概念之間的關(guān)系。文本聚類就轉(zhuǎn)變?yōu)閷χ黝}Si的聚類,提高了聚類效率。采用基于層次的ACH算法進(jìn)行主題聚類。主要步驟如下:

        (1)將所有的主題集合S1S2…Sn看作是一類;

        (2)每一個概念Si中包含概念以及概念之間的聯(lián)系,根據(jù)2.2節(jié)中介紹的算法計算不同主題集合中概念的相似度sim(cij,cmn),cij表示第i個主題中的第j個概念:sim(si,sm)=∑sim(sij,smn)

        (3)選擇相似度最大的兩個主題合并為一個新的類;

        (4)重復(fù)上述步驟,直到所有的主題集處理完畢。

        3 總結(jié)與展望

        分析了向量空間模型應(yīng)用在文本聚類的缺點(diǎn),并在此基礎(chǔ)上引入了本體技術(shù)進(jìn)行文本聚類,保留了文檔中原有的語義聯(lián)系。同時提出了一種新的方法,根據(jù)描述概念的詞匯數(shù)量以及概念相似度去除不相關(guān)概念,實現(xiàn)了對文檔概念集合的壓縮,提高了相似度計算效率。在未來的工作中,將會對本文中移除不相關(guān)概念閾值選擇標(biāo)準(zhǔn)、主題相似度計算方法改進(jìn)以及主題聚類算法優(yōu)化做進(jìn)一步的研究。

        [1]Yao M,Pi D,Cong X.Chinese text clustering algorithm based k-means[J].Physics Procedia,2012,33:301-307.

        [2]Kang B Y,Lee S J.Document indexing:a concept-based approach to term weight estimation[J].Information processing &management,2005,41(5):1065-1080.

        [3]Sánchez D,Batet M,Isern D,et al.Ontology-based semantic similarity:A new feature-based approach[J].Expert Systems with Applications,2012,39(9):7718-7728.

        [4]Ne?ic′S,Crestani F,Jazayeri M,et al.Concept-based semantic annotation,indexing and retrieval of office-like document units[C]//Adaptivity,Personalization and Fusion of Heterogeneous Information.LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE,2010:134-135.

        [5]王剛,鐘國祥.一種基于本體相似度計算的文本聚類算法研究[J].計算機(jī)科學(xué),2010,37(9):222-224.

        [6]鄭曉潔,張琳.本體映射中相似度計算的改進(jìn)[J].計算機(jī)科學(xué),2013,40(12):108-112.

        [7]王剛,邱玉輝.基于本體及相似度的文本聚類研究倡[J].計算機(jī)應(yīng)用研究,2010,27(7).

        [8]Boubekeur F,Boughanem M,Tamine L,et al.Using WordNet for Concept-based document indexing in information retrieval[C]//SEMAPRO 2010,The Fourth International Conference on Advances in Semantic Processing.2010:151-157.

        [9]Budanitsky A,Hirst G.Semantic distance in WordNet:An experimental,application-oriented evaluation of five measures[C]//Workshop on WordNet and Other Lexical Resources.2001,2.

        猜你喜歡
        本體文檔預(yù)處理
        Abstracts and Key Words
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計
        基于RI碼計算的Word復(fù)制文檔鑒別
        淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        中文字幕亚洲一区视频| 亚洲av理论在线电影网| 偷拍综合在线视频二区日韩| 免费黄网站永久地址进入| 国产91九色视频在线播放| 亚洲乱精品中文字字幕| 大胸美女吃奶爽死视频| 中出高潮了中文字幕| 国产精品_国产精品_k频道w| 国产综合无码一区二区辣椒| 色婷婷五月综合久久| 日韩精品真人荷官无码| 国产成人午夜福利在线观看| 亚洲国产精品不卡av在线| 少妇又骚又多水的视频| 中文字幕有码在线亚洲| 开心五月激情五月天天五月五月天| 中文字幕丰满人妻被公强| 国产精品大片一区二区三区四区 | 精品免费看国产一区二区白浆| 国产V亚洲V天堂A无码| 亚洲AⅤ乱码一区二区三区| 精品国模人妻视频网站| 精品亚洲第一区二区三区| 我要看免费久久99片黄色| 在线精品首页中文字幕亚洲| 久久99国产精品久久| 超碰97人人射妻| 色偷偷偷久久伊人大杳蕉| 亚洲av无码国产精品色午夜洪| 乌克兰少妇xxxx做受野外| 黑人玩弄漂亮少妇高潮大叫| 国精无码欧精品亚洲一区| 欧美成a人片在线观看久| 欧美亚洲日韩国产人成在线播放 | 国产乱妇无乱码大黄aa片| 一二三四视频社区在线| 久久精品无码一区二区三区不 | 国产精品无码一区二区在线观一 | 国产不卡在线播放一区二区三区| 色偷偷久久久精品亚洲|