彭 靜 羅 偉
遼寧裝備制造職業(yè)技術(shù)學(xué)院(沈陽 110161)
一種從自然語言文本到本體模型的轉(zhuǎn)換方法
彭 靜 羅 偉
遼寧裝備制造職業(yè)技術(shù)學(xué)院(沈陽 110161)
如何利用本體將內(nèi)容所蘊涵的語義進(jìn)行形式化與規(guī)范化描述是一項艱巨的任務(wù)。本體通常用來描述內(nèi)容的語義,以實現(xiàn)基于語義的內(nèi)容共享和集成。然而,手工構(gòu)建本體通常耗費巨大,因此,有必要研究基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)。提出了從自然語言文本中學(xué)習(xí)本體的方法,定義了自然語言數(shù)據(jù)源到本體的映射規(guī)則并與現(xiàn)有方法進(jìn)行了詳細(xì)的比較,同時給出了應(yīng)用實例及原型實現(xiàn)。分析表明,本文提出的方法在映射的完整性及正確性方面有較大提高。
本體 自然語言
本體學(xué)習(xí)(ontology learning)方法主要可以歸為三類:手工的、半自動化、全自動化的方法。目前存在的本體構(gòu)造方法多是手工的,需要領(lǐng)域?qū)<业膮⑴c,在面對海量的內(nèi)容時,手工方法費時、費力,而完全自動化的方法也不現(xiàn)實,因此,如何利用機器學(xué)習(xí)或統(tǒng)計等知識獲取技術(shù)自動半自動化的從已有的數(shù)據(jù)資源中獲取期望的本體,以降低本體構(gòu)建的開銷是一個迫切需要解決的問題。本文主要研究如何從非結(jié)構(gòu)化(主要指自然語言文本)數(shù)據(jù)源獲取期望的本體。
自然語言文本是Web中大量存在的一類非結(jié)構(gòu)化數(shù)據(jù),因此,有必要從該類數(shù)據(jù)源中學(xué)習(xí)本體。依據(jù)文獻(xiàn),本體概念的獲取方法主要有3類:基于語言學(xué)方法,基于統(tǒng)計學(xué)方法和混合方法。對于概念關(guān)系的獲取,有基于模板的方法、基于概念聚類的方法、基于關(guān)聯(lián)規(guī)則的方法、基于詞典的方法和以上方法的混合。本文提出的方法是半自動化的,需要人工的參與。首先,借助于特定領(lǐng)域的核心本體與WordNet詞典,挖掘出文本中包含的與該本體概念在語義上相近的概念以及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中;然后挖掘與全部概念相關(guān)的關(guān)聯(lián)規(guī)則,利用該關(guān)聯(lián)規(guī)則形成概念間的侯選關(guān)系與實例,最終判定由用戶來決定。
借助特定領(lǐng)域的核心本體與WordNet,挖掘文本包含的與該本體概念在語義上相近的概念及頻繁項集作為侯選概念,在人工參與下將侯選概念補充到核心本體中,步驟如圖1所示。
圖1 相關(guān)概念的獲取流程
“拆詞”:從核心本體概念的標(biāo)識,獲取與概念相關(guān)的詞或詞組。
“去頻繁項”:將頻繁出現(xiàn)并含有較少語義信息并的詞從“拆詞”獲得的詞集中去除。
“切詞與標(biāo)詞”:獲得輸入詞的詞根及詞性。本文采用Porter Stemming 算法完成“切詞”步驟,采用QTAG算法完成“標(biāo)詞”步驟。
“同義詞集”:借助WordNet,獲得單詞的同義詞集合,繼而獲得單詞的語義鏈(Semantic Chain),然后將語義鏈轉(zhuǎn)化為向量表示。
“矢量化”:借助WordNet,用向量表示獲得輸入文本中單詞的語義鏈,將向量進(jìn)行標(biāo)準(zhǔn)化,即為每個分量計算權(quán)重。權(quán)重的計算采用TF*IDF規(guī)則產(chǎn)生,TF(term frequency)表示詞頻,IDF(inverse document frequency)表示逆文檔頻率,權(quán)重計算公式如下:
wi,j表示詞ti在向量dj中的權(quán)重,fi,j為詞ti在向量dj中的詞頻,N為向量總數(shù),ni為包含詞ti的向量數(shù)目,分母為歸一化因子。
“匹配”:利用VSM方法,通過向量間的夾角余弦衡量單詞的相似程度,計算公式如下:
根據(jù)結(jié)果選出與核心本體中概念相關(guān)的單詞和句子。
用戶從上述步驟得出的相關(guān)單詞和句子中選擇新的概念標(biāo)識充實到核心本體,得到與特定文本相關(guān)的本體。采用關(guān)聯(lián)規(guī)則挖掘算法,形成概念間的侯選關(guān)系與實例并添加到本體中。
給出從文本數(shù)據(jù)源生成本體的例子。采用清華大學(xué)的travelontology.owl作為旅游領(lǐng)域的核心本體,導(dǎo)入一篇桂林旅游的自然語言文本。圖2顯示了導(dǎo)入系統(tǒng)后的本體,可以進(jìn)行概念及概念間關(guān)系、屬性、實例的編輯添加,以充實核心本體,生成與導(dǎo)入內(nèi)容相關(guān)的本體。
本文研發(fā)的管理系統(tǒng)支持由數(shù)據(jù)庫、XML內(nèi)容、自然語言文本到本體的轉(zhuǎn)換,及現(xiàn)有本體的導(dǎo)入,形成基于本體的知識庫。另外,內(nèi)容管理系統(tǒng)提供本體的編輯及一致性檢驗功能,以消解可能的語義沖突。
圖2 自然語言文本到本體的導(dǎo)入
討論了自然語言數(shù)據(jù)源到本體的轉(zhuǎn)換,并與現(xiàn)有工作進(jìn)行了詳細(xì)的比較,在此基礎(chǔ)之上開發(fā)了內(nèi)容管理系統(tǒng),實現(xiàn)了本體編輯和數(shù)據(jù)一致性檢驗,為實現(xiàn)面向語義的內(nèi)容搜索奠定了基礎(chǔ)。
[1]杜小勇等.本體學(xué)習(xí)研究綜述.軟件學(xué)報,2006(9).
[2]Lawrence S, Giles CL. Searching the World Wide Web. Science, 1998,280(5360):98?100.
[3]Alexander Maedche, Steffen Staab.Mining Ontologies from Text. In:Proc. Of th EKAW2000,LNAI1937.pp:18 9-202.2000.
[4]Felbaum.WordNet:an Electronic Lexical Database.MIT Press,Cambridge,Massachusetts,1998
[5]張劍,李春平.基于Word Net概念向量空間模型的文本分類.計算機工程與應(yīng)用,2006(14).
齊婷婷)