王 媛 李 皓 李小軍 許 鵬
(船舶系統(tǒng)工程部 北京 100094)
隨著知識經(jīng)濟(jì)時代的到來,知識已經(jīng)成為企業(yè)最重要的戰(zhàn)略性資源。在復(fù)雜產(chǎn)品和系統(tǒng)的設(shè)計領(lǐng)域,知識的價值更為突出?,F(xiàn)代產(chǎn)品復(fù)雜性、產(chǎn)品知識密集程度越來越高,不再局限于幾何數(shù)據(jù),更多的是關(guān)于設(shè)計本身與設(shè)計過程的數(shù)據(jù),包括設(shè)計規(guī)則、約束條件、基本原理、參考資料等[1]。如果沒有完善的獲取、表示、存儲、傳遞、共享、重用設(shè)計知識的管理體系,將導(dǎo)致各種類型的知識在設(shè)計過程中的重用率和共享率極低[2],因此,必須首先建立適合的知識表征方法,為基于知識的檢索[3]和知識推送等提供支撐。
知識表征是利用計算機(jī)對知識進(jìn)行管理時需要解決的首要問題,即如何采用計算機(jī)可理解的特定符號來描述知識[4]。知識表征即把知識用計算機(jī)可接受的符號以某種形式描述出來,也就是知識的符號化過程,將知識進(jìn)行形式化描述,表示成為便于計算機(jī)存儲、管理和調(diào)用的某種數(shù)據(jù)結(jié)構(gòu)模式。目前常用的知識表示方法主要有謂詞邏輯表示法、產(chǎn)生式表示法、框架表示法、概念圖知識表示法、語義網(wǎng)絡(luò)表示法、面向?qū)ο蟊硎痉ǖ取?/p>
上世紀(jì)60年代中期開始,知識表示開始作為一個獨立的研究課題[5],五十多年來,人們研究出了諸多的知識表示方法,包括謂詞邏輯表示法、產(chǎn)生式表示法、框架表示法、概念圖知識表示法、語義網(wǎng)絡(luò)表示法、面向?qū)ο蟊硎痉ǖ龋⒔Y(jié)合相關(guān)的工程領(lǐng)域利用這些方法進(jìn)行了領(lǐng)域知識的表示和運用。但針對艦船領(lǐng)域的知識表征,上述方法又有其局限性。一階謂詞邏輯作為一種形式語言,遠(yuǎn)遠(yuǎn)不能表示人類自然語言所能表達(dá)的知識,且隨著知識庫中知識的增加,推理所需的事實組合的工作量成指數(shù)增加;產(chǎn)生式法的主要缺點是推理效率較低,表達(dá)能力較差,所表示的知識規(guī)則之間不能直接調(diào)用,因此較難表示那些具有結(jié)構(gòu)關(guān)系或?qū)哟侮P(guān)系的知識;框架法的不足之處是不善于表達(dá)過程性的知識,因此它經(jīng)常與產(chǎn)生式表示法結(jié)合起來使用;概念圖法的可操作性和可理解性不強(qiáng);面向?qū)ο笾R表示方法的多重繼承不能保證在繼承的時候的單向無環(huán),所以使得多重集成較難控制;語義網(wǎng)絡(luò)法的缺點是不能像邏輯方法那樣保證推理的嚴(yán)格性和有效性,不便于表達(dá)判斷性知識,不便于表達(dá)深層知識。而基于本體的知識表征方法[6]是近年來的研究熱點之一,在各個領(lǐng)域處于探索研究階段,其中,領(lǐng)域本體的構(gòu)建[7]是研究的難點之一。但本體以其強(qiáng)大的語義表達(dá)能力和推理能力,將對各個領(lǐng)域內(nèi)知識表示做出重大貢獻(xiàn)[8]。
目前基于本體的領(lǐng)域知識表示方法成為了研究熱點。在知識表示模型構(gòu)建中引入本體[9],是因為本體具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支撐,知識表示的語言表達(dá)能力比較強(qiáng)[13]。將其引入知識表示模型中,可以保證知識被建模表達(dá)后,在傳遞和共享過程中知識理解的唯一性和精確性,使知識搜索、知識積累、知識共享的效率大大提高。
一般來講基于本體的知識表征方法不是一個通用的知識表示方法,與具體的領(lǐng)域相關(guān),不同領(lǐng)域的知識表達(dá)模型不同。本文結(jié)合領(lǐng)域?qū)嶋H情況整理出知識存在形式的基礎(chǔ)上,基于本體對知識進(jìn)行表示,為基于知識的語義檢索和知識推送做準(zhǔn)備。
本體可以提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯(術(shù)語),并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。也就是說本體可以通過基本的建模元語來表達(dá)領(lǐng)域內(nèi)知識的語義內(nèi)涵以及知識之間的語義關(guān)系,通過本體建??梢詫崿F(xiàn)某種程度的知識共享和重用,提高系統(tǒng)通訊、互操作和可靠性的能力。下面將從知識存在形式及組織方式歸納整理、領(lǐng)域本體構(gòu)建、基于本體的知識表示模型、知識特征向量提取技術(shù)等幾個方面來進(jìn)行知識表征的研究。
從領(lǐng)域業(yè)務(wù)活動出發(fā),深入挖掘需求分析及立項階段、方案階段、工程研制階段、設(shè)計定型階段可能產(chǎn)生或使用的知識的存在形式并對其進(jìn)行準(zhǔn)確的定義。通過調(diào)研和座談等方式了解現(xiàn)有的知識形式,并對其進(jìn)行總結(jié)分類。
圖1 知識存在形式及組織方式
領(lǐng)域本體構(gòu)建是知識表征的基礎(chǔ),本體支持知識的形式化規(guī)范表示以實現(xiàn)領(lǐng)域知識的重用和共享。在進(jìn)行本體構(gòu)建時應(yīng)該考慮領(lǐng)域本體與領(lǐng)域知識的對應(yīng)關(guān)系,保證領(lǐng)域本體與知識范圍的一致性,從而更好地支持知識應(yīng)用效果。本研究中采用面向多語義的模塊化領(lǐng)域本體構(gòu)建方法。
圖2 領(lǐng)域知識構(gòu)建
步驟1:領(lǐng)域分析
根據(jù)現(xiàn)有的知識,包括各種文檔、參考資料、各類數(shù)據(jù)資源等對所涉及到的領(lǐng)域進(jìn)行分析,分析后初步確定從以下幾個方面來構(gòu)建本體(術(shù)語):1)應(yīng)用術(shù)語;2)成果形式術(shù)語;3)過程術(shù)語;4)通用術(shù)語;5)領(lǐng)域?qū)I(yè)術(shù)語。其中,領(lǐng)域?qū)I(yè)本體又包括功能術(shù)語、任務(wù)術(shù)語和系統(tǒng)術(shù)語。
步驟2:提取重要概念
參照相關(guān)標(biāo)準(zhǔn)規(guī)范提取所涉及領(lǐng)域內(nèi)重要概念,如任務(wù)術(shù)語中對作戰(zhàn)任務(wù)形式等相關(guān)概念的提取,功能本體中對信息保障、指揮控制等相關(guān)概念的提取。概念提取的過程中要保證術(shù)語的唯一性,正確性,除去術(shù)語的冗余性,二義性,形成領(lǐng)域?qū)I(yè)概念的一種規(guī)范。
步驟3:模塊化組建本體框架
構(gòu)建領(lǐng)域本體的框架結(jié)構(gòu),構(gòu)建過程按照模塊化的思想進(jìn)行,如將關(guān)鍵術(shù)語模塊進(jìn)行分解,方便部分術(shù)語模塊的重用與集成。
步驟4:抽象概念間多語義關(guān)系,添加實例
框架構(gòu)建完成后,按照概念的固有屬性和專有特征進(jìn)行歸納和修改,對概念建立層次化的分類模型,并定義類之間的關(guān)系,建立類之間的語義聯(lián)系。在本體中可以表達(dá)概念之間的任意語義關(guān)系,這里我們采用本體編輯工具protégé進(jìn)行本體構(gòu)建,基本的語義關(guān)系包括Synonymy(兩個概念的內(nèi)涵和外延完全相同)、kind-of(一個概念的外延完全包含另一個概念的外延)、instance-of(概念的實例和概念之間的關(guān)系)、attribute-of(概念實例與概念屬性的關(guān)系)。后期還需要不斷根據(jù)需要梳理更多的語義關(guān)系,構(gòu)建出更加完善的本體。
在明確知識存在形式的基礎(chǔ)上,基于構(gòu)建好的領(lǐng)域本體對知識進(jìn)行形式化的表示,給出該領(lǐng)域內(nèi)基于本體的知識表示模型框架。利用本體對領(lǐng)域各種類型知識進(jìn)行統(tǒng)一的規(guī)范化描述,形成一種計算機(jī)可以理解的用于描述知識的數(shù)據(jù)結(jié)構(gòu),知識表征模型的整體框架如圖3所示。
知識表達(dá)模型分為三個層次:知識層,語義模型層和本體層。
知識層是知識的物理存儲層,由于知識類型繁多,從知識表達(dá)所需的預(yù)處理技術(shù)來分可以把這些知識分為兩大類:文檔類知識和字段組合類型的知識簡稱為知識條目。其中文檔類型的知識包括設(shè)計實例、重要報告、標(biāo)準(zhǔn)規(guī)范、情報資料、技術(shù)文獻(xiàn)、設(shè)計模型、仿真模型和優(yōu)化模型;知識條目類型的知識包括經(jīng)驗技巧、專家資源、公式資源、性能參數(shù)資源、軟件資源和實驗數(shù)據(jù)等。在進(jìn)行知識表達(dá)預(yù)處理的過程中文檔類的知識要先進(jìn)行文檔解析,然后再進(jìn)行后續(xù)操作。
模型層的目的要基于本體構(gòu)建知識的語義表達(dá)形式,對文檔和知識條目利用相關(guān)算法進(jìn)行分詞和詞頻統(tǒng)計,在此基礎(chǔ)上進(jìn)行初始特征向量提取,初始特征向量中的元素與本體中元素進(jìn)行實體語義匹配,語義關(guān)聯(lián)度高的元素被稱為候選元素。候選元素按照不同的語義表達(dá)形式會形成不同的最終特征向量,不同的特征向量各自表達(dá)知識的一個語義側(cè)面,因此要全面描述一條知識的語義信息可能需要有多個特征向量組合。
本體層是所涉及領(lǐng)域的重要概念的規(guī)范化描述,依照層次化多語義的本體構(gòu)建方法構(gòu)建領(lǐng)域內(nèi)本體,為知識建模提供基礎(chǔ)條件。
圖3 基于本體的知識表示模型
明確了知識的具體存在形式并建立完成領(lǐng)域本體后,需要將本體和知識建立關(guān)聯(lián),即利用本體對知識進(jìn)行語義建模。在這個過程中,如果人工構(gòu)建本體與知識間的關(guān)聯(lián)不僅難度大、效率低下、準(zhǔn)確率低,而且工作量巨大。一般來講人為實現(xiàn)知識的語義建模是不現(xiàn)實的。因此,對自動的知識特征向量提取和表達(dá)技術(shù)的研究尤為重要。本項研究將知識特征向量提取與表示主要包括如下幾個步驟:1)文檔/知識預(yù)處理;2)權(quán)重設(shè)置與候選向量提??;3)本體解析;4)語義相似度匹配;5)知識特征向量表示與存儲,如圖4所示。
圖4 知識特征向量提取整體流程
預(yù)處理模塊是對文檔或知識條目進(jìn)行分詞及統(tǒng)計處理。主要實現(xiàn)的功能包括:分詞,標(biāo)注詞性,統(tǒng)計詞頻以及將統(tǒng)計結(jié)果保存至數(shù)據(jù)庫。如果是文檔類的知識事先必須進(jìn)行文檔解析,解析后的文檔和字段類型的知識都可以利用進(jìn)行分詞。
特征提取模塊是基于分詞的詞性,將名詞和動詞提取出來,作為初始候選的特征詞。
權(quán)重計算模塊是在提取出的名詞和動詞,計算這些詞的權(quán)重,選取權(quán)重大的作為文檔或知識條目的候選特征向量。候選特征向量中詞的數(shù)目由用戶定義精度,一般選取若干個詞。
本體解析與語義匹配模塊是將候選特征向量中帶有權(quán)重的候選特征詞與本體元素進(jìn)行語義匹配,語義相似度大于一定閾值的詞將被選為最終特征詞對文檔或知識進(jìn)行表示。其中本體的解析和相似度計算是研究的難點。
特征向量表示模塊是將最終特征詞表示成知識的特征向量。
知識表征技術(shù)是解決知識管理相關(guān)問題時所需突破的首要技術(shù),本文闡述了知識表征技術(shù)的研究背景及研究現(xiàn)狀,并針對艦船領(lǐng)域特點采用基于本體的知識建模方法,提出了具有三層體系結(jié)構(gòu)的語義知識表達(dá)模型。在此基礎(chǔ)上初步建立了所涉及的領(lǐng)域本體的基本框架,采用知識特征向量自動提取技術(shù)實現(xiàn)對知識的語義表達(dá),為基于語義檢索提供基礎(chǔ)。在后續(xù)的研究工作中需要對所建立的知識模型不斷完善,并在此基礎(chǔ)上進(jìn)一步研究基于語義知識模型的檢索和推送技術(shù)。
[1]陳磊,潘翔,葉修梓,等.基于本體的產(chǎn)品知識表達(dá)和檢索技術(shù)研究[J].浙江大學(xué)學(xué)報(工學(xué)版),2008(12).
[2]林琳.淺議本體在企業(yè)知識庫中的應(yīng)用[J].現(xiàn)代情報,2007(11).
[3]朱慶生,鄒景華.基于本體論的論文檢索[J].計算機(jī)科學(xué),2005(05).
[4]顧巧祥,祈國寧,紀(jì)楊建,等.基于元數(shù)據(jù)的產(chǎn)品數(shù)據(jù)本體建模技術(shù)[J].浙江大學(xué)學(xué)報(工學(xué)版),2007(5).
[5]楊建林.基于本體的文本信息檢索研究[J].情報理論與實踐,2006(05).
[6]劉紅閣,鄭麗萍,張少方.本體論的研究和應(yīng)用現(xiàn)狀[J].信息技術(shù)快報,2005,3(1):1-12.
[7]韓婕,向陽.本體構(gòu)建研究綜述[J].計算機(jī)應(yīng)用與軟件,2007,24(9).
[8]杜文華,董慧.本體建設(shè)工具比較研究[J].情報雜志,2005,(2):5-7.
[9]王珊,張俊,彭朝暉,等.基于本體的關(guān)系數(shù)據(jù)庫語義檢索[J].計算機(jī)科學(xué)與探索,2007(1).
[10]張莉,姜浩.領(lǐng)域本體半自動化建模工具的設(shè)計與實現(xiàn)[J].計算機(jī)與數(shù)字工程,2009(9).
[11]鐘誠,趙明霞,何秋燕,等.軍事倉儲領(lǐng)域本體的構(gòu)建[J].計算機(jī)與數(shù)字工程,2011(9).
[12]陳鈺,張功亮,闞述賢,等.一種基于領(lǐng)域本體的用戶建模方法[J].計算機(jī)與數(shù)字工程,2011(2).
[13]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現(xiàn)代圖書情報技術(shù),2010(1).