蔣 勛 徐緒堪
(1.南京大學(xué)信息管理學(xué)院 江蘇南京 210093)
(2.無(wú)錫城市職業(yè)技術(shù)學(xué)院 江蘇無(wú)錫 214153)
知識(shí)服務(wù)對(duì)信息組織有很高的要求,強(qiáng)調(diào)數(shù)據(jù)間的有機(jī)關(guān)聯(lián),尤其要求通過(guò)數(shù)據(jù)間的聯(lián)系從而形成相關(guān)知識(shí)。而如何有效存儲(chǔ)、管理、組織和更新大規(guī)模的知識(shí),如何有效利用存儲(chǔ)的知識(shí)進(jìn)行推理和問(wèn)題求解,并更有效地支持知識(shí)服務(wù),這是目前圖書(shū)情報(bào)領(lǐng)域一個(gè)重要研究課題。實(shí)現(xiàn)知識(shí)服務(wù)的途徑有多種,其中基于專(zhuān)家系統(tǒng)提供的專(zhuān)家級(jí)知識(shí),能實(shí)現(xiàn)一種高端的知識(shí)服務(wù)。專(zhuān)家系統(tǒng)中知識(shí)獲取的核心組成部分是知識(shí)庫(kù),盡管計(jì)算機(jī)與人工智能技術(shù)的迅猛發(fā)展支撐著知識(shí)獲取手段的提升,但“知識(shí)匱乏”與“信息海洋”的對(duì)峙局面仍然存在。
為解決“知識(shí)匱乏”這一瓶頸問(wèn)題,本文將從知識(shí)服務(wù)的角度架構(gòu)知識(shí)庫(kù)的內(nèi)在邏輯結(jié)構(gòu)模型,使得健全、合理的結(jié)構(gòu)模型支撐起用戶不同的服務(wù)需求,并使資源和服務(wù)有效整合,消除知識(shí)組織與知識(shí)利用之間的鴻溝。
從知識(shí)組織的研究視角關(guān)注承載知識(shí)的知識(shí)庫(kù)研究,王知津等全面、系統(tǒng)、深入地分析了知識(shí)組織的理論、方法及應(yīng)用,首次對(duì)知識(shí)組織的環(huán)境進(jìn)行了考究,對(duì)知識(shí)組織的十個(gè)方面加以論述,其中就指出實(shí)現(xiàn)知識(shí)的有序化是知識(shí)組織的重要目標(biāo)之一,而知識(shí)有序化包括了承載知識(shí)環(huán)境的有序化,并給出了支持知識(shí)環(huán)境有序化的技術(shù)手段。賴茂生等深入研究了知識(shí)組織領(lǐng)域的幾個(gè)前沿問(wèn)題:本體與傳統(tǒng)知識(shí)組織工具改造的研究、受控語(yǔ)言與自然語(yǔ)言融合的研究、網(wǎng)絡(luò)環(huán)境下知識(shí)組織研究及Web2.0與自由分類(lèi)法,這些前沿問(wèn)題的研究為進(jìn)一步展開(kāi)知識(shí)庫(kù)的探索奠定了堅(jiān)實(shí)的基礎(chǔ)。賀德方從知識(shí)組織體系 (Knowledge Organization Systems,KOS) 的應(yīng)用角度,梳理了知識(shí)組織的主要成果,歸納了知識(shí)組織體系之間的轉(zhuǎn)化、映射、標(biāo)準(zhǔn)化等方面,這些研究理清了從知識(shí)組織角度研究知識(shí)庫(kù)結(jié)構(gòu)的思路。王軍教授的研究則從網(wǎng)絡(luò)環(huán)境下對(duì)知識(shí)結(jié)構(gòu)進(jìn)行系統(tǒng)化描述與說(shuō)明,以此為基礎(chǔ)推動(dòng)信息組織、信息表示和基于內(nèi)容的信息檢索等應(yīng)用發(fā)展。從知識(shí)服務(wù)的研究角度,畢強(qiáng)縱觀了國(guó)內(nèi)外學(xué)者關(guān)于知識(shí)服務(wù)研究側(cè)重點(diǎn)不同,并揭示了信息資源只有定位描述而缺少資源內(nèi)容的確切描述的不足,提出了知識(shí)庫(kù)是實(shí)現(xiàn)知識(shí)服務(wù)的基礎(chǔ)和核心,通過(guò)知識(shí)庫(kù)將提高知識(shí)利用和共享效果。董慧深入研究了本體知識(shí)表示的知識(shí)庫(kù),避免了不同數(shù)據(jù)源中知識(shí)異構(gòu)帶來(lái)的問(wèn)題,在這基礎(chǔ)上并首次提出了歷史領(lǐng)域的專(zhuān)家系統(tǒng)模型。王曰芬等研究了面向個(gè)性化服務(wù)的知識(shí)組織機(jī)制,形成了個(gè)性化服務(wù)的知識(shí)組織并將知識(shí)服務(wù)瞄準(zhǔn)了科技咨詢,給出了將社會(huì)網(wǎng)絡(luò)分析與社會(huì)網(wǎng)絡(luò)可視化的先進(jìn)技術(shù)引入專(zhuān)家?guī)斓慕ㄔO(shè)中,提高了科技咨詢決策效果。李廣建指出在分布式環(huán)境下為適應(yīng)OpenURL需要,知識(shí)庫(kù)的有效利用是關(guān)鍵問(wèn)題,知識(shí)庫(kù)不僅是整個(gè)系統(tǒng)的核心,也是整個(gè)過(guò)程的中樞并且為構(gòu)造擴(kuò)展服務(wù)鏈接提供規(guī)則,認(rèn)為只有健全、合理的知識(shí)庫(kù)才能提供用戶盡可能合適的知識(shí)服務(wù)。知識(shí)庫(kù)的應(yīng)用遠(yuǎn)不局限在圖書(shū)情報(bào)領(lǐng)域,對(duì)于醫(yī)療、制造等行業(yè),以及對(duì)其他學(xué)科的科學(xué)研究都起著重要的支撐作用。錢(qián)平等具體針對(duì)鱖魚(yú)疾病的診斷中,利用了知識(shí)表示與語(yǔ)義推理等相關(guān)技術(shù),積累了相關(guān)病例,搭建了針對(duì)診療需求的知識(shí)庫(kù),為魚(yú)病診斷專(zhuān)家系統(tǒng)建立高智能、可共享與復(fù)用的診斷推理應(yīng)用模型。李少波等分析了中藥制藥行業(yè)對(duì)制造執(zhí)行系統(tǒng)的需求,提煉出各流程的知識(shí)庫(kù),包括設(shè)備知識(shí)庫(kù)、過(guò)程經(jīng)驗(yàn)知識(shí)庫(kù)、生產(chǎn)管理知識(shí)庫(kù)、原材料知識(shí)庫(kù)等,并利用每個(gè)應(yīng)用知識(shí)庫(kù)進(jìn)行了知識(shí)的獲取、融合和重用,最終給出系統(tǒng)的功能模型以實(shí)現(xiàn)生產(chǎn)過(guò)程的最優(yōu)計(jì)劃與調(diào)度。孫勇等在其科研過(guò)程中發(fā)現(xiàn)了基本蟻群算法易陷入局部極值且收斂速度慢等問(wèn)題,將知識(shí)庫(kù)引入該算法中,其貢獻(xiàn)在于知識(shí)庫(kù)囊括了算法知識(shí)、規(guī)則知識(shí)和案例知識(shí),存儲(chǔ)了定性或定量的算法參數(shù)、參數(shù)選擇方法及歷史數(shù)據(jù),最終提出了基于知識(shí)庫(kù)的動(dòng)態(tài)蟻群算法,經(jīng)過(guò)理論分析和實(shí)驗(yàn)驗(yàn)證,該算法在優(yōu)化性能、時(shí)間性能和魯棒性等均有一定優(yōu)勢(shì)。
國(guó)外關(guān)于知識(shí)組織、知識(shí)服務(wù)、知識(shí)庫(kù)的研究更重于實(shí)踐方面,知識(shí)組織研究主要是以NKOS(Networked Knowledge Organization Systems/Services)作為主要的研究領(lǐng)域開(kāi)展相關(guān)研究。隨著數(shù)字圖書(shū)館的研究與發(fā)展,NKOS已經(jīng)成為圖書(shū)館和信息科學(xué)領(lǐng)域最重要的研究課題。特別針對(duì)語(yǔ)義化描述的分類(lèi)表、敘詞表、主題詞表、地名辭典等已經(jīng)在國(guó)際圖書(shū)情報(bào)界有較多的研究和實(shí)踐,如美國(guó)國(guó)會(huì)圖書(shū)館發(fā)布的《國(guó)會(huì)圖書(shū)館主題詞表》的SKOS語(yǔ)義描述版本。進(jìn)一步基于 NKOS向機(jī)器和各類(lèi)智能應(yīng)用提供服務(wù),通過(guò)構(gòu)建 NKOS的目標(biāo)是為搜索引擎、學(xué)科門(mén)戶、內(nèi)容導(dǎo)航、自動(dòng)分類(lèi)等應(yīng)用程序提供知識(shí)服務(wù),其途徑是提供開(kāi)放的、統(tǒng)一的查詢接口和訪問(wèn)協(xié)議,如典型的SKOS API。國(guó)外關(guān)于知識(shí)庫(kù)的研究正探索進(jìn)一步發(fā)揮其專(zhuān)業(yè)化知識(shí)服務(wù)的特色。典型的是雪城大學(xué)、華盛頓大學(xué)開(kāi)展的Reference Extract研究,試圖將知識(shí)庫(kù)中專(zhuān)家參引的網(wǎng)站作為高可信度的信息源,從而為用戶提供高可信度的搜索體驗(yàn);并基于知識(shí)庫(kù)研究知識(shí)挖掘和知識(shí)發(fā)現(xiàn)等服務(wù),已開(kāi)發(fā)出能提供熱點(diǎn)知識(shí)群導(dǎo)航知識(shí)庫(kù)系統(tǒng)。圍繞知識(shí)庫(kù)架構(gòu)與建設(shè)方法、知識(shí)組織與分類(lèi)方法、知識(shí)庫(kù)的檢索服務(wù)、知識(shí)挖掘與發(fā)現(xiàn),并從參考咨詢服務(wù)的用戶需求出發(fā),對(duì)聯(lián)合參考咨詢知識(shí)庫(kù)的發(fā)展趨勢(shì)進(jìn)行了探討,更好地利用知識(shí)庫(kù)的功能以提升圖書(shū)館的參考咨詢服務(wù)能力。
值得注意的是,目前在圖書(shū)情報(bào)領(lǐng)域關(guān)于知識(shí)庫(kù)的研究主要聚焦在機(jī)構(gòu)知識(shí)庫(kù)(Institutional Repository,IR)。國(guó)際上注冊(cè)IR超過(guò)2200個(gè),中國(guó)科學(xué)院也有超過(guò)70個(gè)研究所的IR,IR正成為機(jī)構(gòu)知識(shí)基礎(chǔ)設(shè)施和社會(huì)學(xué)術(shù)信息交流體系的重要成員。以張曉林教授領(lǐng)銜的中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館研究團(tuán)隊(duì)圍繞IR的技術(shù)支撐、資源支持、研究與咨詢支持、法律支持、環(huán)境支撐等各方面來(lái)管理知識(shí)成果,形成對(duì)知識(shí)成果使用進(jìn)行許可的框架。張旺強(qiáng)等側(cè)重IR的技術(shù)層面進(jìn)行研究,利用OpenKOS的開(kāi)放服務(wù)接口對(duì)IR中知識(shí)產(chǎn)出進(jìn)行主題標(biāo)引和自動(dòng)分類(lèi),方便用戶使用主題詞瀏覽和檢索知識(shí)產(chǎn)出。
通過(guò)上述已有研究成果分析可以看出,知識(shí)庫(kù)的研究對(duì)支持與完善知識(shí)服務(wù)的整體性至關(guān)重要。目前,在圖書(shū)情報(bào)領(lǐng)域,知識(shí)庫(kù)的理念和方法基本貫徹在整個(gè)知識(shí)服務(wù)過(guò)程的始終,語(yǔ)義關(guān)系計(jì)算使用了語(yǔ)義知識(shí)庫(kù)、動(dòng)態(tài)知識(shí)點(diǎn)的生成是基于專(zhuān)有術(shù)語(yǔ)知識(shí)庫(kù)開(kāi)展的、知識(shí)地圖的描繪是在相關(guān)知識(shí)庫(kù)的基礎(chǔ)上進(jìn)行的。知識(shí)庫(kù)的根基在知識(shí)組織,通過(guò)對(duì)知識(shí)組織的研究希望數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)、信息和知識(shí)能夠滿足用戶解決問(wèn)題和進(jìn)行決策的需求,所以,對(duì)知識(shí)組織的研究不是將知識(shí)停留在數(shù)據(jù)庫(kù)中組織,而是注重如何將數(shù)據(jù)在數(shù)據(jù)庫(kù)中通過(guò)某種關(guān)聯(lián)產(chǎn)生出知識(shí)并服務(wù)于用戶。針對(duì)知識(shí)庫(kù)的相關(guān)研究歸納起來(lái),呈現(xiàn)如下現(xiàn)狀:①目前,在圖書(shū)情報(bào)領(lǐng)域關(guān)于知識(shí)庫(kù)的研究主要聚焦在機(jī)構(gòu)知識(shí)庫(kù)。國(guó)外在機(jī)構(gòu)知識(shí)庫(kù)方面起步較早,已經(jīng)有大批機(jī)構(gòu)知識(shí)庫(kù)建成并投入使用,而國(guó)內(nèi)還比較薄弱。對(duì)機(jī)構(gòu)知識(shí)庫(kù)的關(guān)注大多數(shù)是研究其對(duì)外能實(shí)現(xiàn)的應(yīng)用,如提供的知識(shí)瀏覽、數(shù)據(jù)統(tǒng)計(jì)、為科技類(lèi)公共服務(wù)活動(dòng)提供文化氛圍、以多種形式向讀者推送專(zhuān)題資源等等。概括起來(lái),關(guān)于機(jī)構(gòu)知識(shí)庫(kù)的探討基本圍繞在信息資源長(zhǎng)期保存能力、提升信息獲取效率、促進(jìn)學(xué)術(shù)交流與知識(shí)共享等三個(gè)方面。②圖書(shū)情報(bào)領(lǐng)域近期也出現(xiàn)了一系列關(guān)于專(zhuān)業(yè)知識(shí)庫(kù)的研究。譬如詞匯語(yǔ)義知識(shí)庫(kù)正在被應(yīng)用于信息檢索、信息提取、問(wèn)答系統(tǒng)、自動(dòng)文摘等方面,逐步成為自然語(yǔ)言處理的基礎(chǔ)資源。專(zhuān)業(yè)知識(shí)庫(kù)的研究也圍繞具體應(yīng)用為主,但不同的專(zhuān)業(yè)知識(shí)庫(kù)表現(xiàn)出不同的需求和不同的解決方案。如詞匯語(yǔ)義知識(shí)庫(kù)迎合了本體化與多語(yǔ)化的大趨勢(shì),關(guān)于它的研究都從不同方面彌補(bǔ)了其共通的知識(shí)共享與知識(shí)交流上的不足,體現(xiàn)出知識(shí)庫(kù)的發(fā)展朝著應(yīng)用多元化的趨勢(shì)。從以上兩個(gè)現(xiàn)狀不難看出:現(xiàn)階段關(guān)于知識(shí)庫(kù)的研究偏向于應(yīng)用,應(yīng)用的多元化必然促使知識(shí)庫(kù)的完善,知識(shí)庫(kù)的發(fā)展,其瓶頸在于自身的結(jié)構(gòu),而關(guān)鍵更在知識(shí)組織水平。目前,在圖書(shū)情報(bào)領(lǐng)域涉及知識(shí)庫(kù)一般規(guī)律的研究很少,關(guān)于知識(shí)庫(kù)結(jié)構(gòu)的研究更少。已有的研究中沒(méi)有系統(tǒng)地去研究其知識(shí)組織模式和具體結(jié)構(gòu)問(wèn)題,或者說(shuō)沒(méi)有從知識(shí)服務(wù)的角度去深刻地考察知識(shí)組織體系和構(gòu)成,沒(méi)有仔細(xì)地去研究過(guò)哪些知識(shí)服務(wù)需要用到知識(shí)庫(kù),其中這些服務(wù)對(duì)知識(shí)組織有哪些特殊的要求,并根據(jù)這些要求,應(yīng)該如何組織知識(shí)庫(kù)。大部分關(guān)于知識(shí)庫(kù)模型的研究還處在框架搭建的初級(jí)階段,還在不斷探索和完善中,離知識(shí)服務(wù)的應(yīng)用平臺(tái)還有很大距離。
知識(shí)組織目標(biāo)是為了向用戶提供更高效、更有針對(duì)性的知識(shí),以實(shí)現(xiàn)知識(shí)服務(wù)。可以說(shuō)知識(shí)組織是知識(shí)服務(wù)的支撐。因此,知識(shí)組織的設(shè)計(jì)來(lái)自于用戶需求的驅(qū)動(dòng),需要遵循從宏觀到微觀的設(shè)計(jì)理念,確保知識(shí)組織實(shí)現(xiàn)知識(shí)服務(wù)、提升服務(wù)效率。針對(duì)“大數(shù)據(jù)”時(shí)代的信息泛濫、信息無(wú)序,大量過(guò)剩等特點(diǎn),迫切需要能夠?qū)⑵淇茖W(xué)處理、整序、關(guān)聯(lián),最終形成能夠解決用戶問(wèn)題的知識(shí)。實(shí)現(xiàn)這樣的目標(biāo)需要將雜亂的信息蛻變、升華,使之有序、關(guān)聯(lián)和可用,也就是說(shuō)知識(shí)組織必須保證信息知識(shí)化、知識(shí)有序化、知識(shí)服務(wù)化,知識(shí)庫(kù)是這項(xiàng)工作的落實(shí)載體之一。可見(jiàn),知識(shí)庫(kù)的工作與知識(shí)組織、知識(shí)服務(wù)是密不可分的。
知識(shí)庫(kù)與知識(shí)組織、知識(shí)服務(wù)在工作上是緊密關(guān)聯(lián)的,并且三者在邏輯上嚴(yán)密相關(guān),從宏觀上將三者抽象表達(dá)成圖1所示關(guān)系模型,每一層都為其上一層服務(wù),層層相扣。知識(shí)組織將知識(shí)源提供的各類(lèi)信息,經(jīng)過(guò)數(shù)據(jù)清洗、加工處理,提煉成可供知識(shí)庫(kù)存儲(chǔ)并管理的知識(shí);知識(shí)庫(kù)將針對(duì)某一領(lǐng)域問(wèn)題求解的需要,采用某種知識(shí)表示方式在計(jì)算機(jī)中存儲(chǔ)、組織、管理,使互相聯(lián)系的知識(shí)片集合邏輯上可推理,可進(jìn)行復(fù)雜問(wèn)題的求解;最終面向知識(shí)服務(wù)提供有針對(duì)性、高質(zhì)量的知識(shí),可以說(shuō)知識(shí)的質(zhì)量、知識(shí)間的語(yǔ)義關(guān)系決定知識(shí)的價(jià)值。
圖1 知識(shí)組織、知識(shí)庫(kù)、知識(shí)服務(wù)三者關(guān)系模型
知識(shí)庫(kù)在層次模型中處于中間層,既面向知識(shí)服務(wù)也基于知識(shí)組織,為此,更需要從知識(shí)服務(wù)的角度去深刻地考察知識(shí)組織體系和構(gòu)成,必須仔細(xì)地去研究哪些知識(shí)需求需要用到知識(shí)庫(kù),這些知識(shí)需求對(duì)知識(shí)組織有哪些特殊的要求,并根據(jù)這些要求,該如何設(shè)計(jì)知識(shí)庫(kù)結(jié)構(gòu)。知識(shí)庫(kù)的構(gòu)建不是一次性完成的,隨著知識(shí)服務(wù)要求不斷提高,將反饋促使知識(shí)庫(kù)更新,知識(shí)庫(kù)的結(jié)構(gòu)也需不斷的優(yōu)化。
知識(shí)庫(kù)結(jié)構(gòu)研究就是研究知識(shí)庫(kù)的架構(gòu),研究如何建立知識(shí)結(jié)點(diǎn)之間的語(yǔ)義關(guān)系,研究如何構(gòu)造知識(shí)庫(kù)內(nèi)部結(jié)構(gòu)更便于問(wèn)題求解和邏輯推理。因此,知識(shí)庫(kù)能否快速且準(zhǔn)確地響應(yīng)用戶問(wèn)題,解決多領(lǐng)域、多學(xué)科的協(xié)同決策過(guò)程帶來(lái)的復(fù)雜多源知識(shí)獲取和融合問(wèn)題,完成跨平臺(tái)、跨系統(tǒng)進(jìn)行的大規(guī)模知識(shí)共享、重用、管理等問(wèn)題,這些問(wèn)題均對(duì)知識(shí)庫(kù)的結(jié)構(gòu)提出了更高的要求。
在課題“面向知識(shí)服務(wù)的知識(shí)庫(kù)結(jié)構(gòu)研究”中研究的著眼點(diǎn)主要考察面對(duì)上述不同的知識(shí)需求來(lái)架構(gòu)知識(shí)庫(kù)結(jié)構(gòu)的一般規(guī)律,使之具備一定的通用性。為此,課題從框架結(jié)構(gòu)和邏輯結(jié)構(gòu)兩個(gè)視角來(lái)研究知識(shí)庫(kù)的結(jié)構(gòu),而本文探討的是知識(shí)庫(kù)邏輯結(jié)構(gòu)。知識(shí)庫(kù)邏輯結(jié)構(gòu)是根據(jù)推理范疇的結(jié)構(gòu)決定的,而范疇是由對(duì)象及彼此間的映射關(guān)系決定,所以知識(shí)庫(kù)的邏輯結(jié)構(gòu)可以形象地描述成知識(shí)點(diǎn)之間存在的映射關(guān)系的集合??梢灶A(yù)見(jiàn):一方面,知識(shí)庫(kù)中知識(shí)結(jié)點(diǎn)數(shù)目是龐大的,且結(jié)點(diǎn)間的映射關(guān)系的數(shù)目是知識(shí)結(jié)點(diǎn)的冪指數(shù)形式,數(shù)目更是巨大;另一方面,知識(shí)庫(kù)中的很多新規(guī)則是新產(chǎn)生的且為暫時(shí)的,這些不能通過(guò)既定的基礎(chǔ)知識(shí)庫(kù)的挖掘獲得。
知識(shí)庫(kù)邏輯結(jié)構(gòu)決定了知識(shí)服務(wù)的角度和潛能,科學(xué)合理的知識(shí)庫(kù)邏輯結(jié)構(gòu)對(duì)知識(shí)服務(wù)的能力提升具有很大的推動(dòng)作用。對(duì)知識(shí)庫(kù)邏輯結(jié)構(gòu)中所涉及各環(huán)節(jié)要素進(jìn)行理論及實(shí)踐上的探討,這種探討有助于解決從知識(shí)源到知識(shí)獲取過(guò)程中的瓶頸問(wèn)題,為最大限度地克服海量數(shù)據(jù)增加引起的算法失效及固有的知識(shí)庫(kù)實(shí)時(shí)維護(hù)困難的問(wèn)題。這一系統(tǒng)化的研究緊緊圍繞知識(shí)庫(kù)邏輯結(jié)構(gòu)并凝練了知識(shí)組織的相關(guān)理論,呈現(xiàn)出知識(shí)庫(kù)是實(shí)現(xiàn)知識(shí)服務(wù)的基礎(chǔ)和核心,最終還以知識(shí)服務(wù)為落腳點(diǎn),為拓展知識(shí)服務(wù)奠定了基礎(chǔ)。
知識(shí)存在知識(shí)庫(kù)中,數(shù)據(jù)存在數(shù)據(jù)庫(kù)中,兩者“對(duì)接”將會(huì)促進(jìn)知識(shí)庫(kù)理論機(jī)理的發(fā)展。針對(duì)數(shù)據(jù)子類(lèi)結(jié)構(gòu)形式構(gòu)成的數(shù)據(jù)庫(kù)與基于屬性間語(yǔ)義關(guān)系的知識(shí)庫(kù),需要在這兩者之間建立對(duì)應(yīng)關(guān)系,通過(guò)數(shù)據(jù)庫(kù)的子類(lèi)結(jié)構(gòu)和知識(shí)庫(kù)的結(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu),可以構(gòu)建兩者之間的邏輯等價(jià)關(guān)系,這種關(guān)系打破了傳統(tǒng)數(shù)據(jù)庫(kù)知識(shí)獲取的封閉系統(tǒng),當(dāng)其與知識(shí)庫(kù)相結(jié)合,從知識(shí)庫(kù)的高度,可以更深層次的理解數(shù)據(jù)庫(kù)的價(jià)值,拓展知識(shí)庫(kù)的效能。這種邏輯結(jié)構(gòu)在功能上形成了相對(duì)于基礎(chǔ)知識(shí)庫(kù)是一個(gè)開(kāi)放、優(yōu)化的可擴(kuò)體,有助于實(shí)現(xiàn)知識(shí)推理和知識(shí)挖掘。
知識(shí)庫(kù)邏輯結(jié)構(gòu)的研究,實(shí)際上可以歸結(jié)為知識(shí)點(diǎn)間存在關(guān)系的研究。知識(shí)點(diǎn)及其相互關(guān)系希望通過(guò)一種簡(jiǎn)約的表示方法來(lái)描述這些關(guān)系,并支持知識(shí)的推理活動(dòng)。衡量知識(shí)的簡(jiǎn)約表示效用需要考量其概念效率與計(jì)算效率兩個(gè)維度,這兩個(gè)維度的特點(diǎn)是“厚此薄彼”,各知識(shí)點(diǎn)表示是否統(tǒng)一且準(zhǔn)確,由底層的核心工作數(shù)據(jù)清洗決定,數(shù)據(jù)清洗是關(guān)系建立、推理質(zhì)量、計(jì)算效率的保證,只有高質(zhì)量的數(shù)據(jù)清洗,才會(huì)有高質(zhì)量的知識(shí)庫(kù)服務(wù)水平(研究思路可概括見(jiàn)圖2)。
圖2 知識(shí)庫(kù)邏輯結(jié)構(gòu)的研究思路
(1)數(shù)據(jù)庫(kù)與知識(shí)庫(kù)的對(duì)應(yīng)關(guān)系。建立數(shù)據(jù)庫(kù)與知識(shí)庫(kù)間的對(duì)應(yīng)關(guān)系,也是一個(gè)知識(shí)發(fā)現(xiàn)過(guò)程。知識(shí)發(fā)現(xiàn)(Knowledge Discovery)是從大量的數(shù)據(jù)中挖掘潛在有用的、用戶可能感興趣的并能被其理解的知識(shí)的過(guò)程。知識(shí)發(fā)現(xiàn)是知識(shí)點(diǎn)及其相互間邏輯關(guān)系的原始積累過(guò)程。為此,揭示數(shù)據(jù)庫(kù)與知識(shí)庫(kù)在各自特定構(gòu)造下的一一對(duì)應(yīng),構(gòu)建數(shù)據(jù)庫(kù)與知識(shí)庫(kù)的內(nèi)在“通道”,并將數(shù)據(jù)庫(kù)和知識(shí)庫(kù)統(tǒng)一在一個(gè)知識(shí)發(fā)現(xiàn)系統(tǒng)中,這是構(gòu)建知識(shí)庫(kù)邏輯結(jié)構(gòu)首先要關(guān)注的問(wèn)題。
不能孤立地看待知識(shí)庫(kù)結(jié)構(gòu),知識(shí)庫(kù)結(jié)構(gòu)和所關(guān)聯(lián)的數(shù)據(jù)庫(kù)是密切相關(guān)的,也就是說(shuō)隨著數(shù)據(jù)庫(kù)中數(shù)據(jù)的積累,對(duì)應(yīng)的知識(shí)庫(kù)結(jié)構(gòu)也將隨之發(fā)生變化,數(shù)據(jù)庫(kù)與知識(shí)庫(kù)間的對(duì)應(yīng)關(guān)系決定了知識(shí)庫(kù)中各知識(shí)點(diǎn)之間的邏輯關(guān)系。所以,構(gòu)造知識(shí)庫(kù)結(jié)構(gòu)必須將相關(guān)數(shù)據(jù)庫(kù)及其所有數(shù)據(jù)綜合起來(lái)考慮。
在真實(shí)的數(shù)據(jù)庫(kù)中,根據(jù)數(shù)據(jù)子類(lèi)結(jié)構(gòu)形式構(gòu)成的發(fā)掘數(shù)據(jù)庫(kù)的可達(dá)范疇與基于屬性間關(guān)系的挖掘知識(shí)庫(kù)的推理范疇,兩者之間建立等價(jià)關(guān)系,這一等價(jià)關(guān)系為數(shù)據(jù)庫(kù)與知識(shí)庫(kù)間定向的知識(shí)挖掘與知識(shí)搜索奠定了理論基礎(chǔ)。進(jìn)一步可認(rèn)為,依據(jù)子類(lèi)結(jié)構(gòu)構(gòu)建的數(shù)據(jù)庫(kù)和根據(jù)知識(shí)點(diǎn)網(wǎng)絡(luò)構(gòu)建的知識(shí)庫(kù)邏輯等價(jià)。由此可以給出,知識(shí)庫(kù)中的知識(shí)點(diǎn)與數(shù)據(jù)庫(kù)中的數(shù)據(jù)子類(lèi)結(jié)構(gòu)之間存在一一對(duì)應(yīng)關(guān)系。這一對(duì)應(yīng)關(guān)系打破了傳統(tǒng)數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)的封閉系統(tǒng),使數(shù)據(jù)挖掘從知識(shí)庫(kù)的高度、從語(yǔ)義關(guān)聯(lián)角度去發(fā)現(xiàn)更深層次的知識(shí),也保證了知識(shí)發(fā)現(xiàn)成果直接用于知識(shí)服務(wù)。
(2)知識(shí)庫(kù)中知識(shí)點(diǎn)間的映射。知識(shí)庫(kù)與數(shù)據(jù)庫(kù)最本質(zhì)的區(qū)別在于知識(shí)庫(kù)中記錄有大量規(guī)則,以保證能夠?qū)χR(shí)庫(kù)進(jìn)行更深層次的知識(shí)挖掘與提煉,這些規(guī)則通常通過(guò)能夠反映各知識(shí)點(diǎn)之間關(guān)系的二維數(shù)組來(lái)表示。因此,從微觀層面考慮知識(shí)庫(kù)中存儲(chǔ)結(jié)構(gòu)的規(guī)則必須能支持二維數(shù)組的體現(xiàn)。
定義 1:規(guī)則 r[s,d]=(s→d)中的知識(shí)結(jié)點(diǎn) s為規(guī)則 r下的起始知識(shí)點(diǎn),d為規(guī)則r下的目標(biāo)知識(shí)點(diǎn)。
這樣我們最初考慮的一個(gè)簡(jiǎn)約知識(shí)庫(kù)的結(jié)構(gòu)如表1所示。
表1 數(shù)組型簡(jiǎn)約知識(shí)庫(kù)的結(jié)構(gòu)
從表1可以看出,每個(gè)規(guī)則對(duì)應(yīng)一個(gè)固定的數(shù)組位置。每當(dāng)挖掘出或增加一個(gè)新的基礎(chǔ)知識(shí)時(shí),對(duì)其進(jìn)行簡(jiǎn)約分解后,即可確定其在數(shù)組中的位置。對(duì)相應(yīng)位置規(guī)則的參數(shù)進(jìn)行修正即可。顯然,如果建立這樣一個(gè)知識(shí)庫(kù),完成知識(shí)庫(kù)的一致性校驗(yàn)是十分方便的。
知識(shí)庫(kù)邏輯結(jié)構(gòu)是根據(jù)推理范疇的結(jié)構(gòu)決定的,而范疇是由對(duì)象及彼此間的映射關(guān)系決定,所以知識(shí)庫(kù)的邏輯結(jié)構(gòu)可以由定義1形象地描述成(si→dj)的集合。符號(hào)“→”表示知識(shí)點(diǎn)之間存在的推理關(guān)系??梢灶A(yù)見(jiàn):一方面,知識(shí)庫(kù)中知識(shí)點(diǎn)數(shù)目是龐大的,且知識(shí)點(diǎn)間的推理關(guān)系的數(shù)目是關(guān)于知識(shí)點(diǎn)的冪指數(shù)形式,數(shù)目更是巨大;另一方面,知識(shí)庫(kù)中的很多規(guī)則是新產(chǎn)生的且為暫時(shí)的,這些不能通過(guò)既定的基礎(chǔ)知識(shí)庫(kù)的挖掘獲得。由此來(lái)看,定義1的描述方式顯得比較樸素,且用這樣的方式描述知識(shí)庫(kù)的邏輯結(jié)構(gòu)將會(huì)較為復(fù)雜,需要進(jìn)一步進(jìn)行優(yōu)化。
表1也反映出,這樣的知識(shí)庫(kù)存儲(chǔ)在軟件上是很難實(shí)現(xiàn)的。首先,這將是一個(gè)龐大的數(shù)組。其中的m與n是全體屬性程度詞(語(yǔ)言變量值)的組合問(wèn)題,有可能造成組合“爆炸”。其次,由于其中的很多規(guī)則暫時(shí)的,是不能通過(guò)基礎(chǔ)知識(shí)或由挖掘產(chǎn)生的知識(shí)分解產(chǎn)生的,因此在某種程度上可以將表1看成是一個(gè)稀疏矩陣,以數(shù)組的形式存儲(chǔ)將浪費(fèi)極大的空間。因此,這樣的數(shù)組型簡(jiǎn)約知識(shí)庫(kù)的結(jié)構(gòu)還不完美,但要考慮的知識(shí)庫(kù)結(jié)構(gòu)應(yīng)相似于該結(jié)構(gòu),同時(shí)考慮三個(gè)因素:
其一,由用戶根據(jù)自己的需求提出知識(shí)庫(kù)的主題設(shè)計(jì),不同的主題有一套相互映射的知識(shí)子庫(kù)。
其二,根據(jù)知識(shí)的成熟程度,對(duì)各個(gè)主題下的知識(shí)庫(kù)劃分三個(gè)層次:基礎(chǔ)知識(shí)庫(kù)、派生知識(shí)庫(kù)和臨時(shí)知識(shí)庫(kù),其中:基礎(chǔ)知識(shí)庫(kù):存放用戶感興趣某一主題下成熟的知識(shí),這些知識(shí)來(lái)源用戶自己輸入或經(jīng)數(shù)據(jù)挖掘后由用戶確認(rèn)的知識(shí);派生知識(shí)庫(kù):同樣存放為用戶針對(duì)某一主題感興趣的知識(shí),而這些知識(shí)源為挖掘出的用戶認(rèn)為有一定價(jià)值,但不夠成熟的知識(shí);臨時(shí)知識(shí)庫(kù):存放那些未經(jīng)過(guò)用戶識(shí)別過(guò)的臨時(shí)知識(shí)。
其三,針對(duì)一個(gè)主題設(shè)置知識(shí)點(diǎn)鏈接表,將現(xiàn)有的起始知識(shí)點(diǎn)與目標(biāo)知識(shí)點(diǎn)的組成和語(yǔ)義環(huán)境的關(guān)系記錄下來(lái),形成一幅完整的知識(shí)地圖。
知識(shí)庫(kù)劃分為三個(gè)層次后,優(yōu)化了知識(shí)庫(kù)的結(jié)構(gòu),也縮小了用戶的知識(shí)查詢范圍,對(duì)于任意一個(gè)層次的知識(shí)庫(kù)邏輯結(jié)構(gòu)更加清晰。知識(shí)點(diǎn)鏈接表中各結(jié)點(diǎn)與分解后的規(guī)則保持一致,便于規(guī)則的存儲(chǔ)。并且基礎(chǔ)知識(shí)庫(kù)與派生知識(shí)庫(kù)的表示方式直接反映起始知識(shí)點(diǎn)與目標(biāo)知識(shí)點(diǎn)的關(guān)系,這在具體實(shí)現(xiàn)SQL語(yǔ)言進(jìn)行推理非常便利。多層次知識(shí)庫(kù)為進(jìn)行基于知識(shí)庫(kù)的知識(shí)發(fā)現(xiàn)提供了知識(shí)保證。
(3)知識(shí)點(diǎn)鏈接的形成。知識(shí)庫(kù)中知識(shí)獲取的一種有效方法:根據(jù)產(chǎn)生式規(guī)則,按逆向推理方式鏈接相關(guān)知識(shí)點(diǎn),在知識(shí)庫(kù)中形成了一幅完整的知識(shí)地圖。從某領(lǐng)域問(wèn)題的總目標(biāo)結(jié)點(diǎn),逐層向下擴(kuò)展樹(shù)的分枝和下層結(jié)點(diǎn),從中提取規(guī)則知識(shí),從而有效地獲取解決該目標(biāo)問(wèn)題的全部規(guī)則知識(shí)。產(chǎn)生式規(guī)則的知識(shí)表示的特點(diǎn)體現(xiàn)在:一方面,它是基于邏輯推理的演繹推理,這樣保證了推理結(jié)果的正確性;另一方面,大量產(chǎn)生式規(guī)則所連成的知識(shí)樹(shù),可以是多棵樹(shù)。從樹(shù)的寬度看,反映了實(shí)際問(wèn)題的范圍,從樹(shù)的深度看,反映了問(wèn)題的難度。
前文勾勒出知識(shí)庫(kù)與數(shù)據(jù)庫(kù)在知識(shí)發(fā)現(xiàn)過(guò)程中彼此內(nèi)在結(jié)構(gòu)的對(duì)應(yīng),以及適應(yīng)該結(jié)構(gòu)下知識(shí)點(diǎn)之間的邏輯關(guān)系,以及前面章節(jié)中所介紹的知識(shí)表示方法,這些都是知識(shí)發(fā)現(xiàn)的前提和基礎(chǔ)。不同的知識(shí)需求所應(yīng)對(duì)的知識(shí)表示格式也是不同的。對(duì)知識(shí)庫(kù)中的知識(shí)需求可以從兩方面著手:面向人類(lèi)的信息需求與面向機(jī)器的信息需求。更確切的說(shuō)較粗粒度的自然語(yǔ)言表示的知識(shí)可以滿足知識(shí)問(wèn)答、知識(shí)教學(xué)等方面的需要而較細(xì)粒度的基于一階邏輯完全形式化的內(nèi)容滿足機(jī)器推理的需要。充分考慮和融入知識(shí)表示的多粒度性,并通過(guò)粒度概念分析(Granularity Concept Analysis,GCA)評(píng)價(jià)知識(shí)表示的形式是否清楚地反映內(nèi)容實(shí)質(zhì),同時(shí)考慮到知識(shí)表示最大作用是有效地支持知識(shí)的推理活動(dòng),因此知識(shí)表示產(chǎn)生的概念效率與計(jì)算效用將是重要評(píng)價(jià)指標(biāo)。
(1)粒度概念分析。一個(gè)可共享的知識(shí)庫(kù)應(yīng)該滿足不同背景的用戶對(duì)知識(shí)的需求,不同的需求對(duì)應(yīng)粗細(xì)粒度不同的知識(shí)表示(見(jiàn)圖3)。為此必然需要有一種評(píng)價(jià)方法來(lái)衡量針對(duì)知識(shí)庫(kù)中知識(shí)的粗細(xì)粒度的表示,本節(jié)通過(guò)粒度概念分析(GCA)對(duì)粗細(xì)不同粒度知識(shí)的挖掘,揭示和呈現(xiàn)領(lǐng)域相關(guān)知識(shí)的結(jié)構(gòu)和內(nèi)在聯(lián)系。
圖3 知識(shí)庫(kù)中知識(shí)的多粒度表示體系
如果說(shuō)關(guān)聯(lián)概念分析(RCA)是在形式概念分析的基礎(chǔ)上著重于在概念橫向關(guān)聯(lián)方面的延伸,那么粒度概念分析(GCA)則強(qiáng)調(diào)在概念縱向細(xì)節(jié)方面的拓展。粒度概念分析法的基本指導(dǎo)思想是根據(jù)知識(shí)所包含的概念粒度由細(xì)到粗對(duì)知識(shí)從縱向進(jìn)行迭代。粒度概念分析分兩個(gè)過(guò)程,第一階段是構(gòu)建粗粒度形式背景,由于形式背景中的要素粒度線條粗闊,在一定程度上減輕了對(duì)領(lǐng)域?qū)<业囊蕾?,就像區(qū)分有毒蘑菇和無(wú)毒蘑菇(細(xì)粒度)往往需要一定的專(zhuān)業(yè)知識(shí),而區(qū)分蘑菇和竹筍(粗粒度)則相對(duì)容易得多。由粗粒度形式背景誘導(dǎo)出的知識(shí)粗粒度表示除了降低了知識(shí)表示的復(fù)雜性,減少了計(jì)算量,增強(qiáng)了面向人類(lèi)信息的可讀性,還能夠很好地把握全局范圍內(nèi)的知識(shí)間的語(yǔ)義關(guān)系,在領(lǐng)域全局視角下提供粗粒度概念的相關(guān)信息,并有助于用戶選擇相應(yīng)的高頻關(guān)鍵詞類(lèi)做進(jìn)一步深入分析。粒度概念分析法的第二階段就是針對(duì)某類(lèi)高頻關(guān)鍵詞(熱點(diǎn)知識(shí))構(gòu)建細(xì)粒度形式背景,即在原粗粒度的知識(shí)表示基礎(chǔ)上,進(jìn)一步細(xì)化部分知識(shí)點(diǎn)的描述粒度,這部分知識(shí)點(diǎn)往往是關(guān)注度比較高或內(nèi)涵比較豐富,通過(guò)細(xì)粒度的表示更清晰地勾勒出該知識(shí)點(diǎn)的內(nèi)涵。由細(xì)粒度形式背景誘導(dǎo)的知識(shí)細(xì)粒度表示在運(yùn)算量和復(fù)雜程度都將增加,使得機(jī)器推理的效率降低,但能夠通過(guò)概念間的偏序關(guān)系呈現(xiàn)更多的數(shù)據(jù)細(xì)節(jié),從而提高機(jī)器推理的準(zhǔn)確度,為用戶提供了更加準(zhǔn)確的文獻(xiàn)信息。
(2)概念效用。知識(shí)的數(shù)量和質(zhì)量決定了知識(shí)庫(kù)所能提供知識(shí)服務(wù)的廣度和深度,以及解決問(wèn)題的能力。在知識(shí)庫(kù)內(nèi)的邏輯結(jié)構(gòu)中考慮知識(shí)表示方式的概念效用主要體現(xiàn)在兩個(gè)方面:一方面,概念的一致性應(yīng)有利于知識(shí)庫(kù)以自然的方式吸收新知識(shí),新知識(shí)的加入與老知識(shí)的更新不會(huì)引起知識(shí)庫(kù)結(jié)構(gòu)發(fā)生變化。這樣更有利于知識(shí)庫(kù)大量吸收并儲(chǔ)備各方面的知識(shí);第二方面,概念的有效性應(yīng)便于機(jī)器的知識(shí)推理,高效地挖掘出人們所需要的顯性化知識(shí),而這些知識(shí)賦予的概念內(nèi)涵又要易于被人們理解。進(jìn)一步說(shuō),面向機(jī)器推理的知識(shí)包含的概念粒度更細(xì)膩,有利于從更深度挖掘數(shù)據(jù),組織成精準(zhǔn)度更高的知識(shí);而面向人類(lèi)的知識(shí)包含的概念粒度更粗廣,使得知識(shí)的表示更豐富,更具內(nèi)涵。但值得注意的是,不論是面向機(jī)器的信息需求還是面向人類(lèi)的信息需求,知識(shí)表示粒度都不能過(guò)小或過(guò)大,否則將形成不確定性知識(shí),而應(yīng)遵循適度的原則。
(3)計(jì)算效用。知識(shí)表示的不同粒度是針對(duì)知識(shí)服務(wù)的需求所確定的,針對(duì)知識(shí)庫(kù)中知識(shí)表示的粒度粗細(xì)沒(méi)有好壞、優(yōu)劣之分,只有是否適應(yīng)知識(shí)需求之別。但從響應(yīng)各類(lèi)知識(shí)服務(wù)的能力、對(duì)知識(shí)庫(kù)中的知識(shí)推理等角度,就必須提出針對(duì)知識(shí)表示的計(jì)算效用,既能滿足知識(shí)表示表達(dá)完整的概念內(nèi)涵,又保證適宜的顆粒度組合能支持面向知識(shí)服務(wù)的各種推理需要,更關(guān)鍵的是知識(shí)之間及知識(shí)所包含的概念粒度之間有嚴(yán)格的邏輯關(guān)聯(lián),從而鞏固知識(shí)庫(kù)內(nèi)在邏輯結(jié)構(gòu),為知識(shí)推理搭建嚴(yán)密的邏輯基礎(chǔ),提高推理結(jié)論的正確性與速度,提升計(jì)算效用。
知識(shí)表示效用是個(gè)兩難的復(fù)雜問(wèn)題。面向機(jī)器的信息需求期望表示知識(shí)的概念粒度越細(xì)越好,更便于知識(shí)推理的準(zhǔn)確性,但在提高概念效用的同時(shí),降低了計(jì)算效用,即機(jī)器推理的效果提升了,效率降低了。面向人類(lèi)的信息需求則知識(shí)的粒度要稍微大點(diǎn),能呈現(xiàn)出豐富的語(yǔ)義,便于我們能檢索獲得準(zhǔn)確的且能理解的知識(shí),從計(jì)算效用的角度能保證推理的效率,卻不能保證推理的精準(zhǔn)度,粒度的增大,知識(shí)間的邏輯關(guān)系將更加復(fù)雜,降低了知識(shí)表示的概念效用。概念效用與計(jì)算效用這兩個(gè)方面是相互制約的,往往提高一個(gè)方面的效用將犧牲另一個(gè)方面的效用。
兩難問(wèn)題的瓶頸在于對(duì)知識(shí)源的技術(shù)性的基礎(chǔ)處理——數(shù)據(jù)清洗。
知識(shí)庫(kù)從數(shù)據(jù)的輸入到知識(shí)的輸出,最終目的是為知識(shí)服務(wù)提供滿足應(yīng)用所要求的合適的查詢結(jié)果,數(shù)據(jù)是信息的基礎(chǔ),數(shù)據(jù)質(zhì)量決定了信息的價(jià)值,信息價(jià)值又是知識(shí)價(jià)值的保障,而數(shù)據(jù)質(zhì)量問(wèn)題是由非清潔數(shù)據(jù)引起的。為此,完整的知識(shí)庫(kù)邏輯結(jié)構(gòu)勢(shì)必對(duì)知識(shí)庫(kù)內(nèi)如何進(jìn)行數(shù)據(jù)清洗考慮在其中。
(1)知識(shí)庫(kù)中數(shù)據(jù)清洗的范疇與方法。數(shù)據(jù)清洗(Data Cleaning)的范疇在微觀層面分為單數(shù)據(jù)源、多數(shù)據(jù)源,分別體現(xiàn)在模式層和實(shí)例層上。單數(shù)據(jù)源的問(wèn)題集中體現(xiàn)在拼寫(xiě)錯(cuò)誤的數(shù)據(jù)、相似重復(fù)數(shù)據(jù)及非關(guān)聯(lián)數(shù)據(jù)(孤立數(shù)據(jù))等;多數(shù)據(jù)源的問(wèn)題則反映在時(shí)間的不一致、粒度不一致(見(jiàn)圖4)。
針對(duì)知識(shí)庫(kù)中的非清潔數(shù)據(jù)(Dirty Data),從模式層的非清潔數(shù)據(jù)與實(shí)例層的非清潔數(shù)據(jù)分別提出了一些針對(duì)性的方法(見(jiàn)表2)。模式層針對(duì)知識(shí)庫(kù)設(shè)計(jì)過(guò)程的數(shù)據(jù)結(jié)構(gòu)的缺陷,如缺乏完整性約束的設(shè)計(jì);實(shí)例層關(guān)注數(shù)據(jù)內(nèi)容的問(wèn)題,如數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)等。
以表3所示的一個(gè)非清潔數(shù)據(jù)的片段為例,不難判斷:不完整的數(shù)據(jù)有:(ID:3、字段:歸屬城市)“NJ”;錯(cuò)誤數(shù)據(jù)有:(ID:6、字段:超市名稱)“Mal-Mart”;重復(fù)數(shù)據(jù):(ID:1、3、6)表示同一個(gè)實(shí)體。
進(jìn)一步分析可以發(fā)現(xiàn) (ID:4、字段:超市名稱)“Walmart”雖然不存在拼寫(xiě)錯(cuò)誤(該非清潔數(shù)據(jù)不是由單數(shù)據(jù)源導(dǎo)致的實(shí)例層錯(cuò)誤),但表示方式與其他的“Wal-Mart”并不一致,還有(字段:商品編碼)與(字段:聯(lián)系電話)的表示也不一致,這些不一致究其原因是多數(shù)據(jù)源導(dǎo)致的數(shù)據(jù)結(jié)構(gòu)問(wèn)題,但是這些非清潔數(shù)據(jù)閱讀者容易理解,可機(jī)器很難“理解”,這個(gè)問(wèn)題回到了上一節(jié)4.2節(jié)中知識(shí)粒度表示的概念效用與計(jì)算效用的博弈。
圖4 數(shù)據(jù)清洗的范疇
表2 非清潔數(shù)據(jù)的分類(lèi)及清洗方法
表3 非清潔數(shù)據(jù)的片段示例
這引發(fā)了另一個(gè)深層問(wèn)題,對(duì)于非清潔數(shù)據(jù),是否需要徹底清洗?如果由機(jī)器進(jìn)行更細(xì)膩的數(shù)據(jù)清洗,必然將出現(xiàn)數(shù)據(jù)蘊(yùn)含的一部分知識(shí)丟失或失真,并且?guī)?lái)機(jī)器計(jì)算上的負(fù)擔(dān)。因此,數(shù)據(jù)清洗是必要的,但清洗過(guò)后,依然存在非清潔數(shù)據(jù)也是必然的。非清潔數(shù)據(jù)的辨識(shí)與清洗很難保證知識(shí)庫(kù)完全不具有非清潔數(shù)據(jù)。為此,需要容忍非清潔數(shù)據(jù)的存在,更要研究如何從包含非清潔數(shù)據(jù)的知識(shí)庫(kù)中得到滿足應(yīng)用所要求清潔度的查詢結(jié)果。
(2)非清潔數(shù)據(jù)的清潔度機(jī)制。清潔度反應(yīng)的是數(shù)據(jù)質(zhì)量的情況,清潔度可以用一種是概率的方法描述,即用非清潔數(shù)據(jù)片段中的元組的準(zhǔn)確概率表述。如表3中,可以判斷ID為1、3和6表示同一個(gè)實(shí)體,因此,可以合并這3條數(shù)據(jù)片段,根據(jù)這個(gè)數(shù)據(jù)片段只能判斷 “超市名稱”取值更可能為 “Wal-Mart”,但機(jī)器無(wú)法完全排除“Mal-Mart”的可能性,為了描述每個(gè)可能取值的質(zhì)量,賦予每個(gè)值一個(gè)概率值,表示該值的清潔度。如“Wal-Mart”在同一個(gè)實(shí)體 (ID為1、3和6)3條數(shù)據(jù)片段中出現(xiàn)了2次,則清潔度為2/3,如表4所示。
表4 清潔度表示示例
在實(shí)際應(yīng)用中,數(shù)據(jù)片段的清潔度可以通過(guò)人工或者自動(dòng)的方法獲取,考慮到隨著操作的進(jìn)行數(shù)據(jù)清潔度是遞減的,因此根據(jù)查詢的需求,在操作執(zhí)行的過(guò)程中某些環(huán)節(jié)需要過(guò)濾掉清潔度不可能滿足查詢要求的中間結(jié)果,這樣可以減小中間結(jié)果的數(shù)據(jù)量,從而加速查詢的處理。例如,對(duì)于如果查詢要求結(jié)果中每條數(shù)據(jù)片段的清潔度在0.6以上,則在查詢處理的過(guò)程中可以過(guò)濾掉清潔度小于0.6的中間結(jié)果,因?yàn)橛蛇@些中間結(jié)果生成最終結(jié)果的清潔度一定小于0.6。
(3)基于閾值的相似連接算法。相似連接是在兩個(gè)元組集合中選擇出滿足相似性下界(閾值)的元組對(duì)。上文中概述了非清潔數(shù)據(jù)的分類(lèi)及清洗方法,本節(jié)基于編輯距離的相似連接,對(duì)于給定的兩個(gè)字符串r和s,r和s的編輯距離ed(r,s)是指從r變?yōu)閟所需要的最少的編輯操作(包括:刪除、插入和替換)次數(shù)。如表 4中,ed(Wal-Mart,Mal-Mart)=1,ed(025-83786382,83786382)=4。 給出相似連接算法的定義。
定義1:相似連接。給定兩個(gè)屬性值集合R和S及編輯距離閾值k,R和S的相似連接是指選出所有的屬性值組合(r,s),其中 r∈R,s∈S,而且 r和 s 滿足至少存在一組可能取值 r和 s。 它們的編輯距離 ed(r,s)≤k。
以下表5為例,給出兩個(gè)集合R和S。若給定編輯距離閾值 k 為 3,則對(duì)應(yīng)相似連接結(jié)果僅為(r,s)與(r,s),因?yàn)?ed(Wal-Mart,Mal-Mart)=1≤3,ed(Jerry Strauss,Jerry Strauss)=0≤3。 其余相似連接中(r,s)、(r,s)顯然其編輯距離均超過(guò)閾值3,表6給出了對(duì)應(yīng)的連接結(jié)果。
表5 集合R和S
表6 集合R和S的相似連接結(jié)果
其中,第二條元組(ID=2),ed (Jerry Smith,Jerry Strauss)>3、ed(Jerry Smith,Jeff Strauss)>3,故第二條元組對(duì)應(yīng)清潔度為1/5*2/5+1/5*3/5=0.2。進(jìn)一步給出基于閾值的相似連接算法的定義
定義2:基于閾值的相似連接。給定兩個(gè)屬性值集合R和S及編輯距離閾值k和清潔度閾值α,R和S的閾值相似連接是指選出所有的屬性值組合 (r,s),其中r∈R,s∈S,而且r和s連接結(jié)果的清潔度不低于α。
上例中,如果清潔度閾值α設(shè)為0.3,表5中兩個(gè)集合 R 和 S 的閾值的相似連接結(jié)果不再是(r,s)與(r,s),因?yàn)榈诙l元組對(duì)應(yīng)清潔度為1/5*2/5+1/5*3/5=0.2,該結(jié)果不滿足清潔度閾值要求?;陂撝档南嗨七B接算法的特點(diǎn)是當(dāng)編輯距離閾值k較大且清潔度閾值較小時(shí),連接結(jié)果大小將接近于n(n是連接集合的大?。?,反之連接結(jié)果集比較大。
知識(shí)庫(kù)邏輯結(jié)構(gòu)直接決定著知識(shí)庫(kù)進(jìn)行知識(shí)組織的模式,支撐著從傳統(tǒng)文獻(xiàn)服務(wù)到如今知識(shí)服務(wù)的轉(zhuǎn)變與升級(jí)。當(dāng)前,知識(shí)服務(wù)還在面臨著大數(shù)據(jù)時(shí)代下日益膨脹的信息與紛繁錯(cuò)亂的各類(lèi)數(shù)據(jù),對(duì)知識(shí)庫(kù)的依賴更加緊密,迫切需要知識(shí)庫(kù)篩選出精確的數(shù)據(jù),進(jìn)行嚴(yán)密且快速的知識(shí)推理,提供高效且準(zhǔn)確的知識(shí)。本文梳理了知識(shí)服務(wù)、知識(shí)組織與知識(shí)庫(kù)的關(guān)系,并以知識(shí)服務(wù)為目標(biāo),構(gòu)建了知識(shí)庫(kù)的內(nèi)在邏輯結(jié)構(gòu)模型,順應(yīng)了知識(shí)經(jīng)濟(jì)的發(fā)展需求,但在實(shí)際構(gòu)建中仍有許多問(wèn)題有待進(jìn)一步研究解決,如知識(shí)庫(kù)與數(shù)據(jù)庫(kù)雙庫(kù)協(xié)同影響著知識(shí)的表示粒度、數(shù)據(jù)清洗影響著知識(shí)間的關(guān)聯(lián)等一系列問(wèn)題都牽連著知識(shí)點(diǎn)之間的邏輯關(guān)聯(lián),從而帶動(dòng)著知識(shí)庫(kù)內(nèi)在邏輯結(jié)構(gòu)模型。這些都有待在具體實(shí)施過(guò)程中進(jìn)一步探索。
[1]鐘秀琴,劉忠,丁盤(pán)蘋(píng).基于混合推理的知識(shí)庫(kù)的構(gòu)建及其應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2012,35(4):761-766.
[2]楊炳儒,宋威,徐章艷.基于知識(shí)發(fā)現(xiàn)創(chuàng)新技術(shù)的專(zhuān)家系統(tǒng)新構(gòu)造[J].中國(guó)科學(xué):信息科學(xué),2007,37(6):738-747.
[3]王知津,王璇,馬靖.論知識(shí)組織的十大原則[J].國(guó)家圖書(shū)館學(xué)刊,2012,(4):3-11.
[4]賴茂生,屈鵬,謝靜.知識(shí)組織最新研究與實(shí)踐進(jìn)展[J].圖書(shū)情報(bào)工作,2009,(2):19-23.
[5]賀德方.國(guó)內(nèi)外知識(shí)組織體系的研究進(jìn)展及應(yīng)對(duì)策略[J].情報(bào)學(xué)報(bào),2010,(6):963-972.
[6]王軍,張麗.網(wǎng)絡(luò)知識(shí)組織系統(tǒng)的研究現(xiàn)狀和發(fā)展趨勢(shì)[J].中國(guó)圖書(shū)館學(xué)報(bào),2008,(1):65-69.
[7]畢強(qiáng),韓毅,劉昆.知識(shí)服務(wù)——現(xiàn)狀、進(jìn)展及挑戰(zhàn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2007,(6):41-50.
[8]董慧,徐雷.基于本體知識(shí)表示的歷史領(lǐng)域?qū)<蚁到y(tǒng)模型[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010,(7):72-78.
[9]王曰芬,熊銘輝,吳鵬.面向個(gè)性化服務(wù)的知識(shí)研究[J].情報(bào)理論與實(shí)踐,2008,(1):7-11.
[10]李廣建,李亞子.基于分布式知識(shí)庫(kù)的開(kāi)放服務(wù)鏈接系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)學(xué)報(bào),2008,(2):244-249.
[11]宗南蘇,鄭業(yè)魯,錢(qián)平.基于SWRL的鱖魚(yú)疾病診斷知識(shí)表示與語(yǔ)義推理實(shí)現(xiàn)[J].情報(bào)學(xué)報(bào),2010,(3):414-421.
[12]黃海松,謝慶生,李少波.基于知識(shí)的中藥制造企業(yè)MES[J].系統(tǒng)工程理論與實(shí)踐,2012,(1):164-172.
[13]孫勇,李妮,龔光紅.基于知識(shí)庫(kù)的動(dòng)態(tài)蟻群算法[J].北京工業(yè)大學(xué)學(xué)報(bào),2012,(3):374-379.
[14]Gail Hodge,Linda Hill,et al.Next generation knowledge organization systems:Integration challenges and strategies[C].Proceedings of the 5th ACM/IEEE-CS joint conference on Digital libraries,ACM New York,NY,USA 2005.
[15]Ed Summers,Antoine Isaac,Clay Redding and Dan Krech.LCSH,SKOS and linked data[C].Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications(DCMI'08).Dublin Core Metada ta Initiative,2008:25-33.
[16]Simon Jupp,Sean Bechhofer,Robert Stevens.A flexible API and editor for SKOS[C].6th Annual European Semantic Web Conference(ESWC2009),2009:506-520.
[17]張曉林,張冬榮,李麟,等.機(jī)構(gòu)知識(shí)庫(kù)內(nèi)容保存于傳播權(quán)利管理[J].中國(guó)圖書(shū)館學(xué)報(bào),2012,(4):46-54.
[18]張旺強(qiáng)、祝忠明,盧利農(nóng).機(jī)構(gòu)知識(shí)庫(kù)集成OpenKOS主題標(biāo)引與檢索聚類(lèi)服務(wù)的實(shí)現(xiàn)及應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012(3):1-7.
[19]王宏志,李建中,高宏.一種非清潔數(shù)據(jù)庫(kù)的數(shù)據(jù)模型[J].軟件學(xué)報(bào),2012,23(3):539-548.
[20]張巖,楊龍,王宏志.劣質(zhì)數(shù)據(jù)庫(kù)上閾值相似連接結(jié)果大小估計(jì)[J].計(jì)算機(jī)學(xué)報(bào),2012,35(10):2159-2168.