朱艷華 胡良霖
(中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京 100190)
基于領(lǐng)域知識關(guān)聯(lián)的集成服務(wù)系統(tǒng)研究
——以植物學(xué)領(lǐng)域為例
朱艷華 胡良霖
(中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京 100190)
在對知識關(guān)聯(lián)的概念和常見應(yīng)用形式概述的基礎(chǔ)上,探索科學(xué)數(shù)據(jù)系統(tǒng)引入知識關(guān)聯(lián)需要解決的兩個關(guān)鍵性問題,即如何集成實體對象的知識節(jié)點和如何確定實體對象的關(guān)聯(lián)標(biāo)識。然后以植物學(xué)領(lǐng)域為切入點,分析知識關(guān)聯(lián)模型在植物數(shù)據(jù)整合和增值服務(wù)方面發(fā)揮的作用,構(gòu)建植物學(xué)知識關(guān)聯(lián)的集成服務(wù)實驗系統(tǒng),從而為知識關(guān)聯(lián)技術(shù)在實現(xiàn)異構(gòu)數(shù)據(jù)庫系統(tǒng)互操作方面做出了有益探索。
知識關(guān)聯(lián);科學(xué)數(shù)據(jù);植物學(xué)領(lǐng)域;數(shù)據(jù)整合;增值服務(wù);集成服務(wù)系統(tǒng)
隨著科學(xué)數(shù)據(jù)的快速積累和信息服務(wù)技術(shù)的不斷成熟,科學(xué)數(shù)據(jù)服務(wù)系統(tǒng)從孤立封閉的狀態(tài)逐步走向開放融合的階段,構(gòu)建合理的數(shù)據(jù)服務(wù)系統(tǒng)要考慮其實用性、互操作性和持續(xù)性。同時,科學(xué)數(shù)據(jù)資源具有多元且復(fù)雜的異構(gòu)性,不但不同學(xué)科數(shù)據(jù)庫之間的數(shù)據(jù)格式、數(shù)據(jù)結(jié)構(gòu)、操作平臺和應(yīng)用系統(tǒng)存在差異,而且同一學(xué)科數(shù)據(jù)庫內(nèi)部也存在命名方式、數(shù)據(jù)結(jié)構(gòu)模型方面的不統(tǒng)一[1]。目前還沒有適用的解決方案能夠?qū)Ω鱾€層次的異構(gòu)數(shù)據(jù)進(jìn)行合理的處理,實現(xiàn)科學(xué)數(shù)據(jù)之間的有效連接和整合。而知識關(guān)聯(lián)技術(shù)在實現(xiàn)異構(gòu)數(shù)據(jù)庫系統(tǒng)集成方面進(jìn)行了有益的探索。
知識關(guān)聯(lián)是指構(gòu)成知識系統(tǒng)的知識節(jié)點與節(jié)點之間的聯(lián)系,即使各相關(guān)節(jié)點間形成意義系統(tǒng)的聯(lián)系。這種聯(lián)系表現(xiàn)為一種拓?fù)浣Y(jié)構(gòu)形式存在的網(wǎng)絡(luò)結(jié)構(gòu)[2]。在知識關(guān)聯(lián)中知識與知識之間以某一中介為紐帶,建立起具有參考價值的關(guān)聯(lián)關(guān)系。概括地說,每個知識關(guān)聯(lián)網(wǎng)絡(luò)都由各類知識單元以及這些單元之間的關(guān)聯(lián)關(guān)系構(gòu)成。知識關(guān)聯(lián)能夠整合和揭示知識節(jié)點之間的聯(lián)系,是知識管理、知識發(fā)現(xiàn)和知識創(chuàng)新的基礎(chǔ)。
科學(xué)知識具有繼承性、累積性和連續(xù)性。任何新學(xué)科或新技術(shù)都是在原有學(xué)科或技術(shù)的基礎(chǔ)上分化、衍生出來的,都是對原有學(xué)科或技術(shù)的繼承和創(chuàng)新。同時,科學(xué)也具有統(tǒng)一性原則,各個學(xué)科之間都是彼此聯(lián)系、相互交叉和相互滲透的[3]。建立學(xué)科之間的知識關(guān)聯(lián)具有現(xiàn)實的基礎(chǔ)和可能,構(gòu)建科學(xué)合理的關(guān)聯(lián)模型是計算機處理信息和解決數(shù)據(jù)內(nèi)容整合的關(guān)鍵,科學(xué)數(shù)據(jù)引入知識關(guān)聯(lián)的意義亦在于此??茖W(xué)數(shù)據(jù)開展知識關(guān)聯(lián)方面的研究需要明確自身的目標(biāo)定位,最初可以從某一學(xué)科領(lǐng)域知識入手,深入考察該領(lǐng)域知識關(guān)聯(lián)的內(nèi)容范圍、功能作用和應(yīng)用模式,藉此為知識關(guān)聯(lián)在科學(xué)數(shù)據(jù)應(yīng)用環(huán)境中的全面實施探索道路。
本文擬以植物學(xué)領(lǐng)域為切入點,在科學(xué)數(shù)據(jù)庫系統(tǒng)中選取與植物有關(guān)的數(shù)據(jù)資源,構(gòu)建植物知識關(guān)聯(lián)模型,這些知識節(jié)點不僅包括植物學(xué)內(nèi)容,而且涉及到與植物相關(guān)的其他領(lǐng)域;深入挖掘知識關(guān)聯(lián)在植物數(shù)據(jù)整合和增值服務(wù)等方面發(fā)揮的功用,并嘗試開發(fā)基于植物領(lǐng)域知識關(guān)聯(lián)的集成服務(wù)實驗系統(tǒng)。
知識關(guān)聯(lián)揭示了大量知識單元之間存在的序化聯(lián)系,以及隱藏的、最終可用的關(guān)聯(lián)關(guān)系。有學(xué)者認(rèn)為知識關(guān)聯(lián)具有相互性、傳遞性、普遍性、多重性、隱含性、積累性和動態(tài)性、可創(chuàng)造性、層次性和結(jié)構(gòu)性等特征[4]。常見的知識關(guān)聯(lián)類型有分類詞表、主題詞典、文獻(xiàn)或數(shù)據(jù)引用以及語義網(wǎng)中的本體等。其中,分類詞表和主題詞典是早期的知識關(guān)聯(lián)和分類組織形式;文獻(xiàn)或數(shù)據(jù)的引用關(guān)聯(lián)揭示了圖書文獻(xiàn)或數(shù)據(jù)之間的引證與被引證關(guān)系,開辟了知識組織的另一途徑;本體作為語義網(wǎng)實現(xiàn)的關(guān)鍵技術(shù)之一,是對共享概念模型的明確的形式化規(guī)范說明[5],領(lǐng)域本體描述了特定領(lǐng)域中的概念和概念之間的各種關(guān)系。
知識管理研究機構(gòu)kmpro首席分析師王振宇認(rèn)為知識關(guān)聯(lián)在知識管理中有6種常見的應(yīng)用形式,即類別關(guān)聯(lián)、關(guān)鍵詞關(guān)聯(lián)、診斷/推理關(guān)聯(lián)、聚類關(guān)聯(lián)、行為關(guān)聯(lián)和屬性關(guān)聯(lián)[6]。其中,類別關(guān)聯(lián)是最為常見的一種關(guān)聯(lián)方式,即屬于同一個知識分類中的知識之間的關(guān)聯(lián)。以植物學(xué)領(lǐng)域為例,物種分類體系中的界、門、綱、目、科、屬、種揭示了物種之間的等級分類關(guān)系。關(guān)鍵詞關(guān)聯(lián)是以知識內(nèi)容中的關(guān)鍵詞作為關(guān)聯(lián)紐帶,有相同關(guān)鍵詞的知識進(jìn)入關(guān)聯(lián)體系中。如研究植物的論文通過關(guān)鍵詞聚合相似研究內(nèi)容的文獻(xiàn)。診斷/推理關(guān)聯(lián)是以一個問題為核心,將解決該問題的知識層層推理出來。如在查找植物地區(qū)分布的過程中,通過行政區(qū)劃表將較小的區(qū)縣范圍擴展到較大的省市,查找到更廣泛的植物地區(qū)分布信息。聚類關(guān)聯(lián)是通過對定量知識的分析,聚類出相關(guān)性較強的內(nèi)容。如研究植物物種信息時,可以聚類物種的引種保育、化學(xué)成分和功能用途等相關(guān)性很高的內(nèi)容。行為關(guān)聯(lián)通過對知識使用者的行為進(jìn)行分析,發(fā)現(xiàn)這些行為之間的關(guān)聯(lián)性和連續(xù)性,從而推理出用戶所進(jìn)行這些行為是運用知識間的關(guān)聯(lián)性。屬性關(guān)聯(lián)是以知識與知識之間的同一個屬性為中介將知識關(guān)聯(lián)起來。如根據(jù)植物的地區(qū)分布或花果期可以集成同一地區(qū)的物種或同花果期的物種等。
3.1 植物學(xué)資源范圍
植物資源是科學(xué)數(shù)據(jù)資源體系的重要組成部分,包括中國植物物種信息數(shù)據(jù)庫、東北植物與生境數(shù)據(jù)庫、西雙版納熱帶植物園植物引種與保育數(shù)據(jù)庫、中國熱帶亞熱帶植物學(xué)基礎(chǔ)數(shù)據(jù)庫和中國植物圖譜數(shù)據(jù)庫等。這些數(shù)據(jù)庫整合了與植物相關(guān)的各類信息,如植物物種的基本信息、圖片視頻、引種保育、野外生長、染色體和研究文獻(xiàn)等內(nèi)容。科學(xué)數(shù)據(jù)資源體系還包括與植物相關(guān)的其他領(lǐng)域數(shù)據(jù),如植物化學(xué)成分?jǐn)?shù)據(jù)庫收集了從植物所含有或者提取得到的化合物,包含化合物名稱、結(jié)構(gòu)、分子式和含量等信息;重要物種DNA條形碼數(shù)據(jù)庫整合了植物等重要類群的DNA條碼數(shù)據(jù),同時采集了與這些條碼密切相關(guān)的樣品采集信息、物種鑒定信息、條碼引物信息、PCR擴增信息和Trace File信息等內(nèi)容。
植物領(lǐng)域知識繁多而且分散,為保證植物集成服務(wù)系統(tǒng)的科學(xué)性和合理性,在系統(tǒng)構(gòu)建之前,必須確定資源內(nèi)容收集指導(dǎo)原則。在對系統(tǒng)功能需求和數(shù)據(jù)資源獲取易操作性等綜合考慮的基礎(chǔ)上,我們明確了植物內(nèi)容收集的全面性原則和專指性原則。全面性指的是系統(tǒng)收錄植物知識的完整程度,我們梳理了整個科學(xué)數(shù)據(jù)庫系統(tǒng)中所有與植物相關(guān)的資源,不僅考慮植物領(lǐng)域?qū)W科知識,也涉及跨領(lǐng)域的知識擴展。專指性是指所收集的知識針對領(lǐng)域研究的核心和重點,所選擇的知識節(jié)點是植物領(lǐng)域研究者關(guān)注的內(nèi)容。
3.2 植物學(xué)知識節(jié)點
在確定了收集范圍和收集原則后,我們就著手設(shè)計植物知識關(guān)聯(lián)模型,關(guān)聯(lián)模型是開發(fā)集成服務(wù)系統(tǒng)的關(guān)鍵。通過該模型,我們梳理了植物知識的脈絡(luò),并分類分層地組織所獲取的知識節(jié)點;以植物物種為最小記錄,確定的植物知識節(jié)點包括:植物物種基本信息、圖片視頻、引種、保育、野外采集、化學(xué)成分、染色體、DNA條碼、植物功用和研究文獻(xiàn)等,其關(guān)聯(lián)模塊、知識節(jié)點、來源數(shù)據(jù)庫和詳細(xì)內(nèi)容見表1所示。值得說明的是,這種整合不是物理集中,而是基于知識的邏輯集中。
基于表1中確定的16個關(guān)聯(lián)節(jié)點,我們設(shè)計了植物知識關(guān)聯(lián)圖(圖1)。圖1中每個節(jié)點對應(yīng)一個來源數(shù)據(jù)庫,每個來源數(shù)據(jù)庫都有物種拉丁名信息,因此,各知識節(jié)點之間通過物種拉丁名進(jìn)行關(guān)聯(lián)。針對同一個物種拉丁名之間的差異,我們采取人工方式進(jìn)行判斷和處理。
3.3 系統(tǒng)平臺的構(gòu)建
開發(fā)集成服務(wù)系統(tǒng)平臺主要包括3個方面工作:首先從來源數(shù)據(jù)庫中選擇系統(tǒng)實現(xiàn)所需要的樣例數(shù)據(jù);其次設(shè)計系統(tǒng)平臺頁面呈現(xiàn)風(fēng)格和服務(wù)功能;最后由程序員開發(fā)平臺系統(tǒng)。
作為一個實驗系統(tǒng)平臺,首要任務(wù)是確定樣例數(shù)據(jù)。我們選擇那些在知識節(jié)點中出現(xiàn)較多的數(shù)據(jù)作為樣例數(shù)據(jù)。為了實現(xiàn)平臺服務(wù)功能,知識關(guān)聯(lián)圖的每個節(jié)點都要包含盡可能多的數(shù)據(jù)內(nèi)容。我們主要通過物種拉丁名查找在來源數(shù)據(jù)庫中重復(fù)較多的數(shù)據(jù)記錄。物種拉丁名是每一個知識節(jié)點來源數(shù)據(jù)庫都包含的信息,而且在很多情況下作為唯一標(biāo)識符,因此依據(jù)物種拉丁名,在這些選定的數(shù)據(jù)庫中確定重合度高的物種作為系統(tǒng)樣例數(shù)據(jù)。
表1 植物知識關(guān)聯(lián)節(jié)點
圖1 植物知識關(guān)聯(lián)模型圖
平臺頁面主要包括3類:首頁面、概覽頁面和細(xì)覽頁面。其中,首頁面包括檢索功能區(qū)域、內(nèi)容簡介和知識關(guān)聯(lián)圖。概覽頁面主要展示檢索結(jié)果的概要信息,當(dāng)檢索結(jié)果不止有一條記錄時,系統(tǒng)將返回一個檢索列表,列表中主要顯示物種基本信息。細(xì)覽頁面展示每個節(jié)點的全部信息,即基本信息、詳細(xì)信息、更多信息、關(guān)聯(lián)信息和知識關(guān)聯(lián)圖信息?;拘畔@示物種基本內(nèi)容;詳細(xì)信息顯示每個知識節(jié)點的核心信息;更多信息跳轉(zhuǎn)至該節(jié)點來源數(shù)據(jù)庫記錄的詳細(xì)頁面,關(guān)聯(lián)信息顯示與該物種有關(guān)的其他物種信息;知識關(guān)聯(lián)圖以拓?fù)鋱D形式展示與該節(jié)點相關(guān)的其他節(jié)點入口。
確定了樣例數(shù)據(jù)和頁面設(shè)計方案后,程序員就可以開發(fā)系統(tǒng)平臺了。當(dāng)然,在開發(fā)的過程中,我們還要根據(jù)具體數(shù)據(jù)情況調(diào)整知識關(guān)聯(lián)節(jié)點。系統(tǒng)開發(fā)完成后,我們還需要制定規(guī)范的系統(tǒng)測試方案,修改和完善平臺功能,保證平臺穩(wěn)定有效地展示和運行。
相比一般的數(shù)據(jù)服務(wù)平臺,我們構(gòu)建的集成服務(wù)系統(tǒng)在提高檢索效率和增值服務(wù)方面具有顯著優(yōu)勢。其優(yōu)勢主要表現(xiàn)在以下幾個方面。
(1)實現(xiàn)智能語義檢索。在植物學(xué)領(lǐng)域構(gòu)建知識關(guān)聯(lián)模型可以實現(xiàn)服務(wù)平臺數(shù)據(jù)查詢的語義理解和擴展,具有智能檢索功能?,F(xiàn)階段的查詢請求主要是通過將查詢語句解析成一個個單詞,然后進(jìn)行關(guān)鍵詞匹配,再把匹配的結(jié)果按照一定算法進(jìn)行過濾和排序,最后提供給用戶,這個過程幾乎沒有語義分析。引入知識關(guān)聯(lián)模型后,用戶基于自然語言的查詢請求就可以翻譯成植物學(xué)領(lǐng)域相關(guān)概念組成的查詢語句,并根據(jù)檢索提問的不同,對查詢請求進(jìn)行知識擴展,如通過植物物種異名和俗名等字段獲取檢索關(guān)鍵詞的同義擴展;通過植物分類等級確定的物種分類關(guān)系而進(jìn)行的屬性擴展;利用行政地理分布字典的等級區(qū)劃推斷物種分布地信息等[7]。用戶輸入檢索詞后,經(jīng)過有關(guān)字段的擴展和推理,得到語義豐富的關(guān)鍵詞列表,用戶再根據(jù)這些擴展后的關(guān)鍵詞組,進(jìn)一步明確檢索需求,提高檢全率,在一定程度上實現(xiàn)了智能語義檢索。
(2)提升數(shù)據(jù)增值服務(wù)。在植物學(xué)領(lǐng)域構(gòu)建知識關(guān)聯(lián)模型可以提升數(shù)據(jù)增值服務(wù)。通過領(lǐng)域知識關(guān)聯(lián)中概念之間豐富的關(guān)聯(lián)和其中包含的規(guī)則進(jìn)行邏輯推理,深入分析和挖掘數(shù)據(jù)內(nèi)部隱含的語義知識關(guān)系,由一個知識點擴展到相關(guān)知識單元,并最終形成整個領(lǐng)域,甚至跨領(lǐng)域的知識網(wǎng)絡(luò),實現(xiàn)數(shù)據(jù)更高層次的增值服務(wù)?;陉P(guān)聯(lián)知識模型的系統(tǒng)平臺能夠?qū)z索結(jié)果所隱含的知識關(guān)聯(lián)進(jìn)行有效分析,讓用戶基于一次查詢就能快捷獲取增值服務(wù)的體驗。用戶如果檢索某物種的引種保育情況,平臺還能提供與物種引種保育相關(guān)的各種信息,如集成同引種人物種、同引種地物種、同海拔物種和同性狀物種等額外信息,為用戶提供新的研究視角。
1982年,中國科學(xué)院正式提出科學(xué)數(shù)據(jù)庫及其應(yīng)用系統(tǒng)建設(shè)項目。經(jīng)過30年的持續(xù)發(fā)展,參與數(shù)據(jù)庫建設(shè)的單位從最初的幾家研究所擴展到院內(nèi)62家研究所,幾乎覆蓋了中國科學(xué)院所有的研究領(lǐng)域;科學(xué)數(shù)據(jù)庫工程已經(jīng)建成為一個龐大的、資源類型多樣的科學(xué)數(shù)據(jù)庫群?!笆晃濉逼陂g,中國科學(xué)院科技數(shù)據(jù)基礎(chǔ)設(shè)施正式列入中國科學(xué)院信息化基本環(huán)境,進(jìn)行重點建設(shè),為科研活動提供綜合性的數(shù)據(jù)應(yīng)用環(huán)境[8]。在“十五”的基礎(chǔ)上,全院從信息化戰(zhàn)略資源高度,系統(tǒng)規(guī)劃科學(xué)數(shù)據(jù)資源體系?;谠簝?nèi)有特色和長期積累的數(shù)據(jù)資源,通過嚴(yán)格質(zhì)量控制與管理建成了具有完整性和權(quán)威性的2個參考型數(shù)據(jù)庫;根據(jù)國家和院內(nèi)部署的重大研究計劃或項目,建設(shè)了4個專題數(shù)據(jù)庫;面向特定的學(xué)科和應(yīng)用領(lǐng)域,整合若干邏輯相關(guān)的數(shù)據(jù)庫,建設(shè)了8個主題數(shù)據(jù)庫;并從“十五”期間已支持且服務(wù)比較好、使用比較廣泛的數(shù)據(jù)庫中擇優(yōu)確定了37個重點專業(yè)數(shù)據(jù)庫[9]。
面對這樣一個來自不同建庫單位,數(shù)據(jù)量龐大且存在著復(fù)雜異構(gòu)的科學(xué)數(shù)據(jù)庫體系,如何實現(xiàn)數(shù)據(jù)資源的集成和共享引起研究者的普遍關(guān)注。要解決科學(xué)數(shù)據(jù)跨學(xué)科集成,我們需要解決兩個關(guān)鍵問題,一是如何實現(xiàn)同一個實體對象所有屬性數(shù)據(jù)的集成,二是如何確定不同來源數(shù)據(jù)庫的對象唯一標(biāo)識,完成個體之間的有效關(guān)聯(lián)。知識關(guān)聯(lián)可以解決數(shù)據(jù)庫跨學(xué)科集成問題,每個知識關(guān)聯(lián)網(wǎng)絡(luò)都是由各知識單元以及這些單元之間的關(guān)聯(lián)關(guān)系構(gòu)成,我們引入知識關(guān)聯(lián)的意義亦在于此。
5.1 集成實體對象的知識節(jié)點
科學(xué)數(shù)據(jù)一般包括標(biāo)識實體對象的數(shù)據(jù)和描述實體對象屬性的數(shù)據(jù)。事實上,實體對象的標(biāo)識屬性和描述屬性也是相對的,特別是在交叉學(xué)科和跨領(lǐng)域的科學(xué)數(shù)據(jù)中[10]。在某個學(xué)科領(lǐng)域作為描述對象屬性的數(shù)據(jù),在另一個相關(guān)學(xué)科領(lǐng)域可能是標(biāo)識數(shù)據(jù),而在某個學(xué)科領(lǐng)域作為對象個體標(biāo)識的數(shù)據(jù),在另一個相關(guān)學(xué)科領(lǐng)域則成為屬性數(shù)據(jù)。如植物研究論文數(shù)據(jù)庫,從文獻(xiàn)角度看,論文是其實體對象,文獻(xiàn)中研究的物種是論文的屬性數(shù)據(jù),表示文章的研究內(nèi)容,而從植物學(xué)角度看,物種也是個實體對象,論文可以作為其屬性數(shù)據(jù)。
在科學(xué)數(shù)據(jù)庫系統(tǒng)內(nèi)部構(gòu)建知識關(guān)聯(lián)模型,需要明確研究實體對象和內(nèi)容范圍,集成同一個對象的相關(guān)屬性數(shù)據(jù),并從中抽象出實體對象的知識節(jié)點,確定實體對象的唯一標(biāo)識,建立對象之間的關(guān)聯(lián)關(guān)系。例如在化學(xué)領(lǐng)域構(gòu)建知識關(guān)聯(lián),以化合物為實體對象,關(guān)聯(lián)植物化學(xué)成分?jǐn)?shù)據(jù)庫中的植物物種數(shù)據(jù)、藥物數(shù)據(jù)庫中化合物治療的疾病數(shù)據(jù)等。知識關(guān)聯(lián)實現(xiàn)了跨學(xué)科領(lǐng)域?qū)ο髠€體間的連接,數(shù)據(jù)整合不再局限于某一個學(xué)科,而是擴展到多個相關(guān)學(xué)科。利用知識關(guān)聯(lián)模型圖,我們就能從實體對象的一個知識單元找到另一個知識單元,而且在同一個節(jié)點上還能深入挖掘其相關(guān)信息,比如借助藥用植物數(shù)據(jù)庫中的物種信息可以集成具有相同藥用價值的物種。
5.2 確定實體對象的關(guān)聯(lián)標(biāo)識
要實現(xiàn)實體對象知識節(jié)點之間的有效關(guān)聯(lián),需要確定個體對象唯一標(biāo)識。由于數(shù)據(jù)來源不同或采用不同的標(biāo)識規(guī)則,科學(xué)數(shù)據(jù)庫的個體異構(gòu)是一個很普遍的現(xiàn)象。所謂科學(xué)數(shù)據(jù)的個體異構(gòu),指的是對同一個對象使用了不同的表述方法,使得在不同數(shù)據(jù)庫中的相同個體無法確定相互間的關(guān)系[9]。以植物為例,物種作為一個實體對象,通常以物種名作為標(biāo)識,但是在實際操作的過程中,物種名又存在拉丁學(xué)名、中文學(xué)名、異名和俗名等情況。現(xiàn)在通用的林奈雙名命名體系中,植物拉丁名采用兩個拉丁化的名字來命名。第一個名代表“屬”名,第二個名代表“種加詞”,屬名和種加詞組合起來構(gòu)成了物種名。在種名的后面,再注上命名者的姓名。即使都使用物種拉丁名,也會因為不同分類體系中不同人名的拼寫、屬種分類的差異而造成的物種標(biāo)識異構(gòu),導(dǎo)致植物數(shù)據(jù)之間無法直接采用物種拉丁名集成和共享。為此,我們需要建立不同標(biāo)識轉(zhuǎn)換的映射表,通過這個對照表,同一個對象的不同標(biāo)識符號都會映射到表中確定的唯一標(biāo)識,解決個體對象的異構(gòu)問題。
將知識關(guān)聯(lián)引入到科學(xué)數(shù)據(jù)庫集成服務(wù)是我們探索科學(xué)數(shù)據(jù)特色應(yīng)用服務(wù)的一種嘗試,本文基于科學(xué)數(shù)據(jù)庫系統(tǒng)中植物及其相關(guān)領(lǐng)域的數(shù)據(jù)資源,構(gòu)建植物領(lǐng)域知識關(guān)聯(lián)模型,并嘗試開發(fā)基于植物領(lǐng)域知識關(guān)聯(lián)的集成服務(wù)實驗系統(tǒng),為知識關(guān)聯(lián)技術(shù)在科學(xué)數(shù)據(jù)應(yīng)用環(huán)境的實施探索道路。
構(gòu)建領(lǐng)域知識關(guān)聯(lián)模型對解決科學(xué)數(shù)據(jù)異構(gòu),實現(xiàn)多個數(shù)據(jù)庫系統(tǒng)之間的互操作和多角度整合具有重要意義,知識關(guān)聯(lián)模型在實現(xiàn)跨領(lǐng)域數(shù)據(jù)整合、智能檢索、數(shù)據(jù)增值服務(wù)和數(shù)據(jù)文獻(xiàn)關(guān)聯(lián)等諸多方面都能發(fā)揮作用。本文探索了在科學(xué)數(shù)據(jù)庫系統(tǒng)創(chuàng)建知識關(guān)聯(lián)需要解決的兩個關(guān)鍵問題,即挖掘集成實體對象的知識節(jié)點和確定實體對象的關(guān)聯(lián)標(biāo)識,并以植物學(xué)領(lǐng)域為切入點,基于系統(tǒng)內(nèi)的植物相關(guān)資源內(nèi)容,構(gòu)建植物領(lǐng)域知識關(guān)聯(lián)模型,嘗試開發(fā)了集成服務(wù)實驗系統(tǒng)。
植物學(xué)知識關(guān)聯(lián)的集成服務(wù)系統(tǒng)是個開放的平臺,隨著植物領(lǐng)域研究的不斷深入和拓展,必然會產(chǎn)生更多的研究數(shù)據(jù),我們的平臺也需要及時跟蹤最新的領(lǐng)域數(shù)據(jù)資源,補充知識節(jié)點,更新關(guān)聯(lián)模型,收錄新的知識內(nèi)容。
本文的研究為知識關(guān)聯(lián)技術(shù)在科學(xué)數(shù)據(jù)應(yīng)用環(huán)境中的實施途徑作出了探索。知識關(guān)聯(lián)模型對解決科學(xué)數(shù)據(jù)異構(gòu),實現(xiàn)多個數(shù)據(jù)庫系統(tǒng)之間的互操作和多角度整合具有重要意義,知識關(guān)聯(lián)模型在實現(xiàn)跨領(lǐng)域數(shù)據(jù)整合、智能檢索、數(shù)據(jù)增值服務(wù)和數(shù)據(jù)文獻(xiàn)關(guān)聯(lián)等諸多方面都能發(fā)揮作用。
[1] 劉煒,李大玲,夏翠娟.元數(shù)據(jù)與知識本體[J].圖書館雜志,2004(6):51.
[2] 文庭孝,劉曉英.知識關(guān)聯(lián)的結(jié)構(gòu)分析[J].圖書館,2011 (2):1-7.
[3] 邱均平.信息計量學(xué)[M].武漢:武漢大學(xué)出版社,2007: 318-319.
[4] 文庭孝,龔蛟騰.知識關(guān)聯(lián):內(nèi)涵、特征與類型[J].圖書館,2011(4):32-35.
[5] Gruber T. Ontolingua: A Translation Approach to Portable Ontology Speci f cations[J]. Know ledge Acquisition, 1993,5(2):199-200.
[6] 王振宇.淺談知識關(guān)聯(lián)在知識管理中的應(yīng)用[EB/OL]. [2010-04-08]. http://www.kmpro.cn/htm l/kmyanjiuyuan/kmproheibanbao/10242.htm l.
[7] 戴維民等.語義網(wǎng)信息組織技術(shù)與方法[M].上海:學(xué)林出版社,2008:111-116.
[8] 中國科學(xué)院信息辦.2010年中國科學(xué)院信息化資源報告[R].北京,2010.
[9] 中國科學(xué)院數(shù)據(jù)應(yīng)用環(huán)境.[EB/OL].[2012-08-15]. www.csdb.cn.
[10] 陳維明.科學(xué)數(shù)據(jù)個體識別和跨學(xué)科集成[C]//科學(xué)數(shù)據(jù)庫與信息技術(shù)論文集.北京:科學(xué)出版社,2012:10-17.
Research of Integrated Service System Based on Domain Know ledge Connection by Botany Field
Zhu Yanhua, Hu Lianglin
(Computer Network Information Center of CAS, Beijing 100190)
Know ledge connection technology is a useful exploration to achieve interoperability of heterogeneous database systems. Building a scientif c and rational connection model is critical for computer information processing and data content interoperability. This paper outlines know ledge connection’s concept and its common application form s. To introduce know ledge connection in scientif c databases system, we need to solve two key issues. The f rst is how to integrate all attribute data of the same entity object; the second is how to determ ine its unique identifer. The paper mainly analyzes the role of know ledge connection and tries to develop integrated service experiment system in the botany feld.
know ledge connection, scientific data, botany field, data integration, value-added service, integrated service system
TP311
:ADOI:10.3772/j.issn.1674-1544.2013.01.010
朱艷華(1982- ),女,工程師,碩士,主要研究方向:數(shù)據(jù)庫技術(shù)與標(biāo)準(zhǔn)規(guī)范,數(shù)據(jù)應(yīng)用服務(wù)。
2012年10月24日。