雷楓 孫輝
[摘? ? 要] 在指出當(dāng)前人文社科領(lǐng)域信息管理和服務(wù)不足的基礎(chǔ)上,提出知識管理是人文社科資源提供高質(zhì)量知識服務(wù)的必由之路。文章從資源組織的各個環(huán)節(jié)討論了知識管理的關(guān)鍵技術(shù)——構(gòu)建社科本體,并給出其應(yīng)用前景和應(yīng)用模式,最后介紹了基于國史學(xué)科進(jìn)行的國史本體研究的具體進(jìn)展。
[關(guān)鍵詞] 知識管理;信息組織;本體技術(shù);人文社會科學(xué);中華人民共和國史
1? ? ? 人文社科領(lǐng)域信息管理和服務(wù)現(xiàn)狀
過去幾年,互聯(lián)網(wǎng)上人文社科信息資源數(shù)量迅速增長,中國社會科學(xué)院建成了大量專業(yè)數(shù)據(jù)庫和專業(yè)學(xué)科網(wǎng),但這些信息系統(tǒng)在信息組織方面大多采用傳統(tǒng)方法;部分商業(yè)數(shù)據(jù)公司雖然提供了基于統(tǒng)計的知識管理,但總體來說這些資源的信息處理和組織層次較低,信息服務(wù)遠(yuǎn)未達(dá)到知識服務(wù)的水平。
1.1? ?關(guān)于信息導(dǎo)航
僅提供傳統(tǒng)的基于分類的信息導(dǎo)航,不能按照某一個概念及其相關(guān)概念進(jìn)行導(dǎo)航,即不能提供關(guān)于知識的導(dǎo)航。
1.2? ?關(guān)于檢索方法
僅提供關(guān)鍵詞檢索和全文檢索,這兩種傳統(tǒng)的物理檢索方式效率不高。由于用戶與標(biāo)引人員對語義的理解存在歧義,而同一概念有多種表達(dá),基于關(guān)鍵詞的檢索容易造成漏檢;基于全文檢索造成海量檢索結(jié)果,大量無關(guān)信息充斥其中,用戶要花大量時間甄別,查準(zhǔn)率低下;提供的檢索結(jié)果為線性、散列的文檔列表,呈現(xiàn)的是原始狀態(tài)信息,用戶必須通過研讀、總結(jié)提煉才能獲取知識。
1.3? ?主題詞的使用停滯在文獻(xiàn)著錄環(huán)節(jié)
盡管《中國分類主題詞表》第二版及其Web版本已研制成功,但該詞表還是僅用于文獻(xiàn)著錄環(huán)節(jié),沒有在檢索環(huán)節(jié)被大規(guī)模采用,關(guān)鍵詞檢索仍然是當(dāng)前的主要手段,檢索效率問題難以解決。
1.4? ?基于統(tǒng)計的知識管理所體現(xiàn)的知識關(guān)聯(lián)不準(zhǔn)確
當(dāng)前一些商業(yè)搜索引擎和商業(yè)數(shù)據(jù)庫(如百度和同方知網(wǎng))都提供“相關(guān)搜索”或“相似詞推薦”等大規(guī)模應(yīng)答結(jié)果的聚類組織。這種知識導(dǎo)航雖使文獻(xiàn)之間學(xué)術(shù)關(guān)聯(lián)特性得到一定程度釋放和展示,但都是基于用戶訪問數(shù)據(jù)挖掘或文獻(xiàn)共引數(shù)據(jù)挖掘,存在一定的偶然性和不準(zhǔn)確性,而且僅提示“相似”或“相關(guān)”信息,沒能進(jìn)一步提示概念之間具體的聯(lián)系。
1.5? ?缺乏統(tǒng)籌規(guī)劃和相關(guān)標(biāo)準(zhǔn),資源建設(shè) “各自為政”
社科院各學(xué)科開發(fā)的信息數(shù)量可觀,但異質(zhì)、異構(gòu),技術(shù)代際復(fù)雜,且?guī)缀醵际前虢Y(jié)構(gòu)化數(shù)據(jù),信息孤島大量存在,重復(fù)嚴(yán)重。統(tǒng)籌部門建立的信息系統(tǒng)也不具備從這些分布信息源中提取所需信息的“常識性知識”,從而不能自動從不同信息源中提取、集成相關(guān)信息并綜合分析,影響資源使用效率。同時當(dāng)信息源越來越大,將信息結(jié)構(gòu)化是一件艱苦而耗時的工作。這些問題不僅使得跨庫檢索難以完成、也使得知識資源的深度開發(fā)利用失去可能,成為進(jìn)行我院信息資源集成、共享、交換的瓶頸。
人文社科信息管理和服務(wù)水平低下,根本原因在于沒有用一種有效的手段對信息進(jìn)行組織,還停留在傳統(tǒng)的信息管理階段。如果想讓用戶更直觀地、清晰地看到相關(guān)知識間的關(guān)系,個性化地選擇相關(guān)資源,就必須基于知識的結(jié)構(gòu)和關(guān)系來管理信息資源。這一癥結(jié)指向了人文社科知識管理問題。
2? ? ? 從信息管理過渡到知識管理是人文社科資源建設(shè)的必由之路
知識管理本質(zhì)是將信息組織的顆粒度從文獻(xiàn)單元深入到文獻(xiàn)中的知識元,其實現(xiàn)手段就是在用戶和現(xiàn)有的海量信息資源實體之間建立一張概念網(wǎng),把文獻(xiàn)信息資源“網(wǎng)”到一起,在檢索時只需找到這張概念網(wǎng)的某一個“網(wǎng)格”,就可以找到對應(yīng)這個“網(wǎng)格”的所有文獻(xiàn)信息,如圖1所示。這個概念網(wǎng)格與文獻(xiàn)信息資源結(jié)合起來構(gòu)成一個完整的知識管理系統(tǒng),大量文獻(xiàn)中包含的知識元及相關(guān)知識元之間的關(guān)聯(lián)將產(chǎn)生極大的知識增值,在此基礎(chǔ)上將實現(xiàn)基于知識的共享、重用、語義檢索和推理等目標(biāo)。
人文社科知識管理反映在知識表示、知識組織、知識檢索等層次上,涉及語義網(wǎng)、本體論、元數(shù)據(jù)等相關(guān)理論和技術(shù),其核心內(nèi)容是構(gòu)造概念網(wǎng)格——社科本體論。本體論是用機(jī)器語言規(guī)范知識概念表示、進(jìn)行知識組織、開展知識服務(wù)的科學(xué)方法論,其已成為知識網(wǎng)格建立和管理的關(guān)鍵技術(shù)。利用本體論建立人文社會科學(xué)各學(xué)科知識庫,用學(xué)科規(guī)范化的概念及其關(guān)系構(gòu)造一個網(wǎng)狀的知識原型系統(tǒng),帶有豐富語義關(guān)系和分類層次,使之成為每個學(xué)科的知識組織范式,通過其“網(wǎng)羅”人文社科信息資源實體,形成社科語義網(wǎng)。
2.1? ?在知識表示環(huán)節(jié)
通過對各學(xué)科知識進(jìn)行分析,將抽象出的知識元及其關(guān)系組織在本體框架下。這些知識元分為三類:理論與方法類、事實類、數(shù)值類,包括學(xué)科概念、方法、規(guī)則、公理、事實等。所有知識元的同義特征、簇性特征以及豐富的關(guān)聯(lián)特征都以結(jié)構(gòu)化的本體形式表達(dá),包含的相關(guān)公理和規(guī)則供推理。這樣的學(xué)科本體就是一個學(xué)科知識的全部反映,其揭示的概念之間的關(guān)系是實現(xiàn)語義挖掘和關(guān)聯(lián)導(dǎo)航的基礎(chǔ)。
2.2? ?在知識組織環(huán)節(jié)
利用元數(shù)據(jù)對文獻(xiàn)內(nèi)容所含有的知識元進(jìn)行標(biāo)注:用基于本體的分類體系對文獻(xiàn)進(jìn)行學(xué)科分類,用基于本體的主題詞概念進(jìn)行對文獻(xiàn)進(jìn)行知識規(guī)范化描述。形成的描述信息實際就是知識的特征影像,可以刻畫文獻(xiàn)所包含的知識的全部特征。這一細(xì)粒度的標(biāo)引揭示出文獻(xiàn)中知識及其關(guān)聯(lián)。然后利用元數(shù)據(jù)體系將信息資源實體與基于本體的知識網(wǎng)格建立關(guān)聯(lián),從而對文獻(xiàn)資源進(jìn)行全面管理。文獻(xiàn)信息資源就成為一個以知識本體網(wǎng)絡(luò)為中心,結(jié)合作者、機(jī)構(gòu)、刊名、關(guān)鍵詞、相關(guān)作者、相關(guān)機(jī)構(gòu)、相關(guān)關(guān)鍵詞等外在特征單元的知識網(wǎng)絡(luò),可大大提高文獻(xiàn)資源的知識增值效應(yīng),為信息資源的深度開發(fā)利用提供保證。
2.3? ?在知識檢索服務(wù)環(huán)節(jié)
通過基于本體的知識呈現(xiàn)和導(dǎo)航,可實現(xiàn)智能推送和知識羅盤。用戶在文獻(xiàn)信息檢索時還是輸入關(guān)鍵詞,但這時的檢索過程和傳統(tǒng)的基于字面匹配的關(guān)鍵詞檢索有本質(zhì)的區(qū)別。首先,系統(tǒng)會根據(jù)學(xué)科知識本體網(wǎng)格中內(nèi)置的概念關(guān)系找到與關(guān)鍵詞相同和相關(guān)的概念,自動修正查詢式或再構(gòu)造出一個或多個查詢式來實現(xiàn)對知識的擴(kuò)展檢索,從而找到用戶真正需要的信息,提供包括數(shù)值、學(xué)術(shù)圖形、表格、歷史事件、概念、學(xué)說、模型、規(guī)則、學(xué)術(shù)趨勢,以及資源類型、期刊、基金、作者、機(jī)構(gòu)等的搜索結(jié)果,并提供多角度的文獻(xiàn)聚類;其次,系統(tǒng)以可視化形式在檢索結(jié)果界面中顯示以檢索概念為中心的本體概念體系的相關(guān)部分,用戶可沿著這個知識地圖進(jìn)行相關(guān)檢索——知識地圖和文獻(xiàn)檢索結(jié)果呈現(xiàn)出類似知識羅盤的效果,從而將傳統(tǒng)上線性、一維、散列的結(jié)果立體化、多維化,大大提高檢索效率。
在以上所有環(huán)節(jié)中,知識表示極其重要,是實現(xiàn)知識組織和智能檢索的基礎(chǔ),而本體論和語義網(wǎng)技術(shù)在知識表示、知識組織環(huán)節(jié)所起的作用也是最大的?;诒倔w論和語義網(wǎng)的知識服務(wù)的質(zhì)量很大程度上取決于本體構(gòu)建的質(zhì)量。
建立人文社科知識管理系統(tǒng),應(yīng)加強(qiáng)知識庫——人文社科本體的構(gòu)建,據(jù)此建立人文社科信息資源管理標(biāo)準(zhǔn),將大大加強(qiáng)知識揭示的維度和深度,增加人文社科領(lǐng)域內(nèi)信息的相互作用,從而盤活人文社科信息資源,促進(jìn)資源的深度開發(fā)和綜合利用。本體形成的對于人文社科信息組織結(jié)構(gòu)的共同理解,為現(xiàn)有社科信息資源進(jìn)行知識挖掘、實現(xiàn)語義層面上的互通互連提供了基礎(chǔ),為中國社會科學(xué)院進(jìn)一步建立社科語義網(wǎng)絡(luò)、提供高級社科語義服務(wù)提供保障。
3? ? ? 人文社科本體論在社科知識管理中的應(yīng)用
3.1? ?基于知識管理標(biāo)準(zhǔn)的信息資源建設(shè)
在資源庫建設(shè)中,利用人文社會科學(xué)本體對文獻(xiàn)信息進(jìn)行知識(即內(nèi)容的主題、分類或?qū)W科其他知識特征)標(biāo)引,如使用本體中的概念作為主題詞,使用本體中的概念層次體系作為其學(xué)科分類,實現(xiàn)人文社科信息資源統(tǒng)一規(guī)范下的知識描述,從而勾畫出人文社科信息資源的知識映像。
3.2? ?改善信息服務(wù)方式
人文社科本體實際上是一個以揭示各學(xué)科專業(yè)詞匯所代表的概念之間關(guān)系為基本內(nèi)容的專業(yè)知識庫系統(tǒng),是一種大百科式詞典。詞典是中文信息處理的基石,是文本挖掘的基礎(chǔ),將其嵌入學(xué)科網(wǎng)或社科期刊網(wǎng)可構(gòu)造出社科“知識節(jié)”,不僅提供知識推送,還能使檢索結(jié)果的呈現(xiàn)反映出學(xué)科概念間的關(guān)系,自動進(jìn)行語義歸類聚類,有效解決關(guān)聯(lián)組合爆炸的實際問題,從而構(gòu)造“社科知網(wǎng)”。當(dāng)前同方的“中國知網(wǎng)”構(gòu)造的“知識節(jié)”是基于用戶訪問數(shù)據(jù)挖掘或文獻(xiàn)共引數(shù)據(jù)挖掘,通過統(tǒng)計方法研究海量概念關(guān)系、分析通用關(guān)聯(lián)規(guī)則、構(gòu)造海量概念關(guān)系詞典來實現(xiàn)的。通過該知識節(jié)揭示的文獻(xiàn)之間引證關(guān)系而提供的推送服務(wù),在追索課題歷史、研究背景,把握目前進(jìn)展和未來發(fā)展方向方面頗有助益。但該知識節(jié)提供的概念關(guān)系不如學(xué)科本體表現(xiàn)的關(guān)系豐富和準(zhǔn)確,也就是說基于學(xué)科本體才能構(gòu)造出真正的語義網(wǎng),實現(xiàn)真正的知識導(dǎo)航,從而有助于對學(xué)術(shù)的激發(fā)、引導(dǎo)、類比和聯(lián)想。
此外,充分發(fā)揮人文社科本體作為檢索模型的工具作用,比如與搜索引擎結(jié)合,可進(jìn)一步構(gòu)造人文社科搜索引擎,不僅能夠?qū)崿F(xiàn)社科信息的準(zhǔn)確檢索,而且可以引發(fā)用戶對新的社科信息內(nèi)容的興趣,即通過豐富的詞間聯(lián)系,鏈接相關(guān)的人文社科信息,提供知識導(dǎo)航,為用戶使用信息提供線索。如果條件成熟,可應(yīng)用于“中國社科網(wǎng)”,或商品化應(yīng)用于互聯(lián)網(wǎng)。
3.3? ?國史學(xué)科本體應(yīng)用初探
人文社會科學(xué)各學(xué)科涉及理論(學(xué)說)、方法、規(guī)則、公理、知識(事實)等范疇,所以一般來說人文社科本體構(gòu)建工作應(yīng)按照學(xué)科等級分支原則自上而下順次進(jìn)行,多領(lǐng)域?qū)<倚〗M共同完成。比如國史(1949年以后的中華人民共和國史)學(xué)科是一個二級學(xué)科,包括政治史、經(jīng)濟(jì)史、社會史、文化史等分支,其學(xué)理概念必然散落在政治、經(jīng)濟(jì)、社會、歷史、哲學(xué)等一級學(xué)科概念中。但筆者認(rèn)為(知識)事實是歷史學(xué)科中最有特色的部分,也是可以獨立完成的部分。筆者所在實驗室對國史學(xué)科的事實(知識)部分進(jìn)行了本體構(gòu)建探索,以中華人民共和國編年史、黨史人物傳、組織機(jī)構(gòu)史等國史文獻(xiàn)為知識源,研究分析出事件、人物、歷史文獻(xiàn)、組織、理念等核心概念及其之間錯綜復(fù)雜的關(guān)系,設(shè)計出國史知識本體概念關(guān)系模型(如圖2所示)。該模型離一個完備實用的模型還有很大差距,如子事件的劃分、多維概念的分解等都是難點,需要國史專家和技術(shù)人員共同完成。圖3是以上述概念模型為基礎(chǔ)構(gòu)建的一個簡單的國史知識本體原型系統(tǒng),圖中展示了該系統(tǒng)提供的國史知識可視化互動檢索功能。如輸入檢索詞“決議”,系統(tǒng)以可視化方式顯示出與“通過《關(guān)于建國以來黨的若干歷史問題的決議》”這個事件相關(guān)的概念,如該事件的“涉及文獻(xiàn)”有“《關(guān)于建國以來黨的若干歷史問題的決議》”,該事件的“相關(guān)事件”有“十一屆六中全會”、“鄧小平會見法拉奇”、“葉劍英國慶三十周年講話”、“真理標(biāo)準(zhǔn)大討論”等等。節(jié)點之間連線顯示出概念之間的不同的關(guān)系,如圖中 “通過《決議》”和“撥亂反正”之間的連線,系統(tǒng)提示是“涉及理念”的關(guān)系。進(jìn)一步輸入檢索詞“胡耀邦”,系統(tǒng)從圖3檢索結(jié)果提取出與“胡耀邦”相關(guān)的概念,提供了延伸導(dǎo)航功能(如圖4所示)。繼續(xù)點擊圖3中其他節(jié)點,系統(tǒng)進(jìn)一步呈現(xiàn)其相關(guān)概念(如圖5所示)。
筆者所在實驗室對人文社科本體構(gòu)建進(jìn)行了初步探索,旨在以此為基礎(chǔ)實現(xiàn)基于語義的文獻(xiàn)資源檢索功能。上述原型系統(tǒng)僅僅是一種基于本體實現(xiàn)國史主題詞表的探索,在國史概念模型、協(xié)同編輯環(huán)境、知識來源和獲取等方面做得相當(dāng)粗淺。筆者將在人力財力和技術(shù)加大投入的情況下,做進(jìn)一步探索。
4? ? ? 總? ? 結(jié)
社科本體論提供了一種解決問題的思路,是人文社科信息服務(wù)向知識服務(wù)過渡的一條可行之路,它為實現(xiàn)真正意義上的人文社科知識服務(wù)帶來曙光。基于社科本體論構(gòu)建人文社科知識管理,將解決人文社科信息資源知識組織、共享、集成、交換等瓶頸問題,是實現(xiàn)智能化檢索以及未來其他社科領(lǐng)域應(yīng)用服務(wù)系統(tǒng)的基礎(chǔ),是人文社科知識工程基礎(chǔ)設(shè)施建設(shè)的重要內(nèi)容,對人文社科知識最大限度的傳播和利用有著不可估量的作用。
主要參考文獻(xiàn)
[1]董慧,余傳明,楊寧.基于本體的數(shù)字圖書館檢索模型研究(III)——歷史領(lǐng)域資源本體構(gòu)建[J]. 情報學(xué)報,2006(5):564-574.
[2]彭煒明,宋繼華.《資治通鑒》歷史領(lǐng)域本體構(gòu)建及其應(yīng)用研究[J].中文信息學(xué)報,2010(2):33-38.
[3]孫輝,雷楓.中華人民共和國史本體構(gòu)建初探[J].現(xiàn)代情報,2014(2):32-42.
[4]吳麗杰.基于本體的特色數(shù)據(jù)庫知識組織研究[J].圖書館學(xué)刊,2012(3):41-43.