宋 博
(煙臺大學圖書館,山東煙臺264005)
以計算機為代表的現(xiàn)代信息技術的迅速發(fā)展促進了信息社會的形成,專家學者們更為關注如何有效地獲取信息,研究不同的信息檢索方式,其中與人工智能相結合,提出了智能信息檢索這個概念,在如何實現(xiàn)智能信息檢索方面,人們做了很大努力,從信息用戶提問的理解、檢索策略的制定、搜索引擎的使用、數(shù)據(jù)資源的檢索、機器學習的研究到結果的給出,每一步都在不斷地發(fā)展和完善。下面本文主要研究在智能信息檢索的發(fā)展中,本體論所做出的貢獻。
知識的表示與利用是智能信息檢索所面臨的問題之一。人類的智能活動主要是一個獲得并運用知識的過程,知識是智能的基礎。為了讓計算機具有智能,就必須使它具有知識。[1]為了解決知識表示的這一難題,通過研究和認識知識,專家學者們提出了本體知識表示方式。而本體論主要的研究和應用方面也是智能信息檢索。
智能信息檢索其實質就是使信息檢索過程具有智能性。從字面上來說,智能信息檢索應該包含“智能”和“信息檢索”(本處不細分信息檢索)兩個方面,智能是人所特有的能力,將其冠名于信息檢索上,可以簡單地理解為即在進行信息檢索時達到“智能”的效果,形象地說就是在進行信息檢索時像是由檢索要求的提出者自己遍歷于數(shù)據(jù)庫之中,來選擇他自己所需的信息。事實是我們不可能程序化一個人,他的知識、經驗、習慣、偏愛、性情等,也不能讓他去數(shù)據(jù)庫這個虛擬的環(huán)境中,所以智能信息檢索的研究任重而道遠。從其演化過程來看,智能信息檢索是由兩條線發(fā)展而來的:第一條是,對人的心智的理解與表達,人工智能的部分實現(xiàn),應用到信息檢索中實現(xiàn)智能信息檢索;第二條,傳統(tǒng)的手工信息檢索,隨時代發(fā)展而來的機械信息檢索和現(xiàn)代廣泛應用的計算機信息檢索(傳統(tǒng)的批處理檢索方式,聯(lián)機信息檢索,網(wǎng)絡信息檢索),[2]其檢索從古至今都是根據(jù)兩個思想來進行的,那就是分類檢索和主題檢索,其中主題檢索,尤其是基于關鍵詞的檢索由于更適應網(wǎng)絡信息的分布及其檢索方式而發(fā)展起來。可是基于關鍵詞的檢索誤檢率也是很高,隨著信息檢索的深入而顯得力不從心。目前,人工智能技術迅速發(fā)展,信息的自動標引技術研究有所突破,自然語言理解研究的深入,搜索引擎技術的提高,智能代理技術和機器學習的應用,和本體論概念的引入和研究的深化,給智能信息檢索以強大的知識保障和技術支持,也正是智能信息檢索研究及其發(fā)展的好時機。
智能信息檢索是信息檢索的高級階段,實現(xiàn)起來非常的復雜和困難,可專家學者們?yōu)槭裁慈匀徊恍概Φ卦谧非笮畔z索的“智能性”呢?正是由于信息檢索環(huán)境隨著計算機技術和通信技術的迅速發(fā)展而變得越來越龐大、復雜、隱晦,而信息檢索結果要求更加的準確、專業(yè)、及時,關鍵詞的檢索又被人們發(fā)現(xiàn)了很多不盡人意的地方,所以,強烈要求新的適應現(xiàn)代發(fā)展的信息檢索方式,而這正是智能信息檢索。
上世紀70、80年代,在人工智能領域,為了解決通用問題求解方法研究的困境,研究者們引入了哲學領域的一個概念即本體論,來解決這一瓶頸問題。
哲學領域中的本體論就是關于存在及其本質的學說,它所揭示的是世界存在的始基、基本等,是用來“解釋世界”,提供世界圖景。正是這種本體論哲學含義的精髓與研究者們在知識獲取、知識表達,進而在知識的復用和共享、數(shù)據(jù)庫的集成、程序的重用、系統(tǒng)的互操作等方面都提出的一個共同的問題,即一個或多個領域內通用概念給予一致的理解,有異曲同工之處。因而將本體論研究納入了新的領域,也賦予了新的內涵。在信息科學領域中,本體論最為廣泛的定義是由Gruber于1993年提出的“An ontology is a formal,explicit specification of a shared conceptualization.”[3]即本體論是概念模型的明確規(guī)范說明。它有四大特征:明確,概念所屬的上位類與概念的限制條件應得到明確的定義和說明;形式化,即機器的可理解性;概念化,又稱概念模型,世界上某些現(xiàn)象的抽象模式,該模式是通過定義這些現(xiàn)象的相關概念形成的;共享,本體體現(xiàn)的是共同認可的知識,相關領域中公認的概念集,即不是限定到單個的人,而是一組人共同接受的知識。[4]
人工智能的關鍵是知識表示,其強調:一個領域的表示方式,在很大程度上,決定了那個領域是怎樣被“理解”的。[5]本體論知識表示方式作為一種新興的知識組織體系,正是對一個或多個領域內知識的共同理解,提供了該領域內共同認同的概念。將本體論應用到智能信息檢索中,使信息檢索能夠“擁有知識”,實現(xiàn)智能化,其主要影響可以從宏觀和微觀兩個方面來說。
以計算機為代表的現(xiàn)代信息技術的發(fā)展極大地改變了信息檢索的環(huán)境,信息檢索的主體——人,對檢索結果的要求更加精確、快速、專業(yè),而信息檢索的客體(對象)——信息資源,有一個人人皆知的名詞,信息大爆炸。為了更好地滿足檢索者的檢索需求,專家學者引入了本體論這一概念來完善提高信息檢索的效率,更是為實現(xiàn)信息檢索的智能性。
作為起源自哲學的本體論更多地是引其思想來指引人,本體論是與實踐論相對的唯心主義的哲學理論,西方的哲學是以本體論為核心的理論,相信世界是有一個先于人的終極存在,是“純粹的理性主義”。應用于信息檢索系統(tǒng)的本體論,由于哲學本身思想的影響和信息檢索的要求是有著嚴格規(guī)范說明的知識表示體系,這種嚴謹、明確和復雜明顯或潛在地影響人們在信息檢索過程中的態(tài)度。
作為一種新興的知識組織體系的本體論,對信息資源的處理作用是巨大的。信息檢索方式很大程度上取決于信息的組織方式,因此本體論的知識組織作用對于智能信息檢索的實現(xiàn)是不可替代的。本體論應用到各個領域其最初和最主要的目的就是對領域內知識的“共同理解”,規(guī)范領域內知識的表示與組織,應用本體論構建的各個信息系統(tǒng),其知識可以實現(xiàn)共建共享,系統(tǒng)內容也很容易實現(xiàn)理解,互操作或信息集成。在進行信息檢索時,這樣相互理解的信息系統(tǒng)可無障礙地進行信息交流,甚至可以看作是統(tǒng)一的信息源,降低信息的誤檢率,加快信息處理的速度,減少后續(xù)檢索結果處理的不少麻煩。
本體論對智能信息系統(tǒng)的微觀作用相對宏觀環(huán)境而言是在具體的信息檢索進程中對信息檢索策略的影響。信息檢索策略是在分析信息需求實質的基礎上,確定檢索途徑與檢索用詞,并明確各詞之間的邏輯關系與查找步驟的科學安排。[6]如果檢索策略有誤,無論檢索工具、結果算法等多么的好,結果都不能盡善盡美。在基于本體論的智能信息檢索時,一般本體論在智能信息系統(tǒng)中是有一層管理層的,我們叫做本體管理層或本體庫管理。在一次信息檢索進程中,當讀者用戶提出信息檢索請求后,其請求要經過自然語言的理解、分析出有檢索意義的關鍵詞,這些關鍵詞到達本體管理層進一步地處理。
第一步,進行概念的精確匹配。傳統(tǒng)信息檢索的檢索詞一般是用戶給定的檢索詞或進行簡單擴展的相似詞,這些檢索詞并不是很規(guī)范,表達的概念也是模糊不清,一詞多義的現(xiàn)象很多,并且很難表達用戶所要檢索的全面信息范圍和用戶潛在的檢索需求,由這些檢索詞來制定信息檢索策略,檢索的結果存在著大量的無用信息,這些信息對我們無疑是一種干擾,同時還有一些未被檢出的有用的信息。因些,我們引入本體論來解決這一問題。本體論是以概念為基石,[7]概念是本體論的核心,概念與詞是有區(qū)別和聯(lián)系的,概念可以以詞為表示形式,但不是所有的詞都是概念。本體論中概念要求有:①一個概念只有一個含義,不存在一個概念有多個含義或者多個概念對應一個含義的現(xiàn)象;②概念的類型、屬性及屬性的值是明確的;③概念之間的關系是明確的,而且它們之間的隱性關系被顯性化;④這些概念是一個領域或多領域內得到大家共同認可的公共知識。[8]應用本體論進行信息檢索,用戶的檢索要求都將會更加準確地表示,精確匹配用戶的信息檢索請求,大大提高信息檢索的檢準率。
第二步,語義擴展。本體論不僅僅揭示領域內的共同認可的知識,也注重揭示概念間的關系,尤其是概念間的隱含的關系,同時本體論提供了語義推理所必需的規(guī)則與條件。[9]本體論的語義推理能力是本體論有別于其他一些知識組織體系的關鍵特征,也是本體論使信息檢索具有“智能性”的關鍵。在智能信息系統(tǒng)中,本體層上的推理機能推理挖掘出與信息檢索要求相關的概念且加入到檢索策略,本體論能夠詳細地表述這些概念及概念間顯性和隱性的關系,因此,用戶的信息檢索要求不僅能夠準確地表達,用戶潛在的檢索需求也能夠被挖掘出,這大大提高信息檢索的檢全率。
經本體管理層精確匹配和語義推理挖掘出的概念及概念間的關系共同構建出一個信息檢索策略,這個檢索策略可以說是在目前信息技術下最大程度地提高信息檢索的檢準率和檢全率。
本體論目前還不是一個完善的理論,有其理論缺陷,對本體論要有一個客觀的認識和理解,將這樣的本體論應用到智能信息檢索中也是有限制作用的。首先是要應用本體論就要有一個高質量的本體論系統(tǒng),而這個系統(tǒng)的構建就是面臨的一個難題;其次,將本體論實現(xiàn)于智能信息系統(tǒng)中,對其能夠起到作用的能力也要有一個很好的認識,最后,就是應用本體論是要有一個應用的檢索環(huán)境問題,環(huán)境的好壞對本體論能力的實現(xiàn)也是有著很大的影響的。
本體論是智能信息檢索的基本組成部分,所以構建高質量的本體論是實現(xiàn)智能信息檢索的基礎。由于構建本體論是要付出昂貴的代價,所以構建全球性的本體論是不可以實現(xiàn)的,這樣就只能建立領域本體,但是即使是僅僅構建基于一個領域的本體也是十分困難的。因為沒有統(tǒng)一的標準,所以本體論構建中存在著一定的混亂,現(xiàn)在以技術為基礎的工作還是比較粗放,本體建模主要由人工來完成。本體自動構建技術,減少本體論建模風險的技術等很多技術還有待突破;本體系統(tǒng)后期維護是比開發(fā)更復雜、長期和困難的工作,費用也往往占總費用的60%,所以,構建本體系統(tǒng)之初就要設想好前期開發(fā)與后期維護是否能承擔這一現(xiàn)實問題。
雖然應用本體論可使信息檢索具有“智能性”,同時我們也應該看到,本體論本身是有其理論缺陷的,所以本體論對智能信息檢索有推動作用的同時也是有其限制作用的。本體論最大的理論問題是來自其哲學本質問題,對于信任實踐論的我們來說,哲學本體論是唯心主義的,是純粹理性主義的,是脫離了人和人本身的。因此,我們追求這樣一個能夠脫離實踐、對知識完全“解釋”和組織的知識組織體系本身就存在著問題,所以我們是不能創(chuàng)建一個終極的知識組織體系的,因此,在智能信息檢索過程中,本體管理層對于用戶檢索請求的精確匹配或者潛在檢索要求的推理和擴展都不能夠做到“完美”,其“智能性”的實現(xiàn)也是不能夠盡善盡美的,這使得所建的智能信息檢索并不能完全滿足用戶信息檢索的深度。
另一方面,本體論普遍認同是只能構建領域本體論,這就限制了智能信息檢索的范圍是針對一個領域內的,即智能信息檢索是偏于專業(yè)性的,跨領域、跨專業(yè)的信息檢索就顯得力不從心。其次是本體論更適合于處理能夠以分類方式來組織知識的領域,對于那些非結構化方式處理知識組織的領域如自然科學其應用反而會使問題更加復雜,這也限定了對智能信息檢索的范圍,這些使得所建的智能信息檢索系統(tǒng)不能夠滿足人們對于信息檢索廣度的需求。
這是很現(xiàn)實的一個問題,如果要進行信息檢索,就要有信息源,如果這些信息源不是用語義來標注,也就不存在著應用本體論的智能信息檢索,這就像我們有了汽車,卻沒有公路,汽車不僅沒用,反而變得麻煩。但是由于自動的語義標注還沒有很好實現(xiàn),信息社會是信息爆炸的社會,人工來標注信息源是不可能做到了,可能大多數(shù)信息源還沒有被標注就已經被淘汰了。因此自動化語義標注的研究迫在眉睫。
現(xiàn)代信息技術的迅速發(fā)展改變了信息檢索的環(huán)境,促進和支持了智能信息檢索的形成與發(fā)展,促成一種新興的知識組織方式——本體論的出現(xiàn)并推展其應用到智能信息檢索系統(tǒng)中。本體論對智能信息檢索系統(tǒng)實現(xiàn)其“智能性”有重要的推動作用,同時也有其限制作用。在智能信息檢索系統(tǒng)中,本體論主要是對知識進行處理,使智能信息檢索系統(tǒng)“擁有知識”。本體論有其自身對領域的理解和知識的組織方式,影響著信息資源的組織進而影響到信息檢索的環(huán)境。本體論在智能信息檢索過程中主要的表現(xiàn)還是在微觀、具體的檢索過程中,通過對用戶信息檢索請求的精確匹配及其語義推理擴展來影響信息檢索的策略。為了更好地實現(xiàn)本體論的功能,需要積極構建高質量的本體論,因此,標準的制定、領域內廣泛的交流等是必不可少的,這是概念精確匹配和語義推理的基礎。同時,客觀地分析和理解應用本體論也是重要的,不可夸大本體論精確匹配中精確的程度和語義擴展的深度,了解本體論構建對領域的選擇限制了智能信息檢索的范圍??傊瑧帽倔w論的智能信息檢索系統(tǒng)其檢索的深度和廣度都有不如意的地方。智能信息檢索是非常復雜和困難的,其“智能性”的實現(xiàn)需要很多方面的知識和技術共同支撐,本體論在其中起到重要、基礎但不唯一的作用,這些知識和技術與本體論的共同發(fā)展和完善也是智能信息檢索的發(fā)展和完善,任重而道遠。
〔1〕 陳遠等.小議人工智能技術在信息檢索系統(tǒng)中的應用[J].情報探索,2002(12):38-40
〔2〕 盧小賓,李景峰主編.信息檢索[M].北京:科學出版,2003.1:1-2
〔3〕 Gruber T.A translation approach to portable ontology specification[J].Knowledge Acpuisition,1993(5):199-220
〔4〕 王英林,張申生.基于本體影射規(guī)則的軟件集成重構研究[J].計算機學報,2001,24(7):776-783
〔5〕 侯世達.哥德爾、艾舍爾、巴赫——集異璧之大成[M].北京:商務印書館,2010.8:810-811
〔6〕 盧小賓,李景峰主編.信息檢索[M].北京:科學出版,2003.1:105
〔7〕 Christopher B,Kieron H.Knowledge representation with ontologies:Present challenges—Future possibilities[J].Int.J.Human-Computer Studies 2007,65:563-568
〔8〕 宋博.論本體論與傳統(tǒng)整序方法的關系研究[D].碩士學位論文.東北師范大學,2010.5
〔9〕 鄒景華.語義萬維網(wǎng)在智能信息檢索中的應用研究[D].碩士學位論文.重慶大學,2005