【摘要】本文結合了計算機科學技術的發(fā)展,分析了基于XML的、基于多語言的、基于(多媒體)內(nèi)容的、基于自然語言(智能)以及基于智能代理的信息檢索新技術,并著重指出了它們的工作過程和原理。
【關鍵詞】基于XML的信息檢索新技術,基于多語言的信息檢索新技術,多媒體信息檢索,智能信息檢索,基于智能代理的信息檢索,信息檢索
【中圖分類號】G434【文獻標識碼】B【論文編號】1009—8097(2007)04—0080—03
一、引言
利用傳統(tǒng)的搜索引擎檢索信息,通常檢索出大量的無用的垃圾信息,以至于人們被淹沒于“海量”的信息之中,而無所適從。在知識時代,人們不再需要這樣的海量信息,而是需要符合用戶需求、對用戶有價值的知識——經(jīng)過分析、概括和提煉出來信息。而傳統(tǒng)的搜索引擎無法實現(xiàn)由搜索信息向檢索知識轉(zhuǎn)變的需求,因而出現(xiàn)了“信息爆炸而知識貧乏”的怪象。因筆者認為很有必要追蹤信息檢索的新技術。[1]
二、信息檢索新技術
1.基于XML的信息檢索技術
HTML是目前因特網(wǎng)上廣泛應用的標記語言,存在著難以擴展、交互性差、尤其是基于HTML的搜索引擎存在著返回結果太多和檢索精度差的弊端。而XML可以有效地克服這些不足。與HTML不同的是,XML語言能把數(shù)據(jù)與數(shù)據(jù)表示分開。
1.1.XML標記在搜索中的優(yōu)點
因為搜索引擎可以利用XML文檔中的標簽來確定在文檔中的哪一部分查找,而不是像在HTML文檔中一樣,是在整個文檔中查找,避免了傳統(tǒng)搜索引擎的全文檢索技術。而且,自然語言中的詞經(jīng)常多義,XML能幫助人們辨別模糊詞義。有助于解決詞義模糊問題,提高檢索的準確性。另外,XML使得能用結構相鄰關系來替代物理相鄰關系進行檢索結果相關性排序。XML可允許利用非文本數(shù)據(jù),如數(shù)值數(shù)據(jù)、地理位置等進行檢索。
1.2.基于XML的搜索引擎(XML Search Engine)
基于XML的搜索引擎以信息檢索單位來分有兩種:一種是以文檔為檢索單位,一種是以文檔中的被標注元素為檢索單位。我們通常關心的是后一種。其查詢方法是文檔中的由標記標注的數(shù)據(jù)段;返回的結果是從整個網(wǎng)頁中抽出的數(shù)據(jù)段。在查詢時可以在查找到的數(shù)據(jù)的基礎上,進行計算和格式轉(zhuǎn)換,合并多個數(shù)據(jù)中的數(shù)據(jù),甚至自動對文檔進行更新。我們利用XML搜索引擎檢索信息,能充分利用XML的標記字段所帶來的上下文信息,大幅度縮小檢索的范圍,提高查詢的準確率。
已開發(fā)出的以文檔中的被標注元素為檢索單位的XML搜索引擎有,比較成熟的有XRS(XML Retrieval System)。它是基于BUS (Bottom Up Scheme)技術的用Java實現(xiàn)的一個搜索引擎。采用的基本思想是:在文檔的最低的結構層次上建立索引,在進行查詢的時候在較高的結構層次上計算詞的權重信息。它十分依賴于文檔的結構信息,在已知文檔的結構定義的情況下能夠很好地在數(shù)據(jù)記錄一級進行文檔的查詢。[2]
2.基于多種語言的信息檢索技術——跨語言信息檢索技術
傳統(tǒng)的搜索引擎中,中英文混合檢索詞是不被支持的,跨語言搜索(Multilingual Search)引擎就能解決這個問題。
跨語言綜合搜索引擎通常是在傳統(tǒng)的搜索引擎的基礎上,增加了兩個功能:一是提交檢索關鍵字時,先翻譯成不同的語種,再檢索。即:檢索詞為同一語種,檢索結果為不同語種。這是一種是架構在單一搜索引擎的基礎上多語種檢索引擎。二是不同(語種)搜索引擎檢索結果之間的集成。是一種架構在多搜索引擎的基礎上多語種檢索引擎。
跨語言搜索引擎的工作過程如下:用戶向系統(tǒng)提交檢索詞,形成一個源語言的搜索式,系統(tǒng)對搜索式進行語言識別,識別出語種后,就對進行提問式的詞法分析和結構分析,然后把這個分析過的搜索式翻譯成各種語言的搜索式,最后把這一系列的搜索式提交給系統(tǒng)進行檢索就可以了。檢索結果是含有多個語種的頁面。如使用多搜索引擎,轉(zhuǎn)換成不同語言搜索式時還需注意各種搜索引擎搜索式表達方法的不同。[3]
3.基于內(nèi)容的信息檢索技術——多媒體信息檢索技術
因特網(wǎng)的資源可分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。傳統(tǒng)的搜索引擎只能處理如字符、數(shù)字等的結構化數(shù)據(jù),而對于多媒體等非結構化的多媒體數(shù)據(jù)則無可奈何。因而,這些多媒體資料的管理和再利用變得非常困難,需要合適的歸檔體系允許高效的瀏覽、搜索和檢索。傳統(tǒng)的方法是采用文本注釋圖像和視頻信息,但這種方法顯得力不從心,許多應用場合文字不足以描述具有豐富內(nèi)容的視頻等。而MPEG-7的發(fā)布,支持對音視頻內(nèi)容的元數(shù)據(jù)和文本描述,并且進一步發(fā)展了基于內(nèi)容的描述和檢索規(guī)范,支持盡可能廣泛的應用領域,使資源的全球共享成為可能。并由此而形成了基于內(nèi)容的檢索CBR(Content-Based Retrieval)。
3.1.CBR檢索特點
基于內(nèi)容的檢索也稱多媒體信息檢索(Multimedia Search),它是建立在MPEG-7的多重和分層描述的基礎之上的。根據(jù)媒體對象的內(nèi)容語義及上下文聯(lián)系進行檢索。具有以下特點[4]: (1)直接對多媒體內(nèi)容進行分析,抽取特征和語義建立索引。(2)采用相似性匹配的方法逐步迭代求精獲得檢索結果,避免常規(guī)數(shù)據(jù)庫檢索中的精確匹配方法。(3) 采用多種檢索手段,除提取多媒體內(nèi)容特征進行檢索外,還提供了其它檢索手段,如通過提供樣本圖像進行相似性檢索,或通過人機交互進行瀏覽檢索。
3.2. CBR系統(tǒng)構成
完整的CBR系統(tǒng)一般由兩個子系統(tǒng)構成,即數(shù)據(jù)庫生成子系統(tǒng)和檢索子系統(tǒng)。每個子系統(tǒng)由相應的功能模塊和部件組成,包括:(1)對象標識;(2)特征提?。?3)數(shù)據(jù)庫;(4) 搜索引擎;(5) 用戶檢索和瀏覽接口。
3.3.CBR檢索過程
對因特網(wǎng)多媒體資源的CBR檢索歷經(jīng)特征調(diào)整、重新匹配、逐步求精的循環(huán)過程:(1)最初用戶可用檢索語言形成一個初始化的檢索,系統(tǒng)提取該示例的特征或把檢索描述映射為具體的特征矢量。(2)將檢索特征與特征庫中特征按一定匹配算法進行相似匹配。(3)按相似度大小,將滿足一定相似條件的候選結果排序后反饋給用戶。(4)用戶挑選候選滿意的結果,或從候選結果中選擇一個示例,經(jīng)特征調(diào)整后形成新的檢索。(5)逐步縮小檢索范圍,直到用戶對檢索滿意為止。[5]
目前,已經(jīng)出現(xiàn)了許多專門針對多媒體的搜索引擎,其中較成熟的有:Columbia 大學開發(fā)的專門用于因特網(wǎng)上圖像檢索的WebSeek、東北大學研制的分布式多媒體信息系統(tǒng)等。
4.基于自然語言的信息檢索技術——智能檢索技術
由于多種原因,用傳統(tǒng)的搜索引擎,在搜索信息時,通常會造成信息丟失、信息太多以及信息無關等多種弊端。造成這些問題的根本原因在于:傳統(tǒng)的搜索引擎對要檢索的問題僅僅采用“機械式”、“孤立的”關鍵詞匹配來實現(xiàn),缺乏知識處理能力和理解能力,而不能結合句子,在特定的語境或用戶的專業(yè)領域中來進行檢索。因此,結合人工智能技術的智能搜索(Intelligent Search)引擎把信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)和自然語言的層面,才能有效地解決這個問題。
基于自然語言的搜索引擎是智能搜索引擎的一種形式,是一種狹義的搜索引擎。它是結合了人工智能技術的新一代搜索引擎,它能夠利用分詞技術、同義詞技術、概念搜索、短語識別和句子理解等技術,來實現(xiàn)信息檢索服務的智能化、人性化特征,從而最終實現(xiàn)利用自然語言進行信息的檢索(Natural Language Search)。再加上智能搜索引擎可以根據(jù)互聯(lián)網(wǎng)本身的鏈接結構對相關網(wǎng)站用自動方法進行分類,以及結構嚴謹,萃取精華的開放式信息目錄,為每一個查詢迅速提供準確的結果。目前比較成功的智能搜索引擎有FSA,InFind,CompassWare和FAQFinder。
基于自然語言的搜索引擎的實現(xiàn)各不相同、各有特點,但從實現(xiàn)的基本思路上是相通的。下面簡要說明一下其實現(xiàn)過程[6]。
4.1.知識庫
這里的知識庫是對理論上完整知識庫的一種近似,一種局部實現(xiàn)。知識庫是實現(xiàn)基于自然語言搜索的基礎和核心。知識庫中的知識用以為智能搜索引擎分析、概括提供依據(jù)和基礎。
4.2.信息庫
信息庫就是互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)是一個巨大的、非結構化而且處于不停變化的信息空間。信息庫可以起到兩方面的作用。首先,信息庫是知識庫存在和發(fā)展的空間。其次,信息庫也是用戶所要檢索的內(nèi)容。
4.3.語義分析、知識管理和知識檢索
要做到基于自然語言的搜索還必須做到知識庫和信息庫結合的問題。要做到兩個核心庫的有機結合,就必須要做到:(1)知識管理。知識管理主要實現(xiàn)知識庫的自增長和結構優(yōu)化,知識庫的增長的基礎是對信息庫的概括和提取,結構優(yōu)化是機器自身學習的結果。只有知識庫不斷增長和優(yōu)化,才能不斷地解決新的信息檢索問題。 (2)語義分析。分析用戶語言的具體含義。借助于分詞技術、詞法分析、語法分析、篇章結構的分析等技術,實現(xiàn)整句分詞、處理同義詞,并根據(jù)知識庫分析關鍵詞明確概念或自然語言句子的語義,確定用戶真正用意,并不斷進行自身學習,豐富知識庫。(3)知識檢索。知識檢索是實現(xiàn)基于自然語言搜索的最后一環(huán),通過前面語義分析結果,明確用戶用意,對信息庫進行知識(概念)層次的檢索,從多方位對用戶的問題進行回答。
基于自然語言的信息檢索具有以下優(yōu)點:(1) 檢索過程智能化; (2) 檢索范圍定位的準確性;(3) 檢索結果的準確性;(4) 檢索結果的綜合性。它重點實現(xiàn)檢索的智能化問題。至于用戶檢索的個性化問題,則可以由智能搜索引擎的另外一種形式——基于智能代理技術的信息檢索來實現(xiàn)。
5.基于智能代理的信息檢索技術
智能代理技術在搜索引擎中的應用,可以看成是搜索引擎發(fā)展的主要趨勢和目標?;谥悄艽硇畔z索(Agent Assisted Search)技術是智能信息檢索的一種高級形式,是信息智能化和個性化的一種結合。
5.1.智能代理概述
智能代理(Agent)是人工智能研究的新成果,一般認為:Agent是一個具有自主性、社會能力、反應性和能動性等性質(zhì)的基于硬件或(更經(jīng)常的)基于軟件的計算機系統(tǒng)(實體)。智能代理應用于信息檢索領域之中,成為開發(fā)智能化、個性化信息檢索的重要和主流的技術之一。
智能代理具有以下特點[7]:①智能性,②代理性,③移動性,④主動性,⑤協(xié)作性,每一個特點都與智能化、個性化的信息檢索的要求不謀而合。
5.2.基于智能代理技術的搜索引擎
智能代理技術在信息檢索中主要可以完成以下功能:①代理,②導航,③解惑,④過濾,⑤發(fā)現(xiàn),⑥整理,⑦推送(報告)。具體來說:
(1) 智能代理可以在任何時候,任何機器上,代理或引導用戶檢索信息。
(2) 智能代理進行機器學習,并且具有從經(jīng)驗中不斷學習的能力,適當?shù)剡M行自我調(diào)節(jié),提高處理問題能力。
(3) 可以根據(jù)用戶的行為,了解掌握用戶的興趣、專業(yè)領域等,借助于自身豐富的知識和推理能力,揣測用戶的意圖。也可對用戶的檢索需求進行分析,處理復雜的難度高的檢索任務。
(4)理解用戶用自然語言表達的對信息資源的需求,在一定程度上消除用戶在輸入信息檢索關鍵字上的多義和歧義,縮小并較為精確地接近用戶的檢索需求內(nèi)容。
(5) 智能Agent可在無法事先建模的、動態(tài)變化的信息環(huán)境中,獨立規(guī)劃復雜的信息檢索步驟,解決信息檢索問題。 它可被看成是代表用戶駐網(wǎng)絡的常設機構,在用戶不參與或不在線的情況下,獨立地、及時地、有針對地發(fā)現(xiàn)和索取符合用戶需求資源。
(6)在網(wǎng)絡計算環(huán)境下,它可以在網(wǎng)絡上靈活機動地訪問各種資源和服務,還可以為完成特定任務同其他智能Agent進行協(xié)商和合作,甚至把自己“遷移”到網(wǎng)絡中的其他主機上去執(zhí)行任務。
(7)它可以把其檢索來的資源包裝起來, 并可進行聚類,產(chǎn)生個性化模式,同時存入該用戶的個性化模式庫中,引導或代替用戶對這些資源進行訪問, 成為便于通達這些資源的樞紐和中介?;蛘呖杉皶r地、直接地通過某種方式,把檢索的信息推送(報告)給用戶或提醒用戶查收信息。推送的形式可采用頻道式推送、郵件式推送、網(wǎng)頁式推送或?qū)S檬酵扑汀?/p>
5.3. 基于智能代理技術的實現(xiàn)模式[8]
(1)服務器端智能代理檢索的模型(如圖2)
(2)客戶端智能代理檢索的模型(如圖3)
搜索引擎技術與智能代理技術在網(wǎng)絡信息檢索上結合的發(fā)展?jié)摿κ蔷薮蟮?,但要真正實現(xiàn)優(yōu)勢結合,還有待在機器學習、相關度分析、信息推送等方面進行逐漸的研究和改進。
三、結束語
信息檢索已成為僅次于電子郵件的互連網(wǎng)絡第二大服務,通過新技術的不斷引用,信息檢索技術獲得了長足地發(fā)展。促使了目前信息檢索服務中的“信息過載”和“資源迷向”的根本轉(zhuǎn)變;使信息檢索的問題從“機械式”、“孤立的”關鍵詞匹配、缺乏知識處理能力和理解能力的層面上,提高到基于知識(或概念)和自然語言的智能層面;從而實現(xiàn)了由搜索信息向檢索知識的轉(zhuǎn)變。并在擴大信息檢索范圍、提高檢索的結果的精確度、提高信息檢索的專業(yè)化、智能化、個性化、人性化,乃至整個信息檢索的服務上都有了實質(zhì)性的轉(zhuǎn)變和提高。
參考文獻
[1]徐寶文,張衛(wèi)豐.搜索引擎與信息獲取技術[M].北京:清華大學出版社。
[2]王海波,姜吉發(fā)等. XML搜索引擎研究MPEG-7的應用.
[DB/OL]. http://www.ict.ac.cn/xueshu/2001/114.DOC.
[3] Enet.詳細介紹常用的幾類搜索引擎技術
[DB/OL].http://www.enet.com.cn/article/2004/1018/A20041018353138_4.shtml.
[4][5] 林陽.CBR在因特網(wǎng)教育資源檢索中的應用.
[DB/OL].http://www.ecnu.edu.cn/depart/
jiaoxin/article/page3.htm.
[6]中文智能搜索引擎簡介.[DB/OL].http://text88.myrice.com/wenzhang/seach.htm
[7]網(wǎng)絡搜索引擎與智能代理技術[DB/OL].http://www.ecnu.edu.cn/depart/jiaoxin/article/page2.htm.
[8] 呂少剛,李健. 基于MPEG-7和XML描述的智能圖像搜索引擎(2).http://www.ahcit.com/200403/12.doc