孫海蒂 閻靜輝 陳 冉
(海軍大連艦艇學(xué)院圖書館 遼寧大連 116001)
高校圖書館為高校教學(xué)、科研提供服務(wù)保障,信息檢索是圖書館的核心服務(wù)之一。當前,傳統(tǒng)檢索系統(tǒng)不能很好滿足讀者的個性化檢索需求、無法分析隱藏信息;而智能化信息檢索系統(tǒng),則引入了現(xiàn)代人工智能的技術(shù)與方法,使之具有聯(lián)想、比較、判斷、推理、學(xué)習(xí)等能力,能夠提高檢索的深度和效率,更好地滿足讀者需求。如何快速準確高效地從海量的圖書館信息資源中獲取所需信息,是當前研究的熱點。本文研究基于代理技術(shù)、自然語言處理的圖書館智能化信息檢索系統(tǒng),為讀者及時、有效地獲取所需要的資源,提供有效方式。
(一)高校圖書館傳統(tǒng)檢索工具存在的問題。高校圖書館傳統(tǒng)檢索工具諸如CNKI等這些數(shù)據(jù)庫檢索系統(tǒng),面臨著嚴峻的挑戰(zhàn),功能的單一已越來越不能滿足讀者日益增長的個性化檢索需求。
1.基于關(guān)鍵詞及關(guān)鍵詞組配的檢索方式功能滯后。關(guān)鍵詞及關(guān)鍵詞組配無法表達讀者的檢索需求,關(guān)鍵詞所表達的內(nèi)容比較寬泛,導(dǎo)致查全率、查準率低,需要讀者進行篩選。
2.無法適應(yīng)讀者興趣變化的需要。讀者檢索時有其特定的興趣和背景,而現(xiàn)有大部分信息檢索系統(tǒng)對任何讀者都是一種模式,很容易讓讀者感到迷茫,使得讀者無法準確地表達自己的興趣。
3.檢索系統(tǒng)對文本處理能力不夠。傳統(tǒng)檢索系統(tǒng)對文本的處理僅僅局限于關(guān)鍵詞匹配及文獻分類,無法進行對文本的自然語言處理,無法揭示文獻的特征,無法挖掘文本內(nèi)在的和潛在的信息與知識。
4.檢索算法缺乏智能性。傳統(tǒng)檢索系統(tǒng)采用的相關(guān)度匹配策略具有一定局限性,沒能支持推理檢索技術(shù)。
(二)高校圖書館智能化信息檢索系統(tǒng)的優(yōu)點。高校圖書館信息檢索系統(tǒng)的智能化、個性化、主動化,實際是相輔相成的整體趨勢,智能化、個性化、主動化服務(wù)需要智能技術(shù)的支持,智能化涵蓋了個性化的內(nèi)涵,個性化也拓寬了智能化的外延。因此我們所研究的智能化檢索系統(tǒng)是集多種發(fā)展趨勢于一體的服務(wù)體系。[1]一個較成熟的智能化信息檢索系統(tǒng)一般具備以下幾種能力。
1.大規(guī)模的知識庫是智能信息檢索系統(tǒng)的基礎(chǔ),它有一個強大的推理系統(tǒng)支持,能夠處理自然語言文本,它利用知識庫的有關(guān)知識進行語法、語義分析,從內(nèi)容上真正理解并準確描述所檢索的主題。
2.能夠通過一系列智能程序?qū)崿F(xiàn)系統(tǒng)與用戶的交流,了解讀者的背景,掌握讀者興趣的變化,跟蹤讀者的需求過程,實現(xiàn)不同讀者、不同背景、不同興趣的同一檢索詞或檢索時的不同信息供給,提高讀者檢索的效率和準確率。
3.有良好的反饋機制,能及時有效地和讀者溝通,確定適合讀者的檢索策略,并通過對檢索結(jié)果反饋的分析,根據(jù)讀者的興趣點,更準確地提供檢索服務(wù),提高效率和準確性。并將有效信息及時更新相關(guān)知識庫。
4.有較好的機器學(xué)習(xí)能力,對讀者提交的樣本能進行學(xué)習(xí),進行分析、信息提取、歸納總結(jié),及時了解用戶的需求與興趣,更新讀者興趣庫,把讀者特征和檢索信息匹配起來,為下一步的搜索提供較準確的信息。
5.能根據(jù)讀者需求提供主動推送服務(wù),對讀者的檢索需求能跟蹤信息源的變化,及時將最新的信息提供給讀者。
6.對數(shù)據(jù)和文本應(yīng)有挖掘能力,能挖掘文本中潛在的知識,解釋文本的深刻內(nèi)涵,并將這些分析結(jié)果以知識形態(tài)存放于知識庫中,使檢索結(jié)果成為讀者可以直接加以利用的信息,提高信息檢索的準確性和全面性,進而提高信息檢索的服務(wù)深度。
(一)高校圖書館智能化信息檢索系統(tǒng)層次結(jié)構(gòu)。高校圖書館智能化信息檢索系統(tǒng)的實現(xiàn)需要功能不同又相互支撐的功能層來共同協(xié)作完成,這些功能層可以完成檢索的智能化需求。一個功能完善的智能化信息檢索系統(tǒng)的功能結(jié)構(gòu)大體可以分為四個層次:知識生成層、智能接口層、智能代理層和智能搜索層。
1.知識生成層。知識生成層是智能化信息檢索系統(tǒng)的基礎(chǔ)和核心,是信息檢索系統(tǒng)實現(xiàn)智能化的關(guān)鍵所在。知識生成層直接決定了其他各層功能實現(xiàn)的水平。知識生成層的形成與增長就如同人腦知識的增長,也處于一種自增長自循環(huán)的狀態(tài),它的豐富程度決定著檢索程度的高低。
2.智能接口層。智能接口層是系統(tǒng)與讀者之間交流的橋梁,是智能信息檢索系統(tǒng)的首要功能,可以實現(xiàn)友好的“人機交互”;[2]能對讀者的自然語言進行處理和查詢、對檢索過程進行全面的跟蹤和反饋、對檢索結(jié)果的智能輸出以及對知識庫的操作等。
智能接口層是讀者與檢索系統(tǒng)的友好交互,自然語言的提問和反饋是交互的基礎(chǔ),只有深刻理解了讀者的檢索意圖與檢索要求,才能使檢索系統(tǒng)更好地履行職責,為讀者提供高質(zhì)量的服務(wù)。智能接口層同時又是知識生成層的建立與維護的通道,知識庫是一個動態(tài)的、不斷完善的知識表示和描述,需要專家對其進行補充和完善,良好的通道有助于專家與系統(tǒng)的交流。
3.智能代理層。智能代理層是基于多代理的智能體,是一個程序組,[3]用以實現(xiàn)檢索系統(tǒng)對讀者興趣變化的跟蹤、讀者提交樣本的學(xué)習(xí)、對檢索結(jié)果的過濾與反饋以及提供信息推送服務(wù)等功能,是讀者提問與信息搜索的中間過程,是提高信息檢索的準確性、快捷性、針對性和主動性的重要保障,使檢索系統(tǒng)真正做到在檢索過程中有的放矢,大大提高了檢索效率。
4.智能搜索層。智能搜索層是指其具有從數(shù)據(jù)集合中搜索特定信息或知識有序整合功能的結(jié)構(gòu)層,是對信息源的搜索過程。[4]傳統(tǒng)意義上的搜索,如數(shù)據(jù)庫的檢索、搜索引擎的檢索,主要是基于關(guān)鍵詞匹配的檢索,以網(wǎng)絡(luò)信息檢索為例,網(wǎng)絡(luò)信息檢索是指從大量網(wǎng)絡(luò)文件的集合中找到與給定的查詢請示相關(guān)的、恰當數(shù)目的文件子集。
(二)高校圖書館智能化信息檢索系統(tǒng)模型。將智能代理技術(shù)運用到信息檢索系統(tǒng)中來,可以使信息檢索系統(tǒng)具有智能化,從而提高其檢索性能。[5]信息檢索系統(tǒng)通過智能代理可以完成學(xué)習(xí)、過濾、反饋和推送等工作,并結(jié)合自然語言處理等技術(shù)生成知識庫,從而實現(xiàn)滿足讀者個性化需求的智能檢索功能。
高校圖書館智能化信息檢索系統(tǒng)的智能代理模塊是由系統(tǒng)代理、用戶代理、學(xué)習(xí)代理、過濾代理、反饋代理和推送代理等模塊組成。
(一)系統(tǒng)代理模塊。系統(tǒng)代理是整個代理模塊的運轉(zhuǎn)中心,全面負責系統(tǒng)的集成與管理、讀者與系統(tǒng)之間的需求溝通與信息反饋、各代理模塊之間的溝通與協(xié)作。系統(tǒng)代理及獨立存在,有滲透于系統(tǒng)的各個模塊之中,是智能系統(tǒng)的大腦與中樞,是實現(xiàn)系統(tǒng)智能化的核心模塊。
(二)用戶代理模塊。讀者把檢索需求傳遞給用戶代理模塊,用戶代理模塊再根據(jù)讀者的指令來收集信息并協(xié)調(diào)系統(tǒng)完成檢索任務(wù)。它能根據(jù)讀者的需求變化,來領(lǐng)會讀者的檢索意圖,負責生成讀者興趣庫并更新數(shù)據(jù)庫,是實現(xiàn)個性化檢索的重要手段。用戶代理與讀者的溝通是智能化的、個性化的,溝通的程度決定著系統(tǒng)檢索的深度與廣度。
(三)學(xué)習(xí)代理模塊。系統(tǒng)與讀者溝通的一個重要內(nèi)容是了解讀者的興趣,其中一個重要手段是讀者向系統(tǒng)提交樣本,學(xué)習(xí)代理模塊通過樣本進行內(nèi)容特征分析,以此掌握讀者興趣,進而更新讀者興趣庫,為下一步進行個性化信息搜索與特征匹配做準備。[6]主要過程有特征篩選、特征匹配等,方法有向量空間模型(VSM)法、構(gòu)造詞條加權(quán)評估函數(shù)等。
(四)過濾代理模塊。傳統(tǒng)檢索系統(tǒng)的檢索結(jié)果已越來越不能精準地滿足讀者的需求,對檢索結(jié)果進行多次過濾,就能夠有效解決這個問題,過濾代理模塊能夠過濾掉那些不符合讀者要求的、內(nèi)容重復(fù)的結(jié)果,使讀者更快捷、更精準的在眾多檢索結(jié)果中找到所需的內(nèi)容。
(五)反饋代理模塊。讀者在檢索過程中一般不會一次性獲得滿意結(jié)果,這就需要系統(tǒng)和讀者之間進行多次的信息溝通和結(jié)果反饋,才能更加準確地獲得讀者的需求,通過反饋和再檢查,從而提高檢索效率和檢索準確率。
(六)推送代理模塊。檢索系統(tǒng)的推送代理模塊能夠跟蹤讀者的檢索行為從而提供主動完成服務(wù),并定期更新檢索內(nèi)容,把檢索結(jié)果積累起來,以一定的方式把新的檢索結(jié)果推送給用戶。
自然語言處理是知識生成層的技術(shù)基礎(chǔ),是生成知識庫的重要保證。自然語言處理過程主要包括詞法分析、句法分析、語義分信息和語境分析,分析過程要借助于知識庫,[7]包括靜態(tài)知識庫和動態(tài)知識庫,靜態(tài)知識庫屬于知識生成層,是自然語言處理的核心。
(一)詞法分析。詞法分析是指將輸入的字符串序列分解出單詞并確定詞性,也稱關(guān)鍵詞預(yù)處理。詞法分析主要依靠知識庫和分詞詞典,對自然語言進行切分,如:“我想學(xué)習(xí)醫(yī)學(xué)方面的知識”,可通過知識庫和分詞詞典知道“我”“學(xué)習(xí)”“醫(yī)學(xué)”“知識”分別為不同的詞組。詞的選取應(yīng)首先遵循三個規(guī)則:一是去掉含有較少語義信息和不能作為特征的詞,如的、了等;二是將短語(詞)提取出來;三是僅選取名詞、動詞等有意義的詞作為特征。
(二)句法分析。句法分析是對讀者檢索時輸入的單詞序列進行分析,根據(jù)語法知識庫檢查是否為合法的句子結(jié)構(gòu),并在此基礎(chǔ)上構(gòu)造出相應(yīng)的表示句法關(guān)系的句法樹。
(三)語義分析。語義分析是在句法分析的基礎(chǔ)上進行的,是指對各級語言單位(詞、詞組、句子、句群)所包含的意義和在語言使用過程中所產(chǎn)生的意義進行分析。
(四)語境分析。是指根據(jù)上下文分析,確定所表達的具體意義。[8]例如“小王打針去了”這句話,我們至少要知道小王是病人還是護士,這就要從上下文中去弄清楚。語境分析的過程就是把分析語境得到的信息存放到一個動態(tài)的知識庫中,檢索系統(tǒng)的分析程序參照這個動態(tài)知識庫,進行自然語言處理。
當前,國內(nèi)大部分高校圖書館的信息檢索系統(tǒng)都是通過分類主題目錄與關(guān)鍵詞匹配等方式進行檢索,雖然分類主題目錄和關(guān)鍵詞匹配的方式比較方便、高效,但也有信息更新不及時、無法了解讀者的實際檢索請求等缺陷,導(dǎo)致圖書館提供的檢索服務(wù)個性化程度不夠。隨著讀者個性化需求的不斷增強,能理解自然語言、具有推理能力的智能化信息檢索系統(tǒng)就成為了建設(shè)熱點。智能化信息檢索系統(tǒng)能夠有針對性地幫助讀者完成信息服務(wù)任務(wù),不斷提升信息檢索效率。本文通過智能化信息檢索系統(tǒng)的層次結(jié)構(gòu)與模型、智能代理模塊功能及自然語言處理的流程與原理這幾個方面,對于高校圖書館智能化信息檢索系統(tǒng)的建設(shè)展開了分析,可供參考。