【摘要】鑒于現(xiàn)有的搜索引擎的問題和廣大分布式網(wǎng)絡環(huán)境中的海量信息,基于Agent的信息檢索系統(tǒng)也獲得了相當大的關注。通過使用多Agent技術(shù),采用元搜索引擎結(jié)構(gòu),結(jié)合數(shù)據(jù)庫分類引擎學習機制,來實現(xiàn)信息資源優(yōu)化。提出多Agent的信息檢索系統(tǒng)框架的同時,探討該系統(tǒng)的關鍵技術(shù)。
【關鍵詞】信息檢索多Agen網(wǎng)絡
一、前言
隨著Internet的飛速發(fā)展和廣泛應用,在任何給定時間點的數(shù)據(jù)庫的確切大小是不確定的,而不是一個封閉的關系模型的本地數(shù)據(jù)庫的內(nèi)容。所以說Internet是一個沒有界限的數(shù)據(jù)庫模型、一個開放的世界。為了得到更全面、更準確的結(jié)果,我們必須反復調(diào)用更多的搜索引擎(也稱元搜索)。在本文中將多Agent技術(shù)和元搜索引擎技術(shù)有機結(jié)合,提出了多Agent的信息檢索系統(tǒng),讓Agent挖掘網(wǎng)絡信息之間的關連,建立模糊關系,依據(jù)用戶個性化的模糊推理思維方式,為用戶提供高效、完整的信息搜索服務。
二、多Agent的信息檢索系統(tǒng)的優(yōu)勢
目前Internet上的一些搜索引擎雖然解決信息定位的基本問題,但他們的工作原理于p/s結(jié)構(gòu),存在或多或少的的缺陷。在多Agent技術(shù)的應用網(wǎng)絡信息檢索系統(tǒng)中,它可以將基于用戶的檢索要求多個Agent移動到遠程的Web站點等信息數(shù)據(jù)源上,實時的進行本地信息分析,然后通過網(wǎng)絡傳輸用戶得到真正需要的索引信息?;趥鹘y(tǒng)的p/s結(jié)構(gòu)的信息搜索方法相比,基于多Agent的信息檢索系統(tǒng)具有以下優(yōu)勢:(1)執(zhí)行動態(tài)方式?;诰W(wǎng)絡的多Agent信息檢索系統(tǒng),Agent動態(tài)地將用戶請求移動在網(wǎng)絡節(jié)點上執(zhí)行,移動Agent可以在節(jié)點的搜索信息使用過濾器。然后用戶真正所需的信息通過網(wǎng)絡輸送回來,避免了網(wǎng)絡傳輸回大量的無關數(shù)據(jù)。由于Agent的網(wǎng)絡信息傳輸和信息搜索處于分開狀態(tài),所以大大降低了網(wǎng)絡流量,降低了對帶寬的要求。(2)計算異步能力。Agent是在服務器上執(zhí)行,因此只需要傳輸源碼、數(shù)據(jù)和操作狀態(tài)的信息網(wǎng)絡時確保穩(wěn)定的網(wǎng)絡連接,而在服務器上的信息過濾、搜索等占用大量時間的操作則不需要連接網(wǎng)絡。這使得基于多Agent的信息檢索系統(tǒng)對網(wǎng)絡可靠性的依賴也大大降低,即使是在一個不穩(wěn)定的網(wǎng)絡環(huán)境下仍能保證穩(wěn)定的工作。(3)路由自行選擇。在信息檢索過程中,根據(jù)任務目標,多Agent可以在網(wǎng)絡通信和服務器的負載等因素自行動態(tài)規(guī)劃下一步的操作。多Agent自主選擇路由,可以用來優(yōu)化網(wǎng)絡信息資源,實現(xiàn)負載均衡,避免盲目對資源的訪問。(4)并行搜索功能。該系統(tǒng)可以創(chuàng)建多個Agent到相同或不同的網(wǎng)絡節(jié)點進行搜索,從而大大降低了時間來完成搜索任務。
綜上所述,Agent具有智能化程度高,強適應性等特性,多Agent的信息檢索技術(shù)是在分布式環(huán)境下,由多Agent相互通信、相互協(xié)作完成指定的任務。所有Agent由控制Agen統(tǒng)一的調(diào)控來完成信息檢索和自動更新功能。
三、本系統(tǒng)關鍵技術(shù)探討
在該系統(tǒng)中,多Agent通過引擎檢索出用戶需求的信息資源。而用戶信息的表示方法,信息特點的采集,都不一定有規(guī)范性加上不確定性的知識,諸多的關鍵技術(shù)值得去探討:(1)檢索信息的收集。①元搜索技術(shù)。元搜索又稱多搜索,通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的(甚至是同時利用若干個)搜索引擎來實現(xiàn)檢索操作,是對分布于網(wǎng)絡的多種檢索工具的全局控制機制。②網(wǎng)絡蜘蛛技術(shù)。網(wǎng)絡蜘蛛是一種電腦“機器人”(Computer Robot),電腦“機器人”是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。③RSS聚合內(nèi)容技術(shù)。也叫簡易信息聚合,是一種描述和同步網(wǎng)站內(nèi)容的格式。(2)檢索結(jié)果合成方案。資源信息中都包括了每個信息的標題和信息的具體內(nèi)容,可以充分利用這些信息屬性,將這些文本信息和用戶查詢之間的相似性文件進行計算,結(jié)合的分布位置排列搜索引擎來平衡之間的區(qū)別。將相似度最高的內(nèi)容排在前面,從而提高了搜索質(zhì)量。將搜索引擎查詢出來的結(jié)果相結(jié)合,并存儲在一個列表文件中,最后對列表進行過濾,排序。
網(wǎng)頁P的頁面等級值用PPR(p)表示,設用戶的查詢關鍵詞為q:
以PPR(p)值為依據(jù)對檢索結(jié)果進行排序,該過程具體由Agent完成。
四、總結(jié)
互聯(lián)網(wǎng)豐富的資源,方便用戶快速獲取所需信息,但傳統(tǒng)的搜索引擎返回的結(jié)果在數(shù)量的龐大和內(nèi)容上的不相關性給用戶信息檢索的質(zhì)量帶來了直接的影響,造成了用戶信息檢索的困難。為了避免了無關信息的干擾,幫助用戶更快,更準確地找到所需的信息,本文對基于網(wǎng)絡的多Agent信息檢索系統(tǒng)進行了研究,設計了多Agent信息檢索系統(tǒng)框架,分析了該系統(tǒng)的關鍵技術(shù),使之能提高查全率和查準率。