郭文俊,喬世東
(山西大同大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,山西大同037009)
基于多Agent的搜索引擎技術(shù)的研究
郭文俊,喬世東
(山西大同大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,山西大同037009)
一直以來人類的發(fā)展離不開知識的獲取,因此人們需要一種技術(shù)可以更容易更準確的獲取信息,而搜索引擎便是這樣一個導(dǎo)航工具。然而隨著Internet的發(fā)展和Web搜索技術(shù)的不斷完善,傳統(tǒng)的搜索引擎已很難滿足用戶的需求。因此在系統(tǒng)地研究了傳統(tǒng)搜索引擎和Agent技術(shù)后,筆者提出了一種基于多Agent的搜索引擎技術(shù)用于Web信息的搜索,它允許用戶在特定領(lǐng)域進行搜索,能夠有效的地提高搜索質(zhì)量。
搜索引擎;多Agent;智能搜索
大數(shù)據(jù)的發(fā)展,導(dǎo)致了Web信息量的不斷增加,如何更加準確的獲取信息成了網(wǎng)絡(luò)用戶日益關(guān)注的焦點,而傳統(tǒng)的搜索引擎技術(shù)已經(jīng)很難滿足用戶的專一需求。故此筆者提出了一種基于多Agent的搜索引擎技術(shù),它允許用戶在特定領(lǐng)域進行搜索,可以在很短的時間內(nèi)得到與用戶息息相關(guān)的結(jié)果有效的地提高搜索質(zhì)量與搜索的精度。
1.1 基本概念
在20世紀90年代初期,麥吉爾大學(xué)(McGill University)計算機學(xué)院的三名學(xué)生研制出了一款可以利用文件名來查找文件的系統(tǒng)Archie,受到該系統(tǒng)的啟發(fā)內(nèi)達華州計算服務(wù)中心于1993年開發(fā)了一個Gopher搜索工具Veronica,至此搜索引擎[1-2]開始得到發(fā)展。搜索引擎是指根據(jù)一定的策略對收集到的信息進行組織和處理并將處理后的結(jié)果存儲到索引數(shù)據(jù)庫中以便用戶檢索,搜索引擎的出現(xiàn)從根本上改變了人們獲取信息的方式使得用戶查找信息更加方便。
1.2 主要分類
搜索引擎(Search Engine)主要包括垂直搜索引擎、全文搜索引擎、目錄式搜索引擎和元搜索引擎。
(1)垂直搜索引擎區(qū)別于一般的搜索引擎,它是一種專注于特定領(lǐng)域的搜索引擎系統(tǒng),主要應(yīng)用于購物搜索(shopping search)、機票搜索(air search)、旅游搜索(tourism search)等。
(2)全文搜索引擎是利用索引程序?qū)σ黄恼轮械拿恳粋€詞都建立一個索引,并指明該詞出現(xiàn)的位置和次數(shù)。而用戶在搜索的時候也可以檢索文章中的任何部位,無論是標題或是正文。比較常見的全文搜索引擎有百度、谷歌(Google)。
(3)目錄式搜索引擎是以人工或半自動的方式進行信息的搜集,然后再人工形成摘要,以便用戶查詢。由于加入人的智能,故該搜索引擎檢索的信息更加準確,但是檢索的信息量確相對較少。Ya?hoo就是一款老牌目錄式搜索引擎。
(4)元搜索引擎是利用一個統(tǒng)一的搜索界面將用戶發(fā)來的查詢請求轉(zhuǎn)發(fā)給各大搜索引擎網(wǎng)站,然后將反饋的結(jié)果匯總并返回給用戶。360綜合搜索就是一款常用的元搜索引擎。
1.3 工作原理
事實上搜索引擎并沒有想象中的智能,它不能真正理解用戶的需求它所做的只是在機械地匹配用戶鍵入的索引關(guān)鍵字。其基本的流程如圖1所示。
圖1 搜索引擎流程圖
網(wǎng)頁搜索即從互聯(lián)網(wǎng)上抓取網(wǎng)頁,搜索的關(guān)鍵在于如何有效地收集用戶需要的信息。在搜索引擎技術(shù)中信息收集的主要方式有人工收集和自動收集。前者由專屬人員負責(zé)跟蹤和鏈接相關(guān)的Web站點和頁面,并按一定規(guī)則建立索引數(shù)據(jù)庫;而自動收集則是利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的蜘蛛(Spider)有時也被成為“機器人”程序進行網(wǎng)頁的鏈接。當(dāng)然這種爬行也不是漫無目的的,它要遵循一些命令或文件的內(nèi)容。通過從一個網(wǎng)站爬到另一個網(wǎng)站,去跟蹤和訪問更多的網(wǎng)頁,當(dāng)然在Spider爬行的過程中新遇到的網(wǎng)站和已經(jīng)更新的網(wǎng)站會被立刻寫入索引數(shù)據(jù)庫中等待搜索。當(dāng)然,這也是目前最流行的一種搜集信息的方式。
預(yù)處理即是將前文中Spider抓取的頁面進行分類和建立索引數(shù)據(jù)庫的過程。
查詢處理將搜索到的相關(guān)網(wǎng)頁經(jīng)過一定的排序算法進行排序后,然后按照一定格式將結(jié)果返還給用戶。
2.1 Agent技術(shù)
Agent一詞是由麻省理工學(xué)院(Massachusetts Institute of Technology)的Minsky在《思維的社會》一書中提出的,他認為Agent是一種實體,而且是一種存在于某一特定環(huán)境中的智能實體。該實體可以與環(huán)境中的其它實體進行某種協(xié)商從而得到問題的解。這些具有社會交互性和智能性的實體很快便被應(yīng)用于計算機領(lǐng)域尤其是在基于網(wǎng)絡(luò)的分布式系統(tǒng)中Agent表現(xiàn)出了明顯的實效性。由于Agent的多樣性,很難為其定制一個統(tǒng)一的結(jié)構(gòu),下面僅給出一個適用于本系統(tǒng)的具有感知和交互功能的簡單結(jié)構(gòu)模型,其結(jié)構(gòu)如圖2所示。
圖2 Agent的五層概念結(jié)構(gòu)
2.2 基于多Agent的搜索引擎研究背景
隨著Internet的發(fā)展及大數(shù)據(jù)的出現(xiàn)發(fā)展,給人們的搜索行為帶來極大的不便,怎樣從資源廣泛的Internet中自動搜索必要的信息,成了搜索用戶關(guān)心的問題。筆者的此次設(shè)計是在傳統(tǒng)的搜索引擎中加入了多Agent機制,通過用戶和多Agent之間的相互協(xié)作,可以使搜索的結(jié)果更加的智能更趨向于用戶興趣的變化。
2.3 基于多Agent搜索引擎的主要技術(shù)
2.3.1 多Agent模塊的設(shè)計
客戶端多Agent的主要作用是優(yōu)化用戶的興趣模型,主要有三個部分組成[3-6]:用戶興趣分析Agent,搜索行為分析Agent及興趣處理Agent。
⑴用戶興趣分析Agent,通過用戶鍵入的關(guān)鍵詞在搜索引擎初始化時利用機器學(xué)習(xí)、智能推理等人工智能技術(shù),總結(jié)出用戶的興趣。
⑵搜索行為分析Agent,通過跟蹤、鏈接用戶訪問過的文檔猜測用戶的需求,在搜索過程中采用啟發(fā)式規(guī)則來判斷用戶對一個文檔的興趣程度。
⑶ 興趣處理Agent,將(1)和(2)處理后的結(jié)果提交給云端服務(wù)器,并由服務(wù)器做最終決定返回與用戶興趣密切相關(guān)的文檔。
2.3.2 服務(wù)器端智能Robot的結(jié)構(gòu)
基于Agent的智能Robot主要負責(zé)對相應(yīng)的萬維網(wǎng)(World Wide Web)文檔進行訪問,Robot的結(jié)構(gòu)[7]如圖3所示。
圖3 智能Robot結(jié)構(gòu)
文檔訪問Agent的功能比較簡單,它從訪問代理引擎那里鏈接URL,通過HTTP協(xié)議去訪問相應(yīng)的WWW文檔;路徑選擇Agent負責(zé)提取文檔訪問Agent訪問過的萬維網(wǎng)文檔內(nèi)的鏈接,以選擇即將要返回給用戶進行瀏覽的路徑;訪問控制Agent的主要功能是控制文檔訪問代理機制對WWW資源的訪問,以防止造成服務(wù)器和網(wǎng)絡(luò)的堵塞。
2.4 基于多Agent的搜索引擎結(jié)構(gòu)
基于多Agent的搜索引擎系統(tǒng)由一個或更多檢索服務(wù)代理組成,每個用戶使用一個用戶Agent和若干個索引訪問Agent。它們是由多Agent模塊、頁面分析處理Agent、智能Robot等幾個部分組成。其基本的引擎結(jié)構(gòu)如圖4。
圖4 多Agent搜索引擎結(jié)構(gòu)
為了驗證基于多Agent搜索引擎系統(tǒng)模型設(shè)計的合理性,構(gòu)造了實驗仿真平臺。該實驗需要的硬件包括:Intel G550 CPU,4GB內(nèi)存;軟件環(huán)境:Mi?crosoft Windows XP操作系統(tǒng),采用Microsoft Visual Studio 2010編程實現(xiàn)基于多Agent的搜索策略,與原來的搜索策略相比較,用戶在相同環(huán)境下進行搜索,會得到更多更接近自己興趣目的搜索結(jié)果。用戶對不同搜索策略的滿意程度見圖5所示。
圖5 不同搜索策略滿意程度比較
文中提出了一個基于多Agent的搜索引擎模型,詳細地描述了這個模型的實現(xiàn)原理。在今后的工作中,我們將繼續(xù)研究使搜索引擎能夠根據(jù)比如訪問代價、訪問速度等因素對網(wǎng)絡(luò)上的Web做進一步的索引[8-10],當(dāng)然筆者將進一步改進這種模型使其更易于擴展。
[1]MILLER M E.INTELLIGENT information retrieval from the WWW[C].Canada Banff Centre:UM-999,1999.
[2]SALTON G,MCGILL M J.Introduction to Modern information Retrieval[M].New York:McGraw-Hill,1983.
[3]基于移動Agent技術(shù)的網(wǎng)絡(luò)管理系統(tǒng)研究[J].電腦知識與技術(shù),2010,6(5):1085-1088.
[4]WOOLDRIDGE M,JENNINGS N R.Intelligent agents:Theory and practice[J].The Knowledge Engineering Review,1995,10(2):115-152.
[5]RIDGE E,CURRY E.A Roadmap of Nature-inspired Systems Research and Development[J].Multi-agent and Grid System,2007,3(1):3-8.
[6]張功耀,黃水松,王小棟.基于多Agent的搜索引擎模型[J].計算機工程與設(shè)計,2002,23(10):66-69.
[7]王海騰.基于多Agent的搜索引擎優(yōu)化研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.
[8]張義忠,趙明生.基于內(nèi)容的網(wǎng)頁特征提取[J].計算機工程與運用,2001,37(10):1-3.
[9]毛新軍,胡翠云,孫躍坤,等.面向Agent程序設(shè)計的研究[J].軟件學(xué)報,2012,23(11):2886-2904.
[10]王汝川,徐小龍,黃海平.Agent機器在信息網(wǎng)絡(luò)中的應(yīng)用[M].北京:北京郵電大學(xué)出版社,2006.
Research on Search Engine Technology Based on Multi-Agent
GUO Wen-jun,QIAO Shi-dong
(School of Mathematics and Computer Science,Shanxi Datong University,Datong Shanxi,037009)
For a long time,human’s development is inseparable from the knowledge acquisition.As a result,people need a tech?nique which can make the access to information more simply and accurately,while search engines provide such an effective navigation tool.However,with the continued development of the Internet and Web search technology.It is more difficult for traditional search en?gines to meet the needs of users.Therefore,this paper proposes the concept of intelligent search engines based on multi-agent technolo?gy to search the web information after the deeply studying the traditional search engine and Agent technology.It can effectively improve the search engines’search quality by allowing users to perform searches in a particular domain.
search engines;multi-agent;intelligence search
TP391.3
A
1674-0874(2017)03-0004-03
〔責(zé)任編輯 高海〕
2016-07-15
郭文?。?986-),男,山西大同人,碩士,助教,研究方向:圖像處理與搜索引擎技術(shù)。