化 莉 俞揚(yáng)信
(淮陰工學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 淮安 223003)
基于模糊概念網(wǎng)的多Agent個(gè)性化信息檢索研究
化 莉 俞揚(yáng)信
(淮陰工學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 淮安 223003)
隨著計(jì)算機(jī)網(wǎng)絡(luò)的快速增長(zhǎng)和Web內(nèi)容的動(dòng)態(tài)變化,通用網(wǎng)絡(luò)搜索引擎的不足越來越明顯.文章提出了一種基于模糊概念網(wǎng)的多Agent個(gè)性化信息檢索模型,描述了個(gè)性化信息檢索的過程和檢索機(jī)制,討論了應(yīng)用不同方法的Agent檢索效果.實(shí)驗(yàn)結(jié)果表明,使用個(gè)性化多搜索引擎檢索的結(jié)果比其他搜索引擎檢索的結(jié)果具有更好的整體性能比,能改善用戶需要的檢索結(jié)果.
模糊概念網(wǎng);多Agent;個(gè)性化信息檢索;多搜索引擎
目前多數(shù)搜索引擎存在著許多缺陷:覆蓋部分網(wǎng)頁(只能提供網(wǎng)站頁面的信息標(biāo)題)、提供錯(cuò)誤答案、返回結(jié)果冗余.盡管現(xiàn)有的多搜索引擎可解決網(wǎng)頁的部分覆蓋,但大多數(shù)缺乏很好的機(jī)制去克服另兩個(gè)問題.在多搜索引擎返回的結(jié)果中,用戶被大量的檢索結(jié)果淹沒,效率不高.
互聯(lián)網(wǎng)上的信息超載預(yù)示著需要快速搜索和檢索用戶合適的信息.研究表明信息檢索系統(tǒng)的智能代理是解決問題的有效方式.多Agent的多搜索引擎體系結(jié)構(gòu)易于擴(kuò)展、維護(hù)和分發(fā).因此,多搜索引擎的個(gè)性化可有效幫助用戶查找相關(guān)需求信息.可提取用戶隱含愛好、對(duì)用戶興趣進(jìn)行過濾并重排搜索結(jié)果.本文主要是研究基于模糊概念網(wǎng)的多Agent個(gè)性化信息檢索模型,描述處理過程及檢索機(jī)制,討論應(yīng)用不同方法的Agent檢索效果和影響.
搜索引擎(Search Engine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng).搜索引擎常分為:全文搜索引擎、目錄索引和多搜索引擎.多搜索引擎通過一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的(甚至同時(shí)利用若干個(gè))搜索引擎來實(shí)現(xiàn)檢索操作,是對(duì)分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制.一些多搜索引擎可提供原始的個(gè)性化服務(wù).Radovanovic等提出了一種稱為“貓”的多搜索引擎,利用文本分類技術(shù)改善搜索結(jié)果,展示開放目錄主題層,便于瀏覽[1];Excalibur項(xiàng)目使用樸素貝葉斯分類和相似性測(cè)量提取用戶的隱式偏好并重排結(jié)果[2];Nemo項(xiàng)目根據(jù)個(gè)性化檢索模式和呈現(xiàn)方式對(duì)搜索結(jié)果進(jìn)行檢索[3].
使用模糊概念網(wǎng)表示的信息檢索系統(tǒng)包括節(jié)點(diǎn)和直接鏈[4],其中每個(gè)節(jié)點(diǎn)代表一概念ci∈C或一文檔d j∈D,每個(gè)直接鏈連接兩概念或連接一概念ci和一文檔d j,并用一真正的0~1之間的值標(biāo)注.圖1為一模糊概念網(wǎng)的例子.
從圖1中可以看出文檔d2可表示為一個(gè)模糊概念集,d2={(C1,0.5),(C2,1),(C5,0.8)}.
C是一概念集C={c1,c2,…,cn}.
使用自動(dòng)模糊概念網(wǎng)進(jìn)行個(gè)性化多搜索分3步進(jìn)行:
Step1:收集用戶愛好,包括用戶訪問過的網(wǎng)頁.預(yù)處理用戶愛好后,根據(jù)預(yù)先定義的概念矢量產(chǎn)生模糊概念網(wǎng).
Step2:提出用戶查詢,搜索引擎返回一檢索結(jié)果列表,包括檢索過的網(wǎng)頁.
Step3:使用排序算法計(jì)算與用戶愛好對(duì)應(yīng)的模糊概念網(wǎng)的傳遞閉包,并用它與由用戶檢索過的文檔獲得的模糊概念網(wǎng)相乘.當(dāng)用戶使用特定的查詢q搜索文檔時(shí),可用余弦相似度方法搜索最相似的文檔,查詢q中的關(guān)鍵詞應(yīng)包含在最相似的文檔中.基于以下兩主要因素,用本文的檢索方法得到的檢索結(jié)果就已被重新排序:1)文檔集和用戶語義文檔之間的語義關(guān)系;2)文檔集和用戶語義文檔最相似簇之間的語義關(guān)系.使用算法對(duì)用戶文檔進(jìn)行映射排序,給用戶的語義文檔d i分配一優(yōu)先級(jí)(α=5.0)(第1類)、推薦簇的文檔d i分配一優(yōu)先級(jí)(β=3.0)(第2類),剩下的文檔分配最低的優(yōu)先級(jí)(γ=1.0)(第3類).根據(jù)查詢q的余弦相似度,對(duì)每個(gè)大類中的所有文檔進(jìn)行重新排序.這樣,較高優(yōu)先級(jí)的關(guān)鍵詞將起到更重要的作用,具體細(xì)節(jié)見如下算法.
圖1 模糊概念網(wǎng)
圖2是本文提出的一種多Agent的個(gè)性化信息檢索模型.為了使搜索結(jié)果的個(gè)性化,該結(jié)構(gòu)使用了自動(dòng)模糊概念網(wǎng).
由圖2可知,該模型由3部分組成:用戶Agent、搜索Agent組和個(gè)性化Agent組.搜索Agent組包含:Google Agent,Yahoo Agent,Ask Agent和Msn Agent.每個(gè)引擎只對(duì)專門的通信負(fù)責(zé).個(gè)性化Agent組包含:FCN1 Agent,F(xiàn)CN2Agent和排序Agent.Agent之間的通信如圖3所示.
各Agent的執(zhí)行過程:1)用戶Agent完成與用戶的溝通并獲得用戶的查詢、預(yù)定義概念矢量和用戶愛好;2)預(yù)處理用戶愛好后,用戶Agent將它發(fā)送到FCN1 Agent和搜索Agent組,給FCN1 Agent和FCN2 Agent預(yù)定義概念矢量;3)搜索Agent組調(diào)用與用戶查詢相關(guān)的搜索引擎并將搜索結(jié)果發(fā)送到FCN2 A-gent;4)FCN1 Agent根據(jù)用戶愛好和概念矢量產(chǎn)生一自動(dòng)模糊概念網(wǎng),然后將它發(fā)送到排序Agent;5)根據(jù)Borda規(guī)則[10],F(xiàn)CN2 Agent將每個(gè)搜索引擎搜索的結(jié)果進(jìn)行合并,根據(jù)合并結(jié)果表產(chǎn)生一自動(dòng)模糊概念網(wǎng),并發(fā)送到排序A-gent;6)排序Agent對(duì)模糊概念網(wǎng)實(shí)施排序算法,然后排序Agent發(fā)送個(gè)性化檢索結(jié)果的排序到用戶Agent并顯示給用戶.
圖2 多Agent的個(gè)性化信息檢索模型
使用JADE(Java Agent DEvelopment Framework)技術(shù)進(jìn)行這種多Agent層次的個(gè)性化信息檢索系統(tǒng)的開發(fā),用Java編寫的框架促進(jìn)了基于Agent的應(yīng)用程序的開發(fā).為了測(cè)試和評(píng)估系統(tǒng),收集了一些用戶對(duì)計(jì)算機(jī)方面感興趣的概念,其概念矢量長(zhǎng)度定義為100.
根據(jù)Borda規(guī)則,進(jìn)行每個(gè)搜索引擎的第一頁的網(wǎng)址合并,并根據(jù)出現(xiàn)在Borda列表中的前5個(gè)網(wǎng)址產(chǎn)生模糊概念網(wǎng).為了評(píng)估本文提出的系統(tǒng),進(jìn)行了與Borda規(guī)則結(jié)果的比較,各排名間的平均差d定義如下:
圖3 Agent之間的通信
其中,m是網(wǎng)頁的數(shù)量,ri是用戶的排名,r′i是由本文提出的系統(tǒng)或由Borda規(guī)則產(chǎn)生的排名,結(jié)果如表1所示.
表1 Borda列表中的前5個(gè)網(wǎng)址
表2 6個(gè)用戶的排名
表3 6用戶個(gè)性化搜索結(jié)果的排名
表4 評(píng)估均差d的值
表1是出現(xiàn)在Borda列表中的前5個(gè)網(wǎng)址,每個(gè)用戶都可評(píng)估;表2是6個(gè)用戶的排名;表3是6用戶個(gè)性化信息檢索結(jié)果的排名,如果個(gè)性化的秩等于用戶檢查的秩就用陰影表示;表4是本文提出的方法或由Borda規(guī)則產(chǎn)生的評(píng)估平均差d的值.實(shí)驗(yàn)結(jié)果表明使用本文提出的方法比使用Borda規(guī)則產(chǎn)生的結(jié)果其準(zhǔn)確率提高了約61%.
本文提出的多Agent的多搜索引擎使用自動(dòng)模糊概念網(wǎng)進(jìn)行個(gè)性化信息檢索,克服了目前搜索引擎的一些局限性.多搜索引擎使多Agent的體系結(jié)構(gòu)更容易擴(kuò)展、維護(hù).該系統(tǒng)根據(jù)用戶愛好對(duì)檢索結(jié)果進(jìn)行重排,在產(chǎn)生模糊概念網(wǎng)之前使用了本體論,豐富了用戶的愛好,得到了較好的檢索結(jié)果.在知識(shí)表示、處理及其推理、數(shù)據(jù)挖掘、多用戶協(xié)同工作等應(yīng)用領(lǐng)域具有很好的應(yīng)用價(jià)值,在軟件開發(fā)與應(yīng)用方面可節(jié)約大量經(jīng)費(fèi),具有廣闊的應(yīng)用前景和經(jīng)濟(jì)效益.今后的信息獲取模式將由目前的信息獲取系統(tǒng)具有固定的層次結(jié)構(gòu),變?yōu)橄乱淮男畔@取系統(tǒng)根據(jù)任務(wù)進(jìn)行自組織.隨著人工智能和無線技術(shù)的進(jìn)一步發(fā)展,傳感器也將由智能傳感器發(fā)展到多自主體傳感器網(wǎng)絡(luò),以任務(wù)為中心,采用動(dòng)態(tài)架構(gòu),從本地智能發(fā)展到網(wǎng)絡(luò)智能.
[1]Radovanovic M,Ivanovic M.A classification-powered meta-search engine[J].Advances in Web Intelligence and Data Mining,2006,23:191-200
[2]Yue L,Chang M,Lai Y K,ea al.Excalibur a personalized meta-search engine[J].Computer Society,2004,28(2):138-141
[3]Souldatos S,Dalamagas T,Sellis T,et al.Captain nemo:a meta search engine with personalized hierarchical.search space[J].Informatica Ljubljana,2006,30:173-182
[4]竇永香,趙捧未.基于社區(qū)的對(duì)等網(wǎng)語義檢索系統(tǒng)模型研究[J].情報(bào)學(xué)報(bào),2010,29(3):393-401
[5]Heckelman J.Probabicistic borda rule voting[J].Social Choice and Welfare,2003,21(3):455-468
Personalized Information Retrieval Study on Multi-Agent Using Fuzzy Concept Networks
Hua Li Yu Yangxin
(Faculty of Computer Engineering,Huaiyin Institute of Technology,Huai’an 223003,China)
With the rapid growth of computer networks and dynamic Web content,the lack of general web search engines are becoming more and more evident.In this paper,a personalized information retrieval model on multi-agent using fuzzy concept networks is proposed.We illustrate the process and retrieval mechanism of personalized information retrieval model,and discuss the effect and influence of applying different types agent.Experimental results indicate that the personalized information retrieval results on multi-agent are more relevant than other search engines and prove that proposed model presents better overall performance and is natural way to improve retrieval results of users needed.
fuzzy concept network;multi-agent;personalized Information retrieval;multisearch engine
王映苗】
1672-2027(2011)03-0071-04
TP391
A
2011-03-10
淮陰工學(xué)院科研基金項(xiàng)目(HGB0907).
化 莉(1977-),女,江蘇淮安人,碩士,淮陰工學(xué)院計(jì)算機(jī)工程學(xué)院講師,主要從事計(jì)算機(jī)應(yīng)用.