●張玉霞(寧波大學(xué) 圖書館,浙江 寧波 315211)
科技工作者在使用文獻平臺查詢文獻的時候,往往會遇到這樣的問題:在鍵入關(guān)鍵詞以后,一些與這個關(guān)鍵詞不相關(guān)或者相關(guān)度比較低的結(jié)果也都會出現(xiàn)在檢索頁面上,使得人們不得不在這些結(jié)果中人工篩選,耗費大量的時間,甚至有時還找不到需要的結(jié)果。產(chǎn)生這種狀況的原因是搜索引擎只進行搜索詞匯的匹配,并沒有考慮用戶的搜索目的。信息推送技術(shù)(Push)即是在這樣的背景下應(yīng)運而生。信息推送模式具有及時性、應(yīng)用面廣、對用戶沒有特殊技術(shù)要求的優(yōu)點;但缺點是信息針對性差,難以滿足用戶的個性化需求。[1]
本文首先給出了一個完整的智能多Agent科技文獻模糊協(xié)作推送系統(tǒng)模型結(jié)構(gòu),然后討論了利用學(xué)習(xí)Agent形成用戶模糊興趣庫的過程及方法,并最終形成了利用智能多Agent主動向用戶提供所需信息的一種模糊智能文獻推送系統(tǒng)。該系統(tǒng)在按照用戶明確的要求提供所需信息的基礎(chǔ)上,以隱性方式對用戶訪問各種資源所留下的痕跡進行分析,建立并形成了用戶真實興趣和關(guān)注領(lǐng)域庫,進而準(zhǔn)確、及時、高效地為用戶提供最符合用戶興趣和要求的有價值的科技文獻信息。
Agent實際上是一類代表其設(shè)計者或使用者實現(xiàn)一系列目標(biāo)的計算實體或程序,不僅具有在動態(tài)環(huán)境下感知周圍環(huán)境的能力,而且能自治地連續(xù)運行。[2-4]Agent處于環(huán)境中,它的自治能力使得它不依賴于人工的干預(yù)就能做出智能和靈活的反應(yīng),響應(yīng)外界環(huán)境的變化。Agent最基本的特性包括自治性、社交能力、響應(yīng)性和主動性。[5]從軟件智能化的角度看,具有上述特征的Agent是自控的、能并發(fā)執(zhí)行的軟件過程。它們封裝了某些狀態(tài)和知識,并能經(jīng)由消息發(fā)送與其它Agent通信,可視為分布的對象技術(shù)的自然延伸。[6]
Agent能夠感知環(huán)境的變化并能夠?qū)@種變化做出自主的反應(yīng),因此其具有自適應(yīng)性和智能性。但單個智能Agent系統(tǒng)解決問題的能力尚待加強,因單個智能Agent的能力受其知識、計算資源及它與其他主體之間相互關(guān)系的制約。為解除這種限制,由此形成了利用多個自主或半自主Agent的交互及合作,在整體上實現(xiàn)復(fù)雜問題求解的多主體系統(tǒng)(Multi-Agent System,MAS)。多主體系統(tǒng)是近年來人工智能的研究熱點,從物理拓?fù)渖峡矗琈AS是由多個Agent松散耦合的大型網(wǎng)絡(luò)。系統(tǒng)中的各Agent要對熟悉的環(huán)境做出各自迅速的響應(yīng),因此具有自主性;同時能夠協(xié)調(diào)與其它Agent的沖突,具有社會性;具有不同目標(biāo)的各個Agent必須相互協(xié)作、協(xié)同和協(xié)商,對未完成問題最終做出決策,因此也具有協(xié)作性。[2]
所謂信息推送技術(shù),就是通過搜索引擎自動搜索用戶所需的信息,并將這些信息傳送給用戶的技術(shù)。推送系統(tǒng)具有時效性、主動性和關(guān)注用戶興趣的特點,實現(xiàn)了信息主動尋找用戶的目的。個性化信息推送服務(wù)主要有兩種形式:(1) 給用戶提供專門定制的個性化信息服務(wù),滿足用戶個人的不同需求;(2)主動式的信息推送服務(wù):即系統(tǒng)主動將信息推送給用戶。[7-9]
將Agent技術(shù)和個性化信息推送服務(wù)結(jié)合源于Agent的主動性、智能性、交互性、社會性等特性,因為這些特性比較全面地體現(xiàn)了個性化信息推送服務(wù)的特點,從而為其在個性化信息推送的應(yīng)用提供了可能。然而在實際應(yīng)用中,最主要和關(guān)鍵的問題是推送技術(shù)中如何對信息進行分類和整理。因為當(dāng)前互聯(lián)網(wǎng)時代擁有海量的文獻信息資源,大量信息難以用人工處理,但用計算機進行自動處理如果處理不好,也會導(dǎo)致最終無法準(zhǔn)確地確定推送對象以及推送內(nèi)容?;诖耍斜匾芯繉gent技術(shù)和個性化信息推送結(jié)合的服務(wù)模式,才有可能使基于Agent的個性化信息推送服務(wù)得以成功應(yīng)用。研究表明,其中的一種有效模式就是通過分析用戶興趣,挖掘并建立用戶模型,利用智能多Agent技術(shù)、問題過濾與反饋技術(shù)、數(shù)據(jù)挖掘等技術(shù)形成真正的個性化推送系統(tǒng)。
圖 基于智能多Agent的科技文獻模糊協(xié)作推送系統(tǒng)模型結(jié)構(gòu)
前已述及,MAS具有開放分布式松散耦合的網(wǎng)絡(luò)環(huán)境,相對獨立自制的智能Agent處于每個網(wǎng)絡(luò)節(jié)點上。為了在工作中形成整體問題的解決方案,在多個彼此在邏輯上相互獨立的智能Agent之間,需要通過共享知識、任務(wù)和中間結(jié)果并一起協(xié)同工作。獨立不僅意味著控制、運算數(shù)據(jù)是分布式的,也意味著知識在邏輯上或者地理上也是分布式的,從而問題可以一起被分擔(dān),而松散耦合則表明每個智能Agent都用更多的時間在進行知識處理或自主計算,在網(wǎng)絡(luò)上傳遞的不是中間結(jié)果,而是由移動Agent所攜帶的最終結(jié)果。因此,個性化推送系統(tǒng)采用Agent技術(shù)后,即可將一個本身靜態(tài)的系統(tǒng)轉(zhuǎn)變成一個有效的、由用戶需求驅(qū)動的動態(tài)信息平臺。
本文提出的文獻推送模型如圖,用多個Agent通過協(xié)同合作完成系統(tǒng)推送任務(wù)。
基于智能Agent的科技文獻協(xié)作推送系統(tǒng)模型從結(jié)構(gòu)上分為三個區(qū)域:用戶域、系統(tǒng)域和資源域,其上運行著相同的Agent運行支撐環(huán)境以及不同功能的Agent:[2]
(1) 界面及用戶Agent(IA/UA)。界面及用戶Agent處于系統(tǒng)前端,是用戶與系統(tǒng)人機交互的接口。其基本功能是:接收用戶的指令并傳遞收集到的相關(guān)信息,根據(jù)用戶的需求變化領(lǐng)會用戶的檢索意圖,并生成及更新用戶興趣庫,負(fù)責(zé)協(xié)調(diào)整個系統(tǒng)完成用戶要求的任務(wù)并顯示最終搜索結(jié)果。
(2) 數(shù)據(jù)傳輸Agent(DTA)。負(fù)責(zé)在用戶和系統(tǒng)服務(wù)器之間以及服務(wù)器間直接傳遞各類數(shù)據(jù)信息。
(3) 系統(tǒng) Agent(SA)。系統(tǒng) Agent負(fù)責(zé)生成新注冊用戶的用戶Agent;負(fù)責(zé)協(xié)調(diào)其他Agent之間的交互、協(xié)作與交流,因此是檢索信息的搜集與決策中心。
(4) 信息分析Agent(IAA)。IAA負(fù)責(zé)分類整理駐留于資源域的監(jiān)控Agent送來的數(shù)據(jù),并按照設(shè)定的方式將處理結(jié)果存儲或更新至領(lǐng)域庫。
(5) 服務(wù)器監(jiān)控Agent(SMA)。SMA負(fù)責(zé)監(jiān)視文獻更新之情況,有更新時立即將變動信息通知過濾Agent,并將新增文獻信息等重要相關(guān)信息通過數(shù)據(jù)傳輸Agent主動報告給系統(tǒng)服務(wù)器上的信息分析Agent。
(6) 數(shù)據(jù)挖掘Agent(DMA)。DMA根據(jù)給定的挖掘算法,對從用戶Agent過來的數(shù)據(jù)傳輸Agent所傳送的用戶信息以及文獻信息進行深層次挖掘,挖掘出的文獻結(jié)果信息通過DTA發(fā)送給推送Agent。
(7) 學(xué)習(xí)Agent(LA)。接收用戶Agent所記錄的用戶相關(guān)性反饋信息,根據(jù)這些顯式或隱式的信息學(xué)習(xí)并發(fā)現(xiàn)用戶興趣,學(xué)習(xí)結(jié)果用于更新修改用戶興趣庫和領(lǐng)域模型庫。
(8) 檢索 Agent(SA)。[2]SA 有兩方面的作用,一是根據(jù)指令利用搜索引擎在推送平臺中搜集與領(lǐng)域相關(guān)的各類文獻;二是對文獻信息共享平臺中的資源數(shù)據(jù)庫進行定時信息掃描,以保證將掃描到的數(shù)據(jù)變化結(jié)果能夠被用戶利用。
(9) 過濾Agent(FA)。FA的主要功能是對檢索文獻進行分析,抽取文檔特征,更新用戶興趣庫和領(lǐng)域模型庫,對新增文獻進行提取新的主題概念和關(guān)鍵詞等相關(guān)分析,并將其加入領(lǐng)域模型庫。
(10) 推送Agent(PA)。當(dāng)每隔設(shè)定的時間到或當(dāng)增加的文獻達到一定數(shù)量時,啟動PA進行推送文檔的選擇:通過選擇比較領(lǐng)域模型與用戶興趣模型,按照規(guī)定的推送算法尋找并增加相似度最大的若干文檔推送給感興趣的用戶。
(11) 用戶模糊興趣庫(UFIL)。UFIL記錄反映用戶各興趣點的模型。通過比較過濾Agent所提供的領(lǐng)域相關(guān)信息文檔的結(jié)構(gòu)化特征,為推送Agent提供用戶的興趣模型,推送Agent根據(jù)用戶模糊興趣庫比較用戶之間的相似性,從而也可實現(xiàn)向相似用戶推送相關(guān)文檔。
(12) 領(lǐng)域模型庫(FML)。在FML中,通過選擇領(lǐng)域的主題詞及關(guān)鍵詞等領(lǐng)域信息作為其基本的興趣點,用戶據(jù)此可形成用戶模型的基礎(chǔ)框架。此外,F(xiàn)ML還可為檢索Agent調(diào)用其他搜索引擎提供相關(guān)關(guān)鍵詞,過濾Agent根據(jù)FML可分析文檔特征,從而形成文檔的結(jié)構(gòu)化表示,然后再對文獻與各主題詞的隸屬度進行計算,進而實現(xiàn)對文獻的分類。
智能Agent個性化信息搜索的核心是用戶興趣模式的發(fā)現(xiàn),其由學(xué)習(xí)Agent負(fù)責(zé)完成。
現(xiàn)有大部分推送系統(tǒng)存在的一個主要問題是對用戶和文獻描述過于簡單,它們的屬性描述和表達都很不充分。比如用戶的興趣程度本身是個模糊的概念,因此建立用戶模糊興趣模型就顯得非常必要。本文將文獻在電子商務(wù)推送系統(tǒng)中使用的方法借鑒到文獻推送系統(tǒng),結(jié)合Agent技術(shù)形成了用模糊方法來獲取用戶興趣模式的設(shè)計思路。
科技文獻隸屬函數(shù)的設(shè)計是用戶模糊興趣庫產(chǎn)生的第一步。為提高文獻屬性描述的精確度,需要采用模糊數(shù)即[0,1]區(qū)間值對文獻屬性進行描述。由于即使是具有同樣研究主題的文獻,因其擁有不同的屬性,其價值本身也會有很大的差別。因此在將文獻信息推送給用戶時,應(yīng)根據(jù)文獻的閱讀率、引用率以及評價等價值信息對其進行排隊,排序較高的應(yīng)獲得優(yōu)先的位階。
設(shè)文獻U屬性集為A={A1,A2,…,Ai,…,An},屬性Ai的初值可由m位專家估計給出,記第k位專家給出的估計值為:Sk(Ai)(i=1,2,…n;k=1,2,…m),則屬性隸屬度可寫為:
這里,屬性Ai既可代表專家評分或者讀者對文獻的評分值,也可代表文獻的引用率等受關(guān)注程度,或者代表文獻來源的影響因子及其收錄情況等屬性信息。
文獻推送系統(tǒng)中的興趣度,顧名思義,是指用戶對某一(類)文獻的興趣強弱,它直接反應(yīng)出了用戶對文獻的關(guān)注程度。用戶興趣度的計算和表示以及模糊興趣庫的建立通常采用顯式和隱式兩種方式。如果需要用戶參與對文獻和文獻屬性進行的興趣度評分則稱為顯式方式。雖然這種方式可形成相對準(zhǔn)確的用戶興趣度,但因用戶的參與從而增加了用戶的負(fù)擔(dān),因此可操作性差。故本文在建立模糊興趣庫時確定利用隱式方式形成用戶興趣度。
如何使用隱式方式?可直接利用的就是用戶的檢索歷史記錄集。因為用戶的興趣會反應(yīng)在其搜索和閱讀行為上面,因此用戶興趣庫即可基于此集合進行構(gòu)造。設(shè)U={u1,u2,…,um}為用戶檢索歷史記錄集,其中ui=(SI1,SI2,…,SIi,…,SIn),SIi是文獻ui對屬性Ai的隸屬度,可從(1)式得到。因此用戶興趣庫可用 I={I1,I2,…Ik,…,Im}表示,其中Ik為該用戶對第k項屬性的興趣度:
然而僅僅依賴用戶興趣度來描述用戶興趣還是不夠完整和清晰,這可通過對文獻信息庫和用戶的檢索行為進行分析而知。對文獻推薦系統(tǒng)的研究表明,對文獻屬性的關(guān)注程度和文獻屬性的權(quán)重都應(yīng)該被描述并被包括在用戶的興趣當(dāng)中,因此(2)式的模型還做不到這一點,需要對其進行進一步的擴展。
(1)獲取文獻屬性的關(guān)注度。用IL表示文獻屬性的關(guān)注度。文獻屬性關(guān)注度實際上可以看樹形的,獲取時按照從高層向底層逐級進行,而實際計算時則按照相反的方向,即從底層到高層的方式。
(2)獲取文獻屬性權(quán)重。實際用戶的偏好存在差異,這種差異將導(dǎo)致用戶對不同的文獻屬性有不同的關(guān)注或重視程度,此即為文獻屬性的權(quán)重?;诮?zhǔn)確的用戶模糊興趣庫的需要,對每個屬性給出不同的權(quán)重是十分必要的。具體如下:設(shè)文獻U屬性集為A={A1,A2,…,Ai,…,An},首先分別請Q位專家對Ai給出權(quán)重估計值,記第j位專家給出估計值為Wj(Ai)(i=1,2,…,n;j=1,2,…,Q),得最后的文獻屬性權(quán)重為:
式(3)產(chǎn)生的權(quán)重還難以實現(xiàn)真正的個性化,因為其沒有針對每個人的偏好給出不同的權(quán)重。但可以先利用此種方式在推送系統(tǒng)前期獲得初步權(quán)重,待推送系統(tǒng)正式運行,能夠獲得大量的用戶檢索和閱讀信息之后,再利用智能Agent取得比較準(zhǔn)確的屬性權(quán)重。
至此,用戶模糊興趣庫可用{IL,IQ(Ai)}表示,這里,IL、IQ(Ai)分別表示文獻屬性的關(guān)注度和文獻屬性的權(quán)重。因此用戶的興趣包括了多個文獻屬性,也可能分布在多個層次中。模型中對于每個屬性和量的描述都是一個[0,1] 之間的模糊數(shù),從而實現(xiàn)了用戶興趣的模糊化。此外還要注意到,因用戶的興趣一般只能在一定的時間內(nèi)是穩(wěn)定的,所以用戶興趣庫也具有時效性,但隨著系統(tǒng)的運行,興趣庫會隨著用戶信息的完善而逐漸趨于穩(wěn)定。
基于智能多Agent的科技文獻模糊協(xié)作推送系統(tǒng)中各個Agent也具有MAS系統(tǒng)的特點,則其功能也是相對獨立的且可并發(fā)運行,因為解決并發(fā)問題本身就是多Agent系統(tǒng)的優(yōu)勢,從而形成的文獻推送系統(tǒng)在運行速度以及性能方面都會有很大提高。其主要工作流程如下:
(1) 一直處于活動狀態(tài)的用戶界面Agent可以實時處理用戶的搜索信息,并負(fù)責(zé)用戶與其他Agent模塊的交互。當(dāng)用戶登錄系統(tǒng)后,用戶信息和搜索請求將由用戶界面Agent分別傳送給學(xué)習(xí)Agent和系統(tǒng)Agent;過濾推送Agent完成工作后則返回滿足要求的候選文獻推送結(jié)果,并將其發(fā)送到用戶界面Agent進行顯示;而當(dāng)用戶在做出選擇后,界面Agent則負(fù)責(zé)把用戶搜索或閱讀記錄保存或更新到相應(yīng)用戶的模糊興趣庫中。
(2)檢索Agent負(fù)責(zé)在文獻數(shù)據(jù)平臺中搜索候選文獻。不滿足要求時把提示信息反饋到用戶界面Agent,并且通過過濾Agent給用戶推送相關(guān)領(lǐng)域熱點文獻;若滿足要求,文獻搜索Agent就會把結(jié)果通過過濾和推送Agent推送給用戶。
(3) 學(xué)習(xí)Agent首先從用戶界面Agent獲得用戶信息和搜索信息,并且將其實時寫入到用戶模糊興趣庫;而當(dāng)用戶搜索完畢時,用戶Agent又將搜索記錄傳遞給學(xué)習(xí)Agent,學(xué)習(xí)Agent利用(2)、(3) 式提取用戶的模糊興趣,同時將其保存或更新至用戶模糊興趣庫中;此外,學(xué)習(xí)Agent將根據(jù)搜索記錄提取和計算出各文獻主題所對應(yīng)的關(guān)鍵詞及其權(quán)重,并寫入領(lǐng)域模型庫。
(4)過濾Agent負(fù)責(zé)對候選文獻集進行多屬性決策評價,是比較重要的部分。候選文獻集和相應(yīng)文獻的模糊屬性由過濾Agent從搜索Agent、學(xué)習(xí)Agent獲取,然后利用一定的方法進行評價,按評價的高低對候選文獻進行排序、選擇并推送,并將結(jié)果傳遞給用戶界面Agent,方便用戶查看。
如上所述,更新修改后的用戶興趣模型在經(jīng)過系統(tǒng)運行和相關(guān)反饋學(xué)習(xí)之后,將能更加體現(xiàn)用戶興趣,因此利用修改過的用戶興趣模型進行信息挖掘和推送時將具有更好的準(zhǔn)確率。經(jīng)過整個檢索過程,系統(tǒng)不僅學(xué)習(xí)到了用戶的信息興趣,為個性化信息檢索和推送服務(wù)提供了基礎(chǔ),而且用戶也得到了符合自己興趣的文獻信息,達到了供需的雙贏。
[1]孫鐵利,等.基于Agent的專業(yè)文獻智能搜索系統(tǒng)的設(shè)計[J].東北師大學(xué)報自然科學(xué)版,2003,35(4) :19-23.
[2]黃繼征.基于Multi-Agent的Web個性化信息推送系統(tǒng) [J].現(xiàn)代情報,2009,29(8):117-12.
[3]高秀萍,趙偉.基于Multi-Agent的智能信息檢索系統(tǒng)模型研究[J].魯東大學(xué)學(xué)報(自然科學(xué)版),2007,23(3):237-240.
[4]曾子明.基于Agent和CBR的推送模型的研究[J].現(xiàn)代情報,2008(3):209-213.
[5]劉大有,等.Agent研究現(xiàn)狀與發(fā)展趨勢[J].軟件學(xué)報,2000,11(3):315-321.
[6]向鄭濤,等.基于Agent的智能文件分發(fā)系統(tǒng)框架研究及實現(xiàn)[J].計算機工程與設(shè)計,2006,27(4):571-574.
[7]向鄭濤,等.面向Agent的軟件分析和設(shè)計方法[J].計算機科學(xué),2004,31(6):127-131.
[8]高濟.基于知識的軟件智能化技術(shù)[M].浙江:浙江大學(xué)出版社,2000.
[9]吳元斌.面向?qū)ο蠹夹g(shù)與面向Agent技術(shù)的比較研究[J].計算機工程與應(yīng)用,2001,37(19) :137-139.