石 建 劉紅鷹
〔摘 要〕針對(duì)人們提出的網(wǎng)絡(luò)信息個(gè)性化服務(wù)內(nèi)容及相關(guān)技術(shù)問題,本文重點(diǎn)介紹了當(dāng)前具有代表性的個(gè)性化信息服務(wù)優(yōu)先領(lǐng)域的研究。并認(rèn)為用戶的興趣和行為表達(dá)、聚類與分類、個(gè)性化信息服務(wù)安全與系統(tǒng)評(píng)價(jià)等,為目前Web個(gè)性化信息系統(tǒng)所采用的關(guān)鍵技術(shù)中,應(yīng)重點(diǎn)關(guān)注的領(lǐng)域。
〔關(guān)鍵詞〕個(gè)性化;Web技術(shù);信息服務(wù);優(yōu)先領(lǐng)域
〔中圖分類號(hào)〕G351 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)05-0121-03
Study on Technologies of the Web Personalized Information ServiceShi Jian Liu Hongying
(Library,F(xiàn)ourth Military Medical University,Xi餫n 710033,China)
〔Abstract〕For the web personalized information services and related technical questions,the paper focused on the current representative of personalized information services priority areas of research.And that the user餾 interests and acts of expression,clustering and classification,personalized information services such as security and evaluation system,for the present personalized Web information systems used by key technology,should focus on areas of concern.
〔Keywords〕personalization;web technologies;information service;priority areas
隨著Web信息爆炸式的增長(zhǎng),人們獲取有用信息變得愈加困難,“信息過量”和“信息饑餓”的矛盾愈顯突出。類似搜索引擎及數(shù)據(jù)庫檢索等通用性質(zhì)的工具,已不能滿足不同背景、不同目的和不同時(shí)期用戶的查詢請(qǐng)求,個(gè)性化服務(wù)內(nèi)容及相關(guān)技術(shù)問題已成為科技工作者探究的主要課題。目前已存在多種網(wǎng)絡(luò)個(gè)性化服務(wù)系統(tǒng),如,從最初國(guó)外的卡內(nèi)基?梅隆大學(xué)創(chuàng)制個(gè)性化導(dǎo)航系統(tǒng)“WebWatcher”開始,已研制出諸如WUM、SETA、TELL IM、WebLogMiner等多個(gè)較為成熟的個(gè)性化推薦系統(tǒng);國(guó)內(nèi)也從2000年清華大學(xué)的路海明等,提出基于多Agent混合智能實(shí)現(xiàn)個(gè)性化推薦技術(shù)開始,到目前也研制出多個(gè)相對(duì)成功的個(gè)性化服務(wù)系統(tǒng)及定制的門戶網(wǎng)站。如網(wǎng)易、新浪的個(gè)性化服務(wù),中國(guó)人民大學(xué)、浙江大學(xué)、廈門大學(xué)、華東理工大學(xué)圖書館的Mylibrary系統(tǒng),以及中國(guó)科學(xué)院建立的數(shù)字圖書館——基于個(gè)性集成定制的門戶網(wǎng)站等[1-2]。但在實(shí)踐過程中,發(fā)現(xiàn)仍有很多領(lǐng)域值得繼續(xù)深入研究,其中包括:
1 用戶興趣與行為的表達(dá)
個(gè)性化信息服務(wù)中,必須考慮用戶的興趣、偏好和需求差異對(duì)行為的影響,以提高個(gè)性化信息服務(wù)的針對(duì)性和面向用戶的合理性。這給個(gè)性化支撐技術(shù)的研制和應(yīng)用帶來較大的困難,因?yàn)椴煌瑢I(yè)、不同用戶個(gè)體所表現(xiàn)出來的需求興趣和行為千差萬別,同一技術(shù)支撐下的服務(wù)內(nèi)容難以取得相同的滿意程度。利用何種技術(shù)方法跟蹤、學(xué)習(xí)、提取、表達(dá)用戶的多興趣,是一個(gè)最基本也是最重要的問題。
1.1 探尋興趣優(yōu)化的過濾方法
實(shí)現(xiàn)個(gè)性化服務(wù)需要準(zhǔn)確的識(shí)別用戶,跟蹤用戶的興趣和行為,對(duì)用戶的興趣和行為進(jìn)行描述。由于用戶興趣是多面的、動(dòng)態(tài)的,跟蹤、學(xué)習(xí)和表達(dá)用戶興趣,需開發(fā)優(yōu)化的過濾方法。依據(jù)文獻(xiàn)報(bào)道,用戶興趣及特征優(yōu)化的方法主要包括:基于內(nèi)容的過濾技術(shù)、協(xié)作式過濾技術(shù)、混合方式過濾技術(shù)?;趦?nèi)容的過濾源于信息檢索,采用與信息檢索相似的技術(shù),信息對(duì)象的過濾是建立在其內(nèi)容與用戶興趣相比較的基礎(chǔ)上;協(xié)作過濾也稱協(xié)作過濾,是“相似”用戶的合作過程,是用戶通過相互協(xié)作、依據(jù)信息的評(píng)價(jià)來過濾信息[3]。與基于內(nèi)容的過濾相比,基于協(xié)作的過濾有很大差別,不是計(jì)算信息特征集合的相似度,而是計(jì)算用戶的相似度,這種系統(tǒng)通過比較當(dāng)前用戶與其他用戶的興趣特征之相似度計(jì)算出用戶間的相關(guān)度,來預(yù)測(cè)待過濾信息是否為用戶感興趣信息?;旌鲜竭^濾與其中單純的基于內(nèi)容的過濾或單純的協(xié)作式過濾相比,能使信息過濾系統(tǒng)的相對(duì)查全率和相對(duì)查準(zhǔn)率大幅度提高。
1.2 建立興趣表達(dá)的用戶模型
實(shí)現(xiàn)個(gè)性化服務(wù)需要準(zhǔn)確的識(shí)別用戶,跟蹤用戶的興趣和行為,同時(shí)對(duì)用戶的興趣和行為進(jìn)行描述與概括,構(gòu)建和更新用戶興趣模型及計(jì)算用戶興趣模型的相似性等問題。其中最為關(guān)鍵的是如何進(jìn)行用戶興趣模型的建造[3-4]。用戶建模過程中面臨諸多問題,其中之一就是用戶模型構(gòu)建需求內(nèi)容標(biāo)準(zhǔn)缺乏統(tǒng)一。有人將興趣內(nèi)容歸為九類,如,個(gè)人信息(包括性別、年齡、語言、文化等),認(rèn)知方式、設(shè)備、使用環(huán)境、歷史行為、目標(biāo)、使用系統(tǒng)的經(jīng)驗(yàn)、領(lǐng)域知識(shí)等,但并不被廣泛接納。再有則是建模技術(shù)。目前用戶建??煞郑菏止ざㄖ平?、示例用戶建模、自動(dòng)用戶建模等。其中自動(dòng)用戶建模通過用戶的行為推測(cè)用戶對(duì)web頁面及其他內(nèi)容的興趣,無需用戶提供信息,不造成對(duì)用戶的干擾,有利于提高個(gè)性化服務(wù)系統(tǒng)的易用性,較符合前瞻性的發(fā)展要求。
2 個(gè)性化過程中的分類和聚類
Web個(gè)性化服務(wù)是通過對(duì)用戶有關(guān)數(shù)據(jù)的分析,來捕獲用戶的行為偏好及興趣以及為用戶提供幫助的一系列服務(wù)技術(shù),涉及的主要問題包括:如何充分運(yùn)用用戶和會(huì)話識(shí)別、協(xié)作過濾、顯示和隱式收集方式以及高效的并行算法,來高效準(zhǔn)確地采集、處理Web個(gè)性化數(shù)據(jù),以保證數(shù)據(jù)收集和處理的數(shù)量和質(zhì)量。其中分類和聚類技術(shù),特別是聚類技術(shù)對(duì)于改進(jìn)興趣信息搜索結(jié)果的顯示,具有不可替代的位置。因?yàn)樗軌驇椭覀儼l(fā)現(xiàn)特征迥異的不同用戶群,輔助信息服務(wù)機(jī)構(gòu)對(duì)各用戶群的特征進(jìn)行深刻洞察。目前就已存在比較前沿的分類與聚類算法有:
2.1 基于模糊聚類方法
模糊聚類是利用模糊等價(jià)關(guān)系將給定的對(duì)象分為一些等價(jià)類,通過一定的閾值來確定對(duì)象的相似類別。這種聚類方法使得屬于同一類別的用戶之間的相似性升高,而不同類別上的用戶之間的相似性降低。和傳統(tǒng)的聚類相比更顯得有效。因?yàn)閭鹘y(tǒng)聚類把目標(biāo)用戶硬性劃分到某個(gè)聚類中。而模糊聚類是一種軟聚類,用戶相對(duì)于每個(gè)聚類都有一個(gè)隸屬度,不會(huì)被生硬性劃分到某個(gè)聚類中[5-6]。加之Web站點(diǎn)內(nèi)容的動(dòng)態(tài)變化,用戶瀏覽Web時(shí)目的性不很明確,具有模糊性和不確定性,而模糊聚類算法將用戶對(duì)項(xiàng)目的評(píng)分轉(zhuǎn)換為具有相似性的用戶群對(duì)項(xiàng)目的評(píng)分,然后結(jié)合項(xiàng)目類別屬性相似性的影響,計(jì)算出目標(biāo)項(xiàng)目的相似項(xiàng)目集合,就使聚類顯得更自然,更符合客觀實(shí)際,比傳統(tǒng)方法中的項(xiàng)目的相似性計(jì)算更加精確。
2.2 基于網(wǎng)格聚類方法
基于網(wǎng)格的方法是采用一個(gè)多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu)。把數(shù)據(jù)空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)格結(jié)構(gòu)[7]。所有的聚類操作都在網(wǎng)格結(jié)構(gòu)上進(jìn)行。這種方法的主要優(yōu)點(diǎn)是它的處理速度快,其處理時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的數(shù)目,只與量化空間中分成多少個(gè)單元有關(guān)。代表的算法有:sting算法(統(tǒng)計(jì)信息網(wǎng)絡(luò))CLIQE算法(聚類高緯空間)、WAVE-CLUSTER算法(采用小波變換聚類)。
2.3 基于模型的聚類方法
基于模型的方法為每一個(gè)聚類假定了一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。一個(gè)基于模型的算法可能通過構(gòu)建反映數(shù)據(jù)點(diǎn)空間分布的密度函數(shù)來定位聚類。也可能基于標(biāo)準(zhǔn)的統(tǒng)計(jì)數(shù)字決定聚類數(shù)目,考慮“噪聲”數(shù)據(jù)或孤立點(diǎn),從而產(chǎn)生健壯的聚類方法。該方法試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。這樣的方法常基于這樣的假設(shè):數(shù)據(jù)是根據(jù)潛在的概率分布生成的?;谀P偷姆椒ㄖ饕袃深悾航y(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法[7-8]。
3 個(gè)性化信息服務(wù)安全與系統(tǒng)評(píng)價(jià)
由于Web個(gè)性化信息或以MyLibrary為代表的個(gè)性化數(shù)字圖書館更多地依賴數(shù)據(jù)庫技術(shù)和動(dòng)態(tài)網(wǎng)頁技術(shù),從本質(zhì)上并沒有改變?cè)械男畔⒔M織方式和安全保障方式,缺乏對(duì)用戶特征的定量分析和精確描述及開放機(jī)制,用戶無法實(shí)現(xiàn)對(duì)興趣資源的安全索取和防止隱私濫用,也不能添加自己需要的外部資源及進(jìn)行有效的系統(tǒng)效果評(píng)價(jià)[9],個(gè)性化信息安全保障與系統(tǒng)個(gè)性化服務(wù)評(píng)價(jià)標(biāo)準(zhǔn)的建立卻已成為優(yōu)先研究領(lǐng)域。
3.1 信息安全技術(shù)保障
Web個(gè)性化信息安全保障,與通信保密、信息安全兩個(gè)概念相比,其層次更高、提供的安全保障更為全面[2,10]。個(gè)性化信息安全保障不僅要求保證個(gè)性信息在過濾、存儲(chǔ)、傳輸和使用過程中的保密性、完整性、真實(shí)性、可用性和不可否認(rèn)性,同時(shí)還要求把信息系統(tǒng)建設(shè)成一個(gè)具有預(yù)警、保護(hù)、檢測(cè)、響應(yīng)、恢復(fù)和反擊等六大能力的縱深防御體系。由于當(dāng)前網(wǎng)絡(luò)信息和特征化信息安全是涉及計(jì)算機(jī)科學(xué),網(wǎng)絡(luò)技術(shù),通信技術(shù),密碼技術(shù),信息安全技術(shù),應(yīng)用數(shù)學(xué),數(shù)論以及信息論等多種學(xué)科的綜合性學(xué)科,這給研究人員帶來較大的困難,所以在眾多的個(gè)性化系統(tǒng)中,鮮有考慮用戶的個(gè)人隱私信息安全問題。但在某些項(xiàng)目方面,如,防火墻技術(shù)、數(shù)據(jù)加密技術(shù)、虛擬局域網(wǎng)(VLAN)與虛擬專用網(wǎng)(VPN)技術(shù)、入侵檢測(cè)(IDS)與安全審計(jì)技術(shù)、安全掃描與防病毒技術(shù)等,已投入不少的人力、物力,研究也已取得成效。今年初,美國(guó)網(wǎng)絡(luò)安全部門召集在信息安全保障領(lǐng)域做出過卓越貢獻(xiàn)的七名非常優(yōu)秀的專家,以訪談的形式預(yù)測(cè)該領(lǐng)域的未來,專家圍繞一些有爭(zhēng)議的和非常尖銳的問題侃侃而談,預(yù)測(cè)未來15年信息安全保障技術(shù)領(lǐng)域可能會(huì)有的突破,Steve Bellovin教授看好2個(gè)領(lǐng)域,其一是希望可以設(shè)計(jì)出一種能承受破壞的安全體系機(jī)構(gòu),使得即使有難以避免的故障,也不可能導(dǎo)致更大范圍的系統(tǒng)滲透;其次是致力于對(duì)人的教育,讓其明白各種安全敏感行為所帶來的后患。國(guó)內(nèi)將安全保護(hù)及可用性作為信息安全保障的終極目標(biāo)也越來越受到關(guān)注,有人預(yù)估[10]不到3年時(shí)間,信息安全一個(gè)新興領(lǐng)域——數(shù)據(jù)恢復(fù)服務(wù)行業(yè)悄然興起。
3.2 個(gè)性化信息服務(wù)評(píng)價(jià)
網(wǎng)絡(luò)信息服務(wù)主要是以計(jì)算機(jī)硬件和通信設(shè)備為依托,以應(yīng)用軟件為手段,以數(shù)據(jù)庫信息資源為利用對(duì)象,將信息提供、信息發(fā)布和咨詢服務(wù)與中介統(tǒng)一起來,最大限度地實(shí)現(xiàn)面向用戶的個(gè)性化服務(wù)[11]。目前在學(xué)術(shù)界引起廣泛關(guān)注的是網(wǎng)絡(luò)信息個(gè)性化定制服務(wù)的手段和內(nèi)容及其它增值服務(wù),也就是信息企業(yè)從各種渠道收集信息、數(shù)據(jù),制定統(tǒng)一標(biāo)準(zhǔn)格式,匯編成數(shù)據(jù)庫,通過網(wǎng)絡(luò)對(duì)用戶提供服務(wù)。諸如,數(shù)據(jù)庫服務(wù)、搜索引擎服務(wù)、資源導(dǎo)航服務(wù)、信息推送服務(wù)等,對(duì)其服務(wù)質(zhì)量的評(píng)價(jià)多基于構(gòu)建一套基于網(wǎng)絡(luò)信息服務(wù)指標(biāo)體系的研究。針對(duì)Web信息個(gè)性化服務(wù)目前還沒有建立一種有效的個(gè)性化信息服務(wù)評(píng)價(jià)體系。由于專家的看法并非一致,基本上都落在信息獲得與內(nèi)容、娛樂性、易用性、安全性、隱私性、可靠性、存取性、回應(yīng)性、補(bǔ)償性、站點(diǎn)美觀以及個(gè)性化等指標(biāo)上,有必要對(duì)網(wǎng)絡(luò)信息服務(wù)的相關(guān)評(píng)價(jià)指標(biāo)進(jìn)行整理與探討,并進(jìn)一步加以整合[12]。建立評(píng)估模型,從系統(tǒng)評(píng)價(jià)(例如:響應(yīng)時(shí)間、內(nèi)存管理、可擴(kuò)展性以及互操作性等)、建模性能以及可用性等方面來評(píng)價(jià)個(gè)性化系統(tǒng)的性能。
4 結(jié)束語
個(gè)性化是一個(gè)非?;钴S的研究領(lǐng)域,向用戶提供個(gè)性化的信息服務(wù)和主動(dòng)信息服務(wù),無論從理論研究還是實(shí)際應(yīng)用,都具有廣闊的前景。而Web個(gè)性化技術(shù)仍然是有待發(fā)展的技術(shù),本文通過展示W(wǎng)eb個(gè)性化服務(wù)中有待深入研究的幾個(gè)核心問題,驅(qū)使領(lǐng)域?qū)I(yè)研究人員更加警示。與此相關(guān)語義信息的有效利用、Web個(gè)性化與語義Web的有機(jī)融合、以及如何把Web訪問活動(dòng)自動(dòng)轉(zhuǎn)變成本體論及如何從本體論中歸納出個(gè)性化使用等,都是目前重要的研究課題。
參考文獻(xiàn)
[1]楊曉湘,孫坦.中美圖書館MyLibrary個(gè)性化服務(wù)系統(tǒng)的比較研究[J].現(xiàn)代情報(bào),2005,(10):218-221.
[2]吳輝娟,袁方.個(gè)性化服務(wù)技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006,(2):32-35.
[3]梁勁.基于Web用戶訪問信息挖掘技術(shù)的個(gè)性化定制服務(wù)[J].福建電腦,2008,(2):147-148.
[4]蔣衛(wèi)星,張彬,金甌.Web個(gè)性化技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2008,(5):34-35.
[5]溫會(huì)平,陳俊杰.基于用戶模糊聚類的個(gè)性化推薦算法[J].計(jì)算機(jī)與數(shù)字工程,2008,(2):13-16.
[6]柴世紅,康正軍.基于模糊聚類的網(wǎng)站用戶分類[J].甘肅科技,2008,(3):20-23.
[7]于洪濤,段軍義,杜照豐.一種基于聚類技術(shù)的個(gè)性化信息檢索方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,(8):33-36.
[8]陳為思,張前磊.自適應(yīng)個(gè)性化數(shù)字圖書館用戶建模研究[J].江西圖書館學(xué)刊,2008,(2):75-78.
[9]付曉翠,許盈.基于Web數(shù)據(jù)挖掘的個(gè)性化搜索引擎研究綜述[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2008,(3):141-144.
[10]馬芳,葉惠敏.國(guó)外信息安全保障技術(shù)的回顧與前瞻——國(guó)外專家談2008年信息安全保障問題[J].信息安全與通信保密,2008,(6):14-19.
[11]盧濤,雷雪.網(wǎng)絡(luò)信息服務(wù)質(zhì)量評(píng)價(jià)及其實(shí)證研究[J].圖書情報(bào)知識(shí),2008,(1):35-40.
[12]焦玉英,雷雪.基于用戶滿意度的網(wǎng)絡(luò)信息服務(wù)質(zhì)量評(píng)價(jià)模型及調(diào)查分析[J].圖書情報(bào)工作,2008,(2):81-84.