韓曉吉 劉鳳鳴
山東師范大學(xué)管理科學(xué)與工程學(xué)院 山東 250014
信息在開放和互動(dòng)的網(wǎng)絡(luò)環(huán)境中增長(zhǎng)越來越快,同時(shí)也出現(xiàn)了信息過剩,知識(shí)難獲取的狀況。個(gè)性化搜索引擎針對(duì)不同的用戶,利用其背景知識(shí)、興趣特征等多種信息,對(duì)其檢索詞和檢索結(jié)果進(jìn)行分析和提煉后再呈現(xiàn)給用戶,提高檢索結(jié)果的精準(zhǔn)度和用戶的滿意度,節(jié)省用戶在檢索結(jié)果處理上所花費(fèi)的精力。用戶興趣模型是用來獲得、存儲(chǔ)、管理用戶需求及其興趣特征,描述用戶潛在的需求及興趣的模型,它不僅僅是用戶興趣的一般描述,而是面向算法、具有特定數(shù)據(jù)結(jié)構(gòu)、形式化的知識(shí),它是個(gè)性化檢索的關(guān)鍵。由于用戶興趣模型建立之初缺乏完整的用戶描述,系統(tǒng)所獲取用戶興趣信息的相關(guān)度和準(zhǔn)確度低等因素,所以最初建立的用戶興趣模型不能完全反應(yīng)用戶的興趣需求;而且用戶興趣隨環(huán)境和時(shí)間的變化會(huì)不斷地發(fā)展變化,表現(xiàn)在模型中就是用戶興趣產(chǎn)生了漂移;長(zhǎng)久不用的興趣知識(shí)會(huì)造成數(shù)據(jù)冗余,不僅會(huì)浪費(fèi)存儲(chǔ)空間,增加計(jì)算的復(fù)雜度,而且新更新的知識(shí)與之前的類似知識(shí)會(huì)產(chǎn)生沖突。所以用戶興趣模型的更新在個(gè)性化檢索系統(tǒng)中尤為重要,它決定了系統(tǒng)對(duì)用戶的適應(yīng)度,也決定了系統(tǒng)的服務(wù)質(zhì)量。本文在闡述用戶興趣模型更新機(jī)制后,基于艾賓浩斯遺忘原理提出了一種新的用戶興趣模型更新機(jī)制。
用戶興趣更新是指在用戶興趣模型建立之后,對(duì)模型增加新獲取的用戶興趣知識(shí)或者刪除過時(shí)不用的用戶興趣知識(shí)。更新用戶興趣模型可以降低模型的信息存儲(chǔ)量,減少模型中的數(shù)據(jù)冗余,簡(jiǎn)化計(jì)算復(fù)雜度,并提高計(jì)算的精度;即使更新的用戶興趣模型能夠使個(gè)性化檢索系統(tǒng)更好的適應(yīng)用戶,提高服務(wù)質(zhì)量。一些建模方法可以基于模型表示技術(shù)的特點(diǎn)來更新,如機(jī)器學(xué)習(xí)通過歸納和分析方法來更新、神經(jīng)網(wǎng)絡(luò)通過增加和刪除無(wú)效的神經(jīng)元來更新、遺傳算法通過遺傳優(yōu)化染色體來更新;也有一些模型需要系統(tǒng)和用戶一起來更新模型,如基于主題、關(guān)鍵詞列表以及空間向量表示法就可以通過修改用戶興趣關(guān)鍵詞或者關(guān)鍵詞權(quán)重的方式來更新,因?yàn)楸旧磉@些模型興趣數(shù)據(jù)的獲取就有來源于用戶的部分,用戶所提交的數(shù)據(jù)也占據(jù)了模型的很大比例。但是所有模型的更新都要涉及到兩個(gè)方面:用戶興趣漂移和更新用戶興趣模型,但是上面所介紹的用戶興趣的表示技術(shù)卻不能包含上面的兩個(gè)方面,他們只有把那兩個(gè)方面都做好的基礎(chǔ)上才能基于自己的特點(diǎn)來更新用戶興趣模型。有關(guān)用戶興趣漂移研究較多,其中包括漂移概念研究、興趣變化規(guī)律研究、興趣漂移模型研究、興趣漂移機(jī)制研究以及興趣跟蹤研究等。1986年Schlimmer和Granger第一次建立了可以更新的用戶興趣模型STAGGER,這是一個(gè)逐漸的學(xué)習(xí)系統(tǒng),它能夠動(dòng)態(tài)的追蹤用戶的變化,基于貝葉斯網(wǎng)絡(luò)將用戶興趣分為感興趣和不感興趣兩種,通過增加新的屬性節(jié)點(diǎn)和調(diào)整興趣之間的鏈接權(quán)重來更新用戶興趣模型。1994年Mitchell 等使用一種軟件助手來安排會(huì)議,這種軟件采用機(jī)器學(xué)習(xí)方法來獲取用戶對(duì)會(huì)議安排的興趣,學(xué)習(xí)方法使用至少包含180個(gè)樣本的時(shí)間窗來快速的適應(yīng)用戶的興趣,這180個(gè)樣本由新產(chǎn)生的用戶興趣樣本與之前存儲(chǔ)在模型之中的舊樣本一起組成,這種機(jī)制主要基于這些樣本帶來的測(cè)試來決定用戶興趣是否發(fā)生了偏移。1995年Moloof和Michalski提出基于遺忘部分興趣的漸進(jìn)遺忘機(jī)制來更新用戶興趣模型,這種更新機(jī)制是選擇在興趣描述邊界的案例,然后將現(xiàn)在對(duì)用戶興趣的相關(guān)度小的或者獨(dú)立的樣本移除用戶興趣模型。這種方法用基于時(shí)間的遺忘機(jī)制將一些超過時(shí)間閾的部分用戶興趣模型移除,從而實(shí)現(xiàn)更新用戶興趣模型。1996年 Widermer和Kubat提出的FLORA系統(tǒng)引入了遺忘技術(shù),這種遺忘技術(shù)是通過可調(diào)節(jié)的窗口來實(shí)現(xiàn)的,所謂遺忘就是刪除達(dá)到遺忘閾的用戶興趣數(shù)據(jù),窗口大小和遺忘頻率是假設(shè)的,基于這種假設(shè)對(duì)模型做啟發(fā)式的動(dòng)態(tài)更新。1997年Widermer提出了基于元學(xué)習(xí)方法更新用戶興趣模型的方法,這種方法假設(shè)用戶的背景知識(shí)以及用戶現(xiàn)在感興趣的知識(shí)能夠預(yù)測(cè)用戶下一次要檢索的知識(shí),而且提出了2級(jí)學(xué)習(xí)機(jī)制,1級(jí)是用元學(xué)習(xí)方法檢索用戶興趣漂移,1級(jí)是將用戶的背景知識(shí)和現(xiàn)有興趣知識(shí)信息用在學(xué)習(xí)過程中。經(jīng)證明使用2級(jí)學(xué)習(xí)機(jī)制可以很好的對(duì)用戶興趣模型進(jìn)行更新。1998年Harrie 、Sammut以及Horn使用元學(xué)習(xí)方法識(shí)別潛在的用戶背景,這種方法假設(shè)用戶興趣在相當(dāng)長(zhǎng)的時(shí)間內(nèi)是穩(wěn)定的,它使用批處理學(xué)習(xí)機(jī)制與粗集方法來檢測(cè)用戶興趣的漂移。1998年Grabtree和Soltusiak 通過監(jiān)控用戶瀏覽WEB網(wǎng)頁(yè)和使用電子郵件的習(xí)慣來做為更新用戶興趣模型的依據(jù),并使用粗集方法來檢測(cè)用戶興趣的更改,他們的研究表明用戶興趣可以通過測(cè)量用戶興趣度在一段時(shí)間內(nèi)的相似度來查看興趣是否發(fā)生了改變。1999年Billsus和Pazzani引入智能Agent來更新用戶興趣模型,首先要將用戶興趣分為長(zhǎng)期和短期兩類,短期興趣模型只要通過觀察用戶最近的行為就能做出更新與否的決策,但是從長(zhǎng)期興趣模型需要逐漸的來更新。2000年Ivan Koychev改進(jìn)了時(shí)間窗方法,它使用一種標(biāo)記測(cè)試來感測(cè)用戶的興趣漂移,然后通過調(diào)整時(shí)間窗的窗口大小,目的是最大化的提高對(duì)最近用戶興趣數(shù)據(jù)分類的準(zhǔn)確性。同年Ivan Koychev提出了另外一種漸進(jìn)遺忘機(jī)制,并給出了遺忘函數(shù)W=f(t),他將每一個(gè)樣本都賦予一定的權(quán)重,權(quán)重的大小隨著時(shí)間會(huì)不斷變化,當(dāng)達(dá)到一定的權(quán)重閾值時(shí)候,這個(gè)用戶興趣就要更新。2003年Abreu在虛擬地圖的應(yīng)用中引入遺忘機(jī)制,并使用 ED方法改進(jìn)了遺忘機(jī)制在用戶興趣模型中的更新效果。2007年Yalcin指出了單獨(dú)的VSM無(wú)法更新用戶興趣模型,所以他們引入了Learn++算法來支持興趣漂移,綜合的 VSM 可以很好的適應(yīng)用戶興趣的變化。2008年Yingrong li定義了一種UChoo的方法來更新用戶興趣模型,UChoo方法也是定義對(duì)每個(gè)興趣樣本都定義了以個(gè)權(quán)重描述,這個(gè)權(quán)重描述使得最近的用戶興趣比時(shí)間長(zhǎng)久的用戶興趣更重要一些,反映在權(quán)重上值就更大一些。
假設(shè)用戶興趣模型已經(jīng)建立起來,這時(shí)候不需要用戶提供興趣知識(shí),系統(tǒng)使用機(jī)器學(xué)習(xí)方法可以獲取用戶的興趣信息。但是系統(tǒng)并不知道用戶的興趣是不是改變了,如果改變了新獲取的用戶興趣數(shù)據(jù)該怎么與原來的用戶興趣數(shù)據(jù)融合在一起;系統(tǒng)對(duì)那些過時(shí)的,用戶不在感興趣的樣本該怎么處理才能達(dá)到最好的服務(wù)效果。之前學(xué)者們大多都通過時(shí)間窗方法和遺忘機(jī)制來解決這個(gè)問題。因?yàn)橛脩襞d趣模型是通過用戶描述文件(User Profile)來表示用戶興趣知識(shí)的,而用戶描述文件中的用戶興趣是以分類的方式聚集在一起的。如果將用戶的興趣分為長(zhǎng)期興趣和短期興趣兩種,短期興趣由于影響因素比較的多,更新比較快,時(shí)間窗方法將是一種比較好的解決方式,時(shí)間窗方法應(yīng)用的基礎(chǔ)是用戶興趣是以用戶最近瀏覽序列來體現(xiàn)的,通過瀏覽序列以及瀏覽內(nèi)容可以看出用戶興趣是否發(fā)生了變更。長(zhǎng)期興趣一般比較穩(wěn)定,雖然也存在著影響因素,但是衰減比較的慢,學(xué)者們更多的是采用遺忘機(jī)制來更新長(zhǎng)期興趣。
更新是用戶興趣模型的重要功能,模型只有一直獲取用戶的興趣數(shù)據(jù),才能保證系統(tǒng)對(duì)用戶的適應(yīng)性,正因如此模型的數(shù)據(jù)量才會(huì)不斷地增大。根據(jù)帕累托法則,20%的重點(diǎn)信息能夠產(chǎn)出80%的決策結(jié)果,所以只需要保留重要的,與用戶下一次檢索密切相關(guān)的信息,這樣就可以把長(zhǎng)久不用的興趣信息更新掉,從而減小模型的信息儲(chǔ)存量。用戶的興趣是否被模型更新取決于與之聯(lián)系的事件的數(shù)目、它所涉及的內(nèi)容與用戶的相關(guān)度、時(shí)間以及現(xiàn)在所能表現(xiàn)用戶當(dāng)前興趣的準(zhǔn)確度等因素。對(duì)用戶興趣模型來說,相對(duì)于獲取用戶興趣數(shù)據(jù)是主動(dòng),用戶興趣的更新則是被動(dòng)的。也就是說模型能夠主動(dòng)去選擇是否獲取并存儲(chǔ)用戶的某一興趣,而不能選擇去更新用戶的某一興趣,因?yàn)橄到y(tǒng)很難判斷當(dāng)前的用戶興趣是否產(chǎn)生了漂移,也不知道獲取的信息將怎么替代過時(shí)的信息。用戶興趣模型更新的這些特點(diǎn)與人腦的遺忘機(jī)制很相似。人腦總是只保存最有意義和最經(jīng)常使用的那部分?jǐn)?shù)據(jù),大量的次要信息在長(zhǎng)時(shí)間不使用后會(huì)被慢慢遺忘,這種遺忘的機(jī)制使得大腦總是能適應(yīng)不斷增長(zhǎng)的信息處理工作,更快地提取到最有價(jià)值的那部分?jǐn)?shù)據(jù)。德國(guó)心理學(xué)家赫爾曼.艾賓浩斯(Hermann Ebbinghaus)認(rèn)為遺忘的速度在記憶緊接著的過后最快,然后慢慢放緩,直到遺忘的停止。但此時(shí)記憶的內(nèi)容不到原先的30%。他認(rèn)為“記憶與遺忘是時(shí)間的函數(shù)”心理學(xué)研究認(rèn)為,并根據(jù)實(shí)驗(yàn)結(jié)果繪成遺忘曲線,即著名的艾賓浩斯遺忘曲線。如圖1所示。
圖1 艾賓浩斯遺忘曲線
從圖1可以看出人的遺忘是有規(guī)律的,遺忘的進(jìn)程并不是均衡的,而是先快后慢的方式,可以認(rèn)為在遺忘最快的那段時(shí)間大腦中所保留的知識(shí)稱為短期記憶,遺忘到最后剩余的不足30%就幾乎是穩(wěn)定的長(zhǎng)期記憶了。心理學(xué)研究表明,人的興趣對(duì)應(yīng)于記憶也可分為長(zhǎng)期興趣和短期興趣。興趣的衰減同記憶一樣也是時(shí)間的函數(shù),但是衰減的時(shí)間并不一致,衰減的規(guī)律也有所區(qū)別,但是大致是相同的。本文則基于艾賓浩斯遺忘原理給出假設(shè),在前人研究的基礎(chǔ)上給出自己對(duì)興趣漂移的觀點(diǎn)。
檢測(cè)用戶興趣漂移是用戶興趣模型更新重要的一個(gè)環(huán)節(jié),因?yàn)槿绻d趣發(fā)生漂移,當(dāng)前所獲取用戶的興趣知識(shí)跟用戶描述文件里存儲(chǔ)的知識(shí)就是相同的,如果加入就會(huì)產(chǎn)生數(shù)據(jù)冗余,增加了用戶描述文件的存儲(chǔ)量,同時(shí)也增加了對(duì)用戶下一次檢索而做的興趣計(jì)算的復(fù)雜度。只有在判定用戶的興趣發(fā)生了變更,才能去更新用戶描述文件。本文介紹了之前學(xué)者們對(duì)用戶興趣漂移做出的研究,學(xué)者們提出的研究都很有建樹,同時(shí)也加快了用戶興趣漂移研究的進(jìn)程。筆者發(fā)現(xiàn)前人的研究都集中在了用戶興趣的預(yù)測(cè),但忽略了預(yù)測(cè)的驗(yàn)證。依據(jù)艾賓浩斯的遺忘曲線我們可以得到記憶的遺忘是有規(guī)律的,對(duì)應(yīng)于記憶的衰減也是符合規(guī)律的,而且在正常狀況下,這種規(guī)律將是一種遞減函數(shù)。基于這樣的假設(shè)筆者提出基于艾賓浩斯遺忘規(guī)律的前驗(yàn)用戶興趣漂移。獲取當(dāng)前的用戶興趣之后加入到用戶描述文件之中,如果新生成的興趣衰減曲線符合系統(tǒng)設(shè)置的閾值,那么表明興趣并沒有發(fā)生漂移,這里我們使用漸進(jìn)遺忘機(jī)制,就是將描述用戶興趣的關(guān)鍵詞賦予權(quán)重,權(quán)重的大小由衰減函數(shù)隨著時(shí)間計(jì)算得出。如果發(fā)現(xiàn)新生成的興趣衰減函數(shù)不符合常態(tài),已經(jīng)超出了系統(tǒng)設(shè)定的閾值,那么可以判定用戶的興趣發(fā)生了漂移。這個(gè)時(shí)候我們將重新為用戶的新興趣建立用戶興趣描述文件。
用戶興趣模型的更新需要分為兩種方式:修改興趣權(quán)重和重建用戶描述文件。前者是用戶的興趣發(fā)生了衰減,但是并未發(fā)生漂移,后者是用戶興趣發(fā)生了漂移。對(duì)于更新用戶興趣模型的研究,大多學(xué)者都在自己研究的基礎(chǔ)上提出了樣本數(shù)量的問題,樣本數(shù)量決定了用戶興趣在整個(gè)模型中的地位,同時(shí)也決定了用戶興趣的性質(zhì)。也就是量變會(huì)引起質(zhì)變。顯然本文提出的這兩種更新方式都是很宏觀的,沒有具體的給出更新數(shù)量?,F(xiàn)在的更新的研究可以分為三種:全部更新,新的興趣知識(shí)全部加入到用戶興趣模型,過時(shí)的興趣知識(shí)全部刪除;部分更新,也就是漸進(jìn)遺忘機(jī)制,將當(dāng)前興趣模型加入的同時(shí),將處于興趣另一個(gè)邊界的興趣知識(shí),也就是時(shí)間隔得最久的知識(shí)更新掉;全部加入,同時(shí)保留用戶的全部興趣知識(shí)。顯然第一種和第三種都不符合本文的意向,想要=應(yīng)用于實(shí)際也不太現(xiàn)實(shí)。對(duì)于第二種部分更新的方式,有學(xué)者采用黃金分割法,也有學(xué)者采用線函數(shù),還有20/80的方法來分。兩外基于時(shí)間窗方法的研究者在自己的試驗(yàn)中也給出了相應(yīng)的更新數(shù)量,Ivan Koychev就得出了130的最優(yōu)值,但是這些也只是基于在個(gè)人系統(tǒng)的研究數(shù)值。本文基于學(xué)者們的研究成果,提出基于遺忘百分比的更新。也就是根據(jù)遺忘曲線上的遺忘百分比,將模型中的興趣知識(shí)相應(yīng)的更新。這種方法的優(yōu)點(diǎn)是簡(jiǎn)單易行,但是基于每個(gè)人的興趣衰減規(guī)律的基礎(chǔ)上的。因?yàn)榘e浩斯提出的遺忘曲線是在統(tǒng)計(jì)大量不同人的遺忘數(shù)據(jù)之后生成的一種曲線,從而這種曲線具有共性的群體規(guī)律,此遺忘曲線并不考慮接受實(shí)現(xiàn)個(gè)人的個(gè)性特點(diǎn),而是尋求處于平衡點(diǎn)的遺忘規(guī)律。因?yàn)槲覀兊纳硖攸c(diǎn)、生活經(jīng)歷不同,可能導(dǎo)致我們有不同的興趣習(xí)慣、興趣特點(diǎn)。我們要根據(jù)每個(gè)人的不同特點(diǎn),尋找到屬于自己的興趣衰減方式。
本文在分析艾賓浩斯遺忘原理的基礎(chǔ)上,提出對(duì)應(yīng)的用戶興趣遺忘機(jī)制,并基于前人研究的基礎(chǔ)上,基于艾賓浩斯遺忘規(guī)律從用戶興趣漂移和更新用戶興趣模型兩個(gè)方面的提出前驗(yàn)用戶興趣漂移和基于遺忘百分比的更新算法。艾賓浩斯遺忘曲線只是時(shí)間的函數(shù),對(duì)于其他的影響因素并沒有涉及,本文也只是基于興趣時(shí)間來更新用戶興趣模型。
[1]Koychev I,Lothian R.Tracking.Drifting concepts by time window optimisation[M].Research and Development in Intelligent Systems XXII.2006.
[2]Abreu,A,Correia,L.An hybrid aping approach with place forgetting[J].42nd IEEE Conference on Decision and Control.2003.Proceedings.
[3]Yalcin.A,Erdem.Z,Gurgen.F.Ensemble based incremental SVM classifiers for changing environments[J].22nd international symposium on Computer and information sciences.2007.
[4]Yingrong Li,Yang Wei,Anastasiya Kolesnikova,Won Don Lee.A New Gradual Forgetting Approach for Mining Data Stream with Concept Drift [J].International Symposium on Information Science and Engieering.2008.
[5]宋麗哲,牛振東,余正濤,來瀚濤,董祥軍.一種基于混合模型的用戶興趣漂移方法[J].計(jì)算機(jī)工程.2006.
[6]郭新明,弋改珍.混合模型的用戶興趣漂移算法[J].智能系統(tǒng)學(xué)報(bào).2010.
[7]Koychev.I,Schwab.I.Adaptation to Drifting User's Interests.In proc.of ECML2000 Workshop: Machine Learning in New Information Age.2000.
[8]Mladenic D.Text-learning and Related Intelligent Agents.IEEE Intelligent Systems 1999.
[9]Conlan.O,Wade.V,Bruen.C,Grgan.M.Multi-model metadata driven approach to adaptive hypermedia services for personalized eLearning [J].Adaptive hypermedia and adaptive web-based systems.100–111.Springer,Berlin.2002.
[10]Peter Eberle.Christian Schwarzinger,Christian Starry.User modeling and cognitive user support: towards structured development[J].Univ Access Inf Soc.2010.