宮玲玲 喬鴻
山東師范大學管理科學與工程學院 山東 250014
本文用戶興趣建模過程中充分考慮了用戶使用移動設備的特點。通過爬取用戶已瀏覽的WAP頁面,從中識別出手機用戶的長期、短期興趣,建立基于本體的加權關鍵詞用戶興趣模型。用戶使用手機瀏覽網頁時自動根據(jù)用戶的興趣模型調整打開WAP頁面的信息界面,使用戶能在較短時間找到自己需要的移動信息。
基于本體的研究一直存在一個問題:領域本體的構建一直依賴設計人員的知識和經驗,本體的有效性難以保證。本文直接根據(jù)ODP(Open Directory Project)開放式目錄信息構建領域本體,可避免以上的問題。ODP是目前互聯(lián)網上最大的、最廣泛的網絡資源目錄。由來自世界各地的志愿者共同建設和維護的,且一直處在不斷更新中。
本文領域本體的構建根據(jù)ODP的前三個層次,ODP開放式目錄將知識體系按多層次化結構來表示,上層主題父類是對下層所有子類的共同屬性的概括,而下層子類則是從不同角度對上層父類的細化。第三層根據(jù)中文維基百科的分類索引進行特征詞的擴充,這樣基本能夠涵蓋大部分概念及其關系。本文使用Stanford大學開發(fā)的Protégé 4.1本體編輯器來建立領域本體。
用戶興趣模型的創(chuàng)建首先需要收集用戶興趣,這一過程為用戶興趣模型的建立提供必要的數(shù)據(jù)源。現(xiàn)代個性化系統(tǒng)中,多采用隱式的信息收集方式,或二者結合的方式。由于移動設備屏幕顯示的限制,本文采用隱性方式自動構建用戶模型。通過移動用戶瀏覽WAP頁面的行為來挖掘用戶興趣。用戶瀏覽的過程中,記錄下用戶瀏覽頁面的完整URL、頁面大小(傳輸?shù)淖止?jié)數(shù))、用戶瀏覽頁面的時間等信息。用戶瀏覽頁面的這些信息主要來源于WAP門戶網站及相關接入服務提供商(SP)的WAP服務器,這些服務器中詳細記錄了用戶的瀏覽信息。
用戶對于自己感興趣的內容會花費較多的時間去閱讀和思考,所以用戶瀏覽WAP頁面的行為從一定程度上能夠反映出用戶對頁面內容的興趣度。一般,用戶瀏覽的時間和文章的長度成正比,與用戶移動終端屏幕顯示的字數(shù)成反比。綜合考慮各個因素,文中依據(jù)用戶相對閱讀速度的不同,判斷其興趣度。相對閱讀速度與用戶對頁面的興趣度成反比。相對閱讀速度即用戶i閱讀頁面j的速度與其平均閱讀速度的比率,如式1所示。
公式(1)中,Rateij表示用戶i閱讀頁面j的相對閱讀速度,Rij是用戶i閱讀頁面j的速度,Ri是用戶i的平均閱讀速度。
根據(jù)獲得的wap頁面的大小和用戶在頁面的停留時間來計算用戶的閱讀速度,如式2所示。size(j)表示頁面j的大小,tij表示用戶i閱讀新聞j所用的時間。當t1≤tij≤t2時,
其中,t1表示最小閱讀時間,t2表示最大閱讀時間。當tij
用戶i的平均閱讀速度如式3所示:
在公式(3)中,size(i)是用戶i所有閱讀過的頁面的大小之和,time(i)是用戶閱讀過的頁面所花費的時間之和。
根據(jù)用戶的相對閱讀速度可以對應出用戶對WAP頁面的興趣度。如表1所示。
表1 頁面興趣度對應表
本文采用基于本體的加權關鍵詞興趣表示方法。用戶興趣模型是用戶興趣領域本體的部分映射。每個用戶有一棵用戶興趣樹,按用戶存儲在用戶興趣庫中,用戶興趣樹如圖1所示。同一用戶所有興趣類別的集合構成該用戶的用戶興趣集,某個興趣類別包含的特征詞的集合構成興趣類別的特征詞集。該方法通過不同組合的興趣節(jié)點及其權值構成用戶個體興趣本體來表示用戶的興趣。
圖1 用戶興趣模型
定義用戶興趣樹中節(jié)點為三元組,其中每個節(jié)點定義為:
node={keyword,weight,time}
其中,keyword是這一節(jié)點的興趣類別,weight為該興趣類別的權重,用來表示用戶對該興趣類別的偏好程度。time為權重的最新更新時間。
用戶興趣樹的生成算法:
(1) 用戶興趣樹的根節(jié)點為用戶ID,用來標識用戶信息;
(2) 根據(jù)用戶的子興趣類型n創(chuàng)建興趣類型節(jié)點及其父節(jié)點,子節(jié)點與父節(jié)點相連,父節(jié)點與根節(jié)點相連。
(3) 子興趣節(jié)點n的權值為其下的特征詞節(jié)點it的權值之和再疊加上自身的權值,如式4所示:
(4) 向上逐個計算父節(jié)點的權值,父節(jié)點權值為其子興趣節(jié)點權值之和。
在初始狀態(tài)下,用戶興趣模型中僅存在根節(jié)點。本文中手機用戶使用手機號碼作為識別用戶身份的惟一標識,即用手機號碼表示用戶ID。
根據(jù)用戶的瀏覽日志記錄,得到用戶的瀏覽歷史頁面URL,從而獲得WML文檔。通過WML解析器對WML文檔進行預處理,去除其中與用戶興趣挖掘無關的內容,提取出文檔的標題和文本。文本采用向量空間模型(VSM)的表示方法。特征詞按照其TF/IDF值降序排列,因為權值高的特征詞能夠更好的反映該文本的內容,而權值低的詞與文檔本身的內容關系較弱。所以只需要使用最能夠代表文檔特征的前K個特征詞及其權值參與計算即可。
WAP頁面的歸類通過計算頁面特征詞向量和興趣領域本體中興趣子類的相似度得到,取相似度最高的類別作為該頁面的類別。WAP頁面D向量表示為D={k1,w1;k1,w2...kn,wn},用戶興趣類別N和頁面D的相似度采用余弦相似度計算方式,如式5所示:
twi表示興趣領域本體中興趣類別N的特征詞的權重,如果N的特征詞集中有ki,則權值為1,否則為0。
本文用戶興趣模型采用基于本體的加權關鍵詞興趣表示方法,它隨著用戶興趣的變化也進行相應的更新。從移動設備存儲的容量和運行的效率方面考慮,需定期淘汰用戶次要的和過時的興趣類別。用戶興趣分為長期和短期興趣。長期興趣反映出用戶長期的偏好特征,而短期興趣隨著時間的推移發(fā)生改變。用戶短期興趣很難與用戶偶然性的瀏覽相區(qū)分。本文所建立的用戶模型能同時反映出用戶的長期興趣和短期興趣的變化。
文中當發(fā)現(xiàn)用戶一個興趣類別M時,查詢該用戶現(xiàn)有的興趣類別。如果此興趣類別已經包含在興趣模型中,則對該興趣類別及其特征詞的權重和時間進行修改。如果發(fā)現(xiàn)此興趣類別不在用戶興趣模型中,則直接在用戶興趣模型中生成一個新的興趣類別,并對應相應的權重和時間。興趣領域本體中興趣類別M的特征詞集中和WAP頁面的特征詞相對應的特征詞加入用戶興趣模型興趣類別M下,并對應相應的權重。特征詞的權重的更新方法如式6所示,不是將TF/IDF值直接累加,而是將原模型中的所有特征詞的權重乘以一個衰減系數(shù)。新的特征詞的權重也不是直接歸并進去,歸并的時候需要乘以用戶對該頁面的興趣度,興趣度在用戶興趣收集時已根據(jù)相對閱讀速度得到。
其中,wi表示特征詞ti新的權值;λ(t)為時間衰減系數(shù);wi′表示其原權值;Iij是用戶i對當前瀏覽的頁面j的興趣度;wj是頁面j中該特征詞的TF/IDF值。λ(t)是與時間相關的函數(shù),如式7所示:
其中,k值的大小決定了特征值權重的衰減速度。k值越大,衰減速度越快。興趣類別的自身權重的更新方式與以上特征詞的更新方式相同,只是公式6中jw表示頁面與所屬興趣類別的余弦相似度。更新用戶模型時,原模型中所有興趣類別及其特征詞的權重均乘以衰減系數(shù)的原因是用戶的短期興趣有隨著時間的推移而逐漸消失的特點,使用時間衰減系數(shù)能使短期興趣的特征詞的權值逐漸減小直至淘汰出用戶興趣模型。
移動個性化服務是移動網絡快速發(fā)展的產物,是一個有巨大應用前景的研究領域。本文研究了移動環(huán)境下基于領域本體構建用戶興趣模型。根據(jù)用戶瀏覽相對速度,分析用戶對WAP頁面的偏好程度,反映到用戶興趣模型中,能夠及時反映出用戶興趣的變化。該模型完全采用自動用戶建模,不會給用戶帶來負擔,能夠更好的為移動環(huán)境下個性化服務提供基礎。
[1] 中國互聯(lián)網絡信息中心.第28次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告.[2012-07-19].http://www.cnnic.net.cn.
[2] 曹建.WAP編程與開發(fā)實例教程[M].北京:電子工業(yè)出版社.2001.
[3] 蘭楊.移動個性化信息服務中用戶興趣建模的研究[D].成都:電子科技大學.2009.
[4] 李善平,尹奇,胡玉杰.本體論研究綜述[J].計算機研究與發(fā)展.2004.
[5] 李強.基于本體論的個性化和社會化元搜索引擎的研究[D].浙江:浙江大學.2006.