吳俊杰,劉耀軍,趙月愛
(太原師范學(xué)院計算機(jī)系,山西太原 030012)
如何識別用戶的喜好,是 Web個性化[1]的關(guān)鍵技術(shù)。通過精確匹配由用戶訪問興趣建立的項目/對象模型,可有效地解決信息超載的問題。然而,用戶的行為識別是一個復(fù)雜的過程,它涉及到各種搜索參數(shù)之間的關(guān)系。在用戶行為建模方面,從服務(wù)器日志中獲得的隱式數(shù)據(jù)更可靠,因為它反映了在各自網(wǎng)站的查詢中用戶的實(shí)際需求。然而,這些數(shù)據(jù)的問題是多維度的,如日期、時間、使用的操作系統(tǒng)、瀏覽器和其他細(xì)節(jié)。檢索它們之間的關(guān)系是一個復(fù)雜的過程。傳統(tǒng)的方法使用兩個多維數(shù)據(jù)建模技術(shù)、歐氏距離或余弦相似度措施,但是,以往的研究表明[2],在高維空間中,聚類的屬性選擇不同會產(chǎn)生相當(dāng)大的差異。在這項研究中,我們建議使用TSM(張量空間模型),這是更高的三維數(shù)據(jù)建模工具,以有效地挖掘用戶的信息,包括在每個維度上的用戶訪問興趣。
TSM的使用已經(jīng)成為流行,其多維數(shù)據(jù)建模和推論的能力已得到認(rèn)可[3,4]。使用TSM Web挖掘和相關(guān)工作正處于起步階段。TSM已廣泛使用在化學(xué)計量學(xué)[4]。利用點(diǎn)擊流數(shù)據(jù)來定位個性化網(wǎng)絡(luò)搜索可以有效地進(jìn)行Web挖掘[5]。最近,提出了ptucker(潛變量概率模型),它具有學(xué)習(xí)依賴性結(jié)構(gòu)的能力。TSM使用降維HOSVD,已用于個性化的音樂和標(biāo)簽推薦體系,研究人員使用TSM創(chuàng)建基于標(biāo)簽的推薦模型。最近的工作是TSM的集群。不同于先前討論的這些方法,我們將單個用戶的行為模型化,組成張量,然后使用這種模式,根據(jù)用戶最受好評的興趣提出建議。
我們遵循傳統(tǒng)的符號[4,5],標(biāo)量采用小寫字母,向量采用一維數(shù)組,矩陣采用兩維數(shù)組。張量可以用下式n階方陣表示
構(gòu)建用戶喜好模型中最關(guān)鍵的任務(wù)就是在每個維度上尋找相關(guān)特性,可以分為三個步驟是:(1)模型的構(gòu)建(利用原始數(shù)據(jù)構(gòu)建張量),(2)模型分解(尋找突出特性和不同特性之間的潛在關(guān)系),(3)重建模型(從每個維度中尋找相關(guān)特性)。
第1步,模型的構(gòu)建:創(chuàng)建張量模型之前要進(jìn)行數(shù)據(jù)預(yù)處理,包括刪除不必要的屬性或特征的數(shù)據(jù)集。要做到這一點(diǎn),可進(jìn)行分組、分節(jié)。對每個用戶的會話數(shù)據(jù)進(jìn)行分析。會話中所有出現(xiàn)的獨(dú)特功能都提取到張量模型作為代表模式。構(gòu)建好的用戶訪問張量如下:
第2步,模型分解:在多維數(shù)據(jù)模型的分解過程中,能夠找到最突出的部分(即張量項和模式),以及可能存在的不同組件之間的隱藏關(guān)系。我們使用的是PARAFAC,Tucker和HOSVD張量分解技術(shù)。
第3步:重建模型:一旦用戶模型創(chuàng)建和分解好后(步驟1和2),取每個維度上的前n個值作為維度值。如圖1所示:
圖1 PARAFAC分解和重建過程
評價實(shí)驗數(shù)據(jù)集:日志數(shù)據(jù)從太原龍城熱線網(wǎng)站中200個用戶組成的數(shù)據(jù)集的一部分,其中每一個用戶有不同數(shù)量且至少4次以上搜索。
用于評估的各種方法采用高搜索項目(頻率為基礎(chǔ)),采用 SVD、PCA、NNMF、PARAFAC、Tuacker、HOSVD 張量分解技術(shù)。實(shí)驗結(jié)果如表1所示:
表1 張量模型平均F值
整體而言,張量方法和三個矩陣方法(SVD,PCA和NNMF)相比,TSM要遠(yuǎn)遠(yuǎn)優(yōu)于矩陣方法。基于多個搜索屬性的用戶行為建模是一個復(fù)雜的問題。從向量矩陣的各種方法來發(fā)現(xiàn)用戶搜索的突出特點(diǎn)是當(dāng)前研究熱點(diǎn)。然而,由于Web日志數(shù)據(jù)的多維度,這些信息很容易松散化。為了映射相互關(guān)系,以避免失去不同的搜索組件之間存在著的潛在關(guān)系,有必要使用一些高維數(shù)據(jù)分析技術(shù),像張量模型。這項研究主要集中在使用張量來進(jìn)行用戶行為建模。然而,為每個用戶建立單獨(dú)的張量模型的主要缺點(diǎn)之一是在時間和空間的開銷。時間問題可以考慮建立離線,但空間和計算成本,以及建立高質(zhì)量的推薦系統(tǒng)是一個重要的考慮因素,需要繼續(xù)仔細(xì)分析研究,這將是我們下一步的工作重點(diǎn)。
[1]Mobasher B.“Data Mining for Web Personalization”,in The Adaptive Web[M].vol.4321,A.K.P.Brusilovsky,and W.Nejdl(Eds.),Ed.,2007:90-135.
[2]Skillicorn D.Understanding Complex Datasets:Data Mining With Matrix Decompositions[M].Chapman &Hall/CRC,2007.
[3]Kleinberg J.Authoritative sources in a hyperlinked environment[G].in Proceedings of the 9th Annual ACM-SIAM Symposium on Discrete Algorithms,January 1998:668-677.
[4]Kolda T G ,Bader B W.Tensor Decompositions and Applications[G].Technical Report SAND2007-6702,Sandia National Laboratories,Albuquerque,NM and Livermore,CA,,November 2007.
[5]Sun J T,Zeng H J,Liu H,et al.CubeSVD:a Novel Approach to Personalized Web search[G].in International World Wide Web Conference Committee(IW3C2),Chiba,Japan.,May 10-14,2005:382-390.