趙國民,唐 恬
(1.廣脈科技股份有限公司,浙江 杭州 310051;2.杭州市公安局上城分局)
Web個性化推薦技術(shù)
趙國民1,唐 恬2
(1.廣脈科技股份有限公司,浙江 杭州 310051;2.杭州市公安局上城分局)
Web頁面的幾何級增長,使得用戶面對信息的海洋卻不得不為如何找到感興趣的內(nèi)容而犯難。個性化推薦為解決這一難題打開了一扇窗。文章在簡單介紹個性化推薦技術(shù)現(xiàn)狀的基礎(chǔ)上,分析了傳統(tǒng)的協(xié)同過濾及其改進算法、基于內(nèi)容的個性化推薦技術(shù)及其改進算法、基于標(biāo)記的推薦技術(shù)以及將多種信息進行融合的混合個性化推薦技術(shù)。對各種技術(shù)的優(yōu)缺點作了比較分析,指出基于標(biāo)記的推薦技術(shù)及混合個性化推薦技術(shù)將是未來個性化推薦技術(shù)中重要發(fā)展方向。
Web;個性化推薦;協(xié)同過濾;標(biāo)記推薦;混合推薦
最近幾年互聯(lián)網(wǎng)上的信息呈指數(shù)級增長,Web成為人們獲取信息的重要來源。而同時,人們在信息過載(Information Overload)的現(xiàn)實中,面對越來越多的Web頁面卻不容易找到自己感興趣的內(nèi)容。讓用戶去評價并區(qū)別各種信息,顯然是行不通的。搜索引擎(Search Engine)在一定程度上解決了這個難題,然而,現(xiàn)有的搜索引擎工具以關(guān)鍵字匹配為主,返回的搜索結(jié)果往往包含眾多頁面,無法根據(jù)不同用戶的不同需求給出個性化的結(jié)果,此外,當(dāng)用戶對所要查詢的內(nèi)容缺乏認識,無法確定查詢的關(guān)鍵詞時,搜索引擎也顯得無能為力了。
如何更好地為用戶提供服務(wù)成為Internet進一步發(fā)展的一個瓶頸和技術(shù)難題,推薦系統(tǒng)(Recommendation Systems)成為解決這一難題最有希望的途徑,它采用知識發(fā)現(xiàn)技術(shù),提供個性化的頁面推薦。
早在1987年,Malone等提出的智能化信息共享系統(tǒng)(Intelligent Information Sharing Systems)就是一個可以訪問高度動態(tài)資源的基礎(chǔ)分類系統(tǒng)[1]。具體地說,這些系統(tǒng)可以為兩類:①認知過濾系統(tǒng)(cognitive filtering systems);②社會學(xué)過濾系統(tǒng)(sociological filtering systems)。認知過濾系統(tǒng),通過提取信息資源的內(nèi)容和潛在用戶的信息需求中的特征,并以此作為給予用戶智能化匹配的依據(jù)。社會學(xué)過濾系統(tǒng),基于個體在社區(qū)中的個人與組織的關(guān)系進行工作。早期信息共享系統(tǒng)就屬于第一類,是根據(jù)文本關(guān)鍵詞選擇相關(guān)的項目。所謂個性化推薦即指,通過分析對用戶訪問行為和獲取的知識,根據(jù)用戶的要求,提供個性化內(nèi)容或頁面結(jié)構(gòu)。通過對用戶訪問行為的不同側(cè)面進行分析,就形成不同的推薦技術(shù)。
眾多的文獻根據(jù)推薦方式的不同將個性化推薦分成以下三種主要類型:
⑴ 協(xié)同推薦(Collaborative recommendation),將具有相同的興趣和偏愛的人曾經(jīng)喜歡的項目推薦給用戶;
⑵ 基于內(nèi)容的推薦(Content-based recommendation),是把用戶的信息需求,事先被以某種形式描述出來,然后,推薦系統(tǒng)根據(jù)這些描述在新項目中預(yù)測用戶的興趣;
⑶ 基于知識的推薦(Knowledge-based recommendation),依據(jù)對用戶偏好的邏輯進行項目推薦,要求事先建立對一個用戶的特定要求的知識表示(如規(guī)則)。
隨著個性化推薦技術(shù)研究的深入,基于用戶活動的單一屬性已不能夠滿足實際需要,事實上,現(xiàn)在有越來越多的方法把各方面的屬性進行融合,也就是聯(lián)合前面提到的各種類型的推薦方式以獲取更好的推薦效果,如Balavanovic&Shoham[2],Claypool et al.[3],Cho&Kim[4],Li et al.[5]。
最近研究人員廣泛關(guān)注的一種個性化推薦技術(shù)——基于標(biāo)記(tag-based)的個性化推薦,不同于以住任何形式的推薦技術(shù),基于標(biāo)志的技術(shù)由用戶對瀏覽的頁面進行標(biāo)記,由系統(tǒng)對所有標(biāo)記進行分析(如聚類),然后由系統(tǒng)根據(jù)用戶提出的訪問要求使用特定標(biāo)記進行個性化推薦。
協(xié)同過濾(Collaborative Filtering),又稱為社會過濾,它從用戶那里獲得綜合的協(xié)同信息,形成總的規(guī)則,或傾向于用戶間或傾向于項目間的關(guān)聯(lián)來預(yù)測單個用戶對項目的興趣。
在協(xié)同過濾技術(shù)的發(fā)展中,第一代協(xié)同過濾技術(shù),又被稱為基于用戶(User-based)的協(xié)同過濾。其基本原理是基于用戶行為選擇的相關(guān)性,用戶的行為選擇這里指的是下載、購買、評價等能夠顯式或隱式體現(xiàn)用戶喜好的行為。一旦系統(tǒng)能夠識別與一個用戶擁有相同喜好的用戶,就能夠?qū)⑺麄冏罡信d趣的內(nèi)容作為目標(biāo)用戶的推薦結(jié)果推薦給他。第二代是基于內(nèi)容(Item-based)的協(xié)同過濾技術(shù)[6],與基于用戶的技術(shù)不同的是,這種方法比較的是內(nèi)容項之間的相似度。
協(xié)同過濾不能保證對用戶的需求總有很準確的預(yù)測,一旦與活動用戶相關(guān)的人很少的時候,以此產(chǎn)生的推薦可能就很不準確。原因是協(xié)同過濾系統(tǒng)完全依賴于個體對團體的興趣度,而不考慮推薦的內(nèi)容。
基于內(nèi)容的推薦技術(shù)可以根據(jù)用戶預(yù)定義的個人偏好[7]或者根據(jù)從web日志挖掘出來的用戶使用模式,來幫助用戶獲得其感興趣的信息。一般這些用戶的個人信息包括用戶的個人日程表、郵箱、最近訪問的站點等,都可以幫助推薦系統(tǒng)向用戶提供更準確的推薦。
基于內(nèi)容的個性化推薦技術(shù)的最大的應(yīng)用領(lǐng)域就是個性化搜索技術(shù),近幾年受到研究人員的關(guān)注也越來越多,在一定程度上已成為一種專門的研究領(lǐng)域,故本文不對相關(guān)技術(shù)作進一步的介紹。
為了使用戶自己建立起來的內(nèi)容更容易被其他用戶共享,最簡單的做法就是將這些信息建立相應(yīng)的索引。實際應(yīng)用中對內(nèi)容的索引方式很多,在傳統(tǒng)的圖書館或檔案館,索引是一個非常專業(yè)的任務(wù),建立起來的索引往往具有很好的一致性,也就是同一個類型的內(nèi)容往往采用相同的索引,且這種索引采用層次結(jié)構(gòu)組織。然而,隨著標(biāo)記的引入和對在線數(shù)據(jù)庫的評級,內(nèi)容索引已經(jīng)從嚴格的層次化向更多的主觀化分類轉(zhuǎn)變。
協(xié)同標(biāo)記(Collaborative tagging)作為一種新型的對在線內(nèi)容進行索引的方式,允許用戶給自己建立起來的內(nèi)容進行注解,即標(biāo)記,相比于專業(yè)的網(wǎng)絡(luò)內(nèi)容的產(chǎn)生機制,協(xié)同標(biāo)記系統(tǒng)面臨著一大挑戰(zhàn),即終端用戶是以一種不可控的方式安排標(biāo)記,每個人可以根據(jù)自己的理解,給內(nèi)容加上一個主觀性很強的標(biāo)記,即使對于同類型的內(nèi)容甚至同一內(nèi)容,不同用戶也可能給出不同的標(biāo)記,結(jié)果必然使得這種標(biāo)記數(shù)據(jù)不一致,缺乏系統(tǒng)性。
基于標(biāo)記的個性化推薦即是利用這種用戶對于內(nèi)容標(biāo)記的評級向用戶進行內(nèi)容推薦的方法,可以在兩個階段給用戶以支持,一是提高用戶在社區(qū)中標(biāo)記使用的一致性,再就是提高信息檢索時的效率。作為一種新的個性化推薦技術(shù),基于標(biāo)記的個性化推薦,已經(jīng)成為個性化技術(shù)研究中的熱點,很多相應(yīng)的算法被提出來。
協(xié)同過濾的主要思想是:把具有相似的訪問模式的其他用戶的訪問項目向用戶進行推薦,因為如果不考慮項目的內(nèi)容,推薦的效果就往往不是很理想,尤其是對于user-item矩陣的稀疏性問題,始終很難有一個很好的解決辦法。另一方面,基于內(nèi)容的個性化推薦雖然考慮到了項目內(nèi)容與用戶描述的相關(guān)性,但忽視了用戶之間訪問行為相似性可提高推薦效果的這一基本事實,得到的效果也不是很理想,且這種方法比協(xié)同過濾更復(fù)雜。
現(xiàn)有的個性化推薦算法,很多只是用到站點的使用信息,而忽視Web站點的結(jié)構(gòu)信息,導(dǎo)致一些重要的頁面,其盡管有很高的PageRank權(quán)威評分,卻被低估。文獻[7]提出一種新算法,UPR,一個類PageRank算法,聯(lián)系考慮使用數(shù)據(jù)和連接分析技術(shù),依據(jù)他們在站點瀏覽圖的重要程度給網(wǎng)絡(luò)頁面分配一個概率值。本文將局部UPR(L-UPR)應(yīng)用到個性化瀏覽子圖,以實現(xiàn)在線網(wǎng)絡(luò)頁面的評分和推薦。系統(tǒng)提出一個混合概率預(yù)測模型,該模型以馬爾可夫(Markov)模型和鏈接分析為基礎(chǔ),從而為每一個頁面分配一個先驗概率。實驗表明,這個方法得到的推薦結(jié)果比純粹基于使用信息的方法更加客觀,更具代表性。
隨著個性化推薦技術(shù)在商業(yè)的實踐及逐步推廣,相關(guān)的技術(shù)也成為研究的熱點,基于標(biāo)記的推薦技術(shù)及混合個性推薦技術(shù)將是未來個性化技術(shù)中重要方向。未來的個性化推薦技術(shù)的發(fā)展可能會體現(xiàn)在以下幾個方面:
⑴ 繼續(xù)將多維度信息相結(jié)合,提出更加有效的個性化推薦模式;
⑵ 由于分布式技術(shù)環(huán)境的普及,基于多Agent的個性化推薦技術(shù)的研究;
⑶ 未來的個性化推薦系統(tǒng)會更多地用到用戶反饋信息,通過在線用戶反饋逐步精化用戶的個性化需求;
⑷ 個性化搜索引擎技術(shù),現(xiàn)在搜索引擎已成為用戶訪問網(wǎng)絡(luò)信息的一個重要的輔助手段,但以基于關(guān)鍵詞匹配為主的搜索手段還是讓用戶很難輕松定位想要的信息,將語義及用戶信息考慮以內(nèi)的個性化搜索技術(shù),有望在這方面取得突破。
[1]Malone,T.,Grant,K.,Turbak,F.,Brobst,S.,Cohen,M.:Intelligentinformation sharing systems.Comm.ACM,1987.30(5):390-402
[2]Balabanovic,M.,Shoham,Y.:Fab:content-based,collaborativerecommendation.Comm.ACM,1997.40(3):66-72
[3]Claypool,M.,Gokhale,A.,Miranda,T.:Combining content-based and collaborative filtersin an online newspaper.In Proc.ACM SIGIR Worksh.Recomm.Syst.Impl.Eval.,Berkeley CA,USA(1999).
[4]Cho,Y.H.,Kim,J.K.:Application of web usage mining and product taxonomy to collaborative recommendations in e-commerce.Exp.Syst,2004.26(4):233-246
[5]Li,Y.,Lu,L.,Xuefeng,L.:A hybrid collaborative filtering method for multiple-interests and multiple-content recommendation in E-Commerce.Exp.Syst,2005.28(4):67-77
[6]Balabanovic M,Shoham Y.Fab:content-based,collaborativerecommendation.Comm.oftheACM,1997.40(3):66-72
[7]MagdaliniEirinaki,Michalis Vazirgiannis.Web site personalization based on link analysis and navigational patterns.ACM Transactionson InternetTechnology,2007.4(7):21-47
Web page personalized recommendation technology
Zhao Guomin1,Tang Tian2
(1.GuangMai technology co.,Ltd,Hangzhou,Zhejiang 310051,China;2.Shangcheng branch of Hangzhou Municipal Public Security Bureau)
The geometric growth of the Web page makes the user,despite facing the ocean of information,has to make trouble with how to find the content of interest.Personalized recommendation opens a window to solve this problem.On the basis of brief introduction of the status of personalized recommendation technology,this paper analyzes the traditional collaborative filtering and its improved algorithm,content-based personalized recommendation technology and its improved algorithm,tag-based recommendation technology and a variety of information integrated hybrid personalized recommendation technology.The advantages and disadvantages of various technologies are compared and analyzed,and it is pointed out that the tag-based recommendation technology and hybrid personalized recommendation technology will be the future of personalized recommendation technology.
Web;personalized recommendation;collaborative filtering;tag-based recommendation;hybrid recommendation
TP399
A
1006-8228(2017)10-29-03
2017-08-25
趙國民(1965-),男,浙江杭州人,高級工程師,主要研究方向:通信技術(shù),圖像與數(shù)據(jù)處理。
10.16644/j.cnki.cn33-1094/tp.2017.10.009