吳海霞,何 苑,路 璐
(長治學(xué)院計算機系,山西長治046011)
(編輯 張 瑛)
信息技術(shù)和互聯(lián)網(wǎng)技術(shù)使我們從信息匱乏的時代發(fā)展到信息過載的時代,信息消費者從海量信息中搜索感興趣的有價值的信息變得十分困難,信息生產(chǎn)者的信息從大量信息庫中脫穎而出得到目標(biāo)用戶的關(guān)注也非常困難[1].
信息檢索、數(shù)據(jù)挖掘和推薦系統(tǒng)三種技術(shù)都可以在一定程度上解決這一矛盾,但三者之間存在著明顯不同,表1列出它們的主要區(qū)別.傳統(tǒng)的搜索引擎技術(shù)只在Web海洋的表層頁面檢索,呈現(xiàn)給所有用戶的結(jié)果排序及頁面沒有差別,未針對不同用戶興趣提供相應(yīng)個性化服務(wù),信息的利用率較低;Web數(shù)據(jù)挖掘能夠自動獲取大量的更具價值的深層頁面,利用相關(guān)規(guī)則發(fā)現(xiàn)隱藏的規(guī)律和模型;個性化推薦系統(tǒng)已成為一種營銷模式和手段,給電子商務(wù)領(lǐng)域帶來巨大的商業(yè)利益,不僅能夠挖掘出用戶感興趣的部分“暗信息”,還能提高潛在客戶的轉(zhuǎn)化率,并有效保持用戶的黏著性.
表1 信息檢索、數(shù)據(jù)挖掘、個性化推薦之間的區(qū)別
個性化推薦是基于社會計算和集體智慧[2]的一種新的計算模式,PageRank算法[3]、Netflix競賽、MovieLens[3~4]、Google推薦系統(tǒng)等都是成功的應(yīng)用.推薦技術(shù)是解決信息過載問題,實現(xiàn)信息生產(chǎn)者和信息消費者雙方共贏的重要工具.一個完整的推薦系統(tǒng)由三部分組成:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊、產(chǎn)生個性化推薦結(jié)果的推薦算法模塊,其中,推薦算法模塊是推薦系統(tǒng)中最為核心的部分[5~6].對推薦結(jié)果的質(zhì)量和性能進行評測則是優(yōu)化推薦算法,提升推薦系統(tǒng)效能的重要途徑.
傳統(tǒng)的個性化推薦包括基于手工決策規(guī)則、協(xié)同過濾、基于內(nèi)容、基于人口統(tǒng)計、基于效用、基于知識的推薦等方法.基于Web挖掘的個性化推薦方法有聚類分析、關(guān)聯(lián)規(guī)則、序列模式方法、語義Web挖掘、統(tǒng)計學(xué)技術(shù)等[7~9],包含數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和分析、信息推薦一系列流程.近年來出現(xiàn)了許多新的推薦算法在特定方面表現(xiàn)出突出優(yōu)勢,如基于圖模型、基于概率、基于語義、上下文情境、mahout二部圖推薦及混合推薦等等.
推薦評價是推薦領(lǐng)域的一個重要問題.推薦系統(tǒng)具有三個必要的參與主體:網(wǎng)站、用戶、物品(內(nèi)容)提供者,在評測推薦系統(tǒng)和推薦算法時必須考慮三方利益.好的推薦系統(tǒng)的理想目標(biāo)是達到多方共贏,在不同應(yīng)用場景中選擇哪種評價指標(biāo)更為客觀合理具有指導(dǎo)意義.業(yè)界研究人員尚未形成一致的科學(xué)標(biāo)準(zhǔn)體系,但公認(rèn)的重要指標(biāo)已被廣泛使用.下面給出主流的通用評測指標(biāo)和新的評測指標(biāo).有些基于推薦算法,有些獨立于推薦算法;有的從系統(tǒng)角度評價,有的從用戶角度評價;部分為定性評價,部分為定量評價.理想的推薦系統(tǒng)應(yīng)該準(zhǔn)確、高效、多樣、新穎、透明、穩(wěn)定、覆蓋廣、獲得用戶滿意和信任.
準(zhǔn)確度(Accuracy)是最重要的評價指標(biāo),即推薦系統(tǒng)預(yù)測評分(或排名)與用戶實際打分(或排名)間的相似度和吻合度,分為預(yù)測準(zhǔn)確度、分類準(zhǔn)確度、排序準(zhǔn)確度[6].預(yù)測準(zhǔn)確度用來度量推薦算法預(yù)測用戶行為的能力,一般用MAE、MSE、NMAE、RMSE等指標(biāo),適于離線評測;分類準(zhǔn)確度判定用戶是否喜歡推薦物品正確的比例,常用準(zhǔn)確率、召回率、F指標(biāo)和ROC指標(biāo),適用二值選擇的推薦系統(tǒng).排序準(zhǔn)確度指推薦列表與用戶排序間的吻合度,適用于對順序敏感的系統(tǒng).
不同準(zhǔn)確度的量化計算方法不盡相同,表2給出常用計算指標(biāo)及特點.約定:n為用戶評分的項目數(shù),p為預(yù)測評分值,r為用戶對項目的評分,rmax和rmin分別為用戶評分最大和最小值,di為觀測值與真值的偏差,表明樣本離散程度,對一組測量中的特大或特小誤差反映敏感,因此能較好反映測量精度.
表2 多種準(zhǔn)確度計算指標(biāo)的比較
在指標(biāo)對照表中,前三個準(zhǔn)確率指標(biāo)的值越大,精度越高,推薦質(zhì)量越好;后四個誤差指標(biāo)的值越小,預(yù)測精度越高,推薦質(zhì)量越好.但有時會出現(xiàn)矛盾的情形,比如召回率與準(zhǔn)確率往往不能同時達到很高,若召回率達100%,則準(zhǔn)確率會很低,若準(zhǔn)確率達100%,則召回率會很低.這兩個指標(biāo)雖然沒有必然關(guān)系,但在大規(guī)模數(shù)據(jù)集中,二者卻相互制約.
覆蓋率(Coverage)包括種類覆蓋率和用戶覆蓋率,前者指推薦出來的物品占所有物品集的比例,后者指獲得推薦結(jié)果的用戶占全體用戶集的比例.一般情況下,覆蓋率指種類覆蓋率,物品(或內(nèi)容)的提供商比較關(guān)注這一重要指標(biāo).推薦列表中物品出現(xiàn)次數(shù)的分布越平,表明推薦系統(tǒng)的覆蓋率越高,推薦系統(tǒng)挖掘長尾的能力越強;相反,分布越陡,表明覆蓋率越低,系統(tǒng)挖掘長尾能力越弱.
覆蓋率的常用計算方法:C=|∪u∈UR(u)|/|I|,其中U為用戶集合,I為物品集合,R(u)為系統(tǒng)為某用戶推薦的物品列表.此外,還可用信息熵和基尼系數(shù)兩個指標(biāo)來度量[1]:信息熵表示為 H=-∑[p(i)logp(i)],其中p(i)指物品i的流行度除以所有物品流行度之和;基尼系數(shù)表示為G=(∑(2j-n-1)p(ij))/(n-1),其中j指物品流行度升序列表中的第j個物品.
多樣性(Diversity)衡量系統(tǒng)給用戶或群體推薦內(nèi)容的差異程度.推薦結(jié)果呈現(xiàn)多樣化,其覆蓋的興趣點就多,用戶找到滿意物品的概率就大.
假設(shè)推薦系統(tǒng)中用戶集合為U,兩個物品i與j間的相似度為s(i,j),系統(tǒng)為某用戶u推薦的列表記為L(u),列表長度 l=|L(u)|,則這一推薦列表的多樣性可表示為 D(L(u))=1–(∑s(i,j))/(l(l-1)/2).
推薦系統(tǒng)的整體多樣性可表示為D=∑D(L(u))/|U|,即所有用戶推薦列表的多樣性的均值.
新鮮度(Novelty)指系統(tǒng)為用戶推薦其從未見過但感興趣物品的能力.好的推薦列表應(yīng)該是用戶之前未聽過和見過的、沒有打分和瀏覽記錄的、有價值的新穎物品.否則,用戶對推薦的內(nèi)容很熟悉,則認(rèn)為推薦效果不佳.
這一指標(biāo)的度量可借助物品的平均流行度來定性計算,推薦物品的流行度越低則認(rèn)為越新穎.但由于不同用戶所不熟悉的物品各異,此方法過于簡單而不可靠,因此通過用戶調(diào)查來進行新穎度的準(zhǔn)確統(tǒng)計.
用戶滿意度(Satisfaction)是評價推薦系統(tǒng)的重要指標(biāo),不能離線計算,只可通過在線實驗統(tǒng)計用戶的行為或通過問卷調(diào)查的反饋情況分析用戶感受的方法獲得.滿意度分為多個層次,因此在設(shè)計問卷和反饋界面時應(yīng)該從不同方面和角度設(shè)置不同層次的問題和選項.另外,用戶在頁面的停留時間、對網(wǎng)頁的點擊率、物品購買數(shù)量和頻次、顧客轉(zhuǎn)化率等都是度量滿意度的重要指標(biāo).
也稱健壯性(Robustness),衡量推薦系統(tǒng)抗擊作弊和攻擊的能力.部分惡意用戶或商家會為個人利益和商業(yè)利益而故意作弊或攻擊系統(tǒng),達成破壞評分系統(tǒng)、改變推薦結(jié)果、降低推薦準(zhǔn)確度等不良動機.
推薦系統(tǒng)的魯棒性可考慮三種方法:(1)在系統(tǒng)工作之前先對數(shù)據(jù)進行攻擊檢測和清理;(2)推薦策略中除了使用瀏覽和點擊等簡單的用戶行為,還應(yīng)運用購買和評價等相對復(fù)雜且成本代價較高的用戶行為,有效降低被攻擊的風(fēng)險;(3)選擇健壯性高的算法,防止被惡意破壞和攻擊;(4)采用模擬攻擊的方法,針對特定的數(shù)據(jù)集和推薦算法給用戶生成推薦列表,向數(shù)據(jù)集注入噪聲數(shù)據(jù),再用該推薦算法生成新的推薦列表,比較兩個列表的相似度,相似度高表明健壯性強,差別較大表明不夠健壯.
產(chǎn)品流行性(Popularity)不同的產(chǎn)品都有流行的時期和階段,推薦產(chǎn)品的流行性也決定著推薦質(zhì)量的高低和用戶滿意度.如電影拍攝時間、服裝生產(chǎn)時間、圖書出版時間、教學(xué)資源適用時間、網(wǎng)頁更新時間、新聞發(fā)布時間等.
驚喜度(Serendipity)即意外性,指推薦結(jié)果與用戶之前喜歡的物品不相似但用戶非常滿意的推薦.提高推薦驚喜度需要降低推薦結(jié)果與用戶歷史興趣的相似度.驚喜度不同于新鮮度,像基于內(nèi)容的推薦算法會產(chǎn)生新鮮的物品而非意外物品.
實時性(Real-time),實際應(yīng)用對推薦系統(tǒng)的實時性要求越來越高,在線計算時間決定著推薦性能的優(yōu)劣,反映出推薦的效率和性能.
信任度(Trust),用戶信任推薦系統(tǒng),無疑會增加互動行為,從而獲得更好的個性化推薦.增加信任的方法往往是提供推薦解釋[10],系統(tǒng)產(chǎn)生推薦的原因和方式越合理透明,用戶對推薦系統(tǒng)的信心越強.
隱私保護程度(Privacy),隱私信息越來越受個人和群體用戶的重視,隱私保護程度直接影響用戶對推薦系統(tǒng)的信任度、滿意度、忠誠度和黏著性.
擴展性(Scalability),推薦算法的擴展性能即適應(yīng)系統(tǒng)規(guī)模不斷擴大的問題,這是制約系統(tǒng)實現(xiàn)的重要因素.研究增量算法的實現(xiàn)有利于提高算法效率和系統(tǒng)的擴展性能.
普適性(Ubiquitous),針對不同的數(shù)據(jù)集和不同的應(yīng)用場景,不同的推薦方法也會表現(xiàn)出不同的效果.推薦算法的普適性成為一個新的評價方面.
個性化推薦的結(jié)果和性能由系統(tǒng)運行環(huán)境、數(shù)據(jù)集、市場行情、輿論導(dǎo)向、社交特征、用戶群體、時間與情緒等諸多內(nèi)外因素綜合作用.如評分矩陣和實驗數(shù)據(jù)的稀疏等級、近期特殊的新聞事件和用戶最近的動態(tài)行為特征等都直接影響著推薦的質(zhì)量和用戶的評分及選擇.一般采用離線或在線的方式對推薦結(jié)果的準(zhǔn)確性、覆蓋性、新穎性及用戶滿意度等指標(biāo)進行測評.
推薦系統(tǒng)的性能和效果評價有多種方法.離線實驗基于數(shù)據(jù)集進行,無需真實用戶和實際系統(tǒng)即可方便快捷測試多種算法,無法計算轉(zhuǎn)化率和點擊率等商業(yè)相關(guān)指標(biāo),其準(zhǔn)確度和滿意度也存在一定差距.在線實驗根據(jù)用戶實時反饋衡量系統(tǒng)性能,即時響應(yīng)和用戶交互性強,但時間開銷和用戶參與成本高.AB測試即為一種在線實驗方法,通過一定的規(guī)則把用戶隨機劃分成組,對不同組別用戶采用不同的推薦算法,相對公平地獲取不同算法在實際在線時的一些性能指標(biāo).缺點是周期較長,需要長期的實驗才能得到可靠的結(jié)果.用戶調(diào)查也是系統(tǒng)評測的重要方法和工具,通過讓真實用戶參與任務(wù),分析測試行為,但需要事先設(shè)計“雙盲實驗”,避免參與者受主觀因素影響,確保實驗結(jié)果更加客觀、嚴(yán)謹(jǐn)、準(zhǔn)確和科學(xué).表3分別列出了三種評測方法的優(yōu)缺點.
表3 推薦算法的性能評測方法對比
有的評測指標(biāo)可以定量計算,有的只能定性評價,表4對主要評測指標(biāo)的獲得進行對比.
有些評價指標(biāo)可以在離線實驗中得到優(yōu)化,如限定覆蓋率、新鮮度和多樣性的閾值,追求更高的準(zhǔn)確度.但在推薦系統(tǒng)中追求所有指標(biāo)達到最優(yōu)完全不現(xiàn)實.推薦算法的綜合評價應(yīng)該是在一定場景和應(yīng)用環(huán)境中的權(quán)衡,強化重要指標(biāo),弱化次要指標(biāo).推薦準(zhǔn)確性和物品多樣性相結(jié)合、推薦準(zhǔn)確度與物品覆蓋率相結(jié)合,達到準(zhǔn)確率高、覆蓋率高的合理目標(biāo).物品流行度和新鮮度、推薦物品的意外性與用戶對系統(tǒng)的信心之間、推薦精度和多樣性之間、推薦精度與新穎度之間都存在著矛盾.如果犧牲推薦精度而提高多樣性和新穎性比較容易,但在不犧牲精度的前提下提高多樣性和新穎性較為困難.
表4 推薦系統(tǒng)評測指標(biāo)的獲得方式
個性化推薦系統(tǒng)在社會經(jīng)濟中具有重要的應(yīng)用價值,現(xiàn)已應(yīng)用于諸多領(lǐng)域,如音樂和影視推薦、圖書和商品推薦、廣告和資訊推薦、朋友或團體等社交推薦、新聞和微博等媒體推薦、學(xué)習(xí)視頻和教育資源等教育推薦.有效評價推薦算法和系統(tǒng)優(yōu)劣具有很大困難和挑戰(zhàn),主要體現(xiàn)為:由于數(shù)據(jù)集不同,推薦方法策略不同,算法表現(xiàn)出來的性能難于直接評價;推薦系統(tǒng)任務(wù)不同,評價動機和目的各異,指標(biāo)體系不易確定.
在未來的研究中應(yīng)主要考慮這幾個方面:首先,如何將不同指標(biāo)加以組合形成綜合評價;其次,重視錯誤推薦在評價系統(tǒng)中起著重大作用,有利于推薦結(jié)果的分析和優(yōu)化;第三,個體與群體推薦相結(jié)合,在單一客戶推薦的同時支持客戶群推薦,能展示出推薦系統(tǒng)的強大優(yōu)勢,為商家提供產(chǎn)品定價、產(chǎn)品促銷、交叉銷售、優(yōu)惠券設(shè)計等決策,為客戶提供產(chǎn)品親和力、一對一促銷、優(yōu)惠券使用方案等服務(wù);最后,要科學(xué)量化用戶體驗,優(yōu)秀的推薦系統(tǒng)應(yīng)該以用戶的體驗和反饋為核心,在推薦物品之前先預(yù)測用戶對物品的熟悉程度,以提高新穎度和驚喜度;根據(jù)不同場景和任務(wù),向用戶推薦熟悉程度不同的物品,可增強物品多樣性和覆蓋性,增強用戶滿意度.但如何科學(xué)量化用戶體驗和反饋有待進一步研究.總之,構(gòu)建科學(xué)完善的綜合評測體系仍是推薦系統(tǒng)未來研究的重要課題和方向.
[1]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012.
[2]Toby Segaran.Programming Collective Intelligence:Building Smart Web 2.0 Applications[M].New York:O’Reilly Media,Inc.,2007.
[3]Anand Rajaraman,Jerey D.Ullman.Miningof Massive Datasets[M].Cambridge:Cambridge University Press,2011.
[4]D.Jannach,M.Zanker,et al.Recommender Systems:An Introduction[M].Cambridge:Cambridge University Press,2010.
[5]劉建國,周濤,汪秉宏,等.個性化推薦系統(tǒng)的研究進展[J].自然科學(xué)進展,2009,19(1):1~15.
[6]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1~10.
[7]易明.基于Web挖掘的個性化信息推薦[M].北京:科學(xué)出版社,2012.
[8]馬剛.基于語義的Web數(shù)據(jù)挖掘[M].大連:東北財經(jīng)大學(xué)出版社,2014.
[9]邵峰晶,于忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.
[10]朱郁筱,呂琳媛.推薦系統(tǒng)評價指標(biāo)綜述[J].電子科技大學(xué)學(xué)報,2012,41(2):164~175.