亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

個性化推薦系統(tǒng)評測指標(biāo)與實驗方法研究

2015-04-01 09:21:20吳海霞

晉中學(xué)院學(xué)報 2015年3期

關(guān)鍵詞：評測準(zhǔn)確度物品

吳海霞，何苑，路璐

（長治學(xué)院計算機系，山西長治046011）

（編輯張瑛）

1 個性化推薦系統(tǒng)簡介

信息技術(shù)和互聯(lián)網(wǎng)技術(shù)使我們從信息匱乏的時代發(fā)展到信息過載的時代，信息消費者從海量信息中搜索感興趣的有價值的信息變得十分困難，信息生產(chǎn)者的信息從大量信息庫中脫穎而出得到目標(biāo)用戶的關(guān)注也非常困難［1］.

信息檢索、數(shù)據(jù)挖掘和推薦系統(tǒng)三種技術(shù)都可以在一定程度上解決這一矛盾，但三者之間存在著明顯不同，表1列出它們的主要區(qū)別.傳統(tǒng)的搜索引擎技術(shù)只在Web海洋的表層頁面檢索，呈現(xiàn)給所有用戶的結(jié)果排序及頁面沒有差別，未針對不同用戶興趣提供相應(yīng)個性化服務(wù)，信息的利用率較低；Web數(shù)據(jù)挖掘能夠自動獲取大量的更具價值的深層頁面，利用相關(guān)規(guī)則發(fā)現(xiàn)隱藏的規(guī)律和模型；個性化推薦系統(tǒng)已成為一種營銷模式和手段，給電子商務(wù)領(lǐng)域帶來巨大的商業(yè)利益，不僅能夠挖掘出用戶感興趣的部分“暗信息”，還能提高潛在客戶的轉(zhuǎn)化率，并有效保持用戶的黏著性.

表1 信息檢索、數(shù)據(jù)挖掘、個性化推薦之間的區(qū)別

個性化推薦是基于社會計算和集體智慧［2］的一種新的計算模式，PageRank算法［3］、Netflix競賽、MovieLens［3~4］、Google推薦系統(tǒng)等都是成功的應(yīng)用.推薦技術(shù)是解決信息過載問題，實現(xiàn)信息生產(chǎn)者和信息消費者雙方共贏的重要工具.一個完整的推薦系統(tǒng)由三部分組成：收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊、產(chǎn)生個性化推薦結(jié)果的推薦算法模塊，其中，推薦算法模塊是推薦系統(tǒng)中最為核心的部分［5~6］.對推薦結(jié)果的質(zhì)量和性能進行評測則是優(yōu)化推薦算法，提升推薦系統(tǒng)效能的重要途徑.

傳統(tǒng)的個性化推薦包括基于手工決策規(guī)則、協(xié)同過濾、基于內(nèi)容、基于人口統(tǒng)計、基于效用、基于知識的推薦等方法.基于Web挖掘的個性化推薦方法有聚類分析、關(guān)聯(lián)規(guī)則、序列模式方法、語義Web挖掘、統(tǒng)計學(xué)技術(shù)等［7~9］，包含數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和分析、信息推薦一系列流程.近年來出現(xiàn)了許多新的推薦算法在特定方面表現(xiàn)出突出優(yōu)勢，如基于圖模型、基于概率、基于語義、上下文情境、mahout二部圖推薦及混合推薦等等.

2 推薦系統(tǒng)的評價指標(biāo)體系

推薦評價是推薦領(lǐng)域的一個重要問題.推薦系統(tǒng)具有三個必要的參與主體：網(wǎng)站、用戶、物品（內(nèi)容）提供者，在評測推薦系統(tǒng)和推薦算法時必須考慮三方利益.好的推薦系統(tǒng)的理想目標(biāo)是達到多方共贏，在不同應(yīng)用場景中選擇哪種評價指標(biāo)更為客觀合理具有指導(dǎo)意義.業(yè)界研究人員尚未形成一致的科學(xué)標(biāo)準(zhǔn)體系，但公認(rèn)的重要指標(biāo)已被廣泛使用.下面給出主流的通用評測指標(biāo)和新的評測指標(biāo).有些基于推薦算法，有些獨立于推薦算法；有的從系統(tǒng)角度評價，有的從用戶角度評價；部分為定性評價，部分為定量評價.理想的推薦系統(tǒng)應(yīng)該準(zhǔn)確、高效、多樣、新穎、透明、穩(wěn)定、覆蓋廣、獲得用戶滿意和信任.

2.1 推薦準(zhǔn)確度

準(zhǔn)確度（Accuracy）是最重要的評價指標(biāo)，即推薦系統(tǒng)預(yù)測評分（或排名）與用戶實際打分（或排名）間的相似度和吻合度，分為預(yù)測準(zhǔn)確度、分類準(zhǔn)確度、排序準(zhǔn)確度[6].預(yù)測準(zhǔn)確度用來度量推薦算法預(yù)測用戶行為的能力，一般用MAE、MSE、NMAE、RMSE等指標(biāo)，適于離線評測；分類準(zhǔn)確度判定用戶是否喜歡推薦物品正確的比例，常用準(zhǔn)確率、召回率、F指標(biāo)和ROC指標(biāo)，適用二值選擇的推薦系統(tǒng).排序準(zhǔn)確度指推薦列表與用戶排序間的吻合度，適用于對順序敏感的系統(tǒng).

不同準(zhǔn)確度的量化計算方法不盡相同，表2給出常用計算指標(biāo)及特點.約定：n為用戶評分的項目數(shù)，p為預(yù)測評分值，r為用戶對項目的評分，rmax和rmin分別為用戶評分最大和最小值，di為觀測值與真值的偏差，表明樣本離散程度，對一組測量中的特大或特小誤差反映敏感，因此能較好反映測量精度.

表2 多種準(zhǔn)確度計算指標(biāo)的比較

在指標(biāo)對照表中，前三個準(zhǔn)確率指標(biāo)的值越大，精度越高，推薦質(zhì)量越好；后四個誤差指標(biāo)的值越小，預(yù)測精度越高，推薦質(zhì)量越好.但有時會出現(xiàn)矛盾的情形，比如召回率與準(zhǔn)確率往往不能同時達到很高，若召回率達100%，則準(zhǔn)確率會很低，若準(zhǔn)確率達100%，則召回率會很低.這兩個指標(biāo)雖然沒有必然關(guān)系，但在大規(guī)模數(shù)據(jù)集中，二者卻相互制約.

2.2 推薦覆蓋率

覆蓋率（Coverage）包括種類覆蓋率和用戶覆蓋率，前者指推薦出來的物品占所有物品集的比例，后者指獲得推薦結(jié)果的用戶占全體用戶集的比例.一般情況下，覆蓋率指種類覆蓋率，物品（或內(nèi)容）的提供商比較關(guān)注這一重要指標(biāo).推薦列表中物品出現(xiàn)次數(shù)的分布越平，表明推薦系統(tǒng)的覆蓋率越高，推薦系統(tǒng)挖掘長尾的能力越強；相反，分布越陡，表明覆蓋率越低，系統(tǒng)挖掘長尾能力越弱.

覆蓋率的常用計算方法：C=|∪u∈UR（u）|/|I|，其中U為用戶集合，I為物品集合，R（u）為系統(tǒng)為某用戶推薦的物品列表.此外，還可用信息熵和基尼系數(shù)兩個指標(biāo)來度量［1］：信息熵表示為 H=-∑[p（i）logp（i）]，其中p（i）指物品i的流行度除以所有物品流行度之和；基尼系數(shù)表示為G=（∑（2j-n-1）p（ij））/（n-1），其中j指物品流行度升序列表中的第j個物品.

2.3 推薦多樣性

多樣性（Diversity）衡量系統(tǒng)給用戶或群體推薦內(nèi)容的差異程度.推薦結(jié)果呈現(xiàn)多樣化，其覆蓋的興趣點就多，用戶找到滿意物品的概率就大.

假設(shè)推薦系統(tǒng)中用戶集合為U，兩個物品i與j間的相似度為s（i，j），系統(tǒng)為某用戶u推薦的列表記為L（u），列表長度 l=|L（u）|，則這一推薦列表的多樣性可表示為 D（L（u））=1–（∑s（i，j））/（l（l-1）/2）.

推薦系統(tǒng)的整體多樣性可表示為D=∑D（L（u））/|U|，即所有用戶推薦列表的多樣性的均值.

2.4 推薦新鮮度

新鮮度（Novelty）指系統(tǒng)為用戶推薦其從未見過但感興趣物品的能力.好的推薦列表應(yīng)該是用戶之前未聽過和見過的、沒有打分和瀏覽記錄的、有價值的新穎物品.否則，用戶對推薦的內(nèi)容很熟悉，則認(rèn)為推薦效果不佳.

這一指標(biāo)的度量可借助物品的平均流行度來定性計算，推薦物品的流行度越低則認(rèn)為越新穎.但由于不同用戶所不熟悉的物品各異，此方法過于簡單而不可靠，因此通過用戶調(diào)查來進行新穎度的準(zhǔn)確統(tǒng)計.

2.5 用戶滿意度

用戶滿意度（Satisfaction）是評價推薦系統(tǒng)的重要指標(biāo)，不能離線計算，只可通過在線實驗統(tǒng)計用戶的行為或通過問卷調(diào)查的反饋情況分析用戶感受的方法獲得.滿意度分為多個層次，因此在設(shè)計問卷和反饋界面時應(yīng)該從不同方面和角度設(shè)置不同層次的問題和選項.另外，用戶在頁面的停留時間、對網(wǎng)頁的點擊率、物品購買數(shù)量和頻次、顧客轉(zhuǎn)化率等都是度量滿意度的重要指標(biāo).

2.6 魯棒性

也稱健壯性（Robustness），衡量推薦系統(tǒng)抗擊作弊和攻擊的能力.部分惡意用戶或商家會為個人利益和商業(yè)利益而故意作弊或攻擊系統(tǒng)，達成破壞評分系統(tǒng)、改變推薦結(jié)果、降低推薦準(zhǔn)確度等不良動機.

推薦系統(tǒng)的魯棒性可考慮三種方法：（1）在系統(tǒng)工作之前先對數(shù)據(jù)進行攻擊檢測和清理；（2）推薦策略中除了使用瀏覽和點擊等簡單的用戶行為，還應(yīng)運用購買和評價等相對復(fù)雜且成本代價較高的用戶行為，有效降低被攻擊的風(fēng)險；（3）選擇健壯性高的算法，防止被惡意破壞和攻擊；（4）采用模擬攻擊的方法，針對特定的數(shù)據(jù)集和推薦算法給用戶生成推薦列表，向數(shù)據(jù)集注入噪聲數(shù)據(jù)，再用該推薦算法生成新的推薦列表，比較兩個列表的相似度，相似度高表明健壯性強，差別較大表明不夠健壯.

2.7 其他指標(biāo)

產(chǎn)品流行性（Popularity）不同的產(chǎn)品都有流行的時期和階段，推薦產(chǎn)品的流行性也決定著推薦質(zhì)量的高低和用戶滿意度.如電影拍攝時間、服裝生產(chǎn)時間、圖書出版時間、教學(xué)資源適用時間、網(wǎng)頁更新時間、新聞發(fā)布時間等.

驚喜度（Serendipity）即意外性，指推薦結(jié)果與用戶之前喜歡的物品不相似但用戶非常滿意的推薦.提高推薦驚喜度需要降低推薦結(jié)果與用戶歷史興趣的相似度.驚喜度不同于新鮮度，像基于內(nèi)容的推薦算法會產(chǎn)生新鮮的物品而非意外物品.

實時性（Real-time），實際應(yīng)用對推薦系統(tǒng)的實時性要求越來越高，在線計算時間決定著推薦性能的優(yōu)劣，反映出推薦的效率和性能.

信任度（Trust），用戶信任推薦系統(tǒng)，無疑會增加互動行為，從而獲得更好的個性化推薦.增加信任的方法往往是提供推薦解釋[10]，系統(tǒng)產(chǎn)生推薦的原因和方式越合理透明，用戶對推薦系統(tǒng)的信心越強.

隱私保護程度（Privacy），隱私信息越來越受個人和群體用戶的重視，隱私保護程度直接影響用戶對推薦系統(tǒng)的信任度、滿意度、忠誠度和黏著性.

擴展性（Scalability），推薦算法的擴展性能即適應(yīng)系統(tǒng)規(guī)模不斷擴大的問題，這是制約系統(tǒng)實現(xiàn)的重要因素.研究增量算法的實現(xiàn)有利于提高算法效率和系統(tǒng)的擴展性能.

普適性（Ubiquitous），針對不同的數(shù)據(jù)集和不同的應(yīng)用場景，不同的推薦方法也會表現(xiàn)出不同的效果.推薦算法的普適性成為一個新的評價方面.

3 推薦系統(tǒng)的評測實驗方法

個性化推薦的結(jié)果和性能由系統(tǒng)運行環(huán)境、數(shù)據(jù)集、市場行情、輿論導(dǎo)向、社交特征、用戶群體、時間與情緒等諸多內(nèi)外因素綜合作用.如評分矩陣和實驗數(shù)據(jù)的稀疏等級、近期特殊的新聞事件和用戶最近的動態(tài)行為特征等都直接影響著推薦的質(zhì)量和用戶的評分及選擇.一般采用離線或在線的方式對推薦結(jié)果的準(zhǔn)確性、覆蓋性、新穎性及用戶滿意度等指標(biāo)進行測評.

3.1 推薦性能評測方法

推薦系統(tǒng)的性能和效果評價有多種方法.離線實驗基于數(shù)據(jù)集進行，無需真實用戶和實際系統(tǒng)即可方便快捷測試多種算法，無法計算轉(zhuǎn)化率和點擊率等商業(yè)相關(guān)指標(biāo)，其準(zhǔn)確度和滿意度也存在一定差距.在線實驗根據(jù)用戶實時反饋衡量系統(tǒng)性能，即時響應(yīng)和用戶交互性強，但時間開銷和用戶參與成本高.AB測試即為一種在線實驗方法，通過一定的規(guī)則把用戶隨機劃分成組，對不同組別用戶采用不同的推薦算法，相對公平地獲取不同算法在實際在線時的一些性能指標(biāo).缺點是周期較長，需要長期的實驗才能得到可靠的結(jié)果.用戶調(diào)查也是系統(tǒng)評測的重要方法和工具，通過讓真實用戶參與任務(wù)，分析測試行為，但需要事先設(shè)計“雙盲實驗”，避免參與者受主觀因素影響，確保實驗結(jié)果更加客觀、嚴(yán)謹(jǐn)、準(zhǔn)確和科學(xué).表3分別列出了三種評測方法的優(yōu)缺點.

表3 推薦算法的性能評測方法對比

3.2 評測指標(biāo)的實驗方式

有的評測指標(biāo)可以定量計算，有的只能定性評價，表4對主要評測指標(biāo)的獲得進行對比.

3.3 評測指標(biāo)的制約和優(yōu)化

有些評價指標(biāo)可以在離線實驗中得到優(yōu)化，如限定覆蓋率、新鮮度和多樣性的閾值，追求更高的準(zhǔn)確度.但在推薦系統(tǒng)中追求所有指標(biāo)達到最優(yōu)完全不現(xiàn)實.推薦算法的綜合評價應(yīng)該是在一定場景和應(yīng)用環(huán)境中的權(quán)衡，強化重要指標(biāo)，弱化次要指標(biāo).推薦準(zhǔn)確性和物品多樣性相結(jié)合、推薦準(zhǔn)確度與物品覆蓋率相結(jié)合，達到準(zhǔn)確率高、覆蓋率高的合理目標(biāo).物品流行度和新鮮度、推薦物品的意外性與用戶對系統(tǒng)的信心之間、推薦精度和多樣性之間、推薦精度與新穎度之間都存在著矛盾.如果犧牲推薦精度而提高多樣性和新穎性比較容易，但在不犧牲精度的前提下提高多樣性和新穎性較為困難.

表4 推薦系統(tǒng)評測指標(biāo)的獲得方式

4 小結(jié)

個性化推薦系統(tǒng)在社會經(jīng)濟中具有重要的應(yīng)用價值，現(xiàn)已應(yīng)用于諸多領(lǐng)域，如音樂和影視推薦、圖書和商品推薦、廣告和資訊推薦、朋友或團體等社交推薦、新聞和微博等媒體推薦、學(xué)習(xí)視頻和教育資源等教育推薦.有效評價推薦算法和系統(tǒng)優(yōu)劣具有很大困難和挑戰(zhàn)，主要體現(xiàn)為：由于數(shù)據(jù)集不同，推薦方法策略不同，算法表現(xiàn)出來的性能難于直接評價；推薦系統(tǒng)任務(wù)不同，評價動機和目的各異，指標(biāo)體系不易確定.

在未來的研究中應(yīng)主要考慮這幾個方面：首先，如何將不同指標(biāo)加以組合形成綜合評價；其次，重視錯誤推薦在評價系統(tǒng)中起著重大作用，有利于推薦結(jié)果的分析和優(yōu)化；第三，個體與群體推薦相結(jié)合，在單一客戶推薦的同時支持客戶群推薦，能展示出推薦系統(tǒng)的強大優(yōu)勢，為商家提供產(chǎn)品定價、產(chǎn)品促銷、交叉銷售、優(yōu)惠券設(shè)計等決策，為客戶提供產(chǎn)品親和力、一對一促銷、優(yōu)惠券使用方案等服務(wù)；最后，要科學(xué)量化用戶體驗，優(yōu)秀的推薦系統(tǒng)應(yīng)該以用戶的體驗和反饋為核心，在推薦物品之前先預(yù)測用戶對物品的熟悉程度，以提高新穎度和驚喜度；根據(jù)不同場景和任務(wù)，向用戶推薦熟悉程度不同的物品，可增強物品多樣性和覆蓋性，增強用戶滿意度.但如何科學(xué)量化用戶體驗和反饋有待進一步研究.總之，構(gòu)建科學(xué)完善的綜合評測體系仍是推薦系統(tǒng)未來研究的重要課題和方向.

［1］項亮.推薦系統(tǒng)實踐［M］.北京：人民郵電出版社，2012.

［2］Toby Segaran.Programming Collective Intelligence:Building Smart Web 2.0 Applications［M］.New York：O’Reilly Media，Inc.，2007.

［3］Anand Rajaraman，Jerey D.Ullman.Miningof Massive Datasets［M］.Cambridge：Cambridge University Press，2011.

［4］D.Jannach，M.Zanker，et al.Recommender Systems:An Introduction［M］.Cambridge：Cambridge University Press，2010.

［5］劉建國，周濤，汪秉宏，等.個性化推薦系統(tǒng)的研究進展［J］.自然科學(xué)進展，2009，19（1）：1～15.

［6］劉建國，周濤，郭強，等.個性化推薦系統(tǒng)評價方法綜述［J］.復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)，2009，6（3）：1~10.

［7］易明.基于Web挖掘的個性化信息推薦［M］.北京：科學(xué)出版社，2012.

［8］馬剛.基于語義的Web數(shù)據(jù)挖掘［M］.大連：東北財經(jīng)大學(xué)出版社，2014.

［9］邵峰晶，于忠清，王金龍，等.數(shù)據(jù)挖掘原理與算法［M］.北京：科學(xué)出版社，2009.

［10］朱郁筱，呂琳媛.推薦系統(tǒng)評價指標(biāo)綜述［J］.電子科技大學(xué)學(xué)報，2012，41（2）：164～175.