亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        個性化推薦系統(tǒng)評測指標(biāo)與實驗方法研究

        2015-04-01 09:21:20吳海霞
        晉中學(xué)院學(xué)報 2015年3期
        關(guān)鍵詞:評測準(zhǔn)確度物品

        吳海霞,何 苑,路 璐

        (長治學(xué)院計算機系,山西長治046011)

        (編輯 張 瑛)

        1 個性化推薦系統(tǒng)簡介

        信息技術(shù)和互聯(lián)網(wǎng)技術(shù)使我們從信息匱乏的時代發(fā)展到信息過載的時代,信息消費者從海量信息中搜索感興趣的有價值的信息變得十分困難,信息生產(chǎn)者的信息從大量信息庫中脫穎而出得到目標(biāo)用戶的關(guān)注也非常困難[1].

        信息檢索、數(shù)據(jù)挖掘和推薦系統(tǒng)三種技術(shù)都可以在一定程度上解決這一矛盾,但三者之間存在著明顯不同,表1列出它們的主要區(qū)別.傳統(tǒng)的搜索引擎技術(shù)只在Web海洋的表層頁面檢索,呈現(xiàn)給所有用戶的結(jié)果排序及頁面沒有差別,未針對不同用戶興趣提供相應(yīng)個性化服務(wù),信息的利用率較低;Web數(shù)據(jù)挖掘能夠自動獲取大量的更具價值的深層頁面,利用相關(guān)規(guī)則發(fā)現(xiàn)隱藏的規(guī)律和模型;個性化推薦系統(tǒng)已成為一種營銷模式和手段,給電子商務(wù)領(lǐng)域帶來巨大的商業(yè)利益,不僅能夠挖掘出用戶感興趣的部分“暗信息”,還能提高潛在客戶的轉(zhuǎn)化率,并有效保持用戶的黏著性.

        表1 信息檢索、數(shù)據(jù)挖掘、個性化推薦之間的區(qū)別

        個性化推薦是基于社會計算和集體智慧[2]的一種新的計算模式,PageRank算法[3]、Netflix競賽、MovieLens[3~4]、Google推薦系統(tǒng)等都是成功的應(yīng)用.推薦技術(shù)是解決信息過載問題,實現(xiàn)信息生產(chǎn)者和信息消費者雙方共贏的重要工具.一個完整的推薦系統(tǒng)由三部分組成:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊、產(chǎn)生個性化推薦結(jié)果的推薦算法模塊,其中,推薦算法模塊是推薦系統(tǒng)中最為核心的部分[5~6].對推薦結(jié)果的質(zhì)量和性能進行評測則是優(yōu)化推薦算法,提升推薦系統(tǒng)效能的重要途徑.

        傳統(tǒng)的個性化推薦包括基于手工決策規(guī)則、協(xié)同過濾、基于內(nèi)容、基于人口統(tǒng)計、基于效用、基于知識的推薦等方法.基于Web挖掘的個性化推薦方法有聚類分析、關(guān)聯(lián)規(guī)則、序列模式方法、語義Web挖掘、統(tǒng)計學(xué)技術(shù)等[7~9],包含數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和分析、信息推薦一系列流程.近年來出現(xiàn)了許多新的推薦算法在特定方面表現(xiàn)出突出優(yōu)勢,如基于圖模型、基于概率、基于語義、上下文情境、mahout二部圖推薦及混合推薦等等.

        2 推薦系統(tǒng)的評價指標(biāo)體系

        推薦評價是推薦領(lǐng)域的一個重要問題.推薦系統(tǒng)具有三個必要的參與主體:網(wǎng)站、用戶、物品(內(nèi)容)提供者,在評測推薦系統(tǒng)和推薦算法時必須考慮三方利益.好的推薦系統(tǒng)的理想目標(biāo)是達到多方共贏,在不同應(yīng)用場景中選擇哪種評價指標(biāo)更為客觀合理具有指導(dǎo)意義.業(yè)界研究人員尚未形成一致的科學(xué)標(biāo)準(zhǔn)體系,但公認(rèn)的重要指標(biāo)已被廣泛使用.下面給出主流的通用評測指標(biāo)和新的評測指標(biāo).有些基于推薦算法,有些獨立于推薦算法;有的從系統(tǒng)角度評價,有的從用戶角度評價;部分為定性評價,部分為定量評價.理想的推薦系統(tǒng)應(yīng)該準(zhǔn)確、高效、多樣、新穎、透明、穩(wěn)定、覆蓋廣、獲得用戶滿意和信任.

        2.1 推薦準(zhǔn)確度

        準(zhǔn)確度(Accuracy)是最重要的評價指標(biāo),即推薦系統(tǒng)預(yù)測評分(或排名)與用戶實際打分(或排名)間的相似度和吻合度,分為預(yù)測準(zhǔn)確度、分類準(zhǔn)確度、排序準(zhǔn)確度[6].預(yù)測準(zhǔn)確度用來度量推薦算法預(yù)測用戶行為的能力,一般用MAE、MSE、NMAE、RMSE等指標(biāo),適于離線評測;分類準(zhǔn)確度判定用戶是否喜歡推薦物品正確的比例,常用準(zhǔn)確率、召回率、F指標(biāo)和ROC指標(biāo),適用二值選擇的推薦系統(tǒng).排序準(zhǔn)確度指推薦列表與用戶排序間的吻合度,適用于對順序敏感的系統(tǒng).

        不同準(zhǔn)確度的量化計算方法不盡相同,表2給出常用計算指標(biāo)及特點.約定:n為用戶評分的項目數(shù),p為預(yù)測評分值,r為用戶對項目的評分,rmax和rmin分別為用戶評分最大和最小值,di為觀測值與真值的偏差,表明樣本離散程度,對一組測量中的特大或特小誤差反映敏感,因此能較好反映測量精度.

        表2 多種準(zhǔn)確度計算指標(biāo)的比較

        在指標(biāo)對照表中,前三個準(zhǔn)確率指標(biāo)的值越大,精度越高,推薦質(zhì)量越好;后四個誤差指標(biāo)的值越小,預(yù)測精度越高,推薦質(zhì)量越好.但有時會出現(xiàn)矛盾的情形,比如召回率與準(zhǔn)確率往往不能同時達到很高,若召回率達100%,則準(zhǔn)確率會很低,若準(zhǔn)確率達100%,則召回率會很低.這兩個指標(biāo)雖然沒有必然關(guān)系,但在大規(guī)模數(shù)據(jù)集中,二者卻相互制約.

        2.2 推薦覆蓋率

        覆蓋率(Coverage)包括種類覆蓋率和用戶覆蓋率,前者指推薦出來的物品占所有物品集的比例,后者指獲得推薦結(jié)果的用戶占全體用戶集的比例.一般情況下,覆蓋率指種類覆蓋率,物品(或內(nèi)容)的提供商比較關(guān)注這一重要指標(biāo).推薦列表中物品出現(xiàn)次數(shù)的分布越平,表明推薦系統(tǒng)的覆蓋率越高,推薦系統(tǒng)挖掘長尾的能力越強;相反,分布越陡,表明覆蓋率越低,系統(tǒng)挖掘長尾能力越弱.

        覆蓋率的常用計算方法:C=|∪u∈UR(u)|/|I|,其中U為用戶集合,I為物品集合,R(u)為系統(tǒng)為某用戶推薦的物品列表.此外,還可用信息熵和基尼系數(shù)兩個指標(biāo)來度量[1]:信息熵表示為 H=-∑[p(i)logp(i)],其中p(i)指物品i的流行度除以所有物品流行度之和;基尼系數(shù)表示為G=(∑(2j-n-1)p(ij))/(n-1),其中j指物品流行度升序列表中的第j個物品.

        2.3 推薦多樣性

        多樣性(Diversity)衡量系統(tǒng)給用戶或群體推薦內(nèi)容的差異程度.推薦結(jié)果呈現(xiàn)多樣化,其覆蓋的興趣點就多,用戶找到滿意物品的概率就大.

        假設(shè)推薦系統(tǒng)中用戶集合為U,兩個物品i與j間的相似度為s(i,j),系統(tǒng)為某用戶u推薦的列表記為L(u),列表長度 l=|L(u)|,則這一推薦列表的多樣性可表示為 D(L(u))=1–(∑s(i,j))/(l(l-1)/2).

        推薦系統(tǒng)的整體多樣性可表示為D=∑D(L(u))/|U|,即所有用戶推薦列表的多樣性的均值.

        2.4 推薦新鮮度

        新鮮度(Novelty)指系統(tǒng)為用戶推薦其從未見過但感興趣物品的能力.好的推薦列表應(yīng)該是用戶之前未聽過和見過的、沒有打分和瀏覽記錄的、有價值的新穎物品.否則,用戶對推薦的內(nèi)容很熟悉,則認(rèn)為推薦效果不佳.

        這一指標(biāo)的度量可借助物品的平均流行度來定性計算,推薦物品的流行度越低則認(rèn)為越新穎.但由于不同用戶所不熟悉的物品各異,此方法過于簡單而不可靠,因此通過用戶調(diào)查來進行新穎度的準(zhǔn)確統(tǒng)計.

        2.5 用戶滿意度

        用戶滿意度(Satisfaction)是評價推薦系統(tǒng)的重要指標(biāo),不能離線計算,只可通過在線實驗統(tǒng)計用戶的行為或通過問卷調(diào)查的反饋情況分析用戶感受的方法獲得.滿意度分為多個層次,因此在設(shè)計問卷和反饋界面時應(yīng)該從不同方面和角度設(shè)置不同層次的問題和選項.另外,用戶在頁面的停留時間、對網(wǎng)頁的點擊率、物品購買數(shù)量和頻次、顧客轉(zhuǎn)化率等都是度量滿意度的重要指標(biāo).

        2.6 魯棒性

        也稱健壯性(Robustness),衡量推薦系統(tǒng)抗擊作弊和攻擊的能力.部分惡意用戶或商家會為個人利益和商業(yè)利益而故意作弊或攻擊系統(tǒng),達成破壞評分系統(tǒng)、改變推薦結(jié)果、降低推薦準(zhǔn)確度等不良動機.

        推薦系統(tǒng)的魯棒性可考慮三種方法:(1)在系統(tǒng)工作之前先對數(shù)據(jù)進行攻擊檢測和清理;(2)推薦策略中除了使用瀏覽和點擊等簡單的用戶行為,還應(yīng)運用購買和評價等相對復(fù)雜且成本代價較高的用戶行為,有效降低被攻擊的風(fēng)險;(3)選擇健壯性高的算法,防止被惡意破壞和攻擊;(4)采用模擬攻擊的方法,針對特定的數(shù)據(jù)集和推薦算法給用戶生成推薦列表,向數(shù)據(jù)集注入噪聲數(shù)據(jù),再用該推薦算法生成新的推薦列表,比較兩個列表的相似度,相似度高表明健壯性強,差別較大表明不夠健壯.

        2.7 其他指標(biāo)

        產(chǎn)品流行性(Popularity)不同的產(chǎn)品都有流行的時期和階段,推薦產(chǎn)品的流行性也決定著推薦質(zhì)量的高低和用戶滿意度.如電影拍攝時間、服裝生產(chǎn)時間、圖書出版時間、教學(xué)資源適用時間、網(wǎng)頁更新時間、新聞發(fā)布時間等.

        驚喜度(Serendipity)即意外性,指推薦結(jié)果與用戶之前喜歡的物品不相似但用戶非常滿意的推薦.提高推薦驚喜度需要降低推薦結(jié)果與用戶歷史興趣的相似度.驚喜度不同于新鮮度,像基于內(nèi)容的推薦算法會產(chǎn)生新鮮的物品而非意外物品.

        實時性(Real-time),實際應(yīng)用對推薦系統(tǒng)的實時性要求越來越高,在線計算時間決定著推薦性能的優(yōu)劣,反映出推薦的效率和性能.

        信任度(Trust),用戶信任推薦系統(tǒng),無疑會增加互動行為,從而獲得更好的個性化推薦.增加信任的方法往往是提供推薦解釋[10],系統(tǒng)產(chǎn)生推薦的原因和方式越合理透明,用戶對推薦系統(tǒng)的信心越強.

        隱私保護程度(Privacy),隱私信息越來越受個人和群體用戶的重視,隱私保護程度直接影響用戶對推薦系統(tǒng)的信任度、滿意度、忠誠度和黏著性.

        擴展性(Scalability),推薦算法的擴展性能即適應(yīng)系統(tǒng)規(guī)模不斷擴大的問題,這是制約系統(tǒng)實現(xiàn)的重要因素.研究增量算法的實現(xiàn)有利于提高算法效率和系統(tǒng)的擴展性能.

        普適性(Ubiquitous),針對不同的數(shù)據(jù)集和不同的應(yīng)用場景,不同的推薦方法也會表現(xiàn)出不同的效果.推薦算法的普適性成為一個新的評價方面.

        3 推薦系統(tǒng)的評測實驗方法

        個性化推薦的結(jié)果和性能由系統(tǒng)運行環(huán)境、數(shù)據(jù)集、市場行情、輿論導(dǎo)向、社交特征、用戶群體、時間與情緒等諸多內(nèi)外因素綜合作用.如評分矩陣和實驗數(shù)據(jù)的稀疏等級、近期特殊的新聞事件和用戶最近的動態(tài)行為特征等都直接影響著推薦的質(zhì)量和用戶的評分及選擇.一般采用離線或在線的方式對推薦結(jié)果的準(zhǔn)確性、覆蓋性、新穎性及用戶滿意度等指標(biāo)進行測評.

        3.1 推薦性能評測方法

        推薦系統(tǒng)的性能和效果評價有多種方法.離線實驗基于數(shù)據(jù)集進行,無需真實用戶和實際系統(tǒng)即可方便快捷測試多種算法,無法計算轉(zhuǎn)化率和點擊率等商業(yè)相關(guān)指標(biāo),其準(zhǔn)確度和滿意度也存在一定差距.在線實驗根據(jù)用戶實時反饋衡量系統(tǒng)性能,即時響應(yīng)和用戶交互性強,但時間開銷和用戶參與成本高.AB測試即為一種在線實驗方法,通過一定的規(guī)則把用戶隨機劃分成組,對不同組別用戶采用不同的推薦算法,相對公平地獲取不同算法在實際在線時的一些性能指標(biāo).缺點是周期較長,需要長期的實驗才能得到可靠的結(jié)果.用戶調(diào)查也是系統(tǒng)評測的重要方法和工具,通過讓真實用戶參與任務(wù),分析測試行為,但需要事先設(shè)計“雙盲實驗”,避免參與者受主觀因素影響,確保實驗結(jié)果更加客觀、嚴(yán)謹(jǐn)、準(zhǔn)確和科學(xué).表3分別列出了三種評測方法的優(yōu)缺點.

        表3 推薦算法的性能評測方法對比

        3.2 評測指標(biāo)的實驗方式

        有的評測指標(biāo)可以定量計算,有的只能定性評價,表4對主要評測指標(biāo)的獲得進行對比.

        3.3 評測指標(biāo)的制約和優(yōu)化

        有些評價指標(biāo)可以在離線實驗中得到優(yōu)化,如限定覆蓋率、新鮮度和多樣性的閾值,追求更高的準(zhǔn)確度.但在推薦系統(tǒng)中追求所有指標(biāo)達到最優(yōu)完全不現(xiàn)實.推薦算法的綜合評價應(yīng)該是在一定場景和應(yīng)用環(huán)境中的權(quán)衡,強化重要指標(biāo),弱化次要指標(biāo).推薦準(zhǔn)確性和物品多樣性相結(jié)合、推薦準(zhǔn)確度與物品覆蓋率相結(jié)合,達到準(zhǔn)確率高、覆蓋率高的合理目標(biāo).物品流行度和新鮮度、推薦物品的意外性與用戶對系統(tǒng)的信心之間、推薦精度和多樣性之間、推薦精度與新穎度之間都存在著矛盾.如果犧牲推薦精度而提高多樣性和新穎性比較容易,但在不犧牲精度的前提下提高多樣性和新穎性較為困難.

        表4 推薦系統(tǒng)評測指標(biāo)的獲得方式

        4 小結(jié)

        個性化推薦系統(tǒng)在社會經(jīng)濟中具有重要的應(yīng)用價值,現(xiàn)已應(yīng)用于諸多領(lǐng)域,如音樂和影視推薦、圖書和商品推薦、廣告和資訊推薦、朋友或團體等社交推薦、新聞和微博等媒體推薦、學(xué)習(xí)視頻和教育資源等教育推薦.有效評價推薦算法和系統(tǒng)優(yōu)劣具有很大困難和挑戰(zhàn),主要體現(xiàn)為:由于數(shù)據(jù)集不同,推薦方法策略不同,算法表現(xiàn)出來的性能難于直接評價;推薦系統(tǒng)任務(wù)不同,評價動機和目的各異,指標(biāo)體系不易確定.

        在未來的研究中應(yīng)主要考慮這幾個方面:首先,如何將不同指標(biāo)加以組合形成綜合評價;其次,重視錯誤推薦在評價系統(tǒng)中起著重大作用,有利于推薦結(jié)果的分析和優(yōu)化;第三,個體與群體推薦相結(jié)合,在單一客戶推薦的同時支持客戶群推薦,能展示出推薦系統(tǒng)的強大優(yōu)勢,為商家提供產(chǎn)品定價、產(chǎn)品促銷、交叉銷售、優(yōu)惠券設(shè)計等決策,為客戶提供產(chǎn)品親和力、一對一促銷、優(yōu)惠券使用方案等服務(wù);最后,要科學(xué)量化用戶體驗,優(yōu)秀的推薦系統(tǒng)應(yīng)該以用戶的體驗和反饋為核心,在推薦物品之前先預(yù)測用戶對物品的熟悉程度,以提高新穎度和驚喜度;根據(jù)不同場景和任務(wù),向用戶推薦熟悉程度不同的物品,可增強物品多樣性和覆蓋性,增強用戶滿意度.但如何科學(xué)量化用戶體驗和反饋有待進一步研究.總之,構(gòu)建科學(xué)完善的綜合評測體系仍是推薦系統(tǒng)未來研究的重要課題和方向.

        [1]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012.

        [2]Toby Segaran.Programming Collective Intelligence:Building Smart Web 2.0 Applications[M].New York:O’Reilly Media,Inc.,2007.

        [3]Anand Rajaraman,Jerey D.Ullman.Miningof Massive Datasets[M].Cambridge:Cambridge University Press,2011.

        [4]D.Jannach,M.Zanker,et al.Recommender Systems:An Introduction[M].Cambridge:Cambridge University Press,2010.

        [5]劉建國,周濤,汪秉宏,等.個性化推薦系統(tǒng)的研究進展[J].自然科學(xué)進展,2009,19(1):1~15.

        [6]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1~10.

        [7]易明.基于Web挖掘的個性化信息推薦[M].北京:科學(xué)出版社,2012.

        [8]馬剛.基于語義的Web數(shù)據(jù)挖掘[M].大連:東北財經(jīng)大學(xué)出版社,2014.

        [9]邵峰晶,于忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.

        [10]朱郁筱,呂琳媛.推薦系統(tǒng)評價指標(biāo)綜述[J].電子科技大學(xué)學(xué)報,2012,41(2):164~175.

        猜你喜歡
        評測準(zhǔn)確度物品
        稱物品
        次時代主機微軟XSX全方位評測(下)
        次時代主機微軟XSX全方位評測(上)
        “雙十一”,你搶到了想要的物品嗎?
        誰動了凡·高的物品
        攻坡新利器,TOKEN VENTOUS評測
        幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
        建筑科技(2018年6期)2018-08-30 03:40:54
        Canyon Ultimate CF SLX 8.0 DI2評測
        中國自行車(2017年1期)2017-04-16 02:54:06
        動態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實意義
        找物品
        激情乱码一区二区三区| 亚洲中文字幕无码久久| 欧美成人三级一区二区在线观看 | 国产亚洲一区二区手机在线观看| 国产精品久久1024| 久久五月精品中文字幕| 国产亚洲自拍日本亚洲 | 五月开心婷婷六月综合| 人妻中文无码久热丝袜| 无码人妻系列不卡免费视频| 国产人澡人澡澡澡人碰视频| 国产成人一区二区三区视频免费蜜 | 91精品人妻一区二区三区蜜臀| 久久精品一区二区三区蜜桃| 久久久久国产综合av天堂| 久久香蕉国产线看观看网| 亚洲av高清资源在线观看三区| 成人免费av色资源日日| 亚洲av无码乱码国产精品| 久久精品国波多野结衣| 日韩一二三四区免费观看| av免费在线播放观看| 亚洲av永久无码精品一福利| 成人精品综合免费视频| 国产亚洲精品性爱视频| 日本一区二区三区经典视频| 国产午夜福利精品一区二区三区| 欧美黑人又粗又硬xxxxx喷水| 手机看片国产日韩| 亚洲av网一区二区三区成人| 精品综合久久久久久888蜜芽 | 久久av一区二区三区下| 国内自拍色第一页第二页| 中文字幕乱码熟女人妻水蜜桃| 亚洲综合无码一区二区| 激情人妻网址| 久久精品国产亚洲av天美| 国产精品无码久久综合网| 亚洲h视频| 中文字幕一区二区三区四区久久| 亚洲国产婷婷六月丁香|