亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        協(xié)同過濾推薦算法中的相似性度量研究

        2022-10-15 15:54:16李散散陳小榮
        現(xiàn)代信息科技 2022年15期
        關鍵詞:用戶實驗

        李散散,陳小榮

        (廣州工商學院 工學院,廣東 廣州 510850)

        0 引 言

        大數(shù)據(jù)時代用戶獲取信息越來越方便,同時用戶也能感受到大數(shù)據(jù)技術帶來的一些困擾,如信息過載出現(xiàn)的信息冗余和人們對信息的依賴性。舉個生活中常見的例子,在電子商務領域,各類購物平臺上陳列著不計其數(shù)的商品,用戶可以借助搜索引擎查找自己感興趣的商品,與此同時用戶也常會遇到選擇困難的情況,特別是在用戶沒有明確需求的情況下,這種困擾會更加明顯。此時強大的搜索引擎也無計可施,不能很好地幫助用戶篩選商品,就在此時推薦系統(tǒng)應運而生。推薦系統(tǒng)是一種可以借助一定的算法分析用戶歷史數(shù)據(jù)獲取用戶偏好和需求,然后主動推薦給用戶感興趣的信息,從而減少用戶查找時間的工具。如,eBay的“興趣購物”功能,可以根據(jù)購物者的瀏覽和購物行為,為每一個購物者提供用戶行為畫像,然后給用戶打造一個私人訂制的頁面。這樣一來電子商務平臺就可以解決用戶購物時需瀏覽大量無關信息和商品所帶來的困擾,從而優(yōu)化用戶購物體驗,實現(xiàn)精準營銷。

        1 協(xié)同過濾推薦算法概述

        1.1 協(xié)同過濾算法基本原理

        協(xié)同過濾推薦算法通常分為兩種類型:基于用戶的協(xié)同過濾算法和基于項目的協(xié)同過濾算法。該算法的基本思想是“物以類聚,人以群分”,主要是通過搜集用戶在線上的歷史記錄數(shù)據(jù),建立用戶偏好模型。然后通過計算用戶或項目之間的相似度來查找與目標用戶相似的用戶群或者目標用戶可能感興趣的項目。最后通過計算用戶對項目的預測評分來生成推薦列表。下面以給用戶推薦電影為例闡述該算法的原理,表1記錄了5個用戶對5部電影的評分情況,其中行是電影名,列是用戶。從表格中的數(shù)據(jù)可以看出Tom、Bob和Lucy三個用戶具有相似的興趣偏好,因為他們?nèi)齻€對Léon、Supper man、Titanic三部電影有相同的評分,因此在給用戶Lucy推薦電影時會推薦Jurassic park這部電影,即與用戶Lucy相似度高的用戶喜歡的而用戶Lucy并沒有觀看的電影。而對于新用戶Amy和新電影Homealone則無法進行推薦,因為評分很少或者沒有評分,從而不能找到與其有一定相似度的用戶或電影,這就是協(xié)同過濾推薦算法存在的用戶冷啟動和項目冷啟動問題。即,不能給新用戶做個性化推薦,也不能將新項目推薦給可能對它感興趣的用戶。

        表1 用戶—電影評分

        1.2 協(xié)同過濾算法的實現(xiàn)過程

        1.2.1 建立用戶-項目評分矩陣

        協(xié)同過濾推薦算法首先要收集用戶偏好,這可以通過整理用戶行為歷史記錄而得到,例如用戶對項目的評分、投票、轉(zhuǎn)發(fā)、評論、購買、點擊、保存等。然后對用戶行為預處理之后,形成二維矩陣,兩個維度分別是用戶列表和項目列表,值代表用戶對項目的偏好。如圖1所示,r表示用戶對項目的評分,分值的大小表示用戶對項目的喜歡程度,如果用戶對項目沒有評分,則記為0或者φ。這些無評分數(shù)據(jù)的元素占整個矩陣空間的比率就是該數(shù)據(jù)的稀疏度,數(shù)據(jù)的稀疏度對推薦質(zhì)量有著直接的影響。例如:有個user、個item、共個評分,數(shù)據(jù)的稀疏度計算公式為:1-(/×)。

        圖1 用戶—項目評分矩陣

        1.2.2 計算相似度

        關于相似度的計算,目前的方法基本都是通過計算兩個向量的距離來衡量相似度的大小,距離越近越相似。例如,在圖1的用戶—項目評分矩陣中,我們可以將一個用戶對所有項目的評分,即矩陣中的一行當作一個向量來計算不同用戶之間的相似度,同理,也可以將所有用戶對同一個項目的評分,即矩陣中的一列看作一個向量來計算不同項目之間的相似度。相似度的計算方法主要有以下幾種:

        (1)余弦相似度計算。余弦相似度是通過計算兩個向量夾角的余弦值來衡量用戶或項目之間的差異大小。當兩個向量的夾角為0°時,余弦值為1,表明兩個用戶或項目的相似度最高。項目之間的相似度計算公式為:

        其中,U、U分別表示對項目和項目評分的用戶集合,r,、r,分別表示用戶對項目的評分、用戶對項目的評分。

        (2)修正的余弦相似度。余弦相似度主要是從方向上區(qū)分差異性,對絕對的數(shù)值不敏感,因而不能反映每個維度上數(shù)值的差異,這就導致結(jié)果的誤差,需要修正。舉個例子,用戶對電影的評價(1~5分),兩個用戶A、B對兩部電影的評分分別是(1,2)(4,5)。使用余弦相似度計算的結(jié)果是0.98,此數(shù)值表明這兩個用戶極為相似。但從具體的評分來看用戶A似乎并不喜歡這兩部電影,相對比,B用戶則比較喜歡。

        還有一種情況是,用戶在給項目評分時,由于沒有一個統(tǒng)一的評分準則,用戶的打分尺度會因人而異。有些用戶要求苛刻,整體打分可能偏低;而有些用戶態(tài)度隨和,整體打分偏高。這種用戶態(tài)度引起的評分差異不利于構(gòu)建合理有效的預測評分模型。因此,為了解決以上評分習慣的問題,引入用戶在所有歷史項目中的平均評分,得到以下公式:

        (3)Pearson相關系數(shù)。Pearson相關系數(shù)反映了兩個變量之間的線性相關性,在推薦場景中計算的是對項目和項目都參與評分的用戶之間相似度。具體計算公式為:

        這里需要注意的是,修正的余弦相似度和Pearson相關系數(shù)在公式上存在細微差別,體現(xiàn)在公式的分母上。其中,修正的余弦相似度的分母是分別計算對項目或項目有過評分的用戶,Pearson相關系數(shù)的分母則是計算對項目和項目均有評分的用戶。

        (4)本文改進的相似度計算方法。項目的熱門程度或用戶活躍度對相似度的計算有一定的影響,可以假設,衡量用戶之間相似度時,有以下兩種情況:即,1)兩個用戶對某熱門項目有較高評分;2)這兩個用戶對某冷門項目有同樣評分。我們可以判定第二種情況更能說明這兩個用戶具有相似的偏好。同理,活躍用戶對項目相似度的貢獻應該也小于不活躍的用戶?;谶@個觀點,我們在計算項目之間相似度時加入log(1+())來對用戶活躍度做一定懲罰,修正后的項目相似度計算公式為:

        其中,()是用戶評過分的項目集合,()表示對項目評分的用戶集合,r表示用戶對項目的評分,dis計算的是兩個評分的絕對值差。

        1.2.3 生成推薦列表

        利用上述相似度計算方法計算每個項目和目標項目的相似度后,對這些相似度進行從高到低排序,篩選相似度最高的(最鄰近的)個項目,即候選集。

        2 實驗過程與結(jié)果

        2.1 數(shù)據(jù)集

        本文使用基于項目的協(xié)同過濾推薦算法開展實驗。本實驗的數(shù)據(jù)集是某電商網(wǎng)站用戶訂單數(shù)據(jù)集,該數(shù)據(jù)集包括用戶信息和購買產(chǎn)品信息,我們將用戶購買商品的次數(shù)轉(zhuǎn)化為用戶評分,評分值為1~5分。具體轉(zhuǎn)化的原則是:如果用戶A購買商品的次數(shù)為1,則記為用戶A對商品的評分為1分,以此類推,當用戶購買商品的次數(shù)達到5次則為5分,分值越高表示用戶對商品的喜歡程度越高。本實驗選取的數(shù)據(jù)集包含610個用戶對9 724個商品的100 836條評分。為了更好地評價模型,我們隨機將數(shù)據(jù)集劃分成訓練集和測試集,比例為3:1,訓練集用來產(chǎn)生實驗結(jié)果,測試集用來驗證實驗結(jié)果。

        2.2 實驗流程

        步驟1:建立用戶-項目評分矩陣。

        步驟2:通過相似度計算方法,找到鄰近項目。

        步驟3:采用TOP-N法對候選集中項目相似度進行排序,得到和項目最相似的前個項目集合。

        步驟4:對最鄰近的個項目進行用戶評分預測。

        步驟5:根據(jù)預測評分值與用戶評分平均值的關系,生成推薦列表。

        2.3 評價指標

        在完成實驗之后我們利用一些常用度量指標評價推薦系統(tǒng)預測的準確性,例如,均方根誤差、召回率和準確率。以下為具體的定義和公式。

        2.3.1 均方根誤差

        均方根誤差(RMSE),它是通過計算若干個預測值和真實值偏差的平方和與觀測次數(shù)的比值的平方根對預測效果進行綜合評價。均方根誤差對于一組測量中特大或特小誤差比較敏感,所以它能夠很好地反映出測量的精準度。具體計算公式如式(6)。其中,是觀測次數(shù),p是預測值,r是真實值,從公式可以看出RMSE的取值與推薦質(zhì)量成反比。

        2.3.2 召回率

        召回率(Recall)表示推薦列表中有多少被真實預測到了,是推薦列表中用戶喜歡的項目數(shù)量與用戶所有喜歡的項目的比值。它能夠直接反映出推薦結(jié)果的精準度,計算公式如式(7)。其中,RT分別表示給用戶推薦的項目集合、用戶真實喜歡的項目集合。

        2.3.3 準確率

        準確率(Precision)是指推薦系統(tǒng)給用戶的推薦列表中用戶實際選擇的項目與所有被推薦項目的比例。計算公式為:

        2.3.4 平均絕對誤差

        平均絕對誤差(MAE)是指預測值和觀測值之間絕對誤差的平均值。MAE值越小,預測結(jié)果越準確,它的計算公式為式(9)。其中,r表示用戶對項目的實際評分,p表示用戶對項目的預測評分,為預測次數(shù)。

        2.4 實驗結(jié)果與分析

        通過整理實驗數(shù)據(jù),我們得出四種相似性度量方法在推薦的準確率、召回率、均方根誤差和平均絕對誤差四個方面的差異,以及值(最近鄰居數(shù)量)對推薦結(jié)果的影響。根據(jù)實驗數(shù)據(jù)制作了圖2至圖5,如下所示。

        圖2 不同相似度計算方法的準確率

        圖3 不同相似度計算方法的召回率

        圖4 不同相似度計算方法的均方根誤差

        圖5 不同相似度計算方法的平均絕對誤差

        2.4.1 實驗結(jié)果

        結(jié)果1:從圖2和圖3看,改進的相似度計算方法的準確率和召回率明顯優(yōu)于其他相似度計算方法,特別是相對于余弦相似度的方法而言。同時我們也發(fā)現(xiàn)修正的余弦相似度和Pearson相關系數(shù)的準確率和召回率較為接近。

        結(jié)果2:對于不同最近鄰居數(shù)量,即不同值(={10,20,30,…,100})對推薦準確率、召回率、RMSE和MAE的影響。從圖中可以看出,最近鄰居數(shù)量對四種相似性度量方法的評價指標均有影響。其中對RMSE和MAE的影響較大,對召回率的影響最小。相比而言,最近鄰居數(shù)量對修正的余弦相似度、Pearson相關系數(shù)和本文提出的改進的相似度計算方法的影響較小。

        結(jié)果3:從圖4和圖5來看,4種方法的均方根誤差和平均絕對誤差整體會隨著最近鄰數(shù)量的增加有增加的趨勢,余弦相似度的方法表現(xiàn)得更加明顯。而修正的余弦相似度、Pearson相關系數(shù)和本文改進的相似度計算方法的RMSE和MAE比較接近,它們這3種方法的預測精準度明顯比余弦相似度方法高,其中本文改進的相似度計算方法的數(shù)據(jù)更加穩(wěn)定。

        2.4.2 實驗結(jié)果分析

        實驗結(jié)果顯示本文提出的相似度計算方法在四個指標中均具有較好的表現(xiàn),但效果不夠顯著,究其原因主要有以下兩個因素:

        如何緩解數(shù)據(jù)稀疏性問題呢?很多研究者針對這一問題提出了改進的方法,主要可以歸為三類:數(shù)據(jù)填充、聚類方法和矩陣分解。以數(shù)據(jù)填充方法為例,可以通過預測值填充的方法對未評分的項目填充數(shù)值,該方法主要從協(xié)同過濾推薦算法的兩個分類出發(fā),預測用戶對未評分項目的評分。首先根據(jù)項目之間的相似度和用戶對項目的個鄰近項目的評分來預測對未評分項目的評分,然后將預測評分填充到項目—評分矩陣中,預測評分的計算公式見式(5)。如果出現(xiàn)用戶對項目的個最鄰近項目也未評分的情況,即r為空,則根據(jù)用戶之間的相似度,以及與目標用戶最鄰近的個用戶對項目的評分,來預測用戶對項目的評分,然后將預測評分數(shù)據(jù)再次填充到矩陣中,計算公式見式(10)。將預測評分數(shù)據(jù)填充到矩陣后,再次進行項目之間相似度的計算,然后重新生成推薦列表。最近鄰居數(shù)量的多少會影響最近鄰居與目標用戶或目標項目的相似度,因此在進行數(shù)據(jù)填充時值選擇不宜過大。

        (2)項目本身質(zhì)量。影響實驗結(jié)果的另一個原因是,在上述計算相似度的過程中,僅僅從已有評分判斷用戶興趣偏好,而沒有考慮到項目本身的質(zhì)量也會影響用戶評分。因此,在相似度計算時應該對用戶評分數(shù)據(jù)的離散性進行加權(quán),糾正項目質(zhì)量所帶來的誤差。在統(tǒng)計學中,通常用極差、四分位差、方差、標準差和變異系數(shù)等描述一組數(shù)據(jù)離散程度。這里用項目評分的方差來衡量評分數(shù)據(jù)的離散性,方差計算公式如式(11),它使用平方的方式求和后取平均值,能夠避免正負數(shù)的相互抵消。方差越小說明數(shù)據(jù)對平均值的偏離越小,評分數(shù)據(jù)則越穩(wěn)定。為了更精確地計算項目之間的相似度,引入離散系數(shù),項目的離散系數(shù)的計算公式如式(12)。

        將離散系數(shù)(式(12))與Pearson相關系數(shù)計算公式相結(jié)合得到相似度計算公式(13),該公式在Pearson相關系數(shù)的基礎上,融入對項目質(zhì)量的加權(quán),利用該公式計算項目之間的相似度會更加精準,因而理論上能有效提高推薦質(zhì)量,這仍需要后續(xù)研究進行驗證。

        3 結(jié) 論

        本文圍繞協(xié)同過濾推薦算法開展研究,借助電商平臺數(shù)據(jù)集,通過實驗對比了四種不同相似性度量方法對推薦結(jié)果的影響。從實驗結(jié)果看,改進的相似度計算方法在準確率、召回率、均方根誤差和平均絕對誤差這四個方面有更好的表現(xiàn),此外,修正的余弦相似度與Pearson相關系數(shù)計算方法的推薦效果明顯比余弦相似度計算方法的推薦效果好。本實驗因沒有考慮數(shù)據(jù)稀疏性和項目本身質(zhì)量的問題影響了推薦的準確性,故在此基礎上分析了實驗改進的方法和思路,作為后續(xù)研究的方向。

        猜你喜歡
        用戶實驗
        記一次有趣的實驗
        微型實驗里看“燃燒”
        做個怪怪長實驗
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        100萬用戶
        一本色道久久99一综合| 日韩美腿丝袜三区四区| 美女脱了内裤露出奶头的视频| 亚洲精品无码国产| 国产在线播放网址| 亚洲综合网一区二区三区| 高清不卡日本v二区在线| 亚洲自偷自拍另类第1页| 51久久国产露脸精品国产| 国产一级淫片免费播放电影| 午夜在线观看一区二区三区四区| 亚洲色图视频在线免费看| 亚洲人精品亚洲人成在线| 一本色道久久99一综合| 视频女同久久久一区二区三区 | 91精品国产色综合久久不卡蜜 | 亚洲熟妇自偷自拍另欧美| 熟妇五十路六十路息与子| 91久国产在线观看| 中文字幕av永久免费在线| 一区二区三区乱码在线 | 欧洲 | 美女啪啪国产| 亚洲天堂一区二区精品| 精品高朝久久久久9999| 中文字幕av无码一区二区三区 | 亚洲人成18禁网站| 大陆成人精品自拍视频在线观看 | 一区二区三区在线视频免费观看| 尤物精品国产亚洲亚洲av麻豆| 日本做受120秒免费视频| 亚洲欧美日韩精品高清| 亚洲精品在线观看一区二区 | 50岁熟妇的呻吟声对白| 国产中文字幕乱码在线| 加勒比av在线一区二区| 国产精品538一区二区在线| 婷婷综合久久中文字幕蜜桃三电影| 亚洲高清在线观看免费视频 | 视频二区 无码中出| 精品视频在线观看日韩| 国产成人精品一区二区不卡|