亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)型協(xié)同過濾算法的研究

        2019-10-11 09:49:54徐志超單劍鋒
        關(guān)鍵詞:用戶評價

        徐志超,單劍鋒

        (南京郵電大學(xué) 電子與光學(xué)工程、微電子學(xué)院,江蘇 南京 210046)

        0 引 言

        互聯(lián)網(wǎng)社會中,人在社會生產(chǎn)生活中產(chǎn)生了源源不斷的歷史數(shù)據(jù)。文獻(xiàn)[1]中較為全面地論述了推薦算法在電子商務(wù)中的應(yīng)用,并且分析了推薦策略,同時指出了當(dāng)前策略的優(yōu)缺點(diǎn)和未來的研究方向。如何從大量的、復(fù)雜、冗余的歷史數(shù)據(jù)中挖掘出有價值的數(shù)據(jù),分析這些數(shù)據(jù)的規(guī)律,對人的生產(chǎn)和生活做一些預(yù)測和相應(yīng)的建議,這有利于生產(chǎn)力的提高和為人們提供更好的服務(wù)。相比于傳統(tǒng)的軟件工程,大數(shù)據(jù)、人工智能越來越被大眾所熟悉[2]。大數(shù)據(jù)的應(yīng)用場景在生活中比比皆是,天貓、淘寶等購物網(wǎng)站通過消費(fèi)者的歷史消費(fèi)數(shù)據(jù)對用戶進(jìn)行商品個性化推薦;學(xué)校圖書館中,根據(jù)不同讀者的借書數(shù)據(jù)和讀者的角色進(jìn)行個性化推薦;淘淘網(wǎng)根據(jù)用戶的影評和用戶的歷史觀看數(shù)據(jù)對用戶進(jìn)行推薦;內(nèi)容搜索行業(yè)的今日頭條能夠根據(jù)用戶的歷史閱覽軌跡實時推薦用戶感興趣的內(nèi)容,這大大提升了頭條的用戶流量。

        目前,主流的推薦算法主要有三種,第一種是基于協(xié)同過濾的推薦算法,主要包括基于內(nèi)存和基于模型兩種?;趦?nèi)存有包括基于用戶或商品;基于模型主要利用統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘來研究[3]。文獻(xiàn)[4]提出的基于協(xié)同過濾算法的高校圖書館推薦系統(tǒng),主要利用專業(yè)、角色、學(xué)歷等多維特征構(gòu)建讀者模型,結(jié)合基于商品評分的系統(tǒng)過濾算法,相比于單一的基于商品評分協(xié)同推薦算法,該算法的有效性、實用性大大提高。第二種是基于內(nèi)容的推薦算法,主要包括基于TF-IDF文本的推薦算法和基于潛在語義分析的推薦算法,但它們都只能基于歷史的文本信息進(jìn)行挖掘。文獻(xiàn)[5]針對特征高維問題,提出一種基于中心詞擴(kuò)展的TF-IDF特征提取算法,增加了特征節(jié)點(diǎn)的表達(dá)能力,實現(xiàn)了特征降維。第三種是基于圖結(jié)構(gòu)的推薦算法,文獻(xiàn)[6]提出了一種基于隨機(jī)森林修正的加權(quán)二部圖推薦算法。算法經(jīng)過改進(jìn)和融合后,提高了推薦的準(zhǔn)確度,解決了基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的算法中僅考慮用戶與商品之間關(guān)系、忽略興趣偏好影響的問題,從而增強(qiáng)了推薦的可解釋性。另外,協(xié)同過濾算法也可以和其他經(jīng)典算法相結(jié)合,文獻(xiàn)[7]很好地將遺傳算法與協(xié)同過濾算法進(jìn)行有效結(jié)合。

        在計算仿真平臺和工具的選擇上,以MapReduce為主的Hadoop體系和基于內(nèi)存計算的Spark體系在計算上變得越來越重要。

        針對傳統(tǒng)的單機(jī)集中式計算已無法滿足推薦系統(tǒng)的實時性和擴(kuò)展性要求的問題,基于主流的大數(shù)據(jù)平臺Spark在迭代計算以及內(nèi)存計算方面的優(yōu)勢,設(shè)計了基于項目的協(xié)同過濾算法在Spark上的并行化方案[8-9]。文獻(xiàn)[10-11]都提出了基于Hadoop的協(xié)同過濾算法,成功提高了算法的運(yùn)行速度,擴(kuò)大了算法輸入數(shù)據(jù)的規(guī)模。由此可見計算工具的提升,有助于算法性能的提升。

        1 協(xié)同過濾算法

        協(xié)同過濾算法主要是將與目標(biāo)用戶具有相似特征的用戶的商品推薦給目標(biāo)用戶[12];或者根據(jù)目標(biāo)用戶歷史消費(fèi)的商品,推薦相類似的商品。前者屬于基于用戶的推薦算法,后者屬于基于商品的推薦算法。協(xié)同過濾算法大致思路見圖1。

        1.1 協(xié)同過濾算法的相似度

        相似度的計算方法主要有兩種:皮爾森相似度計算和余弦相似度計算。

        皮爾森相似度[13]計算公式如下:

        (1)

        圖1 視頻網(wǎng)站電影智能推薦流程

        余弦相似度[13]計算公式如下:

        (2)

        相比于余弦相似度計算公式,皮爾森相似度計算公式考慮了不同用戶評分平均分不同的情況。

        1.2 評分估計方法

        設(shè)U={u1,u2,…,un}為用戶集合,V={v1,v2,…,vm}為商品集合,ruv表示用戶u對商品v的評分估計。常見的評分估計方法[13]如下:

        (3)

        (4)

        (5)

        1.3 基于用戶的內(nèi)存推薦算法

        基于用戶的內(nèi)存推薦算法主要先計算用戶的相似度,然后根據(jù)相應(yīng)的算法求出目標(biāo)用戶對目標(biāo)商品的估計評分。表1中的數(shù)據(jù)來自某電商網(wǎng)站的用戶評價商品的部分?jǐn)?shù)據(jù)。表中U表示用戶,V表示商品,評分范圍為1至10。表中“-”表示未評價,“?”表示待評價。

        表1 不同用戶對已購商品的評分

        基于用戶的協(xié)同過濾算法,可以計算出目標(biāo)用戶Ui對商品Vj的評分結(jié)果Rij。以表1中的數(shù)據(jù)為例,可以計算評估用戶U5對商品V2的評分。具體步驟如下:第一,分別計算U5和Ui(i=1,2,3,4)的相似復(fù)雜度;第二,根據(jù)除目標(biāo)用戶以外的其他用戶對目標(biāo)商品的評分和相似度,計算目標(biāo)用戶U5對目標(biāo)商品V2的相似度r5,2。文中使用余弦計算用戶之間的復(fù)雜度,U5和Ui(i=1,2,3,4)的相似復(fù)雜度如下:

        0.993

        (6)

        sim(U5,U2)=0.974

        (7)

        sim(U5,U3)=0.947

        (8)

        sim(U5,U4)=0.914

        (9)

        r52=[sim(U5,U1)r12+sim(U5,U2)r22+sim(U5,U3)r32+sim(U5,U4)r42]/[sim(U5,U1)+sim(U5,U2)+sim(U5,U3)+

        sim(U5,U4)]=8.43

        (10)

        2 推薦系統(tǒng)評價準(zhǔn)則

        在協(xié)同過濾算法中,不論是采用基于哪一種推薦算法用于用戶估計商品的評分,或者是用于對用戶推薦一個商品的列表,都需要對估計的評分和推薦的列表進(jìn)行評價,檢驗實際評分值和估計評分值之間的誤差。誤差越小,說明評分估計越準(zhǔn)確,則實際推薦商品越準(zhǔn)確。文獻(xiàn)[14]對現(xiàn)有的推薦系統(tǒng)評價指標(biāo)進(jìn)行了系統(tǒng)回顧,總結(jié)了推薦系統(tǒng)評價指標(biāo)的最新研究進(jìn)展,從準(zhǔn)確度、多樣性、新穎性及覆蓋率等方面進(jìn)行多角度闡述,并對各自的優(yōu)缺點(diǎn)以及適用環(huán)境進(jìn)行了深入分析。特別討論了基于排序加權(quán)的指標(biāo),強(qiáng)調(diào)了推薦列表中商品排序?qū)ν扑]評價的影響。一般地,對于用戶對商品評分結(jié)果的檢驗可用平均絕對誤差(MAE)或均方根誤差(RMSE)評估評分的誤差程度。

        2.1 平均絕對誤差

        MAE[14]用于度量用戶估計評分和真實值之間的誤差,其表達(dá)式為:

        (11)

        2.2 均方根誤差

        表達(dá)式為:

        (12)

        其中,U和I分別為用戶集合和商品集合;pij為真實值;rij為估計評分值。

        3 改進(jìn)型的基于用戶推薦算法

        傳統(tǒng)的基于用戶推薦算法中,只是根據(jù)用戶對商品的評分來估計對其他商品的評分以及將評分高的商品推薦給用戶,單一的評分尺度往往無法挖掘用戶深層次的需求。同時考慮到用戶因生活背景、消費(fèi)習(xí)慣等各種因素的不同,帶來評分差異的不同。在有些情況下,由于這種評分差異巨大使得在使用余弦相似度計算用戶間的相似度時,出現(xiàn)了極大的偏差[15]。例如用戶U1、U2、U3對4種樣品進(jìn)行評分,見表2。

        表2 不同用戶對于不同商品的差異評分

        根據(jù)計算可知,用戶U1和用戶U2的相似度為1,明顯大于U1和U3的相似度。出現(xiàn)這種相似度計算結(jié)果偏差極大的原因,一方面是不同用戶自身的評價差異性大;另一方面是余弦相似度只是根據(jù)不同用戶的共同評分商品計算的,沒有考慮到所選商品對不同用戶的影響,也就是說,所選參與計算復(fù)雜度的商品有可能偏向用戶U2,U1和U3雖然參與評分,但不一定真正感興趣。另外也有可能用戶U1和U3相對于用戶U2來說,更加理性,評分更加嚴(yán)格,也就是說不同用戶的評分體系有可能不一致。

        根據(jù)這種情況,從相似度本身出發(fā),提出一種融合型的相似度計算公式,它由兩部分組成。

        3.1 余弦相似度修正型參數(shù)α

        余弦相似度修正型參數(shù)α主要是針對用戶的評價體系不同而造成相似度計算偏差大的問題。其修正后的相似度表達(dá)式為:

        (13)

        (14)

        其中,s為用戶u、v的共同評價商品的集合;|S|為用戶u、v的共同評價商品數(shù)。該修正型參數(shù)α與不同用戶對相同商品評分的差異性呈負(fù)相關(guān),當(dāng)用戶評分差異性大時,α值偏??;反之,α值偏大。

        3.2 用戶特征屬性向量

        改進(jìn)后的余弦相似度表達(dá)式為:

        (15)

        其中,T為特征屬性的集合。

        根據(jù)上述提出的兩種改進(jìn)型余弦相似度計算方法,提出一種融合型的余弦相似度計算方法,即:

        sim(x,y)=γ*simα(x,y)+(1-γ)simβ(x,y)

        (16)

        其中,γ是一種平衡參數(shù),可以看作是一種權(quán)重因子,取值為[0,1]。

        4 實驗仿真

        在TipDM-HB平臺進(jìn)行視頻網(wǎng)站的電影推薦建模仿真步驟如下:

        (1)導(dǎo)入經(jīng)過簡單預(yù)處理的csv數(shù)據(jù),部分?jǐn)?shù)據(jù)見表3;

        (2)構(gòu)建用戶-商品矩陣,分別根據(jù)余弦相似度公式和融合型的余弦相似度公式計算商品相似度;

        (3)根據(jù)用戶相似度和用戶-商品矩陣,使用式4估算測試用戶對不同商品的評分(步驟2和步驟2被封裝成協(xié)同過濾算法建模平臺系統(tǒng)組件)以及將評分高的電影推薦給用戶;

        (4)部分評分和推薦結(jié)果見表4,分析電影推薦結(jié)果。

        表3 導(dǎo)入的部分用戶電影評價數(shù)據(jù)

        表4 控制臺輸出的對部分用戶推薦結(jié)果

        根據(jù)表4的推薦結(jié)果分析,用戶12、用戶74和用戶199所推薦電影的評分都高于7分,這樣的推薦結(jié)果是有意義的,會產(chǎn)生較好的用戶體驗。改進(jìn)型的基于用戶協(xié)同過濾算法有效解決了由于新項目冷啟動導(dǎo)致的用戶推薦不準(zhǔn)確問題,提高了推薦的精準(zhǔn)度,進(jìn)而影響平臺的受歡迎程度。

        由MAE誤差曲線(見圖2)可知,對比傳統(tǒng)的基于用戶的協(xié)同過濾算法和改進(jìn)型的基于用戶的協(xié)同過濾算法的平均絕對誤差,在相同的用戶鄰居個數(shù)的條件下,改進(jìn)型的協(xié)同過濾算法的MAE明顯小于傳統(tǒng)的基于用戶的協(xié)同過濾算法的MAE。

        圖2 改進(jìn)前和改進(jìn)后的MAE誤差曲線

        5 結(jié)束語

        由于傳統(tǒng)的余弦復(fù)雜度計算公式只是從商品評分本身出發(fā),沒有考慮到用戶的評價體系不同和用戶自身的特征屬性對商品評分的影響,因此在計算用戶相似度時出現(xiàn)了極大的偏差。文中提出了一種改進(jìn)型的協(xié)同過濾算法。第一,提出了一個余弦相似度修正參數(shù)α,通過該參數(shù)修正后,在計算評分差異大的用戶之間相似度時,能夠有比較好的修正作用;第二,提出了用戶特征屬性向量,該向量能夠考慮到用戶自身的特征屬性,避免在計算相似度時出現(xiàn)較大偏差。通過上述的融合性相似度計算公式,能夠解決相似度計算偏大過大的問題。

        根據(jù)TipDM-HB平臺的仿真數(shù)據(jù)來看,算法能夠根據(jù)歷史的電影評分估計出某用戶未評分電影的得分,同時推送給用戶評分比較高的電影。根據(jù)實驗的推薦結(jié)果和MAE曲線可知,改進(jìn)型的協(xié)同過濾算法的推薦性能有了一定的提升。

        盡管該算法改善了傳統(tǒng)的基于用戶的協(xié)同過濾算法中出現(xiàn)的余弦相似度計算偏差的問題,但是也存在以下問題:第一,引入的用戶特征向量帶來了一定的計算復(fù)雜度;第二,修正參數(shù)α和用戶特征向量能否進(jìn)行擴(kuò)展,用于改善皮爾森相似度計算方法。另外,根據(jù)對待計算數(shù)據(jù)的觀察,發(fā)現(xiàn)有些數(shù)據(jù)預(yù)處理不到位,簡單的預(yù)處理只是將數(shù)據(jù)格式進(jìn)行調(diào)整,并沒有對有些缺乏主要字段的數(shù)據(jù)進(jìn)行舍棄。同時考慮到數(shù)據(jù)的復(fù)雜度,可以將數(shù)據(jù)分為合理評分記錄和不合理評分記錄,前者使用傳統(tǒng)的相似度進(jìn)行計算,后者使用改進(jìn)型的相似度進(jìn)行計算,以有效提升數(shù)據(jù)復(fù)雜度。因此,該算法有待進(jìn)一步完善。

        猜你喜歡
        用戶評價
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評價再評價
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        基于Moodle的學(xué)習(xí)評價
        Camera360:拍出5億用戶
        100萬用戶
        如何獲取一億海外用戶
        關(guān)于項目后評價中“專項”后評價的探討
        人妻少妇精品视频专区vr| 在线观看国产三级av| 亚洲素人日韩av中文字幕| 久久女人精品天堂av影院麻| 51看片免费视频在观看| 人妻中文字幕乱人伦在线| 丰满岳妇乱一区二区三区| 好爽…又高潮了毛片免费看 | 无码成人aaaaa毛片| 欧洲亚洲第一区久久久| 国产一区二区三区不卡在线播放| 精品国产午夜肉伦伦影院| 大肉大捧一进一出视频出来呀| 99国产超薄丝袜足j在线播放| 午夜少妇高潮免费视频| 国产又黄又湿又爽的免费视频| 亚洲国产精品久久艾草| 国产一线二线三线女| 日韩在线不卡一区在线观看| 亚洲蜜桃视频在线观看| 白浆国产精品一区二区| 欧美极品jizzhd欧美| 亚州AV无码乱码精品国产| 亚洲女同性恋激情网站| 深夜放纵内射少妇| 国产麻传媒精品国产av| 伊人网综合| 精品中文字幕久久久人妻| 婷婷五月六月激情综合色中文字幕| 成年无码aⅴ片在线观看| 国产亚洲视频在线观看播放| 北条麻妃在线中文字幕| 亚洲av日韩av在线观看| 无码日韩人妻AV一区免费| 国产久久久自拍视频在线观看| 色欲av伊人久久大香线蕉影院| 人妻av一区二区三区精品| 亚洲av影片一区二区三区 | 粉嫩少妇内射浓精videos| 少妇被搞高潮在线免费观看| 免费的日本一区二区三区视频|