亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶聯(lián)合相似度的推薦算法①

        2018-05-17 06:47:12朱振國(guó)劉民康趙凱旋
        關(guān)鍵詞:海明文檔協(xié)同

        朱振國(guó),劉民康,趙凱旋

        (重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)

        1 概述

        信息技術(shù)的迅猛發(fā)展使我們進(jìn)入了大數(shù)據(jù)時(shí)代,用戶發(fā)生的各種行為都伴隨著對(duì)應(yīng)數(shù)據(jù)的產(chǎn)生,如用戶在購(gòu)物網(wǎng)站中的購(gòu)買(mǎi)記錄和評(píng)論、電影評(píng)分網(wǎng)站的評(píng)分信息等.數(shù)據(jù)井噴式的增長(zhǎng)和累積造成嚴(yán)重的信息過(guò)載,個(gè)性化推薦[1]作為處理應(yīng)對(duì)這些問(wèn)題的工具應(yīng)運(yùn)而生.

        協(xié)同過(guò)濾推薦算法是在個(gè)性化推薦領(lǐng)域獲得最為廣泛使用的算法之一,其主要功能是預(yù)測(cè)和推薦[2].算法通過(guò)對(duì)用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好,基于不同的偏好對(duì)用戶進(jìn)行群組劃分并推薦品味相似的項(xiàng)目.協(xié)同過(guò)濾推薦算法主要分為兩類(lèi),分別是基于用戶的協(xié)同過(guò)濾推薦算法(user-based collaborative filtering)和基于項(xiàng)目的協(xié)同過(guò)濾推薦算法(item-based collaborative filtering)[3,4].其核心是依據(jù)用戶歷史評(píng)同用戶對(duì)項(xiàng)目屬性的偏好值通過(guò)LDA (Latent Dirichlet分?jǐn)?shù)據(jù)計(jì)算用戶之間或項(xiàng)目之間的相似度,進(jìn)而鎖定Allocation)模型求得,所得結(jié)果使用余弦定理進(jìn)行相近鄰范圍,對(duì)目標(biāo)用戶未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè),將預(yù)測(cè)值最高的前N個(gè)項(xiàng)目推薦給目標(biāo)用戶.但是隨著用戶數(shù)量和項(xiàng)目數(shù)量的增加,加劇了用戶-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)的稀疏性.傳統(tǒng)推薦算法面對(duì)這一問(wèn)題時(shí),相似度計(jì)算準(zhǔn)確性下降,難以保證良好的推薦質(zhì)量.

        近年來(lái)為解決傳統(tǒng)協(xié)同過(guò)濾推薦算法面臨的困境,學(xué)者們提出了不同的新方法嘗試在推薦算法中融合.如陳伶紅等[5]提出使用在信息檢索和數(shù)據(jù)挖掘中常用的加權(quán)技術(shù) TF-IDF(Term Frequency-Inverse Document Frequency)和信息熵得到用戶對(duì)項(xiàng)目屬性的偏好模型,并以此為基礎(chǔ)進(jìn)行用戶聚類(lèi)、相似度計(jì)算和最近鄰查詢,進(jìn)而對(duì)用戶未評(píng)價(jià)的項(xiàng)目預(yù)測(cè)評(píng)分,給出推薦;Cheng-kang Hsieh等[6]提出使用度量學(xué)習(xí)結(jié)合協(xié)同過(guò)濾提升推薦結(jié)果,通過(guò)度量學(xué)習(xí)得到候選集項(xiàng)目與目標(biāo)用戶的距離,令用戶偏好度低的項(xiàng)目遠(yuǎn)離用戶,反之則靠近用戶,將稀疏數(shù)據(jù)的影響降到了較小的程度; 于波等[7]提出了一種結(jié)合項(xiàng)目屬性的混合推薦算法,通過(guò)將項(xiàng)目之間相似度的計(jì)算與傳統(tǒng)協(xié)同過(guò)濾推薦算法通過(guò)動(dòng)態(tài)加權(quán)的方式相結(jié)合,用來(lái)解決數(shù)據(jù)的稀疏性問(wèn)題.上述提出的算法雖然緩解了稀疏數(shù)據(jù)對(duì)相似度計(jì)算結(jié)果準(zhǔn)確性的影響,但在計(jì)算過(guò)程中卻并未提出對(duì)稀疏數(shù)據(jù)的有效處理方法,其仍是相似度計(jì)算的直接數(shù)據(jù)來(lái)源.

        用戶聯(lián)合相似度的計(jì)算是對(duì)用戶之間相似度計(jì)算方法的一種提升.它在用戶個(gè)人歷史行為相似性計(jì)算分析的基礎(chǔ)上增加了對(duì)用戶個(gè)人信息相似性的計(jì)算,并將兩部分的計(jì)算值進(jìn)行線性組合作為最終的相似度計(jì)算結(jié)果.用戶聯(lián)合相似度對(duì)原有用戶相似度的計(jì)算范圍進(jìn)行了擴(kuò)充,用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)不具有稀疏性,因此相似度計(jì)算結(jié)果的準(zhǔn)確性得到了提升,而在用戶行為不足的使用情境中,也能對(duì)冷啟動(dòng)問(wèn)題起到一定的緩解作用.用戶聯(lián)合相似度提供了用戶之間相似度更多維度和更全面、準(zhǔn)確的計(jì)算方式,因此本文在用戶之間相似度的計(jì)算方式上使用了用戶聯(lián)合相似度.

        在使用用戶聯(lián)合相似度計(jì)算用戶相似度的基礎(chǔ)上,本文提出了一種基于用戶聯(lián)合相似度的推薦算法.用戶聯(lián)合相似度將用戶之間的相似度分成兩個(gè)部分計(jì)算.一是不同用戶對(duì)項(xiàng)目屬性偏好分布的相似程度; 二是用戶之間人口統(tǒng)計(jì)學(xué)信息的相似程度,最終線性組合兩部分的計(jì)算結(jié)果作為用戶之間的聯(lián)合相似度.不似度的計(jì)算; 不同用戶的人口統(tǒng)計(jì)學(xué)信息的相似度使用海明距離度量信息的差異值,所得結(jié)果使用反比例函數(shù)進(jìn)行相似度的計(jì)算.本文提出的聯(lián)合相似度避免了對(duì)用戶-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)的直接使用,降低了稀疏數(shù)據(jù)對(duì)相似度計(jì)算結(jié)果準(zhǔn)確性的影響.

        2 理論基礎(chǔ)

        2.1 傳統(tǒng)協(xié)同過(guò)濾推薦相關(guān)理論

        協(xié)同過(guò)濾推薦方法的主要思想是利用已有用戶群過(guò)去的行為或意見(jiàn)預(yù)測(cè)當(dāng)前用戶最可能喜歡或感興趣的項(xiàng)目.通過(guò)對(duì)用戶-項(xiàng)目評(píng)分矩陣的處理來(lái)預(yù)測(cè)用戶的喜好.

        在基于用戶的協(xié)同過(guò)濾推薦中,相似度計(jì)算通常使用皮爾遜系數(shù)計(jì)算.ri, j表示用戶的評(píng)分項(xiàng),i∈1,…,n,j∈1,…,m.p={p1,p2,…,pm}代表項(xiàng)目集表示用戶a、b平均評(píng)分,a、b間相似度可通過(guò)式(1)計(jì)算:

        用戶a對(duì)項(xiàng)目p的預(yù)測(cè)評(píng)分則可以通過(guò)式(2)求得(N代表a與相似程度高的近鄰集合):

        在基于項(xiàng)目的協(xié)同過(guò)濾推薦中,算法的主要思想是利用項(xiàng)目之間的相似度來(lái)計(jì)算預(yù)測(cè)值.U={u1,u2,…,um}代表對(duì)項(xiàng)目作出評(píng)價(jià)的用戶集,表示每個(gè)用戶的平均打分,項(xiàng)目a、b的相似度則可以使用式(3)改進(jìn)的余弦相似度計(jì)算如下:

        確定項(xiàng)目間的相似度之后,用戶u對(duì)項(xiàng)目p的評(píng)分預(yù)測(cè)則按照式(4)計(jì)算(rateditem(u)表示用戶u評(píng)價(jià)過(guò)的項(xiàng)目集合):

        兩種傳統(tǒng)協(xié)同過(guò)濾推薦算法雖然計(jì)算復(fù)雜性較低,當(dāng)用戶或項(xiàng)目數(shù)量較多時(shí),其評(píng)分矩陣十分稀疏,此時(shí),傳統(tǒng)方法推薦效果不佳.

        2.2 LDA模型相關(guān)理論

        LDA是David Blei等人[8]于2003年提出的基于概率模型的主題模型算法,它是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中的潛在隱藏的主題信息[9].LDA的圖模型如圖1所示.

        圖1 LDA 概率圖模型表示

        這是一個(gè)三層的貝葉斯概率模型.圖中的陰影圓和非陰影圓分別表示可觀測(cè)變量和潛在變量,箭頭表示兩變量間的條件依賴,方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角.M代表語(yǔ)料中文檔的數(shù)量,K代表設(shè)置的主題數(shù),N代表訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)的所有詞,Z代表隱藏的主題.θ是語(yǔ)料庫(kù)中所有文檔在各個(gè)主題上的概率分布矩陣,代表第m篇文檔的主題分布;φ是所有主題在其對(duì)應(yīng)詞上的概率分布矩陣,代表編號(hào)為k的主題之上的詞分布.α代表每篇文檔主題分布的先驗(yàn)分布Dirichlet分布的參數(shù),β代表每個(gè)主題對(duì)應(yīng)詞分布的先驗(yàn)分布Dirichlet分布的參數(shù)(α、β也稱(chēng)為超參數(shù)),w是可觀測(cè)詞[8].

        LDA作為一種生成模型,以分詞后的文檔集(通常為一篇文檔一行)和主題數(shù)K及超參數(shù)α、β作為輸入,其生成過(guò)程的核心可通過(guò)式(5)表示:

        矩陣表示形式如圖2.

        圖2 LDA 生成過(guò)程的矩陣表示

        LDA模型的標(biāo)準(zhǔn)生成過(guò)程可描述如下:

        1)從狄利克雷分布Dir(α)中抽樣選擇為文檔編號(hào)(文檔總數(shù)為M),代表這篇文檔下主題的分布;

        2)從狄利克雷分布Dir(β)中抽樣選擇為主題編號(hào)(主題總數(shù)為K),代表每個(gè)主題下詞的分布;

        3)對(duì)于每個(gè)單詞的位置wi, j,j∈(1,Ni),i∈(1,M);

        4)從多項(xiàng)式分布Multinomial(θi)中抽樣選擇一個(gè)主題zi, j;

        5)從多項(xiàng)式分布Multinomial(φzi, j)中抽樣選擇一個(gè)詞wi, j.

        3 用戶的聯(lián)合相似度及推薦過(guò)程

        傳統(tǒng)的協(xié)同過(guò)濾算法雖已獲得廣泛應(yīng)用,但其推薦的準(zhǔn)確性受限于相對(duì)稠密的數(shù)據(jù)[10].為減緩稀疏數(shù)據(jù)對(duì)相似度計(jì)算產(chǎn)生影響,本文提出了基于用戶聯(lián)合相似度的方法.用戶的相似度從用戶對(duì)影片屬性偏好和用戶人口統(tǒng)計(jì)學(xué)信息兩個(gè)方面計(jì)算.

        3.1 用戶對(duì)影片屬性偏好的相似度

        在用戶對(duì)影片屬性偏好的計(jì)算上,前提是數(shù)據(jù)的篩選和整合.數(shù)據(jù)集中包括用戶對(duì)電影的評(píng)分,評(píng)分區(qū)間為1–5,分值的大小與用戶對(duì)電影的喜好程度成正比.同時(shí)電影是一種多屬性項(xiàng)目,因而被評(píng)分過(guò)的電影均有其屬性描述數(shù)據(jù).如表1所示.

        表1 項(xiàng)目屬性描述

        每個(gè)項(xiàng)目對(duì)應(yīng)的屬性標(biāo)注fnn均有其對(duì)應(yīng)值,若對(duì)應(yīng)值為1,則表明項(xiàng)目具有該屬性,否則沒(méi)有.

        用戶的評(píng)分?jǐn)?shù)據(jù)使用矩陣進(jìn)行存儲(chǔ),得到用戶-項(xiàng)目評(píng)分矩陣,如表2所示.依照評(píng)分矩陣計(jì)算每個(gè)用戶的打分平均值.為得到用戶對(duì)于項(xiàng)目各個(gè)屬性的偏好程度,使用用戶的打分平均值對(duì)被評(píng)價(jià)項(xiàng)目篩選.由于評(píng)分大小與用戶對(duì)于影片的喜好程度成正比,所以使用每個(gè)用戶的打分平均值作為依據(jù),將評(píng)分項(xiàng)目中高于均值的保留,并結(jié)合影片屬性描述數(shù)據(jù),形成每個(gè)用戶對(duì)應(yīng)的高分評(píng)價(jià)電影列表.如U1形成的高分評(píng)價(jià)電影列表如表3所示.

        表2 用戶-項(xiàng)目評(píng)分矩陣

        表3 用戶 U1 高分評(píng)價(jià)電影列表

        按照用戶ID,結(jié)合每個(gè)ID下得到的高分電影評(píng)價(jià)列表,對(duì)每個(gè)用戶對(duì)應(yīng)的所有高分評(píng)價(jià)項(xiàng)目中各個(gè)屬性的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì).如對(duì)于U1,其所對(duì)應(yīng)的高分評(píng)價(jià)項(xiàng)目包括I1、I3、I4等,每部電影有其不同的屬性描述,對(duì)于每個(gè)屬性我們可以統(tǒng)計(jì)其在這些高分影片中出現(xiàn)的總次數(shù).如對(duì)于不同用戶來(lái)說(shuō),根據(jù)其高分評(píng)價(jià)項(xiàng)目可以得到如表4統(tǒng)計(jì)信息.

        表4 用戶偏好項(xiàng)目屬性出現(xiàn)次數(shù)統(tǒng)計(jì)

        在數(shù)據(jù)集中,電影對(duì)應(yīng)屬性共有18種,如表5所示.

        表5 電影屬性描述詞

        每個(gè)屬性詞在以用戶ID為單位的偏好屬性統(tǒng)計(jì)中對(duì)應(yīng)有其出現(xiàn)頻數(shù),如表3所示,將屬性編號(hào)使用對(duì)應(yīng)的屬性描述詞替換,結(jié)合其出現(xiàn)頻數(shù)生成每個(gè)屬性詞對(duì)應(yīng)的長(zhǎng)詞語(yǔ)串,組合每個(gè)屬性詞的詞語(yǔ)串得到一個(gè)用戶的偏好文檔,如圖3(a)所示,圖3(b)為全部用戶的屬性偏好文檔集合.

        圖3 屬性偏好文檔及文檔主題分布圖示

        所有用戶屬性的偏好文檔看做待處理文檔集合,將該集合同給定的先驗(yàn)超參數(shù)α、β和主題數(shù)作為L(zhǎng)DA模型的輸入(影片屬性分18個(gè)類(lèi),主題數(shù)設(shè)為18),未知參數(shù)θ、φ的估計(jì)使用收縮吉布斯采樣求得.得到未知參數(shù)的估計(jì)后,進(jìn)而得到文檔-主題概率分布矩陣(用戶在18個(gè)屬性上的偏好值)和主題-詞語(yǔ)概率分布矩陣,我們對(duì)文檔-主題概率分布矩陣做進(jìn)一步的用戶屬性偏好相似度計(jì)算.圖3(c)代表每個(gè)文檔在各個(gè)主題上的偏好值.

        將每一位用戶得到的主題偏好結(jié)果作為一個(gè)向量,即矩陣μ中的一行.使用余弦定理對(duì)不同用戶的屬性偏好情況進(jìn)行衡量,用戶a、b間屬性偏好的相似度simpre(a,b)通過(guò)式 (6)計(jì)算:

        3.2 用戶間人口統(tǒng)計(jì)學(xué)信息的相似度

        數(shù)據(jù)中對(duì)于每個(gè)用戶的人口統(tǒng)計(jì)學(xué)信息從年齡、性別、職業(yè)三個(gè)維度來(lái)描述.年齡范圍: 7–73,職業(yè)共21種,性別分為男女兩類(lèi).用戶個(gè)人信息和職業(yè)分類(lèi)情況如表6、表7所示.

        表6 用戶人口統(tǒng)計(jì)學(xué)信息

        表7 用戶職業(yè)信息列表

        為了計(jì)算用戶之間個(gè)人信息的相似程度,需要對(duì)這些描述數(shù)據(jù)進(jìn)行數(shù)值化處理.對(duì)于職業(yè)和年齡的處理分別按照年齡分段標(biāo)準(zhǔn)和國(guó)家職業(yè)大類(lèi)劃分標(biāo)準(zhǔn)進(jìn)行.用a代表年齡,7–73 的年齡可劃分為:a<18、18≤a≤24、25≤a≤34、35≤a≤44、45≤a≤49、50≤a≤55 和a≥56七類(lèi),以數(shù)字1–7代替; 職業(yè)大類(lèi)的劃分以國(guó)家職業(yè)分類(lèi)標(biāo)準(zhǔn)作為依據(jù),按照企事業(yè)負(fù)責(zé)人、專(zhuān)業(yè)技術(shù)人員、服務(wù)業(yè)商業(yè)、文娛從事著、教育行業(yè)、家政以及其他分為七類(lèi),使用數(shù)字1–7代替; 性別數(shù)據(jù)按照男女作為劃分,使用數(shù)字 1、0 代替.按照上述方法,每位用戶的人口統(tǒng)計(jì)學(xué)信息可以用一個(gè)三位數(shù)字的字符串來(lái)表示.如表中1–3的用戶的信息可以分別表示為:“212”、“607”、“604”.他們之間的相似程度比較則可以通過(guò)等長(zhǎng)字符串的差異程度來(lái)比較.我們使用距離度量方法中的海明距離作為工具來(lái)對(duì)字符串的差異來(lái)進(jìn)行計(jì)算.

        海明距離定義為兩個(gè)等長(zhǎng)字符串之間對(duì)應(yīng)位置的不同字符的個(gè)數(shù)[11].即一個(gè)字符串變換成另外一個(gè)字符串所需替換的字符個(gè)數(shù),如“10111”和“10010”的海明距離是2.用戶的人口統(tǒng)計(jì)學(xué)信息經(jīng)過(guò)數(shù)值化處理之后均被表示為三位數(shù)字組成的等長(zhǎng)字符串,可以使用海明距離對(duì)他們之間的差異進(jìn)行衡量,距離的值越大則相似性越小,否則相似性越大.針對(duì)數(shù)據(jù),用戶之間的海明距離的值為: 0–3.距離為 0 的時(shí)候,用戶之間的統(tǒng)計(jì)學(xué)信息相似度最高,距離為3的時(shí)候,相似性最低.我們通過(guò)式(7)對(duì)得到的海明距離進(jìn)行處理,得到個(gè)人信息相似度simfea(a,b):

        dishamming(a,b)表示用戶a,b之間的海明距離,使用冪指數(shù)n對(duì)海明距離進(jìn)行放大,冪指數(shù)取距離的最大值3.分母上的1起到如下兩個(gè)作用: 1) 為了保證海明距離為零時(shí)可求得計(jì)算結(jié)果; 2) 保證simfea(a,b)∈(0,1].海明距離為0時(shí),則表明兩個(gè)用戶的人口統(tǒng)計(jì)學(xué)信息相似度最高,分母上的1可以使個(gè)人信息相似度取到1; 海明距離為1時(shí),分母上的1可以作為對(duì)距離值的放大,避免了海明距離在非0時(shí)取到最大的相似度1.又由于dishamming(a,b)∈[1,3],且 2n和 3n都是數(shù)值上遠(yuǎn)大于1的值,因此分母上的1海明距離取值非0、1的情況下,不會(huì)對(duì)海明距離計(jì)算值過(guò)度放大,從而影響個(gè)人信息相似度計(jì)算值的準(zhǔn)確度.

        3.3 用戶聯(lián)合相似度的形成

        聯(lián)合相似度的構(gòu)成是用戶影片屬性偏好相似度和用戶人口統(tǒng)計(jì)學(xué)信息相似度的線性組合.a,b間用戶聯(lián)合相似度simcombine(a、b)可表示為:

        聯(lián)合相似度的計(jì)算使用評(píng)分?jǐn)?shù)據(jù)作為篩選依據(jù),而沒(méi)有直接參與計(jì)算,避免了其高稀疏程度對(duì)計(jì)算結(jié)果的影響,對(duì)于用戶之間的相似度計(jì)算針對(duì)性更強(qiáng)、準(zhǔn)確度更高.

        3.4 推薦過(guò)程

        計(jì)算出不同用戶對(duì)影片屬性偏好的相似程度和用戶人口統(tǒng)計(jì)學(xué)信息相似度后,結(jié)合線性組合系數(shù)λ對(duì)兩者加權(quán),所得結(jié)果即為用戶之間的聯(lián)合相似度.將相似度計(jì)算應(yīng)用到推薦算法中,形成基于用戶聯(lián)合相似度的協(xié)同過(guò)濾推薦算法.

        在求得近鄰集合和用戶間的聯(lián)合相似度之后,根據(jù)如下公式計(jì)算目標(biāo)用戶a對(duì)目標(biāo)項(xiàng)目p的預(yù)測(cè)評(píng)分:

        其中表示用戶a對(duì)已評(píng)論項(xiàng)目的平均評(píng)分,為用戶b對(duì)已評(píng)論項(xiàng)目的平均評(píng)分,N表示近鄰集合,rb,p表示b對(duì)p的評(píng)分值,pred(a,p)表示a對(duì)p的預(yù)測(cè)評(píng)分值,simcombine(a,b)表示a和其近鄰b的用戶聯(lián)合相似度.

        得到目標(biāo)用戶對(duì)未選擇項(xiàng)目的評(píng)分后,根據(jù)評(píng)分降序排列,將評(píng)分最高的前n個(gè)項(xiàng)目推薦給該目標(biāo)用戶.

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)使用數(shù)據(jù)集

        本文實(shí)驗(yàn)使用的數(shù)據(jù)集來(lái)自美國(guó)明尼蘇達(dá)州立大學(xué)GroupLens研究小組提供的MovieLens (ml-100k).該數(shù)據(jù)集中包含了943 位用戶對(duì)1682部電影的10萬(wàn)條評(píng)分,每位用戶評(píng)分?jǐn)?shù)不少于 20 條,評(píng)分范圍: 1–5.數(shù)據(jù)集的原始用戶-項(xiàng)目評(píng)分矩陣的稀疏度為93.7﹪[12].實(shí)驗(yàn)過(guò)程中將數(shù)據(jù)集按照4:1的比例劃分訓(xùn)練集和測(cè)試集.

        4.2 評(píng)價(jià)指標(biāo)

        評(píng)估指標(biāo)是算法的性能優(yōu)劣的體現(xiàn),為對(duì)基于用戶聯(lián)合相似度推薦算法的準(zhǔn)確度進(jìn)行評(píng)估,采用廣泛使用的平均絕對(duì)偏差 (Mean Absolute Error,MAE)[13]和均方根誤差 (Root Mean Square Error,RMSE)[14]作為實(shí)驗(yàn)結(jié)果的評(píng)估標(biāo)準(zhǔn).

        其中pi表示預(yù)測(cè)評(píng)分,qi表示實(shí)際評(píng)分.

        4.3 實(shí)驗(yàn)結(jié)果

        4.3.1 聯(lián)合相似度的線性組合系數(shù)

        對(duì)基于用戶聯(lián)合相似度的推薦算法,通過(guò)固定不同規(guī)模的鄰域大小確定使MAE最小的參數(shù)λ的值,不同規(guī)模的近鄰在MAE最小時(shí)對(duì)應(yīng)不同的λ.我們?cè)跍y(cè)試集上選擇30–150的近鄰規(guī)模進(jìn)行實(shí)驗(yàn),以30作為區(qū)間間隔確定參數(shù)λ,實(shí)驗(yàn)結(jié)果如圖4所示.它描述了算法在不同近鄰值下,MAE最小時(shí)λ的取值.根據(jù)圖示可以看出五種不同的近鄰規(guī)模分別在0.8、0.9、0.9、0.7、0.7上取得MAE的最小值,我們計(jì)算這五個(gè)值的平均數(shù)作為聯(lián)合相似度的組合系數(shù),求得該值為0.8.

        圖4 用戶聯(lián)合相似度中λ的取值確定

        4.3.2 基于用戶聯(lián)合相似度的推薦

        確定了λ的值之后,引入傳統(tǒng)的基于用戶的協(xié)同過(guò)濾算法與本文基于用戶聯(lián)合相似度的算法在測(cè)試集上的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比.通過(guò)3種相似度度量方法作為比較,3種相似度度量方法包括余弦?jiàn)A角相似度、皮爾遜相關(guān)系數(shù)和杰卡德系數(shù).目標(biāo)用戶最近鄰個(gè)數(shù)分別為 (10,20,30,40,50,60,70),對(duì)應(yīng)MAE值和RMSE值如圖5和圖6所示.

        4.4 實(shí)驗(yàn)分析

        從圖示的實(shí)驗(yàn)結(jié)果可以看出本文提出的基于用戶聯(lián)合相似度的推薦算法在各個(gè)近鄰規(guī)模上的MAE值和RMSE值相比使用其他方法計(jì)算相似度的傳統(tǒng)推薦算法都有了不同程度的下降,驗(yàn)證了提出算法的有效性和推薦準(zhǔn)確度的提升.

        5 結(jié)束語(yǔ)

        為了在高度稀疏數(shù)據(jù)的前提下提升推薦算法的推薦質(zhì)量,本文提出了基于用戶聯(lián)合相似度的推薦算法.聯(lián)合相似度將用戶相似度的計(jì)算分為用戶對(duì)影片屬性偏好分布的相似度和用戶人口統(tǒng)計(jì)學(xué)信息相似度兩部分,使用λ作為兩部分相似度的線性組合系數(shù),得到最終相似度計(jì)算值.用戶對(duì)影片屬性的偏好分布使用LDA模型對(duì)用戶屬性偏好文檔集處理得到,接著使用余弦定理對(duì)不同用戶分布的相似程度進(jìn)行評(píng)估; 用戶人口統(tǒng)計(jì)學(xué)信息相似度通過(guò)數(shù)值化用戶的個(gè)人信息,求得不同用戶間信息的海明距離計(jì)算相似度.用戶聯(lián)合相似度相比傳統(tǒng)基于用戶的推薦算法得到了更加準(zhǔn)確用戶近鄰范圍.最后,將算法在 MovieLens (ml-100k)數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn).結(jié)果表明,本文提出的基于用戶聯(lián)合相似度的推薦算法比傳統(tǒng)基于用戶的協(xié)同過(guò)濾算法推薦準(zhǔn)確率高,在推薦效果上有所提升.

        參考文獻(xiàn)

        1Ricci F,Rokach L,Shapira B,等.推薦系統(tǒng): 技術(shù)、評(píng)估及高效算法.李艷民,胡聰,吳賓,等譯.北京: 機(jī)械工業(yè)出版社,2015.

        2Jannach D,Zanker M,Felfernig A,等.推薦系統(tǒng).蔣凡,譯.北京: 人民郵電出版社,2013.

        3葉柏龍,徐靜靜,嚴(yán)筍.基于評(píng)分和項(xiàng)目特征的群組推薦方法.計(jì)算機(jī)應(yīng)用研究,2017,34(4): 1032–1035,1046.

        4榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過(guò)濾推薦算法.通信學(xué)報(bào),2014,35(2): 16–24.

        5陳伶紅,徐華中,李鮑,等.一種基于用戶對(duì)項(xiàng)目屬性偏好的推薦算法.武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2016,38(5): 616–620.

        6Hsieh CK,Yang LQ,Cui Y,et al.Collaborative metric learning.Proceedings of the 26th International Conference on World Wide Web.Perth,Australia.2017.193–201.

        7于波,陳庚午,王愛(ài)玲,等.一種結(jié)合項(xiàng)目屬性的混合推薦算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(1): 147–151.[doi: 10.15888/j.cnki.csa.005490]

        8Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.Journal of Machine Learning Research,2003,(3): 993–1022.

        9馬晨.LDA 漫游指南.北京: 人民郵電出版社,2015.

        10代金龍.協(xié)同過(guò)濾算法中數(shù)據(jù)稀疏性問(wèn)題研究[碩士學(xué)位論文].重慶: 重慶大學(xué),2013.

        11李青,尹四清.結(jié)合用戶偏好和相似性的網(wǎng)絡(luò)結(jié)構(gòu)推薦算法.計(jì)算機(jī)工程與設(shè)計(jì),2016,37(3): 814–818.

        12Maxwell Harper F,Konstan JA.The movielens datasets:History and context.ACM Transactions on Interactive Intelligent Systems (TiiS)-Regular Articles and Special Issue on New Directions in Eye Gaze for Interactive Intelligent Systems (Part 1 of 2),2016,5(4): 19.

        13李偉霖,王成良,文俊浩.基于評(píng)論與評(píng)分的協(xié)同過(guò)濾算法.計(jì)算機(jī)應(yīng)用研究,2017,34(2): 361–364,412.

        14呼亞杰.一種基于類(lèi)別偏好協(xié)同過(guò)濾推薦算法的實(shí)現(xiàn)與優(yōu)化[碩士學(xué)位論文].蘭州: 蘭州大學(xué),2016.

        猜你喜歡
        海明文檔協(xié)同
        怎樣當(dāng)好講解員
        有人一聲不吭向你扔了個(gè)文檔
        蜀道難:車(chē)與路的協(xié)同進(jìn)化
        “四化”協(xié)同才有出路
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        男孩向前沖
        故事林(2015年5期)2015-05-14 17:30:36
        男孩向前沖
        故事林(2015年3期)2015-05-14 17:30:35
        協(xié)同進(jìn)化
        亚洲av乱码国产精品色| 99久久综合精品五月天| 久久无码高潮喷水| 久久久久亚洲AV片无码乐播 | 国产精品人成在线765| 日本一级特黄aa大片| 国产精品毛片一区二区| 亚洲一区视频在线| 亚洲精品中文字幕乱码人妻| 澳门蜜桃av成人av| 国产av无码专区亚洲av中文| 欧美va免费精品高清在线| 熟女少妇丰满一区二区| 免费一区二区高清不卡av| 日本一卡2卡3卡4卡无卡免费网站| 亚洲综合无码| 国产女人高潮的av毛片| 日本一区二区三区高清在线视频| 久久精品麻豆日日躁夜夜躁| 97色偷偷色噜噜狠狠爱网站97| av免费观看在线网站| 亚洲成在人线视av| 亚洲av中文无码乱人伦在线r▽| 日本久久精品免费播放| 亚洲成人av大片在线观看| 日本又色又爽又黄的a片18禁| 无遮无挡三级动态图| 亚洲区一区二区中文字幕| 人妻免费一区二区三区免费| 欧美性猛交xxxx乱大交3| 亚洲 日韩 在线精品| 亚洲av日韩精品一区二区| 国模冰莲极品自慰人体| 亚洲精品久久久久高潮| 精品粉嫩国产一区二区三区| 亚洲人妻调教中文字幕| 国产av无码专区亚洲av极速版| 国内精品久久久久久久亚洲| 91熟女av一区二区在线| 丰满少妇被粗大的猛烈进出视频| 久久91综合国产91久久精品|