亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于有效稠密序列提取的用戶評分?jǐn)?shù)據(jù)增強(qiáng)及二值評分轉(zhuǎn)換策略

        2021-02-24 13:03:58崔北亮周小康李樹青
        關(guān)鍵詞:二值算法用戶

        崔北亮,周小康,李樹青

        1.南京工業(yè)大學(xué)圖書館,江蘇 南京 210009

        2.南京財(cái)經(jīng)大學(xué)信息工程學(xué)院,江蘇 南京 210023

        推薦系統(tǒng)在日常生活中的應(yīng)用變得非常普遍,有學(xué)者據(jù)此斷言“我們正在離開信息時(shí)代,進(jìn)入推薦時(shí)代”[1]。目前,推薦系統(tǒng)已被廣泛應(yīng)用于人工智能[2]、電子商務(wù)[3]、數(shù)字圖書館[4]等應(yīng)用系統(tǒng)中,越來越多的網(wǎng)站和社交媒體的競爭開始逐漸轉(zhuǎn)變?yōu)閭€(gè)性化推薦服務(wù)的競爭。推薦系統(tǒng)的目的正在于基于已有的用戶興趣歷史記錄來判斷用戶未來的可能興趣點(diǎn),以便推薦給用戶尚未關(guān)注到的潛在感興趣內(nèi)容。因此,如何根據(jù)用戶的瀏覽信息或者購買情況推薦更符合用戶興趣的項(xiàng)目是推薦系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)。

        改進(jìn)推薦系統(tǒng)的算法不能完全建立在算法自身的完善上,而作為目前所有推薦系統(tǒng)算法的關(guān)鍵內(nèi)容——數(shù)據(jù)本身,卻并沒有受到人們過多的重視。這給現(xiàn)有推薦系統(tǒng)算法改進(jìn)提供了一個(gè)有益的研究思路,即如何有效選擇數(shù)據(jù),通過數(shù)據(jù)增強(qiáng)等方式來獲得更為準(zhǔn)確的用戶興趣模式的表達(dá)能力[5]。

        協(xié)同過濾是一種非常有效而且應(yīng)用廣泛的個(gè)性化推薦技術(shù)[6],它基于一個(gè)簡單的假設(shè),那就是用戶過去的興趣代表著未來的興趣。因此,通過分析已有的用戶興趣信息(這主要由用戶對項(xiàng)目的評分來體現(xiàn)),就可以對未來未知項(xiàng)目的評分做出預(yù)測。這個(gè)假設(shè)在一定程度上具有合理性,如有學(xué)者利用招聘信息網(wǎng)站上的用戶數(shù)據(jù)分析發(fā)現(xiàn),對于每個(gè)用戶,在過去14周內(nèi)平均有2/7的項(xiàng)目會被用戶在第15周再次點(diǎn)擊[7]。具體而言,協(xié)同過濾推薦方法是通過獲取和當(dāng)前用戶相似的其他用戶,來給當(dāng)前的用戶提供合適的意見或者項(xiàng)目。其優(yōu)點(diǎn)在于不需要了解項(xiàng)目的具體內(nèi)容信息,也可以為用戶推薦新的可能感興趣內(nèi)容。然而傳統(tǒng)的協(xié)同過濾算法也存在著很多的不足,比如傳統(tǒng)協(xié)同過濾算法中使用的評分是否可以有效表達(dá)用戶真實(shí)興趣并沒有得到準(zhǔn)確的驗(yàn)證,再如傳統(tǒng)協(xié)同過濾算法無法處理過于稀疏的數(shù)據(jù),此時(shí)易于產(chǎn)生相似度計(jì)算不準(zhǔn)確的問題。

        因此,這些構(gòu)成了本文研究的兩個(gè)主要關(guān)注點(diǎn):

        (1)本文探究和驗(yàn)證了如何在數(shù)據(jù)層面上獲取更為準(zhǔn)確表達(dá)用戶真實(shí)興趣的新方式。當(dāng)前大部分學(xué)者都認(rèn)為評分行為是一種非常有效的判斷用戶興趣的方式,現(xiàn)有的研究方法也大都基于這個(gè)假設(shè)。但是,用戶評價(jià)與否是否可以表征用戶的興趣,或者說相對于評分的具體數(shù)值,評分與否這種二值性(Binary)是否更有價(jià)值,這種問題也被稱為“二值視圖(Binary view)”[8]。 從用戶的動機(jī)角度來思考,用戶之所以在推薦的項(xiàng)目中有選擇地選擇部分項(xiàng)目而忽略其他項(xiàng)目,這本身就體現(xiàn)了一種用戶興趣的差異性。因此,用戶不去對項(xiàng)目進(jìn)行評價(jià)的過程本非隨機(jī)現(xiàn)象[9]?,F(xiàn)有的評分因?yàn)槎际怯脩魧ψ约合腙P(guān)注的項(xiàng)目進(jìn)行評價(jià),通常評分更易于取得較高的數(shù)值,而且還會對很多基于評分的推薦算法本身產(chǎn)生不利的影響。有效地利用這些遺漏項(xiàng)目和進(jìn)一步理解現(xiàn)有打分?jǐn)?shù)據(jù),對于改善基于評分的各種推薦方法十分必要[10]。

        (2)本文探究了如何解決數(shù)據(jù)稀疏給協(xié)同過濾方法帶來的計(jì)算有效性問題。本文重點(diǎn)研究了基于有效稠密子序列的協(xié)同過濾推薦算法有效性的計(jì)算問題,即通過在已有的用戶評分記錄中合理選擇有效稠密子序列,增加有效數(shù)據(jù)的稠密度,減少了噪聲數(shù)據(jù)的不利干擾??紤]到這種改進(jìn)會帶來數(shù)據(jù)稀疏度問題,本文通過分析項(xiàng)目的屬性特征并結(jié)合用戶的有效時(shí)間區(qū)間識別用戶的高概率參與項(xiàng)目,對數(shù)據(jù)進(jìn)行填充。同時(shí),本文還使用用戶興趣變化一致性來深入研究分析用戶評分信息與用戶是否評價(jià)來驗(yàn)證用戶需求方面的效果,據(jù)此結(jié)合第一種方法的思路,提出了一種根據(jù)用戶是否評價(jià)的二值數(shù)據(jù)來替換傳統(tǒng)具體評分?jǐn)?shù)值的數(shù)據(jù)表達(dá)方法,實(shí)驗(yàn)證明采用用戶是否評價(jià)的二值數(shù)據(jù)會取得更為優(yōu)異的實(shí)驗(yàn)結(jié)果。

        1 相關(guān)工作

        傳統(tǒng)的協(xié)同過濾算法主要包括3個(gè)重要步驟,分別為獲取數(shù)據(jù)、尋找最近鄰元素、預(yù)測推薦。在整個(gè)算法過程中,對結(jié)果準(zhǔn)確率影響最大的就是數(shù)據(jù)稀疏問題。丁少衡等[11]為解決協(xié)同過濾推薦系統(tǒng)數(shù)據(jù)稀疏帶來的問題,使用Sigmoid函數(shù)來實(shí)現(xiàn)數(shù)據(jù)稀疏狀態(tài)下用戶相似度計(jì)算中的用戶屬性和用戶評分信息平滑過渡,毛宜鈺等[12]也提出使用Sigmoid函數(shù)來處理用戶評分存在的數(shù)據(jù)稀疏性問題。錢刃等[13]提出用融合稀疏度進(jìn)行加權(quán)的協(xié)同過濾算法來解決稀疏性問題,該算法中重新定義了矩陣稀疏度計(jì)算方法,然后融合矩陣稀疏度對用戶相似度進(jìn)行加權(quán),并以此來改進(jìn)協(xié)同過濾算法。為了有效挖掘用戶興趣的變化趨勢,很多學(xué)者提出基于用戶興趣變化的協(xié)同過濾推薦算法,如于洪等[14]通過遺忘曲線來觀察用戶興趣以達(dá)到適應(yīng)用戶興趣變化的目的,賈偉洋等[15]利用用戶興趣貼近度對相似度結(jié)果進(jìn)行進(jìn)一步加權(quán)處理,得到的相似度結(jié)果中融合了用戶的興趣偏好信息。

        關(guān)于二值視圖問題,可以將用戶是否評價(jià)作為最為簡單的一種隱式信息,把用戶是否對項(xiàng)目產(chǎn)生過評分設(shè)定為一個(gè)二進(jìn)制值,據(jù)此來表示偽隱式評分(Pseudo?implicit rating)。由于用戶對于項(xiàng)目評價(jià)并非是一種隨機(jī)行為,評價(jià)行為本身就反映了一種用戶對項(xiàng)目的偏好信息[16]。即使這種信息并非很充分,但是和單純使用顯式用戶信息的方法相比,集成該隱式信息到現(xiàn)有顯式信息中可以增加推薦系統(tǒng)的預(yù)測準(zhǔn)確度[17]。

        對于不評價(jià)的項(xiàng)目既有可能是用戶不喜歡,更有可能是用戶根本沒看到,可以稱之為用戶曝光(User exposure)問題[9]。 比如不評分不能完全看成是項(xiàng)目的問題,也有可能來自于用戶的意愿,比如用戶只對特別喜歡和特別不喜歡的項(xiàng)目才去評價(jià)。在一定程度上,可以把這種用戶是否評價(jià)看成是一種隱式信息,它和評分信息具有一定的關(guān)聯(lián)性,加以有效利用可以提高傳統(tǒng)基于評分方法的推薦系統(tǒng)效果[18]。 此時(shí),評分矩陣(Ratings matrix)簡化為二值矩陣(Binary matrix)。

        對于評分矩陣中缺失項(xiàng)目的理解和考慮已經(jīng)成為一種非常有效的方法[19],比如作為隱式的負(fù)反饋來訓(xùn)練推薦系統(tǒng)[20]。還有文獻(xiàn)對遺漏數(shù)據(jù)模型的低階特征(Low rank nature)進(jìn)行研究,并推導(dǎo)出系統(tǒng)性能的底線[21]。在無法從評分直接判斷用戶的喜好時(shí),這些被經(jīng)常顯示的項(xiàng)目也被其他學(xué)者認(rèn)為應(yīng)該排在推薦列表的后面[22]。

        和這些已有的方法不同,本文所提出的方法主要在不改變現(xiàn)有原始數(shù)據(jù)的基礎(chǔ)上,通過有效的數(shù)據(jù)選擇,提取有效稠密數(shù)據(jù)子集,這也給現(xiàn)有推薦系統(tǒng)中數(shù)據(jù)稀疏問題解決提供了一種新的思路和可行性。本文從實(shí)驗(yàn)驗(yàn)證的角度,探索結(jié)合二值視圖數(shù)據(jù)在表達(dá)用戶真實(shí)興趣中的價(jià)值,并據(jù)此完成了現(xiàn)有推薦算法的改進(jìn)。同時(shí),對于推薦系統(tǒng)應(yīng)用中的相似度問題,已有學(xué)者通過利用人口統(tǒng)計(jì)學(xué)信息實(shí)現(xiàn)用戶相似度的測度[23],還有學(xué)者利用模糊聚類方法實(shí)現(xiàn)項(xiàng)目聚類,得到潛在相似關(guān)系集合并分區(qū),最終以分區(qū)為單元實(shí)現(xiàn)相似度的并行計(jì)算[24]。本文根據(jù)二值評分?jǐn)?shù)據(jù)的特點(diǎn),探索基于二值評分?jǐn)?shù)據(jù)的相似度計(jì)算及項(xiàng)目評分預(yù)測方法。

        2 二值評分轉(zhuǎn)換策略設(shè)計(jì)及應(yīng)用

        2.1 用戶評分?jǐn)?shù)據(jù)的有效稠密序列

        通過觀察傳統(tǒng)的協(xié)同過濾算法,可以發(fā)現(xiàn)在用戶評分矩陣中,每個(gè)用戶都存在大部分未參與項(xiàng)目,這會導(dǎo)致數(shù)據(jù)變得異常稀疏,為了緩解這些難以避免的問題,本文提出利用有效稠密序列的方法進(jìn)行改進(jìn)。

        步驟分為兩步:第一步是對用戶的評分序列進(jìn)行篩選,過濾序列中用戶參與的不感興趣項(xiàng),并以用戶存在潛在興趣且未參與的項(xiàng)目對數(shù)據(jù)序列進(jìn)行填充,形成新的用戶評分子序列,據(jù)此緩解數(shù)據(jù)稀疏問題;第二步是根據(jù)評分發(fā)生的有效時(shí)間區(qū)間,再次對用戶評分序列進(jìn)行子序列提取,用二值數(shù)據(jù)進(jìn)行轉(zhuǎn)換表示,并提出改進(jìn)后的用戶相似度方法。

        具體說明如下:

        (1)用戶評分子序列的提取和填充

        根據(jù)每個(gè)用戶評分項(xiàng)目獲取相關(guān)的項(xiàng)目屬性特征,并統(tǒng)計(jì)這些特征的分布情況,可以定義出現(xiàn)次數(shù)最少的特征為低興趣類,出現(xiàn)次數(shù)最多的則為高興趣類。本文認(rèn)為擁有低興趣類特征且沒有高興趣類特征的項(xiàng)目為不感興趣項(xiàng),例如某用戶對觀看的大量動作類電影和少量恐怖類電影都給出了低評分,雖然評分低,但是觀看數(shù)量則可以說明該用戶對動作類電影更感興趣,評分過低的原因有可能是影片自身質(zhì)量問題,而對于恐怖電影則是不感興趣。因此可以將這些不感興趣項(xiàng)目進(jìn)行過濾刪除,形成了新的用戶評分子序列。

        為了解決過濾刪除引起的數(shù)據(jù)稀疏問題,本文進(jìn)一步將用戶未參與且擁有高興趣類特征的項(xiàng)目數(shù)據(jù)作為用戶高概率感興趣的內(nèi)容進(jìn)行數(shù)據(jù)填充。在實(shí)際計(jì)算中,又可能因?yàn)橛脩粜袨椴换钴S,參與的項(xiàng)目相對較少,導(dǎo)致項(xiàng)目的特征屬性類型統(tǒng)計(jì)也會很少,因此需要定義一個(gè)約束閾值,當(dāng)累計(jì)出現(xiàn)最高的項(xiàng)目屬性特征數(shù)量超過用戶所參與的項(xiàng)目數(shù)量的一半時(shí),則可以看成是用戶高概率參與的項(xiàng)目。

        篩選出用戶參與評價(jià)的起止時(shí)間內(nèi)所有符合這些屬性特征的項(xiàng)目,使用該用戶的平均評分為這類項(xiàng)目生成評分?jǐn)?shù)據(jù)。在數(shù)據(jù)生成中遇到生成的數(shù)據(jù)與源數(shù)據(jù)中的數(shù)據(jù)重合時(shí),保留源數(shù)據(jù)中的真實(shí)數(shù)據(jù)。

        算法偽代碼為

        (2)用戶評分子序列的二值評分轉(zhuǎn)換

        在第一步得出的每個(gè)用戶新評分序列基礎(chǔ)上,根據(jù)用戶參與每個(gè)項(xiàng)目的評價(jià)時(shí)間,可以得到其參與評價(jià)的總起止時(shí)間區(qū)間。將需要比較計(jì)算的兩名用戶的時(shí)間區(qū)間進(jìn)行綜合,可以得出一個(gè)新的時(shí)間區(qū)間。進(jìn)一步,可以篩選出總數(shù)據(jù)集中處于此時(shí)間范圍的所有項(xiàng)目,假設(shè)用戶u評價(jià)過的最早與最晚的項(xiàng)目分別在2012年和2019年,用戶v評價(jià)過的最早與最晚的項(xiàng)目時(shí)間為2010年和2015年,選取用戶u和用戶v整體的最早評價(jià)時(shí)間與最晚評價(jià)時(shí)間,分別為 2010年和 2019年,那么選取時(shí)間在[2010,2019]之間的所有評分項(xiàng)目構(gòu)成新的評分子序列,需要提及一點(diǎn),不同的兩個(gè)用戶所得到的時(shí)間區(qū)間可能會不同。

        兩個(gè)用戶形成的大時(shí)間區(qū)間,包括了所有參與和未參與的項(xiàng)目內(nèi)容。已有的新用戶評分子序列,可以進(jìn)行評分?jǐn)?shù)據(jù)的二值轉(zhuǎn)換,即根據(jù)用戶是否參與評分作為標(biāo)準(zhǔn),可以認(rèn)為此時(shí)的用戶參與評分代表其對該項(xiàng)目存在潛在興趣,將二值評分設(shè)置為“1”,未參與評價(jià)項(xiàng)目設(shè)置為“0”,從而得到兩名用戶各自的二值評分序列。

        算法偽代碼為

        2.2 二值評分?jǐn)?shù)據(jù)的有效性驗(yàn)證方法設(shè)計(jì)

        前文已經(jīng)說明,用戶是否已經(jīng)評價(jià)的二值評分?jǐn)?shù)據(jù)可以被理解為一種潛在用戶興趣,即用戶在沒有給項(xiàng)目評分之前,完全憑借自己的興趣愛好選擇的項(xiàng)目就能代表用戶的潛在興趣。比如在現(xiàn)實(shí)生活中,人們看一部電影,往往不是因?yàn)槁爠e人說這部電影非常好看才去看,也不會因?yàn)檫@部電影的評分很高就去看,更多情況下是這部電影是自己喜歡的類型才會有選擇性地去看。正因如此,當(dāng)兩個(gè)人都是因?yàn)楦髯缘臐撛谂d趣去選擇同一部電影時(shí),通過相互之間的分析,可以更準(zhǔn)確預(yù)測其他事物的結(jié)果。

        拿電影數(shù)據(jù)集來舉例,傳統(tǒng)協(xié)同過濾算法評分矩陣中的數(shù)據(jù)是用戶對電影的評分值,那么這個(gè)評分值是在用戶看完這部電影之后,給出的對這部電影的評價(jià),如果評分為4分或者5分,可以認(rèn)為用戶喜歡這部電影,也可以認(rèn)為用戶是出于對這類電影的喜愛,又或者是用戶只是喜歡這部電影的主演而已,原因因人而異,想把眾多原因整合到一起,工作量非常巨大并且難以實(shí)現(xiàn)。因此,基于用戶是否評價(jià)的二值數(shù)據(jù)表達(dá),可以提供一種只研究用戶興趣的簡單方法,不需要關(guān)注用戶給一部電影打了多少分,也不需要關(guān)注用戶到底是基于什么原因給電影打分,只需要關(guān)注用戶有沒有看過這部電影,如果看過,則標(biāo)記用戶與電影之間的關(guān)系為“1”,否則為“0”。

        這種新型數(shù)據(jù)表達(dá)的思路需要實(shí)驗(yàn)的驗(yàn)證,為此設(shè)計(jì)如下驗(yàn)證實(shí)驗(yàn)。

        實(shí)驗(yàn)方法:通過用戶過去與未來的評分項(xiàng)目類型相似度來比較二值數(shù)據(jù)與評分?jǐn)?shù)據(jù)對用戶興趣的表達(dá)有效性。

        實(shí)驗(yàn)步驟:

        (1)每個(gè)用戶按評分時(shí)間先后順序?qū)⑵湓u價(jià)項(xiàng)目分成訓(xùn)練集和測試集,其中訓(xùn)練集中的數(shù)據(jù)為用戶過去評價(jià)的項(xiàng)目,測試集中的數(shù)據(jù)為用戶將來評價(jià)的項(xiàng)目;

        (2)訓(xùn)練集中每一個(gè)用戶的評價(jià)項(xiàng)目類型數(shù)目形成向量,同樣方式找到測試集中的序列形成向量,形成待比較的兩個(gè)向量;

        (3)將每個(gè)用戶得到的二值評分向量進(jìn)行相似度計(jì)算,相似度計(jì)算方法采用的是2.3節(jié)中的式(1),最終將所有用戶的相似度取平均值。

        2.3 基于二值評分?jǐn)?shù)據(jù)的相似度計(jì)算及評分預(yù)測

        傳統(tǒng)協(xié)同過濾中常見的相似度計(jì)算方法無法進(jìn)行二值評分?jǐn)?shù)據(jù)向量的相似度比較,如使用余弦相似度去計(jì)算,就會造成分母為0的無意義情況,而使用調(diào)整余弦相似度和皮爾遜[25]相似度計(jì)算則不可避免地需要計(jì)算評分的平均值,對于二值數(shù)據(jù)而言,平均值沒有任何意義。因此借鑒文獻(xiàn)[26]使用式(1)計(jì)算谷本系數(shù)相似度。

        而余弦相似度的向量表示形式為

        式(1)和式(2)中,I,J分別為兩個(gè)不同用戶的評分向量,式(1)計(jì)算結(jié)果約束在區(qū)間[0,1]之間,較皮爾遜相關(guān)相似度[-1,1]的結(jié)果區(qū)間更方便算法后期的計(jì)算。

        經(jīng)過相似度計(jì)算之后,可以取相似度最高的若干結(jié)果作為最近鄰居集合,再次利用原始評分?jǐn)?shù)據(jù)來進(jìn)行評分預(yù)測,預(yù)測值計(jì)算方法為

        式中,L表示源數(shù)據(jù)經(jīng)過2.1節(jié)之后最終得到的數(shù)據(jù)集合,表示用戶a對所有項(xiàng)目評分的平均值,表示用戶b對所有項(xiàng)目評分的平均值,rb,i表示用戶b對項(xiàng)目i的評分,sim(a,b)為用戶a與用戶b的相似度,N為最近鄰居集合。

        具體算法的步驟過程說明如下。

        輸入:數(shù)據(jù)集中劃分好訓(xùn)練集與測試集,最近鄰居個(gè)數(shù)num。

        輸出:用戶a對測試集中項(xiàng)目i評分的預(yù)測值。

        算法步驟:

        步驟1使用2.1節(jié)的方法對訓(xùn)練集中的每個(gè)用戶進(jìn)行有效評分稠密序列的提取和填充,然后進(jìn)行用戶評分序列的二值數(shù)據(jù)轉(zhuǎn)換;

        步驟2利用式(1)計(jì)算任意比較用戶之間的用戶相似度,利用式(2)計(jì)算用戶a與用戶b之間的用戶相似度;

        步驟3根據(jù)計(jì)算的用戶相似度來尋找最近鄰居,并使用式(3)計(jì)算用戶a對測試集中項(xiàng)目評分的預(yù)測值。

        算法偽代碼為

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集和評價(jià)方法

        本文選用的是 ml?latest?small數(shù)據(jù)集,數(shù)據(jù)結(jié)構(gòu)如表1所示。

        表1 數(shù)據(jù)集結(jié)構(gòu)表

        評分預(yù)測效果的評價(jià)標(biāo)準(zhǔn)選擇了RMSE(均方根誤差)和F值(正確率和召回率的調(diào)和平均值)兩種指標(biāo)。兩個(gè)指標(biāo)的計(jì)算公式分別為

        式中,X可以理解為用戶的集合,函數(shù)h(x)為評分預(yù)測模型預(yù)測的評分,yi為每個(gè)用戶對項(xiàng)目的真實(shí)評分。其中正確率和召回率的計(jì)算方法如下:

        正確率=提取出的正確信息條數(shù)/提取出的信息條數(shù);

        召回率=提取出的正確信息條數(shù)/樣本中的信息條數(shù)。針對不同數(shù)據(jù)集正確率和召回率的計(jì)算公式也隨著數(shù)據(jù)集結(jié)構(gòu)的不同而重新定義,本文根據(jù)實(shí)驗(yàn)數(shù)據(jù)的特點(diǎn),規(guī)則定義如下:

        正確信息條數(shù)。預(yù)測數(shù)據(jù)滿足與真實(shí)數(shù)據(jù)差值絕對值低于0.5的總數(shù)據(jù)個(gè)數(shù);

        提取出的信息條數(shù)。預(yù)測數(shù)據(jù)值高于3的總數(shù)據(jù)個(gè)數(shù);

        樣本中的信息條數(shù)。真實(shí)數(shù)據(jù)值高于3的總數(shù)據(jù)個(gè)數(shù)。

        3.2 數(shù)據(jù)集劃分的有效性

        在進(jìn)行實(shí)驗(yàn)之前,驗(yàn)證數(shù)據(jù)集劃分的有效性尤為重要,本文劃分?jǐn)?shù)據(jù)集的方式是按照用戶參與項(xiàng)目的時(shí)間先后順序來進(jìn)行。表2~4給出按照不同比例劃分 ml?latest?small的情況(其中相似度指標(biāo)使用式(2))。

        表2 60%訓(xùn)練,40%測試評分分布情況(整體分布的相似度為0.998 40)

        表3 50%訓(xùn)練,50%測試評分分布情況(整體分布的相似度為0.998 56)

        表4 40%訓(xùn)練,60%測試評分分布情況(整體分布的相似度為0.998 61)

        通過表2~4對數(shù)據(jù)集劃分后的評分?jǐn)?shù)據(jù)分析,不同比例劃分?jǐn)?shù)據(jù)集之后,每組訓(xùn)練集和測試集的評分區(qū)間數(shù)量構(gòu)成的向量相似度高達(dá)99%,更符合用戶的興趣情況,因此本文以用戶參與項(xiàng)目的時(shí)間來劃分?jǐn)?shù)據(jù)集合理有效。

        3.3 結(jié)果分析

        3.3.1 二值評分?jǐn)?shù)據(jù)的有效性驗(yàn)證實(shí)驗(yàn)

        按照不同的比例劃分訓(xùn)練集和測試集,可以得到二值評分?jǐn)?shù)據(jù)的有效性驗(yàn)證實(shí)驗(yàn)結(jié)果,如表5所示。

        表5 不同訓(xùn)練集和測試集比例下評分?jǐn)?shù)據(jù)和二值數(shù)據(jù)的一致性比較

        由表5發(fā)現(xiàn)使用二值方法計(jì)算出來的過去和未來電影類型的相似度明顯比不同區(qū)間評分值計(jì)算出來的高很多,其中5∶5的比例劃分訓(xùn)練集和測試集的一致性最高。同時(shí),對于原始評分而言,在不同分值區(qū)間的一致性差異比較大,總體來看,高分一致性要優(yōu)于低分一致性。

        通過上述比較,二值評分方法的一致性不論是效果還是穩(wěn)定性都優(yōu)于原始評分方法。因此,使用二值數(shù)據(jù)的評分表達(dá)方法要比使用原始評分的方法更能體現(xiàn)用戶興趣的一致性。

        3.3.2 二值評分?jǐn)?shù)據(jù)和原始評分?jǐn)?shù)據(jù)的評分預(yù)測效果比較

        實(shí)驗(yàn)結(jié)果通過RMSE和F值進(jìn)行比較,具體如圖1和表6所示。

        圖1 二值數(shù)據(jù)和原始評分?jǐn)?shù)據(jù)評分預(yù)測效果的RMSE值比較

        表6 二值評分?jǐn)?shù)據(jù)和原始評分?jǐn)?shù)據(jù)評分預(yù)測效果的準(zhǔn)確率、召回率、F值比較

        由圖1可以看出,隨著最近鄰居的增多,在算法中使用二值評分?jǐn)?shù)據(jù)的RMSE值越來越小,最終低于算法中使用評分?jǐn)?shù)據(jù)得到的結(jié)果。表6數(shù)據(jù)中展示了評分預(yù)測算法比較重要的幾個(gè)指標(biāo)數(shù)據(jù),從中可以看出,算法中使用二值評分?jǐn)?shù)據(jù)在準(zhǔn)確率、召回率以及準(zhǔn)確率和召回率的調(diào)和平均值(F)都要比使用評分值數(shù)據(jù)高,結(jié)合3.3.1節(jié)的實(shí)驗(yàn)結(jié)果,可以認(rèn)為使用二值評分?jǐn)?shù)據(jù)不僅能更準(zhǔn)確地定位用戶的興趣,還可以為評分預(yù)測算法的效果帶來一定的優(yōu)化。

        3.3.3 與經(jīng)典評分預(yù)測算法的效果比較

        該實(shí)驗(yàn)主要驗(yàn)證結(jié)合本文所提出的用戶評分?jǐn)?shù)據(jù)的有效稠密序列提取和填充方法的有效性,同時(shí),在以下對比實(shí)驗(yàn)中,改進(jìn)算法將直接使用二值數(shù)據(jù)代替評分?jǐn)?shù)據(jù)。

        RMSE指標(biāo)的比較結(jié)果如圖2所示。

        圖2 不同評分預(yù)測方法的RMSE值比較

        圖2 中,NMF(Non?negative matrix factorization)為非負(fù)矩陣分解方法??梢钥闯?,本文提出的改進(jìn)算法相比其他經(jīng)典算法,在不同最近鄰居數(shù)量的情況下,評分預(yù)測效果的準(zhǔn)確率都比較高,尤其和除標(biāo)準(zhǔn)協(xié)同過濾方法外的其他方法相比,準(zhǔn)確度的穩(wěn)定性較強(qiáng)。而且,隨著最近鄰居數(shù)量的不斷增加,效果不斷提高,最優(yōu)值達(dá)到0.898 8。

        準(zhǔn)確率、召回率、F值指標(biāo)的比較結(jié)果如表7和表8所示。

        表7 不同評分預(yù)測方法的準(zhǔn)確率、召回率、F值比較

        表8 本文方法比其他評分預(yù)測方法的準(zhǔn)確率、召回率、F值的提高率 %

        由表7、8可以看出,本文提出的改進(jìn)算法相比其他經(jīng)典算法,3個(gè)指標(biāo)普遍提高,其中準(zhǔn)確率和F值提高最為明顯,和其他方法相比,都取得更好的指標(biāo)值,其中準(zhǔn)確度最高提高8.66%,F(xiàn)值最高提高33.96%。召回率和部分方法相比有所下降。可見,本文所提方法更適合側(cè)重于準(zhǔn)確率指標(biāo)的海量數(shù)據(jù)推薦場景下推薦系統(tǒng)的服務(wù)應(yīng)用。

        4 結(jié)束語

        本文通過提取用戶評分信息中的有效稠密序列和生成有效數(shù)據(jù)的方法來改進(jìn)傳統(tǒng)協(xié)同過濾算法,在此基礎(chǔ)上對比研究了用戶原始評分值和是否評分的二值評分?jǐn)?shù)據(jù)對用戶興趣表達(dá)的有效性。該方法綜合利用了用戶評分?jǐn)?shù)據(jù)的有效稠密序列提取方法和二值評分轉(zhuǎn)換方法,在此基礎(chǔ)上實(shí)現(xiàn)了相似度計(jì)算方法的改進(jìn),實(shí)驗(yàn)證明方法有效。

        本文所提出的改進(jìn)協(xié)同過濾算法不僅利用稠密序列和數(shù)值填充等數(shù)據(jù)增強(qiáng)方式克服了數(shù)據(jù)稀疏性問題帶來的不利影響,同時(shí)還可以更準(zhǔn)確地識別用戶興趣特征。但是在本文改進(jìn)的算法中,使用用戶是否評分的二值數(shù)據(jù)相較于原始評分值的優(yōu)化改進(jìn)仍然還有很大的空間,同時(shí)在提高召回率方面也需要進(jìn)一步優(yōu)化,這些都構(gòu)成了本文后續(xù)研究的主要側(cè)重點(diǎn)。

        猜你喜歡
        二值算法用戶
        混沌偽隨機(jī)二值序列的性能分析方法研究綜述
        支持CNN與LSTM的二值權(quán)重神經(jīng)網(wǎng)絡(luò)芯片
        基于MapReduce的改進(jìn)Eclat算法
        Travellng thg World Full—time for Rree
        進(jìn)位加法的兩種算法
        基于二值形態(tài)學(xué)算子的軌道圖像分割新算法
        視頻圖像文字的二值化
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        一種改進(jìn)的整周模糊度去相關(guān)算法
        亚洲av日韩片在线观看| 亚洲综合网国产精品一区| 亚洲精品在线国产精品| 免费无码高潮流白浆视频| 国产亚洲精品久久久久婷婷瑜伽| 国产中文aⅴ在线| 超高清丝袜美腿视频在线| 超碰青青草手机在线免费观看| 亚洲av网站在线观看一页| 欧洲熟妇色| 好男人日本社区www| 成年奭片免费观看视频天天看| 国产激情视频在线观看你懂的| 在线观看在线观看一区二区三区| 神马影院午夜dy888| 亚洲色婷婷一区二区三区| 国产成人av一区二区三区无码| h动漫尤物视频| 国产一区二区三区小向美奈子 | 久久久亚洲精品午夜福利| 狠狠久久av一区二区三区| 看女人毛茸茸下面视频| 亚洲成aⅴ人片久青草影院| 亚洲成色www久久网站夜月| 丰满熟妇人妻av无码区| 白色月光免费观看完整版| 国产成人自拍高清在线| 一本一道久久综合久久| 在线人妻无码一区二区| 国产91熟女高潮一曲区| 精品露脸熟女区一粉嫩av| 欧美成人猛交69| 亚洲精品永久在线观看| 国产高潮精品一区二区三区av| 偷拍韩国美女洗澡一区二区三区 | 午夜福利理论片在线观看| 日韩人妻精品无码一区二区三区| 无码精品国产午夜| 日产分东风日产还有什么日产| 亚洲色精品三区二区一区| 久久精品无码免费不卡|