亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合LDA和用戶特征的協(xié)同過濾算法

        2021-09-16 02:28:08靜,葛
        關(guān)鍵詞:冷啟動相似性編碼

        梁 靜,葛 宇

        (1.成都工業(yè)學(xué)院 計(jì)算機(jī)工程學(xué)院,四川 成都 611730;2.四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610066)

        0 引 言

        基于用戶的協(xié)同過濾算法能根據(jù)用戶最近鄰居(文中簡稱最近鄰)的興趣偏好,向其推薦滿足需求的商品、信息和服務(wù),近年來已被廣泛應(yīng)用于電子商務(wù)和社交網(wǎng)絡(luò)中[1]。但是,傳統(tǒng)基于用戶的協(xié)同過濾算法對數(shù)據(jù)稀疏問題和用戶冷啟動問題的處理能力較差,導(dǎo)致用戶間相似性度量的準(zhǔn)確度降低,從而影響推薦質(zhì)量[1,2]。為此,不少學(xué)者進(jìn)行了相關(guān)研究。例如,針對數(shù)據(jù)稀疏問題,文獻(xiàn)[3]利用基于項(xiàng)目的協(xié)同過濾結(jié)果填充評分矩陣空值,降低數(shù)據(jù)稀疏度后結(jié)合ALS矩陣分解算法進(jìn)行預(yù)測,提高推薦質(zhì)量。文獻(xiàn)[4]基于項(xiàng)目評分?jǐn)?shù)據(jù)和項(xiàng)目類別數(shù)據(jù)構(gòu)建用戶-項(xiàng)目-類別的三維張量,通過填補(bǔ)缺失數(shù)據(jù)建立用戶類別偏好矩陣和評分偏好矩陣,進(jìn)行聯(lián)合推薦。文獻(xiàn)[5]在傳統(tǒng)算法中加入用戶和項(xiàng)目的標(biāo)簽信息,嵌入LDA主題模型計(jì)算用戶和項(xiàng)目的余弦相似性,提高相似性計(jì)算的準(zhǔn)確度。文獻(xiàn)[6]構(gòu)造時(shí)間柱模型,根據(jù)用戶評分及時(shí)刻生成時(shí)間加權(quán)相似度進(jìn)行預(yù)測評分,并對項(xiàng)目類型進(jìn)行LDA聚類預(yù)測評分,最終通過調(diào)節(jié)因子確定兩種評分的權(quán)重生成結(jié)果,提高了推薦質(zhì)量。針對新用戶冷啟動難題,文獻(xiàn)[7]從評分、興趣、置信度3個(gè)方面計(jì)算用戶評分相似性,結(jié)合用戶屬性相似性進(jìn)行聯(lián)合預(yù)測推薦,并實(shí)現(xiàn)冷啟動到非冷啟動狀態(tài)用戶相似性計(jì)算的平滑過渡。文獻(xiàn)[8]在文獻(xiàn)[7]的平滑過渡方案上,基于用戶特征的動態(tài)變化進(jìn)行分類,設(shè)計(jì)了結(jié)合用戶特征和評分?jǐn)?shù)據(jù)的相似度計(jì)算方案,提高推薦的準(zhǔn)確率。文獻(xiàn)[9]設(shè)計(jì)了適應(yīng)于計(jì)算個(gè)性化用戶相似性的距離度量公式,并對用戶屬性評分量化,將其引入相似性計(jì)算公式中,既提高了推薦精度,也滿足了用戶的個(gè)性化需求。

        不同于以上思路,本文為提高用戶相似性計(jì)算準(zhǔn)確度,提出一種結(jié)合LDA和用戶特征的協(xié)同過濾算法。具體地,針對數(shù)據(jù)稀疏問題,利用基于吉布斯采樣的LDA主題模型,設(shè)計(jì)用戶對項(xiàng)目主題評分的相似性評價(jià)方案,并從理論角度論證該方案能有效降低數(shù)據(jù)稀疏性;針對用戶冷啟動問題,結(jié)合用戶特征設(shè)計(jì)相應(yīng)的編碼,用海明距離計(jì)算用戶間相似度,作為冷啟動用戶尋找最近鄰的依據(jù)。在MovieLens數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法能有效預(yù)測用戶評分,提高推薦質(zhì)量,在應(yīng)對數(shù)據(jù)稀疏性問題和冷啟動用戶時(shí)也有較好的表現(xiàn)。

        1 傳統(tǒng)基于用戶的協(xié)同過濾算法

        傳統(tǒng)基于用戶的協(xié)同過濾根據(jù)鄰居用戶的偏好向目標(biāo)用戶進(jìn)行推薦[1],首先根據(jù)已知的用戶-項(xiàng)目評分矩陣,依據(jù)文獻(xiàn)[9]采用皮爾遜系數(shù)法由式(1)[9]評估用戶間的相似程度,然后根據(jù)相似性高低選取目標(biāo)用戶的最近鄰Num(u),找出與目標(biāo)用戶偏好一致的鄰居用戶,最后根據(jù)式(2)預(yù)測目標(biāo)用戶對項(xiàng)目的評分

        (1)

        (2)

        2 結(jié)合LDA主題模型和用戶特征的協(xié)同過濾算法

        文獻(xiàn)[1]指出,傳統(tǒng)基于用戶的協(xié)同過濾算法,用戶相似性評價(jià)會受到用戶-項(xiàng)目評分?jǐn)?shù)據(jù)稀疏性問題和用戶冷啟動問題的影響,而用戶間相似性評價(jià)的準(zhǔn)確程度又直接影響了算法最終推薦質(zhì)量。為此,本文在傳統(tǒng)基于用戶的協(xié)同過濾算法基礎(chǔ)上,以提高用戶相似性評價(jià)準(zhǔn)確性為出發(fā)點(diǎn),對數(shù)據(jù)稀疏問題和用戶冷啟動問題的處理方案進(jìn)行研究,具體思路為:

        在傳統(tǒng)基于用戶的協(xié)同過濾算法基礎(chǔ)上,通過借助吉布斯采樣的LDA主題模型和矩陣運(yùn)算,挖掘項(xiàng)目類型的隱含主題,生成項(xiàng)目-主題隸屬概率矩陣,構(gòu)造用戶-主題評分?jǐn)?shù)據(jù),設(shè)計(jì)用戶相似性評價(jià)方案,并用概率方法分析方案對數(shù)據(jù)稀疏問題處理的有效性。同時(shí),在改進(jìn)相似性的基礎(chǔ)上分析用戶特征,設(shè)計(jì)基于海明距離編碼的冷啟動用戶相似性評價(jià)方案,用于提高冷啟動用戶的推薦質(zhì)量。

        2.1 基于LDA主題模型的用戶相似性評價(jià)

        LDA主題模型是一種文檔主題生成模型,常用于挖掘大規(guī)模文檔集中潛藏的主題信息,利用隱藏主題優(yōu)化文檔分類。如:文獻(xiàn)[10]針對TF-IDF模型,運(yùn)用LDA模型挖掘出文本的潛在主題,以提高文檔聚類純度。本文受此思路啟發(fā),借助LDA主題模型從項(xiàng)目類型關(guān)系中挖掘項(xiàng)目對應(yīng)的潛在主題,將項(xiàng)目按主題進(jìn)行聚類、構(gòu)造項(xiàng)目-主題關(guān)系矩陣,以便更科學(xué)地反映數(shù)據(jù)規(guī)律。

        2.1.1 基本吉布斯采樣的LDA主題模型

        Blei提出的隱含狄利克雷分布(latent Dirichlet allocation,LDA)是一種經(jīng)典的主題模型,常被用來推測文檔的隱含主題分布[10],其對應(yīng)的概率模型如圖1所示。

        圖1 LDA概率圖模型

        圖1中M為文檔總數(shù),K為主題編號總數(shù),Nm為第m篇文檔中包含的詞匯總數(shù)。zm,n(m∈[1,M],n∈[1,Nm])是文檔m第n個(gè)詞匯所屬的主題編號,wm,n是文檔m中的第n個(gè)詞匯在詞典中的序號。θm、φk分別表示第m篇文檔下的主題分布和第k個(gè)主題下的詞匯分布。α和β為先驗(yàn)參數(shù)。在給定文檔集合下,wm,n是可觀察的已知量,α和β是根據(jù)經(jīng)驗(yàn)所得先驗(yàn)參數(shù)。按圖1所示概率模型,可通過變分貝葉斯推斷、吉布斯采樣和最大似然估計(jì)[11]等方式估計(jì)出θm和φk值。本文采用吉布斯采樣法估計(jì)LDA主題模型的θm主題分布,流程如圖2所示。

        圖2 LDA吉布斯采樣算法流程

        圖2對應(yīng)的流程描述為:

        (1)指定參數(shù)K(主題數(shù))、α、β,和輸入數(shù)據(jù)wm,n。

        (3)利用吉布斯公式p(zi|z-i,d,w)對每個(gè)詞匯進(jìn)行采樣,求出它對應(yīng)的主題編號,并更新zm,n狀態(tài)。

        (4)重復(fù)(3),直到吉布斯采樣收斂或達(dá)到迭代次數(shù)。

        (5)輸出每篇文檔的主題分布θm。

        2.1.2 挖掘項(xiàng)目-主題關(guān)系數(shù)據(jù)

        針對項(xiàng)目數(shù)據(jù)(如本文實(shí)驗(yàn)中MovieLens 100K數(shù)據(jù)集的u.item和u.genre信息),將項(xiàng)目的類型看作詞匯,每個(gè)項(xiàng)目看作文檔,依據(jù)2.1.1節(jié)中的LDA主題模型挖掘項(xiàng)目隱含主題。設(shè)項(xiàng)目總數(shù)為M,將第m個(gè)項(xiàng)目記為itm(m∈[1,M]),如itm=(Action,Adventure,Thriller),表示項(xiàng)目m對應(yīng)的類型有Action,Adventure和Thriller。所有項(xiàng)目的類型集合IT={it1,it2,…itM}。

        采用圖2流程,計(jì)算項(xiàng)目主題分布。輸入項(xiàng)目類型集合IT,超參數(shù)α、β和主題數(shù)K。經(jīng)過吉布斯采樣算法,G次迭代(為保證算法收斂,G不宜過小)后輸出本文所需的項(xiàng)目主題分布Iθ(如圖3所示)。圖3中,行列分別代表項(xiàng)目和主題,如第1行第1列數(shù)值為0.025 64,表示第1個(gè)項(xiàng)目在第1個(gè)主題的概率。

        圖3 項(xiàng)目主題分布Iθ

        2.1.3 構(gòu)造用戶-主題評分?jǐn)?shù)據(jù)

        為了處理用戶-項(xiàng)目評分矩陣RUM中的稀疏問題(即:用戶沒有對項(xiàng)目評分,造成矩陣中對應(yīng)項(xiàng)為空),本文結(jié)合2.1.2節(jié)中得出的項(xiàng)目主題分布Iθ,把RUM轉(zhuǎn)換為用戶-主題評分矩陣RUK。以下給出轉(zhuǎn)換方案,隨后從概率角度進(jìn)行分析,以說明本方案的有效性。

        (1)用戶-項(xiàng)目評分矩陣到用戶-主題評分矩陣的轉(zhuǎn)換方案。

        (3)

        (4)

        (5)

        (2)從概率角度分析轉(zhuǎn)換前后數(shù)據(jù)的稀疏性。

        稀疏性和數(shù)據(jù)(矩陣)中存在空值(0值)成正比,為了說明以上方案所使用的用戶-主題評分矩陣RUK稀疏性小于傳統(tǒng)方法所使用的用戶-項(xiàng)目評分矩陣RUM,下文從概率角度進(jìn)行論證。

        RUM和RUK中各個(gè)元素不為空值的事件是等可能事件(即項(xiàng)目或主題被對應(yīng)用戶作過評分事件),設(shè)DM對應(yīng)矩陣RUM中一個(gè)元素值不為空的隨機(jī)事件,其概率p(DM)記為λ1,λ1∈(0,1);DK對應(yīng)矩陣RUK中一個(gè)元素值不為空的隨機(jī)事件,其概率p(DK)記為λ2,λ2∈(0,1)。RUM(U×M)中所有元素值不為空的概率用p(RUM)表示;RUK(U×K)中所有元素值不為空的概率用p(RUK)表示。則矩陣RUM出現(xiàn)空值的概率

        (6)

        同理,矩陣RUK出現(xiàn)空值的概率為

        (7)

        以下用反證法證明λ1≤λ2。

        證:假設(shè)λ1>λ2

        (8)

        根據(jù)假設(shè)λ1>λ2,則有

        λ1>1-(1-λ1)Q?λ1-1>-(1-λ1)Q?

        (1-λ1)<(1-λ1)Q

        (9)

        由指數(shù)函數(shù)的單調(diào)性可知

        Q<1

        (10)

        與已知Q≥1矛盾,假設(shè)不成立。因此λ1≤λ2,證明完畢。

        2.1.4 結(jié)合用戶-主題數(shù)據(jù)計(jì)算用戶相似性

        根據(jù)以上結(jié)果,用戶-主題矩陣RUK中每一行記錄了每位用戶對各個(gè)主題的評分。參考文獻(xiàn)[5],使用夾角余弦法計(jì)算矩陣RUK中用戶間的相似度。設(shè)用戶u、v對應(yīng)主題評分?jǐn)?shù)據(jù)RUK矩陣中兩行(記為向量ru和rv),其相似度uksim(u,v)計(jì)算如式(11)所示

        (11)

        式中:向量ru=[ru,1,ru,2…,ru,K],向量rv=[rv,1,rv,2…,rv,K]。

        2.2 基于特征編碼的冷啟動用戶相似性評價(jià)

        為了應(yīng)對用戶冷啟動問題(即:缺少冷啟動用戶對項(xiàng)目的歷史評分?jǐn)?shù)據(jù),導(dǎo)致無法從用戶-項(xiàng)目數(shù)據(jù)中有效評價(jià)冷啟動用戶與其它用戶間相似性的問題),本文參考文獻(xiàn)[7]、文獻(xiàn)[8]中利用特征作用戶相似性評價(jià)的思路,設(shè)計(jì)了一種用戶特征(如本文實(shí)驗(yàn)中MovieLens 100K數(shù)據(jù)集的u.user、u.occupation信息)編碼方案,配合海明距離計(jì)算冷啟動用戶與其他用戶間的相似性。

        2.2.1 用戶特征編碼方案

        對于冷啟動和非冷啟動用戶,都已知其對應(yīng)的性別、年齡和職業(yè)特征。定義用戶特征集合為UA,共U個(gè)用戶,UA={ua1,ua2,…uaU},其中uau(u∈[1,U])為用戶u的特征。如uau=(24,M,Technician),表示該用戶年齡24,性別男,職業(yè)為技術(shù)員。

        為配合海明距離計(jì)算用戶間相似度,本文對3個(gè)用戶特征使用不同長度的二進(jìn)制數(shù)進(jìn)行分別編碼,以體現(xiàn)出不同特征對用戶相似性的影響程度。具體的編碼方案為:

        (1)性別特征,用1位二進(jìn)制進(jìn)行編碼,將男女分別編碼為0和1。

        (2)年齡特征,用7位二進(jìn)制進(jìn)行編碼。將年齡分為7組:(0-17)、(18-24)、(25-34)、(35-44)、(45-49)、(50-55)和56歲以上。考慮到要區(qū)別用戶年齡段之間的差異程度,比如年齡50和10,相比50和40的差異程度更大,故本文對年齡特征按分組進(jìn)行多位置1編碼。每一位編碼代表一個(gè)年齡段,當(dāng)用戶屬于某年齡段時(shí),對應(yīng)編碼位和它前面的每位均置1,后面均置0。如24歲編碼為“1100000”,47歲編碼為“1111100”。

        (3)職業(yè)特征,用5位二進(jìn)制進(jìn)行編碼。依據(jù)二八定律[12]:任何一組東西,最重要的大約占20%,其余的占80%。本文將職業(yè)對應(yīng)的用戶數(shù)量降序排列,前20%的職業(yè)單獨(dú)分類,其余職業(yè)歸為一類。對21個(gè)職業(yè)統(tǒng)計(jì)后,student、other、educator、administrator排在前4,對應(yīng)前4位編碼,其余歸為一類對應(yīng)第5位編碼。具體編碼時(shí),所屬職業(yè)的對應(yīng)位置1,其它位均置0。如educator編碼為“00100”,Technician編碼為“00001”。

        依據(jù)以上編碼方案,最終構(gòu)成13位二進(jìn)制編碼。其格式如圖4所示。用戶特征編碼集合對應(yīng)如圖5所示。

        圖4 13位的用戶特征編碼格式

        圖5 用戶特征編碼集合

        2.2.2 結(jié)合海明距離計(jì)算冷啟動用戶相似性

        在信息學(xué)中,海明距離[13]被用于衡量兩串代碼間的差異,是一種簡單高效的距離計(jì)算方法,本文基于海明距離設(shè)計(jì)了冷啟動用戶相似性計(jì)算策略,更準(zhǔn)確地為冷啟動用戶尋找最近鄰居。根據(jù)以上思路,以下從用戶特征編碼中計(jì)算用戶間海明距離,以此評價(jià)冷啟動用戶與其他用戶間的相似性。冷啟動用戶u與非冷啟動用戶v對應(yīng)的相似性uasim(u,v),如式(12)所示

        (12)

        式中:dishamming(u,v)為u、v間的海明距離,即:統(tǒng)計(jì)兩位用戶的編碼在進(jìn)行異或(xor)運(yùn)算后1的個(gè)數(shù),其結(jié)果與相似度成反比關(guān)系。特別說明的是:為了處理dishamming(u,v)為0的情況,分母中加入了調(diào)節(jié)項(xiàng)1。

        2.3 算法描述

        根據(jù)前文分析,以下在傳統(tǒng)基于用戶的協(xié)同過濾算法基礎(chǔ)上,加入了針對數(shù)據(jù)稀疏性問題和用戶冷啟動問題的相應(yīng)機(jī)制,設(shè)計(jì)了結(jié)合LDA主題模型和用戶特征的協(xié)同過濾算法,算法流程描述如下(其中(1)-(3)、(4)、(5)分別對應(yīng)文中2.1節(jié)和2.2節(jié)設(shè)計(jì)的方案,(6)即對應(yīng)是否為冷啟動用戶分別采用不同的方案計(jì)算相似度并用于最終預(yù)測推薦):

        (1)對項(xiàng)目類型集合IT,按照2.1.1節(jié)中LDA吉布斯采樣算法流程(如圖2所示),計(jì)算出項(xiàng)目主題分布Iθ。

        (3)按2.1.4節(jié)中式(11),利用夾角余弦法計(jì)算出用戶相似度uksim。

        (4)對用戶特征集合UA按2.2.1節(jié)進(jìn)行特征編碼。

        (5)根據(jù)2.2.2節(jié)中式(12)計(jì)算出冷啟動用戶與非冷啟動用戶相似度uasim。

        (7)輸出用戶預(yù)測評分?jǐn)?shù)據(jù)。

        3 實(shí) 驗(yàn)

        3.1 數(shù)據(jù)集與評價(jià)指標(biāo)

        本文實(shí)驗(yàn)采用MovieLens 100K數(shù)據(jù)集[14],抽取數(shù)據(jù)訓(xùn)練集和測試集比例4∶1,實(shí)驗(yàn)環(huán)境為Intel Core i5處理器、8 GB內(nèi)存,Windows10(64 bit)操作系統(tǒng)。

        參考文獻(xiàn)[4]、參考文獻(xiàn)[15],實(shí)驗(yàn)使用平均絕對誤差MAE[4](mean absolute error,MAE)和準(zhǔn)確率Precision[15]對算法進(jìn)行評價(jià),分別如式(13)、式(14)

        (13)

        (14)

        式中:TopN為算法向用戶所推薦的項(xiàng)目數(shù),Hits為算法產(chǎn)生的正確推薦數(shù),Precision值越高,表示推薦質(zhì)量越高。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        參考文獻(xiàn)[6],本文將算法中LDA主題數(shù)設(shè)置為15,為驗(yàn)證本文算法(以下記為:UILCF)的有效性,實(shí)驗(yàn)先討論UILCF在不同數(shù)據(jù)稀疏度、不同冷啟動用戶數(shù)量情況下的表現(xiàn),然后將UILCF與4種具有代表性的算法進(jìn)行性能對比,具體實(shí)驗(yàn)如下:

        (1)不同數(shù)據(jù)稀疏度下算法性能對比

        本文算法是在傳統(tǒng)基于用戶的協(xié)同過濾算法基礎(chǔ)上加入了應(yīng)對數(shù)據(jù)稀疏性的機(jī)制,為評估其有效性,實(shí)驗(yàn)將UILCF與傳統(tǒng)協(xié)同過濾算法(以下簡記為UCF)進(jìn)行對比。實(shí)驗(yàn)隨機(jī)刪除測試集中部分評價(jià)數(shù)據(jù),模擬不同的稀疏度(矩陣RUM中空值或0值的比例)環(huán)境,結(jié)果如圖6和表1所示。從圖6結(jié)果可以看出,隨著數(shù)據(jù)稀疏度的增長,兩種算法的MAE值都在增加,但UILCF的MAE值始終低于UCF。從變化率的角度看,UILCF也優(yōu)于UCF,尤其在稀疏度值0.96以后,UILCF的優(yōu)勢更加明顯。另外表1對比結(jié)果表明,在不同稀疏度下UILCF均具有更好的推薦準(zhǔn)確率。這正是因?yàn)閁ILCF在計(jì)算用戶相似性時(shí)結(jié)合了LDA模型,讓算法在數(shù)據(jù)稀疏度不斷增大時(shí)仍然具有較好的預(yù)測效果。

        圖6 UCF與UILCF在不同稀疏度下的對比

        表1 UCF與UILCF在不同稀疏度下的準(zhǔn)確率對比/%(TopN=2)

        (2)不同冷啟動用戶數(shù)量下算法性能對比

        UILCF在UCF的基礎(chǔ)上增加了冷啟動用戶處理機(jī)制,以下實(shí)驗(yàn)從測試集中隨機(jī)選擇用戶,刪除其評分?jǐn)?shù)據(jù),模擬不同數(shù)量冷啟動用戶的情況,結(jié)果如圖7和表2所示。在冷啟動用戶數(shù)量為10-60時(shí),圖7中UILCF的MAE值始終低于UCF。表2中UILCF的Precision值始終高于UCF,表明UILCF具有更高的推薦質(zhì)量。以上結(jié)果說明,本文算法利用了用戶特征信息尋找鄰居用戶進(jìn)行相似推薦,取得了更好的效果。

        圖7 UCF與UILCF在不同冷啟動用戶下的對比

        表2 UCF與UILCF在不同冷啟動用戶下的準(zhǔn)確率對比/%(TopN=2)

        (3)與文獻(xiàn)報(bào)道的算法性能對比

        實(shí)驗(yàn)選擇4種具有代表性的算法進(jìn)行對比:傳統(tǒng)基于用戶的協(xié)同過濾算法(以下記為:UCF)、傳統(tǒng)基于項(xiàng)目的協(xié)同過濾算法(以下記為:ICF)、嵌入LDA主題模型的協(xié)同過濾推薦算法(以下記為:ULRCF)[5]、基于用戶屬性和評分的協(xié)同過濾算法(以下記為:UARCF)[7],實(shí)驗(yàn)結(jié)果如圖8和表3所示,其中表3給出了推薦數(shù)目TopN在不同取值下的準(zhǔn)確率對比。圖8中,UCF、ICF、ULRCF對應(yīng)數(shù)據(jù)來自文獻(xiàn)[6],UARCF對應(yīng)數(shù)據(jù)來自文獻(xiàn)[7]。表3中UCF、UARCF對應(yīng)數(shù)據(jù)來自文獻(xiàn)[8]。

        圖8 不同算法下的MAE值變化

        表3 不同算法的準(zhǔn)確率對比/%

        表3結(jié)果說明,各算法隨推薦數(shù)目的增多,Precision值呈下降趨勢。但UILCF在不同的推薦數(shù)目下,Precision值均優(yōu)于文獻(xiàn)中的另兩種算法,尤其在推薦數(shù)目較小時(shí),UILCF的推薦準(zhǔn)確率很高。從圖8不難看出,相比于UCF、UARCF、ULRCF和ICF,在最近鄰數(shù)量小于35時(shí)UILCF對應(yīng)的MAE值更低,說明本文算法因?yàn)椴扇×酸槍?shù)據(jù)稀疏問題和用戶冷啟動問題的對應(yīng)策略,所以性能優(yōu)于上述4種算法。需要說明的是,在最近鄰數(shù)量大于38時(shí),UILCF的MAE值變化趨于平緩,且高于ULRCF,說明本文算法在最近鄰個(gè)數(shù)增大時(shí)效果不及ULRCF。但是結(jié)合實(shí)際考慮,算法在最近鄰個(gè)數(shù)較少時(shí)得到的推薦準(zhǔn)確性更具有應(yīng)用價(jià)值,由此說明,本文算法在最近鄰個(gè)數(shù)較少時(shí)相比4種算法推薦質(zhì)量更高,更具有實(shí)用價(jià)值。

        4 結(jié)束語

        本文提出了結(jié)合LDA主題模型和用戶特征的協(xié)同過濾算法。在傳統(tǒng)基于用戶的協(xié)同過濾算法基礎(chǔ)上,利用LDA主題模型挖掘項(xiàng)目的隱含主題,和已有數(shù)據(jù)一起計(jì)算用戶-主題評分,從而將用戶相似度評價(jià)依據(jù)從稀疏度較高的用戶-項(xiàng)目評分矩陣,轉(zhuǎn)變成了稀疏度較低的用戶-主題評分矩陣,有效緩解了數(shù)據(jù)稀疏性問題對用戶相似度的影響。另外,本文還提出了基于用戶的特征編碼方案,并根據(jù)海明距離建立冷啟動用戶和其它用戶的特征相似性評價(jià)方法,以提高冷啟動用戶對應(yīng)用戶相似度計(jì)算的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文算法在最近鄰數(shù)量較少的情況下能提高算法的推薦質(zhì)量,具有較好的實(shí)用性。

        猜你喜歡
        冷啟動相似性編碼
        一類上三角算子矩陣的相似性與酉相似性
        輕型汽油車實(shí)際行駛排放試驗(yàn)中冷啟動排放的評估
        基于學(xué)習(xí)興趣的冷啟動推薦模型
        客聯(lián)(2021年2期)2021-09-10 07:22:44
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        淺析當(dāng)代中西方繪畫的相似性
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        低滲透黏土中氯離子彌散作用離心模擬相似性
        軍事技能“冷啟動”式訓(xùn)練理念初探
        国产一区二区三区涩涩| 九色综合九色综合色鬼| 91精品人妻一区二区三区蜜臀| 欧美gv在线观看| 国产免费又色又爽粗视频| 国产精品丝袜一区二区三区在线| 国内久久婷婷激情五月天| 成年女人黄小视频| 国产一区二区精品久久呦| 国产啪精品视频网站丝袜| 日韩丰满少妇无码内射| 五月激情在线观看视频| 国产偷2018在线观看午夜| 久久理论片午夜琪琪电影网| www久久久888| 欧美一片二片午夜福利在线快| 男女av免费视频网站| 日韩最新av一区二区| 欧美成人免费观看国产| 一二三四视频社区在线| 久久精品国产只有精品96| 久久久精品人妻一区二区三区游戏 | 色综久久综合桃花网国产精品| 亚洲五月激情综合图片区 | 亚洲男人综合久久综合天堂| 国产91九色视频在线播放| 中文字幕avdvd| 欧美成人形色生活片| 国产精品久久久久久影视| av天堂手机免费在线| 日日麻批视频免费播放器| 国产亚洲无码1024| 国产资源精品一区二区免费| 无码一区二区波多野结衣播放搜索| 国产精品99久久久久久猫咪| 亚洲av永久无码精品古装片| 日韩女优在线一区二区| 少妇被粗大猛进进出出| 国产在视频线精品视频二代| 无码人妻少妇色欲av一区二区| 最新国产精品久久精品|