亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶模糊相似度的協(xié)同過濾算法

        2016-10-14 13:29:12吳毅濤張興明王興茂李晗
        通信學(xué)報(bào) 2016年1期
        關(guān)鍵詞:用戶實(shí)驗(yàn)模型

        吳毅濤,張興明,王興茂,李晗

        ?

        基于用戶模糊相似度的協(xié)同過濾算法

        吳毅濤,張興明,王興茂,李晗

        (國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南鄭州 450002)

        針對(duì)離散評(píng)分不能合理表達(dá)用戶觀點(diǎn)和傳統(tǒng)協(xié)同過濾算法存在稀疏性等問題,借鑒年齡模糊模型,提出了梯形模糊評(píng)分模型。該模型將離散評(píng)分模糊化為梯形模糊數(shù),考慮了評(píng)分模糊性和信息量,通過梯形模糊數(shù)來計(jì)算用戶相似度,據(jù)此設(shè)計(jì)了協(xié)同過濾算法,并證明了該算法是傳統(tǒng)協(xié)同過濾算法在模糊域的擴(kuò)展。實(shí)驗(yàn)表明,該算法在數(shù)據(jù)稀疏且用戶數(shù)遠(yuǎn)多于項(xiàng)目數(shù)時(shí)性能突出,并且算法運(yùn)行時(shí)間遠(yuǎn)小于傳統(tǒng)協(xié)同過濾算法。

        協(xié)同過濾;梯形模糊評(píng)分模型;模糊距離;模糊相似度

        1 引言

        電子商務(wù)的快速發(fā)展,使用戶難以處理種類繁多的信息。而推薦系統(tǒng)已經(jīng)被證明能幫助用戶過濾無用信息,做出合理選擇[1~3]。推薦系統(tǒng)根據(jù)使用內(nèi)容不同,可分為基于內(nèi)容推薦系統(tǒng)和協(xié)同過濾推薦系統(tǒng)[4]。

        基于內(nèi)容推薦系統(tǒng)主要利用用戶的統(tǒng)計(jì)信息,如年齡、收入等,根據(jù)統(tǒng)計(jì)信息的關(guān)系進(jìn)行推薦。協(xié)同過濾推薦系統(tǒng)根據(jù)評(píng)分信息尋找相似用戶,尋找相似性大的前個(gè)鄰居,根據(jù)鄰居的評(píng)分進(jìn)行預(yù)測(cè)。算法的關(guān)鍵是選取合理的相似性計(jì)算方法。傳統(tǒng)算法大多采用余弦、Pearson等方法來計(jì)算用戶相似度。協(xié)同過濾推薦系統(tǒng)易于處理數(shù)據(jù)并易于實(shí)現(xiàn),是最成功和流行的推薦系統(tǒng)。

        但目前協(xié)同過濾推薦系統(tǒng)大都使用離散評(píng)分[5],用戶在5評(píng)分等級(jí)集合{1,2,3,4,5}中選擇對(duì)項(xiàng)目的評(píng)分。但用戶對(duì)項(xiàng)目的喜好程度是非常模糊的,沒有特定的標(biāo)準(zhǔn),離散評(píng)分不能合理表達(dá)用戶的觀點(diǎn),例如離散評(píng)分不能表達(dá)介于評(píng)分4和評(píng)分5之間的喜好程度[6]。并且協(xié)同過濾系統(tǒng)沒有考慮評(píng)分信息量的問題,例如用戶評(píng)分為1攜帶的信息量比用戶評(píng)分為3攜帶的信息量要多。當(dāng)評(píng)分矩陣稀疏時(shí),協(xié)同過濾推薦系統(tǒng)的性能非常差。

        為了合理表述用戶間的關(guān)系,Yager[7]引入模糊理論,用模糊子集表示統(tǒng)計(jì)信息間的關(guān)系;Shamri等[8]提出了統(tǒng)計(jì)信息模糊模型,建立統(tǒng)計(jì)信息同模糊語言的映射關(guān)系,通過模糊語言來計(jì)算其相似度;Le[9]利用統(tǒng)計(jì)信息模糊模型,計(jì)算其統(tǒng)計(jì)信息相似度,再利用Pearson算法計(jì)算評(píng)分相似度,加權(quán)兩部分得到最終相似度。在數(shù)據(jù)稀疏時(shí),引入模糊理論的推薦系統(tǒng)精確度較高[10],但忽略了評(píng)分的模糊性,只能片面表述用戶觀點(diǎn),并且統(tǒng)計(jì)信息難于獲得和處理,引入模糊理論的推薦系統(tǒng)適用范圍很小。

        上述研究表明,協(xié)同過濾推薦系統(tǒng)不能合理表達(dá)用戶的觀點(diǎn),沒有考慮評(píng)分信息量,且存在稀疏性等問題,引入模糊理論的推薦系統(tǒng)只能片面表述用戶的觀點(diǎn),且系統(tǒng)的適用范圍很小。

        針對(duì)以上問題,本文借鑒統(tǒng)計(jì)信息模糊模型,提出了一種梯形模糊相似度模型,用模糊子集來表示用戶評(píng)分間的關(guān)系,建立離散評(píng)分值和梯形模糊評(píng)分值的映射關(guān)系,將用戶評(píng)分模糊化,并且考慮了評(píng)分的信息量,能合理表達(dá)用戶觀點(diǎn)。用梯形模糊評(píng)分進(jìn)行用戶相似度計(jì)算,設(shè)計(jì)了基于用戶模糊相似度的協(xié)同過濾推薦(Fuzzy-UBCF)算法。實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)稀疏且用戶數(shù)遠(yuǎn)多于項(xiàng)目數(shù)時(shí),準(zhǔn)確度高,并且算法運(yùn)行時(shí)間遠(yuǎn)小于傳統(tǒng)協(xié)同過濾算法。

        2 理論基礎(chǔ)

        2.1 模糊子集

        引入模糊理論的推薦系統(tǒng)用模糊子集來表示統(tǒng)計(jì)信息間的關(guān)系,模糊子集是經(jīng)典子集的推廣,它是具有不分明邊界的集合。Zadeh[11]對(duì)模糊子集的定義是:給定論域上的一個(gè)模糊子集,就是給定論域到區(qū)間[0,1]的一個(gè)映射,如式(1)所示。

        (1)

        Chen[12]定義梯形模糊數(shù)為(,,,;),、、、分別表示梯形的4個(gè)頂點(diǎn),并且是實(shí)數(shù);表示對(duì)模糊數(shù)的最大隸屬度,0<≤1。梯形模糊數(shù)可以描述用戶對(duì)項(xiàng)目的喜好程度,梯形模糊數(shù)如圖1所示。

        2.2 年齡模糊模型

        Shamri[8]提出的年齡模糊模型描述了年齡同模糊語言的映射關(guān)系,如圖2所示。

        將年齡作為給定論域,以梯形隸屬函數(shù)映射到模糊語言集中。相應(yīng)的模糊語言集為{青年,中年,老年},這種模型有以下優(yōu)點(diǎn)。

        1) 用模糊語言表示沒有特定標(biāo)準(zhǔn)的統(tǒng)計(jì)信息,一個(gè)年齡可能映射到2個(gè)不同的模糊語言集,能合理地表述統(tǒng)計(jì)信息間的關(guān)系。

        2) 在實(shí)際中,統(tǒng)計(jì)信息和模糊語言的隸屬函數(shù)近似于正態(tài)分布,用梯形函數(shù)近似隸屬函數(shù)比較合理。

        3) 模型左右對(duì)稱,用模糊梯形數(shù)表示模糊語言,計(jì)算簡(jiǎn)單。

        年齡模糊模型是統(tǒng)計(jì)信息模糊模型的一種,但統(tǒng)計(jì)信息模糊模型只考慮了用戶的部分信息,精確度較低,適用范圍小。

        3 基于用戶模糊相似度的協(xié)同過濾推薦算法

        本文用模糊子集來表示用戶評(píng)分間的關(guān)系,建立了梯形模糊評(píng)分模型,將模糊理論引入?yún)f(xié)同過濾推薦系統(tǒng)中。

        3.1 梯形模糊評(píng)分模型

        本文在年齡模糊模型優(yōu)點(diǎn)的基礎(chǔ)上,對(duì)于一個(gè)5評(píng)分等級(jí)的集合,提出一種梯形模糊評(píng)分模型,如圖3所示。

        梯形模糊評(píng)分模型將滿意度作為給定論域,用等腰梯形隸屬函數(shù)將滿意度映射到離散評(píng)分集中,滿意度表示用戶對(duì)項(xiàng)目的滿意程度,滿意度值越大,用戶對(duì)項(xiàng)目越滿意。梯形隸屬函數(shù)的隸屬度用信息量W來表示,信息量表示模糊數(shù)攜帶的信息的多少,信息量越大,模糊數(shù)攜帶的信息越多,信息量同模糊數(shù)出現(xiàn)的概率成反比,也就是同等腰梯形隸屬函數(shù)的面積成反比,梯形面積越大,信息量越小。

        本文定義了2個(gè)參數(shù):和。和可以表示用戶對(duì)一個(gè)項(xiàng)目的喜好程度,線段表示滿意度區(qū)間對(duì)離散評(píng)分為1的確定度,在此范圍內(nèi),離散評(píng)分和滿意度是一一映射;線段表示滿意度區(qū)間對(duì)離散評(píng)分為1的模糊度,在此范圍內(nèi),離散評(píng)分和滿意度不是一一映射。根據(jù)模型關(guān)系可得:≤0.25,≤。當(dāng)不變,變大時(shí),模糊評(píng)分?jǐn)?shù)的確定度增加,適用于用戶和項(xiàng)目關(guān)系較緊密的數(shù)據(jù)集,也就是稀疏度低的數(shù)據(jù)集;當(dāng)不變,變小時(shí),適用于稀疏度高的數(shù)據(jù)集。同理,當(dāng)不變,變大時(shí),適用于稀疏度高的數(shù)據(jù)集;當(dāng)不變,變小時(shí),適用于稀疏度低的數(shù)據(jù)集。

        由模型左右對(duì)稱,可知1=5,2=4。為了使W的值域?yàn)閇0,1],對(duì)W進(jìn)行歸一化處理,如式(3)所示。

        (3)

        其中,max(1,2,3)表示1,2,3中的最大值。

        根據(jù)模型對(duì)稱關(guān)系,得到5評(píng)分等級(jí)集合的梯形模糊評(píng)分值如式(4)所示。

        (4)

        3.2 模糊相似度計(jì)算

        本文首次將Chen等[13]提出的梯形模糊數(shù)相似度計(jì)算方法引入推薦系統(tǒng)中,以此設(shè)計(jì)了用戶模糊相似度計(jì)算方法,并證明模糊相似度是余弦相似度在模糊域的擴(kuò)展。梯形模糊數(shù)相似度計(jì)算方法考慮了梯形模糊數(shù)的常規(guī)距離和重心距離,如式(5)所示。

        其中,a為梯形的第個(gè)頂點(diǎn),(,)為梯形的重心,如式(6)所示。

        W為梯形的信息量,用來決定是否運(yùn)用重心距離,定義如式(7)所示。

        (7)

        根據(jù)式(5)可以得出2個(gè)用戶關(guān)于一個(gè)項(xiàng)目的相似度,加權(quán)所有項(xiàng)目的相似度就可以得到用戶模糊相似度,如式(8)所示。

        其中,代表用戶和用戶的共同評(píng)過分的項(xiàng)目的集合,R,i表示用戶對(duì)項(xiàng)目的評(píng)分,為用戶評(píng)分的項(xiàng)目數(shù),上式還考慮了用戶共同評(píng)分項(xiàng)目占總評(píng)分項(xiàng)目的比例,更能體現(xiàn)出用戶和間的差異。

        可以證明模糊相似度是余弦相似度在模糊域的擴(kuò)展。

        其中,為用戶和共同評(píng)分的項(xiàng)目集合,()為集合中的項(xiàng)目數(shù),為用戶評(píng)分的項(xiàng)目數(shù)。即曼哈頓距離M,是指2個(gè)點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距離總和,也就是歐氏距離在坐標(biāo)軸上投影的距離總和,歐氏距離E表示2個(gè)點(diǎn)的實(shí)際距離,如式(10)所示。它們的關(guān)系如圖4所示。

        (10)

        3.3 算法的流程

        綜合模糊相似度的計(jì)算,本節(jié)給出Fuzzy-UBCF對(duì)目標(biāo)用戶未知項(xiàng)目的預(yù)測(cè)評(píng)分集的流程。

        算法 Fuzzy-UBCF (,)

        輸入:用戶對(duì)項(xiàng)目的評(píng)分矩陣,用戶鄰居數(shù)。

        Begin:

        1) 用戶相似度計(jì)算。

        ①根據(jù)式(5)計(jì)算目標(biāo)用戶和其他用戶關(guān)于一個(gè)共同評(píng)分的項(xiàng)目的相似度(R,R)。

        ②根據(jù)式(8)得出目標(biāo)用戶和其他用戶的模糊相似度()。

        2) 產(chǎn)生推薦集

        ①挑選出相似度最高的個(gè)用戶,作為鄰居集。

        ②對(duì)近鄰采用平均加權(quán)方法進(jìn)行評(píng)分預(yù)測(cè)[14],如式(12)所示。

        其中,P表示用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分,()表示用戶和用戶之間的相似度,表示用戶項(xiàng)目評(píng)分的均值,通過參數(shù)來減弱平均值對(duì)預(yù)測(cè)評(píng)分的影響,增加預(yù)測(cè)的模糊性,本文令=0.8。

        我們家那時(shí)生活條件差,穿的都是自己家紡織的土布,添置一件新衣服后穿上要愛惜,新衣服平時(shí)不能穿,只是出門時(shí)穿一下。一件衣服大的穿后小的穿,直到爛得不能再穿了。出門時(shí)沒有新衣服就是舊的也要洗干凈,家里人很重視儀表和聲譽(yù)。

        輸出:目標(biāo)用戶未知項(xiàng)目的預(yù)測(cè)評(píng)分集。

        End

        4 算法分析

        4.1 基于用戶模糊相似度算法正確性分析

        傳統(tǒng)相似性同用戶向量的夾角是正相關(guān)關(guān)系,同用戶向量的方向直接相關(guān)。模糊相似度同用戶間的距離是負(fù)相關(guān)關(guān)系,同個(gè)體特征的維度,即同用戶向量的長(zhǎng)度直接相關(guān)。當(dāng)用戶向量的方向保持不變,長(zhǎng)度增加時(shí),傳統(tǒng)相似度的值不變,而向量間的距離會(huì)變大,造成模糊相似度變小。所以項(xiàng)目數(shù)越多,模糊相似度的精確度越低。

        傳統(tǒng)的相似性計(jì)算,是從整體上計(jì)算用戶差異,對(duì)單個(gè)用戶對(duì)項(xiàng)目的評(píng)分值不敏感,項(xiàng)目越多,評(píng)分矩陣越密集,越容易分析其差異,故傳統(tǒng)相似性適用于項(xiàng)目數(shù)多,且評(píng)分稀疏度低的數(shù)據(jù)集。而模糊相似性,分析的是用戶評(píng)分的絕對(duì)差異,對(duì)單個(gè)用戶項(xiàng)目的評(píng)分值敏感,用戶越多,項(xiàng)目數(shù)越小,即用戶項(xiàng)目比越大,越容易分析其差異,故模糊相似性適用于用戶項(xiàng)目比大的評(píng)分矩陣。

        雖然模糊相似度只考慮用戶間的共同評(píng)分項(xiàng)目,一般來說共同評(píng)分項(xiàng)目很少,但本文將評(píng)分模糊化后,可以從項(xiàng)目較少的集合中獲取更多信息,在評(píng)分矩陣很稀疏時(shí)也有很好的效果。故模糊相似度算法適用評(píng)分稀疏且用戶項(xiàng)目比大的數(shù)據(jù)集。

        協(xié)同過濾算法的時(shí)間開銷主要在相似度計(jì)算中,本文只考慮相似性計(jì)算的運(yùn)行時(shí)間,若用戶的數(shù)量為,項(xiàng)目的數(shù)量為,余弦相似度算法的運(yùn)行時(shí)間分析如表1所示。

        表1 余弦相似度算法的運(yùn)行時(shí)間分析

        由于5遠(yuǎn)遠(yuǎn)大于1、2、3和4,故()=52=(2),算法時(shí)間復(fù)雜度為(2)。

        因?yàn)橛脩裟:嗨菩孕枰扔?jì)算(R,R),即用戶對(duì)單個(gè)項(xiàng)目的相似度,但只有5種評(píng)分,(R,R)只有25種可能值,可以提前計(jì)算出,這部分計(jì)算開銷可以忽略不計(jì)。模糊相似度算法的運(yùn)行時(shí)間分析如表2所示。

        表2 模糊相似度算法的運(yùn)行時(shí)間分析

        由于6遠(yuǎn)遠(yuǎn)大于1、2、3和4,故()=62=(2),算法時(shí)間復(fù)雜度為(2)。

        雖然模糊相似度和傳統(tǒng)相似度的算法復(fù)雜度都為(2),但開銷5需要進(jìn)行3+1次乘法,2(?1)加法,2次開方和1次除法,開銷6只需進(jìn)行?1次加法和一次除法,故。Pearson相似度算法的運(yùn)行時(shí)間遠(yuǎn)高于余弦相似度算法的運(yùn)行時(shí)間,所以模糊相似性算法的運(yùn)行時(shí)間遠(yuǎn)小于傳統(tǒng)相似性算法。

        5 實(shí)驗(yàn)與分析

        5.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

        本文使用的是Netflix電影評(píng)分?jǐn)?shù)據(jù)集(評(píng)分值為1~5的整數(shù)),用于Netflix Prize比賽中。Netflix有2個(gè)不同大小的數(shù)據(jù)集,具體參數(shù)如表3所示。

        表3 數(shù)據(jù)集的具體參數(shù)

        本文實(shí)驗(yàn)環(huán)境為:win 7 操作系統(tǒng),8 GB內(nèi)存,Inter(R) Core(TM) i7-2600 CPU 3.40 GHz,實(shí)驗(yàn)程序使用 java 1.5語言開發(fā)。

        5.2 評(píng)價(jià)指標(biāo)

        本文采用平均絕對(duì)誤差作為算法性能的評(píng)價(jià)指標(biāo),如式(13)所示[15]。

        其中,p為算法的預(yù)測(cè)評(píng)分,r為測(cè)試數(shù)據(jù)中的實(shí)際評(píng)分,為測(cè)試集中項(xiàng)目數(shù)目。越小,推薦精度越高。

        5.3 比較算法及參數(shù)確定

        本文采用以下2種算法作為對(duì)比算法。

        余弦相似性的協(xié)同過濾算法(Cosine-CF)是協(xié)同過濾原始的經(jīng)典算法。Pearson相似性的協(xié)同過濾算法(Pearson-CF),在Cosine-CF的基礎(chǔ)上進(jìn)行改進(jìn),是目前應(yīng)用廣泛的算法,并且是基于用戶的共同評(píng)分項(xiàng)目進(jìn)行計(jì)算相似度,和本文提出的算法相同。

        為了選取合理的和,本實(shí)驗(yàn)通過netflix_ 3m1k_split.txt文件,將Netflix_3m1k數(shù)據(jù)集中的95%作為訓(xùn)練集,5%作為測(cè)試集。將各組合的減去基準(zhǔn)(0.735 0),在把差值擴(kuò)大500倍,對(duì)比在不同和組合下大小,實(shí)驗(yàn)結(jié)果如圖5所示??傻?,當(dāng)0.36≤+≤0.38時(shí),值比較小,經(jīng)過多次實(shí)驗(yàn),本文選取=0.13,=0.23進(jìn)行后續(xù)實(shí)驗(yàn)。

        5.4 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)中隨機(jī)將80%的數(shù)據(jù)集作為訓(xùn)練集,20%的數(shù)據(jù)集作為測(cè)試集。為了減少隨機(jī)分割數(shù)據(jù)集帶來的誤差,所有實(shí)驗(yàn)都進(jìn)行10次,取平均值作為最終結(jié)果。

        實(shí)驗(yàn)1 近鄰數(shù)對(duì)算法精度的影響

        當(dāng)近鄰數(shù)從5~50變化時(shí),比較3種算法的大小。實(shí)驗(yàn)結(jié)果如圖6和圖7所示。

        從實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論。

        1) 隨著的增大,3種算法的精度都會(huì)提高,但算法復(fù)雜度也會(huì)增加。當(dāng)>20時(shí),算法精度趨于平穩(wěn),故本文選取=20進(jìn)行后續(xù)實(shí)驗(yàn)。

        2) 在Netflix_3m1k數(shù)據(jù)集中,隨著鄰居數(shù)的變化,F(xiàn)uzzy-UBCF的精確度始終高于Cosine-CF,Cosine-CF的精確度始終高于Pearson-CF。

        3) 在Netflix_5m3k數(shù)據(jù)集中,用戶項(xiàng)目比減小,隨著鄰居數(shù)的變化,F(xiàn)uzzy-UBCF的精確度略低于Cosine-CF,F(xiàn)uzzy-UBCF的精確度始終高于Pearson-CF。

        實(shí)驗(yàn)結(jié)果表明:Fuzzy-UBCF的算法在鄰居數(shù)較少時(shí),有較高的精度,因?yàn)閷⒃u(píng)分模糊化后,一個(gè)鄰居所攜帶的信息更多。當(dāng)用戶項(xiàng)目比減少時(shí),F(xiàn)uzzy-UBCF的精確度就會(huì)下降,因?yàn)镕uzzy-UBCF考慮用戶向量的距離,用戶項(xiàng)目比越小,用戶向量長(zhǎng)度越長(zhǎng),精確度越低。當(dāng)用戶項(xiàng)目比減小時(shí),F(xiàn)uzzy-UBCF性能變差。

        Pearson-CF的效果很差,是因?yàn)楸緮?shù)據(jù)集稀疏度很高,用戶的共同評(píng)分項(xiàng)目很少,Pearson-CF沒有發(fā)揮出自己的優(yōu)勢(shì),在稀疏度低的數(shù)據(jù)集中,Pearson-CF的精度優(yōu)于Cosine-CF。但Fuzzy-UBCF也是通過用戶的共同評(píng)分項(xiàng)目進(jìn)行計(jì)算,說明了Fuzzy-UBCF的優(yōu)點(diǎn)。

        實(shí)驗(yàn)2 稀疏度對(duì)算法精度的影響

        在4.1節(jié)中,分析了Fuzzy-UBCF適用于評(píng)分矩陣稀疏的數(shù)據(jù)集,為了比較稀疏度對(duì)算法精度的影響,本實(shí)驗(yàn)在Netflix_5m3k數(shù)據(jù)集中,保證用戶數(shù)和項(xiàng)目數(shù)不變,減少評(píng)分矩陣的稀疏度,當(dāng)=20,比較3種算法的精度,實(shí)驗(yàn)結(jié)果如圖8所示。

        根據(jù)結(jié)果可以得出以下結(jié)論。

        1) 隨著稀疏度增加,可用信息減少,3種算法的精確度都會(huì)下降。

        2) Pearson-CF的精度很差,不適用于稀疏度高的數(shù)據(jù)集。

        3) 在稀疏度低于99.1%時(shí),F(xiàn)uzzy-UBCF比Cosine-CF稍差,但隨著稀疏度的增高Fuzzy-UBCF的精確度高于Cosine-CF,而Cosine-CF隨稀疏度變大,性能惡化很嚴(yán)重。

        Fuzzy-UBCF將評(píng)分模糊化后,適用于用戶和項(xiàng)目關(guān)系不明顯的數(shù)據(jù)集,也就是適用于稀疏度高的數(shù)據(jù)集。

        實(shí)驗(yàn)3 用戶項(xiàng)目比對(duì)算法精度的影響

        在4.1節(jié)分析中,本文得出Fuzzy-UBCF適用于用戶項(xiàng)目比大的數(shù)據(jù)集,本實(shí)驗(yàn)在Netflix_5m3k數(shù)據(jù)集中,=20,保證用戶和稀疏度不變,減少項(xiàng)目數(shù)來提高用戶項(xiàng)目比,比較3種算法的精度,實(shí)驗(yàn)結(jié)果如圖9所示。

        從結(jié)果可以得出以下結(jié)論。

        1) 隨著用戶項(xiàng)目比增加,3種算法的精確度都會(huì)下降。這是因?yàn)轫?xiàng)目數(shù)減少,可用信息減少,精度會(huì)降低。

        2) 隨著用戶項(xiàng)目比的增加,F(xiàn)uzzy-UBCF的精度會(huì)優(yōu)于傳統(tǒng)的相似性算法。

        可見,F(xiàn)uzzy-UBCF適用于用戶項(xiàng)目比高的數(shù)據(jù)集。在實(shí)際系統(tǒng)中,用戶數(shù)是遠(yuǎn)遠(yuǎn)大于項(xiàng)目數(shù)的,并且數(shù)據(jù)集的稀疏度很高,所以Fuzzy-UBCF有很強(qiáng)的實(shí)用性。

        實(shí)驗(yàn)4 算法運(yùn)行時(shí)間

        在4.2節(jié)中分析了Fuzzy-UBCF的運(yùn)行時(shí)間,本實(shí)驗(yàn)來比較3種算法的運(yùn)行時(shí)間,實(shí)驗(yàn)結(jié)果如圖10所示。

        可以得出,算法的運(yùn)行時(shí)間關(guān)系為Pearson- CF>Cosine-CF>Fuzzy-UBCF。Fuzzy-UBCF的運(yùn)行時(shí)間遠(yuǎn)小于傳統(tǒng)的相似性計(jì)算方法。

        實(shí)驗(yàn)5和參數(shù)對(duì)算法精度的影響

        在3.1節(jié)中,分析了和組合的適用范圍,本實(shí)驗(yàn)對(duì)此進(jìn)行驗(yàn)證。在Netflix_5m3k數(shù)據(jù)集中,保證用戶數(shù)和項(xiàng)目數(shù)不變,減少評(píng)分矩陣的稀疏度,為了避免出現(xiàn)大的誤差,本實(shí)驗(yàn)只對(duì)參數(shù)進(jìn)行微調(diào)。

        當(dāng)=0.23時(shí),分別為0.125、0.13和0.135時(shí),比較Fuzzy-UBCF的精度。由于3組參數(shù)的實(shí)驗(yàn)值很接近,為了便于比較,本文以=0.13、=0.23組合為基準(zhǔn),比較3種組合與=0.13、=0.23組合的差值。實(shí)驗(yàn)結(jié)果如圖11所示。

        從結(jié)果可以得出:當(dāng)不變,變大時(shí),適用稀疏度低的數(shù)據(jù)集;而不變,當(dāng)變小時(shí),適用于稀疏度高的數(shù)據(jù)集。

        當(dāng)0.13,分別為0.225、0.23和0.235時(shí),比較Fuzzy-UBCF的精度。和上實(shí)驗(yàn)一樣,比較3種組合與=0.13,=0.23組合的差值。實(shí)驗(yàn)結(jié)果如圖12所示。

        由實(shí)驗(yàn)結(jié)果可知:當(dāng)不變,變大,適用于稀疏度高的數(shù)據(jù)集;當(dāng)不變,變小時(shí),適用于稀疏度低的數(shù)據(jù)集。

        6 結(jié)束語

        本文提出了一種梯形模糊評(píng)分模型,將離散的評(píng)分模糊化,考慮了評(píng)分信息量等因素,能更合理地表達(dá)用戶的觀點(diǎn),并提出了一種基于用戶模糊相似度的協(xié)同過濾算法,證明了Fuzzy-UBCF是傳統(tǒng)協(xié)同過濾算法在模糊域上的擴(kuò)展,通過與傳統(tǒng)協(xié)同過濾算法比較,實(shí)驗(yàn)結(jié)果表明本文提出的算法有以下優(yōu)點(diǎn)。

        1) Fuzzy-UBCF更適用于評(píng)分矩陣稀疏的數(shù)據(jù)集。

        2) Fuzzy-UBCF適用于用戶項(xiàng)目比大的數(shù)據(jù)集,而現(xiàn)實(shí)的系統(tǒng)中用戶項(xiàng)目比都很大,故Fuzzy-UBCF有很強(qiáng)的實(shí)用性。

        3) Fuzzy-UBCF的算法運(yùn)行時(shí)間遠(yuǎn)小于傳統(tǒng)的協(xié)同過濾算法。

        本文下一步計(jì)劃,考慮用戶的評(píng)分尺度,對(duì)梯形模糊評(píng)分模型進(jìn)行優(yōu)化,并優(yōu)化模糊相似度中信息量計(jì)算部分,尋找到更合理的模糊相似度的加權(quán)方法,進(jìn)一步提高算法精度。

        [1] 榮輝桂, 火生旭, 胡春華, 等. 基于用戶相似度的協(xié)同過濾推薦算法[J]. 通信學(xué)報(bào), 2014,35(2):16-24. RONG H G, HUO S X, HU C H, et al. User similarity based couaborative fettering recommendation algorithm[J]. Journal on Communications, 2014,35(2):16-24.

        [2] 李英壯, 高拓, 李先毅. 基于云計(jì)算的視頻推薦系統(tǒng)的設(shè)計(jì)[J].通信學(xué)報(bào), 2013,34(Z2):138-140. LI Y Z, GAO T, LI X Y. Design of video recommender system based on cloud computing[J]. Journal on Communications, 2013, 34(Z2): 138-140.

        [3] 丁欣, 馬嚴(yán), 吳軍. 適用于校園網(wǎng)的視頻推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].通信學(xué)報(bào), 2013,34(Z2):175-179. DING X, MA Y, WU J. Design and implementation of a video recommendation system in campus network[J]. Journal on Communications, 2013,34(Z2):175-179.

        [4] ZHAO Z D, SHANG M S. User-based collaborative-filtering recommendation algorithms on hadoop[C]//WKDD'10 Third International Conference on Knowledge Discovery and Data Mining. c2010: 478-481.

        [5] YANG J M, LI K F. Recommendation based on rational inferences in collaborative filtering[J]. Knowledge-Based Systems, 2009, 22 (1):105-114.

        [6] HUANG C K. Mining the change of customer behavior in fuzzy time-interval sequential patterns[J]. Applied Soft Computing, 2012, 12(3):1068-1086.

        [7] YAGER R R. Fuzzy logic methods in recommender systems[J]. Fuzzy Sets and Systems, 2003, 136(2):133-149.

        [8] SHAMRI M Y H, BHARADWAJ K K. Fuzzy-genetic approach to recommender system based on a novel hybrid user model[J]. Expert Systems with Applications, 2008, 35(3): 1386-1399 .

        [9] LE H S. HU-FCF: a hybrid user-based fuzzy collaborative filtering method in recommender systems[J]. Expert Systems with Applications, 2014, 41(15):6861-6870.

        [10] LUCAS J P, LUZ N, MORENO M N, et al. A hybrid recommendation approach for a tourism system[J]. Expert Systems with Applications, 2013, 40(9):3532-3550.

        [11] ZADEH L A. Probability measures of fuzzy events[J]. Journal of Mathematical Analysis and Applications, 1968, 23(2):421-427.

        [12] CHEN S H. Ranking generalized fuzzy number with graded mean integration[C]//The Eighth International Fuzzy Systems Association World Congress. c1999: 899-902.

        [13] CHEN S J, CHEN S M. Fuzzy risk analysis based on similarity measures of generalized fuzzy numbers[J]. IEEE Transactions on Fuzzy Systems, 2003, 11(1):45-56.

        [14] ZIEGLER C N, LAUSEN G. Analyzing correlation between trust and user similarity in online communities[J]. Lecture Notes in Computer Science, 2004:251-265.

        [15] 朱郁筱, 呂琳媛. 推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2012, 41(2): 163-175.

        ZHU Y X, LYU L Y. Evaluation metrics for recommender systems[J]. Journal of University of Electronic Science and Technology of China, 2012, 41(2): 163-175.

        User fuzzy similarity-based collaborative filtering recommendation algorithm

        WU Yi-tao, ZHANG Xing-ming, WANG Xing-mao, LI Han

        (National Digital Switching System Engineering and Technological R&D Center, Zhengzhou 450002, China)

        In order to reflect the actual case of human decisions and solve the data sparseness problem of traditional collaborative filtering recommendation algorithm, a trapezoid fuzzy model based on age fuzzy model was proposed. In this model, crisp point was fuzzified into trapezoid fuzzy number and the fuzziness and information of users’ grade was taken into account when calculating user’s similarity by trapezoid fuzzy number. Based on this model, the user fuzzy similarity-based collaborative filtering recommendation algorithm was designed. The algorithm was proved to be an extension of traditional collaborative filtering algorithm in fuzzy fields. The experimental results show that, the proposed algorithm performs better when implemented in the sparse dataset with more user than item, and its running time is much less than traditional collaborative filtering algorithm.

        collaborative filtering, trapezoid fuzzy model, fuzzy distance, fuzzy similarity

        TP393

        A

        10.11959/j.issn.1000-436x.2016024

        2014-12-08;

        2015-06-15

        國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2012CB315901);國(guó)家高技術(shù)研究發(fā)展計(jì)劃(“863”計(jì)劃)基金資助項(xiàng)目(No.2011AA01AA103)

        The National Basic Research Program of China(973 Program)(No.2012CB315901), The National High Technology Research and Development Program of China (863 Program)(No.2011AA01AA103)

        吳毅濤(1991-),男,陜西西安人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、社會(huì)化網(wǎng)絡(luò)、推薦算法。

        張興明(1963-),男,河南新鄉(xiāng)人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心教授,主要研究方向?yàn)橥ㄐ排c信息系統(tǒng)、寬帶信息網(wǎng)絡(luò)等。

        王興茂(1989-),男,遼寧營(yíng)口人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、用戶行為分析、推薦算法。

        李晗(1987-),女,河南湯陰人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心工程師,主要研究方向?yàn)榍度胧较到y(tǒng)。

        猜你喜歡
        用戶實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        国产黄a三级三级三级av在线看| 日本视频一中文有码中文| 无码熟妇人妻av在线网站| a级毛片免费观看在线| 欧美视频在线观看一区二区| 久久精品国产av大片| 国产乱子伦一区二区三区国色天香| 亚洲av永久无码精品一福利| 中文亚洲成a人片在线观看| 国产成人精品日本亚洲语音1| 一区二区中文字幕蜜桃| 精品激情成人影院在线播放| 人妻无码一区二区视频| www插插插无码视频网站| 亚洲中文字幕高清乱码毛片| 国产精品第一二三区久久| 最新亚洲人成网站在线观看| 手机看片福利日韩| 极品少妇在线观看视频| 色吧噜噜一区二区三区| 最近中文字幕视频完整版在线看 | 亚洲av成人片色在线观看| 国产自偷自偷免费一区| 精品国产性色av网站| 日本av不卡一区二区三区| 日本丰满熟妇videossex一| 国内精品九九久久久精品| 日本高清视频在线一区二区三区| 久草视频在线手机免费看| 人妻无码一区二区视频 | 天天躁狠狠躁狠狠躁夜夜躁| 久99久精品视频免费观看v| 丰满人妻被持续侵犯中出在线| 久久久亚洲欧洲日产国码aⅴ| 77777亚洲午夜久久多人| 国产偷闻隔壁人妻内裤av| 中文字幕亚洲乱码熟女1区| 中国国语毛片免费观看视频| 久久这里都是精品一区| 中文字幕亚洲精品专区| 国产精品人妻一码二码|