亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        認(rèn)同度修正下的近相鄰改進(jìn)推薦算法研究

        2022-04-08 03:41:20李劍鋒封林慧于天一
        關(guān)鍵詞:用戶

        李劍鋒,封林慧,于天一

        大連海事大學(xué),遼寧 大連 116026

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)上購(gòu)物消費(fèi)已深入人們的日常生活。根據(jù)用戶的歷史信息,分析用戶的興趣愛(ài)好,為用戶提供更好的個(gè)性化服務(wù),已成為企業(yè)的重要任務(wù),企業(yè)所應(yīng)用的推薦算法發(fā)揮著日益顯著的關(guān)鍵作用[1]。推薦算法研究起源于20世紀(jì)90年代,美國(guó)明尼蘇達(dá)大學(xué)Grouplens小組最先開(kāi)始研究,他們希望制作一個(gè)為用戶個(gè)性化推薦電影的Movielens系統(tǒng)[2]。隨后,眾多學(xué)者也逐步深入擴(kuò)展多個(gè)相關(guān)方面的研究,但電影推薦始終是一個(gè)重要研究領(lǐng)域。如Hwang等人[3]利用電影評(píng)分信息評(píng)測(cè)電影類(lèi)型之間的關(guān)聯(lián)性,并在電影類(lèi)型修正基礎(chǔ)上依據(jù)協(xié)同過(guò)濾方法確立目標(biāo)用戶的推薦電影,結(jié)果表明此方法比原協(xié)同過(guò)濾方法具有更高的推薦準(zhǔn)確性。何明等人[4]考慮項(xiàng)目的類(lèi)型信息,填充分類(lèi)信息下的評(píng)分矩陣,改進(jìn)用戶興趣度計(jì)量方法,解決協(xié)同過(guò)濾算法的稀疏性問(wèn)題,提高了推薦的準(zhǔn)確性、多樣性和新穎性。這些學(xué)者實(shí)際上希望以電影為特定對(duì)象,用以展現(xiàn)推薦算法的效率,然而,由于影響因素眾多,如何有效融合多方因素,更加準(zhǔn)確地為用戶提供個(gè)性化產(chǎn)品一直是關(guān)注的難點(diǎn)。本文則基于認(rèn)同度的視角,融入大眾化認(rèn)同度和個(gè)性化認(rèn)同度,提出一個(gè)新的近相鄰改進(jìn)算法,可以更加高效地挖掘隱藏信息,多種評(píng)價(jià)指標(biāo)結(jié)果表明此算法在很大程度上提升了推薦效果。

        1 推薦算法分類(lèi)及認(rèn)同角度

        推薦算法的種類(lèi)繁多,如基于內(nèi)容的推薦、基于規(guī)則和知識(shí)的推薦、協(xié)同過(guò)濾推薦等等,從不同角度具有不同的劃分方法,但如果僅從涉及到的用戶數(shù)量角度,推薦算法可以大致劃分為單用戶特征推薦和多用戶融合推薦。

        單用戶特征推薦算法主要是以特定用戶的歷史行為數(shù)據(jù)為基礎(chǔ),通過(guò)分析用戶的個(gè)性化特征加以推薦商品。這與信息過(guò)濾技術(shù)較為相似:從特定用戶獲取信息,利用某種方法,如概率統(tǒng)計(jì)、語(yǔ)義分析、馬爾可夫預(yù)測(cè)等,分析出能夠代表此用戶偏好的特征描述,再將符合此特征的物品信息過(guò)濾出來(lái),推薦給此目標(biāo)用戶。例如,楊寶強(qiáng)[5]利用自然語(yǔ)言處理工具,通過(guò)詞頻統(tǒng)計(jì)方法,獲取用戶評(píng)論產(chǎn)品的情感色彩,以此構(gòu)建用戶興趣演化模型,可以為用戶提供更好的推薦服務(wù);江周峰等人[6]在信息熵思想基礎(chǔ)上提出一種社會(huì)標(biāo)簽?zāi):椒?,形成模糊識(shí)別標(biāo)簽下基于內(nèi)容的推薦算法,可以提升高校圖書(shū)推薦的準(zhǔn)確率;張丹等人[7]加入用戶駐留時(shí)間元素,改進(jìn)隱馬爾可夫模型,以此分析用戶的閱讀軌跡,并尋求用戶下一步可能閱讀的新聞,其結(jié)果顯示此推薦算法較大提高了F1評(píng)價(jià)指標(biāo)值。

        多用戶融合推薦算法則更多強(qiáng)調(diào)從多用戶關(guān)系上挖掘隱含信息,利用相似多用戶的共同經(jīng)驗(yàn),避免內(nèi)容信息不完全所導(dǎo)致的推薦不準(zhǔn)確。基于用戶和基于物品的協(xié)同過(guò)濾推薦算法實(shí)際上屬于這一分類(lèi)?;谟脩魠f(xié)同過(guò)濾算法是把用戶按照相似度聚類(lèi)成不同的組,使得同一組內(nèi)的用戶行為特征相像,進(jìn)而將組內(nèi)用戶相似性高的信息或頻繁交互的物品視作備用的推薦。同樣,盡管基于物品的協(xié)同過(guò)濾算法是以物品聚類(lèi),但這種聚類(lèi)也是以多個(gè)用戶認(rèn)知的一致性為基礎(chǔ),對(duì)于某兩個(gè)物品,如利用多個(gè)用戶的評(píng)分情況或參與情況來(lái)確立物品的相似度,而這如果從用戶視角,也是利用了多個(gè)用戶看法相似的融合信息。另外,一些關(guān)聯(lián)規(guī)則推薦也可以看作是利用了多個(gè)用戶的共同行為信息,在一定支持度和置信度基礎(chǔ)上,啤酒和尿布具有關(guān)聯(lián)關(guān)系,可以放在一起推薦給購(gòu)買(mǎi)者,而一些網(wǎng)絡(luò)群組推薦也可以劃分為此類(lèi),如閔磊論述了利用社區(qū)發(fā)現(xiàn)技術(shù)使相似興趣的物品進(jìn)行聚類(lèi),可以緩解冷啟動(dòng)問(wèn)題[8]。

        多用戶融合推薦算法并不意味著摒棄了用戶的個(gè)性化特征,而是強(qiáng)調(diào)個(gè)性化特征的聚合,這個(gè)聚合表明用戶具有相似的偏好"認(rèn)同感",以此作為推薦的依據(jù)。例如,范波等采用對(duì)不同項(xiàng)目類(lèi)型的多個(gè)評(píng)分相似度來(lái)進(jìn)行預(yù)測(cè)評(píng)分,可以準(zhǔn)確描述用戶對(duì)不同類(lèi)型的偏好[9];劉國(guó)梁[10]提出利用項(xiàng)目的客觀標(biāo)簽(如電影的類(lèi)型)描述用戶自身興趣偏好,對(duì)數(shù)量過(guò)多的“熱門(mén)項(xiàng)目”有獨(dú)特見(jiàn)解的用戶的評(píng)分準(zhǔn)確性有一定提高;李征等人[11]利用用戶對(duì)項(xiàng)目類(lèi)型的興趣偏好填充傳統(tǒng)矩陣,將用戶評(píng)分差異因素和項(xiàng)目質(zhì)量因素融入相關(guān)系數(shù)中,再進(jìn)行混合推薦,得到了更好的推薦效果;陸航等人[12]針對(duì)單一評(píng)分相似性計(jì)算不準(zhǔn)確問(wèn)題,融合用戶興趣和評(píng)分差異提出一種新的協(xié)同過(guò)濾算法,其算法具有更高的推薦精度;Cramer等人[13]強(qiáng)調(diào)信任增加了用戶的認(rèn)同感,而這種認(rèn)同感會(huì)有利于增加用戶適應(yīng)推薦系統(tǒng)的效率;Pinata等人[14]將用戶情緒融入傳統(tǒng)的協(xié)同過(guò)濾推薦算法中,實(shí)證表明此情緒認(rèn)知下的協(xié)同過(guò)濾算法優(yōu)于傳統(tǒng)的協(xié)同過(guò)濾推薦算法;Jonice等人[15]提出融入物品描述、用戶興趣和社會(huì)關(guān)系網(wǎng)的聯(lián)接開(kāi)放數(shù)據(jù)的推薦方法,此方法比一般的推薦方法具有更好的推薦準(zhǔn)確性。

        綜上所述,用戶是使用物品的主體,推薦物品建立在用戶某程度認(rèn)同的基礎(chǔ)之上,單用戶特征推薦是尋求特定用戶的個(gè)性化認(rèn)同,而多用戶融合推薦則尋求相似用戶組的共同性認(rèn)同,然而,如何有效地綜合這些認(rèn)同度信息、避免信息缺失并提升推薦效果,這則是一個(gè)關(guān)注難點(diǎn)。以基于物品的協(xié)同過(guò)濾推薦算法為例,求解近相鄰相似度是反映多用戶融合信息的基礎(chǔ),大多數(shù)研究采取事先個(gè)性化特征填充矩陣的方法,這樣會(huì)增強(qiáng)物品之間的相異性,更好地區(qū)分物品相鄰對(duì)象,但這也意味著有可能降低受用戶歡迎物品的地位。在電影推薦中,用戶觀看了某個(gè)一般性電影,從用戶認(rèn)同角度,受到相似用戶組認(rèn)同的等價(jià)地位電影得到的推薦評(píng)分值靠前,然而,不可否認(rèn),多數(shù)用戶還是傾向于觀看大眾觀看較多的電影,其近相鄰算法會(huì)削弱這個(gè)特性,這可以表現(xiàn)為大眾化認(rèn)同度影響。另外,由于用戶認(rèn)同程度不一致,采取統(tǒng)一的相似度計(jì)算度量無(wú)法體現(xiàn)用戶的個(gè)性化特征,對(duì)于同一電影,不同用戶的偏好不同,其近相鄰電影也應(yīng)該是不同的,這也表現(xiàn)為用戶個(gè)性化認(rèn)同度影響。這樣,本文則采取這兩種認(rèn)同度事后修正的思想,即大眾化和個(gè)性化認(rèn)同度修正,提出一個(gè)新的近相鄰改進(jìn)算法,力求更加高效地挖掘隱藏信息,提高推薦算法的效果。

        2 基于認(rèn)同度下的推薦算法

        2.1 算法基本流程

        此推薦算法首先求解電影項(xiàng)之間的皮爾遜相關(guān)系數(shù)以表現(xiàn)用戶的基本認(rèn)同程度。對(duì)于任何兩個(gè)電影項(xiàng)j和i,根據(jù)N個(gè)用戶對(duì)它們的打分情況x和y,如果沒(méi)看則打分為0,其電影項(xiàng)相似度cor(j,i)如公式(1)所示:

        隨后,分別乘以大眾化認(rèn)同度和個(gè)性化認(rèn)同度修正系數(shù),這里不同用戶的修正值有所不同。最后,以修正后的電影相關(guān)項(xiàng)為標(biāo)準(zhǔn),利用top-K近相鄰方法,求解出不同用戶的推薦列表。由此對(duì)基礎(chǔ)的算法做出補(bǔ)充改進(jìn),以更好地融合多方因素,減少信息損失,如圖1所示。

        圖1 認(rèn)同度修正下的推薦算法流程Fig.1 Algorithm process under revised approval-degree recommendation

        2.2 大眾化認(rèn)同度修正系數(shù)

        認(rèn)同度修正系數(shù)是算法關(guān)鍵,在實(shí)際應(yīng)用中,電影已觀看的用戶數(shù)量會(huì)對(duì)潛在用戶產(chǎn)生一定的影響,這是因?yàn)檠蛉盒?yīng),人們很容易受到大眾認(rèn)同度的影響,所以,從大眾角度加入大眾認(rèn)同度修正系數(shù),計(jì)算公式(2)和(3)如下:

        其中,N j表示為某個(gè)電影j的用戶觀看數(shù)量;P j表示為電影j的用戶觀看數(shù)量對(duì)所有電影的平均用戶觀看數(shù)量的比值;b表示為偏移值,通常取0.5;R j則表示為觀看某個(gè)電影j的大眾化認(rèn)度修正系數(shù)。這實(shí)際上是以電影觀看的平均值為度量標(biāo)準(zhǔn),利用Sigmoid函數(shù)進(jìn)行幅度歸一化處理并進(jìn)行偏移,對(duì)比分析大眾對(duì)于電影的喜好程度。如果某電影觀看數(shù)量恰好是電影觀看用戶數(shù)平均值,則其相對(duì)比值減去1之后為0,其Sigmoid函數(shù)值為0.5,再加上偏移值0.5等于1,而其他的電影觀看用戶數(shù)值則經(jīng)過(guò)上述公式計(jì)算圍繞著1變動(dòng),體現(xiàn)為放大或縮小效果。另外,對(duì)于沒(méi)人觀看新電影的最初大眾化認(rèn)同度修正系數(shù)也設(shè)為1,之后則根據(jù)其用戶觀看情況動(dòng)態(tài)地加以調(diào)整。

        2.3 個(gè)性化認(rèn)同度修正系數(shù)

        上述從大眾化角度對(duì)算法進(jìn)行了修正,但用戶還存在著自身的個(gè)性化偏好特點(diǎn),例如,雖然冒險(xiǎn)類(lèi)電影很受大眾歡迎,但有的用戶就是不喜歡這種緊張刺激的類(lèi)型,寧愿看一些輕松歡快的喜劇類(lèi)型,這樣就需要在改進(jìn)算法中加入個(gè)性化認(rèn)同度因素,本文利用用戶個(gè)體觀看電影的類(lèi)型因素來(lái)求解個(gè)性化認(rèn)同度修正系數(shù),計(jì)算公式(4)如下:

        其中,N ug表示為用戶u看過(guò)的g類(lèi)型電影數(shù)量,t表示為電影類(lèi)型總數(shù)。這里采用了近似求相對(duì)比值方法,因?yàn)榇嬷恍┛措娪皵?shù)較少的用戶,如果他只看了一次某類(lèi)型電影,很難說(shuō)此用戶就完全不喜歡其他類(lèi)型電影,所以增加了修正常數(shù)1,模糊這種數(shù)量少時(shí)類(lèi)型偏好劃分,而當(dāng)用戶觀看的電影數(shù)量逐漸增大,這種修正常數(shù)的模糊效果會(huì)逐漸減少,用戶喜歡電影類(lèi)型會(huì)更加明確,并且,這也可以避免求解沒(méi)看過(guò)任何電影冷用戶時(shí)分母數(shù)值為0的情況。

        之后,仍然利用sigmoid函數(shù)歸一化處理,防止數(shù)據(jù)的幅度偏大而導(dǎo)致傳遞時(shí)效果不好的問(wèn)題,并且,引入了偏移值b=0.5,使得平均值通過(guò)計(jì)算定位于1,如公式(5)所示:

        然而,電影的類(lèi)型并不一定唯一,可能存在著多種類(lèi)型,可能是冒險(xiǎn)類(lèi)型,同時(shí)又是動(dòng)作和羅曼蒂克類(lèi)型,所以對(duì)于某個(gè)電影,用戶的個(gè)性化度量值需要進(jìn)行平均化處理,計(jì)算公式(6)如下:

        其中,h表示某個(gè)電影j所具有的類(lèi)型數(shù)(h≥1),這樣,對(duì)于不同的用戶u而言,喜歡的電影類(lèi)型不有所同,所面對(duì)的電影j的修正系數(shù)也是不同的,從而體現(xiàn)個(gè)性化認(rèn)同度的修正效果。

        2.4 認(rèn)同修正后top-k近相鄰算法

        求解大眾化認(rèn)同度系數(shù)和個(gè)性化認(rèn)同度系數(shù)之后,就可以借此將大眾趨勢(shì)和個(gè)性偏好融入傳統(tǒng)的近相鄰算法中,如公式(7)所示:

        其中,u表示為某個(gè)用戶,i表示為用戶u看過(guò)的電影,j表示用戶u還可能選擇看的電影,cor(j,i),R j和R uj分別為前文公式的中相關(guān)系數(shù)、大眾化認(rèn)同度系數(shù)和個(gè)性化認(rèn)同度系數(shù),R uji則是用戶u在電影i相鄰的可供選擇電影j集合的綜合排序值,這樣,選擇不同的k相鄰值,就可以限定閾值范圍為用戶推薦不同的電影,如圖2所示。

        圖2 認(rèn)同度修正下k相鄰改進(jìn)過(guò)程Fig.2 Improving process of k-nearest neighbors under revised approval-degree recommendation

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采用明尼蘇達(dá)大學(xué)Grouplens小組的兩個(gè)推薦算法的經(jīng)典數(shù)據(jù)集,分別是ml-latest-small和ml-100k數(shù)據(jù)集,兩者都去除了非類(lèi)型標(biāo)記的記錄(no genres listed和unkown),包括10萬(wàn)條左右的評(píng)價(jià)記錄數(shù),對(duì)兩個(gè)數(shù)據(jù)集都進(jìn)行隨機(jī)八二劃分,形成訓(xùn)練集和驗(yàn)證集合,之后求證上文所提出的認(rèn)同度修正下的近相鄰改進(jìn)算法的效果。

        3.2 評(píng)價(jià)指標(biāo)

        經(jīng)過(guò)多個(gè)評(píng)價(jià)指標(biāo)分析,都表明此算法在很大程度提升了推薦效果,評(píng)價(jià)指標(biāo)包括:查準(zhǔn)率(precision)、查全率(recall)、假正率(FPR)、F1值(F1)、深度(depth)和提升度(lift)。

        依據(jù)預(yù)測(cè)值與實(shí)際值相互對(duì)映,實(shí)驗(yàn)樣本可以分為真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)。查準(zhǔn)率又稱(chēng)之為精確率,表示為預(yù)測(cè)中真的正例數(shù)占所有預(yù)測(cè)為正的例數(shù)比值,反映預(yù)測(cè)正例的可信性;查全率又被稱(chēng)為召回率、靈敏度和真正率,表示為預(yù)測(cè)中真的正例數(shù)占實(shí)際為正的例數(shù)比值,反映推薦正例的覆蓋性;假正率表示為被錯(cuò)誤地預(yù)測(cè)為正的例數(shù)占所有實(shí)際為負(fù)的例數(shù)比值,反映多少負(fù)樣本被錯(cuò)誤地預(yù)測(cè)為正樣本;F1值表示為2倍查準(zhǔn)率和查全率的乘積占兩者之和的比值,反映查準(zhǔn)率和查全率的調(diào)和程度;深度表示為預(yù)測(cè)為正的例數(shù)占全部樣本數(shù)C的比值,反映推薦正樣本的進(jìn)度;提升度表示為預(yù)測(cè)正例的可信性與實(shí)際正比例的比值,也等于真正率(TPR)與深度(depth)的比值,反映推薦的提升效果。如公式(8)~(13)所示:

        在算法求解過(guò)程中,主要將近相鄰的k值設(shè)為從1到100的10等分?jǐn)?shù)值,依次求解推薦算法的評(píng)價(jià)指標(biāo)值,這樣可以在不同狀況下,分析基于認(rèn)同度修正下的改進(jìn)算法與傳統(tǒng)近相鄰算法的對(duì)比效果,具體如表1和表2所示。

        表1 數(shù)據(jù)集ml-latest-small的評(píng)價(jià)指標(biāo)變動(dòng)比率Table 1 Change ration of evaluation indicators through ml-latest-small dataset

        表2 數(shù)據(jù)集ml-100k的評(píng)價(jià)指標(biāo)變動(dòng)比率Table 2 Change ration of evaluation indicators through ml-100k dataset

        從表1可以看到,在ml-latest-small數(shù)據(jù)集中,相對(duì)于傳統(tǒng)的近相鄰算法,認(rèn)同度修正下的推薦算法各方面評(píng)價(jià)值都得到了提高。表1中數(shù)為修正算法值減去傳統(tǒng)算法值再除以傳統(tǒng)算法值,表示為變動(dòng)比率。近相鄰的k值從1到100過(guò)程中,各用戶平均假正率變動(dòng)都是負(fù)值,說(shuō)明修正算法比傳統(tǒng)算法的認(rèn)錯(cuò)性得以降低,不同k值下的平均假正率減少了29.3個(gè)百分點(diǎn)。深度變動(dòng)也都是負(fù)值,說(shuō)明改進(jìn)算法的推薦數(shù)量比例比傳統(tǒng)算法有所減少,不同k值下平均減少了28.7個(gè)百分點(diǎn),但這種推薦數(shù)量減少仍實(shí)現(xiàn)了查準(zhǔn)率、查全率、F1值和提升度各個(gè)評(píng)價(jià)指標(biāo)的提高:查準(zhǔn)率變動(dòng)都是正值,說(shuō)明修正算法比傳統(tǒng)算法的預(yù)測(cè)可信性得以增加,平均提高39.5個(gè)百分點(diǎn);查全率變動(dòng)都大于等于0,說(shuō)明修正算法比傳統(tǒng)算法的預(yù)測(cè)覆蓋性也有所增大,平均提高1.1個(gè)百分點(diǎn);F1值變動(dòng)也都是正值,盡管查準(zhǔn)率和查全率存在沖突,說(shuō)明修正算法比傳統(tǒng)算法對(duì)于兩者的調(diào)和程度也有所變好,平均提高37.1個(gè)百分點(diǎn);提升度變動(dòng)也都是正值,說(shuō)明修正算法比傳統(tǒng)算法的提升效果也有所增長(zhǎng),平均提高37.3個(gè)百分點(diǎn)。由此可見(jiàn),通過(guò)mllatest-small數(shù)據(jù)集測(cè)試,無(wú)論是越小越好的負(fù)向指標(biāo)(假正率和深度),還是越大越好的正向指標(biāo)(查準(zhǔn)率、查全率、F1值和提升度),修正算法推薦效果都優(yōu)于傳統(tǒng)算法,并且具有較為明顯的提高比例。

        同樣,從表2可以看到,在ml-100k數(shù)據(jù)集中,相對(duì)于傳統(tǒng)的近相鄰算法,認(rèn)同度修正下算法也具有較好的推薦效果。對(duì)于不同的近相鄰k值,各用戶平均假正率變動(dòng)也都是負(fù)值,修正算法的認(rèn)錯(cuò)性得以降低,不同k值下的平均假正率減低了26.4個(gè)百分點(diǎn)。深度變動(dòng)也都是負(fù)值,不同k值下修正算法的推薦數(shù)量比例平均減少了25.5個(gè)百分點(diǎn)。然而,查全率指標(biāo)卻有所減弱,不同k值下的平均查全率降低了3.5個(gè)百分點(diǎn),但查準(zhǔn)率、F1值和提升度這些指標(biāo)都得到大幅度提高:查準(zhǔn)率變動(dòng)皆為正值,說(shuō)明修正算法所提供的正例比值增加,其預(yù)測(cè)可信性得以加強(qiáng),平均提高29.1個(gè)百分點(diǎn);F1值變動(dòng)皆為正值,說(shuō)明盡管查全率變?nèi)?,但查?zhǔn)率和查全率的綜合評(píng)價(jià)調(diào)合指標(biāo)F1值仍然得到較大提高,平均提高26.5個(gè)百分點(diǎn);提升度變動(dòng)皆為正值,修正算法的提升效果也有所增長(zhǎng),平均提高29.4個(gè)百分點(diǎn)。由上所述,雖然ml-l00數(shù)據(jù)集的測(cè)試結(jié)果不如ml-latest-small數(shù)據(jù)集,且查全率指標(biāo)有所減弱,但波動(dòng)幅度較小,而其他評(píng)價(jià)指標(biāo)(假正率、深度、查準(zhǔn)率、F1值和提升度)都得到大副度提升,這些負(fù)向指標(biāo)和正向指標(biāo)的變好程度都達(dá)到20%~30%,因此,通過(guò)ml-l00k數(shù)據(jù)集測(cè)試,同樣表明修正算法具有顯著的推薦效果。

        3.3 評(píng)價(jià)曲線

        由于評(píng)價(jià)指標(biāo)存在關(guān)聯(lián)性,也可以利用指標(biāo)之間關(guān)聯(lián)評(píng)價(jià)曲線來(lái)形象反映推薦算法的效果,常用推薦評(píng)價(jià)曲線有受試者特征曲線(receiver operating characteristic curve,ROC)和提升曲線(depth-lift)。

        ROC曲線最早于二戰(zhàn)時(shí)雷達(dá)探測(cè)中評(píng)判信號(hào)偵察模型的好壞,后用于分析推薦算法效果的優(yōu)劣。該曲線中橫坐標(biāo)為假正率(FPR),縱坐標(biāo)為真正率(TPR),或稱(chēng)查全率、召回率和靈敏度,曲線上各點(diǎn)表示為針對(duì)不同閾值信號(hào)刺激下的假正率和真正率的共同感受性。通過(guò)該曲線進(jìn)行度量所考慮的目的是:盡可能保持少負(fù)樣本被錯(cuò)誤地預(yù)測(cè)為正樣本(假正率),同時(shí)檢驗(yàn)出更多的正類(lèi)個(gè)體(真正率)。

        圖3和圖4分別顯示根據(jù)ml-latest-small和ml-100k數(shù)據(jù)集所計(jì)算的認(rèn)同度修正算法和傳統(tǒng)近相鄰算法的ROC曲線,修正算法符號(hào)為“■”,傳統(tǒng)算法符號(hào)為“○”,圖中點(diǎn)表示近相鄰k值從1到100的10等分?jǐn)?shù)值所對(duì)應(yīng)于假正率和真正率??梢悦黠@看出,相同k點(diǎn)情況下,兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果都表明修正算法比傳統(tǒng)算法具有更小假正率和更大真正率,并且,修正算法點(diǎn)更加聚集于二維圖左側(cè),說(shuō)明修正算法可以在較小錯(cuò)誤情況下推薦更多地覆蓋用戶所看的電影,其推薦算法效果更加顯著。

        圖3 數(shù)據(jù)集ml-latest-small的受試者特征曲線ROCFig.3 Receiver operating characteristic curve through ml-latest-small dataset

        圖4 數(shù)據(jù)集ml-100k的受試者特征曲線ROCFig.4 Receiver operating characteristic curve through ml-100k dataset

        除了ROC曲線,提升曲線也是常用的推薦算法效果的評(píng)價(jià)曲線,提升曲線的橫軸表示為深度(depth),縱軸表示為提升度(lift),該曲線反映算法隨著不同挖掘深度所對(duì)應(yīng)的不同提升效率。

        圖5和圖6則分別顯示兩個(gè)數(shù)據(jù)集下所計(jì)算的認(rèn)同度修正算法和傳統(tǒng)近相鄰算法的提升曲線。圖中樣本點(diǎn)表示近相鄰k值從1到100的10等分?jǐn)?shù)值所對(duì)應(yīng)于兩者指標(biāo),修正算法符號(hào)為“■”,傳統(tǒng)近相鄰算法符號(hào)為“○”。很明顯可以看出,相同k點(diǎn)情況下,兩個(gè)數(shù)據(jù)集下修正算法比傳統(tǒng)算法都具有更小深度和更大提升度,說(shuō)明修正算法可以在較小推薦數(shù)量條件下(深度)得到較大的提升效果(提升度),即更大的預(yù)測(cè)正例的可信性與實(shí)際正比例的比值,也可以說(shuō)明深度隨之的正樣本覆蓋比例也有所增加。

        圖5 數(shù)據(jù)集ml-latest-small的提升曲線Fig.5 Lifting curve through ml-latest-small dataset

        圖6 數(shù)據(jù)集ml-100k的提升曲線Fig.6 Lifting curve through ml-100k dataset

        4 結(jié)論

        本文提出了一種認(rèn)同度修正下的推薦算法,將大眾化認(rèn)同度和個(gè)性化認(rèn)同度系數(shù)融入近相鄰算法中,可以更加高效地挖掘隱藏信息。通過(guò)在兩個(gè)數(shù)據(jù)集mllatest-small和ml-100k數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明:盡管查全率小幅度上下波度,但其他多個(gè)評(píng)價(jià)指標(biāo)都得到極大提升,假正率和深度有所減少,查準(zhǔn)率、F1值和提升度得以增加,并且,受試者特征曲線和提升曲線也都說(shuō)明此修正算法具有更為顯著的推薦效果。

        猜你喜歡
        用戶
        雅閣國(guó)內(nèi)用戶交付突破300萬(wàn)輛
        您撥打的用戶已戀愛(ài),請(qǐng)稍后再哭
        關(guān)注用戶
        關(guān)注用戶
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        關(guān)注用戶
        挖掘用戶需求尖端科技應(yīng)用
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        国产AV无码专区久久精品网站| 精品人妖一区二区三区四区| 国产a在亚洲线播放| 亚洲国产另类久久久精品黑人| 精品亚洲午夜久久久久| 中文字幕色婷婷在线视频| 精品人妻一区二区三区浪人在线| 精品少妇人妻av无码专区| 亚洲人成亚洲人成在线观看| 最新亚洲av日韩av二区一区| 美女主播网红视频福利一区二区| 免费无码毛片一区二区app| 久青草国产视频| 亚洲一区精品一区在线观看| 新中文字幕一区二区三区| 精品欧洲av无码一区二区| 好爽受不了了要高潮了av| 亚洲国产线茬精品成av| 亚洲午夜无码毛片av久久| 午夜福利92国语| 99re国产电影精品| 亚洲本色精品一区二区久久| 久久综合九色综合久99| 久久综合第一页无码| 国产性感丝袜美女av| 伊人久久精品亚洲午夜| 香港日本三级亚洲三级| 国产在线一区二区三区av| 亚洲熟妇av一区二区三区hd | 狠狠色婷婷久久综合频道日韩| 四虎永久免费影院在线| 成人一区二区三区蜜桃| 人禽杂交18禁网站免费| 欧美gv在线观看| 98精品国产高清在线xxxx| 成人免费av色资源日日| 我爱我色成人网| 中文亚洲爆乳av无码专区| 麻豆精品国产免费av影片| 韩国三级大全久久网站| 亚洲狠狠网站色噜噜|