亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于項(xiàng)目特征與用戶興趣模糊性的推薦算法

        2022-09-22 05:59:40黃向春趙芬霞安建業(yè)
        軟件導(dǎo)刊 2022年9期
        關(guān)鍵詞:用戶

        黃向春,趙芬霞,安建業(yè)

        (天津商業(yè)大學(xué)理學(xué)院 天津 300134)

        0 引言

        隨著大數(shù)據(jù)時(shí)代到來(lái),各種數(shù)據(jù)信息快速增長(zhǎng)。在面臨海量數(shù)據(jù)時(shí),用戶通常需要花費(fèi)大量時(shí)間尋找感興趣的信息,信息過(guò)載已成為互聯(lián)網(wǎng)發(fā)展不得不面對(duì)的挑戰(zhàn)。

        為此,推薦系統(tǒng)應(yīng)運(yùn)而生。該系統(tǒng)通過(guò)收集用戶歷史信息或行為數(shù)據(jù)建立用戶或項(xiàng)目特征模型,預(yù)測(cè)用戶感興趣的信息然后推薦給用戶。如果電商網(wǎng)站能將用戶感興趣的產(chǎn)品準(zhǔn)確推薦給用戶,不僅能夠增加電商網(wǎng)站的銷量,還能提升用戶對(duì)網(wǎng)站設(shè)計(jì)的滿意度,產(chǎn)生巨大的商業(yè)價(jià)值[1]。

        根據(jù)推薦策略不同,推薦系統(tǒng)可分為基于內(nèi)容的推薦、基于知識(shí)的推薦、基于規(guī)則的推薦、協(xié)同過(guò)濾的推薦、混合推薦等。其中,協(xié)同過(guò)濾推薦是目前發(fā)展最成熟、應(yīng)用最廣泛的個(gè)性化推薦技術(shù)[2-6]。該類系統(tǒng)通過(guò)尋找與目標(biāo)用戶興趣相似的“鄰居”,給目標(biāo)用戶推薦可能感興趣的信息,系統(tǒng)整體設(shè)計(jì)較為簡(jiǎn)單,僅基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法就能夠取得較好推薦效果。

        然而,協(xié)同過(guò)濾推薦算法的推薦效果嚴(yán)重依賴于用戶的歷史偏好信息,當(dāng)該類信息無(wú)法被收集或信息量過(guò)少時(shí),會(huì)造成數(shù)據(jù)稀疏程度較高。此時(shí),項(xiàng)目評(píng)價(jià)信息的真實(shí)性和有效性將無(wú)法得到保證[7],協(xié)同過(guò)濾算法的推薦效果也會(huì)相應(yīng)降低。

        1 相關(guān)研究

        目前,為解決項(xiàng)目評(píng)分矩陣稀疏性問(wèn)題的方法種類較多。例如,Ma[8]首先提出將SVD 矩陣分解應(yīng)用于協(xié)同過(guò)濾推薦,在Netflix Prize 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法推薦準(zhǔn)確率相較于基準(zhǔn)算法具有一定的提升,且推薦結(jié)果穩(wěn)定性較強(qiáng)。Goldberg 等[9]利用主成分分析降維技術(shù)構(gòu)建推薦算法,并將其成功應(yīng)用于“笑話”推薦上,實(shí)踐結(jié)果表明算法效果較好。李紅梅等[10]提出一種改進(jìn)LSH 的協(xié)同過(guò)濾算法,該算法有效克服評(píng)分?jǐn)?shù)據(jù)的高維稀疏問(wèn)題。然而,上述算法并未考慮項(xiàng)目特征或用戶偏好的模糊性問(wèn)題。

        為此,Zhang 等[11]使用三角模糊數(shù)描述用戶對(duì)項(xiàng)目的綜合評(píng)價(jià),根據(jù)三角形面積和中點(diǎn)衡量三角模糊數(shù)的相似度,確定用戶相似度,提升相似度計(jì)算的準(zhǔn)確率。然而,三角模糊數(shù)中隸屬度的最大值只對(duì)應(yīng)一個(gè)點(diǎn),靈活性低于梯形模糊數(shù),可擴(kuò)展性較差。吳毅濤等[12]借鑒年齡模糊模型,將滿意度映射到原始評(píng)分上,通過(guò)梯形模糊相似度計(jì)算策略衡量用戶相似度提升推薦效果[13-15],同時(shí)證明模糊相似度是余弦相似度在模糊域上的擴(kuò)展,實(shí)驗(yàn)結(jié)果表明該算法的預(yù)測(cè)精度優(yōu)于基于三角模糊數(shù)的協(xié)同過(guò)濾算法。然而,該模型的結(jié)構(gòu)相對(duì)固定,無(wú)法隨數(shù)據(jù)集和用戶的改變自動(dòng)調(diào)整。Wu等[16]在文獻(xiàn)[9]的基礎(chǔ)上,根據(jù)評(píng)分分布情況自動(dòng)生成個(gè)性化梯形模糊評(píng)分模型,基于模糊相似度和模糊評(píng)分預(yù)測(cè)評(píng)分提升推薦質(zhì)量,實(shí)驗(yàn)結(jié)果表明該算法的預(yù)測(cè)誤差更低。王森等[17]構(gòu)建一種新的梯形模糊評(píng)分模型,通過(guò)融合基于模糊評(píng)分的項(xiàng)目相似度和基于標(biāo)簽隸屬度的項(xiàng)目相似度形成新的項(xiàng)目相似度,進(jìn)一步提升了推薦準(zhǔn)確率。

        然而,項(xiàng)目特征和用戶興趣均具有一定程度的模糊性。例如,對(duì)電影《戰(zhàn)狼1》進(jìn)行項(xiàng)目特征劃分時(shí),它的所屬類別并非是絕對(duì)的、唯一的,多數(shù)觀眾認(rèn)為它屬于動(dòng)作類、軍事類、戰(zhàn)爭(zhēng)題材的電影,但也有一部分觀眾認(rèn)為它是愛(ài)情類電影。為了綜合所有觀眾的評(píng)價(jià),設(shè)定《戰(zhàn)狼1》隸屬于動(dòng)作類電影的程度為80%;隸屬于軍事類電影的程度為85%;隸屬于愛(ài)情類電影的程度為20%。同理,用戶對(duì)電影的喜愛(ài)程度也可按照此情況進(jìn)行劃分。通過(guò)綜合考慮用戶興趣和項(xiàng)目相似度來(lái)計(jì)算推薦信任分,據(jù)此給出更為準(zhǔn)確的推薦結(jié)果。

        2 算法描述

        2.1 模糊集和隸屬函數(shù)

        設(shè)在論域X上給定集值映射μA:X→[0,1],記作μA(x),即μA確定了X上的一個(gè)模糊集,記為A,μA(x)為x對(duì)A的隸屬度,記為:A={(x,μA(x))|x∈X}。在模糊理論中,常見(jiàn)模糊集包括矩陣型、三角形、梯形、K 次拋物線型、高斯型、柯西型等。

        2.2 項(xiàng)目特征隸屬度矩陣

        隸屬度可用來(lái)描述項(xiàng)目對(duì)于不同類別的所屬程度。例如,對(duì)項(xiàng)目Ij(j=1,2,…,N)而言,將項(xiàng)目所屬類別定義在空間X={x1,x2,…,xK}中,Ij的隸屬度函數(shù)可表示為μk(Ij)[18]。本文采用類高斯隸屬函數(shù)[19]描述項(xiàng)目的特征模糊性。計(jì)算公式如式(1)所示:

        其中,N=|Lj|為項(xiàng)目Ij所對(duì)應(yīng)項(xiàng)目特征屬性的個(gè)數(shù),rk(1 ≤rk≤|Lj|)為項(xiàng)目Ij屬于第k個(gè)類別的秩,α一般設(shè)置為1.2[20],μk(Ij)是關(guān)于rk的遞減函數(shù),以電影數(shù)據(jù)集為例,排序靠前的類別可賦予高的隸屬度,與電影無(wú)關(guān)的類別其隸屬度可賦予0。

        然而,不同電影之間相同的所屬類別,由于所在位序存在不同,對(duì)應(yīng)的隸屬度也會(huì)不同[21]。例如,電影Toy Story(選自MovieLens 100K 數(shù)據(jù)集),類別有Adventure、Animation、Children′s,所屬類別的秩依次為rk=1、2、3,這3 個(gè)類別在所有類別中的序號(hào)依次為3、4、5。根據(jù)式(1)計(jì)算電影Toy Story 對(duì)應(yīng)類別的隸屬程度分別為:μ3(Ij)=1、μ4(Ij)=0.536、μ5(Ij)=0.467、μk(Ij)=0,(k=1,2,6,7,···,19),k表示電影的類別序號(hào),即電影Toy Story 屬于Adventure、Animation、Children′s的隸屬程度分別為1、0.536、0.467。

        本文從MovieLens 100k 電影數(shù)據(jù)集中,選取用戶5 的觀影記錄,觀影記錄所屬類別的隸屬度如表1所示。

        Table 1 Film category membership表1 電影類別隸屬度

        2.3 用戶類別偏好矩陣

        利用類高斯隸屬度函數(shù)可構(gòu)建項(xiàng)目特征隸屬度矩陣UN×K,N、K分別表示項(xiàng)目總數(shù)和項(xiàng)目特征個(gè)數(shù)。將單個(gè)用戶的項(xiàng)目特征隸屬度矩陣按列相加,結(jié)果表示用戶訪問(wèn)項(xiàng)目類別隸屬程度的總和,總和越大表示用戶對(duì)該類別項(xiàng)目的喜歡程度越高?;诖?,生成該用戶的類別偏好向量s[15]。s=(p1,p2,…,p19),將s歸一化為s′=(s1,s2,…,s19),其中sk為:

        最后,將所有用戶的類別偏好向量作為行,構(gòu)造用戶類別偏好矩陣SM×K。其中,M表示用戶個(gè)數(shù),K為項(xiàng)目類別個(gè)數(shù)。

        2.4 用戶興趣模型

        由于用戶對(duì)項(xiàng)目的評(píng)分受用戶類別偏好的影響,因此對(duì)于兩種不同類別的項(xiàng)目,相同的項(xiàng)目評(píng)分可能代表著不同的喜好程度。為此,通過(guò)用戶類別偏好矩陣SM×K對(duì)用戶評(píng)分矩陣RM×N進(jìn)行修正。計(jì)算公式如下:

        其中,r′mn為第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目修正后的評(píng)分,rmn為第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目的原始分,Kn為第n個(gè)項(xiàng)目所屬項(xiàng)目類別的總數(shù),設(shè)其所對(duì)應(yīng)的類別序號(hào)依次為為第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目所屬第ij類型的偏好程度,修正后的用戶項(xiàng)目評(píng)分矩陣記為。通過(guò)用戶類別偏好矩陣修正后的用戶項(xiàng)目評(píng)分?jǐn)?shù)據(jù)更離散化,能準(zhǔn)確代表用戶對(duì)項(xiàng)目的喜好程度。

        然后,利用修正后的用戶項(xiàng)目評(píng)分矩陣構(gòu)建項(xiàng)目Ij的用戶興趣模型。在構(gòu)造用戶興趣模型時(shí),將用戶對(duì)電影的興趣分為非常喜歡、喜歡、不喜歡和非常不喜歡,由于要將修正后的評(píng)分均值作為用戶喜歡和不喜歡的臨界點(diǎn),在多次實(shí)驗(yàn)測(cè)試后,選擇將0.75 為臨界點(diǎn),構(gòu)建的梯形隸屬度函數(shù)如下:

        其中,x為用戶u對(duì)項(xiàng)目的修正評(píng)分值,為用戶u修正評(píng)分的均值,x0.75為用戶u修正評(píng)分的0.75 分位數(shù)。電影數(shù)據(jù)用戶的評(píng)分最高為5,因此x的上限設(shè)定為5,并定義用戶喜歡的項(xiàng)目集合為

        2.5 推薦信任分

        經(jīng)過(guò)多次實(shí)驗(yàn)比較后,本文選用cosine 余弦計(jì)算項(xiàng)目之間的相似度,即項(xiàng)目Ii和Ij的相似度計(jì)算公式為:

        接下來(lái),綜合用戶的興趣和項(xiàng)目間的相似度計(jì)算推薦信任分,計(jì)算公式如式(6)所示:

        其中,μIn(x)為用戶對(duì)項(xiàng)目In的喜歡程度,S(In,Ij)為In與要推薦項(xiàng)目Ij之間的相似度,推薦信任分R(Ij)表示用戶喜好程度與相似程度的加權(quán)和,數(shù)值越高表示推薦信任分越高。

        最后,根據(jù)R(Ij)大小產(chǎn)生Top -N 進(jìn)行推薦。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集

        MovieLens 100k 數(shù)據(jù)集包括943 個(gè)用戶對(duì)1 682 部電影的10 萬(wàn)條評(píng)分?jǐn)?shù)據(jù),電影類別總共有19 種,分別為動(dòng)作、冒險(xiǎn)、動(dòng)畫等。每名用戶至少對(duì)20 部、至多對(duì)737 部電影進(jìn)行評(píng)分,評(píng)分為1-5的整數(shù)。

        實(shí)驗(yàn)采用準(zhǔn)確率(Precision)和召回率(Recall)作為系統(tǒng)評(píng)價(jià)指標(biāo),計(jì)算公式如式(7)、式(8)所示:

        其中,用戶u推薦的P個(gè)物品記為R(u),用戶u在測(cè)試集上喜歡的物品集合為T(u)。

        3.2 實(shí)驗(yàn)步驟

        本文實(shí)驗(yàn)具體步驟如下:

        步驟1:調(diào)用MovieLens 100k 數(shù)據(jù)集中的u.data 文件(用戶電影評(píng)分?jǐn)?shù)據(jù)),生成用戶電影評(píng)分矩陣。

        步驟2:輸入數(shù)據(jù)集中的u.Item 文件(電影所屬類別數(shù)據(jù)),根據(jù)公式(1)生成電影所屬類別的隸屬度矩陣。

        步驟3:根據(jù)電影所屬類別和用戶的觀影記錄,根據(jù)公式(2)構(gòu)建用戶—電影類別偏好矩陣。

        步驟4:通過(guò)用戶—電影類別偏好矩陣,根據(jù)公式(3)對(duì)用戶電影評(píng)分矩陣進(jìn)行評(píng)分修正。

        步驟5:基于修正后的評(píng)分,根據(jù)公式(4)獲得用戶喜歡的項(xiàng)目集合E。

        步驟6:從數(shù)據(jù)集中隨機(jī)抽取100 個(gè)用戶作為樣本,將單個(gè)用戶修正后的電影評(píng)分劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集的大小依次為5、15、25、35、45、55,剩余樣本作為測(cè)試集。

        步驟7:通過(guò)用戶興趣模型確定每個(gè)用戶感興趣的項(xiàng)目個(gè)數(shù),并通過(guò)式(5)、式(6)計(jì)算測(cè)試集的電影推薦信任分。

        步驟8:根據(jù)推薦信任分產(chǎn)生Top -N,計(jì)算推薦的準(zhǔn)確率(Precision)及召回率(Recall)。

        3.3 實(shí)驗(yàn)結(jié)果

        本文提出的基于項(xiàng)目特征與用戶興趣模糊性的推薦算法(Based on the fuzziness of item features and user interest method,F(xiàn)IUM)分別選擇了5、15、25、35、45、55 的訓(xùn)練集個(gè)數(shù),推薦Top-5的準(zhǔn)確率如圖1所示。

        Fig.1 Accuracy of FIUM algorithm圖1 FIUM算法準(zhǔn)確率

        由圖1 可見(jiàn),隨著訓(xùn)練集數(shù)目增加,推薦準(zhǔn)確率先增加再減少,最后趨于穩(wěn)定,表明一旦訓(xùn)練集的數(shù)目足夠代表用戶興趣時(shí),增加訓(xùn)練集的個(gè)數(shù)將不再提高推薦準(zhǔn)確率。

        接下來(lái),將FIUM 與基于用戶的協(xié)同過(guò)濾推薦算法(User-based-CF,UCF)和基于項(xiàng)目的協(xié)同過(guò)濾推薦算法(Item-based-CF,ICF)進(jìn)行比較。設(shè)定UCF 的鄰居個(gè)數(shù)與ICF 相似項(xiàng)目個(gè)數(shù)K為9,F(xiàn)IUM 的訓(xùn)練集個(gè)數(shù)同樣設(shè)置為9,N取1-300,算法的Top -N 推薦準(zhǔn)確率及召回率分別如圖2、圖3所示。

        Fig.2 Comparison of accuracy between FIUM and UCF and ICF圖2 FIUM與UCF和ICF準(zhǔn)確率比較

        實(shí)驗(yàn)結(jié)果表明,隨著推薦數(shù)目增多,相較于UCF 和ICF,F(xiàn)IUM 算法平均準(zhǔn)確率分別提高39.66%和5.74%;平均召回率分別提高36.68%和158.76%。當(dāng)推薦數(shù)目大于10 時(shí),F(xiàn)IUM 的準(zhǔn)確率明顯高于UCF 算法;當(dāng)推薦數(shù)目大于100時(shí),F(xiàn)IUM 算法召回率明顯高于ICF 算法的召回率。

        Fig.3 Comparison of recall between FIUM and UCF and ICF圖3 FIUM與UCF和ICF召回率比較

        4 結(jié)語(yǔ)

        本文提出了基于項(xiàng)目特征和用戶興趣模糊性的推薦算法,并與基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,該算法的召回率和推薦準(zhǔn)確率相較于比較模型均有所提升。

        然而,該算法需要計(jì)算用戶感興趣的項(xiàng)目與各個(gè)項(xiàng)目之間的相似度,在面對(duì)海量項(xiàng)目推薦時(shí),計(jì)算量較大,會(huì)導(dǎo)致系統(tǒng)推薦效率降低。并且,MovieLens 觀影數(shù)據(jù)除了以上常規(guī)數(shù)據(jù)外,還含有導(dǎo)演信息、演員信息、時(shí)間等信息,現(xiàn)階段還未將其充分利用。下一步,將嘗試對(duì)此類信息進(jìn)行模糊化或直接加入用戶興趣模型中來(lái)提高推薦準(zhǔn)確率及召回率。

        猜你喜歡
        用戶
        雅閣國(guó)內(nèi)用戶交付突破300萬(wàn)輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛(ài),請(qǐng)稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應(yīng)用
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        欧美精品一区二区精品久久| 亚洲国产成人aⅴ毛片大全| 国产女主播一区二区久久| 99爱这里只有精品| 欧美伦费免费全部午夜最新| 麻豆国产精品伦理视频| 久久精品国产亚洲av高清三区| 内射口爆少妇麻豆| av免费在线免费观看| 亚洲av成人片色在线观看高潮 | 久久亚洲国产欧洲精品一| 丝袜美腿一区二区三区| 亚洲中文字幕乱码在线视频| 狠狠躁夜夜躁人人爽超碰97香蕉| 综合国产婷婷精品久久99之一| 久久精品国产成人午夜福利| 国产成人无码一区二区在线观看| 亚洲97成人在线视频| 中文字幕无码免费久久99| 中文字幕肉感巨大的乳专区| 精品女同一区二区三区亚洲| 国产成人免费a在线视频| 最新欧美精品一区二区三区| av天堂手机在线免费| 亚洲av精品一区二区三| 婷婷五月综合激情| 国产精品一区2区三区| 免费观看在线一区二区| 不卡av网站一区二区三区| 亚洲精品久久久av无码专区 | 国产av无码专区亚洲av麻豆| 亚洲国产精彩中文乱码av| 我的美艳丝袜美腿情缘| 亚洲日韩国产精品不卡一区在线| 亚洲天堂第一区| 粉嫩被粗大进进出出视频| 亚洲精品视频1区2区| 亚洲嫩模一区二区三区视频| 成人免费网站视频www| 国产乡下三级全黄三级| 肥老熟女性强欲五十路|