亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于項(xiàng)目特征與用戶興趣模糊性的推薦算法

2022-09-22 05:59:40黃向春趙芬霞安建業(yè)

軟件導(dǎo)刊 2022年9期

關(guān)鍵詞：用戶

黃向春，趙芬霞，安建業(yè)

（天津商業(yè)大學(xué)理學(xué)院天津 300134）

0 引言

隨著大數(shù)據(jù)時(shí)代到來(lái)，各種數(shù)據(jù)信息快速增長(zhǎng)。在面臨海量數(shù)據(jù)時(shí)，用戶通常需要花費(fèi)大量時(shí)間尋找感興趣的信息，信息過(guò)載已成為互聯(lián)網(wǎng)發(fā)展不得不面對(duì)的挑戰(zhàn)。

為此，推薦系統(tǒng)應(yīng)運(yùn)而生。該系統(tǒng)通過(guò)收集用戶歷史信息或行為數(shù)據(jù)建立用戶或項(xiàng)目特征模型，預(yù)測(cè)用戶感興趣的信息然后推薦給用戶。如果電商網(wǎng)站能將用戶感興趣的產(chǎn)品準(zhǔn)確推薦給用戶，不僅能夠增加電商網(wǎng)站的銷量，還能提升用戶對(duì)網(wǎng)站設(shè)計(jì)的滿意度，產(chǎn)生巨大的商業(yè)價(jià)值［1］。

根據(jù)推薦策略不同，推薦系統(tǒng)可分為基于內(nèi)容的推薦、基于知識(shí)的推薦、基于規(guī)則的推薦、協(xié)同過(guò)濾的推薦、混合推薦等。其中，協(xié)同過(guò)濾推薦是目前發(fā)展最成熟、應(yīng)用最廣泛的個(gè)性化推薦技術(shù)［2-6］。該類系統(tǒng)通過(guò)尋找與目標(biāo)用戶興趣相似的“鄰居”，給目標(biāo)用戶推薦可能感興趣的信息，系統(tǒng)整體設(shè)計(jì)較為簡(jiǎn)單，僅基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法就能夠取得較好推薦效果。

然而，協(xié)同過(guò)濾推薦算法的推薦效果嚴(yán)重依賴于用戶的歷史偏好信息，當(dāng)該類信息無(wú)法被收集或信息量過(guò)少時(shí)，會(huì)造成數(shù)據(jù)稀疏程度較高。此時(shí)，項(xiàng)目評(píng)價(jià)信息的真實(shí)性和有效性將無(wú)法得到保證［7］，協(xié)同過(guò)濾算法的推薦效果也會(huì)相應(yīng)降低。

1 相關(guān)研究

目前，為解決項(xiàng)目評(píng)分矩陣稀疏性問(wèn)題的方法種類較多。例如，Ma［8］首先提出將SVD 矩陣分解應(yīng)用于協(xié)同過(guò)濾推薦，在Netflix Prize 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，該算法推薦準(zhǔn)確率相較于基準(zhǔn)算法具有一定的提升，且推薦結(jié)果穩(wěn)定性較強(qiáng)。Goldberg 等［9］利用主成分分析降維技術(shù)構(gòu)建推薦算法，并將其成功應(yīng)用于“笑話”推薦上，實(shí)踐結(jié)果表明算法效果較好。李紅梅等［10］提出一種改進(jìn)LSH 的協(xié)同過(guò)濾算法，該算法有效克服評(píng)分?jǐn)?shù)據(jù)的高維稀疏問(wèn)題。然而，上述算法并未考慮項(xiàng)目特征或用戶偏好的模糊性問(wèn)題。

為此，Zhang 等［11］使用三角模糊數(shù)描述用戶對(duì)項(xiàng)目的綜合評(píng)價(jià)，根據(jù)三角形面積和中點(diǎn)衡量三角模糊數(shù)的相似度，確定用戶相似度，提升相似度計(jì)算的準(zhǔn)確率。然而，三角模糊數(shù)中隸屬度的最大值只對(duì)應(yīng)一個(gè)點(diǎn)，靈活性低于梯形模糊數(shù)，可擴(kuò)展性較差。吳毅濤等［12］借鑒年齡模糊模型，將滿意度映射到原始評(píng)分上，通過(guò)梯形模糊相似度計(jì)算策略衡量用戶相似度提升推薦效果［13-15］，同時(shí)證明模糊相似度是余弦相似度在模糊域上的擴(kuò)展，實(shí)驗(yàn)結(jié)果表明該算法的預(yù)測(cè)精度優(yōu)于基于三角模糊數(shù)的協(xié)同過(guò)濾算法。然而，該模型的結(jié)構(gòu)相對(duì)固定，無(wú)法隨數(shù)據(jù)集和用戶的改變自動(dòng)調(diào)整。Wu等［16］在文獻(xiàn)［9］的基礎(chǔ)上，根據(jù)評(píng)分分布情況自動(dòng)生成個(gè)性化梯形模糊評(píng)分模型，基于模糊相似度和模糊評(píng)分預(yù)測(cè)評(píng)分提升推薦質(zhì)量，實(shí)驗(yàn)結(jié)果表明該算法的預(yù)測(cè)誤差更低。王森等［17］構(gòu)建一種新的梯形模糊評(píng)分模型，通過(guò)融合基于模糊評(píng)分的項(xiàng)目相似度和基于標(biāo)簽隸屬度的項(xiàng)目相似度形成新的項(xiàng)目相似度，進(jìn)一步提升了推薦準(zhǔn)確率。

然而，項(xiàng)目特征和用戶興趣均具有一定程度的模糊性。例如，對(duì)電影《戰(zhàn)狼1》進(jìn)行項(xiàng)目特征劃分時(shí)，它的所屬類別并非是絕對(duì)的、唯一的，多數(shù)觀眾認(rèn)為它屬于動(dòng)作類、軍事類、戰(zhàn)爭(zhēng)題材的電影，但也有一部分觀眾認(rèn)為它是愛(ài)情類電影。為了綜合所有觀眾的評(píng)價(jià)，設(shè)定《戰(zhàn)狼1》隸屬于動(dòng)作類電影的程度為80%；隸屬于軍事類電影的程度為85%；隸屬于愛(ài)情類電影的程度為20%。同理，用戶對(duì)電影的喜愛(ài)程度也可按照此情況進(jìn)行劃分。通過(guò)綜合考慮用戶興趣和項(xiàng)目相似度來(lái)計(jì)算推薦信任分，據(jù)此給出更為準(zhǔn)確的推薦結(jié)果。

2 算法描述

2.1 模糊集和隸屬函數(shù)

設(shè)在論域X上給定集值映射μA：X→[0，1]，記作μA(x)，即μA確定了X上的一個(gè)模糊集，記為A，μA(x)為x對(duì)A的隸屬度，記為：A={(x，μA(x))|x∈X}。在模糊理論中，常見(jiàn)模糊集包括矩陣型、三角形、梯形、K 次拋物線型、高斯型、柯西型等。

2.2 項(xiàng)目特征隸屬度矩陣

隸屬度可用來(lái)描述項(xiàng)目對(duì)于不同類別的所屬程度。例如，對(duì)項(xiàng)目Ij(j=1，2，…，N)而言，將項(xiàng)目所屬類別定義在空間X={x1，x2，…，xK}中，Ij的隸屬度函數(shù)可表示為μk(Ij)［18］。本文采用類高斯隸屬函數(shù)［19］描述項(xiàng)目的特征模糊性。計(jì)算公式如式（1）所示：

其中，N=|Lj|為項(xiàng)目Ij所對(duì)應(yīng)項(xiàng)目特征屬性的個(gè)數(shù)，rk(1 ≤rk≤|Lj|)為項(xiàng)目Ij屬于第k個(gè)類別的秩，α一般設(shè)置為1.2［20］，μk(Ij)是關(guān)于rk的遞減函數(shù)，以電影數(shù)據(jù)集為例，排序靠前的類別可賦予高的隸屬度，與電影無(wú)關(guān)的類別其隸屬度可賦予0。

然而，不同電影之間相同的所屬類別，由于所在位序存在不同，對(duì)應(yīng)的隸屬度也會(huì)不同［21］。例如，電影Toy Story（選自MovieLens 100K 數(shù)據(jù)集），類別有Adventure、Animation、Children′s，所屬類別的秩依次為rk=1、2、3，這3 個(gè)類別在所有類別中的序號(hào)依次為3、4、5。根據(jù)式（1）計(jì)算電影Toy Story 對(duì)應(yīng)類別的隸屬程度分別為：μ3(Ij)=1、μ4(Ij)=0.536、μ5(Ij)=0.467、μk(Ij)=0，（k=1，2，6，7，···，19），k表示電影的類別序號(hào)，即電影Toy Story 屬于Adventure、Animation、Children′s的隸屬程度分別為1、0.536、0.467。

本文從MovieLens 100k 電影數(shù)據(jù)集中，選取用戶5 的觀影記錄，觀影記錄所屬類別的隸屬度如表1所示。

Table 1 Film category membership表1 電影類別隸屬度

2.3 用戶類別偏好矩陣

利用類高斯隸屬度函數(shù)可構(gòu)建項(xiàng)目特征隸屬度矩陣UN×K，N、K分別表示項(xiàng)目總數(shù)和項(xiàng)目特征個(gè)數(shù)。將單個(gè)用戶的項(xiàng)目特征隸屬度矩陣按列相加，結(jié)果表示用戶訪問(wèn)項(xiàng)目類別隸屬程度的總和，總和越大表示用戶對(duì)該類別項(xiàng)目的喜歡程度越高?；诖?，生成該用戶的類別偏好向量s［15］。s=(p1，p2，…，p19)，將s歸一化為s′=(s1，s2，…，s19)，其中sk為：

最后，將所有用戶的類別偏好向量作為行，構(gòu)造用戶類別偏好矩陣SM×K。其中，M表示用戶個(gè)數(shù)，K為項(xiàng)目類別個(gè)數(shù)。

2.4 用戶興趣模型

由于用戶對(duì)項(xiàng)目的評(píng)分受用戶類別偏好的影響，因此對(duì)于兩種不同類別的項(xiàng)目，相同的項(xiàng)目評(píng)分可能代表著不同的喜好程度。為此，通過(guò)用戶類別偏好矩陣SM×K對(duì)用戶評(píng)分矩陣RM×N進(jìn)行修正。計(jì)算公式如下：

其中，r′mn為第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目修正后的評(píng)分，rmn為第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目的原始分，Kn為第n個(gè)項(xiàng)目所屬項(xiàng)目類別的總數(shù)，設(shè)其所對(duì)應(yīng)的類別序號(hào)依次為為第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目所屬第ij類型的偏好程度，修正后的用戶項(xiàng)目評(píng)分矩陣記為。通過(guò)用戶類別偏好矩陣修正后的用戶項(xiàng)目評(píng)分?jǐn)?shù)據(jù)更離散化，能準(zhǔn)確代表用戶對(duì)項(xiàng)目的喜好程度。

然后，利用修正后的用戶項(xiàng)目評(píng)分矩陣構(gòu)建項(xiàng)目Ij的用戶興趣模型。在構(gòu)造用戶興趣模型時(shí)，將用戶對(duì)電影的興趣分為非常喜歡、喜歡、不喜歡和非常不喜歡，由于要將修正后的評(píng)分均值作為用戶喜歡和不喜歡的臨界點(diǎn)，在多次實(shí)驗(yàn)測(cè)試后，選擇將0.75 為臨界點(diǎn)，構(gòu)建的梯形隸屬度函數(shù)如下：

其中，x為用戶u對(duì)項(xiàng)目的修正評(píng)分值，為用戶u修正評(píng)分的均值，x0.75為用戶u修正評(píng)分的0.75 分位數(shù)。電影數(shù)據(jù)用戶的評(píng)分最高為5，因此x的上限設(shè)定為5，并定義用戶喜歡的項(xiàng)目集合為

2.5 推薦信任分

經(jīng)過(guò)多次實(shí)驗(yàn)比較后，本文選用cosine 余弦計(jì)算項(xiàng)目之間的相似度，即項(xiàng)目Ii和Ij的相似度計(jì)算公式為：

接下來(lái)，綜合用戶的興趣和項(xiàng)目間的相似度計(jì)算推薦信任分，計(jì)算公式如式（6）所示：

其中，μIn(x)為用戶對(duì)項(xiàng)目In的喜歡程度，S(In，Ij)為In與要推薦項(xiàng)目Ij之間的相似度，推薦信任分R(Ij)表示用戶喜好程度與相似程度的加權(quán)和，數(shù)值越高表示推薦信任分越高。

最后，根據(jù)R(Ij)大小產(chǎn)生Top -N 進(jìn)行推薦。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

MovieLens 100k 數(shù)據(jù)集包括943 個(gè)用戶對(duì)1 682 部電影的10 萬(wàn)條評(píng)分?jǐn)?shù)據(jù)，電影類別總共有19 種，分別為動(dòng)作、冒險(xiǎn)、動(dòng)畫等。每名用戶至少對(duì)20 部、至多對(duì)737 部電影進(jìn)行評(píng)分，評(píng)分為1-5的整數(shù)。

實(shí)驗(yàn)采用準(zhǔn)確率（Precision）和召回率（Recall）作為系統(tǒng)評(píng)價(jià)指標(biāo)，計(jì)算公式如式（7）、式（8）所示：

其中，用戶u推薦的P個(gè)物品記為R(u)，用戶u在測(cè)試集上喜歡的物品集合為T(u)。

3.2 實(shí)驗(yàn)步驟

本文實(shí)驗(yàn)具體步驟如下：

步驟1：調(diào)用MovieLens 100k 數(shù)據(jù)集中的u.data 文件（用戶電影評(píng)分?jǐn)?shù)據(jù)），生成用戶電影評(píng)分矩陣。

步驟2：輸入數(shù)據(jù)集中的u.Item 文件（電影所屬類別數(shù)據(jù)），根據(jù)公式（1）生成電影所屬類別的隸屬度矩陣。

步驟3：根據(jù)電影所屬類別和用戶的觀影記錄，根據(jù)公式（2）構(gòu)建用戶—電影類別偏好矩陣。

步驟4：通過(guò)用戶—電影類別偏好矩陣，根據(jù)公式（3）對(duì)用戶電影評(píng)分矩陣進(jìn)行評(píng)分修正。

步驟5：基于修正后的評(píng)分，根據(jù)公式（4）獲得用戶喜歡的項(xiàng)目集合E。

步驟6：從數(shù)據(jù)集中隨機(jī)抽取100 個(gè)用戶作為樣本，將單個(gè)用戶修正后的電影評(píng)分劃分為訓(xùn)練集和測(cè)試集，訓(xùn)練集的大小依次為5、15、25、35、45、55，剩余樣本作為測(cè)試集。

步驟7：通過(guò)用戶興趣模型確定每個(gè)用戶感興趣的項(xiàng)目個(gè)數(shù)，并通過(guò)式（5）、式（6）計(jì)算測(cè)試集的電影推薦信任分。

步驟8：根據(jù)推薦信任分產(chǎn)生Top -N，計(jì)算推薦的準(zhǔn)確率（Precision）及召回率（Recall）。

3.3 實(shí)驗(yàn)結(jié)果

本文提出的基于項(xiàng)目特征與用戶興趣模糊性的推薦算法（Based on the fuzziness of item features and user interest method，F(xiàn)IUM）分別選擇了5、15、25、35、45、55 的訓(xùn)練集個(gè)數(shù)，推薦Top-5的準(zhǔn)確率如圖1所示。

Fig.1 Accuracy of FIUM algorithm圖1 FIUM算法準(zhǔn)確率

由圖1 可見(jiàn)，隨著訓(xùn)練集數(shù)目增加，推薦準(zhǔn)確率先增加再減少，最后趨于穩(wěn)定，表明一旦訓(xùn)練集的數(shù)目足夠代表用戶興趣時(shí)，增加訓(xùn)練集的個(gè)數(shù)將不再提高推薦準(zhǔn)確率。

接下來(lái)，將FIUM 與基于用戶的協(xié)同過(guò)濾推薦算法（User-based-CF，UCF）和基于項(xiàng)目的協(xié)同過(guò)濾推薦算法（Item-based-CF，ICF）進(jìn)行比較。設(shè)定UCF 的鄰居個(gè)數(shù)與ICF 相似項(xiàng)目個(gè)數(shù)K為9，F(xiàn)IUM 的訓(xùn)練集個(gè)數(shù)同樣設(shè)置為9，N取1-300，算法的Top -N 推薦準(zhǔn)確率及召回率分別如圖2、圖3所示。

Fig.2 Comparison of accuracy between FIUM and UCF and ICF圖2 FIUM與UCF和ICF準(zhǔn)確率比較

實(shí)驗(yàn)結(jié)果表明，隨著推薦數(shù)目增多，相較于UCF 和ICF，F(xiàn)IUM 算法平均準(zhǔn)確率分別提高39.66%和5.74%；平均召回率分別提高36.68%和158.76%。當(dāng)推薦數(shù)目大于10 時(shí)，F(xiàn)IUM 的準(zhǔn)確率明顯高于UCF 算法；當(dāng)推薦數(shù)目大于100時(shí)，F(xiàn)IUM 算法召回率明顯高于ICF 算法的召回率。

Fig.3 Comparison of recall between FIUM and UCF and ICF圖3 FIUM與UCF和ICF召回率比較

4 結(jié)語(yǔ)

本文提出了基于項(xiàng)目特征和用戶興趣模糊性的推薦算法，并與基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明，該算法的召回率和推薦準(zhǔn)確率相較于比較模型均有所提升。

然而，該算法需要計(jì)算用戶感興趣的項(xiàng)目與各個(gè)項(xiàng)目之間的相似度，在面對(duì)海量項(xiàng)目推薦時(shí)，計(jì)算量較大，會(huì)導(dǎo)致系統(tǒng)推薦效率降低。并且，MovieLens 觀影數(shù)據(jù)除了以上常規(guī)數(shù)據(jù)外，還含有導(dǎo)演信息、演員信息、時(shí)間等信息，現(xiàn)階段還未將其充分利用。下一步，將嘗試對(duì)此類信息進(jìn)行模糊化或直接加入用戶興趣模型中來(lái)提高推薦準(zhǔn)確率及召回率。