亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合社交信息的矩陣分解改進(jìn)推薦算法

        2021-09-15 07:35:58賈俊杰劉鵬濤陳旺虎
        計(jì)算機(jī)工程 2021年9期
        關(guān)鍵詞:物品向量社交

        賈俊杰,劉鵬濤,陳旺虎

        (西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070)

        0 概述

        互聯(lián)網(wǎng)的飛速發(fā)展使得人們獲取信息的方式發(fā)生了巨大的變革。從初始的查閱資料到以關(guān)鍵詞為載體的搜索引擎時(shí)代,每個(gè)人都不自覺地成為信息的創(chuàng)造者。但在一味地追求速度的同時(shí),也承受了大量冗余信息帶來的干擾。而推薦系統(tǒng)作為一種信息過濾的工具,將用戶在主動(dòng)搜索中遇到的困擾轉(zhuǎn)變?yōu)楸粍?dòng)接受有價(jià)值的信息,使人們的生活變得更加簡(jiǎn)單、快捷。推薦系統(tǒng)通過分析用戶的歷史行為數(shù)據(jù)與需求偏好,向用戶主動(dòng)推薦有價(jià)值的信息。按建模方式的不同,推薦系統(tǒng)可分為基于內(nèi)容的推薦方法、基于協(xié)同過濾方法和混合方法。

        在眾多的推薦方法中,矩陣分解作為協(xié)同過濾推薦方法的一種類型,因在Netflix Prize 比賽上取得了較好的效果,吸引了越來越多研究學(xué)者的關(guān)注。但由于用戶對(duì)物品的評(píng)分值稀疏程度較高,大部分評(píng)分?jǐn)?shù)據(jù)為零值,顯然以這種方式產(chǎn)生的推薦結(jié)果并不準(zhǔn)確[1-2]。隨著各類社交網(wǎng)站朝著更加人性化與智能化的方面發(fā)展,人與人之間的交往越來越依賴于Twitter、Facebook、微博等社交網(wǎng)站,由此產(chǎn)生了大量的社交信息,也為推薦系統(tǒng)帶來了新的機(jī)遇。研究表明,具有較強(qiáng)社交關(guān)系的用戶之間的相似程度更高[3],因此社交信息作為一種輔助信息,被應(yīng)用于推薦系統(tǒng)中增加數(shù)據(jù)來源,以提高推薦性能。許多研究是將社交信息與評(píng)分信息相結(jié)合,通過劃分社區(qū)尋找與目標(biāo)用戶相似的近鄰,根據(jù)近鄰對(duì)用戶的影響程度預(yù)測(cè)目標(biāo)用戶評(píng)分。實(shí)驗(yàn)結(jié)果表明,引入社交信息矩陣分解推薦提高了推薦性能,當(dāng)評(píng)分?jǐn)?shù)據(jù)稀疏時(shí)推薦性能有明顯的提升,但是還存在以下問題:在矩陣分解初始化時(shí),用戶偏好矩陣U和物品特征矩陣V初始賦值的隨機(jī)性導(dǎo)致結(jié)果不確定性,并且容易陷入局部最優(yōu),影響推薦性能;傳統(tǒng)推薦模型忽略了用戶以及物品之間隱含的聯(lián)系與區(qū)別;未考慮不同近鄰對(duì)不同類型節(jié)點(diǎn)的影響程度具有差異性,其中社區(qū)內(nèi)的節(jié)點(diǎn)按重要程度分為核心節(jié)點(diǎn)與非核心節(jié)點(diǎn),近鄰包含社區(qū)內(nèi)與社區(qū)外兩部分節(jié)點(diǎn)。

        為解決上述問題,本文提出一種基于社交信息的改進(jìn)矩陣分解算法IMF。將評(píng)分值與社交信息相結(jié)合建立用戶相似網(wǎng)絡(luò),同時(shí)與物品的特征屬性相結(jié)合確立物品相似網(wǎng)絡(luò)并進(jìn)行社區(qū)劃分。按節(jié)點(diǎn)的重要程度將社區(qū)內(nèi)的節(jié)點(diǎn)分為核心與非核心節(jié)點(diǎn),構(gòu)造用戶相似網(wǎng)絡(luò)中核心節(jié)點(diǎn)的偏好向量,以及物品相似網(wǎng)絡(luò)中核心節(jié)點(diǎn)的特征向量,并根據(jù)不同的近鄰對(duì)非核心節(jié)點(diǎn)的影響程度,創(chuàng)建用戶相似網(wǎng)絡(luò)中非核心節(jié)點(diǎn)的偏好向量,以及物品相似網(wǎng)絡(luò)中非核心節(jié)點(diǎn)的特征向量。最后合并核心節(jié)點(diǎn)和非核心節(jié)點(diǎn)對(duì)應(yīng)的偏好向量與特征向量,得到矩陣分解初始矩陣U與V。

        1 相關(guān)工作

        近年來,隨著矩陣分解研究的進(jìn)一步深入,引入社交信息的推薦系統(tǒng)理論體系更加成熟與完善?,F(xiàn)階段利用社交信息來改善推薦性能的方法主要有基于圖的推薦[4-5]、基于深度學(xué)習(xí)推薦[6-7]和基于矩陣分解推薦[8]。而矩陣分解具有簡(jiǎn)單、推薦精度高和易擴(kuò)展等特點(diǎn),成為研究者構(gòu)建推薦系統(tǒng)的首選模型[9],按用戶間社交信息是否直接相連可分為基于直接信任的矩陣分解模型和基于間接社交信息的矩陣分解模型。

        基于直接信任的矩陣分解模型將直接相連的用戶信任關(guān)系作為社交信息,1 表示有社交關(guān)系,反之為0,認(rèn)為有社交關(guān)系的用戶之間具有相似的偏好[10],利用這種社交信息來優(yōu)化推薦性能。2008 年MA 等[8]首先將社交信息與評(píng)分信息相結(jié)合,并進(jìn)行分解提出SoRec(Social Recommendation)模型。隨后相關(guān)研究者基于社交信息提出許多矩陣分解推薦模型。2010 年JAMALI 等[10]將信任傳播機(jī)制引入到矩陣分解模型中,提出社交推薦SocialMF(Social Matrix Factorization)算法。2011 年MA 等[11]將用戶的信任關(guān)系作為正則化約束條件,提出基于社交信息正則化的矩陣因子分解框架SR2(Social Regularization model2)。2015 年GUO 等[12]通過對(duì)4 個(gè)真實(shí)數(shù)據(jù)集分析,認(rèn)為推薦模型不僅要考慮評(píng)分與信任的顯性影響,同時(shí)還要兼顧評(píng)分與信任的隱性影響,提出TrustSVD(Trust Singular Value Decomposition)算法。2018 年XIONG 等[13]結(jié)合用戶評(píng)分以及用戶信任信息構(gòu)建項(xiàng)目排序模型,提出一種基于信任的面 向top-k 排序算 法。2020 年ZHANG 等[14]將用戶評(píng)分與信任關(guān)系合并為一個(gè)混合矩陣,提出融合社交信息的隨機(jī)梯度下降矩陣分解算法,然而用戶間的直接信任表現(xiàn)為顯示社交關(guān)系,當(dāng)與用戶直接相連的朋友數(shù)量很少時(shí),這種顯式社交關(guān)系對(duì)推薦性能的提升效果不佳。

        為提升推薦的效率,一些文獻(xiàn)利用用戶間的相關(guān)程度構(gòu)建社交網(wǎng)絡(luò),通過社區(qū)劃分挖掘用戶沒有直接聯(lián)系但相似的近鄰,得到用戶間隱藏的間接關(guān)系。由于這種關(guān)系同時(shí)包含了用戶直接社交信息與間接聯(lián)系,稱其為基于間接社交信息的矩陣分解模型。2015 年LI 等[15]利用現(xiàn)有的重疊社區(qū)發(fā)現(xiàn)算法,計(jì)算目標(biāo)用戶分別與社區(qū)和社區(qū)內(nèi)用戶的相似度,構(gòu)建目標(biāo)用戶的偏好向量,提出重疊社區(qū)正則化的矩陣分解推薦模型。2016 年TANG 等[16]引入社交維度,認(rèn)為用戶在同一社交維度中處于不同的社區(qū),同時(shí)捕捉社交關(guān)系的異構(gòu)性和間接性,提出基于社交維度的推薦框架SoDimRec(Social Dimension Recommendation)。2018 年HU 等[17]將時(shí)間因素與評(píng)分信息相結(jié)合提出重疊社區(qū)發(fā)現(xiàn)算法,依據(jù)用戶與社區(qū)內(nèi)用戶間的相似度建立用戶偏好模型,提出基于重疊社區(qū)的矩陣分解算法。2019 年CHEN 等[18]融合用戶的社會(huì)地位和同質(zhì)性建立用戶信任關(guān)系網(wǎng)絡(luò),提出了一種新的基于社交矩陣分解的推薦方法,同時(shí)XIONG 等[19]將評(píng)分信息與社交網(wǎng)絡(luò)結(jié)構(gòu)信息相結(jié)合得到擴(kuò)展的間接社交關(guān)系,通過計(jì)算目標(biāo)用戶與社區(qū)內(nèi)其他用戶的影響程度,提出基于影響力的矩陣分解推薦算法。

        基于間接社交信息的矩陣分解模型忽略了用戶以及物品之間的潛在聯(lián)系與區(qū)別,而且未考慮不同近鄰對(duì)各節(jié)點(diǎn)影響程度的差異性對(duì)推薦結(jié)果帶來的影響,以及U、V初始賦值的隨機(jī)性對(duì)推薦性能的影響。因此,有必要設(shè)計(jì)一種新的推薦模型,在提高推薦結(jié)果的準(zhǔn)確度基礎(chǔ)上,同時(shí)提高推薦算法的運(yùn)行效率。

        2 相關(guān)技術(shù)

        2.1 相似網(wǎng)絡(luò)

        在社交網(wǎng)絡(luò)中,社交信息表現(xiàn)為用戶之間通過某種方式建立的關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系在日常生活中隨處可見,如朋友關(guān)系、同事關(guān)系等。然而,在含有社交信息的推薦系統(tǒng)中,用戶間的社交信息按是否直接相連通常以0、1 表示,1 表示有社交關(guān)系,反之為0,如表1 和表2 所示。為便于計(jì)算,社交信息和評(píng)分信息都用矩陣形式存儲(chǔ)。這種直接連接的方式,顯然不能反映用戶間的社交關(guān)系強(qiáng)度,并且無法表示用戶間隱藏的間接社交關(guān)系,用戶間的社交關(guān)系強(qiáng)度反映了他們之間的交互程度,間接社交關(guān)系表現(xiàn)為用戶之間雖然沒有直接的聯(lián)系但有相似的喜好。研究結(jié)果表明,社交關(guān)系可以通過評(píng)分信息利用用戶間的關(guān)聯(lián)強(qiáng)度表示,皮爾遜相關(guān)系數(shù)是度量用戶間關(guān)聯(lián)強(qiáng)度的常用方法[9],相似度越大,社交關(guān)系越強(qiáng)。相似網(wǎng)絡(luò)如圖1 所示。圖1(a)為體現(xiàn)用戶間的社交關(guān)系強(qiáng)度與間接聯(lián)系,在直接相連的社交關(guān)系基礎(chǔ)上結(jié)合基于評(píng)分信息的社交關(guān)系,采用用戶相似網(wǎng)絡(luò)Gu=(Fu,E)表示用戶間社交聯(lián)系,其中:Fu==1,2,…,n} 為用戶 頂點(diǎn)集;E={Eij|i,j=1,2,…,n}表示邊集,相似度大于給定閾值的節(jié)點(diǎn)間添加邊,邊權(quán)值為用戶間的社交關(guān)系強(qiáng)度。如表2所示,用戶u2與u1有直接社交聯(lián)系,而u2與u12沒有直接社交聯(lián)系,但結(jié)合評(píng)分信息,可得到圖1(a)中的帶有關(guān)聯(lián)強(qiáng)度的社交關(guān)系網(wǎng)絡(luò)。

        表1 評(píng)分信息Table 1 Rating information

        表2 社交關(guān)系Table 2 Social relations

        圖1 相似網(wǎng)絡(luò)示意圖Fig.1 Schematic diagram of similar network

        用戶相似網(wǎng)絡(luò)體現(xiàn)了用戶間直接聯(lián)系與間接聯(lián)系。如圖1(b)所示,為挖掘物品之間隱藏潛在聯(lián)系,本文將物品的特征屬性與評(píng)分值相結(jié)合作為度量指標(biāo),構(gòu)建物品相似網(wǎng)絡(luò)Gv=(Fv,E),其中:Fv表示物品頂點(diǎn)集;E表示物品之間的邊集。具體實(shí)現(xiàn)為:按物品的屬性特征,具有相同屬性的物品之間添加連邊,建立初始的物品相似網(wǎng)絡(luò);依據(jù)物品的評(píng)分值按皮爾遜相關(guān)系數(shù)得到物品之間的相似度,大于閾值的物品間添加連邊,邊權(quán)值為物品間的相關(guān)程度,權(quán)值越接近1,物品之間相關(guān)程度越高。如表1 所示,v1、v2、v3都為電子類物品具有相同的屬性,初始物品相似網(wǎng)絡(luò)中它們之間只是簡(jiǎn)單的連接,但結(jié)合評(píng)分值通過相似性計(jì)算最終得到圖1(b)帶有權(quán)值的物品相似網(wǎng)絡(luò)。

        2.2 社區(qū)發(fā)現(xiàn)

        社區(qū)發(fā)現(xiàn)是分析社交網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)與演變過程的常用方法。由于社交網(wǎng)絡(luò)中節(jié)點(diǎn)的度數(shù)呈冪律分布[20],在社區(qū)劃分的過程中,以度數(shù)高的節(jié)點(diǎn)為中心向四周度數(shù)低的節(jié)點(diǎn)逐步擴(kuò)散[21-22],通常用模塊度最大化[21]評(píng)估節(jié)點(diǎn)擴(kuò)散的程度,以模塊度不再發(fā)生變化時(shí)社區(qū)劃分完成。模塊度公式如下:

        其中:∑in為社區(qū)c內(nèi)部邊權(quán)重和;∑tot為外部節(jié)點(diǎn)與社區(qū)c內(nèi)節(jié)點(diǎn)相連的邊權(quán)重之和;m為圖中所有邊的權(quán)重和。

        在社交網(wǎng)絡(luò)中,社區(qū)劃分的原則是社區(qū)內(nèi)部節(jié)點(diǎn)之間聯(lián)系緊密,社區(qū)間節(jié)點(diǎn)聯(lián)系稀疏?,F(xiàn)實(shí)中處于同一社區(qū)的節(jié)點(diǎn)偏好相似,不同社區(qū)的節(jié)點(diǎn)偏好相異,因此社區(qū)發(fā)現(xiàn)可以更好地掌握同一社區(qū)內(nèi)對(duì)象的相似偏好,以便于進(jìn)行精準(zhǔn)的商品推薦等應(yīng)用分析。如圖2 所示,對(duì)用戶、物品相似網(wǎng)絡(luò)的社區(qū)劃分,可以在社區(qū)中尋找目標(biāo)節(jié)點(diǎn)的近鄰。

        圖2 社區(qū)劃分示意圖Fig.2 Schematic diagram of community division

        2.3 推薦系統(tǒng)

        2.3.1 協(xié)同過濾推薦

        協(xié)同過濾(Collaborative Filtering,CF)[23-24]是基于“興趣喜好相似的用戶在未來會(huì)盡可能多地呈現(xiàn)出相關(guān)性”這種假設(shè)被提出的,依據(jù)用戶的歷史行為記錄,預(yù)測(cè)對(duì)用戶最感興趣物品并推薦給他。協(xié)同過濾可分為基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾和矩陣分解推薦。

        基于用戶的協(xié)同過濾尋找與目標(biāo)用戶評(píng)分相似的近鄰,通過近鄰預(yù)測(cè)目標(biāo)尚未打分的物品評(píng)分值,選取預(yù)測(cè)評(píng)分值較高的物品向目標(biāo)推薦。目標(biāo)用戶i對(duì)物品j的預(yù)測(cè)評(píng)分Pij可用公式描述為:

        其中:sim(i,k)為用戶間的相似程度,以皮爾遜相關(guān)系數(shù)來衡量他們的相似度;l為用戶i相似鄰居用戶集為鄰居用戶對(duì)物品j的評(píng)分。相反基于物品的協(xié)同過濾,尋找與目標(biāo)物品評(píng)分相似的鄰居物品,通過相似的鄰居預(yù)測(cè)用戶對(duì)目標(biāo)尚未打分的評(píng)分值,選取預(yù)測(cè)評(píng)分值較高的物品向用戶推薦,預(yù)測(cè)評(píng)分如式(2)所示。本文采用基于用戶、物品的協(xié)同過濾分別對(duì)用戶、物品相似網(wǎng)絡(luò)中的核心節(jié)點(diǎn)未評(píng)分的物品預(yù)測(cè)評(píng)分值。

        2.3.2 矩陣分解推薦

        矩陣分解作為協(xié)同過濾推薦模型的一個(gè)類別,一般的做法是:采用評(píng)分矩陣Rm×n表示m個(gè)用戶對(duì)n個(gè)項(xiàng)目的評(píng)分;將R矩陣分解為2 個(gè)低維度的用戶偏好矩陣U=[U1,U2,…,Un]?Rm×k與物品特征矩陣V=[V1,V2,…,Vn]?Rn×k,用戶偏 好矩陣 表示用戶對(duì)k個(gè)物品屬性特征的喜好程度,物品特征矩陣為物品在k個(gè)屬性特征的隸屬程度;隨機(jī)地對(duì)U、V賦予初始值,不斷迭代使得U和V的內(nèi)積預(yù)測(cè)值與真實(shí)值R的誤差達(dá)到最小。誤差函數(shù)如下:

        2.3.3 融合社交信息的矩陣分解推薦

        與矩陣分解不同,融合社交信息的矩陣分解推薦利用社交信息以此尋找目標(biāo)用戶相似的近鄰,按近鄰對(duì)目標(biāo)用戶的影響程度進(jìn)一步修正用戶的偏好向量,得到擴(kuò)展的矩陣分解推薦模型:

        其中:Uk為用戶i的近鄰偏好向量;Sik為用戶i與k的社交關(guān)系強(qiáng)度;第2 項(xiàng)通過限制偏好向量與近鄰偏好向量近似相等,以此提高推薦效率,通常近似強(qiáng)度依賴于的社交關(guān)系強(qiáng)度Sik。

        由于社區(qū)內(nèi)的節(jié)點(diǎn)按重要程度分為核心節(jié)點(diǎn)與非核心節(jié)點(diǎn),近鄰包含所屬社區(qū)內(nèi)與社區(qū)外兩部分節(jié)點(diǎn),傳統(tǒng)推薦模型忽略了不同近鄰對(duì)不同類型節(jié)點(diǎn)的影響程度具有差異性。并且在目標(biāo)函數(shù)求解的過程中,U、V初始賦值的隨機(jī)性影響了推薦性能,降低了算法運(yùn)行效率。

        3 推薦算法框架

        為解決上述推薦系統(tǒng)中現(xiàn)存的問題,本文將社交信息、物品的特征屬性與評(píng)分值相結(jié)合,充分挖掘用戶、物品之間的潛在聯(lián)系,針對(duì)不同類型節(jié)點(diǎn)的近鄰差異性,建立核心節(jié)點(diǎn)和非核心節(jié)點(diǎn)分別在用戶相似網(wǎng)絡(luò)中的偏好向量與物品相似網(wǎng)絡(luò)中的特征向量,得到矩陣分解初始矩陣U、V,提出一種基于社交信息的矩陣分解改進(jìn)算法IMF。

        IMF 算法步驟如下:

        步驟1構(gòu)建用戶、物品相似網(wǎng)絡(luò)并劃分社區(qū)。

        步驟2尋找每個(gè)社區(qū)的核心節(jié)點(diǎn)。通過度中心性衡量每個(gè)社區(qū)中節(jié)點(diǎn)的重要程度,重要程度較高的節(jié)點(diǎn)即為核心節(jié)點(diǎn),其余為非核心節(jié)點(diǎn)。

        步驟3構(gòu)建核心節(jié)點(diǎn)的偏好向量與特征向量。應(yīng)用ALS 矩陣分解[25]得到核心節(jié)點(diǎn)分別在用戶相似網(wǎng)絡(luò)中的偏好向量和物品相似網(wǎng)絡(luò)中的特征向量。

        步驟4構(gòu)建非核心節(jié)點(diǎn)的偏好向量與特征向量,依據(jù)不同的近鄰對(duì)非核心節(jié)點(diǎn)的影響程度,分別建立非核心節(jié)點(diǎn)在用戶相似網(wǎng)絡(luò)中的偏好向量和物品相似網(wǎng)絡(luò)中的特征向量。

        步驟5得到初始U*和V*。將核心節(jié)點(diǎn)與非核心節(jié)點(diǎn)對(duì)應(yīng)的偏好向量與特征向量相結(jié)合得到初始U*、V*。

        步驟6根據(jù)U*、V*進(jìn)行ALS 矩陣分解求出最終U、V,ALS 被證明在低秩近似問題求解和大數(shù)據(jù)集并行化取得了不錯(cuò)的效果[25]。

        步驟7根據(jù)U、V得到用戶對(duì)物品的預(yù)測(cè)評(píng)分。

        3.1 核心節(jié)點(diǎn)偏好向量與特征向量的構(gòu)建

        本節(jié)依據(jù)度中心性分別查找Gu、Gv中每個(gè)社區(qū)的核心節(jié)點(diǎn),按ALS 得到在Gu中核心節(jié)點(diǎn)的偏好向量和在Gv中核心節(jié)點(diǎn)的特征向量。

        3.1.1 核心節(jié)點(diǎn)查找

        核心節(jié)點(diǎn)為社區(qū)內(nèi)度數(shù)較高的節(jié)點(diǎn),并且核心節(jié)點(diǎn)與社區(qū)內(nèi)非核心節(jié)點(diǎn)聯(lián)系緊密,因此核心節(jié)點(diǎn)在社區(qū)中重要程度高于非核心節(jié)點(diǎn)。本文采用度中心性衡量節(jié)點(diǎn)的重要程度,中心度較高的即為核心節(jié)點(diǎn),公式如下:

        其中:O(Ni)為節(jié)點(diǎn)i的中心度;g為社區(qū)內(nèi)的節(jié)點(diǎn)數(shù);xij為節(jié)點(diǎn)i與j的連邊。由于社區(qū)內(nèi)核心節(jié)點(diǎn)不只1 個(gè),為便于理解本文將其抽象為1 個(gè)節(jié)點(diǎn)。如圖2顯示了社區(qū)中核心節(jié)點(diǎn)在用戶、物品相似網(wǎng)絡(luò)中的分布,核心節(jié)點(diǎn)在圖中標(biāo)記為深色。

        3.1.2 核心節(jié)點(diǎn)偏好向量與特征向量

        性質(zhì)1在用戶相似網(wǎng)絡(luò)中,核心節(jié)點(diǎn)的偏好向量可近似為社區(qū)內(nèi)所有節(jié)點(diǎn)的平均偏好向量。

        性質(zhì)2在物品相似網(wǎng)絡(luò)中,核心節(jié)點(diǎn)的特征向量可近似為社區(qū)內(nèi)所有節(jié)點(diǎn)的平均特征向量。

        在用戶相似網(wǎng)絡(luò)中,同一社區(qū)中節(jié)點(diǎn)的偏好向量相似[15],社區(qū)內(nèi)非核心節(jié)點(diǎn)和核心節(jié)點(diǎn)聯(lián)系緊密,因此核心節(jié)點(diǎn)偏好向量可近似為社區(qū)內(nèi)所有節(jié)點(diǎn)的平均偏好向量。同理,對(duì)于物品相似網(wǎng)絡(luò),具有相同的性質(zhì)。

        在用戶相似網(wǎng)絡(luò)中,本文按性質(zhì)1 將社區(qū)內(nèi)的非核心節(jié)點(diǎn)作為核心節(jié)點(diǎn)的近鄰,采用基于用戶協(xié)同過濾對(duì)核心節(jié)點(diǎn)未評(píng)分的物品預(yù)測(cè)評(píng)分值。為建立核心節(jié)點(diǎn)的偏好向量,將核心節(jié)點(diǎn)組成核心節(jié)點(diǎn)評(píng)分矩陣Hc×m=[H1,H2,…,Hc]T?R,其中:c為核心節(jié)點(diǎn)的個(gè)數(shù);m為物品數(shù)量。因?yàn)楹诵墓?jié)點(diǎn)數(shù)量遠(yuǎn)小于總的節(jié)點(diǎn)數(shù)量,應(yīng)用ALS 求解核心節(jié)點(diǎn)偏好向量所消耗的時(shí)間非常小。最終得到核心節(jié)點(diǎn)的偏好向量。圖2(a)中Hc×k1為:

        同樣對(duì)于物品相似網(wǎng)絡(luò),按性質(zhì)2 將社區(qū)內(nèi)的非核心節(jié)點(diǎn)作為近鄰,通過基于物品的協(xié)同過濾預(yù)測(cè)核心節(jié)點(diǎn)尚未被打分的評(píng)分值,將得到的核心節(jié)點(diǎn)組成核心節(jié)點(diǎn)評(píng)分矩陣Bo×n=[B1,B2,…,Bo]T?R,其中:o為核心節(jié)點(diǎn)的個(gè)數(shù);n為用戶數(shù)量,然后應(yīng)用ALS 求得核心節(jié)點(diǎn)的特征向量。圖2(b)中Bo×k1為:

        3.2 初始U*和V*的確定

        根據(jù)近鄰對(duì)非核心節(jié)點(diǎn)的影響程度,依次構(gòu)建不同類型的非核心節(jié)點(diǎn)在Gu的偏好向量和Gv中特征向量,最后將核心節(jié)點(diǎn)與非核心節(jié)點(diǎn)對(duì)應(yīng)的偏好與特征向量相結(jié)合得到初始的U*和V*。在用戶相似網(wǎng)絡(luò)中,為建立非核心節(jié)點(diǎn)的偏好向量,傳統(tǒng)的推薦算法通過劃分社區(qū)尋找與非核心節(jié)點(diǎn)相似的近鄰,依據(jù)近鄰對(duì)非核心節(jié)點(diǎn)的影響程度修正偏好向量。由于非核心節(jié)點(diǎn)的近鄰包含所屬社區(qū)內(nèi)與社區(qū)外兩部分節(jié)點(diǎn),因此不同的近鄰對(duì)非核心節(jié)點(diǎn)的影響程度具有差異性。

        性質(zhì)3社區(qū)內(nèi)核心節(jié)點(diǎn)對(duì)非核心節(jié)點(diǎn)的影響程度起主導(dǎo)作用,距離核心節(jié)點(diǎn)越近影響程度越大,相似程度越高。

        在用戶相似網(wǎng)絡(luò)中,根據(jù)性質(zhì)1,社區(qū)內(nèi)非核心節(jié)點(diǎn)的偏好向量近似于核心節(jié)點(diǎn)的偏好向量,并且核心節(jié)點(diǎn)的度數(shù)較高以及同一社區(qū)節(jié)點(diǎn)的偏好向量相似,社區(qū)間偏好相異[15],所以非核心節(jié)點(diǎn)偏好向量主要受所屬社區(qū)內(nèi)核心節(jié)點(diǎn)的影響。社區(qū)劃分是以核心節(jié)點(diǎn)為中心向四周擴(kuò)散的過程[19-21],非核心節(jié)點(diǎn)距離核心節(jié)點(diǎn)越近影響程度越大,偏好相似程度越高,相反相似程度越低。同理,對(duì)物品相似網(wǎng)絡(luò),性質(zhì)3 也成立。

        如圖2(a)所示核心節(jié)點(diǎn)u2為明星用戶,表現(xiàn)為被其他用戶評(píng)論和點(diǎn)贊數(shù)最多的用戶。u1購買電子類產(chǎn)品時(shí)更傾向于向同一社區(qū)的明星用戶u2尋求建議。并且普通用戶距離明星用戶越近互動(dòng)越頻繁,u4與u12相比,u4與明星用戶直接相連受明星用戶的影響更大,偏好越相似。按性質(zhì)3,依次求得非核心節(jié)點(diǎn)在用戶相似網(wǎng)絡(luò)中偏好向量。

        性質(zhì)4非核心節(jié)點(diǎn)除了受社區(qū)內(nèi)核心節(jié)點(diǎn)主要影響外,同時(shí)也受社區(qū)外近鄰節(jié)點(diǎn)的次要影響。

        在用戶相似網(wǎng)絡(luò)中,不同的社區(qū)對(duì)應(yīng)不同的偏好類型。因用戶偏好的多樣性,用戶喜好多個(gè)物品特征對(duì)應(yīng)多個(gè)偏好,所以用戶也受社區(qū)外近鄰節(jié)點(diǎn)的影響,但由于同一社區(qū)用戶的偏好相似,受社區(qū)外近鄰節(jié)點(diǎn)影響較小。同理,對(duì)于物品相似網(wǎng)絡(luò),性質(zhì)4 也成立。

        如圖2(a)所示,用戶u1購買電子類產(chǎn)品時(shí)更傾向于向同一社區(qū)的明星用戶u2尋求建議。同時(shí)u1與社區(qū)外u7、u8相連,也會(huì)聽取他們的意見,由于社區(qū)間偏好的差異性受u7、u8影響較小,因此按性質(zhì)4,進(jìn)一步修正非核心節(jié)點(diǎn)的偏好向量:

        其中:L為用戶的鄰居節(jié)點(diǎn)集;|L|為鄰居節(jié)點(diǎn)的數(shù)量;ω為影響權(quán)重,按性質(zhì)3、性質(zhì)4 取值大于0.5。修正后節(jié)點(diǎn)u1的偏好向量=[ 2.23 -0.96 0.009]。按式(6)、式(7)依次求得每個(gè)社區(qū)中非核心節(jié)點(diǎn)的偏好向量,結(jié)合核心節(jié)點(diǎn)偏好向量得到最終的用戶偏好矩陣U*=?R。圖2(a)中U*為:

        同理,在物品相似網(wǎng)絡(luò)中,按性質(zhì)3、性質(zhì)4 依次構(gòu)建每個(gè)社區(qū)中非核心節(jié)點(diǎn)的特征向量:

        3.3 預(yù)測(cè)評(píng)分

        將上述計(jì)算得到用戶偏好矩陣U*和物品特征矩陣V*賦值于初始的U、V,得到總體的目標(biāo)函數(shù)如下:

        其中:Di?Rn×n為對(duì)角矩陣,令等于0,可得式(12)。

        其中:Si?Rm×m為對(duì)角矩陣,令等于0,可得式(14)。

        通過ALS 對(duì)式(12)、式(14)交替迭代求解,最終獲得收斂之后的U和V。

        3.4 算法流程

        本文算法可分為3 個(gè)部分:第1 部分為數(shù)據(jù)預(yù)處理階段,對(duì)應(yīng)步驟1、步驟2,采用LAS 迭代求解獲得在Gu中核心節(jié)點(diǎn)的偏好向量,同時(shí)得到在Gv中核心節(jié)點(diǎn)的特征向量;第2 部分按不同近鄰對(duì)不同類型節(jié)點(diǎn)影響程度的差異性,依次取得在Gu中非核心節(jié)點(diǎn)的偏好向量和Gv中非核心節(jié)點(diǎn)的特征向量,對(duì)應(yīng)步驟3~步驟8;最后結(jié)合核心節(jié)點(diǎn)與非核心節(jié)點(diǎn)對(duì)應(yīng)的偏好向量與特征向量得到初始的U*、V*,通過ALS 算法迭代求解獲得最終預(yù)測(cè)評(píng)分。

        算法1IMF 算法

        輸入R

        輸出

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 評(píng)價(jià)指標(biāo)

        為驗(yàn)證本文算法準(zhǔn)確性,選取公開的電影評(píng)分FilmTrust 數(shù)據(jù)集。FilmTrust 是一個(gè)帶有信任關(guān)系的電影評(píng)分網(wǎng)站,用戶可以對(duì)喜歡的電影評(píng)分,也可以向其他用戶添加信任關(guān)系。FilmTrust 數(shù)據(jù)集包含35 497 條評(píng)分?jǐn)?shù)據(jù)和1 853 條信任關(guān)系。為評(píng)估本文算法的推薦性能,采用平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)作為算法的評(píng)價(jià)指標(biāo)。表3 為FilmTrust 數(shù)據(jù)集的相關(guān)信息。

        表3 FilmTrust 數(shù)據(jù)集統(tǒng)計(jì)信息Table 3 Statistics information of FilmTrust dataset

        MAE 表示預(yù)測(cè)值和真實(shí)值之間絕對(duì)誤差的平均值,MAE 越小推薦精度越高。定義如下:

        RMSE 表示預(yù)測(cè)值和真實(shí)值之間的偏差平方和與預(yù)測(cè)次數(shù)n比值的平方根。RMSE 反映了樣本的離散程度,RMSE 越小推薦精度越高。定義如下:

        4.2 結(jié)果與參數(shù)分析

        本文選取傳統(tǒng)矩陣分解算法MF[10]、基于直接信任矩陣分解算法(SR2)[12]和基于間接社交關(guān)系矩陣分解算法(SoDimRec)[15]做對(duì)比。采用交叉驗(yàn)證的方法確定參數(shù)值,其中λ1、λ2和β取值分別為10、100和0.02,學(xué)習(xí)率α與k的取值分別為0.002、15,整個(gè)實(shí)驗(yàn)過程中參數(shù)值不變。所有的實(shí)驗(yàn)均進(jìn)行5 次,實(shí)驗(yàn)結(jié)果取平均值。

        表4 所示為不同算法的誤差值。由表4 可知,本文算法的誤差值低于其他對(duì)比算法,隨著訓(xùn)練集的增多誤差對(duì)比越明顯。SR2 算法相比于經(jīng)典的MF算法,由于引入了直接社交關(guān)系,相應(yīng)地減少了誤差值。SoDimRec 算法在SR2 的基礎(chǔ)上,因?yàn)榭紤]了每個(gè)用戶之間的影響程度,建立了間接社交關(guān)系,這種關(guān)系同時(shí)包含用戶的直接聯(lián)系與間接聯(lián)系,所以誤差值進(jìn)一步減少。但是這些算法僅分析了用戶之間的影響程度,忽略了物品之間的潛在聯(lián)系,以及不同的近鄰對(duì)不同節(jié)點(diǎn)影響程度的差異性。而本文算法從用戶與物品不同的角度,按節(jié)點(diǎn)影響程度的不同分別構(gòu)建節(jié)點(diǎn)的偏好向量與特征向量,彌補(bǔ)了推薦模型的不足,因此本文算法相比于其他對(duì)比算法推薦效率更優(yōu)。

        表4 不同推薦算法誤差值對(duì)比Table 4 Error value comparison of different recommendation algorithms

        為驗(yàn)證性質(zhì)3、性質(zhì)4,社區(qū)中核心節(jié)點(diǎn)是否對(duì)非核心節(jié)點(diǎn)的影響起主導(dǎo)作用,本文對(duì)參數(shù)ω進(jìn)行了實(shí)驗(yàn)分析。由圖3 可知,當(dāng)ω為0.6 時(shí)誤差最低,也就是說非核心節(jié)點(diǎn)偏好受所屬社區(qū)內(nèi)核心節(jié)點(diǎn)的影響較大,而受社區(qū)外鄰居節(jié)點(diǎn)的影響較小,進(jìn)一步證明了本文算法的正確性。

        圖3 ω 取值與MAE 的關(guān)系Fig.3 Relationship between the ω values and the MAE

        為驗(yàn)證本文算法能否減少迭代收斂次數(shù),將原數(shù)據(jù)集作為訓(xùn)練集,實(shí)驗(yàn)結(jié)果如圖4 所示??梢钥闯?,本文算法相比于其他對(duì)比算法,迭代次數(shù)很快就達(dá)到收斂并且推薦效率明顯高于其他算法。因?yàn)楸疚乃惴ǚ謩e從用戶與項(xiàng)目2 個(gè)角度充分挖掘它們之間的潛在聯(lián)系,依據(jù)不同近鄰對(duì)不同節(jié)點(diǎn)的影響程度的差異性構(gòu)建初始的U、V,所以在提高推薦效率的同時(shí)也減少了收斂次數(shù)。在剛開始時(shí),對(duì)比算法對(duì)U、V初始復(fù)賦值的隨機(jī)性,因而誤差值集中在1.37 左右;本文算法由于U、V初始值是分別依據(jù)用戶相似網(wǎng)絡(luò)與物品相似網(wǎng)絡(luò)中核心節(jié)點(diǎn)構(gòu)建,第0 次迭代誤差值低于1.37。隨著迭代次數(shù)的增多,傳統(tǒng)MF 算法迭代30 次時(shí)才達(dá)到收斂并且誤差最大。而引入社交關(guān)系的SR2 與SoDimRec 算法間接地修正了用戶的偏好向量,迭代20 次時(shí)達(dá)到收斂,推薦效率次之。本文算法因?yàn)榉謩e從用戶和物品2 個(gè)方面分別修正節(jié)點(diǎn)的偏好向量與特征向量,所以在第4 次時(shí)就已經(jīng)達(dá)到收斂并且誤差值較小,實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了本文算法的正確性。

        圖4 不同算法迭代收斂次數(shù)對(duì)比Fig.4 Comparison of iteration convergence times of different algorithms

        5 結(jié)束語

        本文通過分析現(xiàn)有社交信息推薦系統(tǒng)的缺點(diǎn),提出一種基于社交信息的矩陣分解改進(jìn)推薦算法IMF。將評(píng)分信息分別與社交信息和物品的特征屬性相結(jié)合,充分挖掘用戶、物品之間的潛在聯(lián)系,依據(jù)不同類型節(jié)點(diǎn)的近鄰差異性,分別構(gòu)建矩陣分解初始的用戶偏好矩陣U與物品特征矩陣V。實(shí)驗(yàn)結(jié)果表明,IMF 算法在提高推薦效率基礎(chǔ)上,減少了矩陣分解的迭代次數(shù)并提高了推薦效率。但是本文在構(gòu)建相似網(wǎng)絡(luò)的過程中,忽略了相似度很低的用戶與物品,因此對(duì)用戶進(jìn)行有價(jià)值的推薦,將是下一步的研究方向。

        猜你喜歡
        物品向量社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        稱物品
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        “雙十一”,你搶到了想要的物品嗎?
        社交距離
        誰動(dòng)了凡·高的物品
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        向量垂直在解析幾何中的應(yīng)用
        亚洲熟妇av一区| 欧美视频九九一区二区| 欧洲国产成人精品91铁牛tv| 免费一级欧美大片久久网| 白色白色白色在线观看视频| 国产精品一区av在线| 激情综合五月| av无码av天天av天天爽| 综合久久给合久久狠狠狠97色| 国产精品女同久久免费观看| 亚洲啪啪色婷婷一区二区| 日韩中文字幕版区一区二区三区| 国产三级精品三级在线观看| 夜夜春精品视频| 18禁成人免费av大片一区| 老鲁夜夜老鲁| 一本色道无码道在线观看| 日本亚洲国产一区二区三区| 成人无码激情视频在线观看| 少妇又紧又爽丰满在线视频| 未满十八勿入av网免费| 99精品久久这里只有精品| 亚洲AV无码一区二区一二区教师| 久久91精品国产一区二区| 少妇扒开毛茸茸的b自慰| 国内精品久久久久久无码不卡| 国产麻豆剧传媒精品国产av蜜桃| 亚洲综合日韩一二三区| 最近中文字幕国语免费| 久久99精品国产99久久| 日本精品极品视频在线| 一本色道久久综合亚洲精品不| 日本大肚子孕妇交xxx| 老子影院午夜精品无码| 男人阁久久| 亚洲一区二区三区日韩在线观看| 久久久久亚洲av成人无码| 99热这里只有精品4| 国产免费人成视频在线观看播放| 一区二区三区视频在线观看| 中文字幕在线亚洲日韩6页|