亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情境信息遷移的因子分解機(jī)推薦算法

        2022-03-22 03:35:50孫雨新曹曉梅王少輝
        關(guān)鍵詞:特征情境用戶(hù)

        孫雨新,曹曉梅,王少輝

        南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210000

        根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心的預(yù)測(cè)報(bào)告[1]顯示,到2025年全球的數(shù)據(jù)量將達(dá)到163 ZB,將會(huì)是現(xiàn)在的3~4倍。從大量信息中獲取有效信息時(shí),推薦系統(tǒng)作為一種信息篩選的工具,可以給用戶(hù)提供良好的使用體驗(yàn)。推薦算法作為推薦系統(tǒng)的核心,幫助用戶(hù)發(fā)現(xiàn)其感興趣的項(xiàng)目,被應(yīng)用于各大商業(yè)平臺(tái),發(fā)揮其獨(dú)特的價(jià)值[2]。

        傳統(tǒng)推薦算法大多使用用戶(hù)對(duì)項(xiàng)目的評(píng)分記錄作為用戶(hù)偏好的評(píng)價(jià)指標(biāo),通過(guò)計(jì)算用戶(hù)或項(xiàng)目之間的相似度來(lái)生成推薦。雖然這種推薦方式應(yīng)用廣泛,但是評(píng)分記錄數(shù)據(jù)通常比較稀疏,用戶(hù)或項(xiàng)目之間存在聯(lián)系較少,往往較難發(fā)現(xiàn)相似用戶(hù)或項(xiàng)目,影響推薦準(zhǔn)確率。與此同時(shí),用戶(hù)的興趣偏好往往容易受周?chē)h(huán)境影響,而僅使用評(píng)分記錄的傳統(tǒng)推薦算法未考慮這一影響,容易導(dǎo)致推薦結(jié)果過(guò)于單一,個(gè)性化程度低。隨著當(dāng)前計(jì)算機(jī)技術(shù)的迅速發(fā)展,數(shù)據(jù)收集系統(tǒng)在獲取用戶(hù)評(píng)分記錄的同時(shí),還能獲取相應(yīng)的情境信息(時(shí)間、地點(diǎn)、用戶(hù)的年齡、性別等),充分利用這些信息可以使推薦更加客觀(guān)、全面、精準(zhǔn)[3]。目前,一些已有的推薦方案通過(guò)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等方法[4-9]處理情境信息,分析某些情境對(duì)用戶(hù)偏好的影響,然而這些方法大多是針對(duì)某一情境信息進(jìn)行數(shù)據(jù)集過(guò)濾劃分,只利用特定情境信息下的數(shù)據(jù)樣本,然后使用協(xié)同過(guò)濾推薦算法進(jìn)行推薦預(yù)測(cè)。這些方法雖然可以利用情境信息提高推薦的個(gè)性化程度,在一定程度上提高推薦準(zhǔn)確性,但是只使用特定情境下的數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)集過(guò)濾劃分,可能會(huì)產(chǎn)生樣本數(shù)據(jù)不足、整體樣本集利用率低下的問(wèn)題,在訓(xùn)練數(shù)據(jù)不足的情況下會(huì)直接導(dǎo)致推薦結(jié)果單一,不能適應(yīng)情境變化情況,最終反而致使推薦準(zhǔn)確度下降。同時(shí),結(jié)合了情境特征的多維評(píng)分矩陣會(huì)存在部分無(wú)關(guān)和冗余的特征,以及噪聲數(shù)據(jù)等問(wèn)題,進(jìn)一步導(dǎo)致算法復(fù)雜度提高,影響推薦準(zhǔn)確性。

        針對(duì)這些問(wèn)題,本文在傳統(tǒng)推薦算法基礎(chǔ)上提出了一種基于情境信息遷移的因子分解機(jī)推薦算法(factorization machine recommender algorithm based on the context information transfer,CITr-FM),該算法在充分利用多維情境信息的基礎(chǔ)上,首先進(jìn)行特征評(píng)估和篩選,計(jì)算不同情境特征的價(jià)值,去除多余特征求出最佳情境特征子集,再根據(jù)情境特征子集和特定情境信息劃分?jǐn)?shù)據(jù)集,將原數(shù)據(jù)集劃分為滿(mǎn)足特定情境信息的目標(biāo)域數(shù)據(jù)集和不滿(mǎn)足的源域數(shù)據(jù)集;其次利用遷移學(xué)習(xí)的自適應(yīng)增強(qiáng)方法對(duì)源域數(shù)據(jù)集進(jìn)行權(quán)重調(diào)整、樣本遷移,最終得到符合特定情境信息的整體樣本集,充分利用整體樣本集,保證足量的訓(xùn)練數(shù)據(jù),解決樣本利用率低的問(wèn)題;最后使用因子分解機(jī)[10]對(duì)調(diào)整后的數(shù)據(jù)樣本進(jìn)行推薦評(píng)分預(yù)測(cè),利用因子分解機(jī)的特征組合和因子分解方法實(shí)現(xiàn)維度約簡(jiǎn),降低模型復(fù)雜程度,同時(shí)有效緩解多維關(guān)系模型的稀疏性問(wèn)題。分析和仿真實(shí)驗(yàn)表明,CITr-FM算法在充分利用情境信息進(jìn)行個(gè)性化推薦的同時(shí),又能解決預(yù)過(guò)濾引起的樣本集利用率低問(wèn)題,同時(shí)有效緩解多維評(píng)分?jǐn)?shù)據(jù)存在的稀疏性問(wèn)題,提高推薦的準(zhǔn)確度。

        1 相關(guān)工作

        推薦算法多種多樣,Manouselis等[11]將推薦算法分為三大類(lèi):(1)基于內(nèi)容的推薦:根據(jù)用戶(hù)給出的偏好信息,計(jì)算用戶(hù)項(xiàng)目之間的相關(guān)性,推薦給用戶(hù)相似的項(xiàng)目;(2)基于協(xié)同過(guò)濾的推薦:根據(jù)用戶(hù)給出的部分項(xiàng)目的已知偏好信息,預(yù)測(cè)當(dāng)前用戶(hù)對(duì)于其他未評(píng)分項(xiàng)目的潛在偏好,或者利用部分對(duì)當(dāng)前項(xiàng)目的偏好數(shù)據(jù),預(yù)測(cè)指定項(xiàng)目的未評(píng)分用戶(hù)的潛在偏好;(3)混合推薦:按照不同的混合策略將各種推薦算法進(jìn)行組合。此外,Cai等[12]使用標(biāo)簽特征向量表示用戶(hù)興趣特征,根據(jù)單一隱式信息進(jìn)行推薦;陳碧毅等[13]提出融合顯式和隱式反饋信息的推薦算法;以及使用深度學(xué)習(xí)技術(shù)[14-15]的分層推薦模型都展示了推薦算法的不同研究方向。

        近年來(lái),隨著情境信息在提高推薦精確度和用戶(hù)滿(mǎn)意度的作用日益顯著,推薦算法中結(jié)合情境信息進(jìn)行個(gè)性化的推薦的研究在不斷增多。Wu等[6]闡述了情境信息的產(chǎn)生以及情境信息在豐富用戶(hù)行為,刻畫(huà)用戶(hù)和項(xiàng)目背景,進(jìn)而有效輔助分析用戶(hù)偏好并建立用戶(hù)模型起到的作用。情境信息預(yù)過(guò)濾能夠篩選出滿(mǎn)足特定情境信息的部分樣本集,Adomavicius等[4]提出一種基于維度約簡(jiǎn)的預(yù)過(guò)濾推薦算法,將用戶(hù)項(xiàng)目數(shù)據(jù)樣本按照單一情境信息劃分,然而預(yù)過(guò)濾方法只使用劃分后特定情境信息下的數(shù)據(jù)樣本,樣本利用率較低并存在數(shù)據(jù)稀疏問(wèn)題。Baltrunas等[7]考慮情境劃分的方式,利用時(shí)間信息進(jìn)行自適應(yīng)分割將數(shù)據(jù)劃分成多個(gè)代表類(lèi),但是該方法仍存在劃分后的數(shù)據(jù)稀疏和樣本利用率低問(wèn)題。以上幾種推薦算法都是利用單一情境進(jìn)行用戶(hù)聚類(lèi)劃分,而對(duì)于包含多維情境信息的用戶(hù)評(píng)分模型,往往存在特征冗余和高維空間的數(shù)據(jù)稀疏問(wèn)題,距離函數(shù)難以生效,無(wú)法進(jìn)行有效的聚類(lèi)劃分。羅國(guó)前等[8]引入情境感知方法,在算法中加入了全局偏置和情境偏置進(jìn)一步提高個(gè)性化推薦的準(zhǔn)確度。Gu等[9]提出了一個(gè)情境感知矩陣分解模型AlphaMF,利用矩陣分解模型模擬用戶(hù)隱式反饋,利用線(xiàn)性上下文特征和隱式反饋進(jìn)行推薦,有效緩解冷啟動(dòng)問(wèn)題。Oku等[16]利用SVM(支持向量機(jī))處理高維數(shù)據(jù)模型,進(jìn)行數(shù)據(jù)劃分。由于直接使用機(jī)器學(xué)習(xí)模型處理高維數(shù)據(jù),導(dǎo)致整體模型的復(fù)雜程度提高,并且花費(fèi)較長(zhǎng)時(shí)間構(gòu)造和更新預(yù)測(cè)模型。

        推薦算法經(jīng)常面臨著隨著用戶(hù)和項(xiàng)目數(shù)量增長(zhǎng)導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題。研究結(jié)果表明,將遷移學(xué)習(xí)應(yīng)用在推薦算法[17]可以在不改變?cè)袛?shù)據(jù)的基礎(chǔ)上,引入外部數(shù)據(jù)輔助原有數(shù)據(jù)生成推薦。Pan等[18]介紹了使用遷移學(xué)習(xí)對(duì)數(shù)據(jù)樣本進(jìn)行分布趨近處理,保證整體樣本同分布的同時(shí)有效擴(kuò)充原有數(shù)據(jù)樣本,緩解稀疏問(wèn)題。Li等[19]提出一種使用外部數(shù)據(jù)跨域遷移的CBT算法,將其他領(lǐng)域中密集數(shù)據(jù)信息的評(píng)分矩陣遷移到目標(biāo)領(lǐng)域的稀疏評(píng)分矩陣中,以?xún)蓚€(gè)領(lǐng)域的評(píng)分模式的聚類(lèi)信息作為橋梁,傳遞輔助信息中的有用信息。葛夢(mèng)凡等[20]對(duì)不同領(lǐng)域數(shù)據(jù)集中的項(xiàng)目標(biāo)簽進(jìn)行跨域遷移,結(jié)合不同領(lǐng)域標(biāo)簽計(jì)算目標(biāo)域主題偏好,緩解目標(biāo)域數(shù)據(jù)稀疏問(wèn)題。這些方法在進(jìn)行跨域處理時(shí),會(huì)存在不同領(lǐng)域間用戶(hù)、項(xiàng)目信息的異構(gòu)問(wèn)題,利用相似領(lǐng)域或者同領(lǐng)域的不同數(shù)據(jù)則能緩解此問(wèn)題。Pan等[21]討論了一種半監(jiān)督協(xié)同過(guò)濾推薦算法,使用自適應(yīng)性遷移學(xué)習(xí)迭代處理,將隱式信息整合到顯式信息中。該方法在有效緩解數(shù)據(jù)異構(gòu)問(wèn)題的同時(shí)在顯式信息充分融合隱式信息緩解稀疏性問(wèn)題。

        將情境信息融入用戶(hù)-項(xiàng)目二元關(guān)系模型中生成多維評(píng)分模型的推薦算法,會(huì)存在一定的數(shù)據(jù)稀疏問(wèn)題,利用矩陣分解可以緩解此問(wèn)題。文獻(xiàn)[22-23]充分利用標(biāo)簽信息、時(shí)間和信任關(guān)系等這些額外信息對(duì)用戶(hù)偏好的影響,結(jié)合矩陣分解方法對(duì)多維信息進(jìn)行降維,降低算法復(fù)雜程度同時(shí)緩解評(píng)分矩陣稀疏性問(wèn)題。此后,Rendle提出了因子分解機(jī)模型,該模型可以處理包含任意實(shí)值的特征向量,使用矩陣分解引入隱向量解決多特征引起的模型復(fù)雜問(wèn)題,使用因子化參數(shù)來(lái)建立特征變量的聯(lián)系并通過(guò)交叉項(xiàng)特征緩解數(shù)據(jù)稀疏問(wèn)題,提升預(yù)測(cè)的準(zhǔn)確性。該方法保證了高維特征交互的可靠估計(jì)和模型的線(xiàn)性訓(xùn)練時(shí)間。胡亞慧等[24]在使用因子分解機(jī)的同時(shí),利用文化差異這一用戶(hù)背景信息對(duì)用戶(hù)興趣偏好的影響,針對(duì)不同情境下的用戶(hù)文化背景進(jìn)行用戶(hù)興趣預(yù)測(cè)。因子分解機(jī)在有效利用用戶(hù)背景信息的同時(shí)又能緩解數(shù)據(jù)稀疏,進(jìn)行個(gè)性化推薦。但該方法僅將多維特征信息利用因子分解機(jī)進(jìn)行推薦模型預(yù)測(cè),沒(méi)有對(duì)情境信息進(jìn)行分析處理,不能充分利用情境信息的價(jià)值。

        通過(guò)實(shí)驗(yàn)對(duì)各種推薦算法進(jìn)行驗(yàn)證比較后,得出本文提出的CITr-FM算法在進(jìn)行推薦預(yù)測(cè)上的優(yōu)勢(shì)如下:(1)充分利用情境信息對(duì)用戶(hù)偏好的影響,提取重要情境特征進(jìn)行數(shù)據(jù)樣本預(yù)過(guò)濾劃分,可以提高推薦的個(gè)性化程度。(2)對(duì)劃分后的部分?jǐn)?shù)據(jù)使用遷移學(xué)習(xí)方法,調(diào)整數(shù)據(jù)分布,無(wú)需引入外部樣本,提高樣本利用率的同時(shí)使用因子分解機(jī)緩解稀疏性問(wèn)題。(3)發(fā)揮情境信息在個(gè)性化推薦中的作用,提高推薦準(zhǔn)確度。

        2 基于情境信息遷移的因子分解機(jī)推薦算法

        本章主要對(duì)CITr-FM算法的問(wèn)題進(jìn)行形式化定義,同時(shí)對(duì)算法進(jìn)行理論分析論述和過(guò)程描述,并給出相關(guān)的流程圖。

        2.1 問(wèn)題定義

        為了便于形式化的描述,本文的符號(hào)標(biāo)記見(jiàn)表1。

        表1 符號(hào)定義Table 1 Definition of symbols

        針對(duì)不同的使用場(chǎng)景,可以使用不同的情境信息。利用情境信息進(jìn)行用戶(hù)個(gè)性化推薦,在傳統(tǒng)用戶(hù)項(xiàng)目評(píng)分矩陣的基礎(chǔ)上加入額外的環(huán)境情境信息構(gòu)造多維評(píng)分矩陣,通過(guò)給定的用戶(hù)信息U、項(xiàng)目信息I、情境信息C訓(xùn)練出預(yù)測(cè)模型。對(duì)于評(píng)分矩陣中存在的未知評(píng)分,可以通過(guò)預(yù)測(cè)模型計(jì)算相應(yīng)評(píng)分,該評(píng)分代表了用戶(hù)u在特定的情境C下對(duì)項(xiàng)目i的喜好程度。

        2.2 算法設(shè)計(jì)

        在本文中,為了充分利用環(huán)境情境信息,構(gòu)建包含環(huán)境情境信息的特征矩陣,對(duì)用戶(hù)-項(xiàng)目-環(huán)境情境多維信息進(jìn)行one-hot編碼[25],編碼后的矩陣信息更便于進(jìn)行特征重要性評(píng)估,處理后的數(shù)據(jù)形式如圖1所示。

        圖1 用戶(hù)-項(xiàng)目-環(huán)境情境信息評(píng)分矩陣Fig.1 User-item-environmental situation information scoring matrix

        其中每一行表示用戶(hù)u對(duì)項(xiàng)目i在環(huán)境情境c下的評(píng)分記錄yi。以第一條記錄x1為例,用戶(hù)u1對(duì)項(xiàng)目i1在環(huán)境情境c11的條件下的評(píng)分y1為5分。原本m×n的用戶(hù)項(xiàng)目評(píng)分矩陣轉(zhuǎn)換為a×(b+1)的用戶(hù)評(píng)分記錄矩陣,其中a為評(píng)分個(gè)數(shù),b為編碼后的特征維度。

        對(duì)編碼處理后的多維關(guān)系模型,使用CITr-FM算法建立推薦模型。CITr-FM算法主要分為以下三個(gè)階段:(1)情境預(yù)過(guò)濾:篩選重要特征然后根據(jù)篩選后的特征子集進(jìn)行情境信息預(yù)過(guò)濾,得到滿(mǎn)足當(dāng)前情境信息的數(shù)據(jù)樣本集Tt和其余數(shù)據(jù)樣本集Ts;(2)樣本遷移:利用遷移學(xué)習(xí)方法,將過(guò)濾后的樣本集Ts,使用滿(mǎn)足當(dāng)前情境信息的Tt數(shù)據(jù)集進(jìn)行樣本權(quán)重調(diào)整和評(píng)分再預(yù)測(cè),得到Ts調(diào)整后的數(shù)據(jù)樣本(Xs,Ys);(3)推薦預(yù)測(cè):調(diào)整后的樣本集Ts和原樣本集Tt合并為一個(gè)數(shù)據(jù)集T,將該數(shù)據(jù)樣本集放入因子分解機(jī)模型進(jìn)行推薦模型訓(xùn)練,充分利用情境信息對(duì)用戶(hù)偏好的影響,最終預(yù)測(cè)用戶(hù)對(duì)項(xiàng)目的偏好程度。整體算法的流程圖如圖2所示。

        圖2 CITr-FM算法流程圖Fig.2 Flowchart of CITr-FM algorithm

        2.3 算法實(shí)現(xiàn)

        根據(jù)算法設(shè)計(jì)提出的內(nèi)容,本文提出的CITr-FM算法的具體實(shí)現(xiàn)過(guò)程如下。

        2.3.1 情境預(yù)過(guò)濾

        傳統(tǒng)推薦算法使用聚類(lèi)算法來(lái)計(jì)算用戶(hù)相似度,進(jìn)行數(shù)據(jù)集分類(lèi),在加入情境信息的多維關(guān)系模型中,使用聚類(lèi)算法不僅會(huì)提高計(jì)算復(fù)雜度,而且對(duì)高維數(shù)據(jù)進(jìn)行聚類(lèi)可能會(huì)失效。此外,不同數(shù)據(jù)集都需要考慮情境信息對(duì)用戶(hù)的偏好的影響價(jià)值,并不是所有情境特征都會(huì)對(duì)推薦結(jié)果產(chǎn)生有效影響,冗余的情境特征[3]會(huì)提高算法復(fù)雜度,影響推薦準(zhǔn)確度。對(duì)此,首先需要對(duì)包含情境特征的數(shù)據(jù)樣本進(jìn)行重要特征的篩選,本文使用XGBoost[26]算法進(jìn)行特征重要性評(píng)估,相較于傳統(tǒng)特征選擇算法,XGBoost可以有效防止過(guò)擬合,同時(shí)進(jìn)行并行優(yōu)化,考慮數(shù)據(jù)集稀疏情況,大大提高算法的效率;然后根據(jù)特征重要性對(duì)環(huán)境情境特征進(jìn)行排序,建立特征子集Xsub并利用前向搜索的思想依次往特征子集中放入排序后的特征;最后對(duì)不同的特征子集建立評(píng)分預(yù)測(cè)模型,計(jì)算不同特征子集下模型的AUC指標(biāo)的值Rsub,將最優(yōu)AUC指標(biāo)的情境特征子集作為最優(yōu)子集Xsub,并根據(jù)保留的多維重要特征Xsub和指定情況下的情境特征ck進(jìn)行情境預(yù)過(guò)濾,將原數(shù)據(jù)集劃分為兩個(gè)子集Tt和Ts。

        利用XGBoost篩選重要特征并進(jìn)行情境信息預(yù)過(guò)濾的過(guò)程如圖3所示。

        圖3 情境預(yù)過(guò)濾流程圖Fig.3 Flowchart of situational prefiltering

        情景預(yù)過(guò)濾的主要步驟為:

        (1)依次構(gòu)建XGBoost樹(shù)模型,直到整棵樹(shù)深度到達(dá)M,構(gòu)建過(guò)程中估計(jì)葉節(jié)點(diǎn)區(qū)域的值,能使得目標(biāo)函數(shù)Loss盡可能小,最終得到回歸樹(shù)模型f(x)。

        其中,第一部分為損失函數(shù),第二部分為L(zhǎng)2正則項(xiàng)。

        (2)從頂至下遍歷整個(gè)樹(shù)模型,計(jì)算情境特征重要性,然后建立特征子集初始為空,前向搜索依次加入特征,順序?yàn)榕判蚝笾匾詮拇蟮叫。⒃谔卣髯蛹线M(jìn)行建立預(yù)測(cè)模型,通過(guò)AUC指標(biāo)Rsub求得最優(yōu)特征子集Xsub。

        (3)保留最優(yōu)特征子集,對(duì)原評(píng)分記錄進(jìn)行特征縮減。加入當(dāng)前情境信息ck,其中,其中j<k,k為最終保留的情境特征c的個(gè)數(shù)。

        (4)對(duì)原數(shù)據(jù)集的評(píng)分記錄進(jìn)行情境信息預(yù)過(guò)濾劃分。

        通過(guò)該部分對(duì)原始數(shù)據(jù)集的處理后,將滿(mǎn)足指定情境的數(shù)據(jù)樣本劃分為目標(biāo)域數(shù)據(jù)Tt,即Xa×b評(píng)分記錄中context部分中的情境特征與ck中情境特征相符的劃分為目標(biāo)域數(shù)據(jù)Tt,不相符的則與指定情境相關(guān)度較低,劃分為源域數(shù)據(jù)Ts。

        2.3.2 樣本遷移

        傳統(tǒng)情境信息預(yù)過(guò)濾[6-7]方法只使用滿(mǎn)足特定情境信息的樣本集,這會(huì)導(dǎo)致訓(xùn)練樣本不足引起模型訓(xùn)練不充分、樣本利用率低問(wèn)題。使用遷移學(xué)習(xí)方法對(duì)數(shù)據(jù)集進(jìn)行遷移處理,可以充分利用整個(gè)樣本集。由于目標(biāo)域數(shù)據(jù)Tt和源域數(shù)據(jù)Ts屬于不同的情境條件,因此這兩部分的數(shù)據(jù)作為不同分布的數(shù)據(jù)集進(jìn)行處理,源域數(shù)據(jù)Ts是不可以直接用來(lái)進(jìn)行推薦模型訓(xùn)練。利用樣本遷移技術(shù),對(duì)與特定情境相關(guān)度較低的源域數(shù)據(jù)Ts進(jìn)行數(shù)據(jù)遷移,從而確保源域與目標(biāo)域的整體數(shù)據(jù)分布和特征分布相似。對(duì)此使用TrAdaBoost[27]算法的思想對(duì)劃分后的數(shù)據(jù)集處理如圖4。

        圖4 樣本遷移流程圖Fig.4 Flowchart of instance transfer

        經(jīng)過(guò)劃分后的目標(biāo)域和源域數(shù)據(jù),將含有評(píng)分的數(shù)據(jù)集Ts(大小為m)和Tt(大小為n)按順序合并為T(mén),其中前n個(gè)為T(mén)t,后m個(gè)Ts,設(shè)置迭代次數(shù)為S。

        (1)初始化樣本權(quán)重向量W1=(w1,w2,…,wm+n),其中w1=w2=…=wm+n=1/(m+n),對(duì)樣本權(quán)重和模型進(jìn)行迭代更新,直到達(dá)到一定的迭代次數(shù)S。更新規(guī)則為:根據(jù)樣本權(quán)重和整體數(shù)據(jù)集T訓(xùn)練得到分類(lèi)器ft(x),計(jì)算平均損失εt并判斷平均損失是否小于e,如果平均損失εt比e小,則可以進(jìn)行權(quán)重調(diào)整。

        (2)完成相應(yīng)的迭代更新后,選擇迭代過(guò)程中平均損失最小的第i次的樣本權(quán)重向量Wi及其條件下的組合預(yù)測(cè)模型f(x)。

        (3)源域樣本利用調(diào)整后的權(quán)重向量Wi和組合預(yù)測(cè)模型f(x)進(jìn)行樣本評(píng)分預(yù)測(cè),得到新的樣本評(píng)分。

        當(dāng)需要進(jìn)行權(quán)重更新時(shí),更新的學(xué)習(xí)率為lr1,并且權(quán)重進(jìn)行如下調(diào)整:

        其中,wi為樣本權(quán)重,Zt為標(biāo)準(zhǔn)化因子,βt為更新梯度。

        不同部分的權(quán)重調(diào)整策略不同,對(duì)于目標(biāo)域樣本,如果預(yù)測(cè)錯(cuò)誤,則說(shuō)明模型欠擬合,需要增大權(quán)重;對(duì)于源域樣本,如果預(yù)測(cè)錯(cuò)誤,則說(shuō)明不符合目標(biāo)域數(shù)據(jù)分布,應(yīng)該降低其權(quán)重。

        預(yù)測(cè)模型使用組合預(yù)測(cè)器,組合分類(lèi)器的個(gè)數(shù)為i,其中i為最佳迭代次數(shù)。在得到最優(yōu)源域樣本權(quán)重和組合預(yù)測(cè)器f(x)之后,利用訓(xùn)練好的預(yù)測(cè)函數(shù)f(x)計(jì)算源域樣本在進(jìn)行樣本遷移,權(quán)重調(diào)整后的評(píng)分Ys=f(Xs),調(diào)整后的源域數(shù)據(jù)為(Xs,Ys)其樣本分布和用戶(hù)偏好更加符合目標(biāo)域數(shù)據(jù)。

        2.3.3 推薦預(yù)測(cè)

        推薦預(yù)測(cè)部分主要工作是將樣本遷移處理過(guò)的源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)合并,再使用因子分解機(jī)建立推薦預(yù)測(cè)模型。因子分解機(jī)將多維的推薦預(yù)測(cè)問(wèn)題表示為:U×I×C→R,該預(yù)測(cè)模型除了使用傳統(tǒng)的用戶(hù)和項(xiàng)目這兩個(gè)特征外,還可以利用額外特征。本文使用的情境信息將作為額外的特征來(lái)提高整體推薦的個(gè)性化和準(zhǔn)確性,對(duì)于輸入輸出可以表示為:

        因子分解機(jī)在傳統(tǒng)的線(xiàn)性函數(shù)模型的基礎(chǔ)上,引入特征之間的交叉項(xiàng),學(xué)習(xí)特征之間的關(guān)聯(lián)信息,主要模型如下:

        模型采用梯度下降方法進(jìn)行參數(shù)調(diào)優(yōu),每一輪的學(xué)習(xí)率為lr2,在進(jìn)行一定次數(shù)的迭代循環(huán)后可以得出最終的推薦預(yù)測(cè)模型,將源域Ts的樣本的評(píng)分看成未知,即看作是無(wú)監(jiān)督樣本,進(jìn)而進(jìn)行用戶(hù)評(píng)分預(yù)測(cè)。

        3 仿真實(shí)驗(yàn)及分析

        在開(kāi)源的數(shù)據(jù)集MovieLens上,進(jìn)行CITr-FM算法與其他典型推薦算法的對(duì)比實(shí)驗(yàn),結(jié)果表明了CITr-FM算法的可行性。此外,本文還進(jìn)一步分析了本文使用的算法的一些重要參數(shù)對(duì)結(jié)果的影響。

        3.1 數(shù)據(jù)集及推薦結(jié)果分析

        3.1.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        本文實(shí)驗(yàn)主要使用Movielens數(shù)據(jù)集和Book-Crossing數(shù)據(jù)集,Movielens數(shù)據(jù)集是由GroupLens Research從MovieLens網(wǎng)站上收集到的關(guān)于用戶(hù)對(duì)電影的評(píng)級(jí)數(shù)據(jù),Book-Crossing數(shù)據(jù)集是Book-Crossing社區(qū)的用戶(hù)對(duì)書(shū)本的評(píng)級(jí)數(shù)據(jù)。關(guān)于本文使用的MovieLens-100k、MovieLens-1M和Book-Crossing數(shù)據(jù)集,其中MovieLens-100k數(shù)據(jù)集(ML-100k)主要是由943名用戶(hù)對(duì)1 684部的電影產(chǎn)生的共10 000條評(píng)級(jí)數(shù)據(jù),該數(shù)據(jù)集已經(jīng)進(jìn)行了一定的處理,保證了每名用戶(hù)至少有20條評(píng)級(jí)數(shù)據(jù),并且每部電影有3次評(píng)級(jí);MovieLens-1M數(shù)據(jù)集(ML-1M)主要是由6 040名用戶(hù)對(duì)3 900部電影產(chǎn)生的共1 000 209條評(píng)級(jí)數(shù)據(jù),處理方式同MovieLens-100k數(shù)據(jù)集;Book-Crossing數(shù)據(jù)集(Book-C)主要是由92 107名用戶(hù)對(duì)271 379本書(shū)籍產(chǎn)生的1 031 175條評(píng)級(jí)數(shù)據(jù),對(duì)該數(shù)據(jù)集進(jìn)行評(píng)級(jí)標(biāo)準(zhǔn)化,將數(shù)據(jù)的評(píng)級(jí)調(diào)整為1~5評(píng)級(jí)。3個(gè)數(shù)據(jù)集的評(píng)分標(biāo)準(zhǔn)都為1~5評(píng)級(jí),分?jǐn)?shù)越高表明用戶(hù)越喜愛(ài),3個(gè)數(shù)據(jù)集相關(guān)屬性詳細(xì)統(tǒng)計(jì)如表2所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)Table 2 Statistics of data set

        本文將使用數(shù)據(jù)集進(jìn)行遷移處理之后混合數(shù)據(jù)樣本再進(jìn)行隨機(jī)劃分,其中90%數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為驗(yàn)證集。確保不同數(shù)據(jù)集之間可以進(jìn)行對(duì)比,統(tǒng)一使用的初始情境特征的C的個(gè)數(shù)為8,經(jīng)過(guò)特征重要性評(píng)估篩選處理后,保留的情境特征個(gè)數(shù)為6,ck中的情境個(gè)數(shù)為半數(shù)以上。樣本遷移中的權(quán)重更新誤差e設(shè)置為0.5,TrAdaBoost算法中分類(lèi)器的數(shù)量為[100,130]較好,學(xué)習(xí)率lr1為0.005。FM模型的學(xué)習(xí)率lr2為0.5,L2正則化參數(shù)λθ為0.005,隱向量個(gè)數(shù)k為8的時(shí)候,其模型收斂較快,推薦誤差較低。

        本文使用的評(píng)價(jià)指標(biāo)主要為機(jī)器學(xué)習(xí)中常用回歸算法的評(píng)價(jià)指標(biāo)均方根誤差(RMSE)和平均絕對(duì)誤差(MAE),利用這兩種算法可以對(duì)推薦結(jié)果的準(zhǔn)確度進(jìn)行評(píng)價(jià)。其公式如下:

        其中,yi表示用戶(hù)對(duì)項(xiàng)目的原始評(píng)分,表示推薦算法的預(yù)測(cè)評(píng)分,使用的數(shù)據(jù)樣本都為測(cè)試集中的數(shù)據(jù)包含M個(gè)測(cè)試樣本。

        其中,yi表示原始評(píng)分,表示預(yù)測(cè)評(píng)分,兩個(gè)指標(biāo)的評(píng)價(jià)結(jié)果都是所計(jì)算的數(shù)值越小,推薦結(jié)果更加準(zhǔn)確。

        3.1.2 推薦結(jié)果分析

        本文提出的CITr-FM算法主要與以下幾種傳統(tǒng)推薦算法進(jìn)行對(duì)比:(1)最近鄰?fù)扑]算法(KNN),(2)非負(fù)矩陣分解推薦算法(NMF),(3)奇異值矩陣分解推薦算法SVD,(4)基于隱因子的SVD(SVD++),(5)集合矩陣分解推薦算法(CMF)[28],(6)情境感知矩陣分解算法(CAMF)[9],通過(guò)閱讀相關(guān)算法的參考文獻(xiàn)和介紹,并通過(guò)實(shí)驗(yàn)對(duì)相關(guān)算法的參數(shù)進(jìn)行了調(diào)整,使各個(gè)算法的實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)值。分別在三個(gè)數(shù)據(jù)集上使用上述推薦算法和本文的推薦算法進(jìn)行推薦預(yù)測(cè),在進(jìn)行多輪實(shí)驗(yàn)后取評(píng)價(jià)指標(biāo)的平均值,實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 不同數(shù)據(jù)集上的RMSE和MAE對(duì)比Fig.5 Comparison of RMSE and MAE on different data sets

        從圖5可以看出對(duì)于三個(gè)不同的數(shù)據(jù)集,本文提出的推薦算法都比推薦算法有更低的RMSE和MAE指標(biāo),并且本文提出的CITr-FM算法是針對(duì)特定的情境下進(jìn)行用戶(hù)個(gè)性化推薦的,因此,在使用測(cè)試集進(jìn)行預(yù)測(cè)實(shí)驗(yàn)時(shí),比傳統(tǒng)的推薦算法有著更低的RMSE,預(yù)測(cè)結(jié)果的整體分布更加接近。通過(guò)三個(gè)數(shù)據(jù)集的驗(yàn)證,可以發(fā)現(xiàn)隨著訓(xùn)練樣本數(shù)據(jù)的增多,推薦算法的擬合效果更好,兩種指標(biāo)的誤差更小,最終的預(yù)測(cè)能力更強(qiáng)。此外,通過(guò)使用Movielens數(shù)據(jù)集和Book-Crossing數(shù)據(jù)集這兩種不同領(lǐng)域的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)可以發(fā)現(xiàn),對(duì)于包含情境信息的不同數(shù)據(jù)集,本文提出的CITr-FM算法都能比傳統(tǒng)推薦算法產(chǎn)生更加準(zhǔn)確的評(píng)分預(yù)測(cè),體現(xiàn)了算法的有效性和適用性。

        此外本文還對(duì)不同算法使用整體樣本集進(jìn)行多次迭代擬合訓(xùn)練,在使用ML-100k的數(shù)據(jù)樣本進(jìn)行多次的迭代訓(xùn)練后,各個(gè)算法之間的RMSE指標(biāo)對(duì)比如圖6所示,給出了在訓(xùn)練集和測(cè)試集上,使用數(shù)據(jù)集進(jìn)行多次訓(xùn)練后的預(yù)測(cè)結(jié)果的RMSE指標(biāo),由圖6可知,在隨著使用整體數(shù)據(jù)集進(jìn)行迭代循環(huán)訓(xùn)練的次數(shù)上升,算法中模型的擬合程度越來(lái)越高,最終參數(shù)接近整體最優(yōu)。多次迭代后通過(guò)在測(cè)試集上進(jìn)行驗(yàn)證時(shí)會(huì)發(fā)現(xiàn),隨著迭代次數(shù)的增多,預(yù)測(cè)結(jié)果的RMSE指標(biāo)會(huì)先下降后上升,這是由于在進(jìn)行過(guò)多次的epoch之后,造成預(yù)測(cè)模型過(guò)擬合的結(jié)果,可以發(fā)現(xiàn)當(dāng)?shù)螖?shù)在20次左右的時(shí)候,使用ML-100k數(shù)據(jù)樣本達(dá)到整體最優(yōu)。

        圖6 不同算法在訓(xùn)練集和測(cè)試集上不同迭代次數(shù)的RMSE Fig.6 Different algorithms with different iteration times on training set and test set

        3.2 重要參數(shù)的影響分析

        本文提出的CITr-FM推薦算法的步驟中包含以下幾個(gè)超參數(shù)會(huì)對(duì)最終推薦結(jié)果產(chǎn)生影響:(1)樣本遷移算法TrAdaBoost中的分類(lèi)器個(gè)數(shù)S和學(xué)習(xí)率lr1,(2)FM模型中的學(xué)習(xí)率lr2、正則化參數(shù)λθ和隱向量個(gè)數(shù)k。本次實(shí)驗(yàn)還對(duì)這些參數(shù)進(jìn)行進(jìn)一步實(shí)驗(yàn),研究其對(duì)于推薦結(jié)果的影響。

        對(duì)于TrAdaBoost算法的分類(lèi)器個(gè)數(shù)S和學(xué)習(xí)率lr1lr1,使用Movielens-100k數(shù)據(jù)集,在進(jìn)行情境預(yù)過(guò)濾后的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。首先固定分類(lèi)器個(gè)數(shù)S,調(diào)整學(xué)習(xí)率從0.000 01到0.05并記錄TrAdaBoost算法中預(yù)測(cè)結(jié)果的RMSE指標(biāo)。然后固定學(xué)習(xí)率lr1和權(quán)重更新的閾值e,調(diào)整分類(lèi)器個(gè)數(shù)從80逐漸增加到250個(gè)并記錄遷移算法對(duì)于目標(biāo)域數(shù)據(jù)的預(yù)測(cè)結(jié)果的RMSE指標(biāo),結(jié)果如圖7所示。

        由圖7可以看出學(xué)習(xí)率lr1在0.005時(shí),分類(lèi)器的個(gè)數(shù)在[110,130]區(qū)間,可以獲得最佳的遷移效果。

        圖7 學(xué)習(xí)率和分類(lèi)器個(gè)數(shù)對(duì)TrAdaBoost算法的影響Fig.7 Influence of learning rate and number of classifiers on TrAdaBoost algorithm

        對(duì)于FM中的學(xué)習(xí)率lr2、正則化參數(shù)λθ和隱向量個(gè)數(shù)k,首先固定其中的正則化參數(shù)λθ和隱向量個(gè)數(shù)k,調(diào)整學(xué)習(xí)率lr2從0.000 1到1,并記錄FM模型對(duì)于處理后的數(shù)據(jù)集的預(yù)測(cè)結(jié)果的RMSE指標(biāo)。然后固定其中的學(xué)習(xí)率lr2和隱向量個(gè)數(shù)k,調(diào)整正則化參數(shù)從0.000 1到0.01,并記錄預(yù)測(cè)結(jié)果的相關(guān)指標(biāo)。最后固定學(xué)習(xí)率lr2和正則化參數(shù)λθ,調(diào)整隱向量個(gè)數(shù)從1到30,并記錄預(yù)測(cè)結(jié)果的相關(guān)指標(biāo)。最終結(jié)果如圖8所示。

        由圖8可知,F(xiàn)M模型的學(xué)習(xí)率lr2在0.5,正則化參數(shù)λθ在0.005,隱向量個(gè)數(shù)k的個(gè)數(shù)在8的時(shí)候,最終的CITr-FM算法的預(yù)測(cè)結(jié)果可以取得最低的RMSE誤差損失,保證了整體的推薦性能最佳。

        圖8 學(xué)習(xí)率、正則項(xiàng)和隱向量個(gè)數(shù)對(duì)因子分解機(jī)的影響Fig.8 Influence of learning rate,regular term and number of implicit vectors on factorization machine

        4 結(jié)束語(yǔ)

        本文提出的基于情境信息遷移的因子分解機(jī)算法,通過(guò)特征評(píng)估篩選重要特征并結(jié)合情境信息進(jìn)行數(shù)據(jù)集劃分,分為符合特定情境信息的目標(biāo)域和不相關(guān)的源域,充分考慮情境信息對(duì)用戶(hù)偏好的影響;對(duì)源域數(shù)據(jù)進(jìn)行樣本遷移重新計(jì)算評(píng)分,保證其數(shù)據(jù)分布符合目標(biāo)域數(shù)據(jù)分布;最后將整體數(shù)據(jù)整合后放入因子分解機(jī)中建立推薦模型。與傳統(tǒng)推薦算法相比,能夠有效利用情境信息進(jìn)行個(gè)性化推薦,充分利用整體數(shù)據(jù)集和多維特征來(lái)緩解推薦算法中的稀疏性問(wèn)題,提高了推薦的個(gè)性化程度和推薦準(zhǔn)確度。下一步,將嘗試結(jié)合不同領(lǐng)域的數(shù)據(jù)樣本集,使用更高效的遷移方法,進(jìn)一步探究如何將不同領(lǐng)域數(shù)據(jù)集中的異構(gòu)情境信息與當(dāng)前數(shù)據(jù)集相結(jié)合,利用外部數(shù)據(jù)進(jìn)一步緩解數(shù)據(jù)稀疏問(wèn)題。

        猜你喜歡
        特征情境用戶(hù)
        情境引領(lǐng)追問(wèn)促深
        不同情境中的水
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀(guān)察
        護(hù)患情境會(huì)話(huà)
        關(guān)注用戶(hù)
        特定情境,感人至深
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        av免费在线播放观看| 欧美老妇与禽交| 久久免费观看国产精品| 一区二区三区观看在线视频| 少妇被黑人整得嗷嗷叫视频| 欧美精品v国产精品v日韩精品| 日韩A∨精品久久久久| 亚洲av国产大片在线观看| 日韩av天堂一区二区| 疯狂的欧美乱大交| 伊人色综合视频一区二区三区| 亚洲精品国产精品av| 亚洲av综合色区一区二区| 中文字幕人妻熟在线影院| 无码不卡高清毛片免费| 一区二区三区岛国av毛片| 男女边摸边吃奶边做视频韩国| 久久精品国产久精国产| 99久久人妻无码精品系列蜜桃| 亚洲精品在线观看自拍| 无套无码孕妇啪啪| 精品国内自产拍在线观看| 久久这里有精品国产电影网| 日本一区二区三区精品免费| 亚洲国产精品无码久久| 18无码粉嫩小泬无套在线观看 | 成人国产精品999视频| 中文字幕精品一区二区日本| 中文字幕精品一区二区三区| 伊人久久久精品区aaa片| 亚洲国产成人手机在线观看| 久久精品国产亚洲av夜夜| 亚洲精品久久激情国产片| 日本一区午夜艳熟免费| 亚洲中文字幕乱码一二三区| 免费在线观看播放黄片视频| 国产人妻精品一区二区三区| 国产精品黑色丝袜在线播放| 国产精品女同一区二区软件| 在线天堂www中文| 亚洲色大成在线观看|