亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合標(biāo)簽文本的k-means聚類和矩陣分解算法

        2023-06-10 06:42:22居曉媛汪明艷
        軟件工程 2023年6期
        關(guān)鍵詞:效果用戶模型

        居曉媛, 汪明艷

        (上海工程技術(shù)大學(xué)管理學(xué)院, 上海 201620)

        1 引言(Introduction)

        推薦算法是以大數(shù)據(jù)為依托,以用戶行為對(duì)象,分析用戶瀏覽的歷史記錄、習(xí)慣、偏好,有針對(duì)性地為用戶推薦符合其喜好的內(nèi)容。常見(jiàn)的推薦算法包括協(xié)同過(guò)濾[1]、基于內(nèi)容的推薦[2]及混合推薦算法等。協(xié)同過(guò)濾主要包括兩種:基于內(nèi)存的協(xié)同過(guò)濾(Memory-based CF)和基于模型的協(xié)同過(guò)濾(Model-based CF)。基于模型的協(xié)同過(guò)濾通過(guò)建模的方式模擬用戶對(duì)項(xiàng)目的評(píng)分行為,其使用機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù),從訓(xùn)練數(shù)據(jù)中確定模型并將模型用于預(yù)測(cè)未知商品評(píng)分。作為常見(jiàn)的基于模型的協(xié)同過(guò)濾方式,矩陣分解已成為降低數(shù)據(jù)維數(shù)、提取數(shù)據(jù)潛在特征和減少稀疏性的有效方法。根據(jù)矩陣分解可以解決數(shù)據(jù)稀疏的特點(diǎn),所以矩陣分解被廣泛應(yīng)用于推薦系統(tǒng)中。常用的矩陣分解技術(shù)包括奇異值分解(SVD)[3]、主成分分析(PCA)[4]、概率矩陣分解(PMF)[5]和非負(fù)矩陣分解(NMF)[6]。YAO等提出了一種基于聯(lián)合概率矩陣分解的群體推薦方法,能更好地模擬群體推薦問(wèn)題,在面向群體的推薦問(wèn)題中取得較好的效果[7]。楊辰等提出一種基于細(xì)粒度屬性偏好聚類的新型推薦模型,對(duì)項(xiàng)目-屬性關(guān)系和用戶-屬性偏好進(jìn)行建模,基于用戶簇或項(xiàng)目簇采用協(xié)同過(guò)濾算法生成推薦列表[8]。YUAN等認(rèn)為隱語(yǔ)義模型(Latent Factor Model)屬于SVD的一種變體,它降低了用戶項(xiàng)目評(píng)級(jí)矩陣的維數(shù),表示評(píng)級(jí)矩陣中用戶和項(xiàng)目的潛在特征,其提出了一種混合方面級(jí)的隱語(yǔ)義模型(HALFM)優(yōu)化了全局方面級(jí)潛在因子和本地方面級(jí)潛在因子,提高了模型預(yù)測(cè)效果[9]。李淑芝提出一種評(píng)論文本和評(píng)分矩陣交互(RTRM)的深度模型,取得了較好的推薦效果[10]。邢長(zhǎng)征等在推薦模型中加入用戶和項(xiàng)目標(biāo)簽信息,通過(guò)標(biāo)簽使用次數(shù)反映用戶喜好和項(xiàng)目特征,結(jié)果表明模型能有效提高跨域推薦的準(zhǔn)確性[11]。

        盡管學(xué)者們從不同的角度改進(jìn)了矩陣分解算法,在一定程度上提高了算法的準(zhǔn)確率和召回率,也有學(xué)者關(guān)注到項(xiàng)目本身的屬性信息,但是忽略了將用戶的評(píng)論標(biāo)簽與矩陣分解結(jié)合使用。本文將矩陣分解算法和k-means聚類算法相結(jié)合,首先基于用戶評(píng)論的標(biāo)簽文本構(gòu)建項(xiàng)目特征畫(huà)像和用戶興趣畫(huà)像,利用k-means算法將其聚類,找出最優(yōu)聚類數(shù),然后利用隱語(yǔ)義模型進(jìn)行矩陣分解,將用戶-評(píng)分矩陣進(jìn)行分解重構(gòu)并做出推薦,最后在MovieLens數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證該算法的綜合表現(xiàn)。

        2 算法設(shè)計(jì)(Algorithm design)

        針對(duì)推薦系統(tǒng)中依賴用戶對(duì)項(xiàng)目評(píng)分信息的數(shù)據(jù)稀疏性問(wèn)題,本文提出一種融合標(biāo)簽文本的k-means聚類和矩陣分解的推薦算法。矩陣分解的痛點(diǎn)在于隱含特征值的確定,本文將k-means聚類算法引入矩陣分解,確定隱含特征值。主要的算法流程包括以下兩個(gè)模塊:一是k-means聚類模塊。在項(xiàng)目潛在特征提取方面,通過(guò)對(duì)電影標(biāo)簽文本進(jìn)行量化處理,采用TF-IDF(Term Frequency-inverse Document Frequency)統(tǒng)計(jì)方法構(gòu)建電影特征畫(huà)像,利用k-means聚類方法獲取電影的簇,即項(xiàng)目的潛在特征;在用戶潛在興趣提取方面,將用戶對(duì)電影的點(diǎn)評(píng)標(biāo)簽作為用戶興趣標(biāo)簽,構(gòu)建用戶的興趣畫(huà)像,利用k-means聚類方法獲取用戶的潛在興趣。二是矩陣分解模塊。根據(jù)找到的項(xiàng)目潛在特征或者用戶潛在興趣將用戶-評(píng)分矩陣進(jìn)行分解,主要算法流程如圖1所示。

        圖1 算法流程圖Fig.1 Algorithm flow chart

        2.1 基于k-means的項(xiàng)目潛在特征提取

        2.1.1 基于TF-IDF的項(xiàng)目標(biāo)簽文本量化

        TF-IDF是一種針對(duì)關(guān)鍵詞的統(tǒng)計(jì)分析方法,用于評(píng)估一個(gè)詞對(duì)一個(gè)文件集或者一個(gè)語(yǔ)料庫(kù)的重要程度。一個(gè)詞的重要程度跟它在文章中出現(xiàn)的次數(shù)成正比,跟它在語(yǔ)料庫(kù)出現(xiàn)的次數(shù)成反比。

        首先構(gòu)建項(xiàng)目特征畫(huà)像和用戶興趣畫(huà)像,為將項(xiàng)目的文本標(biāo)簽轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別處理的數(shù)據(jù)結(jié)構(gòu),然后利用TF-IDF分析提取TOP-n個(gè)關(guān)鍵詞。TF-IDF計(jì)算公式如下:

        (1)

        (2)

        (3)

        其中,N表示總的文檔數(shù),Ni表示包含關(guān)鍵詞的文檔數(shù),fij表示關(guān)鍵詞在文檔中出現(xiàn)的次數(shù),fdj表示文檔中的詞語(yǔ)總數(shù)。通過(guò)計(jì)算每個(gè)項(xiàng)目所有標(biāo)簽詞的TF-IDF值,進(jìn)行對(duì)比,取TF-IDF值中最大的n個(gè)關(guān)鍵詞作為目標(biāo)文檔的特征向量,組成項(xiàng)目的特征畫(huà)像。

        2.1.2 項(xiàng)目標(biāo)簽內(nèi)容的k-means聚類

        根據(jù)項(xiàng)目特征畫(huà)像,將屬性特征相似的項(xiàng)目聚在同一簇內(nèi),k-means聚類首先選取任意樣本點(diǎn)作為聚類初始中心點(diǎn),對(duì)于每個(gè)樣本點(diǎn),通過(guò)計(jì)算歐式距離計(jì)算該樣本點(diǎn)到每個(gè)聚類初始中心點(diǎn)的距離,將其劃分至距離最近的簇中。計(jì)算樣本點(diǎn)到中心點(diǎn)的距離公式如下:

        (4)

        其中,d(mi,ci)表示樣本點(diǎn)mi到聚類中心ci的距離,n表示簇內(nèi)項(xiàng)目個(gè)數(shù)。計(jì)算每個(gè)類別中數(shù)據(jù)點(diǎn)的平均值,并將得到的平均值作為新的聚類中心,再利用上述公式計(jì)算樣本點(diǎn)到新的聚類中心的距離,重新劃分項(xiàng)目簇;經(jīng)過(guò)若干次迭代之后,如果聚類中心不再變化或者變化很小,則可確最終的聚類簇。

        對(duì)于聚類效果的評(píng)估,選擇輪廓系數(shù),其公式如下:

        (5)

        其中,ai表示樣本點(diǎn)i與同一簇中其他點(diǎn)的平均距離,即樣本點(diǎn)i與同一簇中其他點(diǎn)的相似度;bi表示樣本點(diǎn)i到其他簇中所有點(diǎn)的平均距離,即輪廓系數(shù)衡量的是內(nèi)部距離最小化,外部距離最大化。

        利用TF-IDF進(jìn)行關(guān)鍵詞量化后,選擇TF-TDF值最大的30個(gè)關(guān)鍵詞,聚類區(qū)間選擇2—50,觀察聚類效果,如圖2所示,當(dāng)聚類數(shù)為25—40時(shí),聚類效果較好,為檢驗(yàn)聚類數(shù)為25—40的模型評(píng)估效果,下面的實(shí)驗(yàn)中將k值取25—40,觀察不同k值的效果。

        圖2 輪廓系數(shù)圖Fig.2 Diagram of contour coefficient

        2.2 基于LFM項(xiàng)目潛在特征矩陣生成

        2.2.1 矩陣分解

        矩陣分解算法是將用戶-項(xiàng)目評(píng)分矩陣進(jìn)行分解,為每一個(gè)用戶和項(xiàng)目生成一個(gè)隱向量,將用戶和項(xiàng)目定位到隱向量表示的空間上,如圖3所示。將(m×n)維的共現(xiàn)矩陣R分解為(m×k)維的用戶矩陣P和(k×n)維的項(xiàng)目矩陣Q相乘的形式,使得Rm×n=Pm×k×Qk×n。其中,m是用戶數(shù)量,n是項(xiàng)目數(shù)量,k是隱向量的維度。k的大小決定了隱向量表達(dá)能力的強(qiáng)弱。k的取值越小,隱向量包含的信息越少,模型的泛化程度越高;反之,k的取值越大,隱向量的表達(dá)能力越強(qiáng),但泛化程度相應(yīng)降低。因此,最終目標(biāo)是求出用戶矩陣P和項(xiàng)目矩陣Q中的每一個(gè)值,然后對(duì)用戶-項(xiàng)目評(píng)分矩陣進(jìn)行預(yù)測(cè)。

        圖3 矩陣分解過(guò)程圖Fig.3 Diagram of matrix decomposition process

        基于用戶矩陣P和項(xiàng)目矩陣Q,用戶u對(duì)項(xiàng)目i的預(yù)估評(píng)分如下:

        (6)

        其中,Puj是用戶u在用戶矩陣P中的對(duì)應(yīng)行向量的第j維,Qji是項(xiàng)目i在項(xiàng)目矩陣Q中的對(duì)應(yīng)列向量的第j維,k表示隱向量維度。

        2.2.2 隨機(jī)梯度下降

        (7)

        損失函數(shù)的優(yōu)化使用隨機(jī)梯度下降算法,梯度下降的遞推公式如下:

        (8)

        (9)

        3 實(shí)驗(yàn)設(shè)計(jì)(Experimental design)

        3.1 實(shí)驗(yàn)數(shù)據(jù)集描述

        本文是以電影推薦為具體場(chǎng)景,構(gòu)建基于電影潛在特征和用戶潛在興趣的推薦模型。本文采用推薦算法中常用的電影數(shù)據(jù)集MovieLens中的ml-latest-small數(shù)據(jù)集,包括用戶-電影評(píng)分?jǐn)?shù)據(jù)集ratings.csv、電影信息數(shù)據(jù)集movies.csv及電影標(biāo)簽數(shù)據(jù)集tags.csv。k-means聚類模塊使用到電影信息數(shù)據(jù)集movies,格式包括電影ID、標(biāo)題、類型;電影標(biāo)簽數(shù)據(jù)tags.csv包括用戶ID、電影ID、用戶給電影打的標(biāo)簽、時(shí)間戳。矩陣分解模塊應(yīng)用到用戶-電影評(píng)分?jǐn)?shù)據(jù)集ratings。數(shù)據(jù)集描述如表1所示。

        表 1 數(shù)據(jù)集描述Tab.1 Dataset description

        3.2 評(píng)估指標(biāo)

        3.2.1 均方根誤差(RMSE)和絕對(duì)平均誤差(MAE)

        RMSE是精確度的度量,用于比較特定數(shù)據(jù)集的不同模型的預(yù)測(cè)誤差,RMSE值越小,說(shuō)明模型具有更好的精確度。

        (10)

        (11)

        3.2.2 準(zhǔn)確率(Precision)和召回率(Recall)

        準(zhǔn)確率(Precision)和召回率(Recall)的公式如下:

        (12)

        (13)

        其中,TP(True Positive)表示將正類預(yù)測(cè)為正類;FP(False Positive)表示將負(fù)類預(yù)測(cè)為正類;FN(False Negative)表示將正類預(yù)測(cè)為負(fù)類。

        3.3 參數(shù)分析

        為了得到本文算法的最優(yōu)參數(shù),首先根據(jù)k-means的評(píng)估指標(biāo)輪廓系數(shù)選定效果較好的k值為25—40,其余參數(shù)的確定進(jìn)行控制變量實(shí)驗(yàn),測(cè)試重要參數(shù)對(duì)本文算法效果的影響。實(shí)驗(yàn)隨機(jī)選取用戶-評(píng)分?jǐn)?shù)據(jù)集的80%作為訓(xùn)練集,剩余20%作為測(cè)試集,為防止每次運(yùn)行結(jié)果不一致,設(shè)置隨機(jī)數(shù)種子random_state=1,具體實(shí)驗(yàn)過(guò)程如下。

        3.3.1 不同k值下模型表現(xiàn)

        固定學(xué)習(xí)率是0.005,正則項(xiàng)系數(shù)是0.02,設(shè)定迭代次數(shù)為15—35次,比較不同k值(取值區(qū)間為25—40)的效果。圖4是ml-latest-small數(shù)據(jù)集迭代次數(shù)在[15,35]范圍內(nèi),k取不同值對(duì)模型效果的影響。由圖4(a)可以看出,不同的k值,迭代次數(shù)在[15,25]區(qū)間,RMSE值呈下降趨勢(shì),模型效果變好;在[25,35]區(qū)間,RMSE值呈上升趨勢(shì),模型效果下降;當(dāng)k取值為30時(shí),算法的推薦效果最佳。由圖4(b)可以看出,迭代次數(shù)在[15,25]區(qū)間,MAE值呈下降趨勢(shì),模型效果變好;在[25,35]區(qū)間,MAE值呈上升趨勢(shì);k取值為25時(shí),在迭代15次、30次、35次時(shí)效果優(yōu)于k取值為30,但總體而言,k取值為30效果更優(yōu),并且在迭代25次時(shí),模型效果最優(yōu)。因此,根據(jù)k-means聚類得出30個(gè)聚類時(shí)效果最優(yōu)是成立的,并且此時(shí)的最優(yōu)迭代次數(shù)為25次。

        (a)不同k值下的RMSE

        (b)不同k值下的MAE圖4 不同k值下的模型表現(xiàn)Fig.4 Model performance under different k values

        3.3.2 不同正則項(xiàng)系數(shù)下模型表現(xiàn)

        固定迭代次數(shù)為25次,k取值為30時(shí),比較不同學(xué)習(xí)率及不同正則項(xiàng)系數(shù)對(duì)模型的影響。圖5是學(xué)習(xí)率取值在[0.002,0.04]區(qū)間,正則項(xiàng)系數(shù)的取值不同對(duì)模型效果的影響。由圖5(a)可以看出,正則項(xiàng)系數(shù)取0.02、學(xué)習(xí)率在0.005處時(shí),模型效果最優(yōu),當(dāng)學(xué)習(xí)率大于0.005時(shí),RMSE值呈上升趨勢(shì);正則項(xiàng)系數(shù)取0.04或0.06、學(xué)習(xí)率在0.01處時(shí),模型效果達(dá)到最優(yōu);正則項(xiàng)系數(shù)取0.08或0.1、學(xué)習(xí)率在0.022處時(shí),與其他正則項(xiàng)系數(shù)取值相比,模型效果最好。同樣,由圖5(b)可以看出,正則項(xiàng)系數(shù)取0.08或0.1時(shí),模型效果較好。綜合考慮認(rèn)為,正則項(xiàng)系數(shù)取0.1、學(xué)習(xí)率取0.022時(shí),模型效果最優(yōu)。

        (a)不同正則項(xiàng)系數(shù)下的RMSE

        (b)不同正則項(xiàng)系數(shù)下的MAE圖5 不同正則項(xiàng)系數(shù)下的模型表現(xiàn)Fig.5 Model performance under different regularization coefficient

        4 實(shí)驗(yàn)結(jié)果與分析(Experimental results and analysis)

        4.1 比較方法

        為了驗(yàn)證本文提出算法的有效性,選取3種推薦算法模型與本文提出算法進(jìn)行比較。①非負(fù)矩陣分解(NMF)基于傳統(tǒng)的矩陣分解模型,是一種有效的數(shù)據(jù)分解方法,將用戶-評(píng)分矩陣分解為2個(gè)非負(fù)的小矩陣[12]。②SVD++,在矩陣分解的基礎(chǔ)上考慮用戶瀏覽的歷史記錄,認(rèn)為用戶瀏覽的歷史記錄對(duì)當(dāng)前項(xiàng)目的評(píng)分有一定的影響,將項(xiàng)目間的關(guān)聯(lián)考慮到模型的評(píng)估中[13]。③基于內(nèi)容的推薦(Baseline)是根據(jù)項(xiàng)目本身的標(biāo)簽信息構(gòu)建項(xiàng)目特征向量,根據(jù)項(xiàng)目間的相似性為用戶做推薦[14]。

        在屬性信息層面,非負(fù)矩陣分解(NMF)和SVD++兩種方法均屬于矩陣分解,并且沒(méi)有考慮項(xiàng)目本身的屬性信息,可以在融合標(biāo)簽文本的屬性信息層面對(duì)本文算法進(jìn)行有效性驗(yàn)證。在聚類方法層面,基于內(nèi)容的推薦僅考慮了項(xiàng)目本身的標(biāo)簽屬性信息而未引入聚類算法,可以對(duì)本文算法引入聚類信息進(jìn)行有效性驗(yàn)證。

        4.2 比較結(jié)果

        4.2.1 不同模型的RMSE和MAE對(duì)比

        對(duì)比實(shí)驗(yàn)選擇ml-latest-small數(shù)據(jù)集,根據(jù)控制變量得出的參數(shù)結(jié)果,選取潛在特征k=30,迭代次數(shù)為25,學(xué)習(xí)率為0.022,正則項(xiàng)系數(shù)為0.1。實(shí)驗(yàn)結(jié)果如表2所示。非負(fù)矩陣分解NMF和SVD++都屬于矩陣分解,但是沒(méi)有考慮項(xiàng)目本身的屬性信息;而基與內(nèi)容的推薦(Baseline)僅考慮項(xiàng)目本身的標(biāo)簽信息,根據(jù)項(xiàng)目間的相似度推薦,本文模型KLFM采用聚類方法,更好地將屬性相似的項(xiàng)目聚類,從而形成項(xiàng)目特征畫(huà)像和用戶興趣畫(huà)像,能夠更好地為用戶做出推薦。由表2可知,本文模型KLFM的RMSE和MAE均表現(xiàn)較好。

        表 2 算法性能對(duì)比Tab.2 Algorithm performance comparison

        4.2.2 不同模型的準(zhǔn)確率和召回率對(duì)比

        本實(shí)驗(yàn)采用準(zhǔn)確率和召回率對(duì)各個(gè)推薦算法進(jìn)行評(píng)估,具體結(jié)果如圖6所示。橫軸表示推薦數(shù)量,在ml-latest-small數(shù)據(jù)集上,本文模型KLFM在推薦數(shù)量為[5,25]區(qū)間上表現(xiàn)優(yōu)秀,在推薦的準(zhǔn)確率和召回率方面都有了較大幅度的提升,較次優(yōu)算法分別提升了14.5%和20.7%,模型表現(xiàn)較優(yōu)。

        (b)召回率對(duì)比結(jié)果圖6 ml-latest-small數(shù)據(jù)集上性能對(duì)比結(jié)果Fig.6 Algorithm performance comparison on ml-latest-small

        5 結(jié)論(Conclusion)

        本文針對(duì)推薦系統(tǒng)中用戶對(duì)項(xiàng)目評(píng)分信息的數(shù)據(jù)稀疏性問(wèn)題,提出一種融合標(biāo)簽文本的k-means聚類和矩陣分解的推薦算法。該模型首先對(duì)項(xiàng)目信息構(gòu)建項(xiàng)目特征畫(huà)像,利用k-means聚類找出項(xiàng)目的潛在特征數(shù)量;然后根據(jù)輪廓系數(shù)找出最優(yōu)的k值,利用隱語(yǔ)義模型LFM進(jìn)行矩陣分解,將用戶-評(píng)分矩陣進(jìn)行分解重構(gòu);最后通過(guò)實(shí)驗(yàn)分析不同參數(shù)對(duì)模型效果的影響,根據(jù)控制變量法找出最優(yōu)的模型參數(shù)。將本文算法KLFM與其他推薦模型算法進(jìn)行對(duì)照實(shí)驗(yàn),得出結(jié)論:本文模型的RMSE和MAE表現(xiàn)較好,在ml-latest-small數(shù)據(jù)集中準(zhǔn)確率和召回率上較次優(yōu)算法分別提升了14.5%和20.7%,有效地改善了推薦算法的效果,可以推廣到電商、新聞、社交媒體等其他推薦場(chǎng)景。但是,本文構(gòu)建項(xiàng)目特征矩陣僅考慮了用戶評(píng)論標(biāo)簽這一屬性,后續(xù)研究可以考慮項(xiàng)目的其他屬性,能夠更好地表征項(xiàng)目潛在特征。

        猜你喜歡
        效果用戶模型
        一半模型
        按摩效果確有理論依據(jù)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        国产精品狼人久久久影院| 久久国内精品自在自线图片| 精品国产乱码久久久软件下载| 91亚洲人成手机在线观看| 日韩中文字幕一区二十| 色婷婷精品久久二区二区蜜桃| 在线观看精品视频网站| 91国视频| 一区二区三区国产偷拍| 9久久婷婷国产综合精品性色| 粗大猛烈进出白浆视频| 久久网视频中文字幕综合| 日本中文字幕一区二区视频| 丝袜美腿视频一区二区| 忘忧草社区www日本高清| 亚洲欧美国产日韩字幕| 日本精品久久中文字幕| 国内精品免费一区二区三区| 无码日韩精品一区二区三区免费| 亚洲电影一区二区三区| 一区二区在线观看日本免费 | 久久精品亚洲中文字幕无码网站| AV无码免费不卡在线观看| 91国产精品自拍视频| 久久精品国产99国产精偷| 国产av一区二区精品久久凹凸| 久久久久久久国产精品电影| 日本一区二区三区爱爱视频| 国产乱人伦av在线a麻豆| 牛牛本精品99久久精品88m | 中文字幕国产欧美| 性色av一区二区三区密臀av| 人妻少妇-嫩草影院| 成在人线av无码免观看麻豆| 国产成人精品日本亚洲直播| 国产一区二区视频免费| 亚洲av自偷自拍亚洲一区| 国产精品激情自拍视频| 99久久婷婷国产综合亚洲| 亚洲天堂2017无码中文| 国产一区二区三区白浆在线观看 |