亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合類(lèi)目偏好和數(shù)據(jù)場(chǎng)聚類(lèi)的協(xié)同過(guò)濾推薦算法研究

        2023-02-24 09:55:20芳*
        現(xiàn)代情報(bào) 2023年1期
        關(guān)鍵詞:類(lèi)目聚類(lèi)矩陣

        馬 鑫 王 芳*

        (1.南開(kāi)大學(xué)商學(xué)院,天津 300110;2.南開(kāi)大學(xué)網(wǎng)絡(luò)社會(huì)治理研究中心,天津 300110)

        伴隨信息通信技術(shù)的快速發(fā)展,數(shù)據(jù)呈指數(shù)式擴(kuò)增,信息過(guò)載問(wèn)題日益加劇[1]。為了幫助信息消費(fèi)者從海量信息中獲取有價(jià)值信息以及信息提供者提供高質(zhì)量信息,推薦系統(tǒng)應(yīng)運(yùn)而生[2]。作為搜索引擎的重要補(bǔ)充,推薦系統(tǒng)能夠通過(guò)分析用戶(hù)歷史數(shù)據(jù),構(gòu)建用戶(hù)興趣模型,對(duì)滿(mǎn)足用戶(hù)模糊的、不明確的信息需求具有重要意義,已被廣泛應(yīng)用于電子商務(wù)[3]、新聞傳媒[4]、搜索引擎和文獻(xiàn)信息獲取[5]等諸多領(lǐng)域。

        目前,推薦系統(tǒng)的常用推薦算法包括基于內(nèi)容的推薦[6-7]、基于知識(shí)的推薦[8]、協(xié)同過(guò)濾推薦和混合推薦[9-10]。其中,基于內(nèi)容的推薦利用項(xiàng)目固有的內(nèi)容屬性向用戶(hù)產(chǎn)生推薦。基于知識(shí)的推薦利用用戶(hù)的顯示需求和項(xiàng)目領(lǐng)域知識(shí)產(chǎn)生推薦?;旌贤扑]通過(guò)兩種及以上推薦算法的組合為用戶(hù)產(chǎn)生推薦。相比之下,協(xié)同過(guò)濾推薦利用用戶(hù)和項(xiàng)目的交互評(píng)分為用戶(hù)產(chǎn)生推薦,無(wú)需依賴(lài)項(xiàng)目的內(nèi)容屬性和領(lǐng)域知識(shí),具有推薦項(xiàng)目類(lèi)型多樣、數(shù)據(jù)獲取和技術(shù)復(fù)現(xiàn)難度小、個(gè)人信息安全性高等優(yōu)勢(shì),成為眾多推薦算法中最經(jīng)典和最通用的一種推薦算法。協(xié)同過(guò)濾推薦包括基于模型的推薦和基于近鄰的推薦[11-13]?;谀P偷耐扑]通過(guò)算法模型(關(guān)聯(lián)規(guī)則、回歸、圖等)預(yù)測(cè)為用戶(hù)產(chǎn)生推薦?;诮彽耐扑]通過(guò)用戶(hù)或項(xiàng)目之間的近鄰關(guān)系為用戶(hù)產(chǎn)生推薦,分基于近鄰用戶(hù)的推薦和基于近鄰項(xiàng)目的推薦兩種。其中,基于近鄰用戶(hù)的協(xié)同過(guò)濾推薦(User-based Collaborative Filtering Recommendation,U-CFR)是最早為推薦系統(tǒng)開(kāi)發(fā)的推薦算法之一[14]。

        1)問(wèn)題描述

        準(zhǔn)確、高效的推薦算法是推薦系統(tǒng)的核心,決定了推薦效果的優(yōu)劣。對(duì)于U-CFR算法而言,數(shù)據(jù)稀疏和計(jì)算可擴(kuò)展問(wèn)題是最具挑戰(zhàn)性的兩個(gè)問(wèn)題。為了說(shuō)明這兩個(gè)問(wèn)題,對(duì)本研究采集的UserCats(10G)數(shù)據(jù)集進(jìn)行了一些初步的實(shí)驗(yàn)與分析。

        ①評(píng)分?jǐn)?shù)據(jù)稀疏。隨機(jī)從UserCats數(shù)據(jù)集中抽取10名用戶(hù)的歷史數(shù)據(jù),以研究數(shù)據(jù)稀疏問(wèn)題。圖1(a)和圖1(b)分別繪制了10名用戶(hù)的用戶(hù)—項(xiàng)目評(píng)分矩陣(User-Item Rating,UIR)評(píng)分分布和交互次數(shù),用戶(hù)對(duì)項(xiàng)目進(jìn)行消費(fèi)且評(píng)分時(shí)記為一次交互。結(jié)果表明,多數(shù)用戶(hù)僅對(duì)1 612個(gè)項(xiàng)目中的小部分項(xiàng)目感興趣[13],最高交互次數(shù)為86次(約為項(xiàng)目總量的5.33%),最低交互次數(shù)為21次(約為項(xiàng)目總量的1.30%),UIR矩陣稀疏度為97.25%,評(píng)分?jǐn)?shù)據(jù)極為稀疏。

        ②計(jì)算可擴(kuò)展性差。從相似度計(jì)算次數(shù)和推薦耗時(shí)兩個(gè)方面研究算法的可擴(kuò)展性。圖1(c)顯示隨著用戶(hù)數(shù)的增加,相似度計(jì)算次數(shù)呈指數(shù)式增長(zhǎng)。類(lèi)似的,從圖1(d)中可以發(fā)現(xiàn),U-CFR算法的耗時(shí)隨用戶(hù)數(shù)的增加也呈指數(shù)式上升,且變化率更大。結(jié)果表明,隨著用戶(hù)數(shù)的增加,相似度計(jì)算次數(shù)和推薦耗時(shí)呈指數(shù)式上升,U-CFR算法的計(jì)算可擴(kuò)展性將顯著下降[2]。

        盡管近年來(lái)已在U-CFR算法的基礎(chǔ)上提出了許多改進(jìn)算法,例如:用于緩解數(shù)據(jù)稀疏的基于鏈接開(kāi)源數(shù)據(jù)的推薦[15]和基于圖隨機(jī)游走的推薦[16]等,用于提升計(jì)算可擴(kuò)展性的基于交替最小二乘的推薦[17]和基于劃分聚類(lèi)的推薦[2]等,但算法仍然受到數(shù)據(jù)稀疏和計(jì)算可擴(kuò)展性問(wèn)題的限制。一方面,現(xiàn)有緩解數(shù)據(jù)稀疏性的工作本質(zhì)上是有限的,受附加數(shù)據(jù)獲取成本、用戶(hù)隱私保護(hù)和歸納偏差等問(wèn)題制約,且忽視了離散有限評(píng)分(例如:5星離散評(píng)分)對(duì)用戶(hù)真實(shí)偏好的表示能力;另一方面,相比數(shù)據(jù)稀疏,針對(duì)計(jì)算可擴(kuò)展性問(wèn)題的研究較為欠缺,且優(yōu)化模型易受超參數(shù)和可解釋性問(wèn)題影響,性能波動(dòng)較大。因此,對(duì)U-CFR算法的數(shù)據(jù)稀疏問(wèn)題和計(jì)算可擴(kuò)展問(wèn)題的研究仍然是一個(gè)有價(jià)值且具有挑戰(zhàn)性的任務(wù)。

        圖1 用于說(shuō)明數(shù)據(jù)稀疏和計(jì)算可擴(kuò)展問(wèn)題的初步結(jié)果

        2)研究貢獻(xiàn)

        受類(lèi)目偏好、數(shù)據(jù)場(chǎng)聚類(lèi)和評(píng)論情感挖掘啟發(fā),針對(duì)U-CFR算法存在的數(shù)據(jù)稀疏和計(jì)算可擴(kuò)展性問(wèn)題,本研究提出了一種融合類(lèi)目偏好和數(shù)據(jù)場(chǎng)聚類(lèi)的協(xié)同過(guò)濾推薦算法(Category Preferred Data Field Clustering based Collaborative Filtering Recommendation,CPDFC-CFR)。該算法首先基于評(píng)論情感構(gòu)建UIS矩陣,并利用類(lèi)目偏好比將高維情感矩陣映射為低維用戶(hù)—類(lèi)目偏好矩陣(User-Category Preference,UCP)。然后,利用數(shù)據(jù)場(chǎng)聚類(lèi)對(duì)UCP矩陣中的用戶(hù)進(jìn)行分組,按同簇用戶(hù)間的綜合相似度大小確定目標(biāo)用戶(hù)最近鄰域。最后,利用最近鄰域用戶(hù)的綜合相似度和非共有情感值預(yù)測(cè)未知項(xiàng)目情感,按預(yù)測(cè)值大小為目標(biāo)用戶(hù)生成Top-n項(xiàng)目推薦列表。為了進(jìn)一步驗(yàn)證算法性能,在兩個(gè)真實(shí)的電商數(shù)據(jù)集上進(jìn)行了對(duì)照實(shí)驗(yàn),結(jié)果表明,本研究所提CPDFC-CFR算法比U-CFR算法的系列改進(jìn)算法在準(zhǔn)確性和計(jì)算效率上有了較為顯著的提升。

        本文所提CPDFC-CFR算法的主要貢獻(xiàn)如下:①增強(qiáng)了用戶(hù)偏好的表示能力:該算法利用一種基于屬性的無(wú)監(jiān)督情感挖掘方法計(jì)算所得的評(píng)論情感代替用戶(hù)評(píng)分,緩解了有限離散評(píng)分偏好表示能力有限的問(wèn)題,且情感挖掘方法本身不受人工或機(jī)器標(biāo)注情感標(biāo)簽的誤差影響;②降低了數(shù)據(jù)稀疏性:該算法引入了類(lèi)目偏好和用戶(hù)語(yǔ)義的概念,并將其應(yīng)用于用戶(hù)聚類(lèi)和相似度計(jì)算,緩解了稀疏數(shù)據(jù)對(duì)聚類(lèi)和相似度計(jì)算效果的影響;③提高了計(jì)算效率和算法魯棒性:該算法不僅利用劃分聚類(lèi)降低了用戶(hù)相似度的計(jì)算次數(shù),提高了推薦系統(tǒng)的實(shí)時(shí)性,而且將數(shù)據(jù)場(chǎng)作為劃分聚類(lèi)的前置算法,有效解決了隨機(jī)初始聚類(lèi)中心等對(duì)聚類(lèi)效果的影響(例如:局部最優(yōu)、反復(fù)迭代等),使算法結(jié)果更加穩(wěn)定。

        1 相關(guān)研究

        1.1 基于近鄰用戶(hù)的協(xié)同過(guò)濾推薦

        作為最早為推薦系統(tǒng)開(kāi)發(fā)的算法之一,基于近鄰用戶(hù)的協(xié)同過(guò)濾推薦(User-based Collaborative Filtering Recommendation,U-CFR)的核心思想是當(dāng)一個(gè)目標(biāo)用戶(hù)需要個(gè)性化推薦時(shí),算法能夠找到與其興趣相近的用戶(hù),并能夠?qū)⑦@些用戶(hù)喜好的而目標(biāo)用戶(hù)未交互過(guò)的項(xiàng)目推薦給他。算法原理如圖2所示。

        圖2 基于近鄰用戶(hù)的協(xié)同過(guò)濾推薦算法原理

        如圖2所示,在5星評(píng)分模式下,假設(shè)用戶(hù)u1為目標(biāo)用戶(hù),喜歡項(xiàng)目1和項(xiàng)目2(評(píng)分均為5),用戶(hù)u2喜歡項(xiàng)目4和項(xiàng)目5(評(píng)分均為5),用戶(hù)u3喜歡項(xiàng)目1和項(xiàng)目2(評(píng)分均≥4)。鑒于用戶(hù)u1和用戶(hù)u2均喜歡項(xiàng)目1和項(xiàng)目2且不喜歡項(xiàng)目3(評(píng)分均≤2),偏好更為相近(r=0.97),用戶(hù)u1喜歡用戶(hù)u3偏好的項(xiàng)目6的可能性更大,因此推薦系統(tǒng)會(huì)將項(xiàng)目6推薦給用戶(hù)u1。具體計(jì)算過(guò)程為:

        首先利用用戶(hù)歷史評(píng)分構(gòu)建用戶(hù)—項(xiàng)目評(píng)分矩陣(UIR),并計(jì)算用戶(hù)之間的評(píng)分相似度,按相似度大小確定與各用戶(hù)具有相似共同偏好的最近鄰用戶(hù)集,然后結(jié)合近鄰用戶(hù)相似度和非共有歷史評(píng)分對(duì)UIR矩陣缺失評(píng)分進(jìn)行預(yù)測(cè),最后按預(yù)測(cè)評(píng)分值高低為用戶(hù)生成個(gè)性化項(xiàng)目推薦列表。

        1.2 數(shù)據(jù)稀疏性

        關(guān)于U-CFR算法數(shù)據(jù)稀疏問(wèn)題的研究,主要集中在附加外部數(shù)據(jù)和隱式圖結(jié)構(gòu)兩個(gè)方面。對(duì)于附加外部數(shù)據(jù),學(xué)者們主要關(guān)注如何將在線(xiàn)社區(qū)數(shù)據(jù)或開(kāi)源數(shù)據(jù)作為稀疏評(píng)分?jǐn)?shù)據(jù)的補(bǔ)充,以降低稀疏性對(duì)推薦效果的影響。代表性研究有:丁永剛等[18]將社交網(wǎng)絡(luò)中的社會(huì)關(guān)系與評(píng)分結(jié)合,挖掘社交網(wǎng)絡(luò)好友的歷史偏好以緩解評(píng)分稀疏;Senthilselvan N等[15]在SVD++模型中加入鏈接開(kāi)源數(shù)據(jù)(Linked Open Data,LOD)構(gòu)建的用戶(hù)隱式表示,提出了一種基于LOD的推薦算法。類(lèi)似的,李浩等[19]將U-CFR算法、基于近鄰項(xiàng)目的協(xié)同過(guò)濾推薦算法和利用項(xiàng)目外部附加數(shù)據(jù)構(gòu)建的循環(huán)知識(shí)圖譜相融合,通過(guò)實(shí)體間的依賴(lài)關(guān)系來(lái)緩解用戶(hù)評(píng)分的稀疏性,以產(chǎn)生高質(zhì)量推薦。

        對(duì)于隱式圖結(jié)構(gòu),學(xué)者們主要關(guān)注如何借助圖傳遞或排序技術(shù)利用路徑定義用戶(hù)相似度,取代傳統(tǒng)相似度計(jì)算,優(yōu)化稀疏數(shù)據(jù)推薦表現(xiàn)。代表性研究有:張以文等[20]借助聚類(lèi)構(gòu)建用戶(hù)信任網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)隨機(jī)游走量化用戶(hù)相似度,預(yù)測(cè)缺失評(píng)分并產(chǎn)生推薦;Zengin Alp Z等[16]在多層結(jié)構(gòu)中使用不同類(lèi)型節(jié)點(diǎn),通過(guò)圖隨機(jī)游走提出了一種上下文感知推薦算法。類(lèi)似的,針對(duì)多圖融合可能引入的歸納偏差,Wang M等[21]提出了一個(gè)多任務(wù)多視圖的圖表示學(xué)習(xí)框架(M2GRL)來(lái)學(xué)習(xí)Web規(guī)模推薦系統(tǒng)中多視圖圖的節(jié)點(diǎn)表示,以應(yīng)對(duì)評(píng)分?jǐn)?shù)據(jù)的稀疏問(wèn)題。

        盡管上述方法的有效性已被證明,但其在解決數(shù)據(jù)稀疏問(wèn)題中發(fā)揮的作用本質(zhì)上是有限的。原因有三:其一,附加外部數(shù)據(jù)多為開(kāi)源人口統(tǒng)計(jì)信息等個(gè)人隱私數(shù)據(jù),存在數(shù)據(jù)濫用和泄露風(fēng)險(xiǎn),用戶(hù)的發(fā)布意愿較低,數(shù)據(jù)完整性堪憂(yōu)[15]。特別是,缺少有關(guān)中文場(chǎng)景的鏈接開(kāi)源數(shù)據(jù)庫(kù)。其二,隱式圖結(jié)構(gòu)在為每個(gè)用戶(hù)進(jìn)行推薦時(shí),均需迭代整個(gè)用戶(hù)—項(xiàng)目二分圖至各頂點(diǎn)PR值收斂,時(shí)間復(fù)雜度極高。其三,受評(píng)分規(guī)則制約,用戶(hù)評(píng)分與用戶(hù)喜好之間存在一定偏差,但鮮有研究關(guān)注該問(wèn)題,相似度計(jì)算結(jié)果易失真。本研究利用評(píng)論情感替代用戶(hù)評(píng)分,通過(guò)在相似度計(jì)算中引入類(lèi)目偏好和由非隱私數(shù)據(jù)表示的用戶(hù)語(yǔ)義偏好的方式應(yīng)對(duì)U-CFR算法的數(shù)據(jù)稀疏問(wèn)題。

        1.3 計(jì)算可擴(kuò)展性

        關(guān)于U-CFR算法計(jì)算可擴(kuò)展性問(wèn)題的研究,主要集中在評(píng)分矩陣降維和用戶(hù)聚類(lèi)兩個(gè)方面。對(duì)于降低評(píng)分矩陣維度,學(xué)者們主要關(guān)注如何運(yùn)用矩陣分解算法將高維稀疏UIR矩陣分解為低維用戶(hù)和項(xiàng)目的稠密矩陣,利用稠密矩陣乘積近似評(píng)分矩陣并為用戶(hù)推薦項(xiàng)目。代表性研究有:Hammou B A等[22]利用矩陣分解分解UIR矩陣,通過(guò)結(jié)合評(píng)論數(shù)據(jù)計(jì)算用戶(hù)相似度,預(yù)測(cè)缺失評(píng)分并完成推薦;與隨機(jī)初始化用戶(hù)和項(xiàng)目特征不同,Zhao J等[23]提出來(lái)一種基于屬性映射和自編碼神經(jīng)網(wǎng)絡(luò)的矩陣分解初始化方法,進(jìn)一步提升了矩陣分解效率。Hu Y等[17]提出了一種改進(jìn)的矩陣分解方法(Alternating Least Squares,ALS),其采用一個(gè)交替的訓(xùn)練程序來(lái)獲得一組用戶(hù)和項(xiàng)目的嵌入,通過(guò)嵌入點(diǎn)積的形式近似原始UIR矩陣,以此產(chǎn)生推薦。

        對(duì)于用戶(hù)聚類(lèi),研究人員主要關(guān)注如何利用單一或組合聚類(lèi)算法對(duì)用戶(hù)進(jìn)行分組,通過(guò)創(chuàng)建較少且包含目標(biāo)用戶(hù)的聚類(lèi)簇,縮小最近鄰檢索范圍,提升推薦算法計(jì)算效率。代表性研究有:陶維成等[24]利用灰色關(guān)聯(lián)度對(duì)用戶(hù)進(jìn)行灰色關(guān)聯(lián)聚類(lèi),結(jié)合近鄰用戶(hù)灰色相似度和非共有評(píng)分預(yù)測(cè)缺失評(píng)分并產(chǎn)生推薦;張文等[25]利用譜聚類(lèi)分別對(duì)用戶(hù)和項(xiàng)目聚類(lèi),并根據(jù)聚類(lèi)結(jié)果對(duì)UIR矩陣中用戶(hù)和項(xiàng)目位置進(jìn)行重新調(diào)整,通過(guò)SVD(Singular Value Decomposition)分解局部稠密分塊矩陣,利用施密特變換預(yù)測(cè)缺失評(píng)分。Li J等[2]將Canopy算法作為K-means算法的前置算法,并將輸出作為K-means算法的輸入(聚類(lèi)數(shù)),因此提升優(yōu)化聚類(lèi)效果并降低算法計(jì)算耗時(shí)。

        相比于矩陣分解方法,基于聚類(lèi)的方法因具有易操作、數(shù)據(jù)利用率高和結(jié)果可解釋性較強(qiáng)等優(yōu)勢(shì),成為當(dāng)下提升U-CFR算法計(jì)算效率的研究熱點(diǎn)。但是,受聚類(lèi)矩陣維度和超參數(shù)(例如:隨機(jī)選擇的初始聚類(lèi)中心)問(wèn)題影響,實(shí)際應(yīng)用中的用戶(hù)聚類(lèi)效果并不理想,容易出現(xiàn)計(jì)算效率低下和局部最優(yōu)等情況。本研究從類(lèi)目偏好角度對(duì)用于聚類(lèi)的UIS矩陣進(jìn)行降維,并將數(shù)據(jù)場(chǎng)作為K-means的前置算法,以進(jìn)一步對(duì)推薦算法的計(jì)算可擴(kuò)展性進(jìn)行優(yōu)化。

        2 融合類(lèi)目偏好和數(shù)據(jù)場(chǎng)聚類(lèi)的協(xié)同過(guò)濾推薦算法

        數(shù)據(jù)稀疏問(wèn)題和計(jì)算可擴(kuò)展問(wèn)題是基于近鄰用戶(hù)的協(xié)同過(guò)濾推薦算法(User-based Collaborative Filtering Recommendation,U-CFR)優(yōu)化研究的兩個(gè)核心問(wèn)題。為此,學(xué)者們借助鏈接開(kāi)源數(shù)據(jù)[15]、圖[19]、矩陣分解[17]和聚類(lèi)[2]等技術(shù)方法對(duì)U-CFR算法進(jìn)行了大量的改進(jìn)研究。但是受用戶(hù)評(píng)分失真、附加數(shù)據(jù)完整性和安全性差、超參數(shù)等問(wèn)題影響,現(xiàn)有方法對(duì)算法準(zhǔn)確性和計(jì)算效率的提升效果十分有限。

        綜上所述,本文在U-CFR算法基礎(chǔ)之上,提出了一種融合類(lèi)目偏好和數(shù)據(jù)場(chǎng)聚類(lèi)的協(xié)同過(guò)濾推薦算法(Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation,CPDFC-CFR)。該算法首先采用評(píng)論情感構(gòu)建用戶(hù)—項(xiàng)目矩陣,修正評(píng)分引入的用戶(hù)偏好表示偏差。然后,引入類(lèi)目偏好和用戶(hù)語(yǔ)義偏好的概念,并將其與評(píng)論情感相似度結(jié)合,緩解數(shù)據(jù)稀疏問(wèn)題對(duì)推薦準(zhǔn)確性的影響。最后,利用類(lèi)目偏好比對(duì)聚類(lèi)的輸入矩陣進(jìn)行降維,并將數(shù)據(jù)場(chǎng)作為聚類(lèi)前置算法,緩解矩陣維度和超參數(shù)對(duì)用戶(hù)聚類(lèi)過(guò)程的影響,減少相似度計(jì)算次數(shù),提升算法推薦效率。

        2.1 推薦算法總體框架

        CPDFC-CFR算法的整體計(jì)算框架如圖3所示,先后分評(píng)論情感挖掘(計(jì)算單元1)、類(lèi)目偏好比計(jì)算(計(jì)算單元2)、數(shù)據(jù)場(chǎng)聚類(lèi)(計(jì)算單元3)、綜合相似度計(jì)算以及評(píng)分預(yù)測(cè)(計(jì)算單元4)和推薦(計(jì)算單元5)5個(gè)計(jì)算單元。其中,計(jì)算單元1負(fù)責(zé)利用基于屬性的無(wú)監(jiān)督情感挖掘方法將評(píng)論整體情感量化為一個(gè)固定區(qū)間的連續(xù)值,并構(gòu)建用戶(hù)—項(xiàng)目情感矩陣(UIS)。計(jì)算單元2負(fù)責(zé)利用類(lèi)目偏好比將UIS矩陣轉(zhuǎn)換為維度更低且數(shù)據(jù)密度更高的用戶(hù)—類(lèi)目偏好矩陣(UCP)。計(jì)算單元3負(fù)責(zé)利用數(shù)據(jù)場(chǎng)聚類(lèi)算法對(duì)用戶(hù)進(jìn)行分組,縮小最近鄰域檢索范圍,減少相似度計(jì)算次數(shù)。計(jì)算單元4負(fù)責(zé)計(jì)算由評(píng)論情感相似度、類(lèi)目偏好相似度和用戶(hù)語(yǔ)義相似度構(gòu)成的綜合相似度,并按相似度大小確定最近鄰域。計(jì)算單元5負(fù)責(zé)利用近鄰用戶(hù)綜合相似度和非共有評(píng)論情感預(yù)測(cè)目標(biāo)用戶(hù)對(duì)未知項(xiàng)目的情感,并生成Top-n項(xiàng)目推薦列表。

        2.2 評(píng)論情感挖掘

        受評(píng)分規(guī)則(例如:五星離散評(píng)價(jià))制約,有限離散評(píng)分無(wú)法準(zhǔn)確表示用戶(hù)對(duì)交互項(xiàng)目的連續(xù)真實(shí)喜好,加之評(píng)分分布集中的特點(diǎn),導(dǎo)致推薦算法捕獲用戶(hù)間細(xì)微偏好差異的難度進(jìn)一步上升[26]。在線(xiàn)評(píng)論作為用戶(hù)做出明智消費(fèi)決策的重要信息來(lái)源,已被證明其情感值要比用戶(hù)給出的粗略數(shù)字評(píng)分更有利于度量用戶(hù)喜好[27-29]。CPDFC-CFR算法首先根據(jù)項(xiàng)目評(píng)論中細(xì)粒度的屬性情感和屬性權(quán)重生成評(píng)論整體情感,利用整體情感值構(gòu)建UIS矩陣。

        假設(shè)用戶(hù)u的歷史評(píng)論集合Tu={t1,t2,…,tj,…,th},項(xiàng)目j的歷史評(píng)論集合Tj={t1,t2,…,ti,…,tf},m表示用戶(hù)數(shù),n表示項(xiàng)目數(shù),h表示用戶(hù)u的歷史評(píng)論數(shù),f表示項(xiàng)目j的歷史評(píng)論數(shù),tj表示用戶(hù)u對(duì)項(xiàng)目j的評(píng)論(已經(jīng)過(guò)預(yù)處理),ti表示用戶(hù)i對(duì)項(xiàng)目j的評(píng)論。

        首先,利用Apriori算法生成各項(xiàng)詞性頻繁項(xiàng)集(支持度≥0.50),逐一匹配評(píng)論t的屬性詞—情感詞對(duì)(w,s),并利用互信息過(guò)濾不相關(guān)屬性詞及對(duì)應(yīng)情感詞:

        (1)

        式中,I(w,Gj)表示屬性詞w與項(xiàng)目j的主題詞集合Gj之間的互信息,值越大越相關(guān),g表示Gj中的一個(gè)主題詞,p(w,g)表示w和g在Tj中共同出現(xiàn)的概率,p(wx)表示w在Tj中單獨(dú)出現(xiàn)的概率,p(g)表示g在Tj中單獨(dú)出現(xiàn)的概率。

        然后,利用TF-IDF算法計(jì)算集合Tj中屬性詞w的權(quán)重whw(大多數(shù)人偏好的屬性,更易受到關(guān)注)[30],生成屬性詞權(quán)重向量WHj=[wh1,wh2,…,whl](l為T(mén)j中屬性詞個(gè)數(shù))。評(píng)論t中屬性詞權(quán)重計(jì)算如下:

        (2)

        式中,cht,i表示用戶(hù)u對(duì)項(xiàng)目j的評(píng)論t中第i個(gè)屬性詞的權(quán)重,wht,i表示評(píng)論t中第i個(gè)屬性詞在WHj中的對(duì)應(yīng)權(quán)重。

        其次,利用臺(tái)灣大學(xué)NTUSD、知網(wǎng)Hownet和清華大學(xué)李軍情感詞典組成的混合詞典,按照[積極,中性,消極]=[5,3,1]的規(guī)則將評(píng)論t中的情感詞s量化為cst,i,則評(píng)論t的整體情感值計(jì)算如下:

        (3)

        式中,o表示評(píng)論t中屬性詞的個(gè)數(shù)。最后,按用戶(hù)和項(xiàng)目之間的對(duì)應(yīng)關(guān)系,利用評(píng)論情感構(gòu)建UIS矩陣。

        2.3 類(lèi)目偏好比計(jì)算

        2.3.1 原理

        推薦系統(tǒng)的數(shù)據(jù)往往過(guò)于龐大和稀疏,影響聚類(lèi)和相似度計(jì)算效果,因此有必要降低UIS矩陣維度[2]。鑒于每個(gè)項(xiàng)目均對(duì)應(yīng)1個(gè)或多個(gè)類(lèi)目,本研究利用Pearson相關(guān)系數(shù)計(jì)算UserCats數(shù)據(jù)集中各用戶(hù)相似度,并從中隨機(jī)選擇6個(gè)近鄰用戶(hù)和6個(gè)非近鄰用戶(hù)的歷史數(shù)據(jù),分析他們與各級(jí)類(lèi)目交互的頻率異同,結(jié)果如圖4和圖5所示。

        圖4 6個(gè)隨機(jī)近鄰用戶(hù)與各級(jí)類(lèi)目的交互頻率比較

        由圖4不難看出,在不同的類(lèi)目級(jí)別上,近鄰用戶(hù)均表現(xiàn)出極為相似的類(lèi)目偏好,而圖5顯示非近鄰用戶(hù)的類(lèi)目偏好則有較大差異。因此,從類(lèi)目偏好的角度對(duì)UIS矩陣進(jìn)行降維是合理且可行的。

        圖5 6個(gè)隨機(jī)非近鄰用戶(hù)與各級(jí)類(lèi)目的交互頻率比較

        2.3.2 計(jì)算

        用戶(hù)類(lèi)目偏好由類(lèi)目偏好比進(jìn)行量化表示,CPDFC-CFR算法通過(guò)類(lèi)目偏好比將高維UIS矩陣轉(zhuǎn)換為低維UCP矩陣。類(lèi)目偏好比由某一類(lèi)目下各項(xiàng)目的用戶(hù)評(píng)論情感收斂得到,包括3個(gè)部分:①用戶(hù)對(duì)某類(lèi)目項(xiàng)目的情感偏好在所有類(lèi)目項(xiàng)目的情感偏好中的占比,比值越大,用戶(hù)越喜歡該類(lèi)目;②某類(lèi)目項(xiàng)目的消費(fèi)次數(shù)在所有類(lèi)目項(xiàng)目消費(fèi)次數(shù)中的占比,是熱門(mén)類(lèi)目的懲罰項(xiàng);③用戶(hù)歷史評(píng)論的平均長(zhǎng)度與所有用戶(hù)的最大歷史評(píng)論長(zhǎng)度的比值,是虛假用戶(hù)的懲罰項(xiàng)。類(lèi)目偏好比計(jì)算公式如下:

        (4)

        式中,pu,c表示用戶(hù)u對(duì)類(lèi)目c的偏好比,∑eu,c表示u對(duì)c中各項(xiàng)目情感值的和,∑eu表示u對(duì)類(lèi)目集合C中各項(xiàng)目情感值的和,x(c)表示c的懲罰項(xiàng),y(c)表示u的懲罰項(xiàng)。

        由于小部分受歡迎類(lèi)目會(huì)在多數(shù)用戶(hù)交互中出現(xiàn),長(zhǎng)尾數(shù)據(jù)訓(xùn)練的算法極有可能為流行類(lèi)目項(xiàng)目賦予高于其流行度的推薦頻率,而更高的曝光率會(huì)進(jìn)一步增加流行度,降低推薦公平性[31]。因此,類(lèi)目偏好比在一定程度上對(duì)熱門(mén)類(lèi)目進(jìn)行了懲罰:

        (5)

        式中,q(C)表示類(lèi)目集合C中所有項(xiàng)目被消費(fèi)的總次數(shù),q(c)表示類(lèi)目c中所有項(xiàng)目被消費(fèi)的總次數(shù),類(lèi)目c中項(xiàng)目被消費(fèi)的總次數(shù)越多表明類(lèi)目越流行。

        面對(duì)巨大的商業(yè)利益,網(wǎng)絡(luò)中涌現(xiàn)了一些以虛假評(píng)論牟利的用戶(hù),他們的類(lèi)目偏好對(duì)于構(gòu)建推薦模型意義不大。研究表明,人們不愿意在非自發(fā)行為上花費(fèi)太多時(shí)間,虛假用戶(hù)發(fā)布評(píng)論的長(zhǎng)度普遍比真實(shí)評(píng)論短[32]。因此,類(lèi)目偏好比還對(duì)虛假用戶(hù)進(jìn)行了懲罰:

        (6)

        式中,max(U)表示用戶(hù)集合U中所有用戶(hù)歷史評(píng)論的最大長(zhǎng)度,a(u)表示用戶(hù)u的歷史評(píng)論的平均長(zhǎng)度,用戶(hù)u歷史評(píng)論的平均長(zhǎng)度越長(zhǎng)表明其越有可能為虛假用戶(hù)。

        2.4 數(shù)據(jù)場(chǎng)聚類(lèi)

        K-means作為劃分聚類(lèi)的經(jīng)典算法,通過(guò)用戶(hù)聚類(lèi)減少相似度計(jì)算次數(shù),是提升U-CFR算法計(jì)算可擴(kuò)展性的常用方法。受聚類(lèi)矩陣維度和超參數(shù)(隨機(jī)初始聚類(lèi)中心等)問(wèn)題影響,算法聚類(lèi)效率和聚類(lèi)結(jié)果穩(wěn)定性出現(xiàn)較大波動(dòng)。聚類(lèi)矩陣維度通過(guò)類(lèi)目偏好比進(jìn)行縮減。對(duì)于超參數(shù),CPDFC-CFR算法將數(shù)據(jù)場(chǎng)作為前置算法,把數(shù)據(jù)場(chǎng)輸出(聚類(lèi)數(shù)和聚類(lèi)中心)作為K-means算法輸入,提升推薦算法計(jì)算效率和實(shí)時(shí)性。

        算法首先基于UCP矩陣計(jì)算各用戶(hù)之間的相互作用勢(shì)值并構(gòu)建數(shù)據(jù)場(chǎng)。勢(shì)值計(jì)算公式如下:

        (7)

        式中,φv(u)表示除用戶(hù)u外的剩余用戶(hù)v對(duì)u的作用力之和(勢(shì)值),pu表示用戶(hù)u的類(lèi)目偏好向量,pv表示用戶(hù)v的類(lèi)目偏好向量,zv表示用戶(hù)v的質(zhì)量(∑zi=1),σ表示數(shù)據(jù)場(chǎng)的作用半徑。

        已有研究表明,數(shù)據(jù)場(chǎng)中用戶(hù)的空間分布規(guī)律主要受質(zhì)量較大的用戶(hù)影響[13,33]。給定用戶(hù)質(zhì)量計(jì)算公式:

        (8)

        (9)

        當(dāng)用戶(hù)質(zhì)量z由式(8)和式(9)計(jì)算得出,影響因子σ即為影響數(shù)據(jù)場(chǎng)系統(tǒng)復(fù)雜性的唯一不確定因素。因此,本研究采用勢(shì)熵法求解σ的最優(yōu)取值[33]:

        (10)

        式中,arg min表示最小值對(duì)應(yīng)σ,φ(u)表示用戶(hù)u的勢(shì)值,∑v∈Uφ(v)表示數(shù)據(jù)場(chǎng)中所有用戶(hù)的勢(shì)值和。

        然后,使用隨機(jī)爬山法計(jì)算數(shù)據(jù)場(chǎng)的勢(shì)值極大值,將極大值對(duì)應(yīng)的用戶(hù)類(lèi)目偏好向量和向量個(gè)數(shù)分別作為K-means算法的初始聚類(lèi)中心和最佳聚類(lèi)數(shù),并基于UCP矩陣對(duì)用戶(hù)進(jìn)行迭代聚類(lèi)。

        2.5 綜合相似度計(jì)算

        Pearson相關(guān)系數(shù)具有易理解和量綱敏感度低等優(yōu)勢(shì),是U-CFR算法中測(cè)量用戶(hù)相似度的一種常用方法。CPDFC-CFR算法在傳統(tǒng)Pearson相關(guān)系數(shù)基礎(chǔ)上引入類(lèi)目偏好和語(yǔ)義偏好,計(jì)算用戶(hù)之間的綜合相似度,并選擇N個(gè)相似度最高的用戶(hù)作為目標(biāo)用戶(hù)的最近鄰域。綜合相似度計(jì)算公式如下:

        sim(u,v)=α·simt(u,v)+β·simp(u,v)+γ·sims(u,v)

        (11)

        (12)

        (13)

        用戶(hù)語(yǔ)義向量是用戶(hù)昵稱(chēng)和會(huì)員等級(jí)拼接并歸一化后的50維向量[35]。這樣設(shè)計(jì)的原因有三:其一,用戶(hù)昵稱(chēng)和會(huì)員等級(jí)信息公開(kāi)可查,非敏感人口統(tǒng)計(jì)特征(例如:性別、種族等),采集成本較低且不涉及隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)。其二,昵稱(chēng)作為用戶(hù)的唯一標(biāo)識(shí)符,在一定程度上反映了用戶(hù)的心理特征和文化素養(yǎng)[36]。其三,會(huì)員等級(jí)作為一種常用的用戶(hù)分群管理指標(biāo),能夠反映用戶(hù)的行為規(guī)律和屬性特點(diǎn)差異[37]。

        2.6 評(píng)分預(yù)測(cè)和產(chǎn)生推薦

        根據(jù)式(11)得到同聚類(lèi)簇中各用戶(hù)的N個(gè)最近鄰后,CPDFC-CFR算法對(duì)目標(biāo)用戶(hù)未交互項(xiàng)目i的情感得分進(jìn)行預(yù)測(cè),得到完整的UIS矩陣,如圖3中計(jì)算單元5所示。情感得分預(yù)測(cè)公式如下:

        (14)

        按用戶(hù)u對(duì)項(xiàng)目i的情感得分大小,選擇前n個(gè)項(xiàng)目生成推薦列表。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本研究在遵循網(wǎng)站Robots協(xié)議前提下,將在某知名電商平臺(tái)上利用定向爬蟲(chóng)抓取的相關(guān)數(shù)據(jù)作為實(shí)驗(yàn)的原始數(shù)據(jù)集UserCats。該數(shù)據(jù)集由Categories、Comments和Products 3個(gè)json文件組成,大小為10G,存儲(chǔ)有585萬(wàn)用戶(hù)與15萬(wàn)商品的交互數(shù)據(jù),例如:用戶(hù)昵稱(chēng)、產(chǎn)品標(biāo)題、類(lèi)目ID、店鋪信息、評(píng)論、評(píng)分等。選擇該數(shù)據(jù)集的原因有兩個(gè):第一,盡管用于U-CFR算法驗(yàn)證的開(kāi)放數(shù)據(jù)集很多,如MovieLens、Netflix等,但項(xiàng)目類(lèi)目、評(píng)論文本和用戶(hù)昵稱(chēng)等數(shù)據(jù)不夠完整;第二,電商領(lǐng)域是推薦系統(tǒng)應(yīng)用最早的領(lǐng)域,也是一直以來(lái)推薦重點(diǎn)關(guān)注的領(lǐng)域,平臺(tái)商品類(lèi)目齊全且層次清晰,數(shù)據(jù)便于獲取。

        為確保實(shí)驗(yàn)可行性及有效性,本研究隨機(jī)從UserCats中無(wú)放回抽取若干數(shù)據(jù)生成UserCats1和UserCats2兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集,并從中剔除未進(jìn)行評(píng)論的用戶(hù)、無(wú)任何評(píng)論的商品和有內(nèi)容安全風(fēng)險(xiǎn)的商品[3]。其中,UserCats1數(shù)據(jù)集大小為109M,為740個(gè)用戶(hù)和1 006個(gè)商品的交互數(shù)據(jù),有3個(gè)一級(jí)類(lèi)目、5個(gè)二級(jí)類(lèi)目和9個(gè)三級(jí)類(lèi)目,評(píng)論情感稀疏度為96.34%。UserCats2數(shù)據(jù)集大小為108M,為854個(gè)用戶(hù)與1 373個(gè)商品的交互數(shù)據(jù),有6個(gè)一級(jí)類(lèi)目、9個(gè)二級(jí)類(lèi)目和13個(gè)三級(jí)類(lèi)目。綜合考慮數(shù)據(jù)實(shí)時(shí)性和算法規(guī)模,采用PC離線(xiàn)方法進(jìn)行實(shí)驗(yàn)[2](Windows 11,PyCharm 2021,Python 3.6,Inter(R)Core TM i7-8550U @ 200GHz,16G RAM)。數(shù)據(jù)集分訓(xùn)練集(80%)和測(cè)試集(20%)。實(shí)驗(yàn)數(shù)據(jù)集描述如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集描述

        3.2 評(píng)價(jià)指標(biāo)與對(duì)照算法

        3.2.1 評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)使用兩種類(lèi)型的指標(biāo)來(lái)評(píng)價(jià)算法性能:基于準(zhǔn)確性的指標(biāo)和基于即時(shí)性的指標(biāo)。其中,基于準(zhǔn)確性的指標(biāo)為F-measure,該指標(biāo)根據(jù)項(xiàng)目的Top-n推薦列表計(jì)算得出,綜合考慮了精度和召回率,值越大推薦效果越好,相關(guān)定義參見(jiàn)文獻(xiàn)[38]?;诩磿r(shí)性的指標(biāo)為推薦耗時(shí)和相似度計(jì)算次數(shù),評(píng)價(jià)的是算法計(jì)算效率。推薦耗時(shí)指整個(gè)推薦過(guò)程花費(fèi)的時(shí)間,以秒為單位度量(實(shí)際數(shù)值取對(duì)數(shù)),值越大,計(jì)算可擴(kuò)展性越差??傁嗨贫扔?jì)算次數(shù)指為確定各用戶(hù)最近鄰域而需計(jì)算的相似度次數(shù),值越大,計(jì)算可擴(kuò)展性越差。

        鑒于推薦算法訓(xùn)練數(shù)據(jù)較大,進(jìn)一步對(duì)相似度計(jì)算次數(shù)和推薦耗時(shí)進(jìn)行了取對(duì)數(shù)操作,計(jì)算公式如下:

        (15)

        式中,y表示對(duì)數(shù)處理后的相似度計(jì)算次數(shù)或推薦耗時(shí),U表示用戶(hù)集合,xu表示為用戶(hù)u生成推薦列表所需的相似度計(jì)算次數(shù)和推薦耗時(shí)。

        3.2.2 對(duì)照算法

        為全面驗(yàn)證CPDFC-CFR算法應(yīng)對(duì)數(shù)據(jù)稀疏和計(jì)算可擴(kuò)展性問(wèn)題的有效性,本研究所選對(duì)照算法基本涵蓋了現(xiàn)有研究提出的不同類(lèi)型的U-CFR算法。下面,對(duì)本研究所選對(duì)照算法進(jìn)行簡(jiǎn)要說(shuō)明:

        ?POP(Popular Products):一種簡(jiǎn)單的非個(gè)性化基線(xiàn)算法,該算法按項(xiàng)目流行度的大小向各用戶(hù)推薦相同的Top-n項(xiàng)目推薦列表。

        ?ALS(Alternating Least Squares)[17]:一種矩陣分解算法,該算法采用交替訓(xùn)練的方式獲得一組用戶(hù)和項(xiàng)目的嵌入,通過(guò)嵌入點(diǎn)積的形式近似原始的用戶(hù)—項(xiàng)目矩陣。

        ?U-CFR(User-based Collaborative Filtering Recommendation)[3]:一種簡(jiǎn)單的個(gè)性化基線(xiàn)算法,該算法基于用戶(hù)相似度為目標(biāo)用戶(hù)推薦其近鄰用戶(hù)喜歡的項(xiàng)目。

        ?Km-CFR(K-means Based Collaborative Filtering Recommendation)[3]:一種基于聚類(lèi)的推薦算法,該算法在U-CFR基礎(chǔ)上利用K-means算法減少用戶(hù)相似度計(jì)算次數(shù),提升算法推薦效率。

        ?CKm-CFR(Canopy-K-means Based Collaborative Filtering Recommendation)[2]:一種基于聚類(lèi)的推薦算法,該算法將Canopy作為K-means的前置算法,緩解了聚類(lèi)數(shù)k對(duì)聚類(lèi)效果的影響,在提升計(jì)算效率的同時(shí)也確保了結(jié)果的穩(wěn)定性。

        上述算法均適用于用戶(hù)—項(xiàng)目矩陣,其中行表示用戶(hù),列表示項(xiàng)目,行列交點(diǎn)表示用戶(hù)評(píng)分或用戶(hù)評(píng)論情感。此外,還比較了CPDFC-CFR算法的3種中間算法,以比較算法不同計(jì)算單元的優(yōu)化效果:

        ?U-CFR(UIS):與U-CFR算法相比,構(gòu)建用戶(hù)—項(xiàng)目矩陣?yán)玫氖怯脩?hù)評(píng)論情感。

        ?U-CFR(UIS+DF):與U-CFR(UIS)算法相比,在相似度計(jì)算前利用數(shù)據(jù)場(chǎng)聚類(lèi)對(duì)用戶(hù)進(jìn)行了分組。

        ?U-CFR(UIS+SIM):與U-CFR(UIS)算法相比,Pearson相關(guān)系數(shù)替換為綜合相似度。

        POP和ALS算法無(wú)用戶(hù)相似度計(jì)算過(guò)程,研究?jī)H比較了它們?cè)谕扑]耗時(shí)上的計(jì)算效率表現(xiàn)。所有算法由Anaconda 3中Implicit推薦算法庫(kù)和Sklearn、Scipy等依賴(lài)庫(kù)復(fù)現(xiàn)。

        3.3 超參數(shù)選擇

        超參數(shù)是推薦算法開(kāi)始學(xué)習(xí)過(guò)程之前人工設(shè)置值的參數(shù)。取最近鄰個(gè)數(shù)N=10(總用戶(hù)數(shù)的1%~2%)[34]和項(xiàng)目推薦列表長(zhǎng)度n=15(與Last.fm等平臺(tái)的項(xiàng)目推薦長(zhǎng)度相近)[38],通過(guò)對(duì)不同參數(shù)進(jìn)行網(wǎng)格搜索來(lái)選擇各算法的超參數(shù),并以F-measure值大小作為最佳參數(shù)確定標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果取三折交叉驗(yàn)證結(jié)果的平均。各算法超參范圍如下(POP除外):

        對(duì)于ALS,在{10,100,1 000}之間選擇嵌入大小,在{500,1 000}之間選擇算法迭代次數(shù),在{0.001,0.0001}之間選擇正則化因子。對(duì)于U-CFR、U-CFR(UIS)、U-CFR(UIS+DF)、Km-CFR和CKm-CFR,在Pearson相關(guān)系數(shù)之間選擇相似度計(jì)算函數(shù),在{2,3,4,5,6,7,8,9,10}之間選擇最佳聚類(lèi)數(shù)(僅用于Km-CFR算法),在1 000之間選擇迭代次數(shù)(僅用于Km-CFR和CKm-CFR)。

        對(duì)于U-CFR(UIS+SIM)和CPDC-CFR,有α∈[0,1]、β∈[0,1]和γ∈[0,1]3個(gè)超參數(shù),滿(mǎn)足。鑒于3個(gè)超參數(shù)的值對(duì)為三維空間中的等邊三角形面,如圖6所示,本研究在三條角平分線(xiàn)的7個(gè)交點(diǎn)和切割區(qū)域的6個(gè)對(duì)稱(chēng)點(diǎn)之間選擇和的最佳取值。

        圖6 超參數(shù)α、β和γ的最佳取值范圍

        3.4 實(shí)驗(yàn)結(jié)果分析

        本節(jié)報(bào)告并討論實(shí)驗(yàn)結(jié)果。首先探討不同類(lèi)目級(jí)別對(duì)CPDFC-CFR算法推薦準(zhǔn)確性和計(jì)算效率的影響(3.4.1節(jié)),然后介紹CPDFC-CFR算法整體性能(3.4.2節(jié)),最后比較不同推薦算法的結(jié)果差異(3.4.3節(jié))。

        3.4.1 類(lèi)目級(jí)別影響

        UserCats1和UserCats2中CPDFC-CFR算法在不同商品類(lèi)目級(jí)別上的性能表現(xiàn)如圖7所示。在準(zhǔn)確性方面,商品類(lèi)目級(jí)別越高,算法F-measure值越小。在計(jì)算效率方面,商品類(lèi)目級(jí)別越高,算法推薦耗時(shí)越長(zhǎng),相似度計(jì)算次數(shù)越多。一個(gè)可能的原因是,隨著商品類(lèi)目級(jí)別的提升,UCP矩陣貢獻(xiàn)的用戶(hù)類(lèi)目偏好信息粒度越來(lái)越大,如圖7(a1)和圖7(a2)所示,弱化了用戶(hù)之間的細(xì)微偏好差異,令數(shù)據(jù)場(chǎng)聚類(lèi)效果下降,影響了算法計(jì)算效率和準(zhǔn)確性。鑒于各評(píng)價(jià)指標(biāo)值變化的拐點(diǎn)尚未出現(xiàn),進(jìn)一步降低商品類(lèi)目級(jí)別(例如:細(xì)化三級(jí)類(lèi)目的商品分類(lèi),構(gòu)建四級(jí)商品類(lèi)目),可能是一種提升CPDFC-CFR準(zhǔn)確性和計(jì)算效率的有效途徑。

        圖7 商品類(lèi)目級(jí)別對(duì)CPDFC-CFR算法準(zhǔn)確性和計(jì)算效率的影響

        3.4.2 總體性能分析

        對(duì)照算法和本文所提算法及其中間算法在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集中的F-measure、推薦耗時(shí)和相似度計(jì)算次數(shù)指標(biāo)的三折及平均結(jié)果如圖8所示。對(duì)比U-CFR和U-CFR(UIS)可知,利用評(píng)論情感構(gòu)建的UIS矩陣能夠?yàn)榻弲f(xié)同過(guò)濾推薦算法提供比UIR矩陣更加接近用戶(hù)真實(shí)喜好的向量表示。對(duì)比U-CFR(UIS)和U-CFR(UIS+DF)可知,利用數(shù)據(jù)場(chǎng)優(yōu)化K-means算法的用戶(hù)聚類(lèi)效果是可行的,能夠有效降低推薦算法的相似度計(jì)算次數(shù)和推薦耗時(shí)并提升準(zhǔn)確性。對(duì)比U-CFR(UIS)和U-CFR(UIS+SIM)可知,盡管引入用戶(hù)類(lèi)目偏好信息(三級(jí)產(chǎn)品類(lèi)目)和語(yǔ)義信息會(huì)令推薦耗時(shí)增加,但實(shí)驗(yàn)結(jié)果也基本證實(shí)了它們?cè)诰徑饩仃嚁?shù)據(jù)稀疏上的有效性。綜合考慮上述優(yōu)化思路的CPDFC-CFR算法在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集中均取得了最高的F-measure、較少的推薦耗時(shí)和最低的相似度計(jì)算次數(shù),與算法設(shè)計(jì)預(yù)期相符。

        3.4.3 不同推薦算法比較

        UserCats1和UserCats2數(shù)據(jù)集中不同類(lèi)型推薦算法的性能如圖9所示(三折交叉驗(yàn)證均值)。總體而言,兩個(gè)數(shù)據(jù)集中本文所提CPDFC-CFR算法均取得了整體上的最優(yōu)性能(最高的準(zhǔn)確性和較高的計(jì)算效率)。在準(zhǔn)確性方面,交替訓(xùn)練ALS的F-measure值要高于Km-CFR和CKm-CFR等基于傳統(tǒng)聚類(lèi)的協(xié)同過(guò)濾推薦算法。POP表現(xiàn)最差,因?yàn)槠浠诋a(chǎn)品流行度向所有用戶(hù)推薦相同的商品列表。在計(jì)算效率方面,U-CFR耗時(shí)最長(zhǎng),POP耗時(shí)最短,ALS因無(wú)需反復(fù)計(jì)算相似度耗時(shí)較短。受超參數(shù)影響,Km-CFR的相似度計(jì)算次數(shù)和推薦耗時(shí)高于CKm-CFR和CPDFC-CFR。此外,從圖中數(shù)據(jù)可知,無(wú)論哪種類(lèi)型推薦算法,UserCats1(稀疏度96.34%)中的結(jié)果都優(yōu)于UserCats2(稀疏度97.94%),這表明數(shù)據(jù)稀疏性對(duì)推薦性能有較大影響。

        4 結(jié) 語(yǔ)

        4.1 結(jié) 論

        伴隨信息過(guò)載,推薦成為信息消費(fèi)者獲取個(gè)性化信息以及信息提供者提供高質(zhì)量信息的重要方式。受用戶(hù)評(píng)分失真、附加數(shù)據(jù)完整性和安全性差以及超參數(shù)(例如:隨機(jī)初始聚類(lèi)中心)等問(wèn)題影響,現(xiàn)有針對(duì)基于近鄰用戶(hù)的協(xié)同過(guò)濾推薦算法數(shù)據(jù)稀疏和計(jì)算可擴(kuò)展性(計(jì)算效率)問(wèn)題的相關(guān)研究仍有進(jìn)一步優(yōu)化的空間。為此,本文提出了一種融合類(lèi)目偏好和數(shù)據(jù)場(chǎng)聚類(lèi)的協(xié)同過(guò)濾推薦算法(Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation,CPDFC-CFR)。該算法首先通過(guò)評(píng)論情感構(gòu)建用戶(hù)—項(xiàng)目矩陣,并利用類(lèi)目偏好比降低矩陣維度;然后,通過(guò)數(shù)據(jù)場(chǎng)聚類(lèi)對(duì)用戶(hù)進(jìn)行分組,縮小最近鄰域檢索范圍,減少相似度計(jì)算次數(shù);最后,計(jì)算同簇中由評(píng)論情感、類(lèi)目偏好和用戶(hù)語(yǔ)義共同構(gòu)成的用戶(hù)相似度,同時(shí)預(yù)測(cè)UIS矩陣缺失評(píng)分,產(chǎn)生Top-n個(gè)性化項(xiàng)目推薦列表。為進(jìn)一步驗(yàn)證算法性能,本研究在電商領(lǐng)域的兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了對(duì)照實(shí)驗(yàn),結(jié)果表明,CPDFC-CFR算法比對(duì)照算法和U-CFR算法的系列改進(jìn)算法在準(zhǔn)確性和計(jì)算效率上有了較為明顯的提升(UserCats1數(shù)據(jù)集上F-measure=27.65%,推薦耗時(shí)=3 633.50秒,相似度計(jì)算次數(shù)=263 096次;UserCats2數(shù)據(jù)集上F-measure=26.96%,推薦耗時(shí)=6 698.18秒,相似度計(jì)算次數(shù)=364 658次),整體性能最優(yōu)。

        圖9 不同類(lèi)型推薦算法的準(zhǔn)確性和計(jì)算效率表現(xiàn)

        4.2 局限與未來(lái)工作

        本研究的不足之處在于:第一,受數(shù)據(jù)采集成本限制,研究?jī)H在電商場(chǎng)景中對(duì)算法準(zhǔn)確性和計(jì)算效率進(jìn)行了驗(yàn)證,在實(shí)驗(yàn)數(shù)據(jù)的多樣性上可能存在一定疏漏,導(dǎo)致研究結(jié)果的可靠性和算法的可推廣性有待進(jìn)一步提升。未來(lái)工作可能會(huì)采集不同場(chǎng)景下的數(shù)據(jù)集,例如:新聞傳媒、金融理財(cái)、研發(fā)等,在不同數(shù)據(jù)量級(jí)和不同稀疏度等組合條件下驗(yàn)證算法性能。第二,雖然研究未發(fā)現(xiàn)類(lèi)目級(jí)別與算法準(zhǔn)確性和計(jì)算效率之間的均衡點(diǎn),但卻可以看出一定的規(guī)律,即:隨著類(lèi)目級(jí)別的降低,算法準(zhǔn)確性和計(jì)算效率逐漸上升,如圖8所示。未來(lái)的工作可能會(huì)嘗試?yán)蒙疃葘W(xué)習(xí)或人工方式細(xì)化類(lèi)目分類(lèi),找到類(lèi)目級(jí)別與算法準(zhǔn)確性和計(jì)算效率的均衡點(diǎn),進(jìn)一步提升算法推薦效果。

        猜你喜歡
        類(lèi)目聚類(lèi)矩陣
        本期練習(xí)題類(lèi)目參考答案及提示
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        初等行變換與初等列變換并用求逆矩陣
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        《中圖法》第5版交替類(lèi)目研究綜述
        黃三角、長(zhǎng)三角、珠三角明、清及民國(guó)通志一級(jí)類(lèi)目比較*
        丰满熟女人妻中文字幕免费| 亚洲国产成人久久精品一区| 国产亚洲精品久久久久久国模美| 日本aⅴ大伊香蕉精品视频| 中年人妻丰满AV无码久久不卡| 久久色悠悠亚洲综合网| 亚洲香蕉av一区二区三区| 亚欧免费无码aⅴ在线观看| 亚洲av无码专区亚洲av桃| 国产一区二区精品网站看黄| 桃色一区一区三区蜜桃视频| 日本少妇高潮喷水xxxxxxx| 日韩av在线播放人妻| 激情综合丁香五月| 国产激情对白一区二区三区四| 草草影院国产| 一区二区三区日韩毛片| 在线无码中文字幕一区| 丰满人妻被中出中文字幕| 免费一级欧美大片久久网| 亚洲av乱码国产精品观| 久久国产加勒比精品无码| 欧美黑人又粗又大久久久| 伊人不卡中文字幕在线一区二区 | 无码人妻精品一区二区三区9厂 | 精品亚洲成a人在线观看| 日产精品久久久久久久性色| 国产思思久99久精品| 男女激情视频网站在线| 成人毛片av免费| 四虎精品影视| 精品国产亚洲av久一区二区三区| 精品无码一区二区三区爱欲 | 国产自产在线视频一区| 国产亚洲精品综合一区| 国产自偷自偷免费一区| 久久久www成人免费无遮挡大片| 亚洲中文字幕精品久久a| 亚洲中文字幕在线第二页| 久久无码一一区| 午夜桃色视频在线观看|