摘 要: 隨著互聯(lián)網(wǎng)用戶數(shù)量迅猛增長(zhǎng),產(chǎn)生了大量用戶生成內(nèi)容,出現(xiàn)了信息過(guò)載現(xiàn)象.考慮用戶生成數(shù)據(jù),建立用戶興趣偏好模型,同時(shí)聯(lián)合交互式進(jìn)化計(jì)算,提出用戶行為驅(qū)動(dòng)偏好代理模型輔助的交互式個(gè)性化進(jìn)化搜索算法,幫助用戶從海量搜索空間中搜尋符合用戶潛在需求和興趣偏好的項(xiàng)目或內(nèi)容.利用用戶交互行為、評(píng)分?jǐn)?shù)據(jù)和項(xiàng)目類別信息,構(gòu)建基于受限玻爾茲曼機(jī)的用戶偏好感知模型,抽取用戶偏好特征;從進(jìn)化優(yōu)化的角度,設(shè)計(jì)基于用戶偏好的代理模型及其進(jìn)化策略,生成含用戶偏好的新個(gè)體,并預(yù)測(cè)進(jìn)化個(gè)體適應(yīng)值,引導(dǎo)進(jìn)化優(yōu)化過(guò)程;根據(jù)新增用戶生成內(nèi)容和模型管理機(jī)制,動(dòng)態(tài)更新各模型,及時(shí)跟蹤用戶偏好,順利完成個(gè)性化進(jìn)化搜索.通過(guò)大量真實(shí)世界數(shù)據(jù)集的實(shí)驗(yàn),驗(yàn)證了所提算法處理動(dòng)態(tài)個(gè)性化搜索和推薦任務(wù)的可行性及有效性.
關(guān)鍵詞: 交互式進(jìn)化計(jì)算;代理模型;用戶生成內(nèi)容;受限玻爾茲曼機(jī);個(gè)性化搜索
中圖分類號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A"""" 文章編號(hào):1673-4807(2024)02-065-08
Preference surrogate-assisted interactive personalized evolutionarysearch algorithm based on user behaviors
Abstract:With the rapid growth of the number of users on internet, a lot of user-generated contents (UGCs) has been generated, and there has been information overload. This paper makes full use of UGCs to build a user interest preference model, and proposes a preference surrogate-assisted interactive personalized evolutionary search algorithm based on user behaviors. Combing the interactive evolutionary computing, it helps users search for the items that meet their potential needs and interest preferences from a massive search space. By using interaction behaviors, ratings and item category information, a user preference perception model based on restricted Boltzmann machine is constructed to extract the user preference features. From the perspective of evolutionary optimization, a surrogate model based on the user preference and its evolutionary strategies is designed to generate new individuals with the user preference, and predict the fitness value of new individuals to guide the evolutionary optimization process. Meanwhile, according to new UGCs and model management mechanism, these models are dynamically updated to timely track the user preference for the personalized evolutionary search. Through a large number of experiments in the real-world datasets, the feasibility and effectiveness of the proposed algorithm are verified in dynamic personalized search and recommendation tasks.
Key words:interactive evolutionary optimization, surrogate model, user-generated contents, restricted Boltzmann machine, personalized search
隨著互聯(lián)網(wǎng)和電子商務(wù)技術(shù)的蓬勃發(fā)展,用戶數(shù)量呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì),產(chǎn)生了各式各樣的海量數(shù)據(jù),蘊(yùn)含了豐富的用戶興趣愛(ài)好及個(gè)性化信息[1-3].個(gè)性化搜索和推薦算法充分挖掘用戶歷史行為數(shù)據(jù),建立用戶興趣模型與行為模式,幫助用戶從海量搜索空間中搜尋符合用戶潛在需求和興趣偏好的項(xiàng)目或內(nèi)容,將用戶可能感興趣的內(nèi)容(如:商品、音樂(lè)、微博、新聞等)以個(gè)性化項(xiàng)目列表的形式推薦給用戶,提升用戶的使用體驗(yàn)與電子商務(wù)平臺(tái)的商業(yè)利益,實(shí)現(xiàn)供需雙贏.
面向含用戶生成內(nèi)容(user-generated content, UGCs)的個(gè)性化搜索問(wèn)題中,用戶偏好和意圖難以建立明確定義的數(shù)學(xué)模型或目標(biāo)函數(shù)描述表示,需依據(jù)用戶的認(rèn)知經(jīng)驗(yàn)和個(gè)性化偏好,對(duì)待搜索任務(wù)進(jìn)行定性分析、評(píng)價(jià)和決策,且用戶滿意解的界定是非常主觀且因人而異的,其搜索結(jié)果和推薦效果則完全由用戶偏好主觀決定,展現(xiàn)了該類問(wèn)題具有主觀性、模糊性、不確定性及不一致性.此外,用戶的興趣偏好是多種多樣的,可能將隨著時(shí)間推移、環(huán)境遷移和信息量增加等多種因素影響,用戶需求和興趣偏好逐漸清晰,甚至有可能發(fā)生動(dòng)態(tài)變化.用戶參與個(gè)性化搜索過(guò)程的交互式進(jìn)化計(jì)算(interactive evolutionary computations, IECs)能夠有效利用用戶對(duì)于具體優(yōu)化問(wèn)題的主觀評(píng)價(jià)與決策,將人類智能信息與傳統(tǒng)進(jìn)化計(jì)算相結(jié)合,是處理上述這類復(fù)雜定性指標(biāo)優(yōu)化問(wèn)題的有效途徑及可行方法.
已有個(gè)性化搜索和推薦算法的相關(guān)研究具有一定的參考價(jià)值及借鑒作用.文獻(xiàn)[4]利用貝葉斯模型描述用戶偏好分布,使用區(qū)間數(shù)值化表示用戶偏好關(guān)系,訓(xùn)練徑向基函數(shù)神經(jīng)網(wǎng)絡(luò),提出交互式進(jìn)化計(jì)算處理個(gè)性化搜索.文獻(xiàn)[5]整合用戶歷史交互行為,提出基于注意力機(jī)制的用戶行為模型框架,有效處理推薦問(wèn)題.文獻(xiàn)[6]根據(jù)用戶隱式偏好信息的不確定性,考慮推薦過(guò)程和結(jié)果的精確性與多樣性,提出基于貝葉斯Mallows模型的多樣性個(gè)性化推薦算法.文獻(xiàn)[7]利用知識(shí)圖提取項(xiàng)目屬性作為邊信息,用戶和項(xiàng)目由一組屬性嵌入表示,并建立屬性級(jí)協(xié)同注意力機(jī)制,捕獲不同屬性間的相關(guān)性,增強(qiáng)用戶表示與項(xiàng)目表示,提出知識(shí)增強(qiáng)的推薦模型.文獻(xiàn)[8]考慮時(shí)間動(dòng)態(tài)性,利用時(shí)間窗口設(shè)置不同粒度的時(shí)間因子,進(jìn)行動(dòng)態(tài)建模,并設(shè)計(jì)樣本數(shù)據(jù)生成和存取策略,提出基于時(shí)間動(dòng)態(tài)性的場(chǎng)感知分解機(jī)模型.文獻(xiàn)[9]采用遺傳算法處理用戶與項(xiàng)目隱因子優(yōu)化問(wèn)題,將增強(qiáng)指數(shù)機(jī)制融入個(gè)體選擇策略,并依據(jù)尋找重要隱因子的思想設(shè)計(jì)變異過(guò)程,提出滿足差分隱私保護(hù)的矩陣分解推薦算法.文獻(xiàn)[10]利用輕量級(jí)圖卷積方法,建模用戶和項(xiàng)目的異構(gòu)交互,并整合鄰域信息,提出基于異構(gòu)鄰域聚合的協(xié)同過(guò)濾推薦算法.上述研究工作從不同方面試圖改進(jìn)現(xiàn)有個(gè)性化搜索和推薦算法的不足.這些方法均假設(shè)所有數(shù)據(jù)是已知且充足的,整合UGCs數(shù)據(jù)建立用戶興趣模型,而模型訓(xùn)練復(fù)雜度較大.另一方面,相比于海量UGCs,相關(guān)有用信息過(guò)于稀疏,同時(shí)用戶的興趣偏好具有動(dòng)態(tài)演化特性,所構(gòu)建的模型將對(duì)于用戶行為的理解有較大的片面性,不能完全準(zhǔn)確地代表用戶真實(shí)意圖,從而難以適應(yīng)實(shí)際個(gè)性化搜索和推薦任務(wù)的應(yīng)用場(chǎng)景.
文中挖掘并利用歷史用戶交互行為和含用戶偏好的項(xiàng)目屬性信息,構(gòu)建描述用戶潛在需求及個(gè)性化偏好的基于受限玻爾茲曼機(jī)(restriced Boltzmann machines, RBM)用戶偏好感知模型,抽取用戶偏好特征;在分布估計(jì)算法(estimation of distribution algorithms, EDA)框架下,利用已訓(xùn)練好的RBM用戶偏好感知模型,設(shè)計(jì)基于用戶偏好的EDA采樣概率模型,表達(dá)待搜索項(xiàng)目與用戶偏好之間的非線性關(guān)系,驅(qū)動(dòng)進(jìn)化優(yōu)化過(guò)程生成含用戶偏好的新個(gè)體;同時(shí),根據(jù)用戶偏好感知模型的能量函數(shù),設(shè)計(jì)基于用戶偏好的代理模型,有效預(yù)測(cè)用戶偏好行為,部分代替用戶真實(shí)評(píng)價(jià),估計(jì)進(jìn)化個(gè)體適應(yīng)值;根據(jù)新增用戶交互行為和相關(guān)信息,利用模型管理機(jī)制,動(dòng)態(tài)更新用戶偏好感知模型及其相應(yīng)模型,提出了用戶行為驅(qū)動(dòng)偏好代理模型輔助的交互式個(gè)性化進(jìn)化搜索算法,處理復(fù)雜網(wǎng)絡(luò)環(huán)境下面向含UGCs的個(gè)性化搜索和推薦任務(wù).將所提理論與方法應(yīng)用于真實(shí)世界數(shù)據(jù)集,通過(guò)大量實(shí)驗(yàn)展示了所提算法的可行性及有效性.
1 面向含用戶生成內(nèi)容個(gè)性化搜索問(wèn)題的數(shù)學(xué)描述
面向含UGCs的個(gè)性化搜索任務(wù)是在海量多源異構(gòu)用戶生成數(shù)據(jù)構(gòu)成的動(dòng)態(tài)演化可行域空間中,搜尋符合用戶潛在需求和個(gè)性化興趣偏好的優(yōu)化目標(biāo),為用戶進(jìn)行個(gè)性化項(xiàng)目推薦,即其本質(zhì)上是一類復(fù)雜動(dòng)態(tài)定性指標(biāo)優(yōu)化問(wèn)題.這里,面向含UGCs的個(gè)性化搜索問(wèn)題的目標(biāo)函數(shù)fu(x)定義為:
式中:U=u1,u2,…,uU是用戶集合,U為用戶數(shù)量;X={x1,x2,…,x|X|}為項(xiàng)目集合(可行解空間),通常X很大且稀疏,|X|表示項(xiàng)目數(shù)量;項(xiàng)目(解)xi含有n個(gè)決策變量,表示為xi={xi1,xi2,…,xin};用戶u對(duì)于項(xiàng)目x的偏好程度為fu(x),其無(wú)法用具體數(shù)學(xué)函數(shù)精確表示,由用戶u的認(rèn)知經(jīng)驗(yàn)和興趣偏好決定,且在個(gè)性化搜索過(guò)程中可能發(fā)生動(dòng)態(tài)變化.
2 用戶行為驅(qū)動(dòng)偏好代理模型輔助的交互式個(gè)性化進(jìn)化搜索算法
2.1 算法框架
用戶行為驅(qū)動(dòng)偏好代理模型輔助的交互式個(gè)性化進(jìn)化搜索算法(preference surrogate-assisted interactive personalized evolutionary search algorithm based on user behaviors, PSIPESA)的基本流程如圖1.
所提算法主要包括4部分:
(1) 基于用戶交互行為的RBM用戶偏好感知模型:根據(jù)UGCs信息,構(gòu)建含用戶偏好的優(yōu)勢(shì)群體,訓(xùn)練基于RBM的用戶偏好感知模型,抽取用戶偏好特征.
(2) 基于用戶偏好的EDA采樣概率模型:在IEDA進(jìn)化框架下,設(shè)計(jì)基于用戶偏好的采樣概率模型,生成含用戶偏好的新個(gè)體,并在搜索空間中匹配新的可行解,構(gòu)成下一代種群,推進(jìn)進(jìn)化優(yōu)化過(guò)程.
(3) 基于用戶偏好的代理模型:根據(jù)用戶偏好感知模型,設(shè)計(jì)用戶評(píng)價(jià)代理模型,估計(jì)進(jìn)化個(gè)體的適應(yīng)值,并依據(jù)精英選擇策略,生成用戶可能感興趣的項(xiàng)目推薦列表,提交給用戶進(jìn)行評(píng)價(jià).
(4) 模型管理模塊:根據(jù)新增UGCs,利用模型管理機(jī)制,動(dòng)態(tài)更新優(yōu)勢(shì)群體、用戶偏好感知模型、概率模型及代理模型,有效引導(dǎo)個(gè)性化進(jìn)化搜索過(guò)程.
2.2 基于用戶交互行為的RBM用戶偏好感知模型
在個(gè)性化搜索過(guò)程中,考慮用戶偏好的不確定性及動(dòng)態(tài)性,充分挖掘這些用戶生成數(shù)據(jù),分析用戶興趣偏好的發(fā)展與演化,建立表達(dá)用戶需求和愛(ài)好的用戶偏好感知模型,提取用戶偏好特征,為個(gè)性化搜索和推薦服務(wù).
根據(jù)用戶歷史交互行為數(shù)據(jù),篩選含當(dāng)前用戶偏好的項(xiàng)目集合構(gòu)成優(yōu)勢(shì)群體D,如:若用戶對(duì)于某項(xiàng)目的評(píng)分或排名高于閾值,通常意味著用戶喜歡該項(xiàng)目,則將該項(xiàng)目歸入優(yōu)勢(shì)群體;若用戶瀏覽項(xiàng)目,獲得較長(zhǎng)瀏覽時(shí)間的項(xiàng)目劃入優(yōu)勢(shì)群體.將優(yōu)勢(shì)群體D作為EDA進(jìn)化優(yōu)化框架下的初始種群Pop(0)={xi,i=1,2,…,|D|},種群規(guī)模為|D|.關(guān)于種群中進(jìn)化個(gè)體的編碼,項(xiàng)目(個(gè)體)x由n個(gè)屬性描述,表示為決策變量的二進(jìn)制編碼x=x1,x2,…,xn,其中,第i個(gè)決策變量xi取值為1或0,1表示該項(xiàng)目具有該屬性,0表示無(wú)該屬性.項(xiàng)目(個(gè)體)包含了用戶的興趣偏好,若進(jìn)化個(gè)體x的第i個(gè)決策變量xi=1,表示用戶對(duì)于含有屬性i的項(xiàng)目感興趣.
根據(jù)優(yōu)勢(shì)群體在搜索空間中的決策變量屬性分布信息,利用RBM模型的隱式表達(dá)能力和特征提取能力,擬合基于用戶交互行為的定性指標(biāo)決策變量之間的高階非線性關(guān)系,構(gòu)建RBM用戶偏好感知模型,捕捉用戶偏好特征.基于用戶交互行為的RBM用戶偏好感知模型的結(jié)構(gòu)示意圖如圖2.
基于用戶交互行為的RBM用戶偏好感知模型具有兩層網(wǎng)絡(luò)結(jié)構(gòu):可見(jiàn)層v包含n個(gè)可見(jiàn)單元,表示項(xiàng)目(個(gè)體)的n個(gè)屬性,vi為第i個(gè)可見(jiàn)單元狀態(tài);隱層h含有m個(gè)隱單元,表示用戶偏好特征,hj為第j個(gè)隱單元狀態(tài).其中,可見(jiàn)單元和隱單元均為二值變量.
可見(jiàn)單元和隱單元的條件分布概率分別為:
式中:Wij為可見(jiàn)單元i與隱單元j之間的連接權(quán)重;ai和bj分別為可見(jiàn)單元i和隱單元j的偏置.
對(duì)于一組給定狀態(tài)(v,h),基于用戶交互行為的RBM用戶偏好感知模型的系統(tǒng)能量函數(shù)為:
式中:θ={W,a,b}表示模型參數(shù),均為實(shí)數(shù).
通過(guò)RBM模型CD學(xué)習(xí)算法[11],將種群中進(jìn)化個(gè)體的二進(jìn)制基因編碼x={x1,x2,…,xn},作為訓(xùn)練數(shù)據(jù)集T={(xi,f(xi)),i=1,2,…,|D|},輸入基于用戶交互行為的RBM用戶偏好感知模型的可見(jiàn)層單元v={v1,v2,…,vn},訓(xùn)練用戶偏好感知模型,捕捉用戶偏好信息的高階非線性關(guān)聯(lián)關(guān)系,獲得含優(yōu)良解基因分布特征表示的RBM模型參數(shù)θ={W,a,b}.
2.3 基于用戶偏好的EDA采樣概率模型
在IEDA進(jìn)化優(yōu)化框架下,構(gòu)建基于用戶偏好的EDA采樣概率模型Pu(x)為:
Pu(x)=[p(x1=1),p(x2=1),…,p(xn=1)](7)
通過(guò)對(duì)可觀察用戶生成數(shù)據(jù)的概率估計(jì),基于用戶偏好的EDA采樣概率模型Pu(x)建模用戶興趣偏好選擇傾向,將個(gè)性化搜索問(wèn)題轉(zhuǎn)化為用戶偏好行為發(fā)生概率最大化問(wèn)題.
隨機(jī)采樣概率模型Pu(x),生成含用戶偏好的新個(gè)體.隨機(jī)采樣公式為:
式中:xi是新個(gè)體x的第i個(gè)決策變量屬性值;random(0,1)是取值在0,1之間的隨機(jī)數(shù).
此外,在更新進(jìn)化種群的過(guò)程中,分配一個(gè)較小的概率(如:10%),采樣非優(yōu)勢(shì)群體,與上述生成的新個(gè)體共同構(gòu)成下一代進(jìn)化種群Popg={xi,i=1,2,…,D},避免過(guò)早產(chǎn)生進(jìn)化早熟現(xiàn)象.在保證種群信息多樣性的同時(shí),驅(qū)動(dòng)種群朝著優(yōu)良解集的方向進(jìn)化.
由于在進(jìn)化計(jì)算中使用了進(jìn)化個(gè)體編碼解技術(shù),使得采樣生成的許多新個(gè)體可能無(wú)法匹配搜索空間中的實(shí)際項(xiàng)目.因此,需根據(jù)新個(gè)體與待搜索項(xiàng)目的基因相似性,匹配相同或相似的項(xiàng)目可行解,構(gòu)成待推薦項(xiàng)目集合S.
2.4 基于用戶偏好的代理模型
式中:Eθ(x,h)表示進(jìn)化個(gè)體x在RBM用戶偏好感知模型中的能量函數(shù)值;maxEθ和minEθ分別為待推薦項(xiàng)目集合S中個(gè)體的最大和最小能量函數(shù)值.
值的N個(gè)優(yōu)良個(gè)體,生成滿足用戶需求且用戶可能感興趣的個(gè)性化項(xiàng)目推薦列表TopN,提交給用戶進(jìn)行交互式評(píng)價(jià).
在個(gè)性化進(jìn)化搜索過(guò)程中,收集真實(shí)交互式用戶評(píng)價(jià)信息,衡量代理模型的預(yù)測(cè)精度,并根據(jù)新增用戶生成數(shù)據(jù),更新用戶偏好感知模型、概率模型和代理模型,及時(shí)跟蹤用戶偏好的動(dòng)態(tài)變化,指導(dǎo)交互式個(gè)性化搜索的方向,順利完成個(gè)性化搜索和推薦任務(wù).
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境
為了驗(yàn)證所提個(gè)性化搜索算法的綜合性能,采用真實(shí)世界通用數(shù)據(jù)集MovieLens[12]和Amazon [13]進(jìn)行實(shí)驗(yàn)與分析.數(shù)據(jù)集統(tǒng)計(jì)信息描述如表1.
實(shí)驗(yàn)環(huán)境中處理器為Intel(R) Xeon(R) Gold 6248R CPU @ 3.00GHz和256GB RAM,實(shí)驗(yàn)平臺(tái)使用Python 3.8開(kāi)發(fā).采用均方根誤差(root mean square error, RMSE)[14-15]、命中率(hit ratio, HR)[15]、平均準(zhǔn)確率(average precision, AP)和平均準(zhǔn)確率均值(mean average precision, MAP)[15]等評(píng)價(jià)指標(biāo),客觀展示個(gè)性化搜索和推薦算法的預(yù)測(cè)精度與推薦性能.
3.2 用戶偏好感知模型和偏好代理模型的性能
將所提算法去除進(jìn)化優(yōu)化框架,簡(jiǎn)化為用戶行為驅(qū)動(dòng)偏好代理模型輔助的個(gè)性化進(jìn)化搜索算法(preference surrogate-assisted personalized evolutionary search algorithm based on user behaviors,PSPESA),與其他推薦方法進(jìn)行對(duì)比實(shí)驗(yàn).對(duì)比算法包括:隨機(jī)推薦算法(Random)、基于項(xiàng)目流行度的推薦算法(Popularity)、基于用戶的協(xié)同過(guò)濾算法(user-based collaborative filtering,UserCF) [16]、基于項(xiàng)目的協(xié)同過(guò)濾算法(item-based collaborative filtering,ItemCF) [16]、BPR [17]、SVD [18]和RBM[19]算法.協(xié)同過(guò)濾算法的相似用戶(項(xiàng)目)數(shù)量設(shè)置為10.BPR和SVD算法的隱因子數(shù)量分別設(shè)置為64和20.所提PSIPESA算法的實(shí)驗(yàn)參數(shù)設(shè)置如表2.實(shí)驗(yàn)參數(shù)根據(jù)經(jīng)驗(yàn)值或?qū)嶒?yàn)設(shè)定.
為了保障對(duì)比實(shí)驗(yàn)的客觀性和公正性,在各實(shí)驗(yàn)數(shù)據(jù)集中選擇較為活躍的1 000名用戶及其相關(guān)信息.隨機(jī)選取10名測(cè)試用戶進(jìn)行個(gè)性化搜索和推薦實(shí)驗(yàn),按照時(shí)間戳順序重新排列測(cè)試用戶的交互行為數(shù)據(jù),以前70%和后30%的比例劃分訓(xùn)練和測(cè)試數(shù)據(jù)集.實(shí)驗(yàn)中,各算法獨(dú)立運(yùn)行10次,使用RMSE、HR@10、MAP@10、HR@20、MAP@20和時(shí)間花費(fèi)(s)6種性能評(píng)價(jià)指標(biāo),計(jì)算所有測(cè)試用戶的平均評(píng)價(jià)指標(biāo).統(tǒng)計(jì)平均實(shí)驗(yàn)結(jié)果如表3.
利用Bonferroni校正進(jìn)行Kruskal-Wallis檢驗(yàn),分析各組實(shí)驗(yàn)結(jié)果之間的分布差異.若所提算法與對(duì)比算法具有顯著性差異(漸進(jìn)顯著性plt;0.05),則將該對(duì)比算法的實(shí)驗(yàn)結(jié)果標(biāo)記為“*”,最優(yōu)值加粗表示.
通過(guò)觀察對(duì)比實(shí)驗(yàn)結(jié)果,得出以下結(jié)論:
(1) 對(duì)比實(shí)驗(yàn)中,PSPESA算法總體上取得了相對(duì)較好的預(yù)測(cè)準(zhǔn)確性和推薦效果.在ML-l-s數(shù)據(jù)集中,所提算法取得了最優(yōu)RMSE值,而在其他數(shù)據(jù)集中SVD算法獲得了最小RMSE值.這主要是因?yàn)镾VD通過(guò)訓(xùn)練集中的實(shí)際項(xiàng)目評(píng)分進(jìn)行了有監(jiān)督學(xué)習(xí),使得其獲得較高的預(yù)測(cè)準(zhǔn)確性,而PSPESA采用了未使用實(shí)際用戶評(píng)分值的無(wú)監(jiān)督訓(xùn)練,因而,所提算法關(guān)于RMSE指標(biāo)的表現(xiàn)不如SVD,但是也取得了能夠與基于有監(jiān)督學(xué)習(xí)的推薦算法相比較的實(shí)驗(yàn)結(jié)果.除了SVD外,PSPESA的RMSE值明顯優(yōu)于其他對(duì)比算法.基于協(xié)同過(guò)濾的推薦算法(包括基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾)的評(píng)分預(yù)測(cè)誤差RMSE最大,主要是數(shù)據(jù)集的稀疏性嚴(yán)重影響了協(xié)同過(guò)濾算法的預(yù)測(cè)準(zhǔn)確性.另外,雖然Popularity算法是一類簡(jiǎn)單的非個(gè)性化搜索算法,但是在各數(shù)據(jù)集實(shí)驗(yàn)中取得了甚至比協(xié)同過(guò)濾和基于RBM推薦算法高的預(yù)測(cè)準(zhǔn)確率,展示了本實(shí)驗(yàn)將其作為基線算法的必要性.
(2) 所提算法能夠?qū)⒋阉黜?xiàng)目進(jìn)行良好排序,其將用戶感興趣的項(xiàng)目排在推薦列表的前面,給予用戶優(yōu)良的搜索瀏覽體驗(yàn),獲得了較好的命中率和平均準(zhǔn)確率均值.例如,在Kindle數(shù)據(jù)集中,相比與其他對(duì)比算法,PSPESA獲得了最優(yōu)HR@10、MAP@10、HR@20和MAP@20值.所提算法取得了最優(yōu)HR@10值0.030 9,高于次優(yōu)SVD算法6.55%,且高于Random算法33.77%,高于Popularity算法366.77%,高于UserCF算法426.41%,高于ItemCF算法503.52%,高于BPR算法8.80%,高于RBM算法423.73%;[JP3]同時(shí),也取得了最優(yōu)MAP@10值0.968.基于無(wú)監(jiān)督學(xué)習(xí)的PSPESA算法訓(xùn)練時(shí)不依賴于用戶具體評(píng)分值,充分利用用戶隱式偏好行為,獲得了良好的搜索性能、推薦效果及用戶滿意度.
(3) 從搜索時(shí)間花費(fèi)來(lái)看,除了Random算法,PSPESA算法的時(shí)間花費(fèi)顯著低于其他對(duì)比算法.說(shuō)明所提算法利用基于RBM的用戶偏好感知模型和基于用戶偏好的進(jìn)化優(yōu)化策略,有效降低了計(jì)算代價(jià)及運(yùn)行時(shí)間,而同時(shí)并未明顯降低算法的預(yù)測(cè)性能、尋優(yōu)能力和推薦效果.UserCF和ItemCF算法的時(shí)間消耗總體上高于其他算法,主要是因?yàn)榛趨f(xié)同過(guò)濾的推薦方法需計(jì)算所有用戶或項(xiàng)目間的相似性,會(huì)消耗大量計(jì)算時(shí)間,[JP3]且隨著數(shù)據(jù)集中用戶或項(xiàng)目數(shù)量的增加,協(xié)同過(guò)濾算法的運(yùn)行時(shí)間將急劇增加.BPR算法在個(gè)性化推薦過(guò)程中需要增加額外信息,如:遵循一定的采樣策略獲得用戶不喜歡的項(xiàng)目,因而其訓(xùn)練數(shù)據(jù)集增多,運(yùn)行時(shí)間也將加長(zhǎng).SVD和RBM算法將花費(fèi)大量時(shí)間計(jì)算用戶和項(xiàng)目的隱表示,其時(shí)間消耗也相對(duì)較大.因此,盡管所提算法在一些評(píng)估指標(biāo)中未取得最優(yōu)值,但總體上具備較好的預(yù)測(cè)準(zhǔn)確性和搜索效率,且當(dāng)可行域搜索空間十分巨大時(shí),所提算法時(shí)間花費(fèi)的優(yōu)勢(shì)將會(huì)更加顯著.
綜上所述,PSPESA算法利用用戶交互行為數(shù)據(jù),構(gòu)建RBM用戶偏好感知模型,抽取用戶偏好特征,并聯(lián)合用戶偏好代理模型,預(yù)測(cè)待推薦項(xiàng)目的評(píng)分,花費(fèi)了較少時(shí)間進(jìn)行有效的個(gè)性化項(xiàng)目推薦.
在Apps數(shù)據(jù)集中,以測(cè)試用戶“ASXYFYCPIP232”為例,進(jìn)一步展示BPR、SVD和PSPESA算法分別進(jìn)行個(gè)性化搜索和推薦過(guò)程,實(shí)驗(yàn)結(jié)果如圖3.
從圖3可以看出,用戶交互行為驅(qū)動(dòng)的PSPESA算法的預(yù)測(cè)性能和個(gè)性化推薦效果總體上優(yōu)于BPR和SVD算法.另外,當(dāng)訓(xùn)練數(shù)據(jù)量逐漸增加時(shí),各類個(gè)性化推薦算法的預(yù)測(cè)精度與推薦性能都有一定程度的提升,說(shuō)明充分挖掘用戶歷史交互行為數(shù)據(jù)能夠有效提高個(gè)性化搜索和推薦算法的綜合性能.
3.3 RBM偏好代理IEDA算法的綜合性能
為了展示交互式個(gè)性化進(jìn)化搜索算法的性能,將PSPESA算法與聯(lián)合交互式進(jìn)化計(jì)算的PSIPESA算法進(jìn)行對(duì)比實(shí)驗(yàn).在數(shù)據(jù)集中,隨機(jī)選擇10位用戶進(jìn)行交互式個(gè)性化搜索過(guò)程,將用戶交互行為數(shù)據(jù)的前50%作為訓(xùn)練數(shù)據(jù)集,剩余50%作為測(cè)試數(shù)據(jù)集.另外,對(duì)于PSIPESA算法,訓(xùn)練數(shù)據(jù)集的前20%作為初始?xì)v史交互數(shù)據(jù),后30%分割為10份作為每次進(jìn)化迭代的新增用戶交互行為數(shù)據(jù).實(shí)驗(yàn)中,PSPESA和PSIPESA算法分別獨(dú)立運(yùn)行10次,計(jì)算平均性能評(píng)價(jià)指標(biāo).圖4為Apps數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果.
從圖4看出,PSIPESA算法總體上優(yōu)于PSPESA算法.雖然PSIPESA算法的RMSE值略有不足,但是其HR@10和HR@20分別提高了10.99%和3.24%,MAP@10和MAP@20分別提高了11.34%和4.99%.實(shí)驗(yàn)結(jié)果說(shuō)明聯(lián)合交互式
EDA的PSIPESA取得了推薦準(zhǔn)確率和用戶滿意度的提升,這是合理且有效的.此外,在個(gè)性化搜索實(shí)驗(yàn)過(guò)程中,實(shí)際上PSPESA比PSIPESA算法使用了更多的訓(xùn)練數(shù)據(jù),從而其評(píng)分預(yù)測(cè)準(zhǔn)確率較高也是可以理解的.
為了進(jìn)一步驗(yàn)證PSIPESA算法處理個(gè)性化搜索和推薦任務(wù)的綜合性能,將所提算法與其他IECs算法進(jìn)行對(duì)比實(shí)驗(yàn),如:傳統(tǒng)IEDA、RBM輔助的交互式遺傳算法(RBM-assisted interactive genetic algorithm,RBMIGA)、RBFIEDA[4]和EGEDA[20]算法.RBMIGA采用中間交叉(交叉概率為0.8)和單點(diǎn)變異(變異概率為0.3).各算法分別獨(dú)立運(yùn)行10次,計(jì)算平均評(píng)價(jià)指標(biāo).利用Bonferroni校正進(jìn)行Kruskal-Wallis檢驗(yàn),分析各組實(shí)驗(yàn)結(jié)果之間的分布差異,方法同上小節(jié).實(shí)驗(yàn)結(jié)果如表4.由于在IEDA和EGEDA算法中未構(gòu)造代理模型預(yù)測(cè)項(xiàng)目評(píng)分,所以這兩種算法的實(shí)驗(yàn)結(jié)果中沒(méi)有平均RMSE值.
通過(guò)觀察實(shí)驗(yàn)結(jié)果,得出以下結(jié)論:
(1) PSIPESA算法獲得了較好的預(yù)測(cè)準(zhǔn)確性和推薦效果,相比與其他對(duì)比算法,在各評(píng)價(jià)指標(biāo)上具有顯著提升.例如:在Apps數(shù)據(jù)集中,所提算法取得最優(yōu)平均RMSE值1.650,優(yōu)于次優(yōu)算法0.78%;平均HR@10、HR@20和MAP@20分別取得了0.052 5、0.815和0.758,高于次優(yōu)算法0.38%、7.10%和1.88%.在部分?jǐn)?shù)據(jù)集中,雖然所提算法的一些評(píng)價(jià)指標(biāo)未取得最優(yōu)值,但綜合比較其仍舊獲得了最優(yōu)綜合性能.
(2) 大部分情況下,PSIPESA算法的平均HR和MAP值優(yōu)于其他對(duì)比算法,說(shuō)明在交互式評(píng)價(jià)環(huán)境中所提算法能夠幫助用戶盡快搜尋到其滿意解,進(jìn)行良好的個(gè)性化項(xiàng)目推薦列表排序,提高了搜索效率、推薦效果和用戶滿意度.
綜上所述,所提算法為個(gè)性化搜索和推薦任務(wù)建立了一整套體系,分析用戶交互行為數(shù)據(jù),構(gòu)建用戶偏好感知模型,挖掘深層次的潛在用戶偏好特征及其動(dòng)態(tài)演化規(guī)律;建立基于用戶偏好的EDA采樣概率模型和評(píng)價(jià)代理模型,預(yù)測(cè)項(xiàng)目評(píng)分,進(jìn)行個(gè)性化項(xiàng)目推薦;根據(jù)用戶體驗(yàn)、反饋評(píng)價(jià)等客觀評(píng)估指標(biāo),利用模型管理機(jī)制,引導(dǎo)交互式個(gè)性化進(jìn)化搜索的前進(jìn)方向,具備良好的有效性、穩(wěn)定性及可擴(kuò)展性.
4 結(jié)論
文中以面向含UGCs的個(gè)性化搜索和推薦任務(wù)為背景,聯(lián)合推薦技術(shù)中的用戶興趣建模和基于代理模型的IECs算法,以用戶體驗(yàn)為中心,研究用戶行為驅(qū)動(dòng)偏好代理模型輔助的交互式個(gè)性化進(jìn)化搜索算法,將其應(yīng)用于個(gè)性化搜索這類復(fù)雜動(dòng)態(tài)定性指標(biāo)優(yōu)化問(wèn)題.后續(xù)將進(jìn)一步深入挖掘UGCs信息,構(gòu)建更精確的用戶偏好感知模型和基于用戶偏好的進(jìn)化優(yōu)化策略,提高個(gè)性化進(jìn)化搜索算法的探索能力、尋優(yōu)效率和推薦效果.
參考文獻(xiàn)(References)
[1] 吳信東, 盛紹靜, 蔣婷婷, 等. 從知識(shí)圖譜到數(shù)據(jù)中臺(tái):華譜系統(tǒng) [J].自動(dòng)化學(xué)報(bào), 2020, 46(10): 2045-2059.
[2] 吳信東,李嬌,周鵬,等.碎片化家譜數(shù)據(jù)的融合技術(shù)[J].軟件學(xué)報(bào), 2021, 32(9): 2816-2836.
[3] 于皓,張杰,吳明輝,等.領(lǐng)域知識(shí)圖譜快速構(gòu)建和應(yīng)用框架[J].智能系統(tǒng)學(xué)報(bào), 2021, 16(5): 871-884.
[4] CHEN Y, SUN X Y, GONG D W, et al. Personalized search inspired fast interactive estimation of distribution algorithm and its application [J]. IEEE Transactions on Evolutionary Computation, 2017, 21(4): 588-600.
[5] ZHOU C, BAI J, SONG J, et al.ATRank: An attention-based user behavior modeling framework for recommendation [C]∥ Thirty-Second AAAI Conference on Artificial Intelligence.USA:ACM, 2018.
[6] LIU Q, REINER A H, FRIGESSI A, et al. Diverse personalized recommendations with uncertainty from implicit preference data with the Bayesian Mallows Model [J]. Knowledge-Based Systems, 2019, 186: 104960.
[7] YANG D, SONG Z, XUE L, et al. A knowledge-enhanced recommendation model with attribute-level co-attention[C]∥ Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.USA:ACM," 2020: 1909-1912.
[8] 燕彩蓉,黃顏,徐光偉,等.基于時(shí)間動(dòng)態(tài)性的場(chǎng)感知分解機(jī)模型[J].控制與決策, 2020, 35(1): 169-173.
[9] 王永,冉珣,尹恩民,等.滿足差分隱私保護(hù)的矩陣分解推薦算法[J].電子科技大學(xué)學(xué)報(bào), 2021, 50(3): 405-413.
[10] 夏鴻斌,陸煒,劉淵.基于異構(gòu)鄰域聚合的協(xié)同過(guò)濾推薦算法[J].模式識(shí)別與人工智能, 2021, 34(8): 712-722.
[11] HINTON G E. Training products of experts by minimizing contrastive divergence [J]. Neural Computation, 2002,14(8):1771-1800.
[12] HARPER F M, KONSTAN J A. The movielens datasets: History and context [J]. ACM Transactions on Interactive Intelligent Systems, 2016, 5(4):1-19.
[13] LI J, WANG Y, MCAULEY J. Time interval aware self-attention for sequential recommendation[C]∥Proceedings of the 13th International Conference on Web Search and Data Mining. USA:ACM, 2020: 322-330.
[14] RICCI F, ROKACH L, SHAPIRA B. Introduction to recommender systems handbook [M]. Recommender Systems Handbook. Boston :Springer, 2011: 1-35.
[15] PARRA D, SAHEBI S. Recommender systems: Sources of knowledge and evaluation metrics [M]. Advanced Techniques in Web Intelligence-2. Berlin: Springer, 2013: 149-175.
[16] CREMONESI P, KOREN Y, TURRIN R. Performance of recommender algorithms on top-n recommendation tasks [C]∥ Proceedings of the Fourth ACM Conference on Recommender Systems. USA:ACM, 2010: 39-46.
[17] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback [C]∥ Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Corvallis :AUAI Press, 2009:452-461.
[18] 王曉耘, 李賢, 袁媛. 基于因子分解機(jī)和隱馬爾可夫的推薦算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2019, 29(6): 85-89.
[19] SALAKHUTDINOV R, MNIH A, HINTON G. Restriced Boltzmann machines for collaborative filtering [C]∥ Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA:ACM, 2007: 791-798.
[20] LIANG Y, REN Z, YAO X, et al. Enhancing Gaussian estimation of distribution algorithm by exploiting evolution direction with archive [J]. IEEE Transactions on Cybernetics, 2020, 50(1):140-152.