陳淑婷+胡美慧+郭江濤
摘要:隨著全球信息總量的爆炸式增長(zhǎng),信息超載問(wèn)題無(wú)法避免且日趨嚴(yán)重化。個(gè)性化推薦系統(tǒng)是當(dāng)前解決信息過(guò)載問(wèn)題的有效技術(shù)。下文從概念層次樹(shù)入手,對(duì)基于概念層次樹(shù)的個(gè)性化推薦算法的整體流程進(jìn)行了詳細(xì)分析和介紹,旨在為相關(guān)人員提供參考。
關(guān)鍵詞:概念層次樹(shù);個(gè)性化推薦;算法
引言
在目前的電子商務(wù)中,產(chǎn)品信息呈指數(shù)級(jí)增長(zhǎng),個(gè)性化推薦技術(shù)應(yīng)運(yùn)而生,它通過(guò)分析消費(fèi)者的歷史交易記錄,獲取消費(fèi)者的興趣偏好,并推薦產(chǎn)品或服務(wù),節(jié)省了消費(fèi)者尋找合適商品的時(shí)間。在當(dāng)前的個(gè)性化推薦系統(tǒng)中,協(xié)同過(guò)濾及其改進(jìn)算法被大多數(shù)電子商務(wù)網(wǎng)站所采用。基于概念層次樹(shù)的個(gè)性化推薦算法就是傳統(tǒng)協(xié)同過(guò)濾經(jīng)過(guò)改進(jìn)后的算法之一,大大提升了個(gè)性化推薦的準(zhǔn)確度,對(duì)個(gè)性化推薦技術(shù)的發(fā)展具有非常重要的意義。
1基于概念層次樹(shù)的個(gè)性推薦概述
概念層次樹(shù)是將數(shù)據(jù)庫(kù)中記錄的屬性字段根據(jù)一定的抽象程度進(jìn)行歸類合并而形成的層次結(jié)構(gòu)。面向?qū)傩詺w納方法利用概念層次技術(shù)進(jìn)行概念提升,得到高度概括的表,進(jìn)而將它轉(zhuǎn)換成用戶的特征需求,為用戶個(gè)性化服務(wù)提供依據(jù)。概念層次結(jié)構(gòu)是表示抽象知識(shí)的重要手段,把原始數(shù)據(jù)泛化到較高層次,實(shí)現(xiàn)在不同概念層次上對(duì)數(shù)據(jù)的抽象。面向?qū)傩詺w納方法中用來(lái)進(jìn)行概念泛化的技術(shù)稱為概念層次技術(shù),用概念層次樹(shù)來(lái)表示用于泛化的背景知識(shí),實(shí)現(xiàn)具體與抽象概念之間的轉(zhuǎn)化。
2概念層次樹(shù)的構(gòu)建
根據(jù)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)(用戶年齡、受教育程度、收入、喜好等數(shù)據(jù)),為用戶的每個(gè)屬性構(gòu)建概念層次樹(shù),使具體的屬性值概化為抽象的知識(shí)并歸類合并,實(shí)現(xiàn)在不同概念層次上對(duì)數(shù)據(jù)的抽象。概念層次樹(shù)是通過(guò)樹(shù)結(jié)構(gòu)的形式,將具體的屬性值分組,然后按照背景知識(shí)逐級(jí)提升概念。每個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)基本概念,它可能是一個(gè)屬性的簡(jiǎn)單組,也可能是若干屬性形成的復(fù)合組。概念層次樹(shù)的節(jié)點(diǎn)可以是同一屬性的不同抽象度的匯聚點(diǎn),也可以是由一個(gè)概念包含的多個(gè)子概念,網(wǎng)站中用戶的性別、年齡、職業(yè)、教育程度、收入、喜歡的書(shū)等基本信息都不同程度上對(duì)用戶的興趣愛(ài)好產(chǎn)生一定的影響(具體概念層次樹(shù)結(jié)構(gòu)圖如圖1-圖3所示)。所以需要把這些基本信息的概念層次樹(shù)構(gòu)建出來(lái),其中用戶興趣愛(ài)好這一基本信息是兩層的概念層次樹(shù),與其職業(yè)相同。
3挖掘用戶喜歡的數(shù)據(jù)
3.1劃分項(xiàng)目種類子集
從概念層次樹(shù)中的結(jié)點(diǎn)屬性分析,根的各直接子樹(shù)包含的項(xiàng)目種類的屬性相對(duì)獨(dú)立,相互間關(guān)聯(lián)最小,根(用戶的興趣愛(ài)好,如喜好的電影、書(shū)籍等)的子樹(shù)——即用戶興趣愛(ài)好的分類(如電影分為ComeXy類電影、Aiction類電影、Sci-Fi類電影),它們各自包含的子類相互間差異都較大。因此對(duì)項(xiàng)目種類集合作如下劃分,即X={Root,Xn,X2...Xn}。Root為T的根結(jié)點(diǎn),X(h=1,2,3...n)為Root的子樹(shù)Th中各結(jié)點(diǎn)(項(xiàng)目種類)組成的集合,n為Root的子樹(shù)棵數(shù)。
3.2尋找喜好種類的鄰居
本文需要判定用戶喜好的項(xiàng)目種類子集。對(duì)于用戶關(guān)注較少或從未關(guān)注過(guò)的項(xiàng)目種類,本算法將其視為用戶“不感興趣的種類”。根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)值,若(訪問(wèn)種類子集中的項(xiàng)目數(shù)÷訪問(wèn)項(xiàng)目總數(shù))<10%則視該項(xiàng)目種類子集為用戶不喜好的項(xiàng)目種類,算法將不再在其上尋找鄰居進(jìn)行推薦,以節(jié)省系統(tǒng)的資源。判定用戶喜好的項(xiàng)目種類后,在各喜好的項(xiàng)目種類子集Xn上,依次計(jì)算用戶Ai和用戶Ax的在每個(gè)集合中的PeArson相關(guān)度,其中,F(xiàn)i和Fk為用戶Ai和Ax對(duì)項(xiàng)目種類的評(píng)分,V1、V2是用戶Ai、B對(duì)X中所有項(xiàng)目種類的平均評(píng)分,根據(jù)計(jì)算出的PeAirson相關(guān)度,選擇與當(dāng)前用戶B最相似的K個(gè)用戶作為用戶Ai在項(xiàng)目種類子集合X上的鄰居集。重復(fù)以上運(yùn)算,找出當(dāng)前用戶Ai在所有喜好的項(xiàng)目種類子集上的鄰居集。
4產(chǎn)生推薦
4.1評(píng)估候選項(xiàng)目
在喜好的項(xiàng)目種類子集Xn上,選取屬于該集合中的項(xiàng)目種類、被當(dāng)前用戶Ai的鄰居所喜好、且未被B訪問(wèn)過(guò)的項(xiàng)目,構(gòu)成當(dāng)前用戶Ai的候選推薦項(xiàng)目集,即算每個(gè)候選項(xiàng)目受當(dāng)前用戶Ai關(guān)注的程度,用權(quán)重來(lái)表示。計(jì)算權(quán)重時(shí),重點(diǎn)考慮的因素如下:(1)喜好bx的鄰居B與當(dāng)前用戶Ai的相似程度。B的偏好與Ai的越相似,B的推薦可信度就越高;(2)B對(duì)bx的喜好程度。B對(duì)bx越喜好,bx所獲得的推薦權(quán)重就越高。在計(jì)算B對(duì)bx的喜好程度時(shí)可以進(jìn)行如下處理:假定一個(gè)虛擬用戶C,R={bx},則B對(duì)bx的喜好程度=simn(B,C)。當(dāng)B訪問(wèn)過(guò)較多與bx同類的項(xiàng)目時(shí),B對(duì)bx表現(xiàn)出較高的喜好程度。根據(jù)以上因素,定義候選項(xiàng)目權(quán)重計(jì)算公式,其中,Ai(bx)為用戶Ai的喜好bx的鄰居組成的集合;bx為其項(xiàng)目種類屬于Xn的項(xiàng)目。
4.2產(chǎn)生最終推薦
評(píng)估所有項(xiàng)目種類屬于用戶喜好項(xiàng)目種類子集的侯選項(xiàng)目后,按權(quán)重對(duì)bx進(jìn)行降序排列,得到Xn上的候選項(xiàng)目的推薦列表。根據(jù)當(dāng)前用戶Ai對(duì)不同項(xiàng)目種類的偏好,計(jì)算各喜好項(xiàng)目種類的侯選推薦項(xiàng)在最終推薦列表中所占比例,即numx=N*(Rix/Ri)其中,凡為喜好種類子集Xn上Ai訪問(wèn)項(xiàng)目組成的集合;N即為產(chǎn)生的top-N推薦的推薦項(xiàng)目數(shù)。從各Ph中抽取numih個(gè)項(xiàng)目,將這些項(xiàng)目按用戶喜好程度的具體數(shù)值降序排列,形成對(duì)用戶Ai的最終top-N推薦Py={b1,b2...bx}。
結(jié)束語(yǔ)
基于概念層次樹(shù)的個(gè)性化推薦算法,相較于傳統(tǒng)協(xié)同過(guò)濾算法在準(zhǔn)確性方面有了顯著提升,在推薦的多樣性上也有了明顯的改善。為了能夠使個(gè)性化推薦更加精準(zhǔn),滿足客戶的需求,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,相關(guān)人員可以將該算法部署到實(shí)際的推薦系統(tǒng)中,通過(guò)在線測(cè)試的方法獲取用戶對(duì)推薦數(shù)據(jù)的準(zhǔn)確性和多樣性的滿意程度,進(jìn)一步對(duì)當(dāng)前的個(gè)性化推薦算法進(jìn)行改進(jìn)。
參考文獻(xiàn):
[1]何佶星陳汶濱牟斌皓.流行度劃分結(jié)合平均偏好權(quán)重的協(xié)同過(guò)濾個(gè)性化推薦算法[J/OL].計(jì)算機(jī)科學(xué),2018,(S1):50.
[2]陳潔敏,湯庸,李建國(guó),蔡奕彬.個(gè)性化推薦算法研究[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,46(05):8-15.
[3]關(guān)遠(yuǎn).推薦網(wǎng)絡(luò)分析及個(gè)性化推薦算法研究[X].電子科技大學(xué),2014.endprint