王曉燕
(集寧師范學(xué)院,內(nèi)蒙古 烏蘭察布 012000)
現(xiàn)階段,個(gè)性化推薦已經(jīng)獲得廣泛認(rèn)可,同時(shí)充分融入民眾生活。音樂(lè)是一種人們喜聞樂(lè)見(jiàn)的藝術(shù)形式,可以給民眾帶來(lái)娛樂(lè),然而在海量音樂(lè)中準(zhǔn)確尋找符合用戶(hù)要求的作品,需要通過(guò)個(gè)性化推薦算法結(jié)合用戶(hù)行為進(jìn)行有效篩選,滿(mǎn)足用戶(hù)基于當(dāng)時(shí)情景的要求,進(jìn)而實(shí)現(xiàn)眾口可調(diào)目標(biāo)[1]。
設(shè)定音樂(lè)項(xiàng)目集合為M={M1,M2,M3,…,Mn},D(字段集合)為項(xiàng)集,子集T為{t1,t2,t3,…,tn},ti?I對(duì)各個(gè)事務(wù)標(biāo)注為T(mén)id,D中項(xiàng)目數(shù)量是k。
T在D中出現(xiàn)次數(shù)在D中的比重為T(mén)支持度,見(jiàn)下式:
支持度代表規(guī)則之中事務(wù)出現(xiàn)頻率,一般會(huì)設(shè)定最小閾值支持度,如果項(xiàng)集支持度比閾值大,那么變成頻繁項(xiàng)集。
設(shè)定M1∩M2=?,那么稱(chēng)D中涵蓋T1、T2,T2是項(xiàng)集置信度,見(jiàn)下式:
D事務(wù)矩陣如下:
進(jìn)行計(jì)算時(shí),掃描D過(guò)程中,若是支持度與置信度均比各自閾值大,則是強(qiáng)關(guān)聯(lián)規(guī)則[2]。
在運(yùn)用Apriori算法開(kāi)展關(guān)聯(lián)規(guī)則計(jì)算工作時(shí),主要涵蓋以下步驟:首先,數(shù)據(jù)庫(kù)的掃描,尋找項(xiàng)集中涵蓋的頻繁項(xiàng)集。其次,按照頻繁項(xiàng)集進(jìn)行最小置信度構(gòu)造。
Apriori算法優(yōu)化核心內(nèi)容是掃描數(shù)據(jù)庫(kù),形成矩陣儲(chǔ)存事務(wù)信息,之后按照權(quán)值對(duì)所有事務(wù)支持度進(jìn)行計(jì)算,同時(shí)根據(jù)支持度計(jì)算結(jié)果對(duì)事物矩陣展開(kāi)排序處理,和閾值之間逐條對(duì)比,若是事務(wù)支持度比閾值小,則進(jìn)行刪除處理,之后分解事務(wù)矩陣,最后開(kāi)展形成頻繁項(xiàng)集操作[3]。
掃描音樂(lè)數(shù)據(jù)庫(kù)形成D(事物矩陣)從,每行記錄一個(gè)事務(wù)與相應(yīng)權(quán)重,之后進(jìn)行排序編碼處理,將低于閾值事項(xiàng)刪除,使行向量[d1,d2,d3,…,dj]變?yōu)?與1,進(jìn)而能夠按照頻繁項(xiàng)集升序?qū)進(jìn)行分解,變?yōu)樽泳仃嚕瑪?shù)量為P個(gè),即H1,H2,H3,…,Hp。
掃描H第p個(gè)列向量,即Dp=(d1p,d2p,d3p,…,dqp),對(duì)dip依次判斷,如果值為1,那么選取H中前p項(xiàng),產(chǎn)生Hp。
借助簡(jiǎn)單例子對(duì)具體過(guò)程中進(jìn)行說(shuō)明,將支持度閾值設(shè)定為2,音樂(lè)事務(wù)如下:T1:M1,M2,M6。T2:M2,M3。T3:M1,M2,M4。T4:M1,M3,M5,M6。T5:M2,M5,M6。T6:M1,M2,M5,M6。T7:M5,M6。
按照相應(yīng)公式,根據(jù)權(quán)值能夠獲得Ti子集支持度,
其中,k代表Ti長(zhǎng)度。
掃描數(shù)據(jù)庫(kù),獲得事務(wù)矩陣:
借助計(jì)算獲得行向量與列向量,分別為{3,2,3,4,3,4,2}、{4,5,2,1,4,5},進(jìn)行降序排列處理,獲得H’:
音樂(lè)標(biāo)簽多樣性、語(yǔ)義性特點(diǎn)良好,良好音樂(lè)的標(biāo)簽可以充分代表音樂(lè)內(nèi)容,將音樂(lè)關(guān)鍵特征充分體現(xiàn)出來(lái),專(zhuān)家標(biāo)注方式已經(jīng)無(wú)法滿(mǎn)足多樣化、海量音樂(lè)內(nèi)容,當(dāng)前,一般選擇用戶(hù)打標(biāo)簽?zāi)J?,然而此種方式也存在一定問(wèn)題,即在用戶(hù)數(shù)量增長(zhǎng)過(guò)程中,同時(shí)標(biāo)準(zhǔn)不夠統(tǒng)一,用戶(hù)能夠選擇任意標(biāo)簽對(duì)同一音樂(lè)表達(dá)理解,所以,導(dǎo)致標(biāo)簽信息數(shù)量持續(xù)增長(zhǎng),而有用信息降低。
針對(duì)此類(lèi)音樂(lè)標(biāo)簽,其可以將受眾對(duì)于音樂(lè)最直接反映體現(xiàn)出來(lái),為推薦算法提供良好的依據(jù),但是也存在信息雜亂、不統(tǒng)一等問(wèn)題。
因?yàn)槭鼙姌?biāo)注音樂(lè)時(shí),存在不規(guī)范、不相關(guān)以及其他問(wèn)題,使用此類(lèi)標(biāo)簽過(guò)程中,需要將噪聲信息刪除,保留有效信息,可以借助多維對(duì)應(yīng)方法將標(biāo)簽噪聲刪除。
對(duì)于用戶(hù)日志,一般借助聽(tīng)歌記錄并不能夠?qū)ζ錁?biāo)注信息進(jìn)行獲取,可以借助MBID接口獲取標(biāo)注信息。開(kāi)展數(shù)據(jù)采集工作時(shí),若是同一標(biāo)簽對(duì)不同音樂(lè)進(jìn)行標(biāo)注,則應(yīng)該自動(dòng)干預(yù),此種現(xiàn)象表明不同音樂(lè)具有一定相似性,可以借助jaccard相似系數(shù)對(duì)各個(gè)音樂(lè)相似度進(jìn)行計(jì)算,見(jiàn)下式:
其中,代表集合中的標(biāo)注標(biāo)簽。
處理音樂(lè)標(biāo)簽時(shí),主要目的就是刪除被標(biāo)注標(biāo)簽的噪聲,對(duì)有效標(biāo)簽進(jìn)行保留。借助多維對(duì)應(yīng)分析法開(kāi)展分類(lèi)數(shù)據(jù)分析工作,對(duì)底層結(jié)構(gòu)數(shù)據(jù)集進(jìn)行檢測(cè)以及表示,標(biāo)簽數(shù)據(jù)能夠以分類(lèi)數(shù)據(jù)角度分析,然而對(duì)各類(lèi)標(biāo)簽若是看作一類(lèi)標(biāo)簽,則會(huì)由于數(shù)據(jù)庫(kù)中信息維度過(guò)高,影響數(shù)據(jù)計(jì)算效果,因此應(yīng)該開(kāi)展數(shù)據(jù)降維處理,標(biāo)簽點(diǎn)按照降維數(shù)進(jìn)行映射處理,因此可以選擇余弦相關(guān)性度對(duì)2個(gè)維度相似性進(jìn)行計(jì)算。
借助A1代表音樂(lè)標(biāo)注第一個(gè)信息,A2代表第二個(gè)信息,最終計(jì)算結(jié)果顯示,相應(yīng)向量夾角即A1相似度與A2相似度,最終能夠刪除弱相關(guān)性的標(biāo)簽。
處理音樂(lè)標(biāo)簽時(shí),借助刪除無(wú)效內(nèi)容,并對(duì)標(biāo)簽信息中高頻率出現(xiàn)標(biāo)簽信息進(jìn)行記錄,進(jìn)而得到有效用戶(hù)標(biāo)注與音樂(lè)標(biāo)簽,此種方式能夠客觀(guān)反饋音樂(lè)信息,也是用戶(hù)興趣點(diǎn)。
受眾興趣度涵蓋以下類(lèi)型:首先,顯性類(lèi)型,受眾主動(dòng)提供給系統(tǒng),體現(xiàn)出受眾主觀(guān)意愿。其次,隱性類(lèi)型,借助分析受眾聽(tīng)歌行為獲取,可以將用戶(hù)聽(tīng)歌行為習(xí)慣體現(xiàn)出來(lái)。因?yàn)轱@性興趣度能夠直接獲取,所以主要分析隱性興趣度。
數(shù)字音樂(lè)屬于被推薦商品,其含有商品共性,另外個(gè)性較強(qiáng),特別對(duì)于推薦系統(tǒng),此種個(gè)性導(dǎo)致無(wú)法根據(jù)普遍推薦算法開(kāi)展音樂(lè)推薦工作。以用戶(hù)行為層面分析,受眾可以通過(guò)多樣化方式操作音樂(lè),比如受眾對(duì)于一首歌曲聽(tīng)的時(shí)間可以體現(xiàn)出受眾對(duì)于該歌曲的喜愛(ài)程度,這與推薦時(shí)借助用戶(hù)購(gòu)買(mǎi)記錄獲取相似商品存在一定差異。對(duì)普通受眾興趣度計(jì)算展開(kāi)合理優(yōu)化,開(kāi)展計(jì)算工作前,進(jìn)行幾點(diǎn)假設(shè):
第一,受眾會(huì)點(diǎn)擊收聽(tīng)感興趣音樂(lè)。
第二,受眾對(duì)于歌曲的操作行為體現(xiàn)出其在音樂(lè)方面的興趣度。例如,受眾聽(tīng)取一首音樂(lè)的時(shí)長(zhǎng)體現(xiàn)出其興趣度,若是其聽(tīng)完該音樂(lè),代表其對(duì)于此首音樂(lè)比較感興趣;若是收藏此首音樂(lè),則體現(xiàn)出受眾非常感興趣。
第三,同類(lèi)受眾在未知音樂(lè)中具有相同音樂(lè)度。
Last.fm支持受眾自定義對(duì)音樂(lè)標(biāo)簽進(jìn)行處理,同時(shí)對(duì)受眾收聽(tīng)信息進(jìn)行記錄。現(xiàn)階段,公布的信息中用戶(hù)記錄達(dá)到36萬(wàn)個(gè),隨機(jī)挑選4128個(gè)信息,其中音樂(lè)為231453首,音樂(lè)標(biāo)簽為13246個(gè)。
評(píng)價(jià)推薦結(jié)果過(guò)程中,以Recall(召回率)與Precision(準(zhǔn)確率)為標(biāo)準(zhǔn),見(jiàn)下式:
其中,T(u)代表原始數(shù)據(jù)集受眾感興趣音樂(lè)幾何,R(u)系統(tǒng)推薦給受眾的集合。
另外,為了對(duì)推薦結(jié)果多樣性進(jìn)行驗(yàn)證,選擇相似度計(jì)算方法進(jìn)行驗(yàn)證,見(jiàn)下式:
其中,1+count(r∈M(ti)代表ti音樂(lè)標(biāo)簽使用數(shù),M(ti)代表ti所標(biāo)注音樂(lè)集,ti代表音樂(lè)標(biāo)簽。
選擇UserCF(協(xié)同過(guò)濾算法)、聚類(lèi)UserCF和本文方法展開(kāi)召喚率、準(zhǔn)確率對(duì)比,結(jié)果如下:聚類(lèi)UserCF:Precision為72%,Recall為29%。UserCF:Precision為64%,Recall為20%。Apriori+:Precision為79%,Recall為26%。
通過(guò)實(shí)驗(yàn)結(jié)果能夠發(fā)現(xiàn),準(zhǔn)確率對(duì)比方面優(yōu)于所對(duì)比方法,比聚類(lèi)UserCF方法召回率略低。
對(duì)于推薦算法,Playcount算法主要是對(duì)受眾潛在興趣度著重挖掘,采用Playcount方法和各項(xiàng)結(jié)果展開(kāi)對(duì)比。
對(duì)于推薦系統(tǒng),音樂(lè)結(jié)合應(yīng)該適量,若是推薦結(jié)果較多則會(huì)導(dǎo)致針對(duì)性不足,進(jìn)而導(dǎo)致受眾在推薦結(jié)果方面喪失耐心,若是結(jié)果較少則會(huì)導(dǎo)致受眾感興趣內(nèi)容遺漏,所以對(duì)于推薦集合音樂(lè)數(shù)量進(jìn)行設(shè)定:25、23、20、18、15、13、10、8、5,結(jié)果準(zhǔn)確率,Playcount為:0.851、0.852、0.857、0.861、0.865、0.876、0.881、0.898、0.910。Apriori+為:0.879、0.882、0.882、0.866、0.873、0.876、0.885、0.910。
結(jié)果召回率分別如下:Playcount為:0.26、0.25、0.24、0.23、0.18、0.16、0.13、0.08、0.03。Apriori+為:0.28、0.27、0.26、0.24、0.20、0.17、0.14、0.09、0.03。
通過(guò)以上實(shí)驗(yàn)結(jié)果能夠發(fā)現(xiàn),對(duì)于準(zhǔn)確率,推薦次數(shù)在18次以?xún)?nèi)時(shí),兩種方式并無(wú)較大差異,然而超出18次時(shí),本文方法推薦效果比Playcount方法效果突出,體現(xiàn)出基于推薦數(shù)量相同條件下,本文方法形成的推薦集合受眾感興趣音樂(lè)占比優(yōu)于Playcount。對(duì)于召回率,本文方法優(yōu)于Playcount,體現(xiàn)出本文方法形成的推薦集受眾感興趣的音樂(lè)數(shù)量比Playcount高。
相似度如下:Playcount為:0.96、0.94、0.92、0.91、0.90、0.88、0.87、0.86、0.85。Apriori+為:0.83、0.83、0.82、0.80、0.80、0.79、0.78、0.76、0.75。
通過(guò)上述數(shù)據(jù)能夠發(fā)現(xiàn),Playcount方法具有較高相似度,極易出現(xiàn)同質(zhì)化問(wèn)題。但是本文方法具有較低相似度,不僅對(duì)受眾相似興趣進(jìn)行充分考慮,同時(shí)體現(xiàn)出推薦多樣性。
綜上所述,根據(jù)受眾興趣度計(jì)算,對(duì)推薦結(jié)果多樣性進(jìn)行考慮,選擇優(yōu)化Apriori算法對(duì)目標(biāo)音樂(lè)和音樂(lè)庫(kù)之間相似度,充分保證準(zhǔn)確率,并且提高推薦結(jié)果多樣性。對(duì)音樂(lè)標(biāo)簽開(kāi)展噪聲處理,留下有效標(biāo)簽。并基于受眾興趣度,設(shè)計(jì)推薦系統(tǒng)流程,有效提高推薦效果。實(shí)驗(yàn)選擇Last.fm進(jìn)行仿真實(shí)驗(yàn),最終結(jié)果可以滿(mǎn)足使用要求。