亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征值嵌入的音樂播放列表推薦模型

        2019-11-18 05:23:04麗,于
        關(guān)鍵詞:列表特征值概率

        何 麗,于 洋

        (北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144)

        0 引 言

        音樂的電子存儲模式已經(jīng)徹底改變了音樂的消費(fèi)方式,龐大的音樂數(shù)據(jù)在給消費(fèi)者提供便利的同時(shí),也帶來了前所未有的挑戰(zhàn)。因此,從大量數(shù)據(jù)中推薦有效信息給用戶已經(jīng)成為當(dāng)今大數(shù)據(jù)研究領(lǐng)域的一大重點(diǎn)。推薦系統(tǒng)已成為各種應(yīng)用程序的基本組成部分,它的產(chǎn)生使用戶省卻了查找、搜索等繁雜的步驟,是一種能夠方便用戶自動獲取感興趣的信息,產(chǎn)品和服務(wù)的有效方法。

        目前大多數(shù)推薦系統(tǒng)都會生成用戶最可能喜歡的頂級項(xiàng)目的排名列表,這些系統(tǒng)主要關(guān)注孤立的物品屬性或用戶評分,并傾向于假設(shè)用戶偏好具有穩(wěn)定性[1]。然而在現(xiàn)實(shí)環(huán)境中,用戶的喜好總是隨著時(shí)間、心情等外在因素的變化而變化,評分也并不能真實(shí)地反映喜好程度,所以單純依賴用戶的個人行為并不能產(chǎn)生理想的結(jié)果。考慮到音樂推薦的特性,比如用戶聽一首音樂的時(shí)間很短,所以用戶在同一個會話場景內(nèi)會聽很多首相似類型的音樂,則提供一個連續(xù)的符合當(dāng)前會話場景的播放列表來提高用戶的聽歌體驗(yàn)變得尤為重要。

        現(xiàn)在音樂平臺上的音樂都按不同形式的播放列表顯示[2],蘋果和潘多拉這樣的公司已經(jīng)開發(fā)出成功的商業(yè)播放列表算法,但對于這些算法的工作原理及其在嚴(yán)格評估中的表現(xiàn)情況知之甚少。盡管有很大的商業(yè)需求,但是在播放列表生成的自動化方法(例如文獻(xiàn)[3-7])方面的學(xué)術(shù)研究卻很少。Mitul Sheth等利用多項(xiàng)式回歸、支持矢量機(jī)等技術(shù),提出根據(jù)用戶位置信息推測用戶情感,從而將符合情景的音樂組成播放列表推薦給用戶[8],但是獲取用戶情感的算法精確度并不是很高,所以最終的精確度并不理想。李瑞敏等提出協(xié)同標(biāo)注中的標(biāo)簽包含豐富的個性化描述信息以及項(xiàng)目內(nèi)容信息,因此可以提供更好的推薦[9-10]。Anna Gatzioura等使用結(jié)合圖模型的混合案例推理方法對播放列表推薦進(jìn)行研究,確定不同種類音樂之間的關(guān)系構(gòu)建相似集。該框架克服了多媒體建議中存在的語義鴻溝,且在冷啟動情況下效果更好[1]。Oren Sar Shalom等[11]對播放列表推薦進(jìn)行研究時(shí),考慮了點(diǎn)擊概率和項(xiàng)目間相互作用,同時(shí)通過使用反向傾向評分(IPS)來改進(jìn)傳統(tǒng)的協(xié)同過濾算法。B. McFee等采用馬爾可夫鏈對播放列表建模[6],并提出了一個受自然語言處理技術(shù)啟發(fā)的評估程序。

        由于音樂推薦列表的特殊性,如用戶在某一時(shí)間段或某一情景會話聽同一種類別的音樂的可能性極大,因此,在歐幾里得空間中嵌入音樂特征值是非常有必要的。Chen Shuo等[12]介紹了一種潛在馬爾可夫嵌入模型(LME),該模型借鑒了多詞匯連續(xù)語音識別中常用的N-gram模型的思想,第N個詞的出現(xiàn)概率只與前面N-1個詞相關(guān),整句出現(xiàn)的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個詞同時(shí)出現(xiàn)的次數(shù)得到。雖然這種方法很好地實(shí)現(xiàn)了列表的連續(xù)性,但是忽視了很多有用的信息,比如音樂的特征值。

        圖1 音樂列表推薦示意

        針對于LME模型中存在的不足,文中提出一種基于特征值嵌入的音樂播放列表推薦模型,在保留LME模型連貫性的同時(shí)考慮了推薦列表中音樂類型的特征值。將音樂特征值映射到多維歐幾里德空間中,每個音樂就是空間中的一個點(diǎn),兩點(diǎn)之間的距離反映了音樂之間的關(guān)系強(qiáng)弱,距離越近說明音樂間的轉(zhuǎn)移概率越大。音樂列表生成過程示意見圖1,其中S代表音樂,U代表用戶。

        1 基于特征值嵌入的音樂播放列表推薦模型

        基于特征值嵌入的音樂播放列表推薦模型的原理是:使用用戶歷史播放列表數(shù)據(jù)進(jìn)行訓(xùn)練,然后將音樂的特征屬性值在歐幾里得空間中進(jìn)行向量表示,再通過音樂間距離長短表示音樂間轉(zhuǎn)移概率的大小,最終生成連續(xù)的音樂播放列表。

        1.1 基于特征值的音樂嵌入方法

        LME模型認(rèn)為播放列表是具有序列性質(zhì)的,因此提出假設(shè):播放列表具有一階馬爾可夫特性,即下一首音樂的選擇僅與當(dāng)前音樂有關(guān),而與其他任何音樂無關(guān),通過將語料庫中n個詞同時(shí)出現(xiàn)的次數(shù)相乘,從而得到一句話出現(xiàn)的概率。LME模型就是基于這種思想,將音樂映射到歐氏空間,音樂的向量在空間中的相對距離與音樂間的轉(zhuǎn)移概率有關(guān)。音樂特征向量之間的距離越近,轉(zhuǎn)移概率越大,在播放列表中作為下一首歌出現(xiàn)的概率越高。為了對音樂播放列表進(jìn)行自然描述,根據(jù)N-gram模型采用一階馬爾可夫模型對播放列表進(jìn)行建模,一首音樂相當(dāng)于一個單詞,一個收聽列表比作一句話。那么在歷史播放列表已經(jīng)存在的情況下,每首音樂的轉(zhuǎn)移概率的乘積必然是極大值,所以根據(jù)歷史用戶聽歌列表訓(xùn)練模型,就可以得到音樂在歐幾里得空間中的坐標(biāo)向量。具體計(jì)算方式如下:

        文中目標(biāo)是根據(jù)嵌入模型,在特定情境下為用戶生成連貫的播放列表。現(xiàn)給定音樂集合S={s1,s2,…,sn},音樂列表集合P={p1,p2,…,pn},正如文獻(xiàn)[13]中提到的,某一個音樂列表pi生成的概率可以轉(zhuǎn)化成列表中相鄰兩首音樂的轉(zhuǎn)移概率的乘積,概率越大說明兩首音樂的相似性越高,轉(zhuǎn)移概率又是通過兩首音樂間的空間映射距離得出。設(shè)音樂i-1到音樂i的轉(zhuǎn)移概率為Pr(s(i)|s(i-1)),那么播放列表的轉(zhuǎn)移概率為:

        (1)

        在歐幾里得空間,每一首音樂都被表示成空間中的點(diǎn),每兩首音樂之間的轉(zhuǎn)移率都與音樂在空間中的映射點(diǎn)之間的距離有關(guān),也就是說距離越近的兩首歌的關(guān)聯(lián)程度越大,轉(zhuǎn)移率也就越大,示意圖見圖2。

        圖2 音樂距離示意

        (2)

        (3)

        為了將音樂嵌入到空間中,文中使用現(xiàn)有的歷史播放列表樣本D=(P1,P2,…,Pm)作為訓(xùn)練數(shù)據(jù)。由于歷史的播放列表已經(jīng)存在,所以根據(jù)該歷史播放列表所求出的轉(zhuǎn)移概率是極大值,由此可計(jì)算出音樂在空間中的位置,表達(dá)如下:

        利用最大似然估計(jì)法不斷迭代至最優(yōu),求出所有音樂的坐標(biāo)向量矩陣。為了實(shí)現(xiàn)推薦的音樂列表符合用戶當(dāng)前聽歌情景的目標(biāo),文中向音樂的特征矩陣添加k個音樂特征值的維度,將音樂特征值嵌入到坐標(biāo)矩陣中,從而影響音樂嵌入到空間中的位置,達(dá)到相似類型的音樂在空間中的距離較近的結(jié)果。如音樂A有三個標(biāo)簽“安靜”,“王菲”和“1980s”,音樂B有三個標(biāo)簽“安靜”,“梁靜茹”和“1980s”,音樂C有三個標(biāo)簽“搖滾”,“周杰倫”和“流行”,那么音樂A與音樂B的向量坐標(biāo)相似,所以在歐幾里得空間中距離更近,那么當(dāng)用戶U選擇了聽取音樂A后,該模型經(jīng)過距離計(jì)算,就會給用戶U推薦音樂B作為下一首音樂播放,而不會選擇距離較遠(yuǎn)的音樂C。

        1.2 推薦列表生成

        根據(jù)用戶歷史播放列表,通過基于特征值的音樂嵌入方法將音樂映射到歐氏空間中。文中最終的目標(biāo)是通過音樂在歐幾里得空間中的距離計(jì)算音樂間的轉(zhuǎn)移概率,最終為用戶生成一個符合用戶當(dāng)前會話情景的順序音樂播放列表。首先,給定一首音樂scurrent,即用戶第一次聽音樂時(shí)選取的音樂,播放列表的開始位置確定后,根據(jù)基于特征值的音樂嵌入方法獲得帶有音樂特征屬性的音樂嵌入空間的向量坐標(biāo),然后根據(jù)歐氏空間兩點(diǎn)的距離公式,找到離scurrent最近的音樂映射點(diǎn),最終得到音樂snext。反復(fù)以上步驟,直至生成的播放列表長度為設(shè)定閾值為止。

        為了更好地為用戶個性化地推薦順序列表,除了將音樂的特征屬性值嵌入到空間中,還考慮了用戶對音樂的長期偏好參數(shù),所以在公式中嵌入一個用戶的長期偏好系數(shù)θ(u,s),如下:

        (5)

        其中,θ(u,s)表示某一用戶u對某一首音樂s的偏好值,這個偏好系數(shù)可以使所有歐幾里得空間中的備選音樂s在空間模型中與scurrent的距離變得更近。θ(u,s)表達(dá)式如下:

        (6)

        其中用戶對音樂的喜好值是根據(jù)用戶對音樂的收藏情況來判定的。重復(fù)上述過程,直至得到一個連續(xù)排列的音樂播放列表,以給定數(shù)量的音樂向用戶推薦或遍歷嵌入模型中產(chǎn)生的所有音樂停止。

        2 實(shí) 驗(yàn)

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)集是來自Last.fm音樂網(wǎng)站爬取到的真實(shí)數(shù)據(jù),爬蟲采用現(xiàn)在最流行的基于Java語言的WebMagic爬蟲框架,爬蟲主要應(yīng)用了兩個包,即Webmagic-core和Webmagic-extension。這兩部分包含了爬蟲基本模塊、基本抽取器、注解格式定義爬蟲、JSON、分布式等支持。

        從采集的數(shù)據(jù)中選取1 899個活躍用戶,篩選出擁有從2018年1月到2018年6月期間的歷史播放列表,并將播放列表中出現(xiàn)的所有音樂的標(biāo)簽及用戶的偏好值記錄下來。

        為了減少數(shù)據(jù)噪音的影響,文中清除播放列表中音樂少于5首的列表及在數(shù)據(jù)集中出現(xiàn)次數(shù)少于20次的音樂,僅保留出現(xiàn)次數(shù)前20的標(biāo)簽。實(shí)驗(yàn)將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),確保測試數(shù)據(jù)集的所有音樂出現(xiàn)在訓(xùn)練數(shù)據(jù)集中,以確保所有音樂在空間中有位置標(biāo)記。統(tǒng)計(jì)數(shù)據(jù)如表1所示。

        表1 統(tǒng)計(jì)數(shù)據(jù)

        其中每個用戶擁有多條播放列表,每個播放列表包含多首音樂,每首音樂包含多個音樂特征屬性值。

        2.2 實(shí)驗(yàn)結(jié)果分析

        由于文中在空間維度中加入了音樂特征值,通過音樂特征值影響了音樂在空間中的位置,所以呈現(xiàn)出的結(jié)果應(yīng)該是同類型或相似類型的音樂距離較近,即所得出的音樂推薦列表中,音樂之間的特征相似度應(yīng)該高于LME模型,所以文中對比了基于特征值嵌入的音樂播放列表推薦模型和LME模型的音樂推薦列表的相似度。設(shè)定音樂特征值空間維度分別取d=0,d=2,d=5,d=10,d=20,音樂列表長度n=30,其中d=0即代表音樂空間向量矩陣中未嵌入音樂特征值,相似度系數(shù)為:

        (7)

        其中,n為播放列表長度;Ei為列表中第i首歌曲的特征值集合;J為該播放列表中兩兩音樂之間的Jaccard系數(shù)之和,即代表播放列表的相似度。

        實(shí)驗(yàn)對比結(jié)果如圖3所示。

        圖3 實(shí)驗(yàn)結(jié)果

        由實(shí)驗(yàn)結(jié)果可知,沒有嵌入音樂特征維度的播放列表的Jaccard系數(shù)很低,即所推薦的列表中,相似的音樂出現(xiàn)幾率極小。隨著嵌入音樂特征維度的增加,推薦列表中音樂的相似度越高,說明基于特征值嵌入的音樂播放列表推薦模型確實(shí)提高了推薦列表中相似音樂的比例,實(shí)現(xiàn)了當(dāng)用戶選擇一首音樂的時(shí)候,向用戶推薦與該音樂類型相似的音樂列表。

        3 結(jié)束語

        由于傳統(tǒng)的LME模型并未考慮音樂特征屬性對用戶選擇音樂的影響,文中提出了一種改進(jìn)的LME嵌入模型。在該模型中,根據(jù)用戶歷史播放列表將音樂的特征屬性值嵌入到多維歐幾里得空間,通過計(jì)算音樂之間的距離反映它們之間關(guān)系的強(qiáng)弱,即轉(zhuǎn)移概率的大小,從而根據(jù)單一的最優(yōu)解最終得到連續(xù)的最優(yōu)音樂推薦列表。相比較傳統(tǒng)的馬爾可夫嵌入模型,該模型有效利用了收聽列表中音樂類型之間的聯(lián)系,能夠?yàn)橛脩籼峁┻B續(xù)的符合用戶當(dāng)前會話需求的音樂推薦列表。

        雖然該推薦模型在一定程度上使音樂推薦列表具有更高的相似度,但是在訓(xùn)練過程中也發(fā)現(xiàn)了一些問題。如模型一次迭代的時(shí)間比LME模型長并且時(shí)間復(fù)雜度也有所提高。除此之外,實(shí)驗(yàn)中發(fā)現(xiàn)隨著特征維度的增加,對推薦列表音樂相似度的影響相對越來越小,當(dāng)?shù)竭_(dá)一定值時(shí)甚至出現(xiàn)下滑的趨勢。這可能與特征值分類策略有關(guān),所以將繼續(xù)對音樂特征值類聚方面進(jìn)行研究,將龐大的特征庫進(jìn)行類聚,對具有相似類型,但不同名稱的音樂特征屬性進(jìn)行聚類劃分,再將劃分后的結(jié)果進(jìn)行特征維度的擴(kuò)充。

        該模型具有良好的延展性,除了擴(kuò)展音樂特征屬性,還可以嵌入復(fù)雜的用戶偏好、社會信息(朋友關(guān)系、用戶畫像)、地理位置信息等。在音樂推薦的過程中,還可以考慮建立一些參數(shù)去改變某一部分對音樂推薦影響因子的權(quán)重,將不同的影響因子進(jìn)行高效混合,已更加符合用戶需求。Dietmar Jannach等[14]還證明了不同的長期偏好會幫助提高不同維度的播放列表的質(zhì)量。呂成戍[15]提出了一種基于用戶項(xiàng)目屬性偏好的魯棒協(xié)同過濾推薦算法,在用戶共同評分項(xiàng)匱乏的情況下也可以根據(jù)相同的項(xiàng)目屬性偏好度量用戶相似性,緩解評分?jǐn)?shù)據(jù)稀疏性。所以還可以繼續(xù)就偏好值與用戶項(xiàng)目屬性偏好這些參數(shù)進(jìn)行突破。

        猜你喜歡
        列表特征值概率
        巧用列表來推理
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        一類帶強(qiáng)制位勢的p-Laplace特征值問題
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        學(xué)習(xí)運(yùn)用列表法
        單圈圖關(guān)聯(lián)矩陣的特征值
        擴(kuò)列吧
        基于商奇異值分解的一類二次特征值反問題
        久久精品国产亚洲av成人擦边| 2020年国产精品| 久久这里只精品国产免费10| 国产中文字幕乱码在线| 国产精品久久熟女吞精| 国产一区高清在线观看| 国产人妻久久精品二区三区老狼| 亚洲欲色欲香天天综合网| 资源在线观看视频一区二区| 日本高清视频在线观看一区二区 | 亚洲国产精品av麻豆一区| 亚洲国产a∨无码中文777| 国语精品一区二区三区| 白浆出来无码视频在线| 国产精品三级国产精品高| 亚洲av午夜一区二区三| 日韩吃奶摸下aa片免费观看| 狠狠躁夜夜躁人人爽天天| 亚洲在线一区二区三区| 日本视频二区在线观看| 色八区人妻在线视频免费| 乱人伦视频69| 在线看高清中文字幕一区| 一本大道熟女人妻中文字幕在线 | 日韩精品中文字幕第二页| 亚洲精品动漫免费二区| 精品无码一区二区三区爱欲九九| 黄片在线观看大全免费视频| 亚洲av高清天堂网站在线观看| 窝窝午夜看片| av一区无码不卡毛片| 亚洲国产一区中文字幕| 蜜臀久久99精品久久久久久| 国产午夜精品久久久久免费视| 欧美亚洲尤物久久综合精品| 亚洲一区二区三区视频免费看| 蜜桃日本免费看mv免费版 | 最新天堂一区二区三区| 国产精品无码无在线观看| 亚洲红怡院| 亚洲一区二区三区精品久久|