管 鵬,張 鍵,顧 杰
(1.南京郵電大學(xué) 貝爾英才學(xué)院,江蘇 南京 210046;2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
大數(shù)據(jù)背景下個(gè)性化音樂(lè)推薦方案探究
管 鵬1,2,張 鍵1,2,顧 杰2
(1.南京郵電大學(xué) 貝爾英才學(xué)院,江蘇 南京 210046;2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
隨著移動(dòng)互聯(lián)網(wǎng)和云計(jì)算等技術(shù)高速發(fā)展,網(wǎng)絡(luò)音樂(lè)庫(kù)數(shù)量和種類呈現(xiàn)爆炸式增長(zhǎng),這使得面向音樂(lè)數(shù)據(jù)源的大數(shù)據(jù)分析需求應(yīng)運(yùn)而生。文章針對(duì)熱門的個(gè)性化音樂(lè)推薦服務(wù),初步探討了基于大數(shù)據(jù)挖掘的概念性方法,并且研習(xí)了一種個(gè)性化音樂(lè)推薦方案。
大數(shù)據(jù);數(shù)據(jù)分析;個(gè)性化;音樂(lè)推薦
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的飛速發(fā)展,各行業(yè)所產(chǎn)生的數(shù)據(jù)量已呈指數(shù)級(jí)方式增長(zhǎng),并且各種新型數(shù)據(jù)源種類也呈現(xiàn)指數(shù)性增長(zhǎng),所謂的“大數(shù)據(jù)時(shí)代”已悄然降臨[1]。每天,人們?cè)谝苿?dòng)端以及PC端使用音樂(lè)軟件上留下了海量的新型數(shù)據(jù)源,這個(gè)新型數(shù)據(jù)源既含有非結(jié)構(gòu)化的各種格式音樂(lè)文件,也包含存儲(chǔ)在后臺(tái)網(wǎng)絡(luò)日記中的點(diǎn)擊率、時(shí)長(zhǎng)等數(shù)據(jù)。對(duì)于這種數(shù)據(jù)源如何進(jìn)行有效數(shù)據(jù)分析和利用成為一個(gè)音樂(lè)業(yè)務(wù)提供商或者相關(guān)的虛擬運(yùn)營(yíng)商能否提高企業(yè)績(jī)效和長(zhǎng)期生存的關(guān)鍵。這是因?yàn)椋嚎蛻艄芾韺?duì)于一個(gè)音樂(lè)業(yè)務(wù)提供商很重要,大量客戶意味著企業(yè)績(jī)效。對(duì)于采用網(wǎng)絡(luò)方式的虛擬運(yùn)營(yíng)商,他們也需要通過(guò)各種新型音樂(lè)服務(wù)來(lái)吸引客戶,從而開(kāi)展自身的主流服務(wù)。如電信虛擬運(yùn)營(yíng)商經(jīng)常發(fā)布免費(fèi)的流行音樂(lè)來(lái)實(shí)現(xiàn)輔助的廣告,最終提高電信服務(wù)體驗(yàn)。
本文主要探討大數(shù)據(jù)分析技術(shù)在個(gè)性化音樂(lè)推薦服務(wù)中的應(yīng)用?;舅枷胧牵和ㄟ^(guò)對(duì)用戶數(shù)據(jù)的挖掘,提取出用戶的行為特征以及興趣偏好,可以有針對(duì)性的向用戶提供個(gè)性化的音樂(lè)服務(wù),進(jìn)而提升用戶體驗(yàn)和擴(kuò)大用戶群體數(shù)量。
1.1大數(shù)據(jù)概念和治理概述
大數(shù)據(jù)是指數(shù)量特別多、數(shù)據(jù)體量巨大、數(shù)據(jù)源種類繁多、數(shù)據(jù)增長(zhǎng)極快、價(jià)值稀疏的復(fù)雜數(shù)據(jù)[2]。與其他資產(chǎn)不同,大數(shù)據(jù)作為一種信息資產(chǎn),其價(jià)值需要運(yùn)用全新的大數(shù)據(jù)治理思維和解決平臺(tái)來(lái)實(shí)現(xiàn)。
1.2一種大數(shù)據(jù)環(huán)境下個(gè)性化音樂(lè)推薦
大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)是傳統(tǒng)推薦系統(tǒng)的延伸,但應(yīng)著重考慮大數(shù)據(jù)環(huán)境給音樂(lè)推薦系統(tǒng)帶來(lái)的影響。其特點(diǎn)如下[3]:①需要處理的數(shù)據(jù)量更大,且數(shù)據(jù)的融合會(huì)引入高維稀疏性數(shù)據(jù),數(shù)據(jù)存在更高的冗余和噪聲,因此這要求系統(tǒng)具備更高的數(shù)據(jù)處理能力;②大數(shù)據(jù)環(huán)境下,音樂(lè)系統(tǒng)產(chǎn)生的數(shù)據(jù)以隱式反饋數(shù)據(jù)為主(比如用戶對(duì)歌曲的點(diǎn)擊率,收藏與拉黑情況等);③數(shù)據(jù)更新速度更快,這要求推薦系統(tǒng)具備
更快的計(jì)算效率;④推薦的時(shí)效性,推薦系統(tǒng)必須能對(duì)數(shù)據(jù)進(jìn)行快速實(shí)時(shí)處理,以滿足用戶的需求。
個(gè)性化音樂(lè)推薦系統(tǒng)是基于分布式數(shù)據(jù)平臺(tái)的推薦系統(tǒng),它通過(guò)對(duì)音樂(lè)庫(kù)以及用戶產(chǎn)生的海量用戶行為日志進(jìn)行分析,通過(guò)相應(yīng)的推薦算法挖掘出用戶的行為偏好,從而向用戶提供個(gè)性化的音樂(lè)推送服務(wù)。
2.1大數(shù)據(jù)環(huán)境下個(gè)性化音樂(lè)推薦系統(tǒng)結(jié)構(gòu)框架
推薦系統(tǒng)在進(jìn)行相關(guān)設(shè)置時(shí)主要包含兩個(gè)階段[4]:數(shù)據(jù)預(yù)處理和推薦生成階段。數(shù)據(jù)預(yù)處理階段,推薦系統(tǒng)需要不斷地將用戶產(chǎn)生的結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)與提取。推薦生成階段,推薦系統(tǒng)根據(jù)用戶行為信息,利用相應(yīng)的推薦算法,從數(shù)據(jù)集中產(chǎn)生用戶推薦項(xiàng)目??紤]到數(shù)據(jù)數(shù)量的龐大,傳統(tǒng)的存儲(chǔ)與處理技術(shù)已不能適應(yīng)大數(shù)據(jù)的要求,通常都是借助Hadoop分布式系統(tǒng)來(lái)進(jìn)行存儲(chǔ)處理。圖1展示了基于Hadoop平臺(tái)的個(gè)性化音樂(lè)推薦系統(tǒng)框架。借助Hadoop系統(tǒng)的個(gè)性化音樂(lè)推薦系統(tǒng)框架圖1所示。
圖1 基于Hadoop平臺(tái)的個(gè)性化音樂(lè)推薦系統(tǒng)
2.2個(gè)性化推薦原理與算法
現(xiàn)在主流的音樂(lè)推薦方式是系統(tǒng)智能推薦。推薦系統(tǒng)通過(guò)機(jī)器學(xué)習(xí)的方式,根據(jù)同類人的偏好特征給相似的人群推薦他們都喜歡的歌曲,也有根據(jù)歌曲的內(nèi)容推薦相似風(fēng)格的歌曲。
綜上,個(gè)性化音樂(lè)推薦的算法主要包括3種,即基于內(nèi)容的推薦算法,協(xié)同推薦算法以及混合推薦算法。
2.2.1基于內(nèi)容的推薦算法
基于內(nèi)容的推薦算法,即最大相似度算法。其基本思想如下:首先根據(jù)用戶的行為信息,比如用戶收藏的曲目,用戶經(jīng)常點(diǎn)擊的曲目等,分析這些曲目的特征(旋律,風(fēng)格,歌手等)信息,以此構(gòu)成該用戶的特征向量,然后遍歷音樂(lè)數(shù)據(jù)庫(kù),分析音樂(lè)庫(kù)中文件的特征向量與用戶的相關(guān)程度,選擇其中相關(guān)程度較大的曲目最為推薦曲目推薦給用戶。
2.2.2協(xié)同推薦算法
協(xié)同推薦算法,也叫作相似人群的推薦。它通過(guò)比較當(dāng)前用戶與其他用戶對(duì)感興趣音樂(lè)的相似度,計(jì)算出用戶間的相似度,構(gòu)成用戶相似度集,從中選出與用戶相似度最大的若干用戶,將他們最喜歡的音樂(lè)推薦給用戶。具體流程如下:
(1)將用戶對(duì)于歌曲的喜愛(ài)程度做量化。比如:?jiǎn)吻h(huán)=5,分享=4,收藏=3,主動(dòng)播放=2,聽(tīng)完整首歌曲=1,跳過(guò)歌曲=-1,拉黑=-5[5]。則通過(guò)數(shù)據(jù)分析我們可以分析出不同用戶對(duì)于不同歌曲喜愛(ài)程度的向量。
(2)生成相似人群集。即使用向量空間相似度的計(jì)算方法,通過(guò)計(jì)算向量之間的夾角余弦值來(lái)衡量用戶之間的相似度。根據(jù)預(yù)先確定的相似度閾值,選擇相似度大于閾值的作為相似用戶,或者根據(jù)預(yù)先確定的相似用戶數(shù)N,選擇相關(guān)度最大的N個(gè)用戶作為相似用戶[6]。
(3)生成推薦集,即將某用戶的鄰居用戶的最喜愛(ài)的歌曲進(jìn)行排序,找到鄰居用戶最喜愛(ài)而該用戶沒(méi)聽(tīng)過(guò)的曲目,將其推薦給該用戶。具體的實(shí)現(xiàn)過(guò)程如圖2所示。
2.2.3混合推薦算法并根據(jù)各自的混合權(quán)重對(duì)音樂(lè)進(jìn)行綜合評(píng)分,選擇評(píng)分最高的項(xiàng)作為推薦項(xiàng)。
圖2 協(xié)同推薦算法下個(gè)性化音樂(lè)推薦系統(tǒng)
隨著大數(shù)據(jù)時(shí)代的真正來(lái)臨,分布式大數(shù)據(jù)挖掘平臺(tái)Hadoop等開(kāi)源項(xiàng)目正在不斷發(fā)展和應(yīng)用。在大數(shù)據(jù)治理思維下,業(yè)務(wù)提供商借助于這些平臺(tái)來(lái)搭建個(gè)性化音樂(lè)推薦系統(tǒng),這將有利于業(yè)務(wù)提供商向用戶提供個(gè)性化音樂(lè)服務(wù)。對(duì)于高度稀疏性音樂(lè)數(shù)據(jù),實(shí)際推薦的準(zhǔn)確性往往難以保證。對(duì)此,今后音樂(lè)服務(wù)需要研究相關(guān)的大數(shù)據(jù)分析算法來(lái)提高數(shù)據(jù)分析的性能。
混合推薦算法,即融合內(nèi)容推薦和協(xié)同推薦兩種方案,
[1]盛楊燕,周濤譯.大數(shù)據(jù)時(shí)代[M].浙江:浙江人民出版社,2013.
[2]徐宗本.大數(shù)據(jù)大智慧[N].人民日?qǐng)?bào),2016-03-15.
[3]孟祥武,紀(jì)威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J],數(shù)據(jù)庫(kù)與數(shù)據(jù)處理,2015(2):2-3.
[4]張玉忠,方艾,金鐸,等.大數(shù)據(jù)在音樂(lè)推薦質(zhì)量提升中的實(shí)踐及應(yīng)用[J].電信科學(xué),2014(10):44-47.
[5]盧麗靜,朱杰,楊志芳.基于大數(shù)據(jù)的個(gè)性化音樂(lè)推薦系統(tǒng)[J].廣西通信技術(shù),2015(1):
Analysis of the Personalized Music Recommendation Method Based on Big Data
Guan Peng, Zhang Jian, Gu Jie
(1.Nanjing University of Posts and Telecommunications Baer School of Excellence, Nanjing 210046, China; 2.School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)
With the quick advancement of mobile internet and cloud computation, the number and variety of music databases expands exponentially, which gives rises to the data analysis that is focused more on these topics. This essay focuses on the recommendation of popular music, primarily explores the theorized method which is based on Data Mining, and analyzes a unique and personalized music recommendation method.
big data; data analysis; personalized; music recommendation
項(xiàng)目名稱:南京郵電大學(xué)2015年STITP項(xiàng)目;項(xiàng)目編號(hào):XYB2015525。項(xiàng)目名稱:南京郵電大學(xué)2014MOOC課程建設(shè)計(jì)劃;項(xiàng)目編號(hào):2014MOOCA4專項(xiàng)。
管鵬(1995-),男,江蘇淮安。