楊子力
(重慶市第八中學校,重慶,400030)
當今,人們生活水平的不斷提高,追求身體健康成為所有人的時尚,人們體育鍛煉的意識不斷增強,體育運動日漸成為人們?nèi)粘I罘绞降囊粋€重要內(nèi)容,越來越多的體育項目被人們所熟知和熱愛。隨著人們對體育項目興趣的增強、了解的深入,不少人會成為某一球隊的狂熱粉絲,因此他們會想了解更多自己喜歡球隊的賽事新聞、賽事預告或場外花絮。眾多的體育資訊App為粉絲們提供了很多便利,既能為他們推送各種新聞與賽事提醒,又能售賣各支球隊的周邊商品。
雖然這些APP能收集大量的體育新聞和體育賽事,能夠較好地整合信息,但是卻仍存在一定的弊端。(1)這些APP上新聞的推送針對性不夠強。例如,M用戶是一個NBA金州勇士隊的球迷,他為了了解勇士隊的勁敵休斯頓火箭隊,觀看了一場火箭隊的比賽,而就是因為在線上觀看了火箭隊的一場比賽,該APP從此以后就開始無休止地推送有關火箭隊的所有消息,而該用戶想看到關于勇士隊的信息早已被這些“垃圾信息”所掩蓋;(2)這些APP上對粉絲劃分不準確。比如,N用戶只是一個普通的籃球粉,該用戶廣泛觀看了各支球隊熱門球隊的籃球比賽,而系統(tǒng)根據(jù)僅有的觀看記錄就推薦該用戶加入NBA金州勇士隊的球迷聊天群。
隨著大數(shù)據(jù)時代的到來,大量信息可以被采集處理,這為全面準確地篩選并分類球迷提供了新的途徑?;谝陨闲畔?,本文將設計一款針對某一球隊,對其球迷進行準確分類后精準推送消息的體育賽事資訊推薦系統(tǒng)。該系統(tǒng)基于改進的RFM模型和K-Means算法共同作用,能夠?qū)σ延袛?shù)據(jù)進行深度挖掘,準確分析用戶行為,進而可以客觀、有效地反映各個用戶的狀況,消除現(xiàn)行的App對球迷劃分不具體、推送消息不精準的問題;同時,還能讓更多球迷更全面地了解自己喜歡的球隊,更為精確地推薦用戶加入相應的球迷粉絲群或者粉絲后援團。
RFM模型是由美國著名的數(shù)據(jù)庫營銷研究所Arthur Hughes提出的,已經(jīng)被實踐所檢驗的,對企業(yè)客戶價值衡量有較好效果的客戶數(shù)據(jù)三要素。一般的RFM模型,R指Recency,最近一次消費至現(xiàn)在的時間間隔、F指Frequency,消費頻率、M指Monetary,消費總金額,三項指標來描述該客戶的價值狀況。
本文所改進的RFM模型中,R指最近一次觀看某一球隊比賽到現(xiàn)在的時間,該時間間隔越短,R值越小。根據(jù)相關研究者的研究發(fā)現(xiàn),該值越小的用戶越有可能在最近一段時間內(nèi)觀看該隊新的賽事視頻;F指觀看該球隊比賽的總時長,某用戶的F越大說明觀看時間越長,進而可以得出用戶對該球隊的關注程度和對該球隊的喜愛程度均高。M指該球隊的周邊商品購買情況,M = w1*N + w2*T,N代表該被統(tǒng)計用戶購買周邊商品所花費的總金額,T代表該被統(tǒng)計用戶購買周邊商品的數(shù)量。為了消除經(jīng)濟因素對本系統(tǒng)結果的影響,本文將M定義為:M =0.4N+0.6T。若某被統(tǒng)計用戶M值越大,則該用戶對該球隊的投入越多。
聚類,是指按照對象的某些屬性,以某種相似度的測量方法,把相似的事物聚為一簇,其結果是獲得的簇中,不同簇的對象之間相似度小,同一簇中的對象相似度大。K-Means算法也被稱為K-均值,是當前最廣泛運用于基礎劃分的聚類算法。K-Means算法以輸入的分類個數(shù)k為參數(shù),把n個目標對象劃分為k個簇,簇內(nèi)具有較高的相似度。K-Means算法的基本思想為:算法首先隨機的選取k個對象,并把這k個對象初始化為k個簇的平均值或中心,算法計算并根據(jù)其他每個對象到這k個簇中心的距離,將它賦給最近的簇,重新計算每個簇的平均值,重復進行,直到每個對象都被一一劃分。
本文將以NBA休斯頓火箭隊的球迷為范例,通過改進的RFM模型和K-Means聚類算法,對采集到的用戶的數(shù)據(jù)進行科學、嚴謹?shù)赝诰?,并分析出這些用戶的行為特征,由此對這些用戶進行精確劃分,并針對劃分結果進行消息的精準推送。
收集十名用戶近半年關于休斯頓火箭隊的體育賽事觀看記錄和關于球隊的周邊商品消費記錄。詳細包括最近一次觀看至現(xiàn)在的時間,半年內(nèi)的總觀看時長,購買球隊周邊產(chǎn)品所花費的金額和件數(shù)。
由于每名粉絲所擁有的的三個屬性數(shù)據(jù)有不同的單位且數(shù)據(jù)極差較大。因此,在數(shù)據(jù)預處理階段需要對數(shù)據(jù)進行歸一化處理,以平衡每個屬性對最終結果的影響,歸一化處理后的數(shù)如表1所示。
表1 歸一化后用戶數(shù)據(jù)
通過歸一化處理后,全部數(shù)據(jù)都呈現(xiàn)在坐標軸0-1的區(qū)間內(nèi),統(tǒng)一化后的數(shù)據(jù)作為K-Means算法的數(shù)據(jù)輸入。首先。對K-Means聚類算法中的K值進行選?。悍謩e取K=3,4,5,對K的不同取值進行重復計算,嘗試3次之后,得出K值輸入3時,簇間距最大,簇內(nèi)距最小。然后,依據(jù)將K值輸入為3時得出的三組簇,分出3種不同的粉絲的分類,并在坐標軸上劃分出三個簇。
圖1 聚類結果圖
通過計算可以得到表一中用戶A、B、C、D為“狂熱粉絲”,用戶F、G為“資深粉絲”,用戶E、H、J、I為“普通粉絲”?!翱駸岱劢z”分類中的用戶對休斯頓火箭隊的喜愛程度最大,因此這其中的球迷會經(jīng)常在APP上購買有關休斯頓火箭隊的周邊商品,并經(jīng)常關注休斯頓火箭隊賽場內(nèi)外的消息;“資深粉絲”分類中的用戶對休斯頓火箭隊的喜愛程度一般,在APP上購買有關休斯頓火箭隊的周邊商品的次數(shù)不多,也只關注休斯頓火箭隊出戰(zhàn)的重點比賽和關于休斯頓火箭隊賽場內(nèi)外的熱門消息;“普通粉絲”分類中的用戶對休斯頓火箭隊的喜愛程度最弱,這些用戶幾乎不在APP上購買有關休斯頓火箭隊的周邊商品,并且只關注休斯頓火箭隊的重點比賽和關于休斯頓火箭隊賽場內(nèi)的熱門消息。
通過對各個用戶的行為特征的分析然后精準分類后,該系統(tǒng)可以針對不同簇中的粉絲進行不同程度的新聞及賽事推薦,例如給“狂熱粉絲”分類中的各個用戶推送大量關于休斯頓火箭隊的賽事新聞及精彩賽事直播;對于“資深粉絲”分類中的各個用戶來說,系統(tǒng)會向該分類中的用戶推送關于休斯頓火箭隊的熱點新聞、休斯頓火箭隊的一些熱門比賽以及少量關于休斯頓火箭隊的場外花絮;而對于那些在“普通粉絲”分類中的用戶來說,系統(tǒng)只會向該分類中的用戶推送關于休斯頓火箭隊的熱點新聞、休斯頓火箭隊的一些熱門比賽。因此通過這個推薦系統(tǒng)的APP可以將各種消息優(yōu)化推薦并節(jié)省用戶對自己想知道的消息的查詢時間。
本文通過系統(tǒng)對用戶最近一次觀看該隊比賽至現(xiàn)在的時間間隔、觀看賽事總時長、購買周邊產(chǎn)品的次數(shù)和消費總金額的分析,建立了RFM模型。借助K-Means聚類算法,將用戶精準分為三類,不僅可以為該系統(tǒng)精準劃分粉絲,同時還提供了一種新聞的推薦方式。為用戶節(jié)省了翻閱大量“垃圾信息”后才能看到自己心儀消息的時間,增強了系統(tǒng)與用戶的交互。
此系統(tǒng)除了可以應用在體育消息選擇推送上面還可以將其運用于其他領域。例如:(1)明星為了回饋粉絲的支持,可以根據(jù)本系統(tǒng),對目標粉絲的數(shù)據(jù)進行采集后,將目標粉絲進行分類,并根據(jù)算法結果,選擇出可以受到回饋的熱情粉絲;(2)若餐廳想知道菜品的銷售情況,并了解大眾反應,就可以通過該系統(tǒng),統(tǒng)計每個菜品的點餐率、顧客的好評率,再通過本系統(tǒng)的算法,推算出每個菜品的受歡迎程度,以此來實現(xiàn)菜品的推廣與食物的節(jié)約。
另外,從目前的發(fā)展來看,數(shù)據(jù)挖掘技術未來發(fā)展市場十分廣闊,隨著App的不斷完善,從海量的數(shù)據(jù)中,獲取有價值的信息和知識,分析并研究用戶喜好和消費行為特征,并推出適合用戶需求的個性化、定制化資訊,以贏得市場地位也是傳媒企業(yè)未來快速發(fā)展的關鍵,同時還可以對用戶進行分層、分類管理,發(fā)現(xiàn)潛在用戶。