蘭榮亨, 朱 格, 楊 文, 田 野, 朱 明
1(中國科學技術大學 信息科學技術學院, 合肥 230027)
2(中國科學技術大學 計算機科學與技術學院, 合肥 230027)
在過去的20年間, 視頻多媒體應用占據(jù)了英特網(wǎng)上大多數(shù)網(wǎng)絡流量[1], 視頻應用逐漸融入人們的日常生活. 隨著寬帶網(wǎng)絡的普及, 上網(wǎng)費用的降低, 終端用戶已經(jīng)不再僅僅是內(nèi)容消費者, 同時也成為了內(nèi)容生產(chǎn)者[2]. 網(wǎng)絡視頻直播逐漸興起并壯大, 越來越多的人參與其中, 直播并分享自己的生活. 不同于傳統(tǒng)的文字、圖片、視頻等傳播形式, 直播緊密的將用戶與直播內(nèi)容交互在一起, 用戶本身也成為內(nèi)容生產(chǎn)的一份子, 所以網(wǎng)絡直播得到越來越多用戶的推崇.
針對直播系統(tǒng), 已經(jīng)有大量文獻進行了相關研究.Qiu等人[3]研究發(fā)現(xiàn), 頻道的流行度分布是偏態(tài)的并且可以用Zipf分布來刻畫, 作者也指出流行度的動態(tài)變化可以用Ornstein-Uhlenbeck過程來建模; Li[4]通過研究網(wǎng)絡直播系統(tǒng)的訪問日志, 提出了一系列用于直播持續(xù)時間, 用戶活動, 用戶的到來與離開時間建模的模型. 此外還有一系列研究直播系統(tǒng)生態(tài)、架構設計、用戶行為等的工作[5-10].
國內(nèi)的直播平臺在近幾年大量涌現(xiàn), 在2016年甚至出現(xiàn)千播大戰(zhàn)的局面[11]. 與國外最大的直播平臺,Twitch.tv[12]的訂閱收費機制不同, 國內(nèi)如斗魚、虎牙、熊貓等平臺, 基本都引入了送禮機制, 即觀眾可以通過購買平臺提供的虛擬禮物來打賞自己喜歡的主播,而平臺則以抽成的方式分享觀眾打賞的禮物. 觀眾的打賞, 成為主播和平臺的主要收入來源之一. 所以, 在海量帶寬、技術開發(fā)、運維等各種成本的巨大壓力下,網(wǎng)絡直播平臺理解觀眾的行為, 尤其是在平臺上一擲千金的高消費觀眾, 以采取相應策略來提高用戶的變現(xiàn)能力, 就顯得尤為重要.
本文以斗魚直播平臺為例, 聚焦于在平臺送出高價值禮物的觀眾, 通過聚類分析研究直播平臺上高消費群體的行為, 為挖掘用戶潛在價值提供合理依據(jù).
斗魚直播平臺(Douyu.com)[13]是國內(nèi)主流直播平臺之一, 從最初的游戲直播平臺, 至今已發(fā)展成為集游戲、娛樂、戶外、體育、影視等眾多熱點的綜合性直播平臺. 平臺上每個主播都有自己獨立的直播間, 并可以自主選擇直播內(nèi)容類別. 和國內(nèi)的眾多視頻網(wǎng)站一樣, 斗魚允許觀眾在觀看直播的同時, 在直播間內(nèi)發(fā)送彈幕與主播進行互動, 極大增強了觀眾在直播內(nèi)容產(chǎn)生中的參與感, 這種參與感是在傳統(tǒng)的點播和電視直播中是無法得到的. 除了發(fā)送彈幕, 斗魚也提供了從0.1元到上千元價值不等的各種虛擬禮物, 供觀眾購買用于打賞主播.
在本研究中, 價值大于等于100元的禮物被稱為高價值禮物. 與普通禮物不同, 當觀眾送出高價值禮物時, 斗魚平臺會將該事件通過彈幕的形式, 在平臺所有的直播間內(nèi)廣播, 其他直播間的觀眾看到廣播消息后可以通過點擊廣播進入該直播間. 此外, 當觀眾在某個直播間送出高價值禮物后, 斗魚平臺還會以該觀眾的名義, 在該直播間派送一些同樣可用于贈送給主播的免費虛擬禮物, 所以觀眾在看到高價值禮物的廣播消息后, 往往會點擊廣播進入直播間, 以領取免費的虛擬禮物.
用戶行為分析需要大量的數(shù)據(jù)支持, 如觀眾發(fā)送的彈幕消息, 觀眾產(chǎn)生的送禮消息等. 本研究通過維護一個每隔5分鐘更新一次的開播直播間列表, 結合斗魚直播平臺開放的相關API[14], 對開播房間列表中的每一個房間實時抓取彈幕消息和禮物消息并存入數(shù)據(jù)庫, 完成數(shù)據(jù)的采集.
本研究采集了2016/11/22至2016/12/19連續(xù)四周的數(shù)據(jù). 數(shù)據(jù)包含近750萬位觀眾發(fā)送的2.5億條彈幕數(shù)據(jù)和送出的689萬個禮物數(shù)據(jù), 以及24萬個主播產(chǎn)生的近179萬條開播記錄. 經(jīng)過簡單統(tǒng)計, 在這四周內(nèi)斗魚觀眾總共送出了價值近4700萬元的禮物. 表1展示了所采集數(shù)據(jù)的統(tǒng)計概覽.
表1 數(shù)據(jù)集概覽
本研究旨在分析直播平臺中高消費群體的行為,所以首先需要獲取高消費群體研究樣本.
先給出本研究中高消費群體的定義: 在2016/11/22至2016/12/19四周內(nèi), 送出過高價值禮物, 且送出的總禮物價值超過500元, 則稱之為高消費觀眾, 所有高消費觀眾構成高消費群體.
在不失一般性的前提下, 為了兼顧效能, 本研究根據(jù)高消費群體的定義, 從四周數(shù)據(jù)集中過濾出所有高消費觀眾, 并從中隨機挑選了324名(約占高消費觀眾的10%)觀眾作為研究樣本.
對于研究樣本中的每一個觀眾, 構建如下8個特征:
TotalGiftValue: 觀眾在四周內(nèi)送出的總禮物價值,單位為元.
TotalDanmuNum: 觀眾在四周內(nèi)發(fā)送的總彈幕數(shù)量.
BroadcasterNum: 如果某觀眾在某個直播間發(fā)過彈幕或者送過禮物, 稱該觀眾與該主播產(chǎn)生交互. 此特征指觀眾與之產(chǎn)生交互的所有主播數(shù)量.
HGBroadcasterNum: 觀眾通過高價值禮物交互過的主播數(shù)量.
IfTheSame: 觀眾在某個直播間與主播互動有兩種方式, 發(fā)彈幕和送禮物. 此特征標記觀眾發(fā)送彈幕最多的直播間與打賞禮物最多的直播間是否相同, 若相同則取值1, 否則取值0.
剩下三個特征的構建, 引入了信息論中熵(Entropy).在信息論中, 熵用于度量信息的不確定性, 熵越大, 則信息的不確定性越大, 即信息越發(fā)散. 記離散事件X的概率分布為p1,p2, …,pn, 則該事件X的熵H(X)定義如下:
本研究采用熵的標準化形式:
當n=1 時, 令NH(X)=0, 則易得 0<=NH(X)<=1, 當pi=1/n,i=1, 2,…,n, 時,NH(X)取最大值 1.
GiftEntropy: 觀眾的禮物熵. 若某觀眾x在n個直播間送過禮物, 送出的禮物價值分別為g1,g2, …,gn, 則可計算觀眾x的標準化禮物熵:
觀眾的禮物熵越大, 意味著該觀眾對特定主播的送禮偏好程度越低, 換言之, 該觀眾越傾向于將禮物平均的送給若干主播.
DanmuEntropy: 觀眾的彈幕熵. 計算方式與EntropyOfGift類似, 用來反映觀眾在不同直播間的發(fā)彈幕行為偏好程度.
CategoryEntropy: 此特征反映觀眾對某一類直播間的偏好程度. 斗魚直播平臺中的直播內(nèi)容分為熱門游戲、手機游戲、娛樂天地等若干大類, 每一大類下又分為若干小類. 每一個主播都可以自主選擇自己的直播間類別, 如直播游戲的英雄聯(lián)盟類, 直播唱歌的音樂類等. 若觀眾x與若干類別直播間的主播產(chǎn)生過交互, 每一類分別有c1,c2,…,cn個主播, 則類似可得該觀眾的交互主播類別熵:
表2簡單總結了各個特征的含義. 特征構建完畢后, 研究樣本中的每個觀眾被映射為一個8維的特征向量, 最終得到324×8維的高消費群體特征數(shù)據(jù). 下一章節(jié)將對特征數(shù)據(jù)做聚類分析.
表2 特征含義
本研究采用無監(jiān)督學習方法—聚類, 來分析高消費群體的行為. 聚類的本質(zhì)是識別并區(qū)分數(shù)據(jù)中的一些代表性群體, 這些由相似個體構成的群體被稱為簇(cluster).
聚類涉及相似性度量, 由于觀眾的特征數(shù)據(jù)包含屬性變量(IfTheSame), 所以傳統(tǒng)的歐式距離無法直接用來計算相似性, 而需要尋求其它適用混合數(shù)據(jù)的相似性度量方法. Gower[15]通過對數(shù)值特征和屬性特征分別采用不同的距離度量, 最后對所有特征的距離求加權和的方式, 提供了一種用于混合數(shù)據(jù)的相似性度量方法. 記Xi,Xj為兩個具有N維特征的變量, 則Gower距離可形式化定義如下:
其中, 若特征k為屬性特征:
若特征k為數(shù)值特征:
wijk為賦給各個特征的權值.
可以看到, 當特征為數(shù)值型時,Sijk為曼哈頓距離(Manhattan Distance), 且通過除以尺度因子rk使其規(guī)約化到了0~1之間.
本研究采用Gower距離作為個體間的相似性度量, 采用的 PAM (Partition Around Medoids)[16]作為聚類方法.
除了相似性度量與聚類方法, 聚類的另一核心問題為聚類個數(shù)的選取. 本研究通過自定義目標函數(shù)Object, 結合手肘法 (Elbow method)[17]來確定最佳聚類個數(shù). 記ml為聚類Cl的中心個體, 則目標函數(shù)Object(k)定義如下:
算法1描述了整個建模過程.
算法1. 直播平臺中高消費群體行為分析算法1) 從四周數(shù)據(jù)中過濾出所有高消費群體, 并隨機選擇324名(10%)觀眾作為研究樣本U;
2) 對于U中每個研究樣本, 構建特征, 得到324×8維的高消費群體特征數(shù)據(jù)F;3) 根據(jù)特征數(shù)據(jù)F計算Gower距離, 得到個體間相似性度量矩陣S.4) 根據(jù)相似性度量矩陣S, 使用PAM方法對高消費群體聚類, 采用手肘法確定最佳聚類個數(shù)k.
根據(jù)目標函數(shù)Object(k), 作出Object~k曲線, 如圖1所示, 可見曲線在k=3時出現(xiàn)明顯拐點, 結合手肘法, 可以得到最佳聚類個數(shù)為3.
圖1 目標函數(shù)曲線
為了進一步檢驗聚類效果, 本研究使用Maaten[18]等人提出的t-SNE高維數(shù)據(jù)可視化算法, 來直觀的展示聚類結果. 如圖2所示, 可見高消費觀眾可明顯被聚成3類, 且算法也成功的區(qū)分出了這3類觀眾.
圖2 聚類結果可視化
根據(jù)聚類結果, Cluster1、Cluster2、Cluster3分別包含170名、114名、40名觀眾. 計算每一類觀眾各個特征的統(tǒng)計描述, 如均值 (Mean), 分位數(shù) (Quantile)等, 結果如表3所示. 下面分析這三類觀眾的行為.
從四周內(nèi)送出的總禮物價值來看, Cluster1和Cluster2的消費能力最高, 送出總禮物價值的均值都超過了2萬元, Cluster2中有觀眾甚至在四周內(nèi)送出了超過 100萬元的禮物 (1192 234元). 相比之下,Cluster3的消費能力則低一些, 送出總禮物價值的均值不到1萬元. 四周發(fā)送的總彈幕量特征與送出的總禮物價值特征類似, Cluster1和Cluster2發(fā)送的彈幕量遠多于Cluster3, 表明Cluster1和Cluser2中的觀眾總體上要比Cluster3活躍. 另一方面, 從表中可以看到,Cluster3交互主播數(shù)遠小于Cluster2和Cluster1, 其均值為2, 最大交互主播數(shù)也僅為7個. 而Cluser1和Cluster2的平均交互主播數(shù)都是數(shù)十倍于Cluster3. 其中Cluster2的交互主播數(shù)最多, 除了最大最小值, 各項指標都在Cluster1的兩倍之上. 所以如果從平均意義上看, Cluster3給每個房間送的禮物價值和發(fā)送的平均彈幕量都遠高于Cluster1和Cluster2. 這說明Cluster3具有很強的主播偏好性, 他們通常只在1~2個房間內(nèi)送出大量禮物, 以及發(fā)送大量彈幕. 如果只關注觀眾送過高價值禮物的房間, Cluster3的主播偏好性表現(xiàn)得更加明顯, 他們幾乎都只給一個主播送高價值禮物. 還可以看到, 雖然Cluser1和Cluser2的交互主播數(shù)量較大,但送過高價值禮物的主播數(shù)量并不多, 他們只對約20%的交互主播送高價值禮物.
表3 三類觀眾各個特征的統(tǒng)計描述
進一步觀察禮物熵、彈幕熵和類別熵三個特征,可以得到Cluster1的禮物熵和彈幕熵均小于Cluster2,這表明與Cluster2相比, Cluster1中觀眾對某一小部分主播的偏好性會較強一些. 橫向?qū)Ρ榷Y物熵和彈幕熵兩個特征, 可以看到, 禮物熵要明顯小于彈幕熵, 這說明和發(fā)彈幕這種幾乎不耗費成本的行為相比, 觀眾對金錢的分配則更為慎重, 他們會將金錢打賞給那些真正喜歡的主播. 而對于類別熵, Cluster1與Cluster2相近, 并且數(shù)值都較大, 可見他們對直播間類別并無明顯偏好, 即他們的偏好性是面向主播, 而非類別. 由于Cluster3中觀眾的交互主播幾乎都只有1~2個, 所以Cluster3的禮物熵、彈幕熵及類別熵都很小, 幾乎都為0, 這與前面得出Cluster3中觀眾具有強偏好性的結論是一致的.
最后一個特征一定程度上反映觀眾送禮行為和發(fā)彈幕行為的一致性. 可以看到Cluster1和Cluster3中觀眾的這個特征幾乎都取值為1(只有Cluster3中的一個觀眾取值為0), 即觀眾送禮最多的主播與發(fā)彈幕最多的主播相同. 有趣的是, Cluster2中觀眾的這個特征取值基本為0, 這反映了Cluster2中觀眾兩種行為的不一致性. 對這類觀眾而言, 他們可能在某個直播間很活躍,發(fā)送大量彈幕與主播交互, 但他們不一定想用金錢支持與推廣這個主播.
總結分析結果, 得到Cluster1、Cluster2、Cluster3的特征如下:
Cluster1: 消費能力較高, 活躍較多房間, 對其中一些主播有一定偏好性, 金錢基本用于打賞這些偏好的主播, 送禮行為與發(fā)彈幕行為表現(xiàn)一致性;
Cluster2: 消費能力最高, 活躍在大量房間, 對很多的主播感興趣, 金錢用于打賞較多主播, 送禮行為與發(fā)彈幕行為表現(xiàn)不一致;
Cluster3: 消費能力較低, 只在1~2個房間內(nèi)活躍,金錢基本只用于打賞1個主播, 對某特定主播具有強偏好性, 送禮行為與發(fā)彈幕行為表現(xiàn)一致性.
聚類結果的一個很重要的用途, 在于輔助用戶分析, 挖掘用戶的潛在價值, 從而提升平臺的用戶變現(xiàn)能力. 如對于Cluster1和Cluster3中觀眾, 利用他們對某一些甚至一個主播的偏好性, 平臺可以和這些觀眾偏好的主播合作, 讓主播為其他產(chǎn)品做營銷推廣、廣告植入, 以實現(xiàn)精準挖掘用戶消費能力. Cluser2中的觀眾具有最高消費能力且主播偏好性較低, 利用這點, 平臺可以通過他們的歷史觀看信息, 挖掘這些觀眾的興趣, 向他們推薦類似的主播, 從而進一步刺激用戶消費能力.
本文以斗魚平臺為例, 研究了直播平臺高消費群體的行為. 利用從斗魚平臺抓取的直播數(shù)據(jù), 構建觀眾特征, 使用Gower距離度量混合特征的相似性, 并采用PAM聚類方法對高消費群體做聚類分析. 結果表明, 高消費群體可以明顯被聚成三類. 對聚類結果中的三類觀眾做詳細分析, 得到了三類觀眾的特征刻畫, 并簡單介紹了如何利用聚類結果來提升平臺用戶的變現(xiàn)能力. 在聚類特征的選擇上, 本研究人工選擇了文中提到的8個特征用于模型訓練. 接下來的工作是嘗試挖掘更多的用戶特征, 并引入機器學習中的特征選擇方法自動選擇最佳特征組合, 進一步改善聚類效果.