蘭榮亨,胡雨晗,朱 格,田 野,朱 明
1(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,合肥 230027)
2(中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)
作為互聯(lián)網(wǎng)時代的殺手級應(yīng)用,視頻流媒體服務(wù)在過去的20 多年正不斷驅(qū)動著互聯(lián)網(wǎng)技術(shù)的發(fā)展與進(jìn)步[1].近年來,基于眾包的視頻直播逐漸興起,吸引了大量用戶,相應(yīng)的催生了全民直播這個巨大的娛樂產(chǎn)業(yè).國外知名的早期直播平臺有Twitch.tv,Youtube Live等,國內(nèi)也有如斗魚、虎牙、戰(zhàn)旗等大量直播平臺,在2016年甚至出現(xiàn)了千播大戰(zhàn)的局面[2].
直播過程中精彩片段(Highlight)的自動提取對于標(biāo)簽生成、視頻分類和內(nèi)容推薦等方面而言至關(guān)重要,然而現(xiàn)有的精彩片段檢測大多圍繞音頻、視頻數(shù)據(jù)本身展開[3-7].Yao T[3]等人根據(jù)視頻Highlight 片段和非Highlight 片段的視頻幀差異,使用深度學(xué)習(xí)方法學(xué)習(xí)了兩種片段特征;Wang J[5]等人利用原始視頻和音頻生成關(guān)鍵字序列,并使用HMM 模型捕捉了視頻Highlight.也有一些工作結(jié)合了用戶行為做Highlight 檢測,如Zhao Y[8]等人根據(jù)用戶觀看視頻時的跳轉(zhuǎn)行為,利用CUSUM和MB-GT 算法檢測了視頻點(diǎn)播中的精彩片段.針對眾包直播系統(tǒng),也有一些文獻(xiàn)進(jìn)行了相關(guān)研究.Li[9]通過研究網(wǎng)絡(luò)直播系統(tǒng)的訪問日志,提出了一系列用于直播持續(xù)時間,用戶活動,用戶的到來與離開時間建模的模型.此外還有一系列研究直播系統(tǒng)生態(tài)、架構(gòu)設(shè)計(jì)、用戶行為等的工作[10-12].
國內(nèi)的直播平臺,基本都引入了送禮機(jī)制,即觀眾可以通過購買平臺提供的虛擬禮物來打賞自己喜歡的主播,而平臺則以抽成的方式分享觀眾打賞的禮物.觀眾的打賞,成為了主播和平臺的主要收入來源之一.所以,在海量帶寬、技術(shù)開發(fā)、商業(yè)競爭等各種成本的巨大壓力下,提升服務(wù)競爭力和用戶變現(xiàn)能力成為了平臺發(fā)展的重中之重.
本項(xiàng)研究對當(dāng)前眾包直播生態(tài)做了大量工作,尤其對于虛擬禮物贈送機(jī)制,觀眾行為,頻道流行度等問題進(jìn)行了一系列的建模分析[13,14].作為研究后續(xù),本文從識別精彩片段的角度,提出了基于直播間彈幕數(shù)量時間序列和禮物價(jià)值時間序列的精彩片段自動化檢測方法,并討論了如何將其應(yīng)用于優(yōu)化內(nèi)容推薦和優(yōu)質(zhì)主播發(fā)掘,在提升用戶體驗(yàn)的同時提升用戶變現(xiàn)能力.
作為國內(nèi)最大的直播平臺之一,斗魚(Douyu.com)[15]已經(jīng)從最初的游戲直播,發(fā)展成為涵蓋游戲、娛樂、戶外、體育等各個方面的泛娛樂直播平臺.利用平臺提供的服務(wù),用戶可以隨時隨地在網(wǎng)絡(luò)上直播并分享自己的生活.
和大多數(shù)國內(nèi)平臺類似,斗魚提供了豐富的交互機(jī)制,來拉近主播與觀眾的距離.觀眾在觀看直播的同時,可以實(shí)時在直播間內(nèi)發(fā)送評論,評論會在屏幕上劃過,稱之為彈幕;對于喜歡的主播,觀眾也可以花錢購買平臺提供的虛擬禮物來打賞主播.平臺的虛擬禮物從價(jià)值0.1 元到上千元不等,滿足了觀眾的各種打賞需求.當(dāng)觀眾在直播間送出了價(jià)值500 元及500 元以上的禮物時,平臺會對這條送禮消息在平臺所有直播間進(jìn)行廣播并派送虛擬道具(魚丸),觀眾看到廣播消息可以點(diǎn)擊進(jìn)入該直播間搶奪魚丸.根據(jù)平臺機(jī)制,觀眾可以通過發(fā)送彈幕消息來提高搶到魚丸的概率.作為虛擬禮物的一種,魚丸也可以用來打賞主播.所以,在觀眾送出高價(jià)值禮物后,往往會導(dǎo)致該直播間的彈幕數(shù)量激增.
利用斗魚官方提供的API[16],本研究采集了自2016/11/22 至2016/12/19 連續(xù)四周的數(shù)據(jù).數(shù)據(jù)包含近750 萬個觀眾發(fā)送的2.5 億條彈幕數(shù)據(jù)和送出的689 萬個禮物數(shù)據(jù),以及24 萬個主播產(chǎn)生的近179 萬條開播記錄.經(jīng)過簡單統(tǒng)計(jì),在這四周內(nèi)斗魚觀眾總共送出了價(jià)值近4700 萬元的禮物.
在短時間內(nèi),如果直播間出現(xiàn)禮物價(jià)值和彈幕數(shù)量的激增,則稱之為一個高潮.一個主播有了精彩的表演或者游戲操作,直播間的觀眾往往會發(fā)送大量的彈幕夸贊主播,也可能會送出高價(jià)值禮物來打賞主播,這樣產(chǎn)生的高潮稱為內(nèi)容引起的高潮,簡稱內(nèi)容高潮,也即本研究需要識別的精彩片段.另一方面,如上文所述,高價(jià)值禮物的送出會導(dǎo)致彈幕數(shù)量的激增,一些特殊的人群,如主播的經(jīng)紀(jì)人,主播的忠實(shí)觀眾,可能會通過送出高價(jià)值禮物來幫助主播吸引人氣.所以從彈幕數(shù)量上看,對于一些直播間可能會產(chǎn)生直播氣氛熱烈高漲的假象,這樣產(chǎn)生的高潮稱為禮物引起的高潮,簡稱禮物高潮.
本研究的目標(biāo),是從所有高潮中識別內(nèi)容高潮,即精彩片段.
根據(jù)從斗魚直播平臺采集到的彈幕數(shù)據(jù)和送禮數(shù)據(jù),對于一次開播(session)s,可獲得其彈幕數(shù)量秒量級時間序列,記為:
其中di為所有用戶在此次開播的第i秒發(fā)出的總彈幕數(shù)量.
使用z-score[17]方法,計(jì)算得到彈幕數(shù)量序列的zscore 序列:
由Zds}序列進(jìn)一步篩選出離散時刻序列Tsd=其中閾值 θp>0,可根據(jù)置信系數(shù)p動態(tài)調(diào)節(jié);對于離散序列Tsd中的每一個時刻i,前后各擴(kuò)充τ秒,即得到一個連續(xù)的小時間區(qū)間iτ=[i-τ,i+τ];合并所有有交集的iτ,得到若干大的連續(xù)時間區(qū)間.每一個大的時間區(qū)間內(nèi)都包含大量彈幕,定義為彈幕激增(burst)時間區(qū)間集,記為DBs.
為了便于理解,圖1和圖2展示了離散的點(diǎn)通過擴(kuò)展、合并得到大時間區(qū)間的過程.
圖1 篩選獲得離散時刻序列 Ts
圖2 離散時刻序列擴(kuò)展與合并
彈幕激增時間區(qū)間集DBs即由圖2中用陰影標(biāo)識的一些連續(xù)的小時間區(qū)間組成.
最后,對于禮物激增時間區(qū)間集GBs中的每一個區(qū)間ai,若在彈幕激增時間區(qū)間集DBs中存在某個區(qū)間bj與之有交集,即
則合并這兩個時間區(qū)間,得到的新區(qū)間hi:
新的時間區(qū)間hi中既有彈幕激增又有禮物價(jià)值激增,即為前文所定義的高潮,hi定義為高潮時間區(qū)間.開播s所有高潮時間區(qū)間構(gòu)成的集合定義為高潮時間區(qū)間集Hs:
圖3展示的是一個包含彈幕激增和禮物價(jià)值激增的高潮示例樣本.
圖3 高潮示例樣本
算法1 描述了上述高潮檢測過程.
算法1.高潮檢測算法1) 獲取開播 的彈幕數(shù)量時間序列和禮物價(jià)值時間序列;DsGsZdsZgs 2) 計(jì)算和的z-score 序列和;sDsGs TdsTgs 3) 根據(jù)置信系數(shù) 篩選得到離散時刻序列和;p TdsTgs τ 4) 分別對和中的每一刻時刻前后擴(kuò)充 秒得到連續(xù)時間區(qū)間并合并有交集的區(qū)間,得到彈幕激增時間區(qū)間集和禮物價(jià)值激增時間區(qū)間集;DBsGBsHs DBs GBs 5) 合并和中有交集的時間區(qū)間,即獲得高潮時間區(qū)間集 .
從數(shù)據(jù)庫中隨機(jī)選擇一定數(shù)量開播,獲得其彈幕數(shù)量和禮物價(jià)值時間序列數(shù)據(jù),應(yīng)用上述高潮檢測算法,得到了由801 個高潮構(gòu)成的高潮時間區(qū)間集H(簡稱高潮集),作為后續(xù)模型的訓(xùn)練樣本.
根據(jù)前文論述,高潮有兩種,一是由于一些觀眾純粹為了通過給主播送高價(jià)值禮物(如“火箭”),來提高直播間人氣引起的,即由禮物引起的高潮,這種高潮里的彈幕內(nèi)容基本上是為了提高獲得虛擬道具(魚丸)而發(fā)送的與直播內(nèi)容無關(guān)的彈幕,如“魚丸大軍駕到,都閃開”、“大家好,我是新來的噴子,是直接噴還是走程序”等;二是由于主播的精彩表演或游戲里的精彩操作引起,即由內(nèi)容引起的高潮,這種高潮里的彈幕消息雖然也有和前者一樣和內(nèi)容無關(guān),而只是為了搶奪虛擬道具而發(fā)的彈幕,但卻有著大量和內(nèi)容相關(guān)的諸如稱贊主播、和主播積極交互的有意義的彈幕.
基于此觀察,本研究采取人工查看高潮持續(xù)時間內(nèi)的彈幕內(nèi)容的方式,來標(biāo)注高潮是由禮物引起,還是由內(nèi)容引起,從而構(gòu)建一個有監(jiān)督的訓(xùn)練集.為了降低主觀誤差,本研究請了3 個志愿者觀看所有樣本的彈幕內(nèi)容并獨(dú)立作出標(biāo)注,最后綜合3 位志愿者的標(biāo)注結(jié)果,以少數(shù)服從多數(shù)的原則作出最后標(biāo)注.最終樣本構(gòu)成如表1所示.
表1 樣本構(gòu)成
為了更好的訓(xùn)練模型,本研究先后為每一個高潮構(gòu)建了多達(dá)20 個特征.經(jīng)過模型測試,得到了如下7 個對模型貢獻(xiàn)最大的特征:
AvgGiftByUser:觀眾在高潮持續(xù)時間內(nèi)送出的人均禮物價(jià)值,單位:元/人;
AvgGiftByTime:觀眾在高潮持續(xù)時間內(nèi)送出的時間平均禮物價(jià)值,單位:元/秒;
AvgDanmuByUser:觀眾在高潮持續(xù)時間發(fā)送的人均彈幕數(shù)量,單位:條/人;
AvgDanmuByTime:觀眾在高潮持續(xù)時間發(fā)送的時間平均彈幕數(shù)量,單位:條/秒;
Hour:代表高潮發(fā)生的時刻,精確到小時,取值0-23;
RatioOfBurstTime:根據(jù)高潮檢測算法,每一個高潮由一對有交集的彈幕激增時間區(qū)間和禮物價(jià)值激增時間區(qū)間合并得到,此特征描述的是彈幕激增與禮物價(jià)值激增的時間區(qū)間長度比值;
RatioOfCumArea:此特征描述的是在高潮持續(xù)時間內(nèi),禮物價(jià)值序列與彈幕數(shù)量序列累積分布曲線的線下面積比.
前6 個特征的計(jì)算方法與含義是顯而易見的,然而最后一個特征構(gòu)建卻不是平凡的.為了更好的理解這個特征,下面給出進(jìn)一步的解釋.
直觀上理解,對于由禮物引起的高潮,禮物激增的開始時刻要領(lǐng)先于彈幕激增.極端情況下,在高潮開始的短時間內(nèi),觀眾的送禮行為就已經(jīng)結(jié)束,接下來產(chǎn)生由高價(jià)值禮物引來的觀眾為了搶奪虛擬道具,不斷發(fā)送內(nèi)容無關(guān)彈幕而引起的彈幕激增.相反,對于內(nèi)容引起的高潮,由于這是因主播的精彩直播而產(chǎn)生的小高潮,觀眾們自發(fā)的發(fā)送彈幕,或贊美或鼓勵的與主播積極互動,期間穿插著禮物送出事件.所以,禮物價(jià)值激增開始時刻往往滯后于彈幕激增,并且禮物送出是一個持續(xù)的過程.
圖3所示為禮物高潮示例.為了便于對比,圖4給出了一個內(nèi)容高潮示例.
圖4 內(nèi)容高潮示例
為了定量描述這種特征,本研究提出了累積分布曲線線下面積比.
假設(shè)在高潮持續(xù)時間內(nèi),用戶發(fā)送彈幕的時刻是一個隨機(jī)事件E,則高潮持續(xù)時間區(qū)間構(gòu)成了隨機(jī)事件的樣本空間 Ω.從概率論角度看,一個高潮內(nèi)觀測到的彈幕數(shù)量時間序列就構(gòu)成了一個經(jīng)驗(yàn)分布函數(shù)fd(t).根據(jù)彈幕數(shù)量時間序列可進(jìn)一步計(jì)算得到彈幕經(jīng)驗(yàn)累積分布函數(shù)Fd(t).類似的,可計(jì)算得到禮物價(jià)值經(jīng)驗(yàn)累積分布函數(shù)Fg(t).
對于圖3和圖4展示的兩個高潮,分別作出彈幕數(shù)量-禮物價(jià)值累積經(jīng)驗(yàn)分布圖,如圖5所示.可以看出,對于由禮物引起的高潮,其禮物價(jià)值經(jīng)驗(yàn)累積分布函數(shù)迅速攀升到最大值1,這和之前的討論,即觀眾的送禮行為在高潮開始的短時間內(nèi)結(jié)束是一致的.而對于由內(nèi)容引起的高潮,其禮物價(jià)值經(jīng)驗(yàn)累積分布函數(shù)是隨著時間持續(xù)上升,且其上升滯后于彈幕數(shù)量經(jīng)驗(yàn)累積分布函數(shù),這也和之前討論一致.
下面給出線下面積比來定量描述此特征的方法:
圖5 彈幕數(shù)量-禮物價(jià)值累積分布圖
其中,Sg為禮物價(jià)值經(jīng)驗(yàn)累積分布曲線的線下面積,由Fg(t)積分得到:
同理可得Sd:
從直觀上可以理解,在典型情況下,對于由禮物引起的高潮,其RatioOfCumArea值會大于1,而由內(nèi)容引起的高潮,其RatioOfCumArea值因會小于1.對于圖5中的兩個樣本,由禮物引起的高潮和由內(nèi)容引起的高潮的RatioOfCumArea值分別為2.05和0.87.
表2總結(jié)了上述7 個特征的含義.特征構(gòu)建完畢后,研究樣本中的每個高潮被映射為一個8 維的特征向量,其中最后1 維為樣本標(biāo)記.最終得到801×8 維的高潮特征數(shù)據(jù).
本研究的目標(biāo)是對高潮進(jìn)行分類,找出內(nèi)容高潮,所以這是一個有監(jiān)督學(xué)習(xí)中的分類問題.
隨機(jī)森林(Random Forest,RF)作為一種集成方法,其具有強(qiáng)大的擬合能力和泛化性能,可以處理非線性數(shù)據(jù),訓(xùn)練速度快,且訓(xùn)練過程無需對數(shù)據(jù)進(jìn)行規(guī)范化.基于隨機(jī)森林的眾多優(yōu)點(diǎn),本研究采用隨機(jī)森林作為高潮分類模型.
另一方面,由于樣本標(biāo)注的人工成本較大,所以為了充分利用已有標(biāo)注數(shù)據(jù),采用交叉驗(yàn)證(Cross-validation)的方法來完成模型訓(xùn)練.具體而言,采用十重交叉驗(yàn)證.
影響隨機(jī)森林模型擬合能力的一個重要參數(shù)為子樹的數(shù)量.一般而言,較多的子樹可以讓讓模型的擬合能力更強(qiáng),性能也更加穩(wěn)定,但同時也會讓訓(xùn)練過程變得緩慢.本研究從較少的子樹數(shù)量開始,逐步增加子樹數(shù)量,觀察模型精度和訓(xùn)練速度,兼顧模型性能和效能,最后將子樹個數(shù)定為200.
表2 特征含義
模型的分類結(jié)果如表3混淆矩陣所示.
表3 混淆矩陣
進(jìn)一步計(jì)算,可得到模型的準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall),F1 分?jǐn)?shù)(F1 Socre),如表4所示.
表4 分類結(jié)果
可以看出,評估模型性能的各項(xiàng)指標(biāo)都達(dá)到了令人滿意的結(jié)果,模型能夠以較高的精確率識別出由內(nèi)容引起的高潮.這反映了本研究特征構(gòu)建以及模型設(shè)計(jì)的有效性.
檢測出由內(nèi)容引起的高潮,即精彩片段,有許多應(yīng)用,下面作簡單討論.
1) 用于優(yōu)化推薦.當(dāng)直播平臺檢測到某個直播間內(nèi)產(chǎn)生了一定量的精彩片段,則可在首業(yè)推薦版塊實(shí)時推薦該直播間.能夠產(chǎn)生精彩片段的直播間,首先其直播一般比較精彩,其次觀眾們愿意在該直播間送禮物.所以推薦此類直播間既能提升用戶體驗(yàn),又能吸引更多的潛在的送禮觀眾進(jìn)入直播間,進(jìn)而提高平臺的虛擬禮物收入;
2) 用于發(fā)掘潛在的優(yōu)質(zhì)主播.直播平臺在評估每個主播時,可以考慮其直播歷史中的精彩片段數(shù)量.主播的歷史精彩片段數(shù)量從一定程度上反映了其優(yōu)質(zhì)內(nèi)容生產(chǎn)能力以及觀眾變現(xiàn)能力.所以,將歷史精彩片段數(shù)量作為主播的評估因素之一,有助于及時發(fā)掘既有才能,又能吸金的主播.
本文以斗魚直播平臺為例,通過觀眾的發(fā)彈幕行為和送禮行為,研究了眾包直播系統(tǒng)中精彩片段的自動化檢測方法.首先,根據(jù)主播開播的彈幕數(shù)量和禮物價(jià)值時間序列,給出了直播高潮的檢測算法;其次,將直播高潮分為由禮物引起和由內(nèi)容引起,通過人工查看彈幕內(nèi)容的方式標(biāo)注訓(xùn)練樣本,并構(gòu)建了高潮特征;最后,利用隨機(jī)森林方法對高潮進(jìn)行分類,得到了令人滿意的結(jié)果.對于精彩片段檢測的應(yīng)用場景,本文也做了簡單的討論.
接下來的工作,將采集一些直播視頻數(shù)據(jù),結(jié)合視頻內(nèi)容標(biāo)做樣本標(biāo)注,來降低標(biāo)注誤差,并嘗試結(jié)合視頻語義理解技術(shù),進(jìn)一步提高模型性能.