姚凱譯
摘要:對(duì)B站的個(gè)體視頻綜合影響力與整體影響兩個(gè)方面提取熱點(diǎn)話(huà)題因素進(jìn)行聚類(lèi)與耦合度分層計(jì)算,對(duì)熱點(diǎn)視頻進(jìn)行話(huà)題相關(guān)性分析與話(huà)題挖掘研究,通過(guò)不同維度的線(xiàn)性關(guān)聯(lián),可對(duì)實(shí)時(shí)熱點(diǎn)話(huà)題進(jìn)行簡(jiǎn)單挖掘,或基于某一話(huà)題來(lái)計(jì)算整體熱度。對(duì)青年人的信息傳播與商業(yè)推廣具有指向作用。
關(guān)鍵詞:B站? 聚類(lèi)? 耦合度分層? 相關(guān)性分析? 話(huà)題挖掘
前言
隨著國(guó)內(nèi)主流媒體的入住B站,傳統(tǒng)媒體與新興媒體混合發(fā)展,推動(dòng)信息與話(huà)題的多樣性,使信息量更大,層次更多。但在B站如此海量數(shù)據(jù)提取相關(guān)有價(jià)值的熱點(diǎn)話(huà)題與用戶(hù)關(guān)注點(diǎn)并非易事。同樣從大量用戶(hù)基數(shù)找到其高認(rèn)同度的關(guān)注點(diǎn)與興趣點(diǎn)具有極大的商業(yè)價(jià)值,通過(guò)相關(guān)性可發(fā)現(xiàn)潛在用戶(hù)規(guī)模,進(jìn)行產(chǎn)品服務(wù)推廣。
1 數(shù)據(jù)選取
B站主流信息傳播為視頻創(chuàng)作,而計(jì)算機(jī)難以直接發(fā)現(xiàn)視頻中的相同共性。所以視頻信息采集點(diǎn)為視頻基本內(nèi)容,用戶(hù)互動(dòng)率與潛在影響力,推導(dǎo)價(jià)值信息。選取視頻范圍應(yīng)為近期發(fā)布,或發(fā)布時(shí)間已久但依舊存在播放高增長(zhǎng)率。
其視頻基本內(nèi)容,用戶(hù)互動(dòng)率與潛在影響力分別定義為維度F1 F2 F3。
其中F2維度存在預(yù)期模型值,實(shí)時(shí)值,趨于穩(wěn)定值,F(xiàn)3存在基礎(chǔ)值與不確定性的附加值具有實(shí)時(shí)性變化。但具體F2的實(shí)時(shí)性質(zhì)如何進(jìn)行主導(dǎo)性定義?這時(shí)就需要引入時(shí)間軸這一維度T??梢哉f(shuō)時(shí)間維度T可以定義視頻影響力何時(shí)趨于穩(wěn)定。
2 模型設(shè)計(jì)元素與原理組成
2.1視頻個(gè)體影響力
同一時(shí)間段收集的視頻信息,視頻的實(shí)時(shí)影響力與最終影響力會(huì)出現(xiàn)不同偏差。所以考慮傳播影響力時(shí),要作出對(duì)未來(lái)影響力的綜合考量。
此時(shí)定義離發(fā)布時(shí)長(zhǎng)為T(mén),綜合影響力為M,ε為誤差。設(shè)時(shí)間維度存在T1
當(dāng)T
當(dāng)T1
當(dāng)T2
當(dāng)T3
2.2視頻標(biāo)簽與話(huà)題關(guān)聯(lián)匹配
如果個(gè)體視頻中維度F1的信息符合時(shí)下熱門(mén)話(huà)題,F(xiàn)2的最終取值也會(huì)相對(duì)應(yīng)提高,其產(chǎn)生的綜合影響力M也會(huì)相應(yīng)提高。判斷F1中的熱點(diǎn)是否對(duì)整個(gè)F2的產(chǎn)生具體影響時(shí),可以追溯UP主往期投稿數(shù)據(jù),如果其新視頻影響力遠(yuǎn)高于往期視頻集的加權(quán)平均值,可認(rèn)為新視頻內(nèi)容中存在熱點(diǎn)話(huà)題與標(biāo)簽,但不可以排除樣本數(shù)據(jù)過(guò)少,或該視頻超水平發(fā)揮。
定向話(huà)題占比權(quán)重為hi(i=1,2,3...n),則該話(huà)題權(quán)重計(jì)算為
(A為相關(guān)系數(shù),這里根據(jù)研究結(jié)果取1.32;c為與話(huà)題相關(guān)標(biāo)簽詞;F1 數(shù)據(jù)取總標(biāo)簽數(shù))。當(dāng)數(shù)據(jù)大于1時(shí),權(quán)重視為1;權(quán)重大于0.81,可認(rèn)為視頻與話(huà)題高相關(guān);權(quán)重小于0.31,話(huà)題相關(guān)性低,可進(jìn)行共性忽略(不參與話(huà)題整體計(jì)算)。
而話(huà)題關(guān)聯(lián)標(biāo)簽詞可進(jìn)行人工定義或機(jī)器進(jìn)行數(shù)據(jù)聚類(lèi)判斷。前者多用于大量視頻中發(fā)現(xiàn)熱點(diǎn)話(huà)題,后者多通過(guò)標(biāo)簽發(fā)現(xiàn)共性話(huà)題。如圖:
h1=1.32c1/F1=0.935(ci=5,F(xiàn)1=7)盡管有些標(biāo)簽并沒(méi)有出現(xiàn)在人工庫(kù)中,存在誤差,但依舊認(rèn)為視頻與話(huà)題高相關(guān)。
但如果單一通過(guò)標(biāo)簽關(guān)鍵詞來(lái)進(jìn)行匹配判斷就會(huì)引發(fā)其他問(wèn)題:同源不同類(lèi)視頻相互匹配,話(huà)題匹配雜化。如此時(shí)存在另一同類(lèi)視頻:
h2=1.32c2/F1=0.528(c2=4,F(xiàn)1=10),即使視頻的話(huà)題權(quán)重占比高,數(shù)據(jù)上表現(xiàn)高關(guān)聯(lián)性,但實(shí)際上是對(duì)同源話(huà)題中的共性元素匹配,這對(duì)某一話(huà)題的整體研究中會(huì)產(chǎn)生巨大誤差,結(jié)果不是研究者希望看到的。
所以在匹配標(biāo)簽關(guān)鍵詞時(shí),建立高耦合度相關(guān)性判斷詞庫(kù)(多為特有)與中耦合關(guān)聯(lián)度詞庫(kù)(具有共性元素)。如先對(duì)標(biāo)簽詞進(jìn)行高耦合判斷匹配,如果相關(guān)性hi>0.31,再與中耦合詞庫(kù)匹配,將其相加得新相關(guān)度hi可用于整體話(huà)題熱點(diǎn)計(jì)算。否則因相關(guān)性低,不認(rèn)為存在關(guān)聯(lián),后續(xù)不進(jìn)行相關(guān)熱點(diǎn)計(jì)算。如建立詞庫(kù)如下:
此時(shí)h2 <0.31,該視頻不參與此定向話(huà)題的整體熱度計(jì)算?;隈詈戏謱悠ヅ渥畲蟮膬?yōu)勢(shì)是提高相關(guān)性匹配率與降低時(shí)間復(fù)雜度,實(shí)現(xiàn)更高效更精準(zhǔn)的話(huà)題匹配。
2.3詞庫(kù)聚類(lèi)迭代與新建
單一人工定義話(huà)題關(guān)聯(lián)詞無(wú)疑工程量巨大,且人工詞庫(kù)時(shí)常存在缺失遺落,容易導(dǎo)致整體視頻話(huà)題影響力計(jì)算誤差偏大。簡(jiǎn)單聚類(lèi)算法可以更加高效對(duì)非詞庫(kù)詞是否具有關(guān)聯(lián)性產(chǎn)生判斷。
2.4話(huà)題整體熱度分析
整體話(huà)題分析計(jì)算不能只單一進(jìn)行各視頻個(gè)體影響力加權(quán)累加,而是要對(duì)頭部視頻進(jìn)行部分約束。每個(gè)視頻對(duì)不同話(huà)題存在不同關(guān)聯(lián)度,一個(gè)視頻可以與多個(gè)話(huà)題產(chǎn)生關(guān)聯(lián),參與多次熱度計(jì)算。在計(jì)算話(huà)題整體影響力時(shí),更多對(duì)高個(gè)體影響力視頻進(jìn)行約束,避免統(tǒng)計(jì)的基尼效應(yīng)。
3 仿真試驗(yàn)
通過(guò)以上設(shè)計(jì)對(duì)B站生活、科技、動(dòng)漫區(qū)三區(qū),其排行榜前20名熱門(mén)視頻進(jìn)行不定向話(huà)熱門(mén)題挖掘,發(fā)現(xiàn)其生活區(qū)搞笑類(lèi),科技區(qū)時(shí)政類(lèi),動(dòng)漫區(qū)配音類(lèi)與抖音相關(guān)方面熱門(mén)話(huà)題重合率高達(dá)分別為74%,63.8%,58%。
同時(shí)在針對(duì)某類(lèi)化妝產(chǎn)品進(jìn)行定向話(huà)題挖掘時(shí),可以較為精準(zhǔn)的得出該類(lèi)產(chǎn)品在各類(lèi)化妝產(chǎn)品中的熱點(diǎn)排行榜與對(duì)其感興趣人群的大致規(guī)模。對(duì)商業(yè)產(chǎn)品推廣與產(chǎn)品人群定位有極大的幫助。
4 結(jié)束語(yǔ)
在整個(gè)B站話(huà)題熱點(diǎn)研究中,通過(guò)各方面數(shù)據(jù)的線(xiàn)性組合,對(duì)非線(xiàn)性研究對(duì)象進(jìn)行簡(jiǎn)單分析。算法上簡(jiǎn)單聚類(lèi)算法高效完善詞庫(kù)降低與實(shí)際差值,而耦合分層使話(huà)題誤差減小。再對(duì)耦合度詞庫(kù)規(guī)劃越細(xì),相關(guān)關(guān)聯(lián)度閾值不斷調(diào)整后,可以從話(huà)題總影響力得出關(guān)注話(huà)題人群相關(guān)規(guī)模。同樣對(duì)生產(chǎn)高個(gè)體影響力的視頻博主進(jìn)行分析,創(chuàng)造出合適的合作商業(yè)視頻,也可以對(duì)產(chǎn)品推廣有不小的幫助。對(duì)信息傳播分析,市場(chǎng)挖掘起到指向性幫助。