亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        B站熱點(diǎn)話(huà)題初步分析與挖掘設(shè)計(jì)

        2020-08-04 10:20:37姚凱譯
        數(shù)碼世界 2020年7期
        關(guān)鍵詞:B站相關(guān)性分析聚類(lèi)

        姚凱譯

        摘要:對(duì)B站的個(gè)體視頻綜合影響力與整體影響兩個(gè)方面提取熱點(diǎn)話(huà)題因素進(jìn)行聚類(lèi)與耦合度分層計(jì)算,對(duì)熱點(diǎn)視頻進(jìn)行話(huà)題相關(guān)性分析與話(huà)題挖掘研究,通過(guò)不同維度的線(xiàn)性關(guān)聯(lián),可對(duì)實(shí)時(shí)熱點(diǎn)話(huà)題進(jìn)行簡(jiǎn)單挖掘,或基于某一話(huà)題來(lái)計(jì)算整體熱度。對(duì)青年人的信息傳播與商業(yè)推廣具有指向作用。

        關(guān)鍵詞:B站? 聚類(lèi)? 耦合度分層? 相關(guān)性分析? 話(huà)題挖掘

        前言

        隨著國(guó)內(nèi)主流媒體的入住B站,傳統(tǒng)媒體與新興媒體混合發(fā)展,推動(dòng)信息與話(huà)題的多樣性,使信息量更大,層次更多。但在B站如此海量數(shù)據(jù)提取相關(guān)有價(jià)值的熱點(diǎn)話(huà)題與用戶(hù)關(guān)注點(diǎn)并非易事。同樣從大量用戶(hù)基數(shù)找到其高認(rèn)同度的關(guān)注點(diǎn)與興趣點(diǎn)具有極大的商業(yè)價(jià)值,通過(guò)相關(guān)性可發(fā)現(xiàn)潛在用戶(hù)規(guī)模,進(jìn)行產(chǎn)品服務(wù)推廣。

        1 數(shù)據(jù)選取

        B站主流信息傳播為視頻創(chuàng)作,而計(jì)算機(jī)難以直接發(fā)現(xiàn)視頻中的相同共性。所以視頻信息采集點(diǎn)為視頻基本內(nèi)容,用戶(hù)互動(dòng)率與潛在影響力,推導(dǎo)價(jià)值信息。選取視頻范圍應(yīng)為近期發(fā)布,或發(fā)布時(shí)間已久但依舊存在播放高增長(zhǎng)率。

        其視頻基本內(nèi)容,用戶(hù)互動(dòng)率與潛在影響力分別定義為維度F1 F2 F3。

        其中F2維度存在預(yù)期模型值,實(shí)時(shí)值,趨于穩(wěn)定值,F(xiàn)3存在基礎(chǔ)值與不確定性的附加值具有實(shí)時(shí)性變化。但具體F2的實(shí)時(shí)性質(zhì)如何進(jìn)行主導(dǎo)性定義?這時(shí)就需要引入時(shí)間軸這一維度T??梢哉f(shuō)時(shí)間維度T可以定義視頻影響力何時(shí)趨于穩(wěn)定。

        2 模型設(shè)計(jì)元素與原理組成

        2.1視頻個(gè)體影響力

        同一時(shí)間段收集的視頻信息,視頻的實(shí)時(shí)影響力與最終影響力會(huì)出現(xiàn)不同偏差。所以考慮傳播影響力時(shí),要作出對(duì)未來(lái)影響力的綜合考量。

        此時(shí)定義離發(fā)布時(shí)長(zhǎng)為T(mén),綜合影響力為M,ε為誤差。設(shè)時(shí)間維度存在T1

        當(dāng)T

        當(dāng)T1

        當(dāng)T2

        當(dāng)T3

        2.2視頻標(biāo)簽與話(huà)題關(guān)聯(lián)匹配

        如果個(gè)體視頻中維度F1的信息符合時(shí)下熱門(mén)話(huà)題,F(xiàn)2的最終取值也會(huì)相對(duì)應(yīng)提高,其產(chǎn)生的綜合影響力M也會(huì)相應(yīng)提高。判斷F1中的熱點(diǎn)是否對(duì)整個(gè)F2的產(chǎn)生具體影響時(shí),可以追溯UP主往期投稿數(shù)據(jù),如果其新視頻影響力遠(yuǎn)高于往期視頻集的加權(quán)平均值,可認(rèn)為新視頻內(nèi)容中存在熱點(diǎn)話(huà)題與標(biāo)簽,但不可以排除樣本數(shù)據(jù)過(guò)少,或該視頻超水平發(fā)揮。

        定向話(huà)題占比權(quán)重為hi(i=1,2,3...n),則該話(huà)題權(quán)重計(jì)算為

        (A為相關(guān)系數(shù),這里根據(jù)研究結(jié)果取1.32;c為與話(huà)題相關(guān)標(biāo)簽詞;F1 數(shù)據(jù)取總標(biāo)簽數(shù))。當(dāng)數(shù)據(jù)大于1時(shí),權(quán)重視為1;權(quán)重大于0.81,可認(rèn)為視頻與話(huà)題高相關(guān);權(quán)重小于0.31,話(huà)題相關(guān)性低,可進(jìn)行共性忽略(不參與話(huà)題整體計(jì)算)。

        而話(huà)題關(guān)聯(lián)標(biāo)簽詞可進(jìn)行人工定義或機(jī)器進(jìn)行數(shù)據(jù)聚類(lèi)判斷。前者多用于大量視頻中發(fā)現(xiàn)熱點(diǎn)話(huà)題,后者多通過(guò)標(biāo)簽發(fā)現(xiàn)共性話(huà)題。如圖:

        h1=1.32c1/F1=0.935(ci=5,F(xiàn)1=7)盡管有些標(biāo)簽并沒(méi)有出現(xiàn)在人工庫(kù)中,存在誤差,但依舊認(rèn)為視頻與話(huà)題高相關(guān)。

        但如果單一通過(guò)標(biāo)簽關(guān)鍵詞來(lái)進(jìn)行匹配判斷就會(huì)引發(fā)其他問(wèn)題:同源不同類(lèi)視頻相互匹配,話(huà)題匹配雜化。如此時(shí)存在另一同類(lèi)視頻:

        h2=1.32c2/F1=0.528(c2=4,F(xiàn)1=10),即使視頻的話(huà)題權(quán)重占比高,數(shù)據(jù)上表現(xiàn)高關(guān)聯(lián)性,但實(shí)際上是對(duì)同源話(huà)題中的共性元素匹配,這對(duì)某一話(huà)題的整體研究中會(huì)產(chǎn)生巨大誤差,結(jié)果不是研究者希望看到的。

        所以在匹配標(biāo)簽關(guān)鍵詞時(shí),建立高耦合度相關(guān)性判斷詞庫(kù)(多為特有)與中耦合關(guān)聯(lián)度詞庫(kù)(具有共性元素)。如先對(duì)標(biāo)簽詞進(jìn)行高耦合判斷匹配,如果相關(guān)性hi>0.31,再與中耦合詞庫(kù)匹配,將其相加得新相關(guān)度hi可用于整體話(huà)題熱點(diǎn)計(jì)算。否則因相關(guān)性低,不認(rèn)為存在關(guān)聯(lián),后續(xù)不進(jìn)行相關(guān)熱點(diǎn)計(jì)算。如建立詞庫(kù)如下:

        此時(shí)h2 <0.31,該視頻不參與此定向話(huà)題的整體熱度計(jì)算?;隈詈戏謱悠ヅ渥畲蟮膬?yōu)勢(shì)是提高相關(guān)性匹配率與降低時(shí)間復(fù)雜度,實(shí)現(xiàn)更高效更精準(zhǔn)的話(huà)題匹配。

        2.3詞庫(kù)聚類(lèi)迭代與新建

        單一人工定義話(huà)題關(guān)聯(lián)詞無(wú)疑工程量巨大,且人工詞庫(kù)時(shí)常存在缺失遺落,容易導(dǎo)致整體視頻話(huà)題影響力計(jì)算誤差偏大。簡(jiǎn)單聚類(lèi)算法可以更加高效對(duì)非詞庫(kù)詞是否具有關(guān)聯(lián)性產(chǎn)生判斷。

        2.4話(huà)題整體熱度分析

        整體話(huà)題分析計(jì)算不能只單一進(jìn)行各視頻個(gè)體影響力加權(quán)累加,而是要對(duì)頭部視頻進(jìn)行部分約束。每個(gè)視頻對(duì)不同話(huà)題存在不同關(guān)聯(lián)度,一個(gè)視頻可以與多個(gè)話(huà)題產(chǎn)生關(guān)聯(lián),參與多次熱度計(jì)算。在計(jì)算話(huà)題整體影響力時(shí),更多對(duì)高個(gè)體影響力視頻進(jìn)行約束,避免統(tǒng)計(jì)的基尼效應(yīng)。

        3 仿真試驗(yàn)

        通過(guò)以上設(shè)計(jì)對(duì)B站生活、科技、動(dòng)漫區(qū)三區(qū),其排行榜前20名熱門(mén)視頻進(jìn)行不定向話(huà)熱門(mén)題挖掘,發(fā)現(xiàn)其生活區(qū)搞笑類(lèi),科技區(qū)時(shí)政類(lèi),動(dòng)漫區(qū)配音類(lèi)與抖音相關(guān)方面熱門(mén)話(huà)題重合率高達(dá)分別為74%,63.8%,58%。

        同時(shí)在針對(duì)某類(lèi)化妝產(chǎn)品進(jìn)行定向話(huà)題挖掘時(shí),可以較為精準(zhǔn)的得出該類(lèi)產(chǎn)品在各類(lèi)化妝產(chǎn)品中的熱點(diǎn)排行榜與對(duì)其感興趣人群的大致規(guī)模。對(duì)商業(yè)產(chǎn)品推廣與產(chǎn)品人群定位有極大的幫助。

        4 結(jié)束語(yǔ)

        在整個(gè)B站話(huà)題熱點(diǎn)研究中,通過(guò)各方面數(shù)據(jù)的線(xiàn)性組合,對(duì)非線(xiàn)性研究對(duì)象進(jìn)行簡(jiǎn)單分析。算法上簡(jiǎn)單聚類(lèi)算法高效完善詞庫(kù)降低與實(shí)際差值,而耦合分層使話(huà)題誤差減小。再對(duì)耦合度詞庫(kù)規(guī)劃越細(xì),相關(guān)關(guān)聯(lián)度閾值不斷調(diào)整后,可以從話(huà)題總影響力得出關(guān)注話(huà)題人群相關(guān)規(guī)模。同樣對(duì)生產(chǎn)高個(gè)體影響力的視頻博主進(jìn)行分析,創(chuàng)造出合適的合作商業(yè)視頻,也可以對(duì)產(chǎn)品推廣有不小的幫助。對(duì)信息傳播分析,市場(chǎng)挖掘起到指向性幫助。

        猜你喜歡
        B站相關(guān)性分析聚類(lèi)
        嗶哩嗶哩彈幕網(wǎng)的發(fā)展模式研究
        自由與狂歡:彈幕視頻的文化傳播策略
        今傳媒(2019年2期)2019-03-22 02:25:20
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        淺析動(dòng)漫市場(chǎng)的發(fā)展
        新媒體在政府機(jī)構(gòu)中的有效應(yīng)用
        新媒體研究(2017年9期)2017-07-26 07:29:33
        人民幣匯率變動(dòng)與中國(guó)入境旅游相關(guān)性分析(2002—2016)
        上市公司財(cái)務(wù)指標(biāo)與股票價(jià)格的相關(guān)性實(shí)證分析
        淘寶星店成長(zhǎng)中的粉絲力量
        中國(guó)城市化與經(jīng)濟(jì)發(fā)展水平關(guān)系研究
        商(2016年33期)2016-11-24 22:04:19
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        伊人精品无码AV一区二区三区 | 欧美日韩精品一区二区三区高清视频 | 91综合久久婷婷久久| 色www亚洲| 日韩亚洲午夜精品一区二区三区| 色婷婷亚洲一区二区在线| 成人大片在线观看视频| 丰满的少妇av一区二区三区| 狠狠噜狠狠狠狠丁香五月| 无码人妻精品丰满熟妇区| 国产一级免费黄片无码AV| av天堂线上| 深夜福利国产精品中文字幕| 性刺激的大陆三级视频| 嫩草影院未满十八岁禁止入内 | 狠狠cao日日橹夜夜十橹| 亚洲熟妇丰满多毛xxxx| 开心婷婷五月激情综合社区| 大胸美女吃奶爽死视频| 极品少妇人妻一区二区三区| 国产成人无码av| 国产精品久久一区二区三区| 男人扒开女人双腿猛进女人机机里| 久久久国产精品樱花网站| 久久婷婷国产综合精品| 国产成人精品久久二区二区91| 人妻丰满熟妇岳av无码区hd| 国产精品国语对白露脸在线播放| 日本韩国黄色三级三级| 国产一级一片内射视频播放| 色欲综合一区二区三区| 免费人成毛片乱码| 亚洲九九九| 韩国女主播一区二区三区在线观看| 人妻夜夜爽天天爽三区麻豆av| 欧美性xxxx极品高清| 99国产免费热播视频| 亚洲老熟妇愉情magnet| 日本亚洲中文字幕一区| 亚洲中文久久精品无码| 成人无码视频在线观看网站|