亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新媒體平臺的藏語視頻數據分析及可視化*

        2022-11-28 13:01:50賈慧瑾陳潔
        西藏科技 2022年8期
        關鍵詞:藏語嗶哩彈幕

        賈慧瑾 陳潔

        (西藏民族大學信息工程學院,陜西 咸陽 712082)

        0 引言

        隨著社會信息量的激增,使用報紙、廣播、電視等傳統(tǒng)媒介已經不能充分推動藏語文化的發(fā)展,而新媒體平臺的興起打破了這種僵局[1],極大拓寬了藏語言文化的傳播途徑[2]。例如,隨著藏語神曲《FLY》的發(fā)布以及受丁真等網絡紅人帶動的影響,網絡上掀起了一股學習藏語的風潮,大量用戶發(fā)布、觀看并轉發(fā)相關藏語視頻。同時,由于藏語新媒體作品的高傳播率,很多粉絲慕名前往“理塘”等地旅游打卡,帶動了當地旅游業(yè)和經濟。因此,本文意圖通過收集發(fā)布在新媒體平臺的藏語作品的相關數據,研究藏語視頻在各個分區(qū)的發(fā)布量和播放量占比以及發(fā)布熱度和播放熱度的發(fā)展趨勢,分析用戶對于不同類型視頻的喜好程度和發(fā)布傾向,為新媒體平臺的推薦機制提供思路,為相關自媒體工作者提供數據參考,有助于當地旅游局確立更完善的推廣計劃,促進藏語文化的傳播。

        1 數據準備

        1.1 數據說明

        通過對主流新媒體平臺藏語作品數據采集的數據量及采集難易程度的研究,本文確定以嗶哩嗶哩視頻網站(下文所述B 站為該平臺簡稱)作為研究數據來源具有以下優(yōu)勢:其一:用戶群體較廣,涉及多個年齡段、多個省市;其二:平臺對視頻的分類程度較高較細,涉及多個門類且視頻資源較多;其三:B 站的社區(qū)文化由萬千原創(chuàng)視頻圍繞組成[3];其四:外行人可能僅僅以為B 站最明顯的屬性是彈幕,但在網站用戶眼中早已把它的社交功能放在首位[3]。

        根據研究發(fā)現,嗶哩嗶哩的視頻排列方式分為綜合排序、最多點擊、最新發(fā)布、最多彈幕和最多收藏共5 種,根據檢索詞檢索后最多可以顯示1000 條視頻。綜合排序考慮了視頻的各類信息,而不單單只以某一特定的元素作為排列標準,本文研究藏語作品需要考慮視頻的各種信息,以此分析用戶的行為特征,故根據研究需要本文將以綜合排序下的1000 條視頻作為研究對象,以“藏語”一詞為檢索詞進行分析,并對發(fā)布于2022年2月23日之前的作品數據進行具體分析。

        1.2 數據獲取

        本文使用Python 第三方庫requests 庫和lxml 庫爬取數據[4],再通過pandas 庫保存數據[5]。具體操作流程如圖1所示。

        圖1 數據獲取流程圖

        第一步,進入嗶哩嗶哩平臺官方網頁,獲取該網頁的動態(tài)URL,利用format()函數設置關鍵詞搜索和待爬取頁碼數。

        第二步,通過網頁源代碼,分析網頁數據結構。

        第三步,取得視頻的名稱、視頻分區(qū)、播放量、彈幕數量、上傳日期以及相應的視頻作者的XPath路徑。遍歷爬取平臺相關視頻信息,直至將平臺顯示所有頁面的數據爬取完成。

        第四步,利用pandas 對象DataFrame 實現數據表格化,并保存為CSV文件。

        1.3 數據預處理

        通過以上步驟獲得如表1所示的數據。表中各列的標題region、title、view_num、danmu、upload_time、up_author、video_url 分別表示作品視頻分區(qū)、視頻名稱,視頻觀看量、彈幕數量、作品發(fā)布時間、視頻作者、視頻對應URL。

        表1 初步獲取的部分藏語視頻相關數據

        通過對獲取的數據探索分析發(fā)現存在部分數據單位不統(tǒng)一、獲取的視頻對應URL 與研究內容無關、視頻發(fā)布時間跨度較大等問題,會影響數據分析的效率,導致分析結果存在偏差,所以進行數據預處理操作就顯得至關重要[6]。

        本文通過以下四個步驟實現數據預處理,具體流程如圖2所示。

        圖2 數據預處理流程圖

        第一步,使用pandas的read_csv()函數從CSV文件中讀取數據。

        第二步,去除通過數據探索分析所發(fā)現的與目標無關的數據,例如,去除video_url列。

        第三步,用drop_duplicates()方法對數據進行去重操作。

        第四步,使用data.replace()函數替換danmu 和view_num中以萬為單位的數據,統(tǒng)一數據單位。

        經過數據預處理操作后獲得的部分藏語視頻數據如表2 所示,實現了數據單位統(tǒng)一,為下文數據可視化提供了數據支撐,并刪除了一條相同的數據,最后共計獲得了999 條數據作為本文的研究對象。

        表2 數據預處理后部分藏語視頻相關數據

        2 數據可視化及分析

        數據可視化可以更直觀的展示數據,分析數據之間的內在聯系[7]。本文通過pyecharts 柱狀圖Bar、餅圖Pie、折線圖Line 實現數據可視化,從四個方面對藏語主題視頻作品進行可視化分析:藏語主題視頻分區(qū)播放總量、藏語主題視頻分區(qū)發(fā)布數量所占比重、藏語主題視頻發(fā)布熱度與播放熱度走勢、藏語主題視頻播放數量TOP10。

        2.1 藏語主題視頻分區(qū)播放總量

        圖3是嗶哩嗶哩“藏語”檢索詞下的視頻播放總量柱狀圖,從圖中可以看出存在三個斷層,據此本文將視頻類別分為三類:高播放量類別、中播放量類別、低播放量類別。第一類具體包含:音樂綜合、人文歷史、影視剪輯、音樂現場、日常;第二類包含搞笑、野生技能協(xié)會、摩托車、MV、其他、翻唱、手機游戲、綜藝、社科法律心理、校園學習;第三類別包含:短片、綜合、明星綜合、影視雜談、原創(chuàng)音樂、運動文化、田園美食、手工等共計35種類別。

        圖3 嗶哩嗶哩藏語主題視頻分區(qū)播放總量柱狀圖

        可以看出日常類視頻播放總量明顯高于其它類別,據此推測用戶在觀看藏語主題作品時更傾向于日常類作品。經過對日常類視頻的篩選發(fā)現在此類視頻中由作者那曲拉姆發(fā)布的視頻《牧民說“扎西德勒”該咋回?藏族姑娘的藏語小課堂,你聽懂幾句》占據62.3 萬播放量,位居藏語視頻播放量第一,另外由關注看熱點發(fā)布的《丁真如何看待自己走紅?丁真用藏語接受央視采訪【央視鏡頭下的丁真】》也具有17.6 萬播放量。這兩例視頻占據了日常類視頻總觀看量的絕大部分,提高了日常類視頻的播放總量。

        通過分析表3 可以看出,在排名前列的日常類作品中,以丁真為標題的作品占絕大多數且播放量均不低。另外,觀看量居于前列的視頻多發(fā)布于2020年,但發(fā)布量最多的卻為2021 年。通過分析發(fā)現丁真受大眾關注的時間為2020 年11 月,據此推測在此段時間以丁真為主題的視頻播放量較高,拉高了日常類視頻的播放總量。因此,本文推測日常類視頻遠超其它類視頻的原因與發(fā)布視頻的up 主、發(fā)布內容涉及受人們關注的人物和事件以及發(fā)布時間有關。

        表3 觀看量居于前列的日常類視頻作品信息

        2.2 藏語主題視頻分區(qū)發(fā)布數量占比

        對藏語主題視頻各分區(qū)的發(fā)布情況進行詳細分析,制作了圖4 所示的嗶哩嗶哩藏語主題視頻分區(qū)發(fā)布數量百分比圖,圖中具體顯示了各類視頻的占比并用不同的顏色進行區(qū)分。

        圖4 嗶哩嗶哩平臺藏語主題視頻分區(qū)發(fā)布數量百分比圖

        根據圖4可以看出,日常類作品的發(fā)布數量最多,共計278 條,占據總量的27.83%,與視頻播放總量的最大值基本保持一致。摩托車類視頻僅發(fā)布了兩條視頻,與播放總量排名相差較大。通過分析發(fā)布僅一條視頻的類別可以看出,所有類別均位于第三類,除綜合類外播放量均低于2000。對比圖3 可以得出,視頻發(fā)布數量與播放總量之間存在三種情況:低發(fā)布量高播放量、高發(fā)布量低播放量、基本保持一致。

        2.2.1 低發(fā)布量高播放量的藏語作品,以摩托車視頻《中波夫妻摩旅·會說六國語言的麗導在青海竟然被藏語難住了》為典型,該視頻播放量達到55000,而另外一條視頻播放量僅為30。雖然僅有兩條,但因其視頻播放量較大,影響了其屬類別播放總量。另外,在該視頻的686 條彈幕中出現較多的為剪輯手法、風景優(yōu)美、高質量視頻等。個人分析,該視頻能具有遠遠高于其他同類視頻的播放量,主要因其標題足夠吸引觀眾,以及高質量的攝像、剪輯手法,以及其視頻配樂和視頻內容中的藏族文化等收獲了較多的關注,提高了摩托車類視頻的播放總量。

        2.2.2 對高發(fā)布量低播放量視頻的情況分析,此處以繪畫類視頻為例,此類視頻發(fā)布共計19 條,平均每條視頻播放量在65點,播放量較低。由同一作者發(fā)布的達到18 條,該作者發(fā)布的視頻均以“竹筆手寫”或“藏語寫城市”為主題。個人分析,雖視頻播放量較低,但視頻作者對該類視頻喜好程度較高或視頻發(fā)布類型為主題類需要定期發(fā)布更新,故該類視頻發(fā)布數量較多。

        2.2.3 對于播放總量和發(fā)布數量基本保持一致的這部分視頻,在篩選出的999 條視頻中占比最大。此處以第三類視頻為例,該類視頻播放總量較低,發(fā)布數量較少。個人分析,用戶對這些類別關注度低,受眾少,故導致多數作者不選擇發(fā)布該類別視頻。

        2.3 藏語主題視頻發(fā)布熱度和播放熱度走勢

        圖5為嗶哩嗶哩藏語主題視頻發(fā)布熱度和播放熱度走勢圖,圖中用藍線表示視頻播放總量,紅線表示視頻發(fā)布數量。

        圖5 嗶哩嗶哩平臺藏語主題視頻發(fā)布熱度和播放熱度走勢圖

        圖5中藏語主題視頻發(fā)布熱度和播放熱度在多個時間段均有較高的峰值,分別是2016 年9 月中旬、2020 年11 月下旬、2021 年4 月下旬、2021 年7 月初、2022 年1 月下旬、2022 年2 月中旬。其中,2020 年11月下旬和2022 年1 月下旬的發(fā)布量與播放量均出現峰值,二者基本保持一致。2021年4月下旬和2022年2 月中旬均為發(fā)布數量出現峰值,而播放量則位于低位,二者差距顯著。通過對視頻數據進行分析發(fā)現,2021 年4 月20 日和2021 年4 月28 日由同一作者發(fā)布了22 條校園學習類作品,平均播放量大致在400 左右且均為以藏語學習為主題,需要定期更新。2022 年2月同樣由1~3名作者發(fā)布了較多視頻但播放量普遍位于50以下,這也導致了此類視頻觀看量要遠低于其發(fā)布量。2016年9月中旬和2021年7月初出現了播放總量小高峰,通過數據分析發(fā)現,高播放量視頻分別屬影視剪輯和音樂現場類,觀看量分別達到26.9 萬和22萬,極大拉高了同期的視頻數據且兩類視頻均與音樂有關。2021 年7 月29 日發(fā)布的音樂現場視頻達到3.7萬播放量,且同樣為藏語歌曲。據此推斷,嗶哩嗶哩用戶比較喜歡歌曲類藏語視頻。由此可見,在藏語推廣和藏文化傳承中,音樂形式的傳播不失為一個好方法。

        根據表4,可以發(fā)現在999 條視頻作品中2022 年僅兩個月發(fā)布視頻就達到142 條,超過其它年限的月發(fā)布量,并且可以看出近年來藏語視頻發(fā)布數量增幅明顯,說明用戶對藏語視頻的興趣增強。

        表4 嗶哩嗶哩藏語作品年發(fā)布數量表

        總體而言,發(fā)布熱度與播放熱度的走勢基本一致,存在少部分時間段差異比較顯著,究其原因為部分視頻觀看量較大或個別作者同一時間段發(fā)布大量作品,拉高或者拉低了數據。

        2.4 藏語主題視頻播放數量Top10

        根據表5 所示的藏語主題視頻排名數據,制作的視頻播放量Top10 柱狀圖如圖6 所示。其中排名第一的為《牧民說“扎西德勒”該咋回?藏族姑娘的藏語小課堂,你聽懂幾句》,遠超排名第二的《丁真藏語播報四川新聞沉穩(wěn)得體聲音蘇~~》、排名第三的視頻《藏語《紅河谷》寧靜唱祝酒歌+次仁拉索(好聽哭了)》和其它視頻。分析發(fā)現排名前列的視頻均位于第一類作品,與視頻各類播放總量基本保持一致。另外,在這些視頻中日常類作品具有3 條,以音樂為主題的占據5條,人文歷史、手機游戲、校園學習類各占據1條。據此分析,音樂等旋律類的作品更受用戶青睞,而且當視頻中出現受大眾歡迎的人物時用戶會停留下來觀看視頻并發(fā)送彈幕參與到視頻討論中。

        圖6 嗶哩嗶哩平臺藏語主題視頻播放數量排名前10柱狀圖

        表5 嗶哩嗶哩藏語視頻播放量排名表

        3 數據相關性分析

        本文利用SPSS 對數據預處理后的藏語視頻彈幕數量、播放量、更新日期進行正態(tài)性檢驗,得到如表6所示的結果[8]。發(fā)現三者均出現的情況,均不服從正態(tài)分布,使用Pearson 相關系數不能正確展示兩個變量之間的關系,故本文利用Spearman 秩相關系數(也稱等級相關系數)進行具體分析,并得到表7。

        表6 藏語視頻彈幕數量、視頻播放量、更新日期正態(tài)分布檢驗結果

        相關系數r的取值范圍為:-1≤r≤1。

        0<|r|<1表示不同程度的相關性。

        由表7可知視頻播放量、彈幕數量、更新日期之間具有不同程度的相關性。其中,播放量與彈幕數量(r=0.707,P<0.01)為顯著正相關關系,更新日期與播放量(r=-0.522,P<0.01)呈顯著負相關關系,更新日期與彈幕數量(r=-0.306,P<0.01)呈現低度負相關關系??梢苑治龅贸霾シ帕扛叩囊曨l彈幕數量較高,更新日期較早的視頻播放量和彈幕數量相對較高。

        表7 藏語視頻播放量、彈幕數量、更新日期之間的相關性分析

        根據上文所述,嗶哩嗶哩平臺在綜合排序下所顯示的早期視頻數量較少,而這些視頻之所以能在平臺的推薦機制下留存,與其播放量高、評論量多等因素息息相關,隨著平臺的繼續(xù)推送,這些視頻的播放量、彈幕數量會在原先基礎上繼續(xù)增長,因此更新日期與兩者均呈現為顯著線性相關。播放量高的視頻,因其視頻特點,用戶在觀看過程中會參與到討論中;同樣的,彈幕數量較多的視頻用戶會因好奇、期待等心理繼續(xù)觀看視頻,因而二者呈現為顯著線性相關。

        4 結論

        新媒體平臺的發(fā)展為藏語及藏文化的傳播拓寬了途徑。本文利用Python、SPSS 等工具對藏語作品播放數據進行收集、數據分析及可視化,通過分析播放量、發(fā)布量與類別之間關系,推測出作品的觀看熱度與視頻作者、視頻內容涉及用戶關注的人或事件、作品發(fā)布的時間等有關。作品發(fā)布熱度與當時發(fā)生的具體事件以及作品的主要形式等有關。

        本文間接展示了視頻網站在少數民族文化傳播方面的作用和影響力,以期更好地繼承和發(fā)揚藏語等非物質文化遺產,為少數民族文化相關研究提供參考支持。

        猜你喜歡
        藏語嗶哩彈幕
        消費保嗶哩嗶哩官方賬號廣告
        消費電子(2023年11期)2023-12-14 06:13:14
        彈幕
        淺談藏語中的禮儀語
        客聯(2022年2期)2022-04-29 22:05:07
        HOLLOW COMFORT
        漢語世界(2021年2期)2021-04-13 02:36:18
        嗶哩嗶哩商業(yè)模式分析——基于商業(yè)模式六要素理論
        漢藏語及其音樂
        中國音樂學(2020年2期)2020-12-14 03:07:24
        “彈幕”防御大師
        嗶哩嗶哩2019年全年營收67.8億元同比增長64%
        綜藝報(2020年6期)2020-01-21 14:11:23
        月活數據激活嗶哩嗶哩商業(yè)模式如何定義仍是難點
        一大撥彈幕正在向你襲來……
        成人免费a级毛片| 亚洲专区一区二区三区四区五区| 亚洲天堂亚洲天堂亚洲色图| 亚洲性久久久影院| 熟妇人妻中文av无码| 九九久久精品大片| 麻豆成人久久精品一区| 亚洲妇熟xxxx妇色黄| 亚洲欧美国产双大乳头| 国产极品美女到高潮视频| 一区二区中文字幕在线观看污污| 情人伊人久久综合亚洲| 最好看2019高清中文字幕视频| 国产网友自拍亚洲av| 女同三级伦理在线观看| 欧美乱人伦人妻中文字幕| 午夜性刺激免费视频| 少妇久久高潮不断免费视频| 洲色熟女图激情另类图区| 国产免费人成视频在线| 欧美人妻aⅴ中文字幕| 色偷偷88888欧美精品久久久| 水蜜桃视频在线观看免费18| 国产91色综合久久高清| 日本高清h色视频在线观看| 中文字幕久久久久人妻无码 | 人妻有码中文字幕在线| 丰满少妇作爱视频免费观看 | 亚洲一区久久蜜臀av| 午夜成人理论福利片| 亚洲深深色噜噜狠狠爱网站| 亚洲精品无人区一区二区三区 | 国产精品久久婷婷婷婷| 午夜精品男人天堂av| 樱桃视频影院在线播放 | 亚洲国产精品无码久久九九大片健| 色婷婷久久综合中文蜜桃| 麻豆精品国产精华液好用吗| 国产美女在线一区二区三区| 日本熟妇裸体视频在线| 午夜三级a三级三点在线观看|