亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視頻網(wǎng)站評(píng)論數(shù)據(jù)處理及分析

        2022-02-24 00:08:31劉渝妍洪孫焱曹嘉晨
        計(jì)算機(jī)時(shí)代 2022年2期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲大數(shù)據(jù)

        劉渝妍 洪孫焱 曹嘉晨

        摘? 要: 視頻網(wǎng)站的用戶評(píng)論、彈幕逐漸成為視頻內(nèi)容之外的一個(gè)引起熱議的話題。視頻評(píng)論作為新的文化產(chǎn)品和文化形式,引起了社會(huì)的關(guān)注。文章以B站為例,通過網(wǎng)絡(luò)爬蟲收集數(shù)據(jù),利用大數(shù)據(jù)相關(guān)技術(shù),對(duì)評(píng)論數(shù)據(jù)進(jìn)行處理分析,并以詞云圖及散點(diǎn)圖的方式呈現(xiàn)用戶的關(guān)注點(diǎn)及語(yǔ)言表達(dá)的差異性,直觀地為相關(guān)研究提供參考。

        關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲; 大數(shù)據(jù); 評(píng)論數(shù)據(jù); 詞云圖; 散點(diǎn)圖

        中圖分類號(hào):TP311? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)02-76-04

        Processing and analysis of the video website comments data

        ——Taking Station B as an example

        Liu Yuyan, Hong Sunyan, Cao Jiachen

        (College of Information Engineering,Kunming University, Kunming, Yunnan 650214, China)

        Abstract: User comments and bullet screens of video websites have gradually become a hot topic outside the video content. As a new cultural product and form, video commentary has attracted social attention. Taking the station B as an example, this paper collects data through Web crawlers, processes and analyzes the comments data by using big data related technologies, and presents the differences of users' concerns and language expression in the form of word cloud diagram and scatter diagram, so as to intuitively provide reference for relative researches.

        Key words: Web crawler; big data; comments data; word cloud map; scatter diagram

        0 引言

        B站,即嗶哩嗶哩(bilibili)視頻網(wǎng)站,誕生于2009年,是通過視頻表現(xiàn)形式傳播文化的網(wǎng)站,其發(fā)展至今已躋身于國(guó)內(nèi)最大的實(shí)時(shí)彈幕視頻網(wǎng)站之列。B站作為一個(gè)創(chuàng)作、分享、討論交流的平臺(tái),激勵(lì)用戶自制原創(chuàng)視頻成為UP主[1],吸引了越來越多的年輕人選擇在B站上創(chuàng)作視頻。據(jù)統(tǒng)計(jì),B站平均每月產(chǎn)生約14億次視頻評(píng)論,其彈幕文化已作為青年亞文化的一種新的文化產(chǎn)品和文化形式,我們應(yīng)當(dāng)本著尊重和理解的態(tài)度嘗試去了解它[2]。本文以B站視頻評(píng)論數(shù)據(jù)為基礎(chǔ)數(shù)據(jù),利用大數(shù)據(jù)技術(shù)對(duì)其進(jìn)行處理與分析。

        1 相關(guān)概念及技術(shù)

        ⑴ 大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。

        ⑵ Python是一種跨平臺(tái)的程序設(shè)計(jì)語(yǔ)言。其爬蟲工具包使用方便,為數(shù)據(jù)抓取提供了可能[3]。調(diào)用jieba.cut實(shí)現(xiàn)視頻評(píng)論分詞;調(diào)用MLlib庫(kù)計(jì)算TF-IDF權(quán)重值和余弦相似度;調(diào)用Matplotlib、WordCloud庫(kù)繪制詞云圖和相似散點(diǎn)圖。

        ⑶ Spark作為大數(shù)據(jù)領(lǐng)域受到廣泛青睞的一代框架,通過調(diào)用Spark MLlib中的函數(shù),構(gòu)造評(píng)論數(shù)據(jù)特征向量。

        ⑷ 網(wǎng)絡(luò)爬蟲是一種自動(dòng)收集網(wǎng)絡(luò)頁(yè)面信息的機(jī)器人程序,也被稱之為網(wǎng)絡(luò)蜘蛛[4]。

        ⑸ 正則表達(dá)式是一種字符串匹配模式,在處理自然語(yǔ)言文本數(shù)據(jù)之前常用于對(duì)查找結(jié)果毫無(wú)幫助的字或英文、數(shù)字、表情符號(hào)、特殊符號(hào)等進(jìn)行過濾[5]。

        ⑹ TF-IDF(Term Frequency-Inverse Document Frequency)詞頻-逆向文件頻率統(tǒng)計(jì)方法。

        TF表示文檔中詞條出現(xiàn)的頻率,其公式為:

        IDF表示文檔集中包含詞條的文檔總數(shù),是一個(gè)詞條重要性的度量,其公式為:

        公式⑵中分母為包含詞條的文檔數(shù)+1,是為了避免分母為零。

        TF-IDF公式為:

        TF-IDF=TF*IDF? ⑶

        ⑺ 余弦相似度是通過計(jì)算兩個(gè)向量之間余弦值大小來判斷向量的相似度,余弦值接近1,夾角趨于0,表明兩個(gè)文本越相似。余弦相似度計(jì)算公式為:

        式中,A為B分別為對(duì)比的兩個(gè)向量。

        2 B站視頻評(píng)論數(shù)據(jù)分析

        B站視頻評(píng)論數(shù)據(jù)分析框架如圖1所示。

        2.1 數(shù)據(jù)采集

        2.1.1 接口獲取

        數(shù)據(jù)爬取接口可通過B站開放的API接口獲取。打開B站總榜頁(yè)面,選擇任意板塊進(jìn)入開發(fā)者模式,即可直接抓取相應(yīng)的數(shù)據(jù)(僅爬取評(píng)論本身內(nèi)容,對(duì)發(fā)布評(píng)論的用戶信息不進(jìn)行爬?。?。如,要抓取音樂板塊數(shù)據(jù),只需在下列網(wǎng)址中設(shè)置rid=3,即可獲得音樂板塊下的所有JSON格式視頻數(shù)據(jù)。

        api.bilibili.com/x/web-interface/ranking/v2?rid=3&type=all

        2.1.2 爬蟲實(shí)現(xiàn)步驟

        ⑴ 設(shè)置代理IP

        通過設(shè)置代理IP(Internet Protocol),可突破網(wǎng)站對(duì)訪問者進(jìn)行限制。如,定義代理IP為:

        proxys={'http':'http://115.223.7.208:80',……}

        將其作為參數(shù)傳入requests請(qǐng)求即可實(shí)現(xiàn)數(shù)據(jù)爬取。

        xml_data=str(requests.get(xml_url,headers=headers,

        proxies=proxys).content,encoding="utf-8")

        ⑵ 爬取視頻評(píng)論內(nèi)容

        l 定義視頻板塊字典

        rid_dict={"全站":0,"動(dòng)畫":1,"音樂":3,"游戲":4,"娛樂":5,

        "科技":36,……}

        字典中鍵值對(duì)格式為{板塊名稱:板塊編號(hào)},板塊編號(hào)通過url請(qǐng)求從api中獲取。

        l 遍歷板塊字典對(duì)應(yīng)網(wǎng)址

        url="https://api.bilibili.com/x/web-interface/ranking/v2?rid=

        {}&day={}".format(rid,day)

        requests.get(url,headers=headers)

        l 向網(wǎng)站發(fā)起請(qǐng)求獲取數(shù)據(jù)

        res=url_get(url=url,mode="json")

        l 存儲(chǔ)數(shù)據(jù)到csv文件中

        with open("{}/{}.csv".format(save_path,k),……:

        2.2 數(shù)據(jù)預(yù)處理

        通過數(shù)據(jù)預(yù)處理提高后期數(shù)據(jù)處理的準(zhǔn)確率和效率。

        2.2.1 評(píng)論數(shù)據(jù)清洗

        使用正則表達(dá)式將文本中的標(biāo)點(diǎn)符號(hào)替換為空字符,獲取沒有干擾的純文本數(shù)據(jù)。

        pattern=re.compile(r'[\s+\\r\\u3000\\!\/_,;

        ’:‘“”$%^*(+\"\']+|,……)

        data_re=rdd.map(lambda x:re.sub(pattern,'##',x))

        .map(lambda x:list(set(x.split("##"))))

        2.2.2 評(píng)論本文分詞

        jieba庫(kù)是優(yōu)秀的中文分詞第三方庫(kù),實(shí)現(xiàn)評(píng)論分詞如下:

        words=jieba.cut(strings,cut_all=False)

        2.3 數(shù)據(jù)處理

        2.3.1 詞條特征向量構(gòu)建

        SparkMLlib將詞條特征通過hashing函數(shù)實(shí)現(xiàn)詞頻統(tǒng)計(jì)。但不同的詞條特征可能會(huì)得到相同的哈希值而產(chǎn)生hash沖突,本文以增加哈希表的桶數(shù)來避免沖突。

        l 調(diào)用HasdingTf的transform把詞條哈希成特征向量,設(shè)哈希表的桶數(shù)為2000。

        hashingTF=HashingTF(inputCol="words",

        outputCol="rawFeatures",numFeatures=2000)

        featurizeData=hashingTF.transform(wordsData)

        l 調(diào)用IDF對(duì)詞頻特征向量進(jìn)行修正,提高不同詞匯對(duì)文本的區(qū)別能力。

        idf=IDF(inputCol="rawFeatures",outputCol="features")

        idfModel=idf.fit(featurizeData)

        l 調(diào)用transform,得到每一個(gè)單詞對(duì)應(yīng)的TF-IDF度量值。

        rescaledData=idfModel.transform(featurizeData)

        2.3.2 評(píng)論相似度計(jì)算

        對(duì)TF-IDF值進(jìn)行歸一化處理,構(gòu)建評(píng)論相似度權(quán)重向量。

        normalizer=Normalizer(inputCol="features",

        outputCol="norm")

        data=normalizer.transform(rescaledData)

        2.4 數(shù)據(jù)可視化及分析

        通過可視化方式,將人們看不懂的數(shù)據(jù)通過圖形化的手段進(jìn)行有效的表達(dá),能準(zhǔn)確高效、簡(jiǎn)潔全面地傳遞某種信息,幫助人們分析和推理數(shù)據(jù),挖掘數(shù)據(jù)背后的價(jià)值,使復(fù)雜的數(shù)據(jù)更容易理解和使用。

        2.4.1 熱評(píng)詞云圖繪制

        詞云是數(shù)據(jù)可視化的一種形式,是對(duì)評(píng)論、彈幕中出現(xiàn)頻率較高的關(guān)鍵詞予以視覺上的突出,形成關(guān)鍵詞云層。通過詞云的方式展現(xiàn)出更多的話題,更直觀的呈現(xiàn)當(dāng)前時(shí)段用戶的關(guān)注點(diǎn)。WordCloud是一個(gè)詞云生成器,以詞條為基本單位,通過圖形可視化的方式展示。繪制詞云圖的主要步驟如下:

        l 繪制矩形詞云圖

        wordcloud=WordCloud(font_path="AaLiFangTi.ttf",

        background_color="white",width=800,height=600)

        l 根據(jù)TF-IDF權(quán)重生成詞云

        wordcloud.generate_from_frequencies(dict(tdidf

        .extract_keywords(open(document,'r',encoding='utf-8',

        errors='ignore').read(),None)))

        l 顯示詞云

        plt.imshow(wordcloud,interpolation="bilinear")

        本文抓取四月初的數(shù)據(jù),繪制視頻熱評(píng)詞云圖如圖2所示(B站的評(píng)論具有實(shí)時(shí)性,對(duì)不同時(shí)間段爬取的數(shù)據(jù),結(jié)果可能不一樣)。

        從圖2看出,一方面,用戶關(guān)注的內(nèi)容多以大學(xué)、學(xué)院為主,左上角以及在詞云四周分布的各類院校名稱,說明用戶對(duì)知名度較高的院校非常關(guān)注。數(shù)據(jù)來源于四月初臨近高考,說明用戶對(duì)高考的關(guān)注度較高。在詞云圖右上角的師范大學(xué)說明師范教育被大家所重視,教師職業(yè)被越來越多的人接受。另一方面B站用戶中學(xué)生所占比例較大,他們所關(guān)注的輿論熱點(diǎn)也是積極的。

        2.4.2 評(píng)論散點(diǎn)圖繪制

        通過空間點(diǎn)的分布不但能展現(xiàn)評(píng)論整體的差異分布,還能直觀呈現(xiàn)大眾的語(yǔ)言方式、表達(dá)結(jié)果是否接近。為解決評(píng)論整體相似結(jié)果在空間難以表示的問題,本文借鑒散點(diǎn)圖,利用x軸,將聚集數(shù)據(jù)展開至二維空間,每一個(gè)點(diǎn)代表隨機(jī)兩條評(píng)論的相似度,橫軸x的位置隨機(jī)分布解決堆積現(xiàn)象,不影響結(jié)果;縱軸y是余弦值,點(diǎn)越靠近1,說明相似度越大。繪制評(píng)論散點(diǎn)圖的主要步驟如下。

        l 定義評(píng)論數(shù)據(jù)板塊

        Ranklist=['全站','動(dòng)畫','音樂','游戲','娛樂','科技','鬼畜',……]

        l 遍歷評(píng)論數(shù)據(jù)板塊生成相似度字典

        for i in ranklist:

        fn=glob.glob(r'./result/'+i+'/*.csv')

        with open(str(fn[0]),"r",encoding="utf-8")as f:

        reader=csv.reader(f)

        rows=[row[2]for row in reader]

        l 繪制評(píng)論相似散點(diǎn)圖

        for i in rows:

        plt.scatter(random.random(),i)

        plt.show()

        以四月初的數(shù)據(jù)為例,繪制視頻評(píng)論散點(diǎn)圖如圖3所示。

        從圖3可知,一方面,絕大多數(shù)評(píng)論相似度較低,盡管用戶關(guān)注的內(nèi)容類似,年輕人不盲目跟風(fēng)評(píng)論,但并沒有使用相似的語(yǔ)言作為評(píng)論,體現(xiàn)了B站用戶語(yǔ)言表達(dá)的高度差異化。另一方面,年輕人容易接受新事物,B站是視頻投稿的聚集地,任何人都可以在網(wǎng)上接觸到他人的投稿視頻進(jìn)行二次加工,并通過語(yǔ)言輸出觀點(diǎn)表達(dá)自我,有著很強(qiáng)的個(gè)人主義色彩,這就讓社會(huì)對(duì)他們充滿了期待。

        3 結(jié)束語(yǔ)

        如今,95后、00后等新一代青年群體在互聯(lián)網(wǎng)環(huán)境中形成自己的文化,呈現(xiàn)出個(gè)性化、多元化、反傳統(tǒng)等特征[6]。面對(duì)互聯(lián)網(wǎng)下青年群體的思想觀念變化,需要全社會(huì)的關(guān)注,因此,對(duì)視頻評(píng)論數(shù)據(jù)的分析具有十分重要的意義。

        目前對(duì)視頻網(wǎng)站的研究主要集中在如何提高有效播放量、市場(chǎng)滲透率等商業(yè)模式上,對(duì)視頻評(píng)論這種新的文化產(chǎn)品和文化形式呈現(xiàn)的內(nèi)容分析研究較少。本文充分利用大數(shù)據(jù)相關(guān)技術(shù)實(shí)現(xiàn)了視頻評(píng)論數(shù)據(jù)的處理,并通過可視化的方式為社會(huì)了解年輕人所追求的社會(huì)價(jià)值觀,做好年輕人的思想教育工作提供了參考。同時(shí),此數(shù)據(jù)處理方法也為網(wǎng)絡(luò)熱搜數(shù)據(jù)分析、網(wǎng)絡(luò)輿控制提供了方法借鑒。

        參考文獻(xiàn)(References):

        [1] 王涵.嗶哩嗶哩動(dòng)畫現(xiàn)狀及未來展望[J].產(chǎn)業(yè)與科技論壇,2020(24):13-15

        [2] 張峰.彈幕視頻網(wǎng)站的青年亞文化分析—以嗶哩嗶哩網(wǎng)為例[J].藝術(shù)科技,2017(2):86

        [3] 吳永聰.淺談Python爬蟲技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)抓取與分析[J].計(jì)算機(jī)時(shí)代,2019(8):94-96

        [4] 李彥.基于Python的網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電子世界,2021(3):39-40

        [5] 馬夢(mèng)曦.基于彈幕文本挖掘的情感極性分析研究[D].武漢理工大學(xué)碩士學(xué)位論文,2019

        [6] 吳瑩.共青團(tuán)中央在嗶哩嗶哩網(wǎng)站上的傳播經(jīng)驗(yàn)分析[J].傳播力研究,2019(17):259-260

        猜你喜歡
        網(wǎng)絡(luò)爬蟲大數(shù)據(jù)
        煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
        淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲流量
        網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究
        青青草成人免费播放视频| 亚洲精品~无码抽插| 亚洲日韩一区二区三区| 国产成人一区二区三区在线观看| 亚洲欧美一区二区三区国产精| 校花高潮一区日韩| 精品亚洲一区二区三区在线播放| 乱子轮熟睡1区| 野外少妇愉情中文字幕| 天天躁人人躁人人躁狂躁| 国内精品一区二区2021在线| 一区二区三区视频偷拍| 日韩午夜理论免费tv影院 | 人妻少妇精品专区性色av| 亚洲都市校园激情另类| 国产av三级精品车模| 99国产精品久久久久久久成人热 | 久久久av波多野一区二区| 1000部夫妻午夜免费| 日韩在线视精品在亚洲| 开心五月激情五月天天五月五月天| 丁香婷婷在线成人播放视频| 亚洲av精品一区二区三区| 男受被做哭激烈娇喘gv视频| 国产综合第一夜| 东京热加勒比国产精品| 国产成人精品2021| 国产欧美日韩在线观看| 亚洲一区二区三区在线| 久久99精品综合国产女同| 亚洲av无码专区在线观看下载| 亚洲妇女水蜜桃av网网站| 国产在线观看不卡网址| 国产亚洲av另类一区二区三区| 国产成年无码v片在线| 亚洲一区二区三区久久蜜桃| 亚洲一区二区一区二区免费视频| 国产欧美高清在线观看| 国产亚洲一区二区手机在线观看 | 日本视频一中文有码中文| 国产成人亚洲综合色婷婷 |