亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)爬蟲技術(shù)的元宇宙評(píng)論文本挖掘分析

        2022-05-01 12:55:16潘天岳
        關(guān)鍵詞:共詞分析網(wǎng)絡(luò)爬蟲文本挖掘

        潘天岳

        摘要:元宇宙是連接虛擬與現(xiàn)實(shí)的超級(jí)數(shù)字媒介,將引領(lǐng)未來(lái)世界的互聯(lián)網(wǎng)變革,也將對(duì)個(gè)體用戶的網(wǎng)絡(luò)生活產(chǎn)生深刻影響。利用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)Bilibili視頻彈幕網(wǎng)站上的274個(gè)元宇宙相關(guān)視頻頁(yè)面進(jìn)行爬取并得到3 070條評(píng)論,通過對(duì)所得評(píng)論進(jìn)行文本詞頻分析、構(gòu)建詞云圖、共詞分析、社會(huì)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)分析以及情感分析,發(fā)現(xiàn)Z世代用戶對(duì)元宇宙這一概念擁有基本認(rèn)知;元宇宙在游戲領(lǐng)域的應(yīng)用備受Z世代用戶關(guān)注;大量用戶認(rèn)為元宇宙是資本套利的工具,將對(duì)個(gè)人與社會(huì)產(chǎn)生消極影響;部分用戶對(duì)元宇宙相關(guān)技術(shù)的實(shí)現(xiàn)持懷疑態(tài)度。以上結(jié)論揭示了Z世代用戶對(duì)元宇宙這一新技術(shù)的感受和評(píng)價(jià),對(duì)元宇宙的引入、推廣與創(chuàng)新具有參考價(jià)值。

        關(guān)鍵詞:元宇宙;網(wǎng)絡(luò)爬蟲;文本挖掘;詞頻分析;共詞分析

        中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2022)05-63-4

        0引言

        2021年10月28日,Mark Zuckerberg宣布Facebook將正式改名為Meta,由此在全球引發(fā)元宇宙的熱潮。元宇宙這一概念由美國(guó)作家Neal Stephenson在科幻小說《雪崩》中首次提出,其含義是一個(gè)與現(xiàn)實(shí)世界相平行的虛擬世界,所有生活在現(xiàn)實(shí)中的人類都有一個(gè)網(wǎng)絡(luò)化身,從而能與虛擬人在元宇宙中共同生活。伴隨技術(shù)進(jìn)步,如今元宇宙被定義為集各種數(shù)字技術(shù)于一體、連接現(xiàn)實(shí)與虛擬世界的超級(jí)數(shù)字媒介,其本質(zhì)是對(duì)未來(lái)社會(huì)形態(tài)的描繪與建構(gòu)[1]。

        作為年輕的“互聯(lián)網(wǎng)原住民”,出生于1995—2009年的Z世代,將在未來(lái)成為元宇宙用戶群體的重要組成部分,其社會(huì)生活也將因元宇宙而發(fā)生改變。為了解Z世代群體對(duì)于元宇宙這一新興概念的認(rèn)知與評(píng)價(jià),本文利用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)擁有龐大Z世代用戶群體的視頻彈幕網(wǎng)站(Bilibili)進(jìn)行數(shù)據(jù)挖掘,并對(duì)得到的評(píng)論文本進(jìn)行文本詞頻分析、構(gòu)建詞云圖、共詞分析、社會(huì)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)分析以及情感分析,對(duì)今后元宇宙相關(guān)產(chǎn)業(yè)的發(fā)展具有一定借鑒意義。

        1數(shù)據(jù)采集

        網(wǎng)絡(luò)爬蟲是一種自動(dòng)下載網(wǎng)絡(luò)資源的程序[2]。網(wǎng)絡(luò)爬蟲能夠從指定的視頻網(wǎng)頁(yè)出發(fā),通過分析網(wǎng)頁(yè)內(nèi)的標(biāo)記結(jié)構(gòu),獲取指向其他頁(yè)面的超級(jí)鏈接,然后根據(jù)既定的搜索策略選擇下一個(gè)要訪問的站點(diǎn)[3]。本文利用后羿采集器對(duì)Bilibili視頻彈幕網(wǎng)站進(jìn)行數(shù)據(jù)爬取,最終得到274個(gè)元宇宙相關(guān)視頻的3 070條評(píng)論。

        2數(shù)據(jù)分析

        2.1詞頻分析

        使用ROST Content Mining 6軟件分析所得評(píng)論文本。首先,進(jìn)行分詞處理。由于網(wǎng)絡(luò)的快速發(fā)展以及新技術(shù)的大量涌現(xiàn),ROST Content Mining原有的自定義詞表已無(wú)法滿足本文的分析要求。通過擴(kuò)充自定義詞表,元宇宙、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等新興專有名詞能夠被完整保留,分詞結(jié)果也因此更加精準(zhǔn)、有效。

        經(jīng)過排除單字詞、排除“罷了”等停用詞、輸出排名前50的詞語(yǔ)等操作后,得到元宇宙相關(guān)評(píng)論中高頻詞的統(tǒng)計(jì)結(jié)果如表1所示。剔除掉主題詞元宇宙后,綜合來(lái)看,在Bilibili視頻網(wǎng)站上的元宇宙相關(guān)評(píng)論中,與元宇宙概念相關(guān)的關(guān)鍵詞出現(xiàn)頻次最多,如:“現(xiàn)實(shí)”(6.8%),“人類”(3.7%),“虛擬世界”(3.5%)等。

        2.2詞云圖

        詞云由西北大學(xué)教授Rich Gordon于2006年首先提出并使用。詞云圖通過關(guān)鍵詞云層或關(guān)鍵詞渲染過濾大量文本信息,并對(duì)評(píng)論文本中出現(xiàn)頻率較高的關(guān)鍵詞進(jìn)行視覺突出,使觀者簡(jiǎn)單瀏覽詞云便可明確文本主旨[4]。

        本文利用微詞云生成了元宇宙相關(guān)評(píng)論詞云圖,如圖1所示,清晰地顯示了“現(xiàn)實(shí)”“人類”“技術(shù)”“概念”“世界”“資本”等高頻詞匯,并以文字粗細(xì)、深淺、大小對(duì)不同關(guān)鍵詞的出現(xiàn)頻次進(jìn)行區(qū)分。

        2.3共詞分析

        共詞分析是通過統(tǒng)計(jì)文本中集中出現(xiàn)的詞匯,分析某一研究主題或研究方向的專業(yè)術(shù)語(yǔ)共同出現(xiàn)在一個(gè)評(píng)論文本中的現(xiàn)象[5]。本文運(yùn)用ROST Content Mining 6軟件對(duì)評(píng)論文本完成提取高頻詞、過濾無(wú)意義詞、提取行特征、構(gòu)建網(wǎng)絡(luò)、構(gòu)建矩陣等操作,統(tǒng)計(jì)每2個(gè)關(guān)鍵詞共同出現(xiàn)在一個(gè)評(píng)論文本中的次數(shù),進(jìn)而形成原始共詞矩陣(標(biāo)題行與標(biāo)題列相同,為便于顯示,標(biāo)題行用序號(hào)1~30替代)。原始矩陣中對(duì)角線上的數(shù)字表示對(duì)應(yīng)關(guān)鍵詞出現(xiàn)的總頻次,如關(guān)鍵詞“元宇宙”出現(xiàn)了1 010次,“現(xiàn)實(shí)”出現(xiàn)了306次;非對(duì)角線上的數(shù)字表示相應(yīng)的2個(gè)關(guān)鍵詞同時(shí)出現(xiàn)于一個(gè)文本的頻次,如“元宇宙”與“現(xiàn)實(shí)”出現(xiàn)了124次,說明有124條評(píng)論文本同時(shí)使用了“元宇宙”與“現(xiàn)實(shí)”,部分元宇宙相關(guān)評(píng)論共詞矩陣,如表2所示。

        在計(jì)量化共詞分析中,為了真正反映關(guān)鍵詞間的相互依賴程度,進(jìn)而揭示其共現(xiàn)關(guān)系,需要對(duì)原始矩陣進(jìn)行包容化處理,構(gòu)建相關(guān)矩陣[6]。利用Microsoft Visual Basic for Applications以及Ochiai系數(shù)計(jì)算公式可將元宇宙相關(guān)評(píng)論共詞矩陣轉(zhuǎn)換為相關(guān)矩陣,部分元宇宙相關(guān)評(píng)論相關(guān)矩陣如表3所示。

        相關(guān)矩陣中的數(shù)值表示元宇宙相關(guān)評(píng)論中2個(gè)關(guān)鍵詞之間的距離,取值[0,1],其數(shù)值越大,說明2個(gè)關(guān)鍵詞之間的距離越小、關(guān)聯(lián)度越高;反之則說明關(guān)鍵詞之間的距離越大、關(guān)聯(lián)度越低[7]。如“元宇宙”與“現(xiàn)實(shí)”的Ochiai系數(shù)為0.223,“元宇宙”與“游戲”的Ochiai系數(shù)為0.141,說明“元宇宙”與“游戲”較“元宇宙”與“現(xiàn)實(shí)”距離更大、關(guān)聯(lián)度更低。此外,相關(guān)矩陣中主對(duì)角線上的數(shù)值皆為1,表示某關(guān)鍵詞與自身完全相關(guān)。

        為了減小誤差并且便于分析,用1與元宇宙相關(guān)評(píng)論相關(guān)矩陣中的各個(gè)數(shù)值相減,得到反映元宇宙相關(guān)評(píng)論中2個(gè)關(guān)鍵詞之間差異程度的相異矩陣,如表4所示。相異矩陣中的數(shù)值范圍亦為[0,1],但不同于相關(guān)矩陣,相異矩陣中的數(shù)值越大,表示2個(gè)關(guān)鍵詞距離越大,相似度越低;反之則相似度越高[8]。相異矩陣中主對(duì)角線上的數(shù)值皆為0,說明關(guān)鍵詞自身相同。

        2.4社會(huì)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)分析

        語(yǔ)義網(wǎng)絡(luò)是一種以圖的形式呈現(xiàn)的數(shù)據(jù)結(jié)構(gòu),各節(jié)點(diǎn)即關(guān)鍵詞,節(jié)點(diǎn)間的連接表示詞匯間的共現(xiàn)關(guān)系。連接數(shù)量反映了詞匯間關(guān)系的強(qiáng)弱,連接越多說明詞匯間關(guān)系越緊密[9]。

        本文利用數(shù)據(jù)可視化軟件Geghi得到元宇宙相關(guān)評(píng)論語(yǔ)義網(wǎng)絡(luò)圖如圖2所示。該圖的平均路徑長(zhǎng)度為1.978,平均聚類系數(shù)為0.823,每個(gè)圓圈表示一個(gè)元宇宙相關(guān)評(píng)論的關(guān)鍵詞節(jié)點(diǎn),連線表示各節(jié)點(diǎn)間的關(guān)系,顏色表示關(guān)鍵詞的類別。由此,發(fā)現(xiàn)其中的主要聯(lián)系有是“現(xiàn)實(shí)”“概念”“人類”“虛擬”“技術(shù)”“實(shí)現(xiàn)”等為中心的多詞匯聯(lián)系。

        2.5情感分析

        文本情感分析,又稱意見挖掘,是對(duì)帶有情感色彩的主觀性文本如評(píng)論文本等進(jìn)行分析、處理、歸納和推理的過程[10]。本文使用GooSeeker平臺(tái)及其自帶的情感分析詞典完成對(duì)元宇宙相關(guān)評(píng)論文本的情感分析。

        首先,將文本數(shù)據(jù)進(jìn)行分句處理并與情感詞典進(jìn)行匹配,計(jì)算并輸出語(yǔ)句的正負(fù)面情感傾向。情感詞典具有類型、詞語(yǔ)、權(quán)值3個(gè)屬性,部分具有情感色彩的關(guān)鍵詞如表5所示。其中,類型共分為4種,包括正面詞、負(fù)面詞、否定詞和程度詞。正面詞是包含積極情感的詞匯,負(fù)面詞是包含消極情感的詞匯,否定詞是對(duì)語(yǔ)句情感傾向具有反轉(zhuǎn)作用的詞匯,程度詞能夠增強(qiáng)或減弱語(yǔ)句的情感強(qiáng)度。權(quán)值則表示詞匯所表達(dá)情感的強(qiáng)弱程度,正面為正值,負(fù)面為負(fù)值。根據(jù)詞匯的權(quán)值,可計(jì)算得到語(yǔ)句的正面得分與負(fù)面得分,進(jìn)而判斷對(duì)應(yīng)語(yǔ)句的情感傾向。

        之后,依據(jù)正面語(yǔ)句與負(fù)面語(yǔ)句的數(shù)量及各自的正面得分與負(fù)面得分,可計(jì)算得到元宇宙相關(guān)評(píng)論文本的總得分,進(jìn)而對(duì)所得結(jié)果進(jìn)行可視化操作和分析。最終,得到結(jié)果為:在全部評(píng)論文本中,共651條正面評(píng)論,占比21.2%;共1 905條中性評(píng)論,占比62.1%;共510條負(fù)面評(píng)論,占比16.6%。

        3結(jié)論

        3.1 Z世代對(duì)元宇宙有基本認(rèn)知、較客觀評(píng)價(jià)

        “現(xiàn)實(shí)”(5.35%)、“虛擬世界”(2.71%)、“虛擬”(2.34%)、“宇宙”(2.22%)、“未來(lái)”(1.87%)等詞匯出現(xiàn)頻率高且與元宇宙密切相關(guān),說明Bilibili用戶通過觀看相關(guān)視頻已初步了解元宇宙這一概念,并對(duì)元宇宙連接虛擬與現(xiàn)實(shí)的媒介作用擁有基本認(rèn)知。

        3.2元宇宙于游戲領(lǐng)域應(yīng)用備受Z世代關(guān)注

        游戲在評(píng)論中共出現(xiàn)279次,同時(shí)在語(yǔ)義網(wǎng)絡(luò)中也與元宇宙存在極為密切的聯(lián)系,可見Z世代用戶更關(guān)注元宇宙在游戲領(lǐng)域的應(yīng)用。其中,部分用戶認(rèn)為元宇宙就是一個(gè)虛擬游戲,并提到現(xiàn)有的游戲如《刀劍神域》中已經(jīng)開始提供元宇宙的相關(guān)體驗(yàn)。

        3.3大量用戶認(rèn)為元宇宙將產(chǎn)生消極影響

        根據(jù)語(yǔ)義網(wǎng)絡(luò)圖可見元宇宙與“資本”“問題”“韭菜”等關(guān)鍵詞存在較為密切的聯(lián)系。查看原文本,發(fā)現(xiàn)大量評(píng)論提到資本將通過元宇宙進(jìn)一步壓榨普通人,普通人將如同“韭菜”一般被利用乃至“收割”,進(jìn)而人類社會(huì)發(fā)展也將因此受到威脅。

        3.4部分用戶對(duì)元宇宙技術(shù)的實(shí)現(xiàn)持懷疑態(tài)度

        由語(yǔ)義網(wǎng)絡(luò)圖可發(fā)現(xiàn)“技術(shù)”與“實(shí)現(xiàn)”間存在聯(lián)系。利用Excel對(duì)原評(píng)論文本進(jìn)行包含“技術(shù)”與“實(shí)現(xiàn)”2個(gè)關(guān)鍵詞的篩選,發(fā)現(xiàn)篩選結(jié)果中69.23%的用戶對(duì)元宇宙相關(guān)技術(shù)的實(shí)現(xiàn)持懷疑或否定態(tài)度,部分用戶認(rèn)為“現(xiàn)在談(元宇宙)可能還為時(shí)過早,技術(shù)突破不一定跟得上?!?/p>

        4結(jié)束語(yǔ)

        本文利用網(wǎng)絡(luò)爬蟲對(duì)相關(guān)評(píng)論文本進(jìn)行挖掘和分析,揭示用戶對(duì)元宇宙這一新技術(shù)的感受與評(píng)價(jià),對(duì)元宇宙的引入、推廣與創(chuàng)新具有參考價(jià)值。在本文的基礎(chǔ)上,如何改進(jìn)算法以實(shí)現(xiàn)更加精準(zhǔn)的分詞與語(yǔ)義情感分析,將成為未來(lái)研究的改進(jìn)方向。

        參考文獻(xiàn)

        [1]喻國(guó)明,耿曉夢(mèng).何以“元宇宙”:媒介化社會(huì)的未來(lái)生態(tài)圖景[J/OL].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2021, 5:1-8[2021-11-20].https://doi.org/10.14100/j.cnki.65-1039/ g4.20211119.002.

        [2]周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計(jì)算機(jī)科學(xué), 2009,36(8):26-29,53.

        [3]孫易冰,趙子?xùn)|,劉洪波.一種基于網(wǎng)絡(luò)爬蟲技術(shù)的價(jià)格指數(shù)計(jì)算模型[J].統(tǒng)計(jì)研究,2014,31(10):74-80.

        [4]許宏吉,趙文杰,林紅,等.基于信息化詞云技術(shù)的在線教學(xué)效果調(diào)查與可視化分析[J].中國(guó)教育信息化,2021,18:92-96.

        [5]潘佳寶,喻國(guó)明.新聞傳播學(xué)視域下中國(guó)輿論研究的知識(shí)圖譜(1986—2015)———基于文獻(xiàn)計(jì)量學(xué)的研究[J].現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào)),2017,39(9):1-11.

        [6]吳進(jìn).基于文本分析的我國(guó)產(chǎn)業(yè)共性技術(shù)創(chuàng)新政策研究[D].廣州:華南理工大學(xué),2013.

        [7]田麗,余雪麗.基于共詞分析的我國(guó)閱讀推廣研究熱點(diǎn)探析[J].情報(bào)科學(xué),2016,34(12):127-132.

        [8]王志強(qiáng),楊慶梅.我國(guó)創(chuàng)業(yè)教育研究的知識(shí)圖譜———2000—2016年教育學(xué)CSSCI期刊的文獻(xiàn)計(jì)量學(xué)分析[J].教育研究, 2017,38(6):58-64.

        [9]周王安,蔣雯靜,崔雯絢,等.國(guó)內(nèi)四大城市“雙創(chuàng)”政策分析[J].科技管理研究,2021,41(17):47-56.

        [10]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8): 1834-1848.

        猜你喜歡
        共詞分析網(wǎng)絡(luò)爬蟲文本挖掘
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
        煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
        基于德溫特?cái)?shù)據(jù)庫(kù)的關(guān)鍵共性技術(shù)分析
        國(guó)內(nèi)圖書館嵌入式服務(wù)研究主題分析
        從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
        基于文獻(xiàn)計(jì)量分析我國(guó)生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
        基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
        基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
        亚洲精品一区二区网站| 色av综合av综合无码网站| 精品久久久久久无码不卡| 人妻中文字幕av有码在线| 一本久道久久综合久久| 亚洲av综合日韩精品久久久| 一个人午夜观看在线中文字幕| 在厨房拨开内裤进入毛片| 国产顶级熟妇高潮xxxxx| 亚洲国产精品自拍一区| 国产女主播强伦视频网站| av免费在线国语对白| 九九在线中文字幕无码| 亚洲精品字幕| 麻豆五月婷婷| 中文字幕一区二区人妻在线不卡| 久久综合九色综合97婷婷| 轻点好疼好大好爽视频| 亚洲va中文字幕无码久久不卡 | 无码人妻久久一区二区三区免费丨 | 欧美丰满老熟妇aaaa片| 中文字幕av无码免费一区| 免费观看一区二区| 青青草在线成人免费视频| 三级国产精品久久久99| 亚洲综合在线一区二区三区| 放荡的闷骚娇妻h| 亚洲是图一区二区视频| 亚洲无码图| 精品福利一区二区三区| 伊甸园亚洲av久久精品| 蜜臀aⅴ国产精品久久久国产老师 国产精品久久婷婷六月丁香 | 精品久久久久久成人av| 欧美精品一区二区性色a+v| 国产精品自拍首页在线观看| 亚洲乱妇熟女爽到高潮视频高清| 国产亚洲一区二区在线观看 | av无码一区二区三区| 后入内射欧美99二区视频| 好爽~又到高潮了毛片视频| 成人性生交大片免费5|