亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python爬蟲(chóng)的豆瓣電影影評(píng)數(shù)據(jù)可視化分析

        2021-04-04 11:59:28蔡文樂(lè)周晴晴劉玉婷秦立靜
        現(xiàn)代信息科技 2021年18期
        關(guān)鍵詞:可視化

        蔡文樂(lè) 周晴晴 劉玉婷 秦立靜

        摘? 要:利用Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)豆瓣熱度較高的電影《你好,李煥英》的影評(píng)數(shù)據(jù)進(jìn)行了爬蟲(chóng)分析,根據(jù)爬蟲(chóng)所得到的影評(píng)數(shù)據(jù)信息,制作了影評(píng)詞云圖,通過(guò)數(shù)據(jù)可視化技術(shù),對(duì)影評(píng)分?jǐn)?shù)分布、評(píng)論數(shù)量與時(shí)間的關(guān)系,以及評(píng)論數(shù)量與城市分布的關(guān)系進(jìn)行了相關(guān)的分析研究,從而直觀地展示了電影上映后觀眾的觀影感受,同時(shí)也為其他用戶提供了些許觀影參考。

        關(guān)鍵詞:Python;爬蟲(chóng);影評(píng);可視化

        中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)18-0086-05

        Abstract: The Python web crawler technology is used to make the crawler analysis to the film review data of the film Hello, Li Huanying with high popularity of Douban. According to the film review data information obtained by the crawler, the cloud map of film review words is made. Through the data visualization technology, the distribution of film review scores, the relationship between the number of reviews and time, and the relationship between the number of reviews and urban distribution are analyzed and studied, so as to intuitively show the audiences viewing experience after the film is released, and also provide some viewing references for other users.

        Keywords: Python; crawler; film review; visualization

        0? 引? 言

        國(guó)內(nèi)電影市場(chǎng)增長(zhǎng)迅速,中國(guó)已成為世界第二大電影市場(chǎng),并在不斷縮小與北美市場(chǎng)的差距,電影業(yè)迸發(fā)出強(qiáng)勁活力[1]。如今,觀眾觀看影視作品更加注重選擇符合自己的價(jià)值觀,電影制作有新意、有意義的電影,而不選擇單純博人眼球,利用流量明星賺取票房的電影。豆瓣電影作為中國(guó)最大的電影分享與評(píng)論社區(qū),可提供最新的電影介紹及相關(guān)評(píng)論,并根據(jù)個(gè)人喜好,向用戶推薦電影,同時(shí),用戶也可以根據(jù)電影的打分和影評(píng)選擇是否觀看一部電影,所以,對(duì)大量的影評(píng)數(shù)據(jù)進(jìn)行深入分析,了解大眾對(duì)電影的態(tài)度以及電影本身的特色,為觀影者提供正確的導(dǎo)向是非常有意義的。在現(xiàn)在各種資源充斥的時(shí)代,有些電影人們一致認(rèn)為他的質(zhì)量有待提高,但是仍然會(huì)有少數(shù)的人選擇去觀看,利用網(wǎng)絡(luò)數(shù)據(jù)爬蟲(chóng),可獲取到更加真實(shí)、全面的、有價(jià)值的數(shù)據(jù)信息[2]。

        互聯(lián)網(wǎng)的快速發(fā)展,迎來(lái)了一個(gè)關(guān)于大數(shù)據(jù)的嶄新時(shí)代,每個(gè)人的一切都關(guān)乎著各種各樣的數(shù)據(jù),而且人們也越來(lái)越注重?cái)?shù)據(jù)所帶來(lái)的價(jià)值。如今,萬(wàn)維網(wǎng)已成為大量信息的有效載體,可是對(duì)有效信息的提取和利用卻成為了一個(gè)巨大的挑戰(zhàn)。利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),通過(guò)網(wǎng)站所允許的合法途徑,我們可以方便快捷地獲取到目標(biāo)網(wǎng)頁(yè)的數(shù)據(jù),從而對(duì)獲取到的數(shù)據(jù)進(jìn)行分析研究,挖掘出數(shù)據(jù)背后的價(jià)值。

        本文基于Python語(yǔ)言,結(jié)合網(wǎng)絡(luò)爬蟲(chóng)技術(shù),對(duì)當(dāng)下熱門電影《你好,李煥英》的影評(píng)數(shù)據(jù)進(jìn)行數(shù)據(jù)爬取,并通過(guò)數(shù)據(jù)可視化技術(shù),對(duì)影評(píng)中有價(jià)值的數(shù)據(jù)信息進(jìn)行分析研究,直觀地展示出觀影者對(duì)熱映電影最真實(shí)的感受。

        1? 網(wǎng)絡(luò)爬蟲(chóng)原理

        網(wǎng)絡(luò)爬蟲(chóng)技術(shù)實(shí)際上就是一種互聯(lián)網(wǎng)處理數(shù)據(jù)的機(jī)器人,它通過(guò)爬取互聯(lián)網(wǎng)上網(wǎng)站上的內(nèi)容來(lái)工作,采用計(jì)算機(jī)編寫(xiě)的語(yǔ)言或者腳本,有既定的目標(biāo),有選擇地去訪問(wèn)網(wǎng)頁(yè),并建立鏈接,自動(dòng)地從網(wǎng)頁(yè)上爬取所需要信息。網(wǎng)絡(luò)爬蟲(chóng),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本,可以自動(dòng)采集所有其能夠訪問(wèn)到的頁(yè)面內(nèi)容[3]。爬蟲(chóng)是從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件,可以抓取在不同URL之下的各種文章,鏈接和圖片等,是一個(gè)從web上自動(dòng)下載網(wǎng)頁(yè)的計(jì)算機(jī)程序[4]。爬蟲(chóng)的基本過(guò)程可以分為四步:向服務(wù)器發(fā)出請(qǐng)求,腳本通過(guò) HTTP庫(kù)向目標(biāo)站點(diǎn)發(fā)出Request請(qǐng)求,請(qǐng)求的內(nèi)容可包含headers等信息,等待對(duì)方服務(wù)器響應(yīng);獲取響應(yīng)內(nèi)容,得到一個(gè)包括爬取頁(yè)面內(nèi)容的Response,然后進(jìn)行下一步的數(shù)據(jù)解析[5];解析數(shù)據(jù)內(nèi)容,響應(yīng)中所包含的內(nèi)容可能有多種形式,可使用直接處理、正則表達(dá)式、爬蟲(chóng)的解析庫(kù)等方法進(jìn)行解析;保存所需數(shù)據(jù),將數(shù)據(jù)保存至任何特定格式的文件或文本中,也可保存至數(shù)據(jù)庫(kù)或表格中[6]。

        2? 獲取影評(píng)數(shù)據(jù)

        2.1? 網(wǎng)頁(yè)源碼抓取

        本文選取最近上映的,熱度較高的電影《你好,李煥英》進(jìn)行數(shù)據(jù)的爬取。通過(guò)目標(biāo)網(wǎng)址https://movie.douban.com/subject/34841067/comments進(jìn)入豆瓣電影《你好,李煥英》的影評(píng)界面。通過(guò)分析URL發(fā)現(xiàn),每個(gè)subject/后面都有一個(gè)固定的數(shù)字代表某一部特定的電影,34841067代表的電影就是《你好,李煥英》?;趐ython的selenium庫(kù)模擬瀏覽器操作的方法,找到相應(yīng)的網(wǎng)址頁(yè)面,將網(wǎng)頁(yè)和網(wǎng)頁(yè)內(nèi)容進(jìn)行分離,抓取網(wǎng)頁(yè)源碼,提取其中的關(guān)鍵信息,將抓取后的數(shù)據(jù)存放在數(shù)據(jù)庫(kù)或者表格文件中。通過(guò)Chrome瀏覽器的開(kāi)發(fā)者工具,就可以看到源代碼,如圖1所示。gzslib202204051159

        網(wǎng)頁(yè)源碼抓?。?/p>

        from selenium import webdriver

        import pandas as pd

        url = ‘http://movie.douban.com/subject/34841067/comments?ststus=p

        drive = webdriver.chrome()

        drive.get(url)

        如圖2所示。

        2.2? Xpath解析網(wǎng)頁(yè)數(shù)據(jù)

        Xpath采用類似于正則表達(dá)式來(lái)匹配HTML文件中的內(nèi)容,其中的謂語(yǔ)用來(lái)查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)特定值的節(jié)點(diǎn),對(duì)一些函數(shù)進(jìn)行模糊搜索。使用路徑表達(dá)式來(lái)選取XML文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集,節(jié)點(diǎn)是通過(guò)路徑(path)或者步(steps)來(lái)選取的。通過(guò)解析代碼找到用戶的信息,評(píng)分,發(fā)布時(shí)間,短評(píng)等相關(guān)內(nèi)容,如圖3所示。

        從網(wǎng)頁(yè)源碼中提取的數(shù)據(jù)(主要有用戶的短評(píng)、好評(píng)差評(píng),以及電影的評(píng)分、觀影者的居住城市、評(píng)論時(shí)刻的變化情況),以csv格式的文件存儲(chǔ),爬取的數(shù)據(jù)如圖4所示。

        部分代碼為:

        names=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/a/text()')#獲取用戶名信息

        ratints=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[2]/@class')#評(píng)分

        times=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[@class="comment-time "]/@title')#評(píng)論發(fā)布時(shí)間

        messages=dom.xpath('//div[@class="comment-item "]/div[@class="comment"]//span[@class="short"]/text()')#短評(píng)正文

        user_url=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/a/@href')#用戶主頁(yè)網(wǎng)址

        votes=dom.xpath('//div[@class="comment-item "]/div[@class="comment"]//span[@class="votes"]/text()')#贊同數(shù)量

        3? 數(shù)據(jù)可視化

        3.1? 影評(píng)詞云圖

        數(shù)據(jù)可視化主要是借助圖形化的手段,直觀地傳達(dá)關(guān)鍵的內(nèi)容與特征,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的深入洞察和分析了解。詞云圖由頻繁出現(xiàn)的詞匯組成類似云的彩色圖形,用于展示大量的電影熱評(píng)的文本數(shù)據(jù)。借助Python的jieba庫(kù)獲取關(guān)于影評(píng)內(nèi)容的中文分詞,然后再根據(jù)爬取到的評(píng)分?jǐn)?shù)據(jù),得到如圖5所示的詞云圖。

        《你好,李煥英》是一部親情題材的喜劇電影,以賈玲回憶母親為主線,電影上映后,引起了許多觀眾的共鳴。通過(guò)圖5的影評(píng)詞云圖可以看到,關(guān)鍵詞就是“媽媽”“賈玲”“女兒”等,而這些熱點(diǎn)詞匯也和電影的主題相契合。圖5中還出現(xiàn)“煽情”等詞匯,由此可見(jiàn),觀眾的觀影感受不盡相同,對(duì)電影的喜愛(ài)程度也不同。

        詞云圖繪制部分代碼為:

        def my_word_cloud(data=None,stopWords=None,img=None)

        datacut = data.apply(jieba.lcut)

        data.After = dataCut.apply(lambda x:[i for i in x if i not in stopWords])

        wordFre = pd.Series(_flatten(list(dataAfter))).value_counts()

        mask = plt.imread(img)

        wc.fit_word(wordFre)

        plt.imshow(wc)

        plt.axis(‘off)

        3.2? 評(píng)分分?jǐn)?shù)分析

        從爬取到的數(shù)據(jù)中取出評(píng)分?jǐn)?shù)據(jù),對(duì)其進(jìn)行統(tǒng)計(jì),并繪制餅圖,如圖6所示。從餅圖的評(píng)分分?jǐn)?shù)分布來(lái)看,來(lái)自北京的觀眾對(duì)《你好,李煥英》電影的支持度最高,其次是江蘇南京,其他各地區(qū)觀眾的評(píng)分都相差不大??傮w來(lái)說(shuō),這部電影的評(píng)分還是很高的,說(shuō)明觀眾對(duì)整部電影的認(rèn)可度還是比較高的,由此可以看出人們喜好還是更加傾向于此類電影。

        分析用戶評(píng)論與評(píng)論發(fā)表日期之間的關(guān)系,如圖7所示,可以直觀的看到,評(píng)論的數(shù)量隨著時(shí)間的推移逐漸減少,而評(píng)論數(shù)量的高峰期就是在電影的上映時(shí)間2021年2月12日左右,之后逐漸變緩慢,這也和現(xiàn)實(shí)相吻合,在電影剛上映的時(shí)候,觀眾的新鮮感比較強(qiáng),之后,隨著時(shí)間的推移,關(guān)注度逐漸降低,影評(píng)數(shù)量也隨之減少。

        分析評(píng)論數(shù)量與時(shí)間關(guān)系的部分代碼為:

        Num=pd.to_datatime(data[‘發(fā)表時(shí)間]).apply(lambda x: x,hour).value_counts()

        Num=num.sort_index()

        plt.plot(range(len(num)),num)

        plt.xticks(range(len(num)),num.index)

        plt.title(‘評(píng)論數(shù)量隨時(shí)間的變化情況)

        plt.grid()

        3.3? 評(píng)論數(shù)量與城市分布分析

        隨著觀影選擇和影片類型的日益增多,觀眾慢慢形成了自己的一些觀影習(xí)慣,電影市場(chǎng)也早已不是“全國(guó)上下一盤棋”,各地觀眾的觀影口味早已出現(xiàn)了分化,電影行業(yè)的地域差異也越來(lái)越顯著。通過(guò)統(tǒng)計(jì)每個(gè)城市觀影者發(fā)布的評(píng)論數(shù)量,繪制出評(píng)論數(shù)量最多的十個(gè)城市,如圖8所示,發(fā)布評(píng)論數(shù)量最多的城市是北京,其次是上海,其他各城市發(fā)布的評(píng)論數(shù)量基本持平。圖8也反映出在電影類型、影片風(fēng)格方面,觀影者的需求差異比較大,同一部影片在各個(gè)地區(qū)的活躍程度不盡相同。

        4? 結(jié)? 論

        本文基于Python編程語(yǔ)言,以豆瓣電影《你好,李煥英》為爬取目標(biāo),完成了對(duì)影評(píng)數(shù)據(jù)的爬取和分析,并使用可視化方法展示了影評(píng)詞云圖、評(píng)分分?jǐn)?shù)分布、評(píng)論數(shù)量與時(shí)間及分布城市的關(guān)系,通過(guò)這些數(shù)據(jù)的提取,全面挖掘了影評(píng)背后的關(guān)鍵信息,為電影行業(yè)研究觀眾的喜好和電影行業(yè)的發(fā)展提供了參考。

        參考文獻(xiàn):

        [1] 辛雨璇,王曉東.基于文本挖掘的電影評(píng)論情感分析研究 [J].牡丹江師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2021(1):25-28.

        [2] 高雨菲,毛紅霞.基于Python的豆瓣影視短評(píng)的數(shù)據(jù)采集與分析 [J].現(xiàn)代信息科技,2020,4(24):10-12+16.

        [3] 黃蓉,毛紅霞.基于豆瓣網(wǎng)某系列電影數(shù)據(jù)采集與可視化分析 [J].現(xiàn)代信息科技,2020,4(23):4-7.

        [4] 黃子豪,張舒.網(wǎng)絡(luò)爬蟲(chóng)對(duì)互聯(lián)網(wǎng)安全的影響及“反爬”策略的研究 [J].科學(xué)技術(shù)創(chuàng)新,2021(10):120-121.

        [5] 簡(jiǎn)悅,汪心瀛,楊明昕.基于Python的豆瓣網(wǎng)站數(shù)據(jù)爬取與分析 [J].電腦知識(shí)與技術(shù),2020,16(32):51-53.

        [6] 成文瑩,李秀敏.基于Python的電影數(shù)據(jù)爬取與數(shù)據(jù)可視化分析研究 [J].電腦知識(shí)與技術(shù),2019,15(31):8-10+ 12.

        猜你喜歡
        可視化
        自然資源可視化決策系統(tǒng)
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        自然資源可視化決策系統(tǒng)
        基于CGAL和OpenGL的海底地形三維可視化
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        免费观看羞羞视频网站| 极品尤物人妻堕落沉沦| 亚洲国产欧美在线观看| 日本老熟欧美老熟妇| 久久中文字幕亚洲精品最新| 日本在线一区二区三区视频| 久久不见久久见免费视频6| 青青草原综合久久大伊人| 欧美色图50p| 看一区二区日本视频免费| 永久免费a∨片在线观看| 免费观看黄网站| 亚洲精品动漫免费二区| 免费视频亚洲一区二区三区| 看全色黄大色黄大片 视频| 国产精品美女久久久浪潮av| 无码流畅无码福利午夜| 国产亚洲精品90在线视频| 精品人妻无码视频中文字幕一区二区三区| 国产久热精品无码激情 | 99精品又硬又爽又粗少妇毛片| 熟女人妻中文字幕av| 欧洲极品少妇| 国内视频一区| 一区二区三区中文字幕在线播放 | 国产午夜福利短视频| 中文字幕亚洲区第一页| 二区免费在线视频观看| 亚洲国产精品va在线看黑人| 中文字幕经典一区| h视频在线观看视频在线| 国产大片内射1区2区| 国产精品揄拍100视频| 精品中文字幕手机在线 | 精品蜜臀国产av一区二区| 久久99精品久久久久婷婷| 亚洲巨乳自拍在线视频| 成人自拍视频国产一区| 久久精品av在线观看| 亚洲 精品 综合 精品 自拍| 亚洲九九夜夜|