楊應(yīng)浩
(重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,重慶 401331)
隨著大數(shù)據(jù)與人工智能時代的到來,數(shù)據(jù)分析的影響及重要性越來越凸顯,數(shù)據(jù)分析日益成為本科生不可或缺的技術(shù)與技能,也能更好地培養(yǎng)學(xué)生的Python實踐操作和解決實際問題的能力。與此同時,緊跟大數(shù)據(jù)時代步伐,了解大數(shù)據(jù)背景下數(shù)據(jù)分析的特點,進一步拓展視野,實現(xiàn)綜合素質(zhì)的提高[1]。
Par-Charm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具,比如調(diào)試、語法高亮、Project管理、代碼跳轉(zhuǎn)、智能提示、自動完成。它用于數(shù)據(jù)的爬取十分便利。
Anaconda指的是一個開源的Python發(fā)行版本,其包含了conda、Python等180多個科學(xué)包及其依賴項,提供包管理及環(huán)境管理功能,解決了Python多版本并存的安裝問題。它非常適合數(shù)據(jù)可視化分析。
爬取數(shù)據(jù)的步驟過程:第一,進入愛奇藝網(wǎng)站電影界面,獲取該網(wǎng)頁的URL,通過查看網(wǎng)頁源代碼找到目標(biāo)數(shù)據(jù)位置并分析網(wǎng)頁源代碼結(jié)構(gòu);第二,論文使用Python中的requests庫進行數(shù)據(jù)采集;Beautiful-Soup是一個HTML/XML的解析器,來解析URL的文本信息[2];第三,根據(jù)需要單獨提取出電影的評分、電影的演員、電影年份和電影類型;第四,利用循環(huán)進行讀取數(shù)據(jù)并存入數(shù)據(jù)庫。
在真實世界里,數(shù)據(jù)來源各式各樣質(zhì)量良莠不齊,所以原始數(shù)據(jù)一般是有缺陷的,不完整的,重復(fù)的,是極易受侵染的。這樣的數(shù)據(jù)處理起來不僅效率低下而且結(jié)果也不盡人意,這種情況下數(shù)據(jù)的預(yù)處理顯得尤為重要。一方面,數(shù)據(jù)預(yù)處理把原始數(shù)據(jù)規(guī)范化、條理化,最終整理成結(jié)構(gòu)化數(shù)據(jù),極大地節(jié)省了處理海量信息的時間;另一方面,數(shù)據(jù)預(yù)處理可以使得挖掘愈發(fā)準(zhǔn)確并且結(jié)果愈發(fā)真實有效[3]。
隨著電影行業(yè)的不斷發(fā)展,必將越來越依靠于數(shù)據(jù)分析的手段來獲取收益。對演員和其電影口碑分析可以得出演員的的票房號召力;從票房分析影片類型對于觀眾的接受度、導(dǎo)演的人氣指數(shù)等等,都具有很強的經(jīng)濟效益。觀眾群體的廣泛性和個人情感的復(fù)雜性都影響著影業(yè)的未來發(fā)展[4]。
論文從四個角度對電影信息數(shù)據(jù)進行分析:第一,從評分的占比角度入手分析觀眾對電影市場的認(rèn)可程度;第二,從評論人數(shù)與評分入手分析觀影潮流,第三,從電影年份和評分關(guān)系入手分析歷年電影口碑分化趨勢;第四,從電影類型入手分析時下熱門電影素材類型。
評分是觀眾從接受的角度對影片進行的評價和回饋,一方面取決于電影本身的藝術(shù)質(zhì)量,另一方面則取決于觀眾本身的需求,即影片在多大程度上與觀眾的期待視域達(dá)到融[5]。圖1可以看出評分在8-9分的電影占據(jù)49.01%,說明觀眾對于電影市場的認(rèn)可程度比較高;而9分以上電影僅占比2.12%,表明電影市場高質(zhì)量電影數(shù)量有待提高。而7分以下電影占據(jù)9.53%,則說明電影市場質(zhì)量還有一定的提升空間。
圖1 電影評分餅狀圖
評論人數(shù)與評分之間呈現(xiàn)正相關(guān)關(guān)系,相關(guān)系數(shù)為0.52,屬于中等程度相關(guān)(相關(guān)系數(shù)在[-1,1],在統(tǒng)計學(xué)意義成立的基礎(chǔ)上,相關(guān)系數(shù)越接近于1,評論人數(shù)與票房之間正相關(guān)性越大)[6],表現(xiàn)為評價人數(shù)越多,評分高可能性越大。圖三中評論人數(shù)多的電影評分也普遍較高,反映出當(dāng)下大眾的觀影潮流。
電影行業(yè)從1950年后開始興起,在90年代后迎來了高潮;80年代后電影的評分有質(zhì)的飛躍??赡茉谟陔娪爸谱鞯募夹g(shù)的到了提升,具體體現(xiàn)在畫質(zhì)、特性等方面;2000年以后的電影評分逐漸傾向于兩極分化的趨勢。總體來說電影年份與電影評分呈正相關(guān)關(guān)系。
觀眾對于喜劇題材和愛情題材類的電影認(rèn)可度明顯要高于其他類型。而武俠、功夫類題材的電影觀眾的認(rèn)可度普遍偏低,說明動作類型電影品質(zhì)還有很大提升空間,觀眾口味多元化,并不是很喜歡單純的動作片,相比之下,奇幻、科幻類題材的電影更受觀眾追捧。喜劇類影片一直以來都是電影市場的一大支柱,受到了制片商的極大追捧。近年來低成本、高回報的喜劇電影扎堆,其整體質(zhì)量也不錯,未來喜劇電影任然存在很大的發(fā)展前景。愛情題材電影雖然受觀眾認(rèn)可度相對較高,但比之于喜劇題材電影任然有很大的上升空間,愛情片應(yīng)該多在多元化和現(xiàn)代化方面下功夫,以更好適應(yīng)在大眾文化的時代背景下高速增長的觀影需求。驚悚題材和恐怖題材無論在數(shù)量還是質(zhì)量上都明顯低于其他類型的電影,情況堪憂。
大數(shù)據(jù)時代的到來使這個社會中的海量數(shù)據(jù)變成了巨大的潛在財富,大數(shù)據(jù)的作用是不可估量的,而且大數(shù)據(jù)已經(jīng)滲透到了社會的各個領(lǐng)域。運用網(wǎng)絡(luò)爬蟲爬取海量數(shù)據(jù)在信息繁榮的大數(shù)據(jù)時代更加行之有效。Python作為一門腳本語言,它有著簡單易學(xué),面向?qū)ο?,開源和擁有豐富的庫等優(yōu)點。論文闡述了Python語言在數(shù)據(jù)爬取及可視化分析中的應(yīng)用。通過對愛奇藝網(wǎng)站電影信息的可視化分析,可以給影片公司一些制片提示,也可以給觀影者提供重要的參考信息。因此,數(shù)據(jù)分析觀念無論是概念的本身,還是它對于自身發(fā)展都具有很高的價值。