亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社交網(wǎng)絡(luò)和決策樹的中國(guó)電影產(chǎn)業(yè)研究

        2019-11-09 02:01:44楊秀璋于小民
        電影文學(xué) 2019年5期
        關(guān)鍵詞:詞云決策樹可視化

        楊秀璋 夏 換 于小民 李 娜

        (1.貴州財(cái)經(jīng)大學(xué) 信息學(xué)院,貴州 貴陽(yáng) 550025;2.貴州財(cái)經(jīng)大學(xué) 貴州省經(jīng)濟(jì)系統(tǒng)仿真重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025;3.中國(guó)船舶工業(yè)系統(tǒng)工程研究院,北京 100036)

        一、中國(guó)電影產(chǎn)業(yè)基于社交網(wǎng)絡(luò)和可視化技術(shù)分析的必要性

        隨著人們生活質(zhì)量的提高,精神文化需求也在不斷增加,觀看電影已成為人們重要的娛樂消費(fèi)之一。中國(guó)電影市場(chǎng)在近幾年飛速發(fā)展,電影產(chǎn)量、票房和人次持續(xù)增長(zhǎng),2017年全國(guó)電影總票房為559.11億元,同比增長(zhǎng)13.45%;城市院線觀影人次16.2億,同比增長(zhǎng)18.08%[1]。目前,國(guó)內(nèi)外利用數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)算法深層次分析電影數(shù)據(jù)的研究相對(duì)較少,而傳統(tǒng)的電影數(shù)據(jù)分析方法主要是基于簡(jiǎn)單的票房和時(shí)間維度,基于劇情表現(xiàn)手法和視聽特效的方法,其分析方法比較單一,不足以發(fā)現(xiàn)并直觀地呈現(xiàn)電影數(shù)據(jù)深層次的規(guī)律,缺乏利用社交網(wǎng)絡(luò)構(gòu)建演員關(guān)系圖譜并智能化推薦符合觀眾口味的電影[2],沒有結(jié)合機(jī)器學(xué)習(xí)算法挖掘影響電影票房和質(zhì)量的相關(guān)因素。

        針對(duì)這些問題,本文提出了一種基于社交網(wǎng)絡(luò)和決策分類的電影數(shù)據(jù)分析方法,并結(jié)合可視化技術(shù)直觀地反映影響電影票房和質(zhì)量的多種因素。本文旨在分析出影響中國(guó)電影市場(chǎng)票房和質(zhì)量的電影類型、演員陣容、制作團(tuán)隊(duì)等,從多個(gè)維度挖掘中國(guó)電影市場(chǎng)的特點(diǎn),利用決策樹分類算法預(yù)測(cè)電影的口碑,尋找電影票房、電影質(zhì)量和市場(chǎng)影響力之間的關(guān)系,并通過可視化技術(shù)進(jìn)行直觀的展現(xiàn)。

        本文實(shí)驗(yàn)數(shù)據(jù)集是豆瓣網(wǎng)評(píng)分前250部的電影,中國(guó)電影網(wǎng)票房前500部的電影以及近十年中國(guó)電影市場(chǎng)的相關(guān)數(shù)據(jù)。主要步驟是:采用Python、Selenium和XPath技術(shù)自定義爬蟲抓取電影網(wǎng)站的相關(guān)數(shù)據(jù),構(gòu)建詞云、決策樹等模型分析電影信息,從多種角度挖掘影響電影票房和質(zhì)量的因素,根據(jù)所提取的特征預(yù)測(cè)電影的觀眾口碑。實(shí)驗(yàn)結(jié)果表明,本文提出的算法有效地挖掘出中國(guó)電影市場(chǎng)有價(jià)值的信息,包括具有票房號(hào)召力的演員,拍攝電影質(zhì)量較高的演員和電影公司等;該方法可以給投資方和導(dǎo)演們提供電影拍攝的題材、演員和上映時(shí)間建議,具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,可廣泛應(yīng)用于電影市場(chǎng)分析和數(shù)據(jù)挖掘領(lǐng)域,更好地優(yōu)化中國(guó)電影產(chǎn)業(yè),為觀眾提供更好的精神食糧。

        二、中國(guó)電影產(chǎn)業(yè)相關(guān)研究進(jìn)展

        中國(guó)電影產(chǎn)業(yè)在過去取得了飛速而持續(xù)的增長(zhǎng),新聞出版廣電總局電影局?jǐn)?shù)據(jù)顯示,2017年中國(guó)電影總票房為559.11億元,同比增長(zhǎng)13.45%,而同一時(shí)期北美增長(zhǎng)只有7%,全球僅為5%,中國(guó)電影市場(chǎng)已成為僅次于北美地區(qū)的全球第二大電影市場(chǎng)。2017年全國(guó)生產(chǎn)電影共計(jì)970部,其中故事片798部、科教電影68部、動(dòng)畫電影32部、特種電影28部、紀(jì)錄電影44部。中國(guó)電影市場(chǎng)整體朝著多題材、多樣化、多類型的創(chuàng)新格局發(fā)展,全年共有13部國(guó)產(chǎn)影片票房超過5億元,6部國(guó)產(chǎn)影片票房超過10億元,其中影片《戰(zhàn)狼2》以56.8億元票房和1.6億觀影人次創(chuàng)造了多項(xiàng)市場(chǎng)紀(jì)錄,成為國(guó)產(chǎn)電影的突出亮點(diǎn),顯示著中國(guó)電影新力量不斷成長(zhǎng)壯大[3]。

        與此同時(shí),由于電影具有生命周期短暫、呈季節(jié)性波動(dòng)等特點(diǎn),影響電影票房和質(zhì)量的因素多種多樣,包括國(guó)民經(jīng)濟(jì)增長(zhǎng)速度、民眾消費(fèi)水平、導(dǎo)演和主演的影響力、劇本的好壞、電影制作水平及電影在網(wǎng)絡(luò)中的口碑等;而國(guó)內(nèi)關(guān)于電影市場(chǎng)的研究相對(duì)較少,傳統(tǒng)的分析方法不足以發(fā)現(xiàn)并直觀地呈現(xiàn)電影數(shù)據(jù)深層次的規(guī)律,市場(chǎng)上也缺乏一個(gè)關(guān)于中國(guó)電影市場(chǎng)的數(shù)據(jù)分析和可視化展示體系[4]。

        近年來,以互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能為代表的技術(shù)不斷應(yīng)用于各行各業(yè),互聯(lián)網(wǎng)引發(fā)的評(píng)論口碑和影評(píng)分?jǐn)?shù)極大影響了后續(xù)消費(fèi)者的購(gòu)買決策,因此通過大數(shù)據(jù)等技術(shù)來優(yōu)化中國(guó)電影市場(chǎng),探究電影評(píng)論信息和評(píng)分對(duì)電影票房的影響備受關(guān)注[5]。本文希望通過對(duì)國(guó)內(nèi)外相關(guān)研究進(jìn)行綜述分析,結(jié)合機(jī)器學(xué)習(xí)算法分析影響電影市場(chǎng)的主要因素,通過社交網(wǎng)絡(luò)和時(shí)間維度獲取影響電影票房和提升電影質(zhì)量的內(nèi)核,從而為國(guó)內(nèi)電影市場(chǎng)的深入研究提供借鑒,挖掘出中國(guó)電影市場(chǎng)的規(guī)律[6]。

        目前國(guó)內(nèi)外常見的一些電影分析方法是基于市場(chǎng)規(guī)律、機(jī)器學(xué)習(xí)和情感分析的。在電影數(shù)據(jù)分析上,龔曉等[7]基于SPSS工具利用層次聚類算法對(duì)20部電影數(shù)據(jù)進(jìn)行聚類分析。王錚等[8]基于Logit模型分析影響電影票房的因素。周靜等[9]運(yùn)用社交網(wǎng)絡(luò)分析方法對(duì)中國(guó)電影圈近十年主要的導(dǎo)演和演員之間的合作網(wǎng)絡(luò)進(jìn)行了描述和分析,運(yùn)用雙模網(wǎng)絡(luò)分析方法得出中國(guó)電影江湖中存在“派系”的特點(diǎn),即同一地區(qū)的導(dǎo)演與演員更愿意在一起合作。Jedidi等[10]利用有限混合回歸方法對(duì)影片的周票房進(jìn)行了聚類分析,把電影劃分為四大類。李波等[11]對(duì)我國(guó)電影市場(chǎng)的生命周期進(jìn)行分析,建立了考慮季節(jié)性因素的Gamma需求模型,并應(yīng)用于電影觀眾人數(shù)衰減研究。章胤等[12]基于k-means和關(guān)聯(lián)度分析方法對(duì)數(shù)據(jù)進(jìn)行聚類分析并挖掘關(guān)聯(lián)詞。

        在影評(píng)情感分析上,侯乃聰?shù)萚13]從網(wǎng)絡(luò)口碑的情感傾向、評(píng)論數(shù)量、有用性和有效性四個(gè)方面構(gòu)建了系統(tǒng)的網(wǎng)絡(luò)口碑評(píng)價(jià)指標(biāo)體系。雷鳴等[14]提出了基于評(píng)論情感分析的協(xié)同過濾推薦算法,通過對(duì)電影評(píng)論進(jìn)行情感分析,構(gòu)建準(zhǔn)確的用戶興趣模型。殷復(fù)蓮等[15]提出了基于詞向量的情感分析方法,該方法在短文本分類上效果較好,準(zhǔn)確率有所提升。涂小琴[16]通過Python抓取豆瓣網(wǎng)站評(píng)論數(shù)據(jù)進(jìn)行情感傾向性分析,獲取PMI最高的15個(gè)詞語。孫春華等[17]基于文本情感分析方法分析電影預(yù)告片在線投放對(duì)票房的影響。

        在可視化分析上,張?chǎng)蔚萚18]提出了一種基于大數(shù)據(jù)的面向電影投資制作、營(yíng)銷推廣、放映拍片的電影分析決策系統(tǒng)。許冰晗等[19]基于Movielens電影數(shù)據(jù)進(jìn)行了可視化分析,設(shè)計(jì)了一系列相互關(guān)聯(lián)的可視化視圖,從多個(gè)角度發(fā)現(xiàn)電影流派的規(guī)律。陳豪[20]基于Hadoop大數(shù)據(jù)平臺(tái)和Python語言,從多角度可視化分析電影數(shù)據(jù)。

        這些傳統(tǒng)方法通常是利用折線圖來分析時(shí)間維度上票房的增長(zhǎng)情況,通過相關(guān)模型來分析觀眾和評(píng)論之間的關(guān)系,或是從文學(xué)視角研究電影的規(guī)律,而沒有從多個(gè)角度去深層次挖掘電影類型、電影評(píng)分、電影票房、電影質(zhì)量和觀眾口碑之間的關(guān)聯(lián),沒有深入剖析中國(guó)電影發(fā)展的影響因素。本文將引入社交網(wǎng)絡(luò)、決策分類、WordCloud等方法,結(jié)合可視化技術(shù)從多個(gè)角度深層次挖掘電影數(shù)據(jù)的規(guī)律,更好地優(yōu)化中國(guó)電影產(chǎn)業(yè),為投資方和導(dǎo)演們提供決策。

        三、中國(guó)電影產(chǎn)業(yè)分析及可視化研究過程

        (一)系統(tǒng)架構(gòu)

        本文旨在對(duì)豆瓣網(wǎng)評(píng)分Top250部電影、中國(guó)電影網(wǎng)票房前500部電影及2018年熱門電影進(jìn)行數(shù)據(jù)分析,其算法系統(tǒng)框架如圖1所示。主要包括數(shù)據(jù)抓取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和實(shí)驗(yàn)評(píng)估五個(gè)步驟,具體流程如下:

        圖1 電影數(shù)據(jù)分析系統(tǒng)框架圖

        1.首先采用Python語言中的Selenium和XPath技術(shù)抓取電影數(shù)據(jù)。

        2.提取電影相關(guān)的特征并存儲(chǔ)至本地,包括演員陣容、電影名稱、制作公司、電影票房、上映時(shí)間、電影類型、評(píng)論及評(píng)分等。

        3.分別對(duì)數(shù)值數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行預(yù)處理操作,包括異常值處理、數(shù)據(jù)清洗、中分分詞等。

        4.數(shù)據(jù)分析主要包括可視化分析和機(jī)器學(xué)習(xí)分析兩塊,通過Echarts、社交網(wǎng)絡(luò)、熱點(diǎn)詞云等直觀地展示影響電影市場(chǎng)的因素,利用決策樹分類算法挖掘深層次的電影規(guī)律。

        5.最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估,并得出結(jié)論。

        (二)數(shù)據(jù)采集

        本文使用基于Python語言的Selenium、BeautifulSoup、Xpath技術(shù)抓取豆瓣網(wǎng)電影及中國(guó)電影網(wǎng)的電影信息,通過分析網(wǎng)頁(yè)DOM樹結(jié)構(gòu)抓取指定的字段,再利用自動(dòng)化測(cè)試技術(shù)模擬瀏覽器操作獲取演員詳情,并調(diào)用Python的第三方庫(kù)將信息存儲(chǔ)至本地Excel文件。圖2是豆瓣網(wǎng)電影《肖申克的救贖》對(duì)應(yīng)的頁(yè)面,包括電影名稱、導(dǎo)演、編劇、主演、評(píng)分、上映日期等字段,經(jīng)過數(shù)據(jù)采集之后存儲(chǔ)至本地如圖3所示。中國(guó)電影網(wǎng)票房前10名的電影信息抓取至本地后如表1所示。

        圖2 豆瓣網(wǎng)電影《肖申克的救贖》信息

        表1 中國(guó)電影網(wǎng)票房前10名的電影信息

        續(xù)表

        圖3 數(shù)據(jù)采集豆瓣網(wǎng)電影評(píng)分前250部電影部分信息

        (三)數(shù)據(jù)預(yù)處理

        在進(jìn)行數(shù)據(jù)分析之前,通常需要對(duì)所抓取的電影信息進(jìn)行預(yù)處理操作,包括缺失值填充、異常值處理、數(shù)據(jù)清洗、中文分詞、停用詞過濾等步驟,其目標(biāo)是為了得到高標(biāo)準(zhǔn)、高質(zhì)量的數(shù)據(jù),從而提升分析的結(jié)果。本文的數(shù)據(jù)預(yù)處理操作包括:

        1.缺失值填充。在抓取電影信息實(shí)驗(yàn)中,存在電影片長(zhǎng)、演員表等字段缺失的情況,這里采用Null標(biāo)明缺失項(xiàng),再進(jìn)行數(shù)據(jù)定向抓取補(bǔ)全,部分字段采用手動(dòng)填充。

        2.異常值處理。所抓取的極少部分電影的票房信息不符合實(shí)際情況,比如《后來的我們》票房?jī)H為2.1億元,此時(shí)采用程序自動(dòng)排序后定向校驗(yàn)。

        3.數(shù)據(jù)清洗。原始數(shù)據(jù)中影片類型、導(dǎo)演、演員姓名存在特殊的符號(hào),比如“·”“…”“/”等,此時(shí)需要定義停用詞表對(duì)這些特殊的符號(hào)進(jìn)行過濾。

        4.中文分詞。分詞旨在將漢語句子切分成單獨(dú)的詞序列。本文所選用的工具是基于Python語言的結(jié)巴(Jieba)分詞工具。同時(shí),由于分詞中會(huì)涉及固定詞組或?qū)S忻~,如明星“潘長(zhǎng)江”,它可能在分詞之后會(huì)變成“潘”和“長(zhǎng)江”兩個(gè)名詞,這會(huì)嚴(yán)重影響實(shí)驗(yàn)的效果。因此在使用結(jié)巴分詞過程中,本實(shí)驗(yàn)添加了自定義詞典,通過導(dǎo)入自定義詞典實(shí)現(xiàn)專有名詞和固定詞組的分詞,中文分詞采用的是正向最大匹配方法。

        (四)詞云分析

        “詞云”是對(duì)網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的關(guān)鍵詞,予以視覺上的突出,使瀏覽網(wǎng)頁(yè)者只要一眼掃過文本就可以領(lǐng)略文本的主旨,主要利用文本挖掘和可視化技術(shù)。個(gè)性化詞云既是研究分析內(nèi)容的一種表現(xiàn)方式,又是廣告?zhèn)髅降囊环N“藝術(shù)品”。在Python中,通過安裝WordCloud詞云擴(kuò)展包可以形成快速便捷的詞云圖片。

        本文主要對(duì)電影的演員姓名和幕后電影公司進(jìn)行詞云可視化分析,直觀地形成熱門關(guān)鍵詞云層。其算法的分析流程如圖4所示,包括導(dǎo)入數(shù)據(jù)集、讀取文件、中分文詞、特征詞計(jì)算、詞云可視化等步驟。

        圖4 詞云分析流程圖

        (五)決策樹算法

        決策樹(Decision Tree)是在已知各種情況發(fā)生概率的情況下,采用樹狀結(jié)構(gòu)構(gòu)建決策模型,判斷每種可行性的概率。它是一種監(jiān)督學(xué)習(xí)方法,常用來解決分類和回歸問題。常見的決策樹算法包括:分類及回歸樹(Classification And Regression Tree,簡(jiǎn)稱CART)、ID3算法(Iterative Dichotomiser 3)、C4.5算法、隨機(jī)森林算法(Random Forest)、梯度推進(jìn)機(jī)算法(Gradient Boosting Machine,簡(jiǎn)稱GBM)等。決策樹構(gòu)建的基本步驟如下:

        第一步:開始時(shí)將所有記錄看作一個(gè)節(jié)點(diǎn)。

        第二步:遍歷每個(gè)變量的每一種分割方式,找到最好的分割點(diǎn)。

        第三步:分割成兩個(gè)節(jié)點(diǎn)N1和N2。

        第四步:對(duì)N1和N2分別繼續(xù)執(zhí)行第二步和第三步,直到每個(gè)節(jié)點(diǎn)足夠“純”為止。

        本文將調(diào)用Sklearn.tree機(jī)器學(xué)習(xí)庫(kù)中決策樹分類算法對(duì)電影信息進(jìn)行分類預(yù)測(cè)。

        四、實(shí)驗(yàn)分析及結(jié)果評(píng)估

        本文數(shù)據(jù)集采用Python自定義爬蟲抓取豆瓣網(wǎng)電影及中國(guó)電影網(wǎng)的電影信息,所抓取的字段包括電影名稱、導(dǎo)演、編劇、主演、評(píng)分、上映日期等,其中豆瓣網(wǎng)電影共抓取評(píng)分前250部的電影信息,中國(guó)電影網(wǎng)共抓取票房前500部的電影信息。緊接著進(jìn)行異常值處理、數(shù)據(jù)清洗和中文分詞,將缺失的數(shù)據(jù)填充,不符合邏輯的數(shù)據(jù)校正,不常用的詞語和特色符號(hào)過濾,并導(dǎo)入專有名詞詞典進(jìn)行中文分詞,利用Jieba分詞工具進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)清洗為后面的分析提供良好的數(shù)據(jù)基礎(chǔ),接下來是詳細(xì)的實(shí)驗(yàn)分析及結(jié)果評(píng)估。

        (一)中國(guó)電影市場(chǎng)近十年綜述分析

        首先我們將對(duì)中國(guó)電影市場(chǎng)近十年的發(fā)展情況做一個(gè)概括性的可視化分析。表2是2008—2017年中國(guó)電影近十年的發(fā)展情況,包括國(guó)產(chǎn)故事片產(chǎn)量、國(guó)產(chǎn)片和進(jìn)口片票房、票房過億元影片數(shù)量。

        表2 中國(guó)電影2008—2017年發(fā)展情況

        實(shí)驗(yàn)使用Python的Pandas和Matplotlib庫(kù)繪制如圖5所示的柱狀圖。圖中橫軸為2008年至2017年這10年的時(shí)間流,縱軸為近十年國(guó)產(chǎn)故事片產(chǎn)量、國(guó)產(chǎn)片和進(jìn)口片票房、票房過億元影片數(shù)量。圖5中每個(gè)類型的柱狀圖都有一定增長(zhǎng),其中,國(guó)產(chǎn)片票房從2008年的25.63億元增長(zhǎng)到2017年的301.04億元,由此可見中國(guó)電影市場(chǎng)發(fā)展迅速。

        (二)影劇情類型和產(chǎn)地的可視化分析

        針對(duì)電影劇情類型和電影產(chǎn)地,本文使用Python和Echarts進(jìn)行了可視化分析。圖6是豆瓣網(wǎng)電影評(píng)分Top250的電影產(chǎn)地分析,其中產(chǎn)自美國(guó)的電影比例最高,占38.48%,近乎全球電影市場(chǎng)的半壁江山;其次是產(chǎn)自英國(guó)和日本的電影,占比均為8.94%;中國(guó)大陸占4.34%,中國(guó)香港占6.78%??傮w而言,全球電影市場(chǎng)整體呈現(xiàn)“一超多強(qiáng)”的態(tài)勢(shì)發(fā)展,我國(guó)在引進(jìn)國(guó)外優(yōu)秀電影的同時(shí)也需要提升自身的創(chuàng)新能力,吸取美國(guó)、英國(guó)、日本等影片的優(yōu)點(diǎn)。

        圖7是中國(guó)電影網(wǎng)票房前500部電影的劇情類型餅狀圖,其中排名最高的三種類型分別是動(dòng)作片、愛情片和懸疑片,分別占39.55%、23.91%和11.52%。這間接反映出我國(guó)的大部分觀眾對(duì)于這三種類型電影的喜愛程度較高,制片方或?qū)а菘梢赃x擇這三種類型,拍攝更為符合觀眾口味的電影。

        圖5 中國(guó)電影近十年發(fā)展情況的柱狀圖

        圖6 豆瓣網(wǎng)評(píng)分Top250電影各地區(qū)的占比

        圖7 中國(guó)電影網(wǎng)票房前500部電影劇情類型分析

        (三)熱門演員和幕后電影公司的詞云可視化分析

        本文調(diào)用詞云技術(shù),以票房最高的500部電影為樣本,對(duì)熱門演員和幕后電影公司進(jìn)行詞云可視化分析,得出如圖8和圖9所示的詞云分布圖。

        圖8 熱門演員的詞云圖

        圖9 幕后投資公司的詞云圖

        從圖8中可知,演員“劉德華”“范冰冰”“張涵予”“楊冪”“成龍”“黃曉明”“柳巖”等詞出現(xiàn)頻數(shù)較高,直接說明了他們具有極高的票房號(hào)召力,更符合觀眾的口味。

        表3是中國(guó)電影網(wǎng)票房前500部電影中,票房號(hào)召力最高的前十位演員,其方法是計(jì)算每名演員參演所有電影的平均票房。為防止個(gè)別演員參演數(shù)量較少,而票房較高的現(xiàn)象,本次統(tǒng)計(jì)結(jié)果均為參演十部以上電影的明星。

        表3中最具票房號(hào)召力的演員包括吳京、井柏然、張涵予、周潤(rùn)發(fā)等,導(dǎo)演們可以考慮聘請(qǐng)這些演員來保證電影的基本票房。

        表3 最具票房號(hào)召力的演員表

        表4是中國(guó)電影網(wǎng)票房前500部電影中,所參演電影評(píng)分最高的前十位演員,這間接反映出這些演員的演技不錯(cuò)。其方法是計(jì)算每名演員參演所有電影的豆瓣評(píng)分之和(滿分為10分),再求平均數(shù)。其中排名最高的分別是陳坤、廖凡、徐崢、王學(xué)圻等。如果制片方或?qū)а輦冏非箅娪暗馁|(zhì)量,一方面可以挑選更好的劇本,另一方面可以聘請(qǐng)這些“老戲骨”。

        表4 平均每部電影評(píng)分最高的演員表

        圖9是幕后電影公司的詞云分布圖,其中“中國(guó)電影”“華夏電影”“萬達(dá)影視”“華誼兄弟”四家公司的出現(xiàn)頻數(shù)最高,分別為112次、77次、49次、49次,它們總共占據(jù)了中國(guó)電影市場(chǎng)的57.4%,這也符合Power-Law現(xiàn)象分布,即少數(shù)公司占據(jù)了極大數(shù)的中國(guó)電影市場(chǎng)。推薦演員們和這些電影公司合作,以提高參演率。

        (四)黃金檔期可視化分析

        圖10是中國(guó)電影網(wǎng)票房前500部電影的“時(shí)間—票房”分布情況,橫軸為時(shí)間,縱軸為票房數(shù)。由圖可見,電影票房在逐年遞增,圖中最高的點(diǎn)為《戰(zhàn)狼2》在2017年7月27日創(chuàng)造的56.8億元。

        圖10中部分區(qū)域散點(diǎn)比較密集,這其實(shí)是和中國(guó)三大黃金檔期密切相關(guān)的。表5是2017年中國(guó)春節(jié)檔期、暑期檔期、國(guó)慶檔期三大黃金檔票房和觀影人次的情況。

        圖10 電影“時(shí)間—票房”分布圖

        表5 2017年三大黃金檔期觀影情況

        2017年我國(guó)三大電影黃金檔期票房總產(chǎn)出約223.24億元,占全年的40.00%;三大電影黃金檔期觀影人次約63973萬人,占全年的39.49%??v觀全年中國(guó)電影市場(chǎng),高票房的影片都于熱門檔期上映,“黃金檔期”成為影視公司爭(zhēng)奪的重要資源。同時(shí),隨著觀眾更加看重電影的質(zhì)量和口碑,制作方應(yīng)該逐漸從依賴檔期向提升影片質(zhì)量而轉(zhuǎn)變。

        (五)社交網(wǎng)絡(luò)分析演員關(guān)系圖譜

        社交網(wǎng)絡(luò)分析步驟如下:

        1.首先計(jì)算中國(guó)電影網(wǎng)票房前500部的所有主演共現(xiàn)矩陣,其計(jì)算公式如下所示,當(dāng)兩名演員共同參演一部電影時(shí),則認(rèn)為共現(xiàn)并構(gòu)建一條相關(guān)聯(lián)的關(guān)系邊,否則沒有。

        2.接著采用Gephi構(gòu)建演員的關(guān)系圖譜,構(gòu)建的圖形如圖11所示。

        圖11 社交網(wǎng)絡(luò)構(gòu)建演員關(guān)系圖譜

        該演員關(guān)系圖譜中共挖掘出1067名演員和8943條關(guān)系,它將具有相似關(guān)系的演員聚集在一起,比如圖11左下角部分,放大后顯示如圖12所示。它展現(xiàn)了香港地區(qū)經(jīng)常合作并且票房較高的演員之間的關(guān)系,包括“古天樂”“張家輝”“劉青云”“甄子丹”等主演以及“吳孟達(dá)”“秦沛”等經(jīng)典配角。

        圖12 香港地區(qū)演員關(guān)系圖譜

        表6是中國(guó)電影網(wǎng)票房前500部電影參演前十名的演員信息,包括參演次數(shù)和參演的部分電影。

        表6 中國(guó)電影網(wǎng)票房前500部電影參演前十名的演員信息

        (六)決策樹分類算法

        本實(shí)驗(yàn)將對(duì)中國(guó)電影網(wǎng)票房前500部的電影進(jìn)行決策樹分類分析,根據(jù)電影的評(píng)分將其劃分為口碑好和口碑差的電影,并預(yù)測(cè)電影的質(zhì)量。本文將評(píng)分高于或等于6.0分的電影定義為口碑好的電影,而低于6.0分的定義為口碑差的電影(滿分10分)。數(shù)據(jù)集包括八個(gè)特征,如下圖所示。

        表5 數(shù)據(jù)集所包含的特征

        本實(shí)驗(yàn)將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集共350部電影,測(cè)試集共150部電影,實(shí)驗(yàn)采用準(zhǔn)確率(Precision)、召回率(Recall)和F特征值(F-measure)進(jìn)行評(píng)估,其計(jì)算公式如下:

        (2)

        (3)

        (4)

        其中,ni表示類別為i的文本數(shù)目,nj表示聚類j的文本數(shù)目,nij表示聚類j中屬于i的數(shù)目。

        決策樹分析旨在對(duì)電影質(zhì)量進(jìn)行預(yù)測(cè)分類,劃分為口碑好(類標(biāo)為1)和口碑差(類標(biāo)為0)的兩類。實(shí)驗(yàn)結(jié)果如表6所示,其中口碑差的電影準(zhǔn)確率、召回率和F值分別為0.9076、0.8429、0.8741,口碑好的電影實(shí)驗(yàn)結(jié)果更好,準(zhǔn)確率、召回率和F值分別為0.9500、0.8941、0.9212。

        表6 決策樹分類實(shí)驗(yàn)結(jié)果

        電影質(zhì)量預(yù)測(cè)結(jié)果的部分電影如表7所示:

        表7 決策樹分類預(yù)測(cè)的電影結(jié)果

        五、結(jié) 語

        傳統(tǒng)的中國(guó)電影市場(chǎng)分析方法較為單一,缺乏利用社交網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)算法分析電影信息,沒有利用可視化分析直觀地呈現(xiàn)電影深層次的規(guī)律。針對(duì)這些缺點(diǎn),本文提出了一種基于社交網(wǎng)絡(luò)和決策樹的電影數(shù)據(jù)分析方法,并結(jié)合可視化技術(shù)多角度分析影響電影票房和質(zhì)量的因素。得出如下結(jié)論:

        1.中國(guó)電影市場(chǎng)近十年可視化分析得出:國(guó)產(chǎn)故事片產(chǎn)量、國(guó)產(chǎn)片和進(jìn)口片票房、票房過億元影片數(shù)量都有所增長(zhǎng),中國(guó)電影市場(chǎng)正迅速發(fā)展。

        2.電影劇情類型和產(chǎn)地的可視化分析得出:我國(guó)在引進(jìn)國(guó)外優(yōu)秀電影的同時(shí)也需要提升自身的創(chuàng)新能力,吸取美國(guó)、英國(guó)、日本影片的優(yōu)點(diǎn)。

        動(dòng)作片、愛情片和懸疑片是我國(guó)大部分觀眾喜愛的電影,制片方或?qū)а菘梢远嗯臄z這三種類型的影片。

        3.通過熱門演員和幕后電影公司的詞云分析,挖掘出最具票房號(hào)召力的演員表、最具演技的演員表;幕后電影公司“中國(guó)電影”“華夏電影”“萬達(dá)影視”“華誼兄弟”共占據(jù)了中國(guó)電影市場(chǎng)的57.4%,符合Power-Law現(xiàn)象分布。

        4.黃金檔期可視化分析得出:全年中國(guó)電影市場(chǎng),高票房的影片都于熱門檔期上映,“黃金檔期”成為影視公司爭(zhēng)奪的重要資源。

        5.社交網(wǎng)絡(luò)分析演員關(guān)系圖譜共挖掘出1067名演員和8943條關(guān)系,它將具有相似關(guān)系的演員聚集在一起,并展現(xiàn)了各地區(qū)經(jīng)常合作并且票房較高的主演和配角之間的關(guān)系。

        6.決策樹算法對(duì)中國(guó)電影網(wǎng)票房前500部的電影進(jìn)行分類分析,根據(jù)電影的評(píng)分將其劃分為口碑好和口碑差的電影,其算法的F值較高。

        總之,本文提出的算法有效地挖掘出中國(guó)電影市場(chǎng)有價(jià)值的信息,該方法可以給投資方和導(dǎo)演們提供電影拍攝的題材、演員和上映時(shí)間建議。本文的研究成果具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,該算法可以廣泛應(yīng)用于電影市場(chǎng)分析、電影智能推薦、文本挖掘、社交網(wǎng)絡(luò)等領(lǐng)域,更好地優(yōu)化中國(guó)電影市場(chǎng),為觀眾提供更好的精神食糧。

        猜你喜歡
        詞云決策樹可視化
        詞云和情感分析在新媒體環(huán)境下社會(huì)科學(xué)普及的應(yīng)用研究
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于PyQt5界面的詞云制作軟件設(shè)計(jì)
        基于CGAL和OpenGL的海底地形三維可視化
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于SCI文獻(xiàn)分析的呼吸病學(xué)發(fā)展態(tài)勢(shì)研究
        基于決策樹的出租車乘客出行目的識(shí)別
        亚洲 小说区 图片区 都市| 色猫咪免费人成网站在线观看| 六月丁香久久| 国产v综合v亚洲欧美大天堂| 日本精品熟妇一区二区三区| 在线国产丝袜自拍观看| 在线播放av不卡国产日韩| 精品国产乱码久久久久久婷婷| 亚洲av无码国产精品色软件下戴 | 淫片一区二区三区av| 国产果冻豆传媒麻婆精东| 久久午夜无码鲁丝片直播午夜精品| 狠狠狠狠狠综合视频| 91精品福利一区二区三区| 极品尤物精品在线观看| 又黄又硬又湿又刺激视频免费| 欧美精品中文字幕亚洲专区| AV中文字幕在线视| 久久亚洲综合亚洲综合| 脱了老师内裤猛烈进入| 亚洲精品乱码久久久久久金桔影视| 少妇人妻在线视频| 国产视频精品一区白白色| 久久精品人妻一区二三区| 在线观看老湿视频福利| 精品人妻无码一区二区色欲产成人| 国产精品玖玖玖在线资源| 亚洲天堂av社区久久| 日本一区二区三区经典视频| 男吃奶玩乳尖高潮视频| 中国老妇女毛茸茸bbwbabes| 国产一级免费黄片无码AV| 日韩人妻中文字幕一区二区| 国产午夜视频一区二区三区| 亚洲精品乱码久久久久久中文字幕 | 久久精品一区二区三区不卡牛牛| 国产av熟女一区二区三区密桃| 中文在线中文a| 全部孕妇毛片丰满孕妇孕交| 91老司机精品视频| 亚洲一区二区三区亚洲|