亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術(shù)的電影票房預(yù)測分析

        2020-02-02 11:50:18彭琪凱楊志浩郭丹通訊作者
        魅力中國 2020年46期
        關(guān)鍵詞:數(shù)據(jù)挖掘分析信息

        彭琪凱 楊志浩 郭丹(通訊作者)

        (通化師范學(xué)院計算機學(xué)院,吉林 通化 134000)

        隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的飛速發(fā)展,當(dāng)今各行各業(yè)所需要和處理巨量的信息化數(shù)據(jù)逐年遞增,如何在海量數(shù)據(jù)提取有效的且有價值的信息,大數(shù)據(jù)挖掘和分析技術(shù)成為相關(guān)行業(yè)的重中之重。作為國民經(jīng)濟發(fā)展支柱之一的文化影視產(chǎn)業(yè)備受各大廣電網(wǎng)絡(luò)、投資人關(guān)注。票房和收視率作為影視行業(yè)的主要評測標(biāo)準(zhǔn),制片人、廣告代理機構(gòu)投資及收益的主要參考依據(jù),無形中體現(xiàn)了有效數(shù)據(jù)分析的價值??偟膩碚f,大數(shù)據(jù)的終極目標(biāo)并不僅僅是改變競爭環(huán)境,而是徹底扭轉(zhuǎn)整個競爭環(huán)境,帶來新機遇,企業(yè)行業(yè)要應(yīng)勢而變。只有認(rèn)識到這一點,使用合適的數(shù)據(jù)分析工具、智慧地使用和管理數(shù)據(jù),才能在長期競爭中成為終極贏家。

        一、大數(shù)據(jù)的含義和特征

        (一)大數(shù)據(jù)的含義

        對于“大數(shù)據(jù)”(Big data)研究機構(gòu)Gartner 給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

        大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。

        從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。

        隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。分析師團隊認(rèn)為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce 一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。

        (二)大數(shù)據(jù)的特征

        隨著大數(shù)據(jù)的技術(shù)日益普及,大數(shù)據(jù)的意義也呈現(xiàn)出多樣化的趨勢,一般很難給出一個準(zhǔn)確的定義。因此這三個字不能準(zhǔn)確描述大數(shù)據(jù)。大數(shù)據(jù)不一定意味著海量數(shù)據(jù),而是說數(shù)據(jù)鏈間具有明顯的特征。目前大數(shù)據(jù)的 4V 定義被廣泛認(rèn)同。也就是說,大數(shù)據(jù)的特征是以V 開頭的四個字母來描述的。

        Veracity 數(shù)據(jù)真實性:數(shù)據(jù)的質(zhì)量;Volume 數(shù)據(jù)容量:數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息;Variety 數(shù)據(jù)種類:數(shù)據(jù)類型的多樣性;Velocity傳輸速度:獲得數(shù)據(jù)的速度。除此之外,大數(shù)據(jù)還具有可變性(Variability),它會妨礙處理和有效地管理數(shù)據(jù)的過程;復(fù)雜性(Complexity),即數(shù)據(jù)量巨大,來源多渠道;以及價值性(value),即合理運用大數(shù)據(jù),以低成本創(chuàng)造高價值。

        (三)影視大數(shù)據(jù)的特征

        通過分析影視大數(shù)據(jù)特征,票房和收視率受到影響的因素非常多[3]。近幾年新興媒體漸漸的突破了“傳統(tǒng)媒體”的限制,讓影院和電視臺必須開始考慮互聯(lián)網(wǎng)元素對票房和收視率帶來的影響,例如微博等平臺上演員的粉絲數(shù)以及搜索量等,微博上被討論的次數(shù)、該影片的關(guān)注程度、搜索引擎的搜索次數(shù)、各大視頻網(wǎng)站上的點擊量等,對比于傳統(tǒng)行業(yè)以及影視預(yù)測來說,建立在互聯(lián)網(wǎng)基礎(chǔ)上的影視數(shù)據(jù)挖掘有著下面幾點特征:

        1.數(shù)據(jù)類別多、量大:由于日常生活中人們離不開互聯(lián)網(wǎng)的幫助,每天都會出現(xiàn)海量的交互信息,用戶在網(wǎng)絡(luò)中各類操作都會被當(dāng)做網(wǎng)絡(luò)日志進行記錄。眾多的字段、數(shù)據(jù)和信息,使得分析前對于分析字段的挑選和篩查工作顯得非常重要。

        2.影視數(shù)據(jù)挖掘時效性短:隨著用戶行為變化以及網(wǎng)絡(luò)環(huán)境的改變加速,使得數(shù)據(jù)挖掘算法及模型的改進周期在持續(xù)縮小,以往的“用戶流失預(yù)測模型”是以年為時間尺度完成更新,現(xiàn)在互聯(lián)網(wǎng)下的這些模型則只需三個月就需要進行改進和優(yōu)化。

        3.技術(shù)更新快:和傳統(tǒng)產(chǎn)業(yè)比較,網(wǎng)絡(luò)當(dāng)中的新技術(shù)、新模式發(fā)展更快、更短、更具顛覆性。這就要求數(shù)據(jù)分析和挖掘的應(yīng)用更加多元化。從最初分析挖掘,再到以微博應(yīng)用為典型的分析需求,直至如今更加熱門的移動數(shù)據(jù)分析和運用,可以說如今網(wǎng)絡(luò)數(shù)據(jù)分析應(yīng)用已經(jīng)獲得了極大的發(fā)展。

        二、獲取電影票房的數(shù)據(jù)

        以2019 年春節(jié)檔關(guān)注的電影《瘋狂外星人》《流浪地球》《飛馳人生》《新喜劇之王》四部為例,通過 Python 從各大網(wǎng)站如m1095、票房網(wǎng)、豆瓣網(wǎng)等獲取電影票房、質(zhì)量、導(dǎo)演、演員屬性等數(shù)據(jù),如表1。

        三、對比預(yù)測與實際數(shù)據(jù)

        關(guān)于這幾部電影的票房,我們團隊在電影上映一周前就做了出了預(yù)測,如圖2:

        截止到2019 年2 月12 日早上9 點,我們再來看一下首周票房對比結(jié)果,如圖3:

        除了《流浪地球》這匹黑馬殺出重圍之外,其他電影的預(yù)測結(jié)果與實際結(jié)果幾乎完全吻合。那么,我們是如何用數(shù)據(jù)挖掘預(yù)測電影票房的呢?即先根據(jù)歷史票房變化預(yù)測出春節(jié)檔總票房,然后根據(jù)各導(dǎo)演、演員制作的歷史電影質(zhì)量、票房情況、SEO 情況等預(yù)測出各電影票房占比,之后綜合預(yù)測出各電影的實際票房。

        四、用算法工具進行預(yù)測及處理

        如何使用歷史數(shù)據(jù)來預(yù)測電影質(zhì)量?對于電影來講不變的就是那些導(dǎo)演與演員,導(dǎo)演的水平與演員的水平基本決定電影質(zhì)量從而影響電影票房。為了客觀衡量導(dǎo)演、演員水平,根據(jù)歷史電影評分、導(dǎo)演信息、演員信息、票房信息、電影類型信息、評價信息等特征進行組合最終共有74 個特征,再結(jié)合歷史票房數(shù)據(jù)等通過加權(quán)算法分析得到四部電影的票房占比情況,處理后的數(shù)據(jù)如圖4。

        五、結(jié)合SEO、市場響應(yīng)等優(yōu)化票房占比

        電影票房還與SEO等相關(guān),我們找尋了百度指數(shù)、微信指數(shù)、淘票票指數(shù)等數(shù)據(jù),如圖5:

        從歷史數(shù)據(jù)發(fā)現(xiàn)這些指數(shù)與電影票房呈正相關(guān)關(guān)系,也就是指數(shù)越高票房越高,加入這些指數(shù)后,使用算法重新進行預(yù)測得到我們最后的票房預(yù)測結(jié)果。

        大數(shù)據(jù)技術(shù)的飛速發(fā)展和應(yīng)用在各種領(lǐng)域都得到了關(guān)注和共識,收集海量的數(shù)據(jù)、提取有效的信息、運用精準(zhǔn)的分析算法、采用合理的處理工具,都會使各行各業(yè)的經(jīng)濟效率、社會疚得到大幅度的提升。

        猜你喜歡
        數(shù)據(jù)挖掘分析信息
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲色www成人永久网址| 日本一区二区不卡在线| 欧美群妇大交群| 国内精品人妻无码久久久影院导航 | 精品亚洲午夜久久久久| 亚洲处破女av一区二区| 久久精品一区午夜视频| 亚洲精品无码久久久久牙蜜区| 人妻丰满熟妇av无码区hd| 国产自产自现在线视频地址 | 在线看片免费人成视久网不卡| 一本一道久久精品综合| 免费观看的a级毛片的网站| 免费一区啪啪视频| 美女被搞在线观看一区二区三区| 97精品人妻一区二区三区蜜桃| 特级做a爰片毛片免费看无码| 亚洲线精品一区二区三区八戒| 国产三级精品三级在专区中文| 夜夜高潮夜夜爽夜夜爱爱一区 | 亚洲中文字幕永久网站| 亚洲一区二区三区蜜桃| 国产顶级熟妇高潮xxxxx| 麻豆国产巨作AV剧情老师| 日本视频一区二区这里只有精品 | 久久99精品久久久久久| 无码人妻精一区二区三区| 国产国拍亚洲精品午夜不卡17| 国产亚洲精品综合一区二区| 丁香五月亚洲综合在线| 色爱区综合五月激情| 亚洲精品国产福利在线观看| 国产草逼视频免费观看 | 在线观看国产精品日韩av| 巨爆乳中文字幕爆乳区| 美腿丝袜网址亚洲av| 日本真人边吃奶边做爽电影| 乱子伦视频在线看| 成人免费丝袜美腿视频| 久久久精品人妻一区二区三区妖精 | 国产午夜精品av一区二区三|