摘 要:電影行業(yè)蒸蒸日上,看電影成為越來(lái)越多人的日常娛樂(lè)方式,與此同時(shí),影院間的競(jìng)爭(zhēng)更加激烈。在充滿機(jī)遇和威脅的市場(chǎng)中,提高自己的競(jìng)爭(zhēng)優(yōu)勢(shì)成為影院必須面對(duì)的問(wèn)題。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,引入影院管理信息系統(tǒng)是一個(gè)有重要意義的課題。本文從影院管理信息系統(tǒng)出發(fā),首先闡述了數(shù)據(jù)挖掘的概念、算法和一般步驟,然后介紹了數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理,最后重點(diǎn)分析了數(shù)據(jù)挖掘在影院系統(tǒng)中的具體應(yīng)用。
關(guān)鍵詞:影院管理;數(shù)據(jù)挖掘;信息系統(tǒng);數(shù)據(jù)庫(kù)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)08-0082-03
Abstract:The movie industry is booming. Watching movies has become a daily entertainment mode for more and more people. At the same time,the competition between cinemas is fiercer. In a market full of opportunities and threats,to improve their competitive advantage becomes a problem that theaters must face. With the continuous development of data mining technology,introducing theater management information system is an important issue. This thesis starts with the theater management information system,first elaborates the concept,algorithm and general steps of data mining,then introduces data preparation and data preprocessing,and finally analyzes the specific application of data mining in the theater system.
Keywords:cinema management;data mining;information system;database
0 引 言
中國(guó)電影行業(yè)蓬勃發(fā)展。從票房規(guī)模上看,根據(jù)國(guó)家廣電總局電影局發(fā)布的數(shù)據(jù)可以看到,2017年全國(guó)電影總票房為559.11億元,同比增長(zhǎng)13.45%(兩者均包括服務(wù)費(fèi))。從銀幕上看,全國(guó)新增銀幕9597塊,銀幕總數(shù)已達(dá)到50776塊,同比增長(zhǎng)約23.3%;從觀影人次上看,2017年觀影人次為16.2億人次,較2016年同比增長(zhǎng)18.1%,放映場(chǎng)次為9469萬(wàn)場(chǎng),較去年同比增長(zhǎng)27.2%。相對(duì)應(yīng)地,單場(chǎng)上座人數(shù)也有所下滑;從平均票價(jià)上看,2017年與2016年略有下滑。由此可見,在觀影人次不斷增長(zhǎng)的同時(shí),全國(guó)的銀幕數(shù)量也在不斷上升,影院市場(chǎng)競(jìng)爭(zhēng)激烈,把握機(jī)遇和應(yīng)對(duì)競(jìng)爭(zhēng)成為了每個(gè)影院必須面對(duì)的挑戰(zhàn)。
近年來(lái),數(shù)據(jù)思維及數(shù)據(jù)分析方法逐漸滲透到各行各業(yè)中,數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已經(jīng)不是一個(gè)新名詞,它最早成功應(yīng)用于高投入、高風(fēng)險(xiǎn)、高回報(bào)的金融領(lǐng)域,現(xiàn)在正在不斷地向電信、保險(xiǎn)、零售等客戶資源信息密集的行業(yè)拓展。它在電影行業(yè)的應(yīng)用也越來(lái)越廣、越來(lái)越深。本文將從影院管理信息系統(tǒng)出發(fā),研究數(shù)據(jù)挖掘技術(shù)在其中的用武之地,探求數(shù)據(jù)挖掘在提高影院競(jìng)爭(zhēng)力方面的具體應(yīng)用。
1 數(shù)據(jù)挖掘
隨著電影行業(yè)的高速發(fā)展,各影院都建立了自己的管理信息系統(tǒng),擁有較為完善的數(shù)據(jù)庫(kù)系統(tǒng)。經(jīng)過(guò)多年運(yùn)營(yíng),影院內(nèi)部積累了大量的業(yè)務(wù)數(shù)據(jù),如售票數(shù)據(jù)、會(huì)員信息數(shù)據(jù)、影片放映數(shù)據(jù)等,這些數(shù)據(jù)一般都是海量的,要最大限度地利用這些數(shù)據(jù),從中分析挖掘出對(duì)影院運(yùn)營(yíng)有用的信息。傳統(tǒng)以MIS為代表的查詢、報(bào)表類工具已經(jīng)滿足不了人們對(duì)數(shù)據(jù)進(jìn)行深層次分析的需求。在這種背景下,影院對(duì)數(shù)據(jù)挖掘技術(shù)在影院信息系統(tǒng)的深入應(yīng)用有了急切的需求和更高的要求。
1.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含在其中有價(jià)值的、人們事先不知道的、潛在有用的信息和知識(shí)的過(guò)程,即“從數(shù)據(jù)中挖掘知識(shí)”的過(guò)程,也是一種決策支持過(guò)程。它主要基于人工智能、機(jī)器學(xué)習(xí)、模式學(xué)習(xí)和統(tǒng)計(jì)學(xué)等。通過(guò)對(duì)大數(shù)據(jù)進(jìn)行高度自動(dòng)化地分析,做出歸納性的推理,從中挖掘出潛在的模式,發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),把握行業(yè)結(jié)構(gòu)的進(jìn)化,跟蹤正在出現(xiàn)的連續(xù)性和非連續(xù)性變化,以及分析現(xiàn)有和潛在競(jìng)爭(zhēng)對(duì)手的能力和方向,幫助企業(yè)、商家和用戶調(diào)整市場(chǎng)營(yíng)銷策略、改善企業(yè)管理、減少風(fēng)險(xiǎn)以及理性面對(duì)市場(chǎng),并做出正確的決策,從而幫助企業(yè)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
1.2 數(shù)據(jù)挖掘的算法
大數(shù)據(jù)挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法和Web數(shù)據(jù)挖掘等。這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。下面主要對(duì)數(shù)據(jù)挖掘技術(shù)中的一些經(jīng)典算法進(jìn)行了介紹。
(1)分類技術(shù)。分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn),并按照分類模式將其劃分為不同的類,目的是通過(guò)分類模型將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別中。它是數(shù)據(jù)挖掘技術(shù)中應(yīng)用最廣泛的技術(shù)之一,目前在商業(yè)上應(yīng)用得最多。其中分類模型也稱作分類器,其構(gòu)造方法主要有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和粗糙集方法等;
(2)回歸分析?;貧w分析通過(guò)函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來(lái)發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對(duì)數(shù)據(jù)序列的預(yù)測(cè)及相關(guān)關(guān)系的研究中。在市場(chǎng)營(yíng)銷中,回歸分析可以被應(yīng)用到各個(gè)方面;
(3)聚類技術(shù)。聚類類似于分類,但與分類的目的不同,是把一組個(gè)體按照相似性歸成若干類,即“物以類聚”。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。常見聚類算法有K-Means、K-Medoids和DBSCAN等;
(4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的目的是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。其挖掘過(guò)程主要包括兩個(gè)階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組,第二階段為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則;
(5)人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是一種通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,具有對(duì)非線性系統(tǒng)數(shù)據(jù)的快速擬合能力,可以完成分類、聚類和特征提取等多種數(shù)據(jù)挖掘任務(wù)。其最大的特點(diǎn)在于具有學(xué)習(xí)能力,可以通過(guò)學(xué)習(xí)大量樣本數(shù)據(jù)來(lái)獲取輸入、輸出之間的函數(shù)關(guān)系。
1.3 數(shù)據(jù)挖掘的步驟
數(shù)據(jù)挖掘完整的步驟為:
(1)理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源;
(2)獲取相關(guān)知識(shí)與技術(shù);
(3)整合與檢查數(shù)據(jù);
(4)去除錯(cuò)誤或不一致的數(shù)據(jù);
(5)建立模型和假設(shè);
(6)實(shí)際數(shù)據(jù)挖掘工作;
(7)測(cè)試和驗(yàn)證挖掘結(jié)果;
(8)解釋和應(yīng)用。
2 數(shù)據(jù)挖掘準(zhǔn)備過(guò)程
為了更好地挖掘影院的海量數(shù)據(jù),并從中獲得有效信息,數(shù)據(jù)分析人員需要獲取不同來(lái)源的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、集成、變換和歸約等。
2.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)的來(lái)源主要分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。影院的日常經(jīng)營(yíng)會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)會(huì)存儲(chǔ)在影院的數(shù)據(jù)庫(kù)中,由于數(shù)據(jù)挖掘?qū)?shù)據(jù)真實(shí)性、規(guī)范性和完整性的要求比較高,且存儲(chǔ)粒度低的細(xì)節(jié)數(shù)據(jù)有利于取得好的數(shù)據(jù)挖掘效果,因此對(duì)影院管理信息系統(tǒng)的設(shè)計(jì)和架構(gòu)有一定要求。此外,影院的管理信息系統(tǒng)還需獲取和存儲(chǔ)外部數(shù)據(jù),主要包括美團(tuán)、豆瓣、貓眼等電影票售票平臺(tái)中的銷售、觀眾評(píng)論等數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
沒(méi)有高質(zhì)量的數(shù)據(jù)就沒(méi)有高質(zhì)量的挖掘結(jié)果。實(shí)際應(yīng)用系統(tǒng)中收集的數(shù)據(jù)通常是“臟”數(shù)據(jù),往往具有不完整、有噪聲和不一致的問(wèn)題,需要填充空缺的值、識(shí)別孤立點(diǎn)、消除噪聲以及糾正數(shù)據(jù)中的不一致。數(shù)據(jù)清洗完后就開始數(shù)據(jù)集成、變換和歸約。數(shù)據(jù)歸約主要是降維,讓數(shù)據(jù)更突出以及更有代表性。
3 數(shù)據(jù)挖掘在影院信息系統(tǒng)的應(yīng)用
2017年11月26日,國(guó)家新聞出版廣電總局電影局主辦的學(xué)習(xí)座談會(huì)上,電影局長(zhǎng)張宏森表示:“到2020年,預(yù)計(jì)中國(guó)電影市場(chǎng)將成為世界第一大電影市場(chǎng),銀幕數(shù)量預(yù)計(jì)超過(guò)6萬(wàn)塊,年產(chǎn)影片800部左右,年票房預(yù)計(jì)達(dá)到700億元,總體實(shí)力會(huì)有一個(gè)更大的躍升?!泵鎸?duì)越來(lái)越大的市場(chǎng),影院信息化已成常態(tài),利用好影院日常經(jīng)營(yíng)中產(chǎn)生的海量數(shù)據(jù)和市場(chǎng)上冗雜的相關(guān)數(shù)據(jù)來(lái)提升自身的競(jìng)爭(zhēng)力是一大難題,值得思考。
3.1 數(shù)據(jù)挖掘在影院選擇電影方面的應(yīng)用
電影數(shù)量不斷上升,很多情況下影院必須對(duì)放映的電影有所取舍。決策樹、邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)都可以有效輔助影院選擇放映的影片,并對(duì)排片等進(jìn)行決策。影響一部電影票房的因素不但有電影本身的先導(dǎo)因素,比如影片預(yù)算、導(dǎo)演、演員、口碑以及大量的主觀因素,包括影片排片、影片宣傳及發(fā)行。這里的先導(dǎo)因素可用作決策樹、邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)等算法對(duì)電影票房進(jìn)行預(yù)測(cè)時(shí)的變量,然后用大量歷史數(shù)據(jù)對(duì)電影票房預(yù)測(cè)模型進(jìn)行訓(xùn)練,得到較為準(zhǔn)確的模型。通過(guò)該模型預(yù)測(cè)得到的票房可作為影院對(duì)該電影是否放映及其排片的決策依據(jù)。當(dāng)然,預(yù)測(cè)票房模型在接下來(lái)仍需不斷加以訓(xùn)練來(lái)提高精度。
3.2 數(shù)據(jù)挖掘在影院選擇合作售票平臺(tái)方面的應(yīng)用
線上購(gòu)票已經(jīng)成為主流觀影人群的習(xí)慣動(dòng)作,2015年以來(lái),通過(guò)大規(guī)模的票補(bǔ),線上售票占比逐漸提升。2017年全國(guó)線上售票比例大約在81.7%,較2016年的76.1%提高了約6個(gè)百分點(diǎn)。目前觀眾常用的購(gòu)票平臺(tái)有十多個(gè),選擇適量、合適的售票平臺(tái)開展合作可以幫助影院實(shí)現(xiàn)更好的發(fā)展。
影院信息系統(tǒng)首先需要對(duì)一些常見售票平臺(tái)的數(shù)據(jù)進(jìn)行收集存儲(chǔ);然后統(tǒng)計(jì)分析觀影人群主要通過(guò)哪幾個(gè)平臺(tái)購(gòu)買電影票以及滿意度如何等。其中滿意度的測(cè)量評(píng)價(jià)從平臺(tái)的售票數(shù)量、影院售票途徑中的占比和用戶評(píng)論等多個(gè)維度展開。用戶評(píng)論的分析會(huì)涉及到簡(jiǎn)單自然語(yǔ)言的處理,部分評(píng)論需要用到TF-IDF進(jìn)行進(jìn)一步分析;最后管理層可通過(guò)OLAP技術(shù)來(lái)輔助決策。
3.3 數(shù)據(jù)挖掘在影院會(huì)員客戶保留和拓展方面的應(yīng)用
影院的長(zhǎng)期經(jīng)營(yíng)發(fā)展需要客戶保留和客戶拓展兩方面的共同提高。對(duì)現(xiàn)有的會(huì)員客戶,影院將對(duì)其觀影次數(shù)、頻率、觀看影片類型等利用分類、預(yù)測(cè)的數(shù)據(jù)挖掘技術(shù)進(jìn)行跟蹤分析,升級(jí)服務(wù)方案,提高客戶滿意度,從而提高其忠誠(chéng)度,在其有流失預(yù)兆時(shí)能及時(shí)做出反應(yīng)進(jìn)行挽回。影院除收集會(huì)員的觀影信息外,也需要收集非會(huì)員客戶的觀影行為信息,有針對(duì)性地發(fā)現(xiàn)客戶的反應(yīng)行為模式,將潛在的會(huì)員客戶列表排序,努力發(fā)展這些客戶成為會(huì)員。這部分主要用到數(shù)據(jù)挖掘技術(shù)中的分類、聚類和關(guān)聯(lián)分析。
影院也可通過(guò)關(guān)聯(lián)分析觀影人群在電影類型喜好上的潛在特點(diǎn),對(duì)支持度、置信度高的幾部影片進(jìn)行套餐化銷售,例如看了《脫單告急》的觀眾也喜歡看《21克拉》,或者看了《后來(lái)的我們》的觀眾,通常還會(huì)選擇觀看《戰(zhàn)神紀(jì)》,這些影片的電影票則可以開展同時(shí)購(gòu)買優(yōu)惠或送飲料的活動(dòng)。這不僅能提高影院銷售額,也便捷優(yōu)惠了客戶,提升他們對(duì)影院的滿意度。
3.4 數(shù)據(jù)挖掘在影院宣傳方面的應(yīng)用
影響一部電影票房的因素除電影本身的先導(dǎo)因素外,還有大量的主觀因素,如影片排片、影片宣傳及發(fā)行。因此,影院在海報(bào)布置、等候區(qū)預(yù)告片播放、會(huì)員客戶短信推送方面大有可為。分析即將上映和正在上映的影片在網(wǎng)上的輿論、和度等數(shù)據(jù)可輔助決策該影片的海報(bào)大小、擺放位置和等候區(qū)大屏幕上預(yù)告片的播放頻率。
影院數(shù)據(jù)分析人員對(duì)會(huì)員的觀影行為進(jìn)行因子分析,對(duì)其進(jìn)行分類,然后根據(jù)每類會(huì)員的行為特征,可有針對(duì)性地推薦影片或推薦購(gòu)買套餐,套餐會(huì)有不同影片搭配售票、同時(shí)購(gòu)買同部影片的多張票或購(gòu)買某時(shí)間段的電影票可享優(yōu)惠等多種類型。
4 結(jié) 論
電影院作為產(chǎn)業(yè)鏈的終端環(huán)節(jié),在整個(gè)電影產(chǎn)業(yè)格局中扮演著至關(guān)重要的角色,影院的運(yùn)營(yíng)也帶動(dòng)與電影相關(guān)業(yè)態(tài)的發(fā)展,因而影院建設(shè)一直是電影產(chǎn)業(yè)發(fā)展的重點(diǎn)。當(dāng)前全球電影銀幕市場(chǎng)趨于飽和,院線發(fā)展逐漸由新建影院模式向合并收購(gòu)模式轉(zhuǎn)變。提高和保持自己的競(jìng)爭(zhēng)優(yōu)勢(shì)對(duì)影院而言至關(guān)重要,將數(shù)據(jù)挖掘深入應(yīng)用到影院管理信息系統(tǒng)中,將對(duì)影院的運(yùn)營(yíng)產(chǎn)生持續(xù)性的積極影響,并得到理想的效果。
參考文獻(xiàn):
[1] 閆曉妍.基于數(shù)據(jù)挖掘技術(shù)的企業(yè)智能競(jìng)爭(zhēng)情報(bào)系統(tǒng)研究 [J].現(xiàn)代情報(bào),2007(11):187-189.
[2] 羅芳.數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信決策支持系統(tǒng)中的應(yīng)用 [J].交通與計(jì)算機(jī),2004(4):74-76.
[3] 張蓉.數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)客戶關(guān)系管理系統(tǒng)中的應(yīng)用 [J].現(xiàn)代情報(bào),2006(6):185-187.
[4] 王玉帛.基于數(shù)據(jù)挖掘?qū)τ绊戨娪捌狈恳蛩氐臏\析 [J].通訊世界,2017(2):236-237.
[5] 鄭建智,段占祺,應(yīng)桂英.數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)在衛(wèi)生統(tǒng)計(jì)決策支持系統(tǒng)中的應(yīng)用 [J].中國(guó)衛(wèi)生信息管理雜志,2012,9(3):47-51.
作者簡(jiǎn)介:孫夢(mèng)璐(1996.12-),女,漢族,浙江慈溪人,本科。研究方向:信息管理與信息系統(tǒng)。