楊 帥,馬少輝
(江蘇科技大學經(jīng)濟管理學院,江蘇 鎮(zhèn)江 212003)
隨著國內(nèi)互聯(lián)網(wǎng)發(fā)展的成熟,影視網(wǎng)站布局也趨于平穩(wěn),網(wǎng)絡(luò)影視市場的競爭也逐漸局限于有限的幾大影視網(wǎng)站。但隨著國家加強對知識產(chǎn)權(quán)的保護,在線免費觀看影視的規(guī)則將逐步打破,在為影視觀眾提供在線觀看影片的同時收取相應(yīng)費用將是大勢所趨。如今在線影視網(wǎng)站已逐步嘗試對觀眾觀看網(wǎng)站新上線的影視作品收取相關(guān)費用,主要表現(xiàn)在對首映不久的影片同步在影視網(wǎng)站上提供在線點播服務(wù),對觀看者收取5~10元的點播費(國內(nèi)比較知名的迅雷看看、56影視、土豆網(wǎng)、騰訊視頻等都提供此項服務(wù))。如何讓盡可能多的影視觀眾選擇付費觀看影視網(wǎng)站所提供的收費影片將成為影視網(wǎng)站盈利的主要方式之一,也將是影視網(wǎng)站健康發(fā)展的必經(jīng)之路?,F(xiàn)有影視網(wǎng)站必須區(qū)別找出愿意付費觀看相關(guān)影視作品的觀眾群體,以提高收費影片的觀看頻率,從而增加網(wǎng)站效益。因此,影視網(wǎng)站需要針對影片類型對最有可能付費觀看影片的觀眾進行影片推薦。
本文針對影片的類型,在NPTB模型的基礎(chǔ)上,把部分可以預(yù)測二元結(jié)果的模型方法進行整合,對比預(yù)測結(jié)果的準確性,并選擇預(yù)測準確性較高的3種預(yù)測方法進行組合,加入到NPTB模型中,用來預(yù)測影視觀眾是否接受觀看影視網(wǎng)站推薦的某一類型影片。
NPTB(Next-Product-to-Buy)模型[1]是由美國學者Knott、Hayes和Neslin于2002年提出的,用來提高銀行業(yè)金融產(chǎn)品的交叉銷售成功率。其模型的框架結(jié)構(gòu)如圖1所示。
圖1 NPTB模型結(jié)構(gòu)
圖1中,Xj表示構(gòu)建模型的變量向量,可以度量顧客對于產(chǎn)品j的需求,這些預(yù)測變量包括當前顧客所擁有的產(chǎn)品、人口統(tǒng)計變量等變量;Vj表示已經(jīng)觀測到的顧客對產(chǎn)品j的需求(V表示對某產(chǎn)品的需求);Zj表示購買需求的抑制因素。如果顧客對產(chǎn)品j的需求超過了抑制因素,顧客將會購買產(chǎn)品j,即Vj>Zj。
NPTB模型的構(gòu)建步驟如下:
(1)數(shù)據(jù)準備。
確定t和t+1時期的2期的數(shù)據(jù),t時期的數(shù)據(jù)包括以下自變量:t時期客戶擁有的產(chǎn)品數(shù)量,t時期的人口統(tǒng)計變量(年齡、收入等),t時期公司針對每個顧客的營銷努力等;t+l時期數(shù)據(jù)為因變量,即在t+l時期客戶是否購買該產(chǎn)品。
(2)選擇統(tǒng)計模型。
下一個客戶最有可能購買產(chǎn)品的預(yù)測統(tǒng)計模型包括:邏輯回歸、多元邏輯回歸、判別式分析和神經(jīng)網(wǎng)絡(luò)。其中,使用簡單、應(yīng)用最為廣泛的是邏輯回歸。當公司提供的所有產(chǎn)品中,客戶下一次只購買一種產(chǎn)品時,采用多元邏輯回歸模型較為適用;判別式分析使用也較為廣泛,當正態(tài)多元變量和在買與不買產(chǎn)品的顧客群體間是等協(xié)方差矩陣時,判別分析的預(yù)測誤差最小,但是當這些假定被違反時,判別分析僅僅能夠通過預(yù)測測試來進行評估;神經(jīng)網(wǎng)絡(luò)是擅長于捕捉非線性和交互作用,Knott等人的研究表明神經(jīng)網(wǎng)絡(luò)模型相比較其他模型,在預(yù)測結(jié)果上準確率較高。
(3)估計和評價模型。
以邏輯回歸模型為例,客戶選擇購買產(chǎn)品i的概率為:
其中,Xijk是對于顧客i的K預(yù)測變量的度量,βij是從數(shù)據(jù)中對系數(shù)的估計。如果有J種產(chǎn)品,就有J個單獨的邏輯回歸模型,每個模型針對一個產(chǎn)品。對每個模型的因變量的取值是0或1,表示顧客在下次購買中買或是不買產(chǎn)品j,自變量是Xj。用2種方式來評估預(yù)測的準確性:①比較一個模型與另一個模型的預(yù)測準確率;②與水平基準比較。
(4)確定目標顧客。
根據(jù)統(tǒng)計模型產(chǎn)生的預(yù)測概率,按概率大小進行排序,將前20%顧客作為交叉銷售的目標客戶[2]。
本文針對影視網(wǎng)站所能提供信息的特點,在NPTB模型原有4種統(tǒng)計技術(shù)基礎(chǔ)上加入8種針對于預(yù)測二元結(jié)果的統(tǒng)計技術(shù),并結(jié)合每種統(tǒng)計技術(shù)的預(yù)測效果,選擇預(yù)測準確性較好的3種統(tǒng)計技術(shù)進行組合,加入到NPTB模型中,用來預(yù)測影視觀眾是否接受觀看影視網(wǎng)站推薦的某一類型影片[3-4]。在此過程中首先要對收費影片進行分類,其次要提取影視觀眾的相關(guān)信息,主要包括影視觀眾的性別、年齡、職業(yè)、所觀看影片類型的分布、對所觀看影片的平均評分、對所觀看的某一類型影片的平均評分、最近是否觀看過某一類影片等。
本實驗所用數(shù)據(jù)集源自美國一家在線影視網(wǎng)站,數(shù)據(jù)集中包含了對影片的分類、影視觀眾的基本信息以及2000年期間的6040名用戶對3900部影片的1000209次匿名評價。
實驗所用軟件采用IBM公司的SPSS軟件和SPSS Clementine軟件。在試驗過程中,首先利用SPSS軟件對源數(shù)據(jù)進行預(yù)處理,由于每名觀眾的用戶地址是唯一的,故根據(jù)觀眾的用戶地址利用SPSS軟件把觀眾的基本信息及觀看影片信息進行合并,在此基礎(chǔ)上統(tǒng)計每名觀眾觀看的影片數(shù)量,剔除觀看影片數(shù)量不足15部的影視觀眾(觀看影片數(shù)量較少,不利于預(yù)測),這也使得源數(shù)據(jù)中可用來預(yù)測的用戶數(shù)據(jù)由6040名觀眾下降為4652名觀眾,然后對4652名觀眾觀看每一類型的影片數(shù)量進行統(tǒng)計,并計算出觀眾對所觀看過影片的平均評分以及觀眾對觀看過的每一類型影片的平均評分,最后統(tǒng)計出觀眾最近觀看的5部影片中包含的影片類型,從而使得數(shù)據(jù)分布符合 SPSS軟件與 SPSS Clementine軟件的應(yīng)用要求[5-6]。在SPSS Clementine軟件下建立8種針對二元結(jié)果的統(tǒng)計模型(CHAID算法、神經(jīng)網(wǎng)絡(luò)模型、SVM模型、決策列表模型、貝葉斯網(wǎng)絡(luò)模型、QUEST算法、邏輯回歸模型、分類和回歸算法構(gòu)建預(yù)測決策樹),分別對影視觀眾下一部是否接受推薦觀看的某一類型影片的概率進行預(yù)測,在每種模型預(yù)測基礎(chǔ)上選擇預(yù)測準確率較高的3種統(tǒng)計模型進行組合,形成一種新的預(yù)測模型。以動作類影片類型為例,運用8種不同的針對二元結(jié)果的統(tǒng)計模型對觀眾下一部接受觀看動作片的概率進行預(yù)測,選取預(yù)測結(jié)果較好的3種統(tǒng)計模型(CHAID算法、QUEST算法、分類和回歸算法構(gòu)建預(yù)測決策樹)進行組合,利用組合后的模型對觀眾下一部接受觀看動作片的概率進行預(yù)測,找出觀看動作片概率較高的觀眾進行動作片的推廣[3,7-10]。針對不同的影片類型建立新的預(yù)測模型,分別對影視觀眾下一部接受觀看某一類型影片的概率進行預(yù)測,從而根據(jù)影片類型及觀眾下一部接受觀看此類型影片的概率選擇影片的最佳推廣對象。在此實驗過程中涉及的數(shù)據(jù)預(yù)處理與模型構(gòu)建處理過程如表1和圖2所示。
表1 預(yù)處理后的數(shù)據(jù)集
圖2 模型構(gòu)建處理過程
表1中,M、F分別代表男性和女性;用戶年齡1、2、3、4、5、6 分別代表 18 歲以下、18 ~24 歲、25 ~34歲、35~44歲、45~55歲、56歲以上年齡段;用戶職業(yè)1~16分別代表16種不同的職業(yè);用戶郵編代表用戶的不同地址;觀看影片類型次數(shù)特指提取出的評分在4分及以上的影片觀看次數(shù);影片的評分從低到高有1~5五個層次;是否包含的影片類型1表示包含,0表示不包含。
在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,把4652名觀眾的數(shù)據(jù)信息分成訓練數(shù)據(jù)和測試數(shù)據(jù)2部分進行實驗(前2400名觀眾數(shù)據(jù)為訓練數(shù)據(jù),其余部分為測試數(shù)據(jù)),并對比其預(yù)測的準確性,以檢驗新建模型的實用性。預(yù)測結(jié)果準確性對比如表2所示。
表2 預(yù)測結(jié)果的準確性
由表2可以看出,預(yù)測概率的準確性平均在80℅以上,部分類型影片預(yù)測準確率高于90℅,這將有效地幫助影視網(wǎng)站選擇影片的推廣對象,增加觀眾對影視網(wǎng)站的忠誠度[4],從而增加網(wǎng)站的效益。另外由表2中訓練數(shù)據(jù)與測試數(shù)據(jù)的預(yù)測結(jié)果對比可見,兩者誤差在可控范圍內(nèi),說明新建模型是切實可行的。
再利用新建模型及全部4652名觀眾的數(shù)據(jù)信息進行預(yù)測,在其預(yù)測結(jié)果上可以看到每位觀眾下一部接受觀看某一類型影片的概率(見表3),從而可以在已知影片類型的基礎(chǔ)上有針對性地選擇接受觀看某一類型影片概率較高的觀眾進行影片推廣。
表3 每位觀眾下一部接受觀看某一類型影片的概率
本文采用預(yù)處理后的所有觀眾數(shù)據(jù),運用SVM算法、神經(jīng)網(wǎng)絡(luò)模型以及分類和回歸算法構(gòu)建決策樹等預(yù)測模型對觀眾下一部接受觀看某一類型影片的概率進行預(yù)測,以檢驗本研究所采用新模型方法的優(yōu)越性,其預(yù)測結(jié)果對比如表4所示。
表4 模型的預(yù)測準確性對比
通過表4對比可以發(fā)現(xiàn),本研究在NPTB模型基礎(chǔ)上建立的組合預(yù)測模型,在預(yù)測影視觀眾下一部接受觀看某一類型影片方面明顯優(yōu)于其它的預(yù)測模型。
隨著互聯(lián)網(wǎng)的發(fā)展和國家加強對知識產(chǎn)權(quán)的保護,在線免費觀看影視的規(guī)則將逐步打破,在為影視觀眾提供在線影片的同時收取相關(guān)費用將是大勢所趨。能否準確預(yù)測觀眾的觀看需求將成為影視網(wǎng)站盈利與否的關(guān)鍵因素之一[11-12]。本文研究的基于NPTB模型的影視網(wǎng)站新上線影片推廣組合預(yù)測模型,利用各種針對二元結(jié)果統(tǒng)計模型的預(yù)測值與真實值之間的相似度,選擇預(yù)測效果最好的3種模型建立新的組合預(yù)測模型融入到NPTB模型中,并綜合考慮了預(yù)測值與真實值的時間序列,可有效地提高預(yù)測觀眾是否選擇觀看影視網(wǎng)站所提供影片的概率精度,便于影視網(wǎng)站合理地選擇觀眾進行影片的推廣。實驗結(jié)果表明,本研究所構(gòu)建的組合預(yù)測模型明顯優(yōu)于其它預(yù)測模型。
[1]Knott A,Hayes A,Neslin S A.Next-product-to-buy models for cross-selling applications[J].Journal of Interactive Marketing,2002,16(3):59-75.
[2]汪濤,崔楠.國外交叉銷售研究綜述[J].外國經(jīng)濟與管理,2005,27(4):43-49.
[3]Anita P,Dirk V P.Predicting home-appliance acquisition sequences:Markov/Markov for Discrimination and survival analysis for modeling sequential information in NPTB models[J].Decision Support Systems,2007,44(1):28-45.
[4]Anita P,Dirk V P.Randomforests for multiclass classification:Random multi nomial logit[J].Expert Systems with Applications,2008,34(3):1721-1732.
[5]顧靜秋,吳華瑞,朱華吉.數(shù)據(jù)集濃縮研究綜述[J].計算機應(yīng)用與軟件,2012,29(10):211-215.
[6]Zahavi J,Levin N.Issues and problems in applying neural computing to target marketing[J].Journal of Direct Marketing,1997,11(4):63-75.
[7]閆幸,常亞平.社交網(wǎng)站虛擬禮品購物價值對購買意愿的影響研究[J].管理學報,2013,10(2):252-259.
[8]黃正順.基于數(shù)據(jù)挖掘的移動業(yè)務(wù)交叉銷售研究[D].北京:北京郵電大學,2003.
[9]劉大友,陳慧靈,齊紅,等.時空數(shù)據(jù)挖掘研究進展[J].計算機研究與發(fā)展,2013,50(2):225-239.
[10]徐維媛.客戶關(guān)系管理與數(shù)據(jù)挖掘技術(shù)綜述[J].中國商界,2013,2(2):217.
[11]呂巍,蔡鷺新.交叉銷售提升客戶忠誠度[J].企業(yè)管理,2004(10):92-94.
[12]呂彥儒,呂巍,周穎.以升級銷售與交叉銷售提升客戶價值[J].市場營銷導(dǎo)刊,2007(1):29-32.