薛松+宋向東
[提要] 視頻消費已經(jīng)是用戶日常生活娛樂的一種普遍方式,市場上視頻網(wǎng)站較多,驅(qū)動用戶選擇視頻網(wǎng)站的因素是什么,本文通過多元回歸的特征選擇方法分析驅(qū)動用戶選擇視頻網(wǎng)站的因素,得到內(nèi)容方面是主要因素,其次是品牌和功能體驗,進而根據(jù)具體指標給出建議。
關(guān)鍵詞:視頻網(wǎng)站;多元回歸;特征選擇;罰函數(shù)
中圖分類號:F713.5 文獻標識碼:A
收錄日期:2017年9月26日
一、研究背景
目前,在線視頻用戶總規(guī)模超過8個億,移動互聯(lián)網(wǎng)用戶中有80%都是視頻用戶,可見視頻行業(yè)在網(wǎng)民中的滲透很高,目前視頻市場格局已經(jīng)形成三巨頭形式(愛奇藝、騰訊、優(yōu)酷),它們背靠BAT占據(jù)市場份額超過90%,但是各個視頻網(wǎng)絡(luò)之間并不是和平相處的,而是大力發(fā)展IP劇、自制內(nèi)容、獨播內(nèi)容等,吸引更多的用戶使用自己的產(chǎn)品。為了更加清楚地了解用戶選擇不同視頻網(wǎng)站看重的因素有哪些,我們從品牌、功能體驗、內(nèi)容三個方面進行了研究,并通過建模得到最終結(jié)果。
二、選擇視頻網(wǎng)站影響因素分析
(一)模型說明。對于線性回歸模型Yi=?茁0+?茁1x1i+…+?茁pxpi=?茁0+Xi'?茁+?著i(i=1,…,n),回歸系數(shù)?茁0和?茁的估計主要使用最小二乘估計(OLS),其原理是最小化模型的殘差平方和RSS=(Yi-?茁0-Xi'?茁)2。收縮罰的特征選擇方法則是在OLS估計的基礎(chǔ)上,進一步對回歸系數(shù)的絕對值?茁j進行壓縮,其目標函數(shù)是最小化RSS+p?姿(?茁j),這里p?姿(?茁j)是對?茁j回歸系數(shù)的懲罰函數(shù),作用就是對?茁j進行壓縮。若某個回歸系數(shù)?茁j被壓縮為0,對應(yīng)的自變量Xj就被剔除。這里?姿是控制懲罰函數(shù)強度的一個調(diào)整參數(shù),進行特征選擇時需要選擇合適的?姿,實際應(yīng)用中一般通過交叉驗證方法來選擇。
不同的懲罰函數(shù)對應(yīng)不同的特征選擇方法,例如單一罰函數(shù)的Ridge(即嶺回歸)、Lasso、MCP及復合罰函數(shù)的Elastic Net、Group Lasso、Group MCP、Composite MCP、Sparse Group Lasso等。
以Lasso為例,其目標函數(shù)是最小化:
這里?姿就是調(diào)整參數(shù)。Lasso問題等價于如下帶約束的最優(yōu)化問題:
也即在OLS估計的基礎(chǔ)上,進一步對的值加以限制。這里s與?姿一一對應(yīng),當s較小時,回歸系數(shù)相比于OLS估計就被壓縮。
值得注意的是,通常,合適的調(diào)整參數(shù)?姿的選擇是依靠交叉驗證來進行的。K折交叉驗證即將原始樣本隨機分成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數(shù)據(jù),其他K-1個子樣本作為訓練集。交叉驗證重復K次,每個子樣本驗證一次,平均K次的結(jié)果(即預測誤差),選擇出最小的預測誤差所對應(yīng)的λ的估計結(jié)果。由于交叉驗證的隨機性,可能會使得每次的估計結(jié)果略有差異。為減小差異,可適當增加交叉驗證的折數(shù),比如可以考慮從5折交叉驗證變?yōu)?0折交叉驗證。該模型具有以下優(yōu)勢:(1)利用“收縮罰”的方法,更加科學地選擇對研究指標有顯著影響的變量,并對其進行排序;(2)能夠較好地處理自變量之間的多重共線性;(3)可以科學處理變量之間存在分組關(guān)系的情況。
(二)數(shù)據(jù)準備。將用戶對視頻客戶端的繼續(xù)使用意愿打分定義為被解釋變量即Y,將用戶對各個視頻客戶端的在品牌、內(nèi)容、功能體驗三個方面各個語句的打分定義為解釋變量即X。由于一個樣本可能選到多個視頻客戶端,因此可能對多個視頻客戶端的推薦意愿打分和各個視頻客戶端在品牌、內(nèi)容、功能體驗上各個語句打分,為了保證數(shù)據(jù)的完整性,我們將各個視頻客戶端的推薦意愿打分和在品牌、內(nèi)容、功能體驗三方面的評價對應(yīng)整理,最后將所有品牌的數(shù)據(jù)累堆起來進行分析。比如說有甲乙丙三人,分別選的客戶端數(shù)是2、1、3,那么最后整理的數(shù)據(jù)有6條。
對于視頻客戶端具體評價語句,多條語句可能表達的是同一個意思,這時候我們一般把用戶在這幾條語句上的評分取均值記為一個指標,相應(yīng)語句的打分就會刪除,將所有語句類似處理,最后得到要分析的數(shù)據(jù)整理結(jié)果。
(三)建模結(jié)果及說明。我們將整理好的數(shù)據(jù)代入模型,得到影響用戶繼續(xù)使用視頻客戶端的最主要指標是內(nèi)容指標,其次是品牌和功能體驗指標。(圖1)
在實際生活中,用戶對某些指標可能不是很關(guān)心,如果單純看驅(qū)動系數(shù)大小可能會誤導企業(yè)的發(fā)力方向,因此我們結(jié)合用戶的需求來分析,將用戶對這些品牌、內(nèi)容、功能體驗方面的直接需求程度與驅(qū)動系數(shù)做二維圖,需求高驅(qū)動系數(shù)大我們稱之為核心需求,需求低驅(qū)動系數(shù)大的我們稱之為增值需求,需求高驅(qū)動系數(shù)小的我們稱之為基礎(chǔ)需求,需求低驅(qū)動系數(shù)小的我們不關(guān)心,保持監(jiān)控即可。
從上面結(jié)果可以看出:核心需求中主要集中在功能體驗方面,具體體現(xiàn)在廣告少、界面、導視推薦和布局上,同時還有品牌方面值得信賴的,內(nèi)容方面持續(xù)有優(yōu)質(zhì)內(nèi)容;增值需求中有品牌指標上的用戶口碑、個性喜好、親和/陪伴感,內(nèi)容指標上的內(nèi)容覆蓋廣,功能體驗方面的分享。
三、結(jié)論
2016年以來,各大視頻網(wǎng)站大力布局自制內(nèi)容、獨播內(nèi)容等,對用戶選擇視頻網(wǎng)站還有一定的驅(qū)動作用,但是在2017年結(jié)果發(fā)現(xiàn)并沒有驅(qū)動作用,這個可能是因為各大視頻網(wǎng)站都在此上面大肆發(fā)力,想形成自己差異化內(nèi)容,結(jié)果消費者選擇疲勞,所以在形成自己獨特的內(nèi)容差異化時,滿足劇目數(shù)量的同時也要保證內(nèi)容的質(zhì)量,這樣才能吸引更多的用戶使用自己的產(chǎn)品。同時,視頻劇目界面要做得美觀,重點突出。要根據(jù)用戶自己的喜好推送相關(guān)內(nèi)容,實現(xiàn)精準的差異化戰(zhàn)略,視頻在高速消費的同時,如果可以增加一些人文情懷的附加屬性,會更加受到用戶的青睞。
主要參考文獻:
[1]陳希孺.數(shù)理統(tǒng)計學教程[M].中國科學技術(shù)大學出版社,2009.
[2]王丹.我國視頻網(wǎng)站的傳播特征研究[J].中國出版,2017.1.
[3]戴禮蓉.網(wǎng)絡(luò)自制劇的價值鏈研究[D].安徽大學,2017.
[4]柯鄧林.Lasso及其相關(guān)分析方法在多元線性回歸模型中的應(yīng)用[D].北京交通大學,2011.endprint