李明珠, 米傳民, 肖 琳, 許乃元
(南京航空航天大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 南京 211106)
網(wǎng)絡(luò)劇是通過互聯(lián)網(wǎng)播放的一類連續(xù)劇, 以手機(jī)、平板、計算機(jī)等網(wǎng)絡(luò)設(shè)備為播放媒介. 我國網(wǎng)絡(luò)劇誕生于21 世紀(jì)初, 在近20 年的時間內(nèi)經(jīng)歷了由多元化向精品化方向發(fā)展的蛻變, 越來越受到觀眾青睞.骨朵傳媒數(shù)據(jù)顯示, 從2015 年起, 網(wǎng)絡(luò)劇平均播放量從2015 年的0.72 億次上升至2018 年的7.18 億次, 平均年增長率為224%[1]. 在學(xué)術(shù)領(lǐng)域, 很多學(xué)者從制作、播放、營銷等方面對網(wǎng)絡(luò)劇的發(fā)展現(xiàn)狀和發(fā)展路徑進(jìn)行分析[2,3]. 從以往的研究可以看出, 相比于電視劇, 網(wǎng)絡(luò)劇呈現(xiàn)了靈活性、碎片化、創(chuàng)新性、互動性、多元化等特征, 宣傳力度、作品質(zhì)量、明星效應(yīng)、口碑效果等是影響網(wǎng)絡(luò)劇播放的重要因素[2]. 雖然很多學(xué)者對網(wǎng)絡(luò)劇的研究提出了許多建議, 但只是從定性或思辨的角度進(jìn)行分析. 目前已有一些學(xué)者從定量分析的角度對網(wǎng)絡(luò)劇的播放量展開研究: 王大員等用多元線性回歸MLR 模型對低成本網(wǎng)絡(luò)劇播放量進(jìn)行預(yù)測, 最終擬合優(yōu)度R 方為0.455[4]; 肖興輝等從營銷節(jié)奏的角度,使用微博轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)對營銷效果進(jìn)行量化, 運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)、RBF 神經(jīng)網(wǎng)絡(luò)和決策樹CHAID算法進(jìn)行預(yù)測, 但都呈現(xiàn)出過擬合的趨勢[5]; 李聰?shù)仍趯椖贿M(jìn)行情感分析的基礎(chǔ)上, 構(gòu)建網(wǎng)絡(luò)劇播放量的貝葉斯概率預(yù)測模型, 但只是提出了構(gòu)想, 沒有具體實現(xiàn)[6]. 目前對于網(wǎng)絡(luò)劇播放量的研究還處于初級階段,尚未考慮觀眾評論的情感態(tài)度對播放量的影響, 并且預(yù)測模型的選擇也有待優(yōu)化. 與此同時, 以往的研究都是對最終的播放量進(jìn)行預(yù)測, 但由于互聯(lián)網(wǎng)數(shù)據(jù)的滯后性以及播放量的動態(tài)變化性, 無法根據(jù)播出時期的實時動態(tài)數(shù)據(jù)對播放量進(jìn)行調(diào)整, 因此有必要對網(wǎng)絡(luò)劇播放量進(jìn)行分階段的預(yù)測.
對于網(wǎng)絡(luò)劇播放量預(yù)測模型的選擇, 可以參考票房預(yù)測的相關(guān)模型. 網(wǎng)絡(luò)劇播放量與票房都屬于影視范疇, 且有一些共同的影響因子, 如主演影響力、豆瓣評分、相關(guān)微博數(shù)等[4]. 目前票房預(yù)測模型可以分為3 大類: 統(tǒng)計模型, 例如線性模型[7]和概率模型[8]; 時間序列模型, 例如向量自回歸VAR 模型[9]; 機(jī)器學(xué)習(xí)模型, 例如支持向量機(jī)SVM[10]和神經(jīng)網(wǎng)絡(luò)[11]. 隨著集成學(xué)習(xí)算法的不斷發(fā)展, 集成學(xué)習(xí)模型也被用于票房預(yù)測, 如屬于Bagging 集成思想的Random Forest[12], 屬于Boosting 集成思想的梯度提升樹 (gradient boosting decision tree, GBDT)[13], 輕量級梯度提升機(jī) (light gradient boosting machine, LightGBM)[14], 極端梯度提升樹 (extreme gradient boosting, XGBoost)[15,16]以及
Stacking 模型融合算法[14]. 可以得出, 集成學(xué)習(xí)算法可以通過集成各個機(jī)器學(xué)習(xí)模型的優(yōu)勢, 獲得比傳統(tǒng)的機(jī)器學(xué)習(xí)模型更佳的預(yù)測結(jié)果.
觀眾評論的情感傾向是影響其他觀眾觀看的重要因素, 一定程度上會對網(wǎng)絡(luò)劇的播放量帶來影響, 而以往研究的影響因素并未納入評論的情感特征. 在票房的預(yù)測中, 很多學(xué)者對評論進(jìn)行情感分析, 對評論情感傾向量化從而對票房進(jìn)行更準(zhǔn)確的預(yù)測. 對于量化方法, 有對社交媒體上的評論進(jìn)行情感分類, 直接將正面、負(fù)面、中性情感的評論數(shù)目作為預(yù)測指標(biāo)[17–19];也有在得出正面、負(fù)面、中性情感數(shù)目的基礎(chǔ)上通過計算相應(yīng)的比率 (如占總評論的數(shù)目, 正負(fù)情感比)作為預(yù)測指標(biāo)[20,21]; 也有通過對情感詞和程度詞的權(quán)重進(jìn)行賦值計算評論的情感得分對評論情感進(jìn)行量化[22,23].評論情感得分的量化方法相比于單純計算數(shù)量和比率更加體現(xiàn)了評論的情感強(qiáng)度大小, 擴(kuò)大了情感數(shù)據(jù)的差異性. 然而, 很少有研究將評論的點贊數(shù)納入情感得分的計算中. 點贊數(shù)代表了一條評論的認(rèn)可度, 已有研究表明用戶的點贊行為對票房會產(chǎn)生顯著的正向影響[24]. 將點贊數(shù)融入情感得分的計算中, 更能體現(xiàn)所有評論用戶的整體情感傾向, 提高數(shù)據(jù)的代表性.
綜上可知, 對于網(wǎng)絡(luò)劇播放量的研究仍然處于初級階段, 預(yù)測的準(zhǔn)確性有待提高. 本文通過借鑒票房預(yù)測的相關(guān)算法和模型, 以國產(chǎn)網(wǎng)絡(luò)劇播放量預(yù)測為研究對象, 在對評論進(jìn)行情感分析得出情感得分的基礎(chǔ)上, 使用Stacking 集成學(xué)習(xí)模型進(jìn)行預(yù)測. 在情感分析上, 本文基于SO-PMI 算法構(gòu)建網(wǎng)絡(luò)劇領(lǐng)域情感詞典,并與基礎(chǔ)情感詞典合并得到綜合情感詞典, 對評論進(jìn)行情感分類, 再結(jié)合修飾詞權(quán)重和點贊數(shù)權(quán)重構(gòu)建了情感得分的計算規(guī)則. 情感得分與其他的預(yù)測變量一起作為網(wǎng)絡(luò)劇播放量預(yù)測的輸入變量, 從而構(gòu)建了多維度的網(wǎng)絡(luò)劇播放量預(yù)測指標(biāo)體系. 在預(yù)測模型上, 本文將集成學(xué)習(xí)算法XGBoost, LightGBM, Random Forest 和GBDT 作為基學(xué)習(xí)器, 多元線性回歸MLR 作為元學(xué)習(xí)器, 進(jìn)行Stacking 模型融合, 通過整合各個集成學(xué)習(xí)模型的優(yōu)勢, 提高模型的預(yù)測性能.
情感傾向點互信息算法 (semantic orientationpointwise mutual information, SO-PMI)通常被用于構(gòu)建領(lǐng)域情感詞典[25], 它結(jié)合語料庫中詞的出現(xiàn)概率和句子中詞與詞同時出現(xiàn)的概率來判斷詞的情感傾向(semantic orientation, SO).
在SO-PMI 算法中, 需要先構(gòu)建兩個情感種子詞庫: 積極情感種子詞庫Pwords和消極情感種子詞庫Nwords, 通過計算某個候選詞與Pwords和Nwords的PMI的差值S OPMI(word), 將差值的正負(fù)性作為情感傾向的判斷依據(jù). 若S OPMI(word)>0, 則為積極情感詞; 若S OPMI(word)>0, 則為消極情感詞; 否則為中性情感詞. SO-PMI 計算公式如下:
其中,N表示語料庫的總詞數(shù),d f(word)表示word在語料庫中出現(xiàn)的次數(shù),d f(word,Pword)表示word和Pword在語料庫中共同出現(xiàn)的次數(shù), 其余類似.
集成學(xué)習(xí)主要分為Boosting、Bagging、Stacking三種類型, 其中Boosting 可用于降低偏差, Bagging 可用于降低方差, Stacking 可用于提升預(yù)測結(jié)果.
隨機(jī)森林 (random forest, RF)屬于Bagging 集成算法, 它具有原理簡單、預(yù)測精度高、泛化能力強(qiáng)以及支持并行計算等優(yōu)勢. 但是隨機(jī)森林的抗噪能力不強(qiáng), 當(dāng)數(shù)據(jù)集中出現(xiàn)噪聲點時, 容易陷入過擬合. GBDT屬于Boosting 集成算法, 適合處理非線性數(shù)據(jù); 與此同時, 通過使用諸如huber、quantile 等損失函數(shù)可以增加模型的魯棒性. 但是由于決策樹之間是相互依賴的,難以對數(shù)據(jù)并行訓(xùn)練, 因此訓(xùn)練速度難以提升. XGBoost和LightGBM 是對GBDT 算法的改進(jìn), XGBoost 在目標(biāo)函數(shù)中加入了正則項提高泛化能力, LightGBM 采用了基于梯度的單邊采樣 (GOSS)、互斥特征捆綁 (EFB)以及基于leaf-wise 的決策樹生長策略等方法, 降低時間復(fù)雜度, 提高模型的預(yù)測性能.
Stacking 模型融合是通過將各個算法進(jìn)行集成, 實現(xiàn)優(yōu)勢互補(bǔ). 一般有兩層, 第1 層是基學(xué)習(xí)器預(yù)測, 第2 層是元學(xué)習(xí)器預(yù)測. 其中元學(xué)習(xí)器的輸入是基學(xué)習(xí)器的輸出. 通過元學(xué)習(xí)器綜合基學(xué)習(xí)器的學(xué)習(xí)結(jié)果, 并修正模型預(yù)測誤差. 在Stacking 集成學(xué)習(xí)中, 通常采用交叉驗證的辦法防止過擬合.
本文使用基于情感詞典的情感分析方法, 并構(gòu)建了情感得分的計算規(guī)則.
通過查閱貓眼和骨朵影視相關(guān)數(shù)據(jù), 有關(guān)網(wǎng)絡(luò)劇播放過程中的詳細(xì)數(shù)據(jù)主要集中在2017–2021 年. 由于網(wǎng)絡(luò)劇制作成本、營銷節(jié)奏以及類型等差異, 播放量存在很大的差距, 為了提高預(yù)測的精確性和代表性,本文選擇2017–2021 年列入“骨朵熱度指數(shù)排行榜 (年榜)”的網(wǎng)絡(luò)劇, 并剔除存在部分缺失值的網(wǎng)絡(luò)劇, 最終得到128 部網(wǎng)絡(luò)劇.
在構(gòu)建領(lǐng)域情感詞典之前要對評論數(shù)據(jù)進(jìn)行爬取.本文通過使用Python 代碼爬取每部網(wǎng)絡(luò)劇所對應(yīng)播放平臺的評論數(shù)據(jù). 通過對128 部網(wǎng)絡(luò)劇的評論進(jìn)行爬取, 總共獲得1 450 200 條短評及對應(yīng)的點贊數(shù). 領(lǐng)域情感詞典構(gòu)建的流程圖如圖1 所示.
圖1 基于SO-PMI 算法的領(lǐng)域情感詞典生成
由第2.1 節(jié)可知, 使用SO-PMI 算法構(gòu)建領(lǐng)域情感詞典之前需要構(gòu)建情感種子詞庫. 一般情感種子詞庫都是人工篩選, 為了提高篩選效率, 本文使用TF-IDF算法先篩選出具有代表性的前700 個詞語, 再從中選擇情感種子詞, 降低人工篩選的成本[26]. 通過計算候選詞與情感種子詞的SO-PMI 值, 得到詞語的情感傾向.
通過結(jié)合HowNet 知網(wǎng)詞典以及NTUSD 簡體中文情感詞典, 以及王勇等創(chuàng)建的否定詞詞典[27], 得到綜合情感詞典, 如表1 所示. 其中, 下文提到的修飾詞即下表中的程度詞和否定詞.
表1 綜合情感詞典構(gòu)造
通過將基礎(chǔ)情感詞典和領(lǐng)域情感詞典進(jìn)行匯總,得到積極情感詞3 223 個, 消極情感詞2 858 個.
在對視頻評論數(shù)據(jù)進(jìn)行情感分類時, 既要考慮到不同情感詞的情感傾向, 也要結(jié)合程度詞以及否定詞的情感權(quán)重, 以及評論點贊數(shù)對評論代表性帶來的影響, 圖2 展示了評論情感分析的總體流程.
圖2 基于情感詞典的評論情感分析流程圖
本文在構(gòu)建評論情感詞典并進(jìn)行權(quán)重賦值的基礎(chǔ)上, 結(jié)合點贊數(shù)權(quán)重構(gòu)建出評論情感得分的計算方法.點贊數(shù)權(quán)重的設(shè)置(如表2 所示)借鑒了劉彥虬的用戶點贊權(quán)值表[28].
表2 用戶點贊權(quán)值表
網(wǎng)絡(luò)劇評論情感得分的算法流程圖如圖3 所示.
圖3 網(wǎng)絡(luò)劇評論情感得分計算流程圖
假設(shè)第i條評論經(jīng)過預(yù)處理后得到的詞序列為Wi=(w1,w2,···,wn), 在評論情感詞典中查找是否存在情感詞, 若存在情感詞wj, 則確定與上一個情感詞之間是否存在修飾詞. 若有, 則將情感詞的初始權(quán)重乘以修飾詞對應(yīng)的權(quán)重 (若有多個修飾詞則一一相乘)得到情感得分; 否則情感得分即為情感詞的初始權(quán)重. 情感得分存入臨時變量Wordscore中.
如果Wordscore>0, 則加入積極情感得分變量PosScorei中, 否則加入消極情感得分NegScorei中. 若該評論的詞序列全部遍歷后既無積極情感詞也無消極情感詞, 則判斷為中性評論, 中性評論情感得分NeuScorei為1. 將該評論各個情感詞情感得分求和即可得到網(wǎng)絡(luò)劇第i條評論的3 種情感傾向得分.
將每條評論的情感得分乘以該評論點贊數(shù)的權(quán)重即可得到該評論的綜合情感得分:ComPosScorei,ComNegScorei,ComNeuScorei. 整個網(wǎng)絡(luò)劇的情感得分為網(wǎng)絡(luò)劇每條評論的綜合情感得分之和.
由于網(wǎng)絡(luò)劇播放量是動態(tài)數(shù)據(jù), 本文對播放量進(jìn)行分階段的預(yù)測, 即利用前n?1周的數(shù)據(jù)以及前n周的集數(shù)對第n周的播放量進(jìn)行預(yù)測. 對于每一階段的預(yù)測模型, 都有11 個預(yù)測變量, 其中3 個靜態(tài)變量 (與網(wǎng)絡(luò)劇自身因素有關(guān)的變量), 8 個動態(tài)變量 (不同預(yù)測階段需要更新的變量). 由于網(wǎng)絡(luò)劇播出前不存在相關(guān)播放數(shù)據(jù), 預(yù)測第1 周的播放量時缺乏相應(yīng)信息, 因此播放量的預(yù)測從第2 周開始. 表3 展示了網(wǎng)絡(luò)劇播出n(n≥2)周后播放量的預(yù)測指標(biāo), 表4 是對每個預(yù)測指標(biāo)的詳細(xì)說明.
表3 網(wǎng)絡(luò)劇播出n(n ≥2)周后的播放量預(yù)測指標(biāo)
表4 網(wǎng)絡(luò)劇播放量預(yù)測指標(biāo)體系
本文基于Stacking 集成學(xué)習(xí)模型對網(wǎng)絡(luò)劇播放量進(jìn)行預(yù)測, 期望獲得比基學(xué)習(xí)器單獨(dú)預(yù)測更好的預(yù)測結(jié)果. 本文構(gòu)建的Stacking 預(yù)測模型的結(jié)構(gòu)如圖4 所示. 將Random Forest, GBDT, XGBoost, LightGBM 作為Stacking 集成學(xué)習(xí)模型的基學(xué)習(xí)器, 線性回歸MLR作為元學(xué)習(xí)器. 其中Random Forest, XGBoost, GBDT,LightGBM 模型通過采用集成學(xué)習(xí)的方法可以提高預(yù)測性能, 而MLR 的簡單性可以防止預(yù)測結(jié)果出現(xiàn)過擬合. 本文在得出各個基學(xué)習(xí)器的最優(yōu)超參數(shù)組合的前提下, 使用Python 3.7 進(jìn)行Stacking 集成學(xué)習(xí)模型的建模, 具體操作過程如下所示:
(1) 首先將所有數(shù)據(jù)按照接近3:1 的比例劃分訓(xùn)練集Training Set 和測試集Testing Set, 設(shè)訓(xùn)練集條, 測試集條, 訓(xùn)練集的標(biāo)簽值記為y_train, 測試集的標(biāo)簽記為y_test.
(2) 對于訓(xùn)練集Training Set, 使用5 折交叉驗證的方法對每個基學(xué)習(xí)器進(jìn)行訓(xùn)練, 將訓(xùn)練集Training Set 平均分成5 份, 每次取其中1 份作為驗證集Testing Data (圖4 中的Predict), 其余4 份作為子訓(xùn)練集Training Data (圖4 中的Learn), 使用各個基學(xué)習(xí)器訓(xùn)練5 次,將5 次子訓(xùn)練集的預(yù)測結(jié)果Predict1 匯總作為元學(xué)習(xí)器的訓(xùn)練集, 取5 次對測試集Testing Set 預(yù)測值的平均值Predict2 作為元學(xué)習(xí)器的測試集.
圖4 Stacking 集成學(xué)習(xí)預(yù)測模型結(jié)構(gòu)
(3) 將4 個模型的預(yù)測結(jié)果進(jìn)行匯總, 得到元學(xué)習(xí)器的測試集和訓(xùn)練集, 此時訓(xùn)練集是一個m×4的矩陣, 測試集是n×4的矩陣, 一共4 個特征值. 再結(jié)合標(biāo)簽值y_train進(jìn)行模型訓(xùn)練, 對測試集進(jìn)行預(yù)測得到條預(yù)測結(jié)果Predictions, 并與實際值y_test 進(jìn)行比較, 用對應(yīng)的評估指標(biāo) (MSE、MAE、MAPE、R 方值等)進(jìn)行預(yù)測結(jié)果分析.
由于網(wǎng)絡(luò)劇從上映到完結(jié)的平均時間為一個月,因此本文收集網(wǎng)絡(luò)劇播出第1 周至播出第4 周一共4 個階段的相關(guān)數(shù)據(jù). 對128 部網(wǎng)絡(luò)劇4 個階段的數(shù)據(jù)進(jìn)行收集, 總共得到512 條記錄, 如表5 所示.
由表5 可知, 由于量綱的差異, 原始數(shù)據(jù)差別較大,因此需要在模型訓(xùn)練之前對數(shù)據(jù)進(jìn)行歸一化, 得到[0, 1]范圍內(nèi)的數(shù)據(jù), 轉(zhuǎn)化函數(shù)為:
表5 變量描述統(tǒng)計結(jié)果
對于Random Forest、XGBoost、GBDT 以及LightGBM, 在正式預(yù)測前需要對超參數(shù)進(jìn)行調(diào)整, 以提高模型的預(yù)測性能. 由于本文的樣本量不是很大, 因此采用網(wǎng)格搜索的辦法調(diào)整, 在所有候選的超參數(shù)列表中, 通過遍歷各種超參數(shù)組合形式, 選擇預(yù)測效果最好的組合作為最終的參數(shù)組合[29]. 將所有數(shù)據(jù)按照接近3:1 的比例劃分訓(xùn)練集Training Set 和測試集Testing Set, 其中訓(xùn)練集385 條, 測試集127 條, 超參數(shù)調(diào)優(yōu)使用訓(xùn)練集中的數(shù)據(jù). 確定好各個模型的最佳超參數(shù)后,對127 條測試集中的數(shù)據(jù)進(jìn)行預(yù)測. 由于本文對于網(wǎng)絡(luò)劇播放量的預(yù)測是回歸問題, 因此采用均方根誤差(MSE)、平均絕對誤差 (MAE)和平均相對誤差 (MAPE)以及R2作為模型性能的評估. 各個集成學(xué)習(xí)模型的預(yù)測結(jié)果如表6 所示.
表6 集成學(xué)習(xí)單模型預(yù)測結(jié)果比較表
對比表中的數(shù)據(jù)可以看到, LightGBM 在MSE、MAE、MAPE 以及R2分別為3.28、1.53、0.23、0.84,相比于其他3 個集成學(xué)習(xí)模型, 預(yù)測性能更優(yōu), 說明LightGBM 在GBDT 和XGBoost 的基礎(chǔ)上使用了GOSS、EFB 等算法進(jìn)行優(yōu)化后, 有助于模型復(fù)雜度的降低和模型泛化能力的提高. 與此同時, 各單模型預(yù)測結(jié)果的R2都高于0.65, 預(yù)測結(jié)果較好.
要獲得好的集成效果, 基學(xué)習(xí)器需要“好而不同”,即個體學(xué)習(xí)器要保證一定的準(zhǔn)確性, 與此同時也要有多樣性, 在保證預(yù)測精度的同時也具備差異性. 一般對各個模型預(yù)測結(jié)果和真實結(jié)果的差值(誤差)進(jìn)行Pearson相關(guān)系數(shù)的檢驗, 判斷是否都是弱相關(guān)[30]. 本文使用SPSS 21.0 進(jìn)行相關(guān)系數(shù)的檢驗.
由表7 可知, 上述4 種集成學(xué)習(xí)模型的預(yù)測相關(guān)性都在0.65 以下, 總體的相關(guān)性較低, 因此可以使用這4 種集成學(xué)習(xí)模型作為Stacking 集成學(xué)習(xí)模型的基模型進(jìn)行訓(xùn)練.
表7 各個模型的Pearson 相關(guān)系數(shù)檢驗
為了提高模型的可解釋性, 觀察重要的特征是否符合業(yè)務(wù)直覺, 本文對輸入變量進(jìn)行特征重要性分析.特征重要性一般用于觀察特征對模型的貢獻(xiàn)度, 特征重要性越高說明這個特征是對模型的作用程度越大.對于回歸問題, 根據(jù)分裂前后節(jié)點的純度(impurity)減少量來評估特征重要性. 由于LightGBM 的R2最高、預(yù)測效果最好, 因此用其內(nèi)置函數(shù)feature_importance_輸出各個特征的重要性數(shù)值, 特征重要性的輸出結(jié)果如圖5 所示.
圖5 基于LightGBM 模型的特征重要性排序
對各個變量的特征重要性進(jìn)行排序, 可以得出DramaView、Episodes、DoubanScore、ComPosScore和ComNegScore 是影響網(wǎng)絡(luò)劇播放量的關(guān)鍵因素. 目前累計播放量和播放集數(shù)是預(yù)測下一周播放量的基礎(chǔ),與此同時, 豆瓣評分以及用戶評論情感得分代表了該網(wǎng)絡(luò)劇播出之后的反饋和口碑, 也會對網(wǎng)絡(luò)劇接下來的播放走勢產(chǎn)生一定的影響.
確定好基學(xué)習(xí)器后, 用Python 3.7 按照第4.2 節(jié)的步驟編寫Stacking 集成學(xué)習(xí)建模程序. 其中訓(xùn)練集385 條, 測試集127 條, 使用5 折交叉驗證的方法對每個基學(xué)習(xí)器進(jìn)行訓(xùn)練. 將Stacking 模型的預(yù)測結(jié)果與基學(xué)習(xí)器單獨(dú)的預(yù)測結(jié)果進(jìn)行比較, 結(jié)果如表8 所示.
表8 Stacking 集成學(xué)習(xí)模型與各單模型預(yù)測結(jié)果比較
Stacking 集成學(xué)習(xí)模型的MSE、MAE、MAPE 均小于其他4 個集成學(xué)習(xí)單模型, 且決定系數(shù)R2達(dá)到了0.89, 可見Stacking 集成學(xué)習(xí)模型綜合了其他4 個基學(xué)習(xí)器的優(yōu)勢, 獲得更高的魯棒性和泛化能力. 和前人的播放量預(yù)測研究相比, 本文的決定系數(shù)R2高于王大員等使用多元線性回歸預(yù)測的R2值 (0.455)[4], 而肖興輝等使用BP 神經(jīng)網(wǎng)絡(luò)預(yù)測時在測試集上的線性回歸系數(shù)為0.976, 但在測試集上只有0.288, 產(chǎn)生了過擬合[5],因此可以得出本文的模型與前人的模型相比具有更優(yōu)的預(yù)測性能. 圖6 展示了Stacking 集成學(xué)習(xí)模型的預(yù)測值和真實值的擬合曲線.
圖6 Stacking 模型預(yù)測實際值與預(yù)測值擬合曲線
Stacking 集成學(xué)習(xí)模型在特殊值上都取得了較好的預(yù)測效果, 改善了各個基學(xué)習(xí)器在部分預(yù)測結(jié)果上的不足, 取得較好的預(yù)測性能.
為了研究本文的情感得分輸入變量對整個模型預(yù)測性能的影響, 本文使用剔除情感得分變量的Stacking集成學(xué)習(xí)模型進(jìn)行訓(xùn)練和預(yù)測, 最終預(yù)測結(jié)果如表9所示.
表9 加入情感得分變量前后Stacking 預(yù)測結(jié)果比較
從表中可以看到, 未加入情感得分變量的模型預(yù)測MSE、MAE、MAPE 值均大于加入情感得分變量的值, 且R2=0.81<0.89, 這表明本文情感得分變量的加入有助于提高網(wǎng)絡(luò)劇播放量的預(yù)測精度, 也說明了觀眾評論的情感傾向?qū)Σシ帕康拇笮∑鸬揭欢ǖ淖饔?
本文立足于當(dāng)下網(wǎng)絡(luò)劇興起的時代大背景以及學(xué)術(shù)界對網(wǎng)絡(luò)劇進(jìn)行定量分析的空缺, 并借鑒對電影票房預(yù)測的方法, 對國產(chǎn)網(wǎng)絡(luò)劇播放量進(jìn)行預(yù)測. 通過創(chuàng)建情感詞典對網(wǎng)絡(luò)劇評論進(jìn)行情感分析, 創(chuàng)新性地在輸入特征中加入情感得分變量 (積極情感得分、消極情感得分和中性情感得分), 運(yùn)用Stacking 集成學(xué)習(xí)模型進(jìn)行網(wǎng)絡(luò)劇播放量的預(yù)測. 通過比較集成學(xué)習(xí)模型與基學(xué)習(xí)器 (XGBoost、LightGBM、Random Forest、GBDT)單獨(dú)預(yù)測結(jié)果的差異, 總結(jié)出Stacking 集成學(xué)習(xí)模型的預(yù)測精度更高,R2達(dá)到了0.89, 并且高于未加入情感得分特征的預(yù)測模型R2值 (0.81), 實驗證明加入情感得分變量后使用Stacking 集成學(xué)習(xí)模型進(jìn)行預(yù)測取得了不錯的預(yù)測效果. 本文從定量研究的角度分析網(wǎng)絡(luò)劇的播放趨勢以及影響網(wǎng)絡(luò)劇播放量的關(guān)鍵因素,提高了分析的客觀性、準(zhǔn)確性和針對性, 為網(wǎng)絡(luò)劇的定量研究提供了新的思路.
由于有些數(shù)據(jù)并不公開, 增加了獲得其他影響因素的數(shù)據(jù)的難度, 例如投入成本. 因此, 未來的研究可以努力與網(wǎng)絡(luò)劇的相關(guān)機(jī)構(gòu)合作, 獲得尚未在相關(guān)平臺公開的數(shù)據(jù). 此外, 有些指標(biāo)目前較難量化, 如演技、服裝、音樂、特效等, 在后續(xù)研究中, 可以嘗試通過調(diào)研將其轉(zhuǎn)化為相應(yīng)的打分或點贊數(shù)等量化指標(biāo),對預(yù)測指標(biāo)體系做進(jìn)一步的完善.