亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

含定性解釋變量的Logistic回歸模型的實(shí)例研究

2022-09-24 10:33:48劉瑞平蘇思奇

北京信息科技大學(xué)學(xué)報(自然科學(xué)版) 2022年4期

劉瑞平，蘇思奇

(北京信息科技大學(xué) 理學(xué)院，北京100192)

0 引言

Logistic回歸模型是一種以分類變量作為響應(yīng)變量的廣義線性模型，最初由David Cox 在1958年提出[1]，其應(yīng)用非常廣泛，比如生物醫(yī)學(xué)中對疾病狀態(tài)的劃分、經(jīng)濟(jì)金融中對信用卡違約用戶的識別、社會科學(xué)中的文本主題分類等。現(xiàn)有的大量關(guān)于Logistic回歸模型的研究仍有可改進(jìn)的地方：1)Logistic回歸模型中解釋變量僅僅涉及連續(xù)型變量(定量變量)[2-4]，然而實(shí)際問題中往往需考慮將定性變量加入解釋變量中；2)有的文獻(xiàn)雖然考慮到定性變量，但文中涉及的定性變量均被統(tǒng)一處理為二分類變量，導(dǎo)致細(xì)節(jié)因素被忽略[5]；3)當(dāng)自變量涉及多分類定性變量時，有的文獻(xiàn)直接將多分類定性變量賦值為多個數(shù)值，例如在對高校社區(qū)老年人養(yǎng)老需求特征及其影響因素的研究[6]中，3種居住類型“獨(dú)居”、“與配偶同住”、“其他”直接被賦值為1、2、3。為此，本文將從一個實(shí)例出發(fā)，探討Logistic回歸建模過程中的一些細(xì)節(jié)問題。

本文關(guān)注網(wǎng)絡(luò)文學(xué)知識產(chǎn)權(quán)(intellectual property，IP)作品是否能被改編為影視劇的影響因素。網(wǎng)絡(luò)文學(xué)IP是以文學(xué)內(nèi)容為載體、具有開發(fā)潛能的優(yōu)質(zhì)版權(quán)內(nèi)容，已成為影視劇創(chuàng)作的重要內(nèi)容來源。并非所有的網(wǎng)絡(luò)文學(xué)作品都適合改編成影視劇。為助力決策網(wǎng)絡(luò)文學(xué)IP作品是否適合影視化及其影視化策略的研究，本文將對網(wǎng)絡(luò)文學(xué)作品被改編的相關(guān)因素進(jìn)行研究。目前國內(nèi)外對于網(wǎng)絡(luò)小說影視化的研究多集中于網(wǎng)絡(luò)文學(xué)改編劇的開發(fā)運(yùn)營模式和網(wǎng)絡(luò)劇的版權(quán)價值，較少關(guān)注網(wǎng)絡(luò)文學(xué)作品被改編的相關(guān)因素，而且尚未結(jié)合統(tǒng)計學(xué)模型進(jìn)行實(shí)證研究[7-10]。國外IP改編影視較多地集中在明星IP上，對于網(wǎng)絡(luò)小說的研究屈指可數(shù)[11-12]。

本文基于晉江文學(xué)城互聯(lián)網(wǎng)平臺數(shù)據(jù)，從網(wǎng)絡(luò)文學(xué)IP作品是否被改編這一角度出發(fā)，對改編影響因素進(jìn)行研究，從而了解當(dāng)下大眾最喜愛的網(wǎng)絡(luò)文學(xué)IP作品特點(diǎn)，也為運(yùn)營方關(guān)于網(wǎng)絡(luò)文學(xué)作品影視化的決策和對策提供參考。

1 數(shù)據(jù)來源及變量介紹

“晉江文學(xué)城”是近幾年網(wǎng)絡(luò)劇和影視劇改編IP作品的重要輸送平臺，因此本文以晉江文學(xué)城網(wǎng)站為數(shù)據(jù)來源。網(wǎng)絡(luò)文學(xué)IP作品的影視化改編可能與多方面因素影響有關(guān)，本文以網(wǎng)絡(luò)IP作品是否被改編作為響應(yīng)變量，以作者粉絲數(shù)、作品背景類型、作品風(fēng)格、作品題材、付費(fèi)月榜排名、章節(jié)平均點(diǎn)擊數(shù)、作品被收藏數(shù)、作品被評論數(shù)、作品評分、參與評分人數(shù)作為解釋變量。10個解釋變量中既含有定量變量，也包括定性變量，所有變量的具體說明如表1所示。

2 Logistic回歸模型簡介

2.1 傳統(tǒng)的Logistic回歸模型

Logistic回歸模型是二分類問題中的一種常用模型。經(jīng)典Logistic回歸模型設(shè)定解釋變量為連續(xù)型變量，并基于連續(xù)型自變量來分析和預(yù)測離散型因變量，是一種廣義線性模型。二分類邏輯回歸(binary logistic)模型中因變量Y只能取兩個值，用示性變量1和0來表示。將“事件發(fā)生”記為1，“未發(fā)生”記為0，事件發(fā)生的概率記為π，則變量Y取值為y的概率為P(Y=y)=πy(1-π)1-y,于是E(Y)=π=P(Y=1)。

表1 變量說明

傳統(tǒng)的Logistic回歸模型僅涉及連續(xù)型變量。為方便起見，考慮僅含一個連續(xù)型自變量X1的情形，則當(dāng)自變量X1取值為x時因變量Y取1的條件概率為P(Y=1|X1=x)=E(Y|X1=x)，記p=P(Y=1|X1=x)，為了估計概率p,作logit變換：

2.2 含定性解釋變量的Logistic回歸模型

在實(shí)際問題中，解釋變量往往不只包含連續(xù)型變量。離散型或定性變量隨處可見，比如含有4個水平(春、夏、秋、冬)的季節(jié)變量，此時傳統(tǒng)模型已不再適用，需要對定性解釋變量作處理?，F(xiàn)有文獻(xiàn)中有兩種處理方式：一是將多分類變量直接賦值為多個水平；二是引入啞變量。事實(shí)上，將多分類變量直接賦值為多水平本身暗含了多分類取值之間存在大小差異的假設(shè)條件，而引入啞變量相比于直接賦值具有一定的優(yōu)勢，因此后者是常用的處理方法[14-15]。設(shè)變量Z為含有m個水平的定性變量，則需設(shè)定m-1個啞變量：D1,D2,…,Dm-1。本文將在實(shí)證分析過程中，試用不同變量處理方式得到不同的模型并進(jìn)行探討。

3 基于Logistic回歸模型的實(shí)證研究

3.1 樣本的選取

已獲取數(shù)據(jù)共含41 739部網(wǎng)絡(luò)文學(xué)作品，其中有350部作品被改編，可以看到樣本容量很大，同時改編與否兩類作品數(shù)量存在較大懸殊。因此在做模型擬合之前，先對數(shù)據(jù)進(jìn)行抽樣。根據(jù)已獲數(shù)據(jù)的實(shí)際情況，采用欠抽樣方法，即通過減少多數(shù)類樣本來提高少數(shù)類的分類性能。最簡單的方法是隨機(jī)去掉某些多數(shù)類樣本來縮小其規(guī)模。因此本文對多數(shù)類(即未改編作品)進(jìn)行欠抽樣，按照未被改編作品數(shù)量∶被改編作品數(shù)量=2∶1的比例進(jìn)行抽取。

首先針對少數(shù)類(即被改編作品)，為了盡可能保留總體分布信息，基于作品類型采用分層抽樣，將被改編的作品按照作品類型劃為4層，并按照1∶1的比例分為訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù)。接下來在已獲取的未改編與被改編樣本中，根據(jù)每一層中被改編作品的數(shù)量，按2∶1的比例對未改編作品進(jìn)行抽樣。最終將全部樣本分為訓(xùn)練集和預(yù)測集兩部分，其中訓(xùn)練集用于構(gòu)建與估計Logistic 回歸模型，預(yù)測集的數(shù)據(jù)用于檢驗(yàn)?zāi)Ｐ偷念A(yù)測能力。最終所得樣本數(shù)據(jù)規(guī)模如表2所示。

表2 樣本規(guī)模

3.2 建立Logistic回歸模型

本研究中，因變量為網(wǎng)絡(luò)文學(xué)IP作品是否被改編，解釋變量共10個。其中包含7個連續(xù)型定量變量：付費(fèi)月榜排名X1，章節(jié)平均點(diǎn)擊數(shù)X2，作品被收藏數(shù)X3，作品被評論數(shù)X4，作品評分X5，參與評分人數(shù)X6，作者粉絲數(shù)X7；另外含3個定性變量：作品的背景類型Z1(4類)，作品風(fēng)格Z2(4類)，作品題材Z3(8類)。變量具體解釋參見表1。為了探討在應(yīng)用Logistic回歸模型時需注意的細(xì)節(jié)問題，對多分類定性變量進(jìn)行不同的設(shè)置，得到不同的Logistic回歸模型，并對這些模型的估計結(jié)果和擬合效果進(jìn)行比較。

3.2.1 對多分類定性變量進(jìn)行不同設(shè)置

1)將其直接賦值為多個水平

用Z=(Z1,Z2,Z3)表示3個定性變量，然后分別對各定性變量進(jìn)行直接賦值。例如變量Z1(背景類型)共含4類，則將該變量的4種類型“古代”、“架空歷史”、“近現(xiàn)代”、“未來”直接賦值為1、2、3、4。其余兩個定性變量Z2(作品風(fēng)格)、Z3(作品題材)也做相同處理。于是所得模型為

Y*=β0+β1X1+β2X2+…+β7X7+η1Z1+η2Z2+η3Z3+ε

該模型同時含有定量變量與定性變量，模型可簡寫為

Y*=β0+Xβ+Zη+ε

(1)

式中：X=(X1,X2,…,X7)代表7個連續(xù)型解釋變量，β=(β1,β2,…,β7)T為對應(yīng)的系數(shù)；η=(η1,η2,η3)T為3個定性變量的系數(shù)。記此模型為模型(1)。

2)對多分類定性變量進(jìn)行啞變量處理

以“背景類型”這一變量為例，其中包含4個水平，此時引入3個啞變量：D11、D12、D13，當(dāng)作品類型為“古代”時，(D11,D12,D13)取值為(1,0,0)。類似地，若(D11,D12,D13)取值為 (0,1,0)，表示作品類型為“架空歷史”。對3個定性變量均作啞變量處理后，模型中變量維數(shù)為20，Logistic回歸模型為

y*=β0+β1X1+β2X2+…+β7X7+γ11D11+γ12D12+γ13D13+γ21D21+γ22D22+γ23D23+

γ31D31+…+γ37D37+ε，可以簡寫為

Y*=β0+Xβ+D1γ1+D2γ2+D3γ3+ε

(2)

式中：X=(X1，X2,…,X7)代表7個連續(xù)型解釋變量；D1=(D11，D12,D13)，D2=(D21,D22,D23)，D3=(D31，D32，…,D37)分別表示3組啞變量。記此模型為模型(2)。

為了比較對定性解釋變量的兩種處理方式所得模型的表現(xiàn)，分別考慮模型所得變量顯著性情況與模型的擬合效果。表3給出了系數(shù)估計值顯著性情況(包括系數(shù)z值與P(>|z|)，均由R語言中g(shù)lm函數(shù)輸出)，其中P(>|z|)越小表明變量的顯著性越高。本文采用Nagelkerke提出的擬合優(yōu)度[16]來比較不同模型的擬合效果，公式如下：

表3 對定性變量不同處理方式下的系數(shù)顯著性結(jié)果

3.2.2 關(guān)于“截距項(xiàng)在模型中顯著”

在對多分類定性變量進(jìn)行啞變量處理后，建模時經(jīng)常會出現(xiàn)截距項(xiàng)顯著的情形。對于模型(2)，考慮3個定性變量對應(yīng)的3組啞變量的不同組合形式。以“背景類型”這一變量為例，其中包含4個類，前文考慮了3個啞變量：(D11,D12,D13)，對應(yīng)(古代，架空歷史，近現(xiàn)代)?，F(xiàn)在考慮4類中后3個類(架空歷史，近現(xiàn)代，未來)對應(yīng)的啞變量：(D12,D13,D14)，即：當(dāng)作品類型為“古代”時，啞變量取值為(0,0,0)，同理(1,0,0)表示“架空歷史”，(0,1,0)表示“近現(xiàn)代”，(0,0,1)表示“未來”?？梢钥吹?，關(guān)于“背景類型”這一定性變量共有4種啞變量取法。同理，關(guān)于“作品題材”這一變量，共有8種啞變量取法。

現(xiàn)在考慮實(shí)例中3個定性變量的所有啞變量取法并進(jìn)行建模，可得4×4×8=128個模型。這些模型雖然本質(zhì)相同，所得Akaike信息準(zhǔn)則值相同，但共有42個模型所得截距項(xiàng)為顯著。故在實(shí)例分析中應(yīng)用這些模型對實(shí)際問題進(jìn)行解釋時，對各個定性變量對應(yīng)的啞變量的顯著性解釋結(jié)果有所不同。因此，在應(yīng)用含有定性變量的Logistic回歸模型時，需選取截距項(xiàng)不顯著的模型形式。

3.3 對模型的進(jìn)一步優(yōu)化

模型(2)中包含7個連續(xù)型變量，經(jīng)Bartlett球形檢驗(yàn)值，所得顯著性p<0.001，表明這些變量之間存在高度相關(guān)。因此接下來考慮做主成分分析實(shí)現(xiàn)降維，并盡可能多地包含對數(shù)據(jù)變異的解釋。前3個主成分的累積貢獻(xiàn)率依次為53.97%、69.81%、83.27%，因前3個成分對總變異的累積貢獻(xiàn)率高達(dá)83.27%，所以基本可以反映原來的7個連續(xù)變量的信息。表4給出了主成分分析載荷計算結(jié)果，第1主成分載荷顯示出作品被收藏數(shù)、章節(jié)平均點(diǎn)擊數(shù)的重要性。

下面根據(jù)主成分所得結(jié)果進(jìn)行模型優(yōu)化，根據(jù)方差累積貢獻(xiàn)率考慮在模型中選用前3個主成分。優(yōu)化后的Logistic回歸模型包含3組定性變量以及3個主成分：

Y*=β0+Fβ+D1γ1+D2γ2+D3γ3+ε

(3)

式中：F=(F1，F(xiàn)2,F3)代表7個連續(xù)型解釋變量所得的3個主成分；D1=(D11，D12,D13)，D2=(D21，D22,D23)，D3=(D31，D32，…,D37)分別表示3組啞變量。記此優(yōu)化后的模型為模型(3)。

表4 主成分分析所得載荷結(jié)果

模型(3)系數(shù)估計結(jié)果及顯著性結(jié)果如表5所示。表5顯示了3個主成分在模型中的顯著性，其中第1個主成分F1顯著性最強(qiáng)，說明作品被改編與否的主要相關(guān)因素為作品被收藏數(shù)、章節(jié)平均點(diǎn)擊數(shù)(可概括為用戶粘性)；第2、3成分對應(yīng)的系數(shù)顯著性也極高，結(jié)合系數(shù)值以及表4中第2、3成分的載荷系數(shù)，表明作品被評論數(shù)和評分值與作品改編與否的相關(guān)性強(qiáng)，間接反映了作品討論熱度以及作品本身質(zhì)量與作品是否被改編的相關(guān)性較強(qiáng)。另外，作品題材(對應(yīng)的文學(xué)作品題材為愛情類)也具有較高的顯著性，說明愛情題材類作品更容易被改編。

表5 模型(3)估計結(jié)果

下面將模型用于預(yù)測集，即觀察模型在新數(shù)據(jù)集上的預(yù)測效果。記樣本總數(shù)為n，真實(shí)改編個數(shù)為nP，未改編個數(shù)為nN，正確預(yù)測為改編的個數(shù)為nTP，正確預(yù)測為未改編的個數(shù)為nTN，誤預(yù)測為改編的個數(shù)為nFP，誤預(yù)測為未改編的個數(shù)為nFN。考慮如下指標(biāo)：總體正確預(yù)測率RT=nP/n；正確預(yù)測改編比率RTP=nTP/nP；正確預(yù)測未改編比率RTN=nTN/nN；誤預(yù)測為改編比率RFP=nFP/nN；誤預(yù)測為未改編比率RFN=nFN/nP，易知：RTP+RFN=1,RTN+RFP=1。表6給出了原始模型以及優(yōu)化模型的預(yù)測率結(jié)果。可以看出優(yōu)化后模型對網(wǎng)絡(luò)文學(xué)IP改編與否的總體預(yù)測率較高(85.52%)，與優(yōu)化前相比總預(yù)測能力得到了顯著提升。特別是對“適于改編”的錯誤預(yù)測率顯著降低，同時對“未被選作改編作品”結(jié)果的正確預(yù)測率顯著提升，結(jié)果高達(dá)92.29%。在實(shí)際應(yīng)用中可表現(xiàn)為，對于“不適于改編”作品的預(yù)測更加準(zhǔn)確。

表6 模型預(yù)測結(jié)果 %

3.4 結(jié)果分析

基于數(shù)據(jù)分析結(jié)果，可以發(fā)現(xiàn)網(wǎng)絡(luò)文學(xué)IP作品被改編的主要相關(guān)因素為：用戶粘性、作品討論熱度以及作品題材風(fēng)格。其中，用戶粘性及用戶感受與是否被改編的相關(guān)程度更大，在實(shí)際生活中可以直觀地體現(xiàn)為網(wǎng)絡(luò)文學(xué)IP作品具有的粉絲基礎(chǔ)及受眾人群對改編影視劇的接受程度；作品的討論度在實(shí)際生活中可以體現(xiàn)為改編劇播出前在微博等媒體平臺上的討論熱度。由作品背景類型、風(fēng)格以及作品題材變量和3個主成分構(gòu)建的回歸模型正確預(yù)測率達(dá)到85.52%，其中對未被改編的IP作品預(yù)測準(zhǔn)確率為92.29%，對被改編的IP作品的預(yù)測準(zhǔn)確率達(dá)到72%。說明模型(3)對網(wǎng)絡(luò)文學(xué)IP影視劇改編的選擇具有較好的預(yù)測能力。

4 結(jié)束語

本文構(gòu)建的Logistic回歸模型給出了網(wǎng)絡(luò)文學(xué)作品改編與否的相關(guān)因素，可為影視劇產(chǎn)業(yè)對文學(xué)IP作品改編提供決策和對策參考，從而降低原創(chuàng)劇本開發(fā)成本。相關(guān)建議如下：第一，為打造高質(zhì)量網(wǎng)絡(luò)文學(xué)IP改編影視劇，制片方、投資方應(yīng)結(jié)合現(xiàn)有平臺數(shù)據(jù)資源對優(yōu)質(zhì)網(wǎng)絡(luò)文學(xué)IP作品下粉絲用戶行為進(jìn)行深入分析，挖掘用戶需求，引領(lǐng)用戶文化價值取向；第二，關(guān)注網(wǎng)絡(luò)文學(xué)IP作品本身，以保證改編作品質(zhì)量；第三，豐富網(wǎng)絡(luò)文學(xué)IP作品改編影視劇題材。當(dāng)前數(shù)據(jù)分析顯示改編作品偏重愛情類題材，建議不拘泥于熱點(diǎn)，著眼于更多具有創(chuàng)新點(diǎn)的網(wǎng)絡(luò)文學(xué)作品，提高改編劇的整體價值。

從研究方法來看，應(yīng)用Logistic回歸模型可助力各類應(yīng)用場景下的決策。在具體應(yīng)用過程中，當(dāng)模型中除了定量變量外同時含有定性變量時，采用引入啞變量的處理方式要優(yōu)于對定性變量直接進(jìn)行多水平賦值的方式，后者可能會帶來信息損失；建模過程中若出現(xiàn)截距項(xiàng)顯著的情形，則必有某個啞變量的解釋作用被忽略，此時考慮啞變量的多種組合方式可避免截距項(xiàng)的顯著，從而找到真正起顯著作用的關(guān)鍵變量。在未來研究中，可以進(jìn)一步考慮高維情形下的Logistic回歸模型中對定性變量的變量選擇。另外，在該實(shí)例研究中可考慮將生命周期分為不同階段，數(shù)據(jù)變化與階段保持一致，例如，將時間維度細(xì)化到作品完結(jié)或被購買IP的前一個月、前一周等，從而建立動態(tài)模型。