亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        含定性解釋變量的Logistic回歸模型的實例研究

        2022-09-24 10:33:48劉瑞平蘇思奇
        關鍵詞:連續(xù)型定性網絡文學

        劉瑞平,蘇思奇

        (北京信息科技大學 理學院,北京100192)

        0 引言

        Logistic回歸模型是一種以分類變量作為響應變量的廣義線性模型,最初由David Cox 在1958年提出[1],其應用非常廣泛,比如生物醫(yī)學中對疾病狀態(tài)的劃分、經濟金融中對信用卡違約用戶的識別、社會科學中的文本主題分類等。現有的大量關于Logistic回歸模型的研究仍有可改進的地方:1)Logistic回歸模型中解釋變量僅僅涉及連續(xù)型變量(定量變量)[2-4],然而實際問題中往往需考慮將定性變量加入解釋變量中;2)有的文獻雖然考慮到定性變量,但文中涉及的定性變量均被統(tǒng)一處理為二分類變量,導致細節(jié)因素被忽略[5];3)當自變量涉及多分類定性變量時,有的文獻直接將多分類定性變量賦值為多個數值,例如在對高校社區(qū)老年人養(yǎng)老需求特征及其影響因素的研究[6]中,3種居住類型“獨居”、“與配偶同住”、“其他”直接被賦值為1、2、3。為此,本文將從一個實例出發(fā),探討Logistic回歸建模過程中的一些細節(jié)問題。

        本文關注網絡文學知識產權(intellectual property,IP)作品是否能被改編為影視劇的影響因素。網絡文學IP是以文學內容為載體、具有開發(fā)潛能的優(yōu)質版權內容,已成為影視劇創(chuàng)作的重要內容來源。并非所有的網絡文學作品都適合改編成影視劇。為助力決策網絡文學IP作品是否適合影視化及其影視化策略的研究,本文將對網絡文學作品被改編的相關因素進行研究。目前國內外對于網絡小說影視化的研究多集中于網絡文學改編劇的開發(fā)運營模式和網絡劇的版權價值,較少關注網絡文學作品被改編的相關因素,而且尚未結合統(tǒng)計學模型進行實證研究[7-10]。國外IP改編影視較多地集中在明星IP上,對于網絡小說的研究屈指可數[11-12]。

        本文基于晉江文學城互聯網平臺數據,從網絡文學IP作品是否被改編這一角度出發(fā),對改編影響因素進行研究,從而了解當下大眾最喜愛的網絡文學IP作品特點,也為運營方關于網絡文學作品影視化的決策和對策提供參考。

        1 數據來源及變量介紹

        “晉江文學城”是近幾年網絡劇和影視劇改編IP作品的重要輸送平臺,因此本文以晉江文學城網站為數據來源。網絡文學IP作品的影視化改編可能與多方面因素影響有關,本文以網絡IP作品是否被改編作為響應變量,以作者粉絲數、作品背景類型、作品風格、作品題材、付費月榜排名、章節(jié)平均點擊數、作品被收藏數、作品被評論數、作品評分、參與評分人數作為解釋變量。10個解釋變量中既含有定量變量,也包括定性變量,所有變量的具體說明如表1所示。

        2 Logistic回歸模型簡介

        2.1 傳統(tǒng)的Logistic回歸模型

        Logistic回歸模型是二分類問題中的一種常用模型。經典Logistic回歸模型設定解釋變量為連續(xù)型變量,并基于連續(xù)型自變量來分析和預測離散型因變量,是一種廣義線性模型。二分類邏輯回歸(binary logistic)模型中因變量Y只能取兩個值,用示性變量1和0來表示。將“事件發(fā)生”記為1,“未發(fā)生”記為0,事件發(fā)生的概率記為π,則變量Y取值為y的概率為P(Y=y)=πy(1-π)1-y,于是E(Y)=π=P(Y=1)。

        表1 變量說明

        傳統(tǒng)的Logistic回歸模型僅涉及連續(xù)型變量。為方便起見,考慮僅含一個連續(xù)型自變量X1的情形,則當自變量X1取值為x時因變量Y取1的條件概率為P(Y=1|X1=x)=E(Y|X1=x),記p=P(Y=1|X1=x),為了估計概率p,作logit變換:

        2.2 含定性解釋變量的Logistic回歸模型

        在實際問題中,解釋變量往往不只包含連續(xù)型變量。離散型或定性變量隨處可見,比如含有4個水平(春、夏、秋、冬)的季節(jié)變量,此時傳統(tǒng)模型已不再適用,需要對定性解釋變量作處理?,F有文獻中有兩種處理方式:一是將多分類變量直接賦值為多個水平;二是引入啞變量。事實上,將多分類變量直接賦值為多水平本身暗含了多分類取值之間存在大小差異的假設條件,而引入啞變量相比于直接賦值具有一定的優(yōu)勢,因此后者是常用的處理方法[14-15]。設變量Z為含有m個水平的定性變量,則需設定m-1個啞變量:D1,D2,…,Dm-1。本文將在實證分析過程中,試用不同變量處理方式得到不同的模型并進行探討。

        3 基于Logistic回歸模型的實證研究

        3.1 樣本的選取

        已獲取數據共含41 739部網絡文學作品,其中有350部作品被改編,可以看到樣本容量很大,同時改編與否兩類作品數量存在較大懸殊。因此在做模型擬合之前,先對數據進行抽樣。根據已獲數據的實際情況,采用欠抽樣方法,即通過減少多數類樣本來提高少數類的分類性能。最簡單的方法是隨機去掉某些多數類樣本來縮小其規(guī)模。因此本文對多數類(即未改編作品)進行欠抽樣,按照未被改編作品數量∶被改編作品數量=2∶1的比例進行抽取。

        首先針對少數類(即被改編作品),為了盡可能保留總體分布信息,基于作品類型采用分層抽樣,將被改編的作品按照作品類型劃為4層,并按照1∶1的比例分為訓練數據和預測數據。接下來在已獲取的未改編與被改編樣本中,根據每一層中被改編作品的數量,按2∶1的比例對未改編作品進行抽樣。最終將全部樣本分為訓練集和預測集兩部分,其中訓練集用于構建與估計Logistic 回歸模型,預測集的數據用于檢驗模型的預測能力。最終所得樣本數據規(guī)模如表2所示。

        表2 樣本規(guī)模

        3.2 建立Logistic回歸模型

        本研究中,因變量為網絡文學IP作品是否被改編,解釋變量共10個。其中包含7個連續(xù)型定量變量:付費月榜排名X1,章節(jié)平均點擊數X2,作品被收藏數X3,作品被評論數X4,作品評分X5,參與評分人數X6,作者粉絲數X7;另外含3個定性變量:作品的背景類型Z1(4類),作品風格Z2(4類),作品題材Z3(8類)。變量具體解釋參見表1。為了探討在應用Logistic回歸模型時需注意的細節(jié)問題,對多分類定性變量進行不同的設置,得到不同的Logistic回歸模型,并對這些模型的估計結果和擬合效果進行比較。

        3.2.1 對多分類定性變量進行不同設置

        1)將其直接賦值為多個水平

        用Z=(Z1,Z2,Z3)表示3個定性變量,然后分別對各定性變量進行直接賦值。例如變量Z1(背景類型)共含4類,則將該變量的4種類型“古代”、“架空歷史”、“近現代”、“未來”直接賦值為1、2、3、4。其余兩個定性變量Z2(作品風格)、Z3(作品題材)也做相同處理。于是所得模型為

        Y*=β0+β1X1+β2X2+…+β7X7+η1Z1+η2Z2+η3Z3+ε

        該模型同時含有定量變量與定性變量,模型可簡寫為

        Y*=β0+Xβ+Zη+ε

        (1)

        式中:X=(X1,X2,…,X7)代表7個連續(xù)型解釋變量,β=(β1,β2,…,β7)T為對應的系數;η=(η1,η2,η3)T為3個定性變量的系數。記此模型為模型(1)。

        2)對多分類定性變量進行啞變量處理

        以“背景類型”這一變量為例,其中包含4個水平,此時引入3個啞變量:D11、D12、D13,當作品類型為“古代”時,(D11,D12,D13)取值為(1,0,0)。類似地,若(D11,D12,D13)取值為 (0,1,0),表示作品類型為“架空歷史”。對3個定性變量均作啞變量處理后,模型中變量維數為20,Logistic回歸模型為

        y*=β0+β1X1+β2X2+…+β7X7+γ11D11+γ12D12+γ13D13+γ21D21+γ22D22+γ23D23+

        γ31D31+…+γ37D37+ε,可以簡寫為

        Y*=β0+Xβ+D1γ1+D2γ2+D3γ3+ε

        (2)

        式中:X=(X1,X2,…,X7)代表7個連續(xù)型解釋變量;D1=(D11,D12,D13),D2=(D21,D22,D23),D3=(D31,D32,…,D37)分別表示3組啞變量。記此模型為模型(2)。

        為了比較對定性解釋變量的兩種處理方式所得模型的表現,分別考慮模型所得變量顯著性情況與模型的擬合效果。表3給出了系數估計值顯著性情況(包括系數z值與P(>|z|),均由R語言中glm函數輸出),其中P(>|z|)越小表明變量的顯著性越高。本文采用Nagelkerke提出的擬合優(yōu)度[16]來比較不同模型的擬合效果,公式如下:

        表3 對定性變量不同處理方式下的系數顯著性結果

        3.2.2 關于“截距項在模型中顯著”

        在對多分類定性變量進行啞變量處理后,建模時經常會出現截距項顯著的情形。對于模型(2),考慮3個定性變量對應的3組啞變量的不同組合形式。以“背景類型”這一變量為例,其中包含4個類,前文考慮了3個啞變量:(D11,D12,D13),對應(古代,架空歷史,近現代)?,F在考慮4類中后3個類(架空歷史,近現代,未來)對應的啞變量:(D12,D13,D14),即:當作品類型為“古代”時,啞變量取值為(0,0,0),同理(1,0,0)表示“架空歷史”,(0,1,0)表示“近現代”,(0,0,1)表示“未來”??梢钥吹?,關于“背景類型”這一定性變量共有4種啞變量取法。同理,關于“作品題材”這一變量,共有8種啞變量取法。

        現在考慮實例中3個定性變量的所有啞變量取法并進行建模,可得4×4×8=128個模型。這些模型雖然本質相同,所得Akaike信息準則值相同,但共有42個模型所得截距項為顯著。故在實例分析中應用這些模型對實際問題進行解釋時,對各個定性變量對應的啞變量的顯著性解釋結果有所不同。因此,在應用含有定性變量的Logistic回歸模型時,需選取截距項不顯著的模型形式。

        3.3 對模型的進一步優(yōu)化

        模型(2)中包含7個連續(xù)型變量,經Bartlett球形檢驗值,所得顯著性p<0.001,表明這些變量之間存在高度相關。因此接下來考慮做主成分分析實現降維,并盡可能多地包含對數據變異的解釋。前3個主成分的累積貢獻率依次為53.97%、69.81%、83.27%,因前3個成分對總變異的累積貢獻率高達83.27%,所以基本可以反映原來的7個連續(xù)變量的信息。表4給出了主成分分析載荷計算結果,第1主成分載荷顯示出作品被收藏數、章節(jié)平均點擊數的重要性。

        下面根據主成分所得結果進行模型優(yōu)化,根據方差累積貢獻率考慮在模型中選用前3個主成分。優(yōu)化后的Logistic回歸模型包含3組定性變量以及3個主成分:

        Y*=β0+Fβ+D1γ1+D2γ2+D3γ3+ε

        (3)

        式中:F=(F1,F2,F3)代表7個連續(xù)型解釋變量所得的3個主成分;D1=(D11,D12,D13),D2=(D21,D22,D23),D3=(D31,D32,…,D37)分別表示3組啞變量。記此優(yōu)化后的模型為模型(3)。

        表4 主成分分析所得載荷結果

        模型(3)系數估計結果及顯著性結果如表5所示。表5顯示了3個主成分在模型中的顯著性,其中第1個主成分F1顯著性最強,說明作品被改編與否的主要相關因素為作品被收藏數、章節(jié)平均點擊數(可概括為用戶粘性);第2、3成分對應的系數顯著性也極高,結合系數值以及表4中第2、3成分的載荷系數,表明作品被評論數和評分值與作品改編與否的相關性強,間接反映了作品討論熱度以及作品本身質量與作品是否被改編的相關性較強。另外,作品題材(對應的文學作品題材為愛情類)也具有較高的顯著性,說明愛情題材類作品更容易被改編。

        表5 模型(3)估計結果

        下面將模型用于預測集,即觀察模型在新數據集上的預測效果。記樣本總數為n,真實改編個數為nP,未改編個數為nN,正確預測為改編的個數為nTP,正確預測為未改編的個數為nTN,誤預測為改編的個數為nFP,誤預測為未改編的個數為nFN??紤]如下指標:總體正確預測率RT=nP/n;正確預測改編比率RTP=nTP/nP;正確預測未改編比率RTN=nTN/nN;誤預測為改編比率RFP=nFP/nN;誤預測為未改編比率RFN=nFN/nP,易知:RTP+RFN=1,RTN+RFP=1。表6給出了原始模型以及優(yōu)化模型的預測率結果。可以看出優(yōu)化后模型對網絡文學IP改編與否的總體預測率較高(85.52%),與優(yōu)化前相比總預測能力得到了顯著提升。特別是對“適于改編”的錯誤預測率顯著降低,同時對“未被選作改編作品”結果的正確預測率顯著提升,結果高達92.29%。在實際應用中可表現為,對于“不適于改編”作品的預測更加準確。

        表6 模型預測結果 %

        3.4 結果分析

        基于數據分析結果,可以發(fā)現網絡文學IP作品被改編的主要相關因素為:用戶粘性、作品討論熱度以及作品題材風格。其中,用戶粘性及用戶感受與是否被改編的相關程度更大,在實際生活中可以直觀地體現為網絡文學IP作品具有的粉絲基礎及受眾人群對改編影視劇的接受程度;作品的討論度在實際生活中可以體現為改編劇播出前在微博等媒體平臺上的討論熱度。由作品背景類型、風格以及作品題材變量和3個主成分構建的回歸模型正確預測率達到85.52%,其中對未被改編的IP作品預測準確率為92.29%,對被改編的IP作品的預測準確率達到72%。說明模型(3)對網絡文學IP影視劇改編的選擇具有較好的預測能力。

        4 結束語

        本文構建的Logistic回歸模型給出了網絡文學作品改編與否的相關因素,可為影視劇產業(yè)對文學IP作品改編提供決策和對策參考,從而降低原創(chuàng)劇本開發(fā)成本。相關建議如下:第一,為打造高質量網絡文學IP改編影視劇,制片方、投資方應結合現有平臺數據資源對優(yōu)質網絡文學IP作品下粉絲用戶行為進行深入分析,挖掘用戶需求,引領用戶文化價值取向;第二,關注網絡文學IP作品本身,以保證改編作品質量;第三,豐富網絡文學IP作品改編影視劇題材。當前數據分析顯示改編作品偏重愛情類題材,建議不拘泥于熱點,著眼于更多具有創(chuàng)新點的網絡文學作品,提高改編劇的整體價值。

        從研究方法來看,應用Logistic回歸模型可助力各類應用場景下的決策。在具體應用過程中,當模型中除了定量變量外同時含有定性變量時,采用引入啞變量的處理方式要優(yōu)于對定性變量直接進行多水平賦值的方式,后者可能會帶來信息損失;建模過程中若出現截距項顯著的情形,則必有某個啞變量的解釋作用被忽略,此時考慮啞變量的多種組合方式可避免截距項的顯著,從而找到真正起顯著作用的關鍵變量。在未來研究中,可以進一步考慮高維情形下的Logistic回歸模型中對定性變量的變量選擇。另外,在該實例研究中可考慮將生命周期分為不同階段,數據變化與階段保持一致,例如,將時間維度細化到作品完結或被購買IP的前一個月、前一周等,從而建立動態(tài)模型。

        猜你喜歡
        連續(xù)型定性網絡文學
        自變量分段連續(xù)型Volterra積分微分方程的配置法
        分裂平衡問題的Levitin-Polyak適定性
        連續(xù)型美式分期付款看跌期權
        對待網絡文學要去掉“偏見與傲慢”
        當代陜西(2019年8期)2019-05-09 02:23:26
        網絡文學竟然可以這樣“玩”
        當代陜西(2019年8期)2019-05-09 02:23:24
        揭秘網絡文學
        當代陜西(2019年8期)2019-05-09 02:23:16
        當歸和歐當歸的定性與定量鑒別
        中成藥(2018年12期)2018-12-29 12:25:44
        網絡文學的誕生
        基于晶圓優(yōu)先級的連續(xù)型Interbay搬運系統(tǒng)性能分析
        共同認識不明確的“碰瓷”行為的定性
        女同成片av免费观看| 亚洲色大成网站www久久九| 久久丫精品国产亚洲av| 亚洲电影久久久久久久9999| 白白色青青草视频免费观看| 免费在线观看av不卡网站| 永久黄网站免费视频性色| 美女裸体自慰在线观看| 国产粉嫩嫩00在线正在播放| av在线天堂国产一区| 久久综合亚洲色一区二区三区 | 熟女白浆精品一区二区| 青青草视频在线观看入口| 欧美大片aaaaa免费观看| 蜜桃精品免费久久久久影院| 亚洲 国产 韩国 欧美 在线 | 欧美国产精品久久久乱码| 欧美人成在线播放网站免费| 日本熟女视频一区二区三区| 亚洲中国精品精华液| 久久伊人色av天堂九九| 人妻被猛烈进入中文字幕| 日本一区二区免费看片| 又粗又黑又大的吊av| 国产白嫩美女在线观看| 果冻国产一区二区三区| 97精品人妻一区二区三区在线| 大肉大捧一进一出好爽视频| 国产精品亚洲专区无码web| 日本高清人妻一区二区| 国产精品无码一区二区三区在| 国模少妇一区二区三区| 亚洲日本国产乱码va在线观看| 在线观看视频免费播放| 久久久无码人妻精品无码| 黄色网址国产| 亚洲天堂线上免费av| 风流老太婆大bbwbbwhd视频| 中字幕久久久人妻熟女| 中文字幕人妻少妇美臀| 成人日韩精品人妻久久一区|