亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于正則化Logistic回歸模型的幸福感指數(shù)影響因素分析

        2021-04-01 10:41:36項超孫珂祎呂鵬飛王延新
        寧波工程學院學報 2021年1期
        關(guān)鍵詞:正則幸福感準確率

        項超,孫珂祎,呂鵬飛,王延新

        (寧波工程學院 理學院,浙江 寧波315211)

        0 引言

        隨著大數(shù)據(jù)時代的到來,在自然科學、人類學和工程學等領(lǐng)域的數(shù)據(jù)集越來越豐富,數(shù)據(jù)結(jié)構(gòu)日趨復雜。這些數(shù)據(jù)的主要特點是數(shù)據(jù)的維數(shù)很高,往往大于樣本量;并且隨著維數(shù)的增加,噪聲積累,存在虛假相關(guān)。范劍青指出高維回歸模型中系數(shù)存在稀疏性,即絕大部分解釋變量的系數(shù)為0,因此需要通過變量選擇的方法建立稀疏模型,以提高模型的解釋能力和參數(shù)估計的精確度。

        變量選擇是從眾多變量中選擇重要的相關(guān)變量來達到穩(wěn)健建模的方法,傳統(tǒng)的變量選擇方法如最優(yōu)子集選擇、逐步回歸等方法在維數(shù)較高的情況下存在計算量大,變量選擇不穩(wěn)定等缺點[1-3]。近些年,統(tǒng)計學家們提出基于懲罰函數(shù)的正則化變量選擇方法。Tibshirani[4]提出的LASSO是一種最常用的稀疏化手段,主要在于它的可解釋性和預測的有效性,并且本身是凸優(yōu)化問題可以快速求得最優(yōu)解。但LASSO對較大系數(shù)的估計是有偏差的,并且不一定滿足oracle性質(zhì)[5],故Zou提出自適應LASSO,自適應LASSO是無偏估計[6]。高維數(shù)據(jù)經(jīng)常遇到變量之間的共線性問題,使得LASSO表現(xiàn)不夠理想,2009年,Zou和Hastie提出了彈性網(wǎng)(Elastic net)。此外各種非凸罰函數(shù)如SCAD[5]、MCP[8]、SICA[9]和EXP[10]等相繼被提出。

        幸福是人類千百年來生生不息的追求,幸福生活與每個人的生存與發(fā)展息息相關(guān)。每個人對幸福感都有自己的衡量標準,過上美好幸福的生活是廣大人民群眾的希望。何為“幸?!保腋J侨藗儗τ谏罡鱾€方面的滿足感,從馬斯洛需求層次理論來說,人的需求被分為生理需求、安全需求、社交需求、尊重需求和自我實現(xiàn)需求,只有這五大需求得以滿足,才能說的上真正意義上的幸福。目前,我國居民幸福感處于什么狀態(tài),哪些因素對人們的幸福感有影響,不同人之間幸福感是否有差異,都是圍繞幸福這一問題展開。如果能發(fā)現(xiàn)影響幸福感的共性,生活中將多一些樂趣;如果能找到影響幸福感的影響因素,便能優(yōu)化資源配置來提升國民的幸福感。

        本文基于CGSS項目的公開數(shù)據(jù)的問卷調(diào)查結(jié)果,結(jié)合LASSO、SCAD和MCP罰構(gòu)建正則化Logistic回歸模型,研究幸福感的主要影響因素。

        1 模型建立

        1.1 Logistic回歸模型

        Logistic回歸模型是一種廣義的線性回歸模型,用來分類0-1問題,也就是預測結(jié)果是0還是1的分類問題。設(shè)yi和xi=(xi1,…,xip)分別是響應變量和解釋變量,i=1,2,3,…,n,yi∈{1,0},同時假設(shè)yi和xij相互獨立,Logistic回歸可表示為:

        其中

        則Logistic回歸的對數(shù)似然函數(shù)為:

        1.2 正則化Logistic模型

        對于Logistic回歸模型,響應變量yi∈{1,0},y的期望依賴于函數(shù)假設(shè)

        基于懲罰函數(shù)的Logistic模型的一般框架為

        文中對橢圓擬合法進行了深入研究,針對其容易受到噪聲干擾和魯棒性差的問題,提出一種改進的適合于紅外圖像的瞳孔定位算法,通過形態(tài)學運算、斑點干擾去除等提高算法的抗干擾性。

        Tibshirani[4]提出的Lasso是一種最常用的稀疏化手段,主要在于它的可解釋性和預測的有效性,并且本身是凸優(yōu)化問題可以快速求得最優(yōu)解。LASSO罰函數(shù)定義為

        Fan和Li[5]指出一個好的罰函數(shù)應該同時具備三種性質(zhì),即連續(xù)性、無偏性和稀疏性。但Lasso對較大系數(shù)的估計是有偏的,并且不一定滿足Oracle性質(zhì),故Fan和Li提出了SCAD罰函數(shù),SCAD罰函數(shù)如下:

        其中,對于給定的λ>0,α>2,SCAD罰函數(shù)是分段函數(shù)形式,分別對應常數(shù)、線性函數(shù)和二次函數(shù)。SCAD在區(qū)間(-∞,0)∪(0,+∞)上是連續(xù)可微的罰函數(shù),但在原點處是奇異的,并且在區(qū)間[-αλ,αλ]處的導數(shù)為0。

        MCP估計與SCAD估計類似,MCP估計也具有連續(xù)性、無偏性和稀疏性等性質(zhì)。MCP罰函數(shù)如下[8]:

        λ≥0決定懲罰的大小,α是影響懲罰范圍的調(diào)整參數(shù)。MCP罰函數(shù)滿足近似連續(xù)性,

        2 坐標下降算法

        本本文考慮利用坐標下降算法[11]求解SCAD,MCP及LASSO估計問題。坐標下降法是一種非梯度優(yōu)化算法,其基本思想為:在每步迭代中沿一個坐標方向進行線性搜索,與此同時固定其他坐標方向,再循環(huán)使用不同坐標方法從而達到目標函數(shù)的局部極小值。

        考慮目標函數(shù)

        W為關(guān)于加權(quán)函數(shù)的對角矩陣,其對角線上元素為

        其中π由β(m)估計。

        對于LASSO的坐標下降步為

        同理,對于SCAD罰的坐標下降步為

        其中α>1+1/vj。對于MCP罰為

        其中α>1/vj。

        基于上述,完整的罰Logistic回歸的坐標下降算法如下(以SCAD罰為例):

        Step 1.按遞增方式輸入一系列的λ值Λ={λ1,…,λL}和α值Г={α1,…,αk},并定義λL+1,使得

        (ii)遞減k值

        Step 3.遞減l

        Step 4.對于所有的(λ,α)∈Λ×Г,返回解β^(λ,α)。

        在上述算法中,對MCP估計,只需要將其中的gscad(zj,λ,α)換成gmcp(zj,λ,α)即可,而對于LASSO估計,不存在參數(shù)α,因此在上述算法中對于LASSO估計,不存在內(nèi)循環(huán)的問題,過程更簡潔。此外需要指出的是,在上述算法中設(shè)計正則化參數(shù)λ和α的選擇,本文利用交叉驗證的方法選擇正則化參數(shù)。

        3 實證分析

        3.1 數(shù)據(jù)來源及變量解釋

        本文數(shù)據(jù)來自中國人民大學中國調(diào)查與數(shù)據(jù)中心主持之“中國綜合社會調(diào)查(CGSS)”(2015)項目的公開數(shù)據(jù)的問卷調(diào)查結(jié)果,中國綜合社會調(diào)查為多階分層抽樣的截面面訪調(diào)查。數(shù)據(jù)具體包括個體的幸福感、性別、年齡、健康狀況、受教育程度、就業(yè)狀態(tài)、婚姻狀況、戶口、家庭社會經(jīng)濟地位等[12]。由于有些問卷數(shù)據(jù)無意義,所以處理后的有效數(shù)據(jù)是6 645行數(shù)據(jù)。數(shù)據(jù)的獲取平臺是阿里云天池平臺。

        選取的預測變量總共有以上29項,分為五項指標。其中性別、所在省市、樣本類型、出生日期、民族屬于個人基本情況,宗教信仰、教育程度、用在社交上的空閑時間、用在放松休息上的空閑時間、用在學習上的休息時間屬于文化生活,個人年收入、住房面積、家庭年總收入、家庭人口、家庭經(jīng)濟狀況檔次、房產(chǎn)數(shù)量、汽車數(shù)量屬于經(jīng)濟生活,身高、體重、健康狀況、心情沮喪的頻繁程度屬于健康狀況,對當今社會是否公平的評價、個人社會地位評價、工作經(jīng)歷及狀況、婚姻狀況、與同齡人相比的社會經(jīng)濟地位、與三年前經(jīng)濟社會地位相比發(fā)生的變化、對一些重要事情所持的觀點和看法與社會大眾一致次數(shù)屬于人際關(guān)系指標。其中心情沮喪的頻繁程度從1到5取值,取值越大感到沮喪次數(shù)越少。

        為討論問題的方便,響應變量為幸福感指數(shù)(happiness)將此劃為兩個類別,沮喪程度為4和5時劃分為幸福,1-3時為不幸福?!安恍腋!焙汀靶腋!?,分別賦予對應的數(shù)值0、1。數(shù)據(jù)概況以及部分數(shù)據(jù)指標如表1和表2所示。

        表1 數(shù)據(jù)集概況

        表2 數(shù)據(jù)集部分指標賦值

        3.2 變量選擇和參數(shù)估計

        為了建立模型和比較模型的預測效果,本文將數(shù)據(jù)集切分為訓練集和測試集兩部分,訓練集數(shù)據(jù)和測試集數(shù)據(jù)各占一半。從原始數(shù)據(jù)集隨機抽取50%的數(shù)據(jù)作為訓練集,剩下的50%作為測試集,利用訓練集數(shù)據(jù)建立模型,將測試集的數(shù)據(jù)代入建立好的模型中進行預測,用于對模型預測準確性的外推檢驗。

        利用全變量Logistic模型、LASSO-Logistic模型、SCAD-Logistic模型、MCP-Logistic模型對上述數(shù)據(jù)進行實證分析,用訓練集數(shù)據(jù)建立模型,變量選擇結(jié)果見表3。

        根據(jù)表3的結(jié)果,從稀疏性角度看,Logistic全變量模型沒有剔除任何變量,結(jié)果顯示,對于全變量Logistic回歸模型,變量survey_type、gender、nationality、religion、income、floor_area、height_cm、socialize、learn、work_exper、family_income、car、marital的系數(shù)不顯著,反映出該模型包含了過多的解釋變量,使得模型復雜;LASSO-Logistic模型剔除了16個變量,選擇出13個變量;SCAD-Logistic模型剔除了15個變量,選擇出的變量一共為14個;MCP-Logistic模型剔除了16個變量,選擇出13個重要變量,相比全變量Logistic模型,Scad-logistic,LASSO-Logistic和MCP-Logistic模型變量的選擇更為簡潔,模型稀疏性好。

        從解釋性角度看,LASSO-Logistic模型、SCAD-Logistic模型、MCP-Logistic模型在剔除的變量中,其中有15個共同的變量,說明本次研究這15個變量對這三個模型來說均為不重要變量;三個模型保留了12個共同的變量,進一步說明了這12個指標的重要性。事實上,宗教信仰、社會的公平性、身體健康狀況、社會地位、家庭地位、與同年齡人的社會經(jīng)濟地位都會對人們幸福感造成影響。宗教信仰為人們提供價值體系的支柱,對人們進行心理調(diào)節(jié),在很大程度上,影響人們的幸福感。“家”是人內(nèi)心深處的根,家庭和諧是社會和諧的基礎(chǔ)與前提,家庭生活滿意度是個人幸福、家庭幸福乃至社會幸福的堅實基石。公平、公正、公開的社會管理制度能夠最大限度的促進個體自我價值的實現(xiàn),也會影響人們的幸福感。

        表3 變量選擇和參數(shù)估計

        表3 變量選擇和參數(shù)估計(續(xù))

        3.3 模型準確率比較

        根據(jù)訓練集已經(jīng)建立好的模型,利用測試集數(shù)據(jù)分別測試全變量Logistic模型、LASSO-Logistic模型、SCAD-Logistic模型以及MCP-Logistic模型的預測準確率,一般使用混淆矩陣來表示二分類問題預測結(jié)果可能出現(xiàn)的四種情況,準確率為預測正確的樣本占總樣本的比重,表示模型整體的預測效果,準確率越高表示模型的預測效果越好,表4給出了四個模型的準確率,公式如下:

        其中TP指的是樣本中原本是幸福,模型預測出幸福的個數(shù),TN是樣本中原本是不幸福,模型預測數(shù)不幸福的個數(shù),F(xiàn)P是樣本數(shù)據(jù)中是不幸福,模型預測出來是幸福的個數(shù),F(xiàn)N是樣本數(shù)據(jù)中原本是幸福的,模型預測出來是不幸福的個數(shù)。TP+FP+TN+FN為樣本總數(shù)。

        根據(jù)表4可見,從模型預測準確率上來比較LASSO-Logistic模型、SCAD-Logistic模型和MCPLogistic模型的準確率要優(yōu)于全變量Logistic模型,準確率高出5.56%,由于全變量模型保留

        表4 模型預測準確率比較

        了所有變量,模型相對復雜,難以剔除一些不重要變量,有一定的過擬合現(xiàn)象,使得模型的準確率低。MCP-Logistic模型的準確率最高為82.15%,優(yōu)于SCAD-Logistic模型和LASSO-Logistic模型。MCPlogistic模型變量選擇更加稀疏,模型的可解釋性好、準確率高。因此,從結(jié)果的稀疏性、可解釋性、準確性三個方面綜合分析,本研究認為正則化的Logistic模型更好,特別是MCP-Logistic模型更具優(yōu)勢。

        4 結(jié)論

        本文結(jié)合LASSO、SCAD、MCP等罰方法和Logistic回歸,構(gòu)建了正則化Logistic模型,并利用該模型對幸福感指數(shù)數(shù)據(jù)進行實證分析。結(jié)果表明,LASSO、SCAD、MCP方法選擇了更加稀疏的模型,并且選擇出12個共同的重要變量;其次在預測方面,這三種稀疏正則化模型具有更高的準確度,準確率相對于全模型高出近6%。

        猜你喜歡
        正則幸福感準確率
        7件小事,讓你下班后更有幸福感
        好日子(2022年3期)2022-06-01 06:22:10
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
        奉獻、互助和封禁已轉(zhuǎn)變我們的“幸福感”
        英語文摘(2020年11期)2020-02-06 08:53:32
        剩余有限Minimax可解群的4階正則自同構(gòu)
        七件事提高中年幸福感
        類似于VNL環(huán)的環(huán)
        高速公路車牌識別標識站準確率驗證法
        有限秩的可解群的正則自同構(gòu)
        日本一曲二曲三曲在线| 国产麻无矿码直接观看| 国产免费一级高清淫日本片| 免费福利视频二区三区| 羞羞色院99精品全部免| 欧美激情一区二区三区| 免费夜色污私人影院在线观看| 99re国产电影精品| 亚洲av天堂一区二区| 欲求不満の人妻松下纱荣子| 亚洲欧美一区二区三区| 日本精品一区二区三本中文| 久久亚洲精品中文字幕蜜潮| 草草影院发布页| 青青草视频免费观看| 毛片无遮挡高清免费久久| 国产精品天堂在线观看 | 亚洲第一av导航av尤物| 最新亚洲人AV日韩一区二区| 国产精品成人久久a级片| 国产毛片av最新视频| 手机看片福利一区二区三区| AV无码一区二区三区国产| 亚洲精品在线一区二区三区| 无码少妇丰满熟妇一区二区| 国产精品亚洲二区在线观看| 中文字幕一区二区三区人妻精品| 久久熟女少妇一区二区三区| 日日噜噜夜夜狠狠va视频v| 韩国v欧美v亚洲v日本v| 丝袜人妻无码中文字幕综合网 | 色综合久久网| 亚洲av成人无码久久精品| 精品日韩欧美| 亚洲岛国一区二区三区| 亚洲日韩av一区二区三区中文| 四虎永久免费一级毛片| 国产女主播在线免费观看| 米奇欧美777四色影视在线| 国产乱人伦在线播放| 最新手机国产在线小视频|