亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嶺回歸在消除多重共線性中的應(yīng)用

        2020-11-24 06:56:36林樂義
        關(guān)鍵詞:分析方法模型

        林樂義

        (皖江工學(xué)院 基礎(chǔ)部, 安徽 馬鞍山 243031)

        回歸分析方法、回歸算法以及回歸模型,都是現(xiàn)階段統(tǒng)計學(xué)的重要組成,回歸分析作為一個重要的統(tǒng)計分析技術(shù),其使用率高、應(yīng)用范圍廣。利用該技術(shù)建立數(shù)學(xué)模型,表達(dá)數(shù)據(jù)之間的相互關(guān)系時,由于模型中解釋變量之間存在高度相關(guān)關(guān)系,令該數(shù)學(xué)模型估計失真,以此需要通過消除多重共線性,實現(xiàn)數(shù)學(xué)模型的精準(zhǔn)估計。多重共線性也可稱作多重相關(guān)性,指自變量之間存在線性相關(guān)現(xiàn)象,當(dāng)自變量之間存在完全線性關(guān)系時,則自變量之間的相關(guān)性絕對值為1;當(dāng)自變量之間完全沒有線性關(guān)系時,自變量之間的相關(guān)性為0。上述說明的是2種極端的自變量線性相關(guān)關(guān)系,通常來說,目前極易出現(xiàn)的是線性程度不同的相關(guān)現(xiàn)象,自變量之間的相關(guān)性絕對值在0到1之間變化。

        針對回歸分析的多重共線性問題,文獻(xiàn)[1]提出嶺回歸中基于廣義交叉核實法的最優(yōu)模型平均估計方法,在存在異方差的背景下,考察了組合不同嶺參數(shù)下嶺估計量的模型平均方法,并在廣義交叉核實法的框架下構(gòu)造了相應(yīng)的權(quán)重選擇準(zhǔn)則,使用蒙特卡洛模擬考察了所提出的模型平均方法在有限樣本下的有效性,利用該方法對一組乙炔反應(yīng)工藝的數(shù)據(jù)進(jìn)行了分析,所得到的結(jié)論進(jìn)一步表明,模型平均法在實際數(shù)據(jù)分析工作中具有較高應(yīng)用價值。文獻(xiàn)[2]提出部分線性變系數(shù)模型的約束嶺估計方法,該方法研究了部分線性變系數(shù)模型在線性部分存在多重共線性和參數(shù)分量附加約束條件時的估計問題?;趐rofile最小二乘估計和嶺回歸估計方法,構(gòu)造了參數(shù)分量的約束profile嶺估計,并研究了其性質(zhì)。但是以上2種方法的多重共線性處理效果較差,導(dǎo)致得到的回歸系數(shù)不貼合實際。

        針對上述方法存在的問題,本文提出全新的處理方法。該方法利用嶺回歸修正解釋變量之間的多重共線性,并通過篩除重復(fù)度高、相似性強(qiáng)的自變量,消除多重共線性,得到的回歸系數(shù)更貼合實際,為回歸分析技術(shù)的改進(jìn)和發(fā)展,提供有效的技術(shù)支持。

        1 嶺回歸在消除多重共線性中的應(yīng)用

        1.1 確認(rèn)多重共線性的影響程度

        在投入嶺回歸消除多重共線性的方法中,需要預(yù)先確認(rèn)多重共線性的影響指標(biāo)。該影響指標(biāo)就是存在大量精確相關(guān)關(guān)系或高度相關(guān)關(guān)系的解釋變量,影響模型估計精準(zhǔn)程度的指標(biāo)[3-4]。已知建立一個多元線性回歸模型需要一定條件,即回歸模型外生變量組成的設(shè)計矩陣,為列滿秩矩陣,同時該模型要求列滿秩矩陣W的秩表現(xiàn)為F(W)=b+1,說明矩陣列向量之間不存在不全為零的b+1個數(shù),用n0、n1、n2、…、nb表示,則有:

        n0+n1xi1+n2xi2+…+nbxib=0

        (1)

        上式中:i=1,2,…,m表示數(shù)量;x1、x2、…、xb表示分析模型的外生變量。此時的外生變量x之間存在嚴(yán)重的線性關(guān)系[5]。當(dāng)變量之間的共線性程度較強(qiáng)時,設(shè)回歸模型為:

        y=β0+β1x1+β2x2+…+βbxb+k

        (2)

        式中:β0、β1、β2、…、βb表示與分析模型外生變量xb相對應(yīng)的回歸系數(shù);k表示固定常數(shù)。當(dāng)上述模型的解釋變量之間存在公式(1)的狀況時,矩陣W的秩F(W)

        根據(jù)上圖可知,外生變量的發(fā)生概率隨著模型參數(shù)的增加而提升。因此假設(shè)1個多元線性回歸模型內(nèi)存在2個外生變量,此時的回歸模型可設(shè)置為二元化模型,計算公式為:

        y=β0+β1x1+β2x2+k′

        (3)

        式中的k′為二元化模型下的固定常數(shù)。外生變量x1與x2具有完全共線性;若x2=μx1時,μ為變量控制參量,此時的二元線性回歸模型,可變?yōu)楹唵我辉€性回歸模型:

        y=β0+(β1+μβ2)x1+k′

        (4)

        上述模型可以對(β1+μβ2)的取值進(jìn)行估計,但并沒有辦法確定β1、β2各自的估計值[7]。此時的回歸模型完全失去統(tǒng)計分析意義,模型多重共線性非常嚴(yán)重。計算多重線性與模型真實值之間的差異指標(biāo):

        (5)

        上式中:g(*)表示預(yù)測函數(shù);f(*)表示評估函數(shù);σ表示對β值的約束參量;η、η′是對W、W′的限制條件標(biāo)準(zhǔn)值;d表示差異指標(biāo)。當(dāng)d值為正時,說明多重線性對模型的影響較弱,消除多重共線性只需利用嶺回歸即可;當(dāng)d值為負(fù)時,則說明多重共線性嚴(yán)重,需要調(diào)整嶺回歸的k值[8]。

        1.2 獲取嶺回歸k值

        圖中的rx1~rx9表示嶺跡分析曲線,根據(jù)曲線走勢可知,不同的k值會直接影響嶺跡曲線,因此需要計算2種情況下的嶺估計量k值。一種是普通嶺估計量值,

        (6)

        i=1,2,…,c.

        (7)

        上式中k2表示廣義嶺估計的k值。需要注意的是,無論是普通嶺估計結(jié)果還是廣義嶺估計結(jié)果,在獲取嶺回歸k值時,都要按照實際目標(biāo)來選擇。根據(jù)全新的k值改進(jìn)嶺回歸方程,改進(jìn)后的公式為:

        (8)

        公式中:W′、W為已知的矩陣和轉(zhuǎn)置矩陣,y為上述公式所求的線性回歸方程;k表示公式(6)、(7)獲取的k值;s表示修正系數(shù);△T表示需要剔除的計算偏差[11]。綜合上述所求,獲得取值不同的嶺回歸k值,實現(xiàn)對嶺回歸方程的優(yōu)化改進(jìn)。

        1.3 篩除自變量嶺回歸消除多重共線性

        根據(jù)改進(jìn)后的嶺回歸進(jìn)行分析,以解釋變量是否具有線性相關(guān)性為分析依據(jù),將解釋自變量劃分為2個部分,實施對回歸模型的區(qū)別分析。該分析需要篩除自變量,以此達(dá)到對多重共線性全面消除的目的。嶺回歸標(biāo)準(zhǔn)化處理數(shù)據(jù),比較標(biāo)準(zhǔn)化嶺回歸系數(shù),選取自變量,設(shè)置步長為a的嶺跡表,并繪制相應(yīng)的嶺跡圖,結(jié)合k值確定自變量系數(shù)大小、常數(shù)項的取值范圍。根據(jù)公式(8)選取嶺估計曲線趨于平穩(wěn)處的k值,已知經(jīng)公式(8)計算,獲得的步長為a的嶺參數(shù)k值如表1所示[12]。

        表1 步長為a的嶺參數(shù)k值表

        根據(jù)嶺跡分析法可知,在初始階段和分析末段,嶺跡大致處于穩(wěn)定,此時的k值更加符合計算要求。去掉嶺回歸系數(shù)集合中,相對來說較穩(wěn)定、且絕對值較小的自變量xi,以及隨著k值變化而快速接近于0的自變量x0,篩選后的自變量記為xj。檢驗剩余自變量的顯著性,表2為顯著性測試結(jié)果[13]。

        表2 顯著性結(jié)果

        由于剔除自變量會損失模型中的有價值信息,因此根據(jù)上表中的顯著性分析結(jié)果,對剔除后剩余自變量xj,進(jìn)行分位數(shù)回歸分析,保證剩余變量的可靠程度。當(dāng)自變量的系數(shù)均為正數(shù)時,說明這些系數(shù)與因變量呈正相關(guān)關(guān)系,意味著待分析指標(biāo)q1、q2、…、qn對因變量指標(biāo)起到了促進(jìn)作用,即因變量指標(biāo)隨著待分析指標(biāo)qn的變大而增大。選取分位點r,對篩除自變量進(jìn)行分位數(shù)回歸,令r=0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,其中當(dāng)r=0.8時的分位數(shù)回歸參數(shù),如表3所示[14]。

        表3 r=0.8時的分位數(shù)回歸

        根據(jù)上表中參考數(shù)據(jù),計算各個分位點回歸方程的嶺回歸系數(shù),得到圖3所示的分位點系數(shù)值。

        圖中的x2、x3、x6、x7為篩除后的自變量。根據(jù)上圖可知,在分位點0.1~0.7區(qū)間內(nèi),自變量的系數(shù)變化較為平穩(wěn);而0.7~0.8區(qū)間內(nèi),除了自變量x2的系數(shù)逐漸減小,其他系數(shù)均保持緩慢增長趨勢;而在0.8~0.9階段,自變量x2、x6的系數(shù)變化強(qiáng)度大,且方向相反,可知分析指標(biāo)對因變量的影響是不同的[15]。在文獻(xiàn)[1]所提出應(yīng)用方法的基礎(chǔ)上,結(jié)合嶺回歸實現(xiàn)對多重共線性消除的研究目的。

        2 實驗檢測

        為驗證嶺回歸的可靠性和適用程度,提出對比實驗,將嶺回歸應(yīng)用下的多重共線性消除方法,與文獻(xiàn)提出的傳統(tǒng)消除方法進(jìn)行比較,分析不同應(yīng)用下的多重共線性消除效果。

        2.1 實驗準(zhǔn)備

        鑒于數(shù)據(jù)的可靠性和真實性,調(diào)查國家某一機(jī)構(gòu)上一年度的銷售指標(biāo),將該指標(biāo)作為參考對象,已知該指標(biāo)包含12個月份,具體數(shù)據(jù)如表4所示。

        表4 實驗測試指標(biāo)

        建立可靠度評估模型和數(shù)據(jù)預(yù)測模型,以此評估4種方法的多重共線性消除結(jié)果,可靠度模型為:

        r(x)=1-σk(w,v)

        (9)

        式中:X表示消除結(jié)果;σk表示評估標(biāo)準(zhǔn)為k時的數(shù)據(jù)允許變化量;w表示支持度;v表示滿意度。同時預(yù)測模型為:

        (10)

        公式中:γ表示共線性結(jié)果;ε表示預(yù)測限制參量;n表示預(yù)測次數(shù);φi表示共線性的有效參數(shù)。利用上述模型對應(yīng)用效果進(jìn)行檢測,分析并得出實驗結(jié)論。

        2.2 結(jié)果分析

        將嶺回歸應(yīng)用下的多重線性消除測試結(jié)果作為實驗組,將文獻(xiàn)[1]所提出的傳統(tǒng)方法應(yīng)用下的測試結(jié)果作為對照組,圖4、圖5為此次實驗測試結(jié)果。

        分析上述2組測試結(jié)果可知,嶺回歸篩除后的自變量集中分布在期望曲線2側(cè);而文獻(xiàn)[1]提出方法,剔除后的自變量仍然呈分散狀態(tài),不與期望曲線有相關(guān)性,可見所提出方法下,嶺回歸可以更好消除多重共線性,得到的回歸系數(shù)更貼合實際。

        2.3 實例比較

        設(shè)定因變量y表示中國國民總收入,自變量x1、x2、x3、x4、x5分別表示就業(yè)人員數(shù)、財政收入、能源生產(chǎn)總量、國有單位工資總額和城鎮(zhèn)集體工資總額。根據(jù)《中國統(tǒng)計年鑒》得到2010—2014年的相關(guān)數(shù)據(jù)如表5:

        表5 相關(guān)數(shù)據(jù)

        在SAS軟件上,診斷出模型中存在非常嚴(yán)重的多重共線性問題,利用本文方法和文獻(xiàn)[2]所提出的部分線性變系數(shù)模型的約束嶺估計方法分別對多重共線性進(jìn)行處理。

        利用部分線性變系數(shù)模型的約束嶺估計方法所得到的回歸方程為:

        y=-431189+6013224x1-0.18088x2

        +0.44051x3+5.69125x4-13.63786x5

        (11)

        利用本文方法所得到的回歸方程為:

        y=-305467.46+4.315x1+1.50x2+0.264x3+4.535x4+1.388x5

        (12)

        根據(jù)公式(11)可以看到方程中,自變量x2、x5的系數(shù)為負(fù),與事實不符,是由多重共線性所導(dǎo)致,因此部分線性變系數(shù)模型的約束嶺估計方法求出的回歸方程不利于模型的解釋;而公式(12)可以看出,回歸系數(shù)的符號符合實際意義,說明利用本文方法可以有效解決多重共線性問題。

        3 結(jié)語

        引入嶺回歸消除多重共線性,通過了解多重共線性的影響程度,獲取普通意義上和廣域意義上的k值,確保篩除后的自變量可以保留基本價值信息,保證回歸系數(shù)真實可靠。此次對嶺回歸的應(yīng)用分析較為復(fù)雜,計算較為困難,今后的研究可以簡化一些分析與計算過程。

        猜你喜歡
        分析方法模型
        一半模型
        隱蔽失效適航要求符合性驗證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        男女啪啪无遮挡免费网站| 97成人精品在线视频| 亚洲精品国产成人久久av| 男女猛烈xx00免费视频试看| 日韩精品人妻系列无码专区免费 | 亚洲av无码久久精品色欲| 成人性生交大片免费看r| 精品一区二区三区影片| 日韩一二三四区在线观看| 最新国产毛2卡3卡4卡| 亚洲av无码之日韩精品| 99热这里只有精品久久6| 国产成人av三级在线观看韩国 | 乌克兰少妇xxxx做受野外| 国产福利片无码区在线观看| 国产熟妇一区二区三区网站| 经典女同一区二区三区| av中文字幕一区人妻| 最新日本一道免费一区二区| 男人无码视频在线观看| 被驯服人妻中文字幕日本| 男女主共患难日久生情的古言| 西西大胆午夜人体视频| 日韩AV有码无码一区二区三区 | 国产一区二区高清不卡在线| 国产亚洲中文字幕久久网| 少妇伦子伦情品无吗| 拍摄av现场失控高潮数次| 亚洲国产精品久久久久婷婷软件| 男性av天堂一区二区| 狠狠色婷婷久久综合频道日韩| 成人区视频| 日韩一区中文字幕在线| 中文人妻av久久人妻水蜜桃| 久久不见久久见免费视频7| 国产精品自拍首页在线观看| 久久在一区二区三区视频免费观看| 国产亚洲精品久久久ai换| 日本在线观看不卡| 国产性色av一区二区| 亚洲精品久久|