亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        線性回歸模型中非正態(tài)數(shù)據(jù)的處理

        2017-07-18 11:52:49丘甜華偉平李寶銀江希鈿
        武夷學院學報 2017年6期
        關鍵詞:正態(tài)因變量正態(tài)分布

        丘甜,華偉平,李寶銀,江希鈿

        (1.武夷學院商學院,福建武夷山354300;2.武夷學院生態(tài)與資源工程學院,福建武夷山354300;3.福建江夏學院,福建福州350108;4.福建農林大學林學院,福建福州350002)

        線性回歸模型中非正態(tài)數(shù)據(jù)的處理

        丘甜1,華偉平2,李寶銀3,江希鈿4

        (1.武夷學院商學院,福建武夷山354300;2.武夷學院生態(tài)與資源工程學院,福建武夷山354300;3.福建江夏學院,福建福州350108;4.福建農林大學林學院,福建福州350002)

        為了對非正態(tài)數(shù)據(jù)進行線性回歸分析,需要對非正態(tài)數(shù)據(jù)的處理方法進行研究。在Box-Cox變換的基礎上改進的雙冪變換是一種有效的處理方法。結合Matlab軟件給出了雙冪變換下線性回歸模型中參數(shù)的極大似然估計與最小二乘估計方法,并通過實例研究顯示:雙冪變換使非正態(tài)數(shù)據(jù)服從正態(tài)分布,對于異常數(shù)據(jù)的處理有一定的效果,是數(shù)據(jù)正態(tài)變換的理想工具。

        非正態(tài)數(shù)據(jù);雙冪變換;線性回歸模型;極大似然估計;最小二乘估計

        線性回歸模型的因變量假定來源于正態(tài)分布的總體。在這一假定前提下,通常的做法是采用極大似然法或最小二乘法給出參數(shù)的估計。如果通過隨機抽樣的數(shù)據(jù)非正態(tài)分布,則會使顯著性檢驗程序是無效的,實際上估計出來的參數(shù)沒有意義,直接影響回歸分析結果。這意味著,當數(shù)據(jù)不滿足正態(tài)性假定時,可能拒絕實際上好的模型,大大地增加了統(tǒng)計推斷中所犯第一類錯誤的概率。因此,非正態(tài)數(shù)據(jù)的處理是應用線性回歸模型時需要解決的問題。

        1 處理非正態(tài)數(shù)據(jù)的常用方法

        1.1 Box-Cox變換

        在考察可觀測隨機因變量Y和自變量X之間的關系時,經常采用如下正態(tài)線性回歸模型[1-2]:

        其中β∈Rp為回歸系數(shù),ε為不可觀測隨機誤差向量。易知,模型(1)實際上需要滿足Gauss-Markov條件:Y~Nn(Xβ,σ2In)。針對所獲得的數(shù)據(jù),對其進行回歸診斷,若不滿足Gauss-Markov條件,研究者在統(tǒng)計推斷時有可能會增加犯錯誤的概率。常用的處理方式是對數(shù)據(jù)采取某種“治療”措施,其中,數(shù)據(jù)變換就是一種常用的處理非正態(tài)數(shù)據(jù)的辦法。至于采取何種變換更為有效,這取決于數(shù)據(jù)本身的特點,也成為了如今國內外統(tǒng)計學界研究的熱點問題之一。迄今為止,如下由觀測值Y到Y(λ)的Box-Cox變換[3](依賴于未知參數(shù)λ):

        式(2)是研究得最為透徹的變換。通過參數(shù)的選擇,達到對非正態(tài)數(shù)據(jù)的綜合治理。雖然Box-Cox變換具有許多優(yōu)點,但注意到

        這表明Box-Cox變換存在截斷問題,即當λ<0時,Y(λ)在-1/λ處右截斷,而λ>0時,Y(λ)是在-1/λ處左截斷的,只有在λ=0時,Y(λ)取值范圍是(-∞,+∞),從而認為Y經過變換(2)得到的f(Y,λ)是一組正態(tài)樣本是不正確的(除了λ=0這種情況)。

        1.2 雙冪變換

        為了克服Box-Cox變換中的截斷問題,諸多學者進行了研究。目前,Yang[4-5]引入了如下變換。

        變換(3)是在Box-Cox變換的基礎上進行修正而得到的一種新變換,被稱為雙冪變換。非正態(tài)數(shù)據(jù)通過雙冪變換后服從以下正態(tài)線性回歸模型:

        式中:X是已知n×p列滿秩設計陣;ε是不可觀測的n維隨機誤差向量;λ∈(-∞,+∞),β,σ2是未知參數(shù)。

        對于參數(shù)λ∈(-∞,+∞)均有g(Y,-λ)=g(Y,λ)成立,這意味著根據(jù)樣本Y=(Y1,…,Yn)T不能唯一確定模型(4)中的參數(shù)λ。因此,為了消除這種不確定性,將參數(shù)λ限制在區(qū)間[0,+∞)內。

        2 非正態(tài)數(shù)據(jù)處理下參數(shù)的估計

        2.1 極大似然估計

        由模型(4)可得未知參數(shù)λ,β,σ2基于Y=(Y1,…,Yn)T的對數(shù)似然函數(shù)為:

        其中J(Y,λ)表示變量Y(λ)=(Y1(λ),…,Yn(λ))T和Y=(Y1,…,Yn)T之間的變換Jacob行列式,其表達式為:

        當λ≥0已知時,由(5)利用熟知的正態(tài)線性回歸模型極大似然估計的結果可得知(β,σ2)的極大似然估計分別為:

        其中PX=(XTX)-1XT為一正交投影陣。將(7)式代入(5)中可得:

        這說明了參數(shù)λ∈[0,+∞)的極大似然估計是以下極值問題的解∈[0,+∞),而參數(shù)β∈Rp,σ2>0的極大似然估計分別為用Matlab中內嵌的函數(shù)fminbnd可方便地算出[6-7]。

        2.2 最小二乘估計

        最小二乘估計作為另一種參數(shù)估計方法,也經常被人們所運用。作為比較,本文同時考慮模型(4)中參數(shù)λ,β,σ2的最小二乘估計法。此時,相應的誤差平方和為:

        由此及熟知的線性回歸模型最小二乘估計的結果可得已知λ≥0時,β的最小二乘估計為:

        3 數(shù)值實驗

        在實際分析時,常??紤]多個變量,并且這些變量中有一個變量是特別關心的,稱為因變量Y,其他變量作為影響因變量的自變量(考慮三個自變量X1、X2和X3)。為了分析自變量對因變量的影響,按照隨機原則抽取了36個樣本數(shù)據(jù),如表1所示。

        表1 樣本數(shù)據(jù)Table 1 Sample data

        3.1 非正態(tài)數(shù)據(jù)診斷

        數(shù)據(jù)非正態(tài)性診斷[8-10]的常用方法是K-S檢驗。該檢驗的原假設認為總體符合正態(tài)分布。在顯著性水平取0.05時,若檢驗的P值小于0.05,則否定原假設,認為總體呈現(xiàn)非正態(tài)分布。

        通過對因變量Y進行基本統(tǒng)計分析,統(tǒng)計結果(表2)顯示K-S檢驗的P值為0.031,小于0.05,說明數(shù)據(jù)總體不符合正態(tài)分布,并且偏態(tài)系數(shù)為0.912,表現(xiàn)出一定程度的右偏,這在圖1有更直觀的表現(xiàn)。通過統(tǒng)計軟件SPSS操作,并輸出結果??梢耘袛嘣撘蜃兞渴欠钦龖B(tài)數(shù)據(jù)。因此,在進行回歸分析前必須進行數(shù)據(jù)正態(tài)性處理。

        表2 因變量Y的基本統(tǒng)計量Table 2 Basic statistics of dependent variable Y

        3.2 數(shù)據(jù)變換及正態(tài)性檢驗

        采用雙冪變換對因變量Y進行修正得到Y(λ),用極大似然法估計出變換參數(shù)λ^ML為1.128 6,用最小二乘法估計λ^LS為0.883 4。對變換的效果進行正態(tài)性檢驗。通過軟件SPSS進行基本統(tǒng)計分析,得到變換后的偏度系數(shù)及K-S檢驗結果(表3),發(fā)現(xiàn)右偏程度有所減少,且變換值能順利通過K-S檢驗。

        表3 原數(shù)據(jù)的雙冪變換及正態(tài)分布檢驗結果Table 3 The results of the dual power transformation and normal distribution of the original data

        為更直觀的反映雙冪變換下兩種估計的正態(tài)效果,給出變換后的與的正態(tài)Q-Q圖,同變換前進行比較,見圖2。

        3.3 雙冪變換后線性回歸分析

        由于線性回歸分析[11]的思路是一致的,目的在于考察變量之間的數(shù)量關系,并通過一定的數(shù)學表達式即回歸方程將關系描述出來,進而確定自變量對因變量的影響程度。以通過極大似然估計下雙冪變換后線性回歸分析為例。以Y()為因變量,X1、X2和X3為自變量進行多元線性回歸分析,具體結果見表4、表5。

        圖2 原數(shù)據(jù)與雙冪變換后數(shù)據(jù)Q-Q圖比較Figure 2 Comparison of the original data and the dual power transformation data Q-Q

        表4 方差分析Table 4 Variance analysis

        從表4中得到,模型復相關系數(shù)達到0.998,而決定系數(shù)為0.996,取得了較好的擬合優(yōu)度。檢驗回歸方程的P值為0,小于顯著性水平0.05,通過了回歸方程的顯著性檢驗,即所得到的回歸方程有統(tǒng)計學意義。

        標準回歸系數(shù)的絕對值反映了影響因變量的程度,絕對值越大,則有越大的控制。由表5可看出影響程度從大到小依次為X3、X2、X1。回歸方程為:

        表5 參數(shù)估計Table 5 Parameter estimation

        回歸系數(shù)的顯著性檢驗是要檢驗自變量對因變量的影響是否顯著。由表5可知,在顯著性水平為0.05時,三個自變量X1、X2、X3的回歸系數(shù)顯著性水平t檢驗的P值都小于0.05,所以拒絕原假設,即認為這些回歸系數(shù)和0有顯著差異。

        4 小結

        當搜集回來的樣本數(shù)據(jù)不滿足正態(tài)分布時,用線性回歸模型分析所得到的結論是不準確的。因此,需要進行非正態(tài)數(shù)據(jù)的正態(tài)變換。目前,Box-Cox變換是一種研究的最為透徹的方法之一,但存在截斷問題。而雙冪變換能夠克服截斷問題。結合Matlab軟件給出了雙冪變換下線性回歸模型中參數(shù)的極大似然估計與最小二乘估計的求法。在實例分析中,采用統(tǒng)計軟件SPSS對數(shù)據(jù)診斷其正態(tài)性后,用雙冪變換對該數(shù)據(jù)進行正態(tài)變換,結果表明雙冪變換具有較強的正態(tài)變換能力,是非正態(tài)數(shù)據(jù)正態(tài)變換的理想工具。

        [1]王桂松,史建紅.線性模型引論[M].北京:科學出版社,2004:175-178.

        [2]王松桂.線性統(tǒng)計模型:線性回歸與方差分析[M].北京:高等教育出版社,1999:1-20.

        [3]BOX G E P,COX D R.An analysis of transformation[J].Journal of the Royal Statistical Society B,2012(26):211-252.

        [4]YANG Z L.A modified family of power transformations[J].Economics Letters,2006,92(1):14-19.

        [5]YANG Z L,Anthony F.Inference for general parametric functions in Box-Cox-type transformation models[J].Canadian Journal of Statistics,2008,36(2):301-319.

        [6]張學敏.Matlab基礎及應用[M].北京:中國電力出版社,2009:201-205.

        [7]趙芳芳,賈翔宇,許作良.CIR模型參數(shù)校準的極大似然法[J].統(tǒng)計與信息論壇,2015(9):3-7.

        [8]李曉暉,袁峰,白曉宇,等.典型礦區(qū)非正態(tài)分布土壤元素數(shù)據(jù)的正態(tài)變換方法對比研究[J].地理與地理信息科學,2010(6):102-105.

        [9]莊泓剛.基于非正態(tài)分布的動態(tài)金融波動性模型研究[D].天津:天津大學,2009.

        [10]焦璨,張敏強,黃慶均,等.非正態(tài)分布測量數(shù)據(jù)對克隆巴赫信度α系數(shù)的影響[J].應用心理學,2008(3):276-281.

        [11]劉兆君.伴隨置信度的線性回歸模型[J].統(tǒng)計與信息論壇,2015(7):3-7.

        (責任編輯:葉麗娜)

        Processing of Non-normal Data in Linear Regression M odel

        QIU Tian1,HUAWeiping2,LIBaoyin3,JIANG Xidian4
        (1.School of Business,Wuyi University,Wuyishan,Fujian 354300;2.School of Ecology Resource Engineering,Wuyi University,Wuyishan,Fujian 354300;3.Fujian Jiangxia University,Fuzhou,Fujian 350108;4.School of Forestry,Fujian Agriculture and Forestry University,Fuzhou,Fujian 350002)

        In order tomake a linear regression analysis on the non-normal data,it is necessary to study the non-normal data processingmethod.Based on the Box-Cox transform,the improved dual power transformation is an effectivemethod.Themaximum likelihood estimation and least square estimation of the parameters in the linear regression model are given by the Matlab software.The case studies show that the non-normal data is subject to normal distribution with the dual power transformation,which has a certain effect on the processing of abnormal data and is an ideal tool for the normal transformation of data.

        non-normal data;dual power transformation;linear regressionmodel;maximum likelihood estimate;least squares estimation

        O212

        A

        :1674-2109(2017)06-0053-05

        2017-02-16

        南平市科技計劃項目(N2014Z01);??蒲许椖浚╔LZ201401,XL201512S);福建省生態(tài)產業(yè)綠色技術重點實驗資助項目(WYKF2017-8)。

        丘甜(1988-),女,漢族,助教,主要從事空間計量模型的統(tǒng)計推斷研究。

        江希鈿(1958-),男,漢族,教授,主要從事生物數(shù)學建模研究。

        猜你喜歡
        正態(tài)因變量正態(tài)分布
        調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
        中國藥房(2022年7期)2022-04-14 00:34:30
        適應性回歸分析(Ⅳ)
        ——與非適應性回歸分析的比較
        偏最小二乘回歸方法
        文理導航(2017年20期)2017-07-10 23:21:03
        基于對數(shù)正態(tài)分布的出行時長可靠性計算
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設檢驗
        正態(tài)分布及其應用
        基于泛正態(tài)阻抗云的諧波發(fā)射水平估計
        正態(tài)分布題型剖析
        半?yún)?shù)EV模型二階段估計的漸近正態(tài)性
        χ2分布、t 分布、F 分布與正態(tài)分布間的關系
        亚洲色图片区| 99热在线播放精品6| 一区二区三区在线免费av| 国产三级黄色大片在线免费看| 久久99国产精品久久99果冻传媒 | 午夜福利麻豆国产精品| 在线视频一区色| 久久精品国产精品亚洲婷婷| 一区二区三区日韩毛片| 亚洲av无码无线在线观看| 精产国品一二三产区m553麻豆| 国产亚洲精品自在久久蜜tv| 亚洲中文字幕第二十三页| 日韩一区av二区三区| 国产女人高潮叫床视频 | 久久国产精品超级碰碰热| 热综合一本伊人久久精品| 亚洲精品久久久久一区二区| 亚洲欧美激情精品一区二区| 亚洲欧美日韩国产一区| 亚洲成a人片在线观看高清| 免费人成网站在线视频| 香港三级午夜理论三级| 丰满少妇在线观看网站| 亚洲—本道中文字幕久久66| 精品久久精品久久精品| 国产精品国产三级国产av品爱网| 精品熟女日韩中文十区| 亚洲午夜久久久久中文字幕| 国产中文字幕一区二区视频| 久久无码潮喷a片无码高潮| 久久久www成人免费精品| 无码一级视频在线| 亚洲成在人网站天堂日本| 国产青青草在线观看视频| 中文字幕aⅴ人妻一区二区| 亚洲红怡院| 精品人妻一区二区视频| 国产亚洲精品综合一区| 少妇特黄a一区二区三区| 精品无码人妻久久久一区二区三区|