谷恒明,胡良平,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
簡(jiǎn)單線性回歸分析及其應(yīng)用
谷恒明1,胡良平1,2*
(1.軍事醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
本文目的是介紹簡(jiǎn)單線性回歸分析的前提條件、種類、實(shí)現(xiàn)計(jì)算的SAS程序及結(jié)果解釋,并說(shuō)明數(shù)據(jù)是否值得做直線回歸分析以及如何選擇正確的直線回歸分析類型。簡(jiǎn)單線性回歸分析有三種具體情形,分別是:簡(jiǎn)單直線回歸分析、加權(quán)直線回歸分析和具有重復(fù)試驗(yàn)的直線回歸分析。進(jìn)一步通過(guò)實(shí)例來(lái)闡述如何進(jìn)行不同的簡(jiǎn)單線性回歸分析,并給出實(shí)現(xiàn)這些直線回歸分析所需要的SAS程序及輸出結(jié)果。
簡(jiǎn)單線性回歸分析;SAS程序;加權(quán)直線回歸分析;重復(fù)試驗(yàn)的線性回歸分析
*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
簡(jiǎn)單線性回歸分析是研究?jī)啥孔兞恐g依存變化關(guān)系的一種最常用最簡(jiǎn)單的方法。如何正確實(shí)現(xiàn)簡(jiǎn)單線性回歸分析,需要考察以下兩組前提條件。
第一組前提條件,即從數(shù)理統(tǒng)計(jì)學(xué)角度考量所歸納出來(lái)的前提條件[1]:①自變量X可以是普通變量,也可以是隨機(jī)變量,但因變量Y必須是隨機(jī)變量;②線性,即因變量Y與自變量X之間的關(guān)系為線性關(guān)系,在直角坐標(biāo)系內(nèi)繪制關(guān)于X與Y的散點(diǎn)圖,可以看出線性關(guān)系;③獨(dú)立性,即各個(gè)觀察對(duì)象之間必須是相互獨(dú)立的;④正態(tài)性,即給定X的取值后,Y服從正態(tài)分布;⑤等方差性,即不同X值對(duì)應(yīng)的Y的分布具有相同的方差。
第二組前提條件,即從基本常識(shí)角度考量所歸納出來(lái)的前提條件:①對(duì)于兩個(gè)定量變量而言,所有受試對(duì)象應(yīng)具有同質(zhì)性;②所研究的兩個(gè)定量變量在專業(yè)上應(yīng)具有一定的聯(lián)系;③在直角坐標(biāo)系中繪制(X,Y)的全部散點(diǎn),全部散點(diǎn)應(yīng)呈現(xiàn)直線變化趨勢(shì);④散點(diǎn)圖上不存在下列兩類可疑的異常點(diǎn),第一類,在垂直于橫坐標(biāo)軸方向上的可疑異常點(diǎn),第二類,在假定的理想直線的左右兩端的延長(zhǎng)線方向上的可疑異常點(diǎn)。
事實(shí)上,上述的第二組前提條件更有實(shí)用價(jià)值,它也是進(jìn)行簡(jiǎn)單直線回歸分析的基本步驟。在此基礎(chǔ)上,再計(jì)算直線回歸方程中的參數(shù)并對(duì)參數(shù)進(jìn)行假設(shè)檢驗(yàn);最后,再將所獲得的簡(jiǎn)單直線回歸方程用于“預(yù)測(cè)(給定自變量的數(shù)值去計(jì)算因變量的取值)”或“控制(給定因變量的取值去估算自變量的變化范圍)”。
簡(jiǎn)單直線回歸模型為:
y=α+βx+ε
(1)
簡(jiǎn)單線性回歸分析的任務(wù):其一,估計(jì)式(1)中參數(shù)α和β的數(shù)值;其二,假設(shè)檢驗(yàn),包括對(duì)截距、斜率和整個(gè)直線回歸方程的檢驗(yàn)。
【例1】研究20名兒童的血紅蛋白(y)與血鐵(x)之間的關(guān)系[2],數(shù)據(jù)見(jiàn)表1。
【分析與解答】對(duì)表1資料進(jìn)行簡(jiǎn)單直線回歸分析所需要的SAS程序如下:
data jz; input n y x@@; cards;
113.5518.7213467.3311469.8414.3456.6512.5448.7612.5424.1
711.8405.6811.5446911416.71010.7430.81110.2409.81210384.1139.5356.3149.4388.6158.8325.9166.3292.8177.3332.8187.8283197.3312.5207294.7
; run;
proc gplot data=jz; plot x*y='s'; run;
proc reg data=jz; model y=x/noint; run;
圖1 20名兒童的血紅蛋白(y,mg/dL)與血鐵(x,ug/dL)的散點(diǎn)圖
簡(jiǎn)單直線回歸分析的假設(shè)檢驗(yàn)結(jié)果見(jiàn)表2、表3。
表2 方差分析
表3 參數(shù)估計(jì)
所謂經(jīng)驗(yàn)決策是決策者憑借經(jīng)驗(yàn)制定決策的活動(dòng)和過(guò)程,[7]經(jīng)驗(yàn)決策主要的推理過(guò)程是邏輯學(xué)中的類比推理,其最為主要的推理過(guò)程是:
醫(yī)學(xué)或藥學(xué)試驗(yàn)中經(jīng)常需要計(jì)算引起試驗(yàn)動(dòng)物總體中半數(shù)動(dòng)物產(chǎn)生某種反應(yīng)所需的藥物(或毒物)劑量,即半數(shù)有效量,需要使用到加權(quán)直線回歸分析[1]。
【例2】SAS 9.3幫助文檔中Probit過(guò)程中第一個(gè)例子,研究不同劑量藥物下小鼠反應(yīng)數(shù)。數(shù)據(jù)見(jiàn)表4。
表4 不同劑量藥物下小鼠反應(yīng)數(shù)
注:dose代表劑量,n代表每個(gè)劑量組的動(dòng)物數(shù),response代表每個(gè)劑量組的陽(yáng)性反應(yīng)動(dòng)物數(shù)
【分析與解答】對(duì)表4資料進(jìn)行加權(quán)直線回歸分析所需要的SAS程序如下:
data a; input Dose N Response @@; datalines;
11012122310441055128610871010
;
run;
output out=B p=Prob std=std xbeta=xbeta; run;
參數(shù)估計(jì)結(jié)果見(jiàn)表5。
表5 參數(shù)估計(jì)
所求得該藥物的半數(shù)反應(yīng)劑量為3.39096。見(jiàn)表6。
表6 半數(shù)反應(yīng)劑量
在同一試驗(yàn)條件下進(jìn)行多次重復(fù)試驗(yàn),研究因變量與自變量之間是否存在直線關(guān)系時(shí)可以用具有重復(fù)試驗(yàn)的直線回歸分析。
具有重復(fù)試驗(yàn)的直線回歸分析與無(wú)重復(fù)試驗(yàn)的直線回歸分析的區(qū)別在于:前者可以對(duì)“失擬(即直線回歸方程所不能解釋的那部分信息)”進(jìn)行假設(shè)檢驗(yàn),僅當(dāng)“失擬”的檢驗(yàn)結(jié)果無(wú)統(tǒng)計(jì)學(xué)意義時(shí),可將其視為無(wú)重復(fù)試驗(yàn)的情形,但試驗(yàn)點(diǎn)數(shù)為不同X值個(gè)數(shù)乘以重復(fù)試驗(yàn)次數(shù)(各X值對(duì)應(yīng)的重復(fù)試驗(yàn)次數(shù)相等);否則,應(yīng)選擇合適的曲線類型,進(jìn)行曲線回歸分析。
【例3】研究不同血液濃度與血紅蛋白含量之間的關(guān)系[1]。數(shù)據(jù)見(jiàn)表7。
表7 不同血液濃度下血紅蛋白的測(cè)定值
【分析與解答】 對(duì)表7資料進(jìn)行具有重復(fù)試驗(yàn)的直線回歸分析所需要的SAS程序如下:
data b; input x n@@; g=_n_; do i=1 to n; input y@@; output; end; cards;
1033.23.13.32036.26.26.23039.29.39.240312.312.412.250315.615.215.460318.318.218.370321.121.321.380323.923.823.790326.526.426.4100329.029.128.9
;
run;
proc glm data=b; class g;model y=x g/ss1; run;
proc reg data=b; model y=x; run;
具有重復(fù)試驗(yàn)的直線回歸分析較簡(jiǎn)單直線回歸分析多了失擬檢驗(yàn),目的是考察僅采用直線回歸方程是否可以較好地?cái)M合給定的資料。失擬檢驗(yàn)的結(jié)果見(jiàn)表8。
表8 本例資料的失擬檢驗(yàn)結(jié)果
在表8中,只需看最后一行,對(duì)分組變量g(它在本質(zhì)上就是自變量不同取值的個(gè)數(shù))進(jìn)行檢驗(yàn)即可,這里F=29.57,P<0.0001,說(shuō)明失擬平方和基本上是由模型分組因素造成,也就是說(shuō),該資料未通過(guò)失擬檢驗(yàn),不能直接擬合簡(jiǎn)單直線回歸方程,而需要根據(jù)散點(diǎn)圖中全部散點(diǎn)的分布趨勢(shì)和形態(tài),選定合適的曲線類型并擬合之。
究竟如何進(jìn)一步處理此資料,請(qǐng)讀者閱讀完本期中的下一篇文章《簡(jiǎn)單曲線回歸分析及其應(yīng)用》后,自己去把它完成。提示:若采用二次拋物線、對(duì)數(shù)函數(shù)曲線、指數(shù)函數(shù)曲線或冪函數(shù)曲線來(lái)分別擬合本例資料,從模型的假設(shè)檢驗(yàn)的F值和復(fù)相關(guān)系數(shù)平方(即R2)的數(shù)值越大越好以及殘差圖中散點(diǎn)分布情況(全部散點(diǎn)在殘差為0的水平線上下隨機(jī)波動(dòng)且無(wú)明顯變化趨勢(shì)為好)來(lái)全面考量,相對(duì)來(lái)說(shuō),本例資料擬合二次拋物線最好。
[1] 胡良平.科研設(shè)計(jì)與統(tǒng)計(jì)分析[M].北京: 軍事醫(yī)學(xué)科學(xué)出版社, 2012:381-400.
[2] 徐天和, 柳青.中國(guó)醫(yī)學(xué)統(tǒng)計(jì)百科全書(shū) 多元統(tǒng)計(jì)分冊(cè)[M].北京: 人民衛(wèi)生出版社, 2004: 2.
Simplelinearregressionanalysisanditsapplication
GuHengming1,HuLiangping1,2*
(1.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;2.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China
The aim of this article is to introduce the preconditions, categories, SAS programs and the results interpretation of the simple linear regression analysis to illustrate how to choose the correct regression model and whether the data is worth regression analysis. There are three kinds of simple linear regression analyses: simple linear regression analysis, weighted linear regression analysis and repeated experimental linear regression analysis. The following examples are used to illustrate different simple linear regression analyses and the corresponding SAS programs required to perform these linear regression analyses and their results.
Simple linear regression analysis; SAS Program; Weighted linear regression analysis; Repeated experimental linear regression analysis
國(guó)家高技術(shù)研究發(fā)展計(jì)劃課題資助(2015AA020102)
R195.1
A
10.11886/j.issn.1007-3256.2017.06.002
2017-12-03)
陳 霞)