亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        回歸建模的基礎與要領(Ⅲ)
        ——變量狀態(tài)與相互間關系

        2019-01-16 11:41:18胡良平
        四川精神衛(wèi)生 2018年6期
        關鍵詞:共線性因變量數(shù)量

        胡良平

        (1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)

        1 概 述

        回歸分析是研究因變量如何依賴自變量變化而變化的規(guī)律的重要統(tǒng)計分析方法之一,然而,回歸分析的基本要素涉及兩個方面,其一,變量狀態(tài)及相互間關系;其二,樣品(測定變量取值的對象)狀態(tài)及相互間關系。因篇幅所限,本文僅討論前述的“第一個要素”。

        2 變量狀態(tài)

        2.1 因變量狀態(tài)

        一般來說,可將因變量分為四種狀態(tài),即計量的、計數(shù)的、有序的(也被稱為等級的)和定性的;事實上,在實際應用中,還有一種狀態(tài),即“相異性”或“相似性”大小的度量,被稱為“非度量型數(shù)據(jù)”[1]。例如,度量100種汽車彼此兩兩之間的相似程度,可以定義一些“數(shù)字”來表示任何兩輛汽車之間的相似程度,但它們可能僅代表一種“相似程度”上的“順序關系”,并不代表“數(shù)量大小”上的“順序關系”;再比如:現(xiàn)有50種不同風味的菜肴,讓10位鑒賞家品嘗,每位鑒賞家給每種菜肴評一個分,這個“分”就被稱為“偏好得分”。各鑒賞家所評出的“偏好得分”之間是不可比的。顯然,“非度量型變量”不適合用作回歸分析中的“因變量”,但可用于“非度量型多維尺度分析”[1]或“結(jié)合分析”[2]之中。

        2.2 自變量狀態(tài)

        自變量狀態(tài)也有“計量的、計數(shù)的、有序的和定性的”四種,但從回歸模型構(gòu)建與求解的“最初理論和方法”中可隱約體察到:統(tǒng)計學的先驅(qū)者們默認自變量都是“計量的”。不知從何時開始,統(tǒng)計學上接受了“定性的自變量”,并將“二值定性自變量”賦予兩個不等的數(shù)值(通常分別取0與1),而將具有k水平的多值名義變量改造成彼此有一定聯(lián)系的(k-1)個“啞變量”(因為它們都以同一個“水平”為基準)。嚴格地說,這(k-1)個啞變量應當同時進入或剔除回歸模型,因為每一個啞變量都只利用了全部數(shù)據(jù)集中一部分“樣品或觀測”。具體來說,就是基準水平組的樣品和其對比組的樣品。

        3 自變量間相互關系

        3.1 自變量間相互獨立

        經(jīng)典統(tǒng)計學的回歸分析要求:自變量間應相互獨立。然而,在解決實際問題時,存在兩方面的困難:第一,如何方便快捷地證明給定資料中的自變量間是相互獨立的;第二,若基于專業(yè)知識和/或統(tǒng)計學知識,得知某些自變量間并非相互獨立,如何合理處置?

        3.2 自變量間有線性關系

        3.2.1 自變量間有線性關系及共線性診斷

        如何發(fā)現(xiàn)自變量間存在線性關系呢?這在統(tǒng)計學上被稱為“共線性診斷”。很多通用統(tǒng)計軟件都有這方面的功能,例如:SAS軟件的REG過程中,可用“條件數(shù)和方差分量”和/或“方差膨脹因子或容許度”[2]來實現(xiàn)共線性診斷。

        3.2.2 如何消除共線性的影響

        一般來說,當自變量間存在多重共線性時,先通過自變量篩選,可以淘汰出一些自變量,再對保留在回歸模型中的全部自變量進行共線性診斷。若此時自變量間仍存在共線性,可采取以下兩種方法消除共線性的影響:其一,采用主成分回歸分析法,即先對全部自變量進行主成分分析,再以全部主成分變量(它們之間互相獨立)為“新自變量”,創(chuàng)建因變量Y依賴新自變量的回歸模型;其二,直接采用嶺回歸分析法構(gòu)建多重線性回歸模型。采用前述兩種方法對同一個資料構(gòu)建多重線性回歸模型,發(fā)現(xiàn)嶺回歸分析優(yōu)于主成分回歸分析。因為主成分回歸分析不能克服某些回歸系數(shù)的正負號違反專業(yè)知識的弊端,而嶺回歸分析很好地解決了這個問題[3-4]。

        3.2.3 自變量間有非線性關系

        到目前為止,在進行多重回歸分析時,建模者很少考慮“自變量間有非線性關系”的問題。由基本常識可知,既然自變量間有“共線性關系”,那就可能存在“共非線性關系”。只是從統(tǒng)計學角度來看這種情況非常難以駕馭,故迄今為止,似乎尚無現(xiàn)成的統(tǒng)計模型能處理此問題。這也足以說明統(tǒng)計學遠未達到盡善盡美的程度。

        4 自變量與因變量間的關系

        4.1 自變量與因變量間無任何數(shù)量關系

        在對資料進行回歸建模之前,人們賦予資料一個“隱含假定”:自變量與因變量間存在數(shù)量聯(lián)系。至于這種聯(lián)系的密切程度是很弱、少許、中等、較強還是很強,取決于不同的自變量及因變量在全部觀測對象上的取值或表現(xiàn),需要借助統(tǒng)計學上的假設檢驗來作出推斷。然而,在實際問題中,確有一些自變量與因變量間沒有任何關系,此時,經(jīng)過假設檢驗或許還能得出:這些自變量對預測因變量的值具有統(tǒng)計學意義!如何才能發(fā)現(xiàn)這種“無中生有”的錯誤結(jié)論?

        在SAS/STAT 9.3中有一個“試驗性過程”叫做“ADAPTIVEREG”,它的含義是“適應性回歸分析過程”。該過程的“初衷”是能根據(jù)自變量與因變量的“數(shù)量表現(xiàn)”,靈活且有針對性地度量出各自變量對因變量影響的“重要性”,從而發(fā)現(xiàn)那些與因變量無關的“自變量”。然而,令人失望的是:人為設定一些與因變量無關的自變量,采用前述提及的“ADAPTIVEREG”過程建模,仍然找出了幾個“重要的自變量”。SAS程序和計算結(jié)果如下:

        data artificial;

        drop i;

        arrayX{10};

        doi=1 to 400;

        doj=1 to 10;

        X{j}=ranuni(1);

        end;

        Y=40*exp(8*((x1-0.5)**2+(x2-0.5)**2))/

        (exp(8*((x1-0.2)**2+(x2-0.7)**2))+

        exp(8*((x1-0.7)**2+(x2-0.2)**2)))+rannor(1);

        output;

        end;

        run;

        proc corr data=artificial;

        vary;

        withx3-x10;

        run;

        proc adaptivereg data=artificial;

        modely=x3-x10;

        run;

        【SAS程序說明】

        在SAS數(shù)據(jù)步中,創(chuàng)建了10個自變量x1~x10,將它們放入一個數(shù)組“X{ }”中,它們的取值為服從均勻分布的“隨機數(shù)”;創(chuàng)建了一個因變量y,它是“x1”與“x2”的曲線函數(shù),其函數(shù)的表達式見下面的式(1):

        (1)

        共有400個觀測值,即樣本含量為400。也就是說,y僅與“x1”和“x2”有曲線關系,而與“x3~x10”無關。

        在第1個SAS過程步中,進行y與“x3~x10”之間的Pearson相關分析;在第2個SAS過程步中,由“model語句”可知,試圖創(chuàng)建y依賴“x3~x10”的多重線性回歸模型。

        【SAS主要輸出結(jié)果】

        Pearson相關系數(shù),N=400 Prob>|r| under H0: Rho=0xyx30.004030.9360x40.079570.1121x50.021070.6744x6-0.001010.9839x7-0.015010.7648x80.063330.2063x90.020170.6876x10-0.031560.5291

        “x3~x10”后面均有兩行計算結(jié)果,上行代表“Pearson相關系數(shù)”、下行代表“對應的P值”。以上結(jié)果表明,y與“x3~x10”中的任何一個之間的Pearson相關系數(shù)都很小,假設檢驗的結(jié)果均無統(tǒng)計學意義,也就是說,y與“x3~x10”之間的任何一個都是互相獨立的。

        變量重要性變量基數(shù)重要性(%)x36100.00x4260.87x7242.66x8116.58

        此結(jié)果表明:在8個與因變量無關的自變量中,找出了4個比較重要的自變量,其中,x3與x4對因變量y影響的重要性分別為100.00%與60.87%。顯然,這個結(jié)論是錯誤的!若采用SAS/STAT中的“REG過程”并分別借助逐步法、后退法和前進法“篩選自變量”,其SAS過程步程序如下:

        proc reg data=artificial;

        modely=x3-x10/selection=stepwise sle=0.9 sls=0.05;

        run;

        proc reg data=artificial;

        modely=x3-x10/selection=backward sls=0.05;

        run;

        proc reg data=artificial;

        modely=x3-x10/selection=forward sle=0.05;

        run;

        【SAS輸出結(jié)果】

        上面三個過程步運行的結(jié)果相同,均沒有一個自變量被保留在回歸模型中。這個結(jié)果反映了真實的情況。

        然而,當人為假定模型中不包含截距項(在前面三個過程步的“model語句”的“/”之后加上一個選項“NOINT”)時,三個過程步運行的結(jié)果相同,其最終結(jié)果如下:

        方差分析源自由度平方和均方F值Pr>F模型45985.050001496.26250127.41<0.0001誤差3964650.41446 11.74347未校正合計40010635變量參數(shù)估計值標準誤差II型SSF 值Pr>Fx42.402450.51390256.6570721.86<0.0001x51.779450.50770144.2604712.28 0.0005x81.845100.54490134.6513511.47 0.0008x91.335680.5214177.062896.56 0.0108

        據(jù)此,可寫出4重線性回歸模型如下:

        該4重線性回歸模型的“R2=0.5627”,模型的假設檢驗結(jié)果為:F=127.41、P<0.0001,說明此模型具有統(tǒng)計學意義。

        顯然,這個結(jié)果在統(tǒng)計學上是“相當好的”;然而,它確實嚴重違背了真實情況!

        由此可知:當研究者對所研究變量之間的“真實情況”一無所知時,必須依據(jù)“基本常識”和“專業(yè)知識”作出有一定依據(jù)的“假定”,運用統(tǒng)計學的各種技術方法構(gòu)建多重回歸模型,再回到實踐中去檢驗回歸模型的實用價值。

        4.2 自變量與因變量間有間接數(shù)量關系

        在實際問題中,自變量與因變量間有間接數(shù)量關系的情形是最常見的。例如:若以正常成年人“心像面積”為因變量,以其“身高、體重、體重指數(shù)、胸圍”為自變量,則后者對前者的影響是“間接的”,而且具有一定的“數(shù)量關系”。再例如:若以正常成年人“身體健康指數(shù)(假定其存在)”為因變量,以其“血糖生化指標(如空腹血糖、餐后2小時血糖、空腹胰島素、餐后2小時胰島素、糖化血紅蛋白、胰島素抵抗指數(shù)、胰島素敏感指數(shù)等)”“血脂生化指標(甘油三脂、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、載脂蛋白α、載脂蛋白β等)”“肝功能指標(門冬氨酸氨基轉(zhuǎn)移酶、谷丙冬氨酸氨基轉(zhuǎn)移酶、谷草/谷丙、γ-谷氨酰轉(zhuǎn)肽酶、血清總蛋白、白蛋白、球蛋白、白球比、總膽紅素、直接膽紅素、間接膽紅素等)”“腎功能指標(肌酐、尿素氮、尿酸等)”“炎癥因子指標(TNF-α、IL-6、C反應蛋白、MCP-1等)”“脂肪因子指標(瘦素、脂聯(lián)素、游離脂肪酸等)”“內(nèi)毒素”“腸泌肽指標(胰高血糖素樣肽-1和葡萄糖依賴性促胰島素多肽)”“代謝組學檢測指標(胰高血糖素樣肽-1、YY肽等)”“DNA甲基化檢測指標”和“各種基因檢測指標”為自變量,則后者對前者的影響是“間接的”,而且具有一定的“數(shù)量關系”。

        類似上面的例子,在人體身心、自然界、人與自然之間,只要找出“因變量”,就有大量的“自變量”與其有間接的數(shù)量關系。

        4.3 自變量與因變量間有直接數(shù)量關系

        在現(xiàn)實問題中,自變量與因變量間有直接數(shù)量關系的情況相對較少。一個最常見的例子如下:若以“藥物種類”“劑量大小”“作用時間”和“給藥途徑”等作為自變量,而以“生物體作出的反應”為“因變量”,則自變量與因變量間存在直接數(shù)量關系;再比如,在農(nóng)業(yè)試驗研究中,若以“作物品種”“耕種方式”“土壤成分”“灌溉方式”“降雨量多少”等作為“自變量”,以“作物產(chǎn)量或品質(zhì)”作為因變量,則自變量與因變量間也有直接數(shù)量關系。

        5 討論與小結(jié)

        在研究因變量是否依賴多個自變量變化而變化的規(guī)律時,統(tǒng)計學教科書上通常都“理直氣壯”地引導使用者直接構(gòu)建“多重線性回歸模型”。由基本常識和專業(yè)知識可知,在實際問題中,可能某些自變量完全獨立于因變量,也可能某些自變量與因變量間存在著某種復雜的“曲線關系”,更多情況下,人們遺漏了很多“間接或直接”影響因變量的自變量(這正是很多試驗設計質(zhì)量不高的科研項目存在的“嚴重瑕疵”)。所以,人們最習慣使用的“多重線性回歸分析方法”,只是對變量間關系的一種“理想化、簡單化”處理方法,其結(jié)果“僅供參考”。

        比較穩(wěn)妥的做法是:第一,要力爭科研設計無懈可擊(至少要做到:對因變量可能有影響的自變量不會被遺漏);第二,有標準操作規(guī)程并按其實施科學研究;第三,有實時精準的質(zhì)量控制策略并得到嚴格落實;第四,有經(jīng)得起推敲且系統(tǒng)全面的“統(tǒng)計分析計劃”,單從“統(tǒng)計建?!狈矫鎭碚f,應先對資料進行“探索性分析”,以便對某些變量采取合適的變量變換、引入必要的“派生變量”[3-4]、采取多種可能的“統(tǒng)計模型”擬合資料,從構(gòu)建的多個高質(zhì)量回歸模型中,優(yōu)中選優(yōu);然后,將足夠大樣本量的“測試數(shù)據(jù)集(未參與回歸建模計算)”帶入求得的“最優(yōu)”回歸模型,考察其“精準程度”。僅當“精準程度”達到專業(yè)要求時,才可以使用已構(gòu)建的回歸模型去解決所研究的實際問題。

        猜你喜歡
        共線性因變量數(shù)量
        調(diào)整有限因變量混合模型在藥物經(jīng)濟學健康效用量表映射中的運用
        中國藥房(2022年7期)2022-04-14 00:34:30
        銀行不良貸款額影響因素分析
        科學與財富(2021年3期)2021-03-08 10:56:02
        文氏圖在計量統(tǒng)計類課程教學中的應用
        ——以多重共線性內(nèi)容為例
        適應性回歸分析(Ⅳ)
        ——與非適應性回歸分析的比較
        不完全多重共線性定義存在的問題及其修正建議
        統(tǒng)一數(shù)量再比較
        偏最小二乘回歸方法
        文理導航(2017年20期)2017-07-10 23:21:03
        頭發(fā)的數(shù)量
        我國博物館數(shù)量達4510家
        回歸分析中應正確使用r、R、R23種符號
        无码一区二区三区AV免费换脸| 国产桃色一区二区三区| 大尺度免费观看av网站| 国产无遮挡又爽又刺激的视频老师 | 日韩视频中文字幕精品偷拍 | 久久一区二区三区久久久| av无码一区二区三区| 又粗又硬又黄又爽的免费视频| 亚洲中文字幕无码二区在线| 精品人妻无码一区二区三区蜜桃一| 国产黄a三级三级三级av在线看| 亚洲AV秘 无套一区二区三区| 国产精品丝袜美女久久| 中国国产不卡视频在线观看 | 久久99国产综合精品| 亚洲精品久久国产高清情趣图文| 北岛玲日韩精品一区二区三区| 亚洲大尺度动作在线观看一区| 极品少妇一区二区三区四区视频| 日韩精品成人区中文字幕| 色天使综合婷婷国产日韩av| 成在人线av无码免费| 国产亚洲精品综合99久久| 高清少妇二区三区视频在线观看| 国产aⅴ无码专区亚洲av| 最近最好的中文字幕2019免费| 国产精品亚洲国产| 国产精品自拍视频免费观看| 无码伊人66久久大杳蕉网站谷歌| 成 人免费va视频| 偷亚洲偷国产欧美高清| av网站免费在线不卡| 午夜被窝精品国产亚洲av香蕉| 亚洲看片lutube在线观看| 久久国产热精品波多野结衣av | 自拍偷拍亚洲视频一区二区三区| 精品一区二区三区四区国产| 四虎影视免费永久在线观看| 无遮挡中文毛片免费观看| 日本超骚少妇熟妇视频| 浓毛老太交欧美老妇热爱乱|