施紅英,陳常中,毛廣運(yùn),黃陳平,楊新軍
(1.溫州醫(yī)科大學(xué) 公共衛(wèi)生與管理學(xué)院預(yù)防醫(yī)學(xué)系,浙江 溫州 325035;2.美國哈佛大學(xué)醫(yī)學(xué)院Dana.Farber癌癥研究所,馬薩諸塞州 02115)
基于EmpowerStats的混雜因素篩選及其校正方法
施紅英1,陳常中2,毛廣運(yùn)1,黃陳平1,楊新軍1
(1.溫州醫(yī)科大學(xué) 公共衛(wèi)生與管理學(xué)院預(yù)防醫(yī)學(xué)系,浙江 溫州 325035;2.美國哈佛大學(xué)醫(yī)學(xué)院Dana.Farber癌癥研究所,馬薩諸塞州 02115)
目的:介紹和演示一種新的混雜因素篩選和校正方法。方法:從原理簡(jiǎn)介、實(shí)例講解、軟件操作多角度全面介紹如何根據(jù)粗效應(yīng)值和調(diào)整效應(yīng)值的變化實(shí)現(xiàn)混雜因素的篩選以及獨(dú)立效應(yīng)評(píng)價(jià)。結(jié)果:EmpowerStats統(tǒng)計(jì)軟件能夠按照一定的標(biāo)準(zhǔn),科學(xué)、簡(jiǎn)便地實(shí)現(xiàn)混雜因素的識(shí)別、篩選及其控制,得到對(duì)效應(yīng)值的最優(yōu)估計(jì),優(yōu)于傳統(tǒng)的逐步回歸法。結(jié)論:基于效應(yīng)估計(jì)值的改變進(jìn)行混雜因素的識(shí)別和篩選,可以更合理地獲得研究因素的效應(yīng)估計(jì)值。
混雜因素;偏倚;協(xié)變量;統(tǒng)計(jì)學(xué)
眾所周知,一種疾病的預(yù)后、一個(gè)藥物的療效、一項(xiàng)指標(biāo)的大小往往是多因素共同作用的結(jié)果。當(dāng)研究某因素(x)與結(jié)局變量(y)之間的關(guān)聯(lián)性或研究某因素(x)對(duì)于結(jié)局變量(y)的效應(yīng)大小時(shí),由于某個(gè)既與y有關(guān),又與x有關(guān)的其他因素(z)的影響,扭曲(夸大、縮小甚至掩蓋)了x與y之間的關(guān)系,這種現(xiàn)象就稱為混雜(confounding),因此而產(chǎn)生的系統(tǒng)誤差稱為混雜偏倚(confounding bias),而引起該混雜偏倚的因素(z)為混雜因素(confounding factor)。簡(jiǎn)單地說,混雜因素就是會(huì)扭曲疾病和暴露之間的關(guān)聯(lián)性或扭曲某研究因素效應(yīng)大小的所有因素[1]。例如,在比較不同治療方案(x)的治療效果(y)時(shí),如果不同治療組之間病情、年齡等z變量不均衡,就會(huì)導(dǎo)致兩組之間的療效比較存在問題。所以,混雜因素是必須盡量避免和控制的,否則其研究結(jié)果可能是有偏甚至是錯(cuò)誤的。
然而,有學(xué)者對(duì)具有同行評(píng)議的英文醫(yī)學(xué)期刊中10萬余篇觀察性研究論文進(jìn)行分析,發(fā)現(xiàn)僅9%的論文提及混雜評(píng)估問題,即便是一些最為權(quán)威的醫(yī)學(xué)期刊,該比例也只有40%[2]??梢姡祀s因素的識(shí)別和控制還是一個(gè)被學(xué)術(shù)界忽視的統(tǒng)計(jì)學(xué)問題。隨著大數(shù)據(jù)時(shí)代的到來和臨床研究的日益增多,尤其是基于真實(shí)世界的觀察性臨床研究數(shù)量的激增,混雜因素的識(shí)別和控制方法成為流行病學(xué)和統(tǒng)計(jì)學(xué)研究熱點(diǎn)之一。如何快速、有效地識(shí)別和篩選需要控制的混雜因素,進(jìn)而更加客觀科學(xué)地評(píng)價(jià)某治療方案的療效或某因素對(duì)于結(jié)局變量的效應(yīng),成為很多臨床醫(yī)師或科研工作者統(tǒng)計(jì)分析時(shí)遇到的最棘手問題之一。
假設(shè)我們要研究x對(duì)于y的影響,是否需要調(diào)整若干個(gè)z的影響呢?一般地,我們會(huì)先進(jìn)行單因素分析,然后基于各個(gè)z因素與y變量是否有關(guān)系即P是否小于0.05決定是否需要調(diào)整該z變量。該方法存在兩個(gè)問題:①z和y的關(guān)系受到其他因素的混雜作用,不一定是他們的真實(shí)關(guān)系;②P值會(huì)受到樣本量或者說檢驗(yàn)效能的影響,樣本量大得到的P值就會(huì)小,反之P值就會(huì)大。
第二種做法,很多科研人員會(huì)直接采用逐步回歸法,將最后留下來的所有變量所組成的回歸模型中x的效應(yīng)值,直接作為其對(duì)于y的獨(dú)立效應(yīng)值。這樣的做法也是不科學(xué)的。比如,一個(gè)數(shù)據(jù)庫中有1個(gè)y、5個(gè)x,通過后退法依次得到下面3個(gè)多重線性回歸方程,表1中數(shù)據(jù)表示的是3個(gè)方程中各個(gè)x的偏回歸系數(shù)及其可信區(qū)間和P值。
表1 3個(gè)回歸方程中各個(gè)x的效應(yīng)值[ b(95%CI)P]
根據(jù)后退法,首先納入所有5個(gè)x擬合方程一,發(fā)現(xiàn)x1無統(tǒng)計(jì)學(xué)意義且P值最大,因此剔除x1,得到方程二;方程二中,x4無統(tǒng)計(jì)學(xué)意義且P值最大,所以又剔除x4,得到方程三;剩下的3個(gè)自變量全部有統(tǒng)計(jì)學(xué)意義,這是后退法最終得到的結(jié)果。據(jù)此,如果研究目的是分析x3對(duì)于y的作用,那么其獨(dú)立效應(yīng)的最終分析結(jié)果就是0.36(此時(shí)調(diào)整了x2和x5的混雜效應(yīng))。
但是,仔細(xì)考察3個(gè)方程會(huì)發(fā)現(xiàn),在調(diào)整x4前后,x3的偏回歸系數(shù)變化很大,這是為什么?由于x3與x4關(guān)系較大,不調(diào)整x4,x4的作用就加到x3身上去了;調(diào)整了x4,就是把x4的作用從x3中剝離出來,這時(shí)看到x3的偏回歸系數(shù)就變小了。所以,如果分析目的是確定x3對(duì)y的作用,就應(yīng)該選方程二,因?yàn)榉匠潭械钠貧w系數(shù)更確切地表達(dá)了x3對(duì)y的作用;而不能因?yàn)閤4的P值大于α,就不調(diào)整x4,因?yàn)镻值會(huì)受到樣本量的影響。
因此,目前一些研究認(rèn)為,在分析x對(duì)于y的效應(yīng)時(shí),是否調(diào)整潛在混雜變量z的作用,其更合理的做法應(yīng)該是根據(jù)調(diào)整各個(gè)z變量前后看x對(duì)于y的效應(yīng)值是否發(fā)生了足夠大(通常是10%)的改變[3]。這里,我稱之為基于效應(yīng)值改變的協(xié)變量篩選方法。該方法已在The New England Journal of Medicine、BMJ等權(quán)威期刊中使用[4-5],并得到大家一致認(rèn)可。
如何基于效應(yīng)值改變進(jìn)行協(xié)變量篩選呢?我們可以分兩步進(jìn)行分析。步驟1,運(yùn)行基本模型即然后在基本模型中引入待考察的zi得到模型步驟2,運(yùn)行完整模型即然后在完整模型中剔除zi得到模型
分別根據(jù)兩個(gè)步驟中效應(yīng)估計(jì)值b1到b1’的變化,決定是否需要調(diào)整zi的作用。但是,x的兩個(gè)效應(yīng)估計(jì)值之間變化到多大才能判為混雜、才需要控制呢?不同文獻(xiàn)采用的標(biāo)準(zhǔn)略有不同,多數(shù)研究以效應(yīng)值改變大于10%為標(biāo)準(zhǔn)[6],也有研究以改變大于5%為標(biāo)準(zhǔn)[5]。
然而,在實(shí)際醫(yī)學(xué)科研數(shù)據(jù)中,需要篩選的z變量往往比較多,此時(shí)需要按照上述步驟依次判斷各變量引入模型前后效應(yīng)估計(jì)值的改變情況,其工作量和難度很大。尤其是采用傳統(tǒng)統(tǒng)計(jì)軟件比如SPSS、SAS等實(shí)現(xiàn)上述過程的篩選和判定,過程較為復(fù)雜,并且容易出錯(cuò),更是非統(tǒng)計(jì)專業(yè)人員難以完成的。
基于數(shù)據(jù)分析思路而設(shè)計(jì)開發(fā)的EmpowerStats軟件,可以采用菜單對(duì)話框式操作,非常方便地根據(jù)上述標(biāo)準(zhǔn)自動(dòng)篩選出這些需要控制的混雜因素,為后續(xù)多因素分析及獨(dú)立效應(yīng)評(píng)價(jià)提供基礎(chǔ)。該軟件中的“協(xié)變量檢查與篩選”模塊,專門用于篩選哪些協(xié)變量應(yīng)該包括在回歸模型中進(jìn)行調(diào)整、控制,解決了上述難題。其分析結(jié)果主要包括:①逐個(gè)查看各個(gè)協(xié)變量和y的關(guān)系,看P是否小于檢驗(yàn)水準(zhǔn)α;②調(diào)整與不調(diào)整這些因素情況下x對(duì)于y的效應(yīng)值有何改變;③匯總在分析x對(duì)y的效應(yīng)時(shí)需要調(diào)整哪些z因素的作用。
案例:為了研究川崎病(Kawasaki diseaes,KD)疾病類型(1=不完全KD,0=完全KD)對(duì)于患者預(yù)后y即冠狀動(dòng)脈損害(coronaryartery lesions,CAL)(1=有,0=無)的獨(dú)立效應(yīng),課題組記錄了近6年共930例患者的疾病類型和CAL情況,同時(shí)還收集了月齡、性別(1=男,0=女)、分娩方式(1=自然分娩,2=剖宮產(chǎn))、體質(zhì)量指數(shù)(body mass index,BMI)(kg/m2)、治療時(shí)機(jī)(1=延誤治療,0=及時(shí)治療)、治療前CA(1=是,0=否)、血鈉(1=低,2=高)等7個(gè)變量信息?,F(xiàn)擬篩選其中哪些變量是需要控制的,并在此基礎(chǔ)上估計(jì)KD類型對(duì)于CAL的獨(dú)立效應(yīng)。
軟件操作:在EmpowerStats軟件的主界面中,選擇“數(shù)據(jù)分析”菜單下的“協(xié)變量檢查與篩選”模塊,按照?qǐng)D1設(shè)置好結(jié)局變量、暴露因素和擬篩查的協(xié)變量,點(diǎn)擊“查看結(jié)果”按鈕即可。
軟件會(huì)自動(dòng)采用兩種方法對(duì)協(xié)變量進(jìn)行篩查:①逐個(gè)分析協(xié)變量與y的關(guān)系;②在基本模型中引進(jìn)協(xié)變量與在完整模型中剔除協(xié)變量,觀察x的偏回歸系數(shù)的變化。隨后列出詳細(xì)分析結(jié)果。
最后,軟件會(huì)根據(jù)兩種標(biāo)準(zhǔn)匯總篩選出協(xié)變量。本例,根據(jù)標(biāo)準(zhǔn)1即基于效應(yīng)值改變篩選出來的變量有:月齡、治療時(shí)機(jī)、治療前CA、血鈉;而根據(jù)標(biāo)準(zhǔn)2即基于效應(yīng)值改變結(jié)合單因素分析結(jié)果篩選出來的變量有:月齡、性別、BMI、治療時(shí)機(jī)、治療前CA、血鈉。
篩選好協(xié)變量后,我們可以采用該軟件“數(shù)據(jù)分析”菜單下的“多個(gè)回歸方程”模塊,根據(jù)前述分析結(jié)果結(jié)合既往研究和專業(yè)知識(shí)設(shè)置調(diào)整不同協(xié)變量組合下的各種模型,分析查看x對(duì)于y的獨(dú)立效應(yīng),結(jié)果見表2。
圖1 協(xié)變量檢查與篩選主界面
表2 多個(gè)回歸方程分析KD類型對(duì)于CAL的獨(dú)立效應(yīng)
軟件自動(dòng)列出了三種模型中x對(duì)于y的效應(yīng)分析結(jié)果。可見,在不調(diào)整任何協(xié)變量或只調(diào)整年齡和性別的情況下,KD類型的OR值都大于1,而且有統(tǒng)計(jì)學(xué)意義,不完全KD發(fā)生CAL風(fēng)險(xiǎn)高于完全KD;但是當(dāng)調(diào)整治療時(shí)機(jī)、治療前CA等其他混雜因素后,KD類型對(duì)于CAL的獨(dú)立效應(yīng)變得無統(tǒng)計(jì)學(xué)意義了。而表2也正是很多SCI論文中核心結(jié)果的表達(dá)方式。
值得一提的是,EmpowerStats軟件會(huì)自動(dòng)根據(jù)y變量的類型,選擇相應(yīng)的回歸模型并估計(jì)x的效應(yīng)量。比如本例中y為是否發(fā)生CAL即二分類變量,所以軟件選擇的是logistic回歸模型,得到的效應(yīng)估計(jì)值是OR值及其可信區(qū)間。如果y是定量變量,軟件自動(dòng)選擇多重線性回歸模型,并呈現(xiàn)偏回歸系數(shù)及其可信區(qū)間。如果y是生存資料即包括結(jié)局和生存時(shí)間,則軟件會(huì)自動(dòng)選擇Cox回歸模型,并呈現(xiàn)危險(xiǎn)比(hazard ratio,HR)及其可信區(qū)間等分析結(jié)果,非常靈活方便。
一項(xiàng)好的科學(xué)研究,首先在科研設(shè)計(jì)時(shí),就必須明確研究中的結(jié)局變量y和重點(diǎn)關(guān)注的研究因素x,也就是要有一個(gè)明確的科研假設(shè),比如體育鍛煉是否會(huì)影響血壓值、經(jīng)常飲酒是否會(huì)導(dǎo)致脂肪肝、某個(gè)基因多態(tài)性是否會(huì)影響一個(gè)疾病的發(fā)生等,這是開展一項(xiàng)研究的首要前提,也是科研設(shè)計(jì)或復(fù)習(xí)文獻(xiàn)時(shí)非常關(guān)鍵的第一步[7],決定研究設(shè)計(jì)的類型和統(tǒng)計(jì)分析方法。有了研究假設(shè)之后,不管你采用的是病例對(duì)照研究、隊(duì)列研究還是實(shí)驗(yàn)研究,接下來的第二個(gè)關(guān)鍵點(diǎn),就是要盡可能全面地考慮所有潛在的混雜因素,特別是既往研究已經(jīng)發(fā)現(xiàn)的重要混雜因素,以免造成結(jié)果無法解釋等局面。這是進(jìn)行科研假設(shè)探索或驗(yàn)證性研究中首先要樹立起來的意識(shí)。然后,才是想方設(shè)法控制和減少這些混雜因素的影響,可以在設(shè)計(jì)和分析階段分別進(jìn)行控制。
首先,在設(shè)計(jì)階段,我們可以采用限制、匹配和隨機(jī)化分組等方法避免或減少混雜因素的影響。例如,為了研究吸煙對(duì)于肺癌的影響,我們只選擇男性作為研究對(duì)象,就可以控制性別的混雜效應(yīng)。但是這種方法會(huì)導(dǎo)致研究對(duì)象的代表性受限制,研究結(jié)論的外推性受影響。再比如,為了研究A型行為模式對(duì)于心梗的影響,選擇340例心梗患者作為病例組,同時(shí)選擇與之年齡、性別和社區(qū)相同的340例無心梗者作為對(duì)照組,進(jìn)行病例對(duì)照研究,就可以消除年齡、性別和社區(qū)不同導(dǎo)致的混雜效應(yīng),提高檢驗(yàn)效率;但是也失去了分析該因素的機(jī)會(huì),不僅不能分析該因素的單獨(dú)效應(yīng),也無法分析該因素和其他因素之間的交互作用。所以,要注意避免匹配過度。此外,在實(shí)驗(yàn)研究中,我們通常采用隨機(jī)分組的方法,使得研究對(duì)象具有同等的機(jī)會(huì)被分到各個(gè)處理組,從而讓一些潛在的混雜因素或主要非處理因素在各組間分布均衡。不過,這三種方法通常只能控制少數(shù)混雜因素的干擾。而在醫(yī)學(xué)研究中,尤其是大數(shù)據(jù)時(shí)代的到來,臨床研究的題目越來越大,涉及的混雜因素也越來越多,如果研究者設(shè)計(jì)時(shí)未考慮和收集一些重要的混雜因素,其研究質(zhì)量就會(huì)大打折扣。在既往很多醫(yī)學(xué)論文的審稿過程中以及諸多醫(yī)務(wù)人員科研數(shù)據(jù)的統(tǒng)計(jì)咨詢中,我們發(fā)現(xiàn),國內(nèi)很多醫(yī)務(wù)人員往往忽視了混雜因素尤其是重要混雜因素的收集。
其次,如果設(shè)計(jì)階段已經(jīng)考慮并收集了可能的混雜因素,那么混雜因素的校正和控制問題就進(jìn)入了數(shù)據(jù)分析階段。此時(shí),混雜因素的控制方法可謂是多種多樣,經(jīng)典的方法包括分層分析、協(xié)方差分析、標(biāo)準(zhǔn)化法、多因素回歸模型等。近些年又逐步興起一些新的協(xié)變量控制方法,比如傾向性評(píng)分法(propensity score,PS)[8-11]、工具變量[12]等,但多適用于統(tǒng)計(jì)學(xué)專業(yè)人員,不能被臨床醫(yī)師等廣泛使用。所以,分層分析和多因素回歸模型依然是目前最為常用、最容易理解的控制混雜因素的方法。分層分析,就是將資料按照擬控制的混雜因素進(jìn)行分層,然后估計(jì)某暴露因素和疾病之間關(guān)聯(lián)性或評(píng)價(jià)某處理因素的效應(yīng)大小。如果各層間研究因素與疾病間的關(guān)聯(lián)性一致,即不存在交互作用,計(jì)算調(diào)整的效應(yīng)值即可;如果各層間研究因素與疾病間的關(guān)聯(lián)性不一致,即存在交互作用,則后續(xù)的分析都應(yīng)該按此分層因素分別進(jìn)行分析,也就是要分析單獨(dú)效應(yīng)。分層分析容易理解和實(shí)現(xiàn),是論文中控制混雜的最常用方法之一[13];但是,分層分析不能得到一個(gè)總的x對(duì)于y的獨(dú)立效應(yīng),而這又是很多研究中需要的核心結(jié)果,此時(shí)多因素回歸模型成為最重要的替代方法。但是,如前所述,既往人們?cè)谑褂枚嘁蛩鼗貧w模型進(jìn)行混雜的控制時(shí)存在一定誤區(qū),導(dǎo)致其往往沒有用好、用巧回歸模型。
最后,為了更有效地控制混雜因素,還需要特別注意混雜變量尤其是定量的混雜變量引入模型的方法。假設(shè)年齡是混雜因素,是直接將年齡作為定量變量引入模型?還是將年齡分組后作為等級(jí)變量引入模型?或者分類后作為啞變量引入模型?甚至是否需要將年齡的二次項(xiàng)引入模型?都需要考慮各個(gè)混雜變量與結(jié)局變量的關(guān)聯(lián)形態(tài)等進(jìn)行綜合確定,而不是隨意引入模型:當(dāng)年齡對(duì)結(jié)局變量的影響是線性時(shí),可直接引入模型;但是如果年齡對(duì)于結(jié)局指標(biāo)的影響是U型趨勢(shì)或不同年齡組對(duì)于結(jié)局的影響不等比例增加時(shí),則可能需要將其分組后作為啞變量形式引入模型,甚至引入二次項(xiàng)納入模型[14]。
在多因素回歸模型中,采用基于“效應(yīng)估計(jì)值改變量的方法”對(duì)潛在混雜因素進(jìn)行篩選和控制,彌補(bǔ)了傳統(tǒng)方法的不足,不失為較好的混雜因素控制方法之一。本研究詳細(xì)介紹了該方法的原理以及采用EmpowerStats軟件實(shí)現(xiàn)協(xié)變量篩選的具體操作過程,簡(jiǎn)單、實(shí)用,彌補(bǔ)了傳統(tǒng)方法單純依賴于P值或逐步回歸法篩選混雜因素的局限性,從而使研究中的效應(yīng)估計(jì)值更加科學(xué)和準(zhǔn)確;而且該軟件無需編寫程序,只需菜單對(duì)話框式操作,并根據(jù)y變量類型自動(dòng)選擇統(tǒng)計(jì)模型和效應(yīng)量,直觀方便,可以說是科研人員尤其是臨床醫(yī)生在科學(xué)研究中實(shí)現(xiàn)混雜因素篩選和校正的優(yōu)選軟件。
[1] KROUSEL-WOOD M A, CHAMBERS R B, MUNTNER P. Clinicians’ guide to statistics for medical practice and research: Part II[J]. Ochsner J, 2007, 7(1): 3-7.
[2] GROENWOLD R H, HOES A W, HAK E. Confounding in publications of observational intervention studies[J]. Eur J Epidemiol, 2007, 22 (7): 413-415.
[3] LEE P H. Is a cutoff of 10% appropriate for the change-inestimate criterion of confounder identi fi cation?[J]. J Epidemiol, 2014, 24(2): 161-167.
[4] KERNAN W N, VISCOLI C M, BRASS L M, et al. Phenylpropanolamine and the risk of hemorrhagic stroke[J]. N Engl J Med, 2000, 343(25): 1826-1832.
[5] BAGLIETTO L, ENGLISH D R, GERTIG D M, et al. Does dietary folate intake modify effect of alcohol consumption on breast cancer risk? Prospective cohort study[J]. BMJ, 2005, 331(7520): 807-810.
[6] LIU T, DAVID S P, TYNDALE R F, et al. Associations of CYP2A6 genotype with smoking behaviors in southern China[J]. Addiction, 2011, 106(5): 985-994.
[7] KROUSEL-WOOD M A, CHAMBERS R B, MUNTNER P. Clinicians’ guide to statistics for medical practice and research: part I[J]. Ochsner J, 2006, 6(2): 68-83.
[8] 趙曉蒙, 李炳海, 王素珍, 等. 經(jīng)傾向指數(shù)匹配后的gp方案與np方案治療非小細(xì)胞肺癌的療效評(píng)價(jià)[J]. 中國衛(wèi)生統(tǒng)計(jì), 2014, 31(1): 34-36.
[9] 王永吉, 蔡宏偉, 夏結(jié)來, 等. 傾向指數(shù)第一講傾向指數(shù)的基本概念和研究步驟[J]. 中華流行病學(xué)雜志, 2010, 31 (3): 347-348.
[10] 王永吉, 蔡宏偉, 夏結(jié)來, 等. 傾向指數(shù)第二講傾向指數(shù)常用研究方法[J]. 中華流行病學(xué)雜志, 2010, 31(5): 584-585.
[11] ELLIS A R, DUSETZINA S B, HANSEN R A, et al. Confounding control in a nonexperimental study of STAR*D data: logistic regression balanced covariates better than boosted CART[J]. Ann Epidemiol, 2013, 23(4): 204-209.
[12] STUKEL T A, FISHER E S, WENNBERG D E, et al. Analysis of observational studies in the presence of treatment selection bias: effects of invasive cardiac management on AMI survival using propensity score and instrumental variable methods[J]. JAMA, 2007, 297(3): 278-285.
[13] VOLPP K G, TROXEL A B, PAULY M V, et al. A randomized, controlled trial of fi nancial incentives for smoking cessation[J]. N Engl J Med, 2009, 360(7): 699-709.
[14] LEE C C, LEE M T, CHEN Y S, et al. Risk of aortic dissection and aortic aneurysm in patients taking oral fluoroquinolone[J]. JAMA Intern Med, 2015, 175(11): 1839-1847.
(本文編輯:丁敏嬌)
Selection and adjustment of potential confounders based on changes of effect size using EmpowerStats
SHI Hongying1, CHEN Changzhong2, MAO Guangyun1, HUANG Chenping1, YANG Xinjun1.
1.Department of Preventive Medicine, School of Public Health, Wenzhou Medical University, Wenzhou, 325035; 2.Dana Farber Cancer Institute, Medical College of Harvard University, Massachusetts, 02115
Objective: To introduce a new method for selecting and adjusting confounding factors. Methods: The disadvantage of traditional method for selecting confounders including methods based on P value or stepwise regression was analyzed was analyzed, and a new method based on the change of effect size was proposed to select the potential confounders which need to be controlled. And the study also demonstrated the application of EmpowerStats software using the new method. Results: EmpowerStats statistical software could automatically choose right regression methods and select the appropriate confounding factors based on the change of effect size conveniently. Conclusion: Selecting confounding factors based on the change of effect size is a better choice, and can give a more accurate independent effect, and has been widely used and accepted worldwide.
confounding factors; bias; covariate; statistics
R195.1
A
10.3969/j.issn.2095-9400.2017.05.010
2016-12-15
國家自然科學(xué)基金青年基金資助項(xiàng)目(81502893);浙江省公益性技術(shù)應(yīng)用研究計(jì)劃項(xiàng)目(2014C33160);浙江省教育廳科研基金資助項(xiàng)目(Y201327770)。
施紅英(1980-),女,浙江麗水人,副教授,在職博士生。