劉文慧 薛付忠 穆玉蘭
病例對照研究(case-control study)是流行病學方法中最基本、最重要的研究類型之一[1],可用于發(fā)病危險因素的研究,也可用于臨床回顧性治療與探索預后因素的研究等[2]。其主要研究類型主要分為病例對照不匹配和病例對照匹配[3-5],前者只需對照數(shù)目等于或多于病例人數(shù),而后者在目前的軟件實現(xiàn)比較復雜,尤其是匹配因素較多,對照匹配比例較高(如1:2以上)時,很多醫(yī)學工作者無從下手。為此,本文介紹通過Empower Stats軟件快速實現(xiàn)病例對照研究的個體匹配。
Empower Stats軟件當前最新版本的創(chuàng)建日期為2017年2月15日,可以從官方網(wǎng)站http://r.empowerstats.cn/cn/index.html下載獲取。
某女性卵巢衰老問卷調(diào)查,內(nèi)容包括編號(ID)、民族(race)、教育程度(edu)、年齡(age)、職業(yè)(occupation)、體質(zhì)指數(shù)(BMI,body mass index)、抽煙史(smoking history)、飲酒史(drinking history)、母親絕經(jīng)年齡(mother’s menopause age)、是否卵巢早衰(SOF,premature ovarian failure)(表1)等項目。其中SOF項表示卵巢早衰(1:是,0:否)?,F(xiàn)計劃對發(fā)生卵巢早衰的研究對象采用1:1配比的病例對照研究方法,研究卵巢早衰發(fā)生的影響因素。匹配的原則是民族相同、教育程度相同、年齡差別2歲。
表1 某女性卵巢衰老調(diào)查問卷結(jié)果
步驟:
1.打開軟件,點擊“開始運行”。
2.“分析項目”——“創(chuàng)建新項目”——“瀏覽”導入要分析的數(shù)據(jù)文件。軟件支持.Rdata,.xls,.csv,.txt,.sav,.dat,.sas7bdat等多種數(shù)據(jù)格式,本例采用.csv格式。
3.選擇分析結(jié)果存放目錄、修改“項目名稱”,添加“項目描述”(可采用自動生成結(jié)果)。
4.“讀取數(shù)據(jù)文件”,軟件后臺調(diào)用相關R程序,生成簡單的數(shù)據(jù)分布情況。
5.“數(shù)據(jù)操作”——“數(shù)據(jù)記錄”——“病例對照配對”,設置分組變量,配對變量、配對條件與匹配數(shù)、研究對象編號。race、edu差異范圍缺失表示完全匹配,age差異范圍2表示age相差2歲以內(nèi)可以配對。
6.“查看結(jié)果”。
運行后,軟件自動彈出結(jié)果頁面,并在分析結(jié)果存放目錄生成相應的網(wǎng)頁(PROJ1_1_tbl.htm)、日志(PROJ1_1_tbl.log)、R程序(PROJ1_1_tbl.R)及2個匹配結(jié)果文件(PROJ1_1_tbl_SOF_match_cc.xls、PROJ1_1_tbl_SOF_match_dd.xls)。
其中自動彈出結(jié)果頁面與PROJ1_1_tbl.htm一致,列出了分析數(shù)據(jù)中無法找到配對的病例編號??梢钥闯鲇?8個病例沒有找到對照,這18個病例的編號(ID)為25,26,31,…,196。
結(jié)果文件PROJ1_1_tbl_SOF_match_cc.xls橫向展示了匹配結(jié)果(表2),每行是一個病例。group.id是配對組編號,group.n表示配對組內(nèi)人數(shù),ID.case、ID.cntl分別表示病例、對照在原始數(shù)據(jù)文件中的編號。NA表示未找到合適匹配對象。
表2 匹配結(jié)果PROJ1_1_tbl_SOF_match_cc.xls
從表2可以看出18個配對組沒有對照(group.id=1,2,…,18),其組內(nèi)人數(shù)均為1(group.n=1),在原始數(shù)據(jù)中的編號為25,26,…,196。而配對組group.id=19 ,group.n=2,ID.case=1,ID.cntl=118表示配對組19的組內(nèi)有2個研究對象,其中病例在原數(shù)據(jù)中的編號是1,對照在原數(shù)據(jù)表中的編號是118。
結(jié)果文件PROJ1_1_tbl_SOF_match_dd.xls則是另一種格式(表3)。此表每行是一個研究對象。group.id、group.n與表2中含義相同,分別表示配對組編號及配對組內(nèi)的人數(shù)。ID表示在原始數(shù)據(jù)表中的編號。匹配成功的病例和對照排在臨近的兩行,如group.id=19有兩行,一行id=1,SOF=1,另一行id=118,SOF=0,表示原始數(shù)據(jù)中編號是1的病例匹配到了對照組,其編號是118。表格的右側(cè)是原始數(shù)據(jù)表的其他變量即相應的問卷調(diào)查結(jié)果,便于進行下一步的數(shù)據(jù)統(tǒng)計分析。
表3 PROJ1_1_tbl_SOF_match_dd.xls
Empower Stats是一款基于R軟件進行流行病學分析的“傻瓜”軟件,不必具有編程基礎,就能運用R程序進行數(shù)據(jù)管理、處理和分析。具有編程基礎的則可以通過軟件生成的R文件進行更加合適、個性化的修改。由于其功能強大而操作簡單,該軟件已逐步受到醫(yī)學科研工作者的青睞[6-7]。
本文的重點是利用該軟件快速實現(xiàn)病例對照的1:1匹配,相較于公開發(fā)表的文獻報道中用Excel VBA、C#語言編程方式實現(xiàn)病例對照個體匹配[8-9]的方法而言,更加的簡單,尤其是對于沒有編程基礎的科研工作者。本文中匹配變量為民族、教育程度和年齡,假如讀者的研究方法與本研究不同,如匹配的變量不同,只需在設置匹配條件界面“用于配對的變量”中選擇自己所需的匹配變量即可。如匹配比例不同(假設為1:2),則只需在相應界面“1:n配對(n=)”處輸入數(shù)字2即可。
此外,Empower Stats軟件還可以實現(xiàn)近年來新興的傾向得分匹配(PSM,propensity score matching)[10],該方法被廣泛應用于臨床試驗、流行病學病因研究以及大部分觀察性試驗研究和設計中[11-12],用于降低由于混雜因素導致的選擇性偏倚,從而保證組間基線數(shù)據(jù)的均衡可比。其操作也非常方便,只需在界面勾選“計算傾向性評分再按評分配對”,并設定傾向性評分配對的病例對照相差范圍即可。
需要注意的是,Empower Stats軟件是一款收費軟件,安裝成功并注冊后可獲得一個月的試用期,期間可以使用軟件的高級模塊(病例對照匹配、廣義估計方程多應變量回歸、隨機(混合)效應模型meta分析等),否則只能使用基本模塊(T檢驗、方差分析、直線相關與回歸、生存分析等)。若通過電子郵件向好友推薦可延長試用期。此外,由于該軟件是基于R軟件來進行數(shù)據(jù)分析的,因此在安裝該軟件時會自動安裝R軟件。因為其對于數(shù)據(jù)處理分析全面、功能強大且操作簡單,相信其在醫(yī)學科研中的應用前景會更加廣泛。