周 穎
如何用EXCEL進行醫(yī)學統(tǒng)計分析
周 穎
在所有的科學研究中數(shù)據(jù)都是十分重要的基礎,對數(shù)據(jù)的收集、記錄、處理的過程是任何學科都離不開的。目前很多的數(shù)據(jù)處理軟件都可以實現(xiàn)這樣的功能,其不僅可以做簡單的變量分析,而且還可實現(xiàn)各種繁雜的多變量的分析。不過在實際應用中,對數(shù)據(jù)的處理大部分都是簡單的統(tǒng)計描述性數(shù)據(jù),并需形成圖表以便明確數(shù)據(jù)關系,或者是進行回歸分析、t檢驗、方差分析等等。這時EXCEL軟件就因為其優(yōu)勢獲得了廣泛的認可,和SAS、SPSS相比有其特有表現(xiàn)在于:1.EXCEL有著強大的自動的數(shù)據(jù)填充和公式計算功能;2.在數(shù)據(jù)編輯和透視性分析的過程中操作簡單;3.在單元格的絕對引用和相對引用中可以靈活的處理;4.內置函數(shù)功能豐富,并有多種的圖表形式可供選擇。
EXCEL在數(shù)據(jù)處理的模塊設計中提供了一些數(shù)據(jù)分析工具,使用這些現(xiàn)成的數(shù)據(jù)分析工具時,只需要將數(shù)據(jù)所在的單元格和必要的參數(shù)指示出來,即可利用系統(tǒng)的自動套用功能,來完成相應的數(shù)據(jù)處理,并給出正確的結果。而且有的工具在數(shù)據(jù)統(tǒng)計的時候可以生產(chǎn)圖表。
在使用EXCEL的時候首先應當利用軟件功能對數(shù)據(jù)進行基本描述,其中有:1)數(shù)據(jù)集中指標處理,包括平均數(shù)、幾何平均數(shù)、眾數(shù)等等。主要是利用軟件提供的函數(shù)套用和公式來進行這些指標的計算。2)變異指標的計算,主要包括百分數(shù)、四位數(shù)、方差、標準誤和峰度系數(shù)等。其中方差、標準差、標準誤、百分數(shù)等是醫(yī)學數(shù)據(jù)處理中常常用到的分析指標。
t檢驗是醫(yī)學數(shù)據(jù)統(tǒng)計和分析當中最為常見的數(shù)據(jù)處理方法,主要是完成試驗標準試樣測定的結果平均值進行與標準值的比較,以此確定其是否具備統(tǒng)計學意義,也就是其結果是否可以作為參考。在EXCEL中“數(shù)據(jù)分析”提供了很多種不同條件下的t檢驗工具,例如:平均值的成對二樣本分析,雙樣本等發(fā)差假設,雙樣本異方差假設等,以及其他統(tǒng)計用分析工具,當樣本中數(shù)據(jù)存在互為配對的關系,這時可以利用“平均值的成對二樣本”來進行t檢驗。例如:在試驗中對一個樣本組進行試驗前后兩次檢測,這主要是為了測定樣本在試驗前后的變化平均值是否相等,這就可以利用成對t檢驗,這個t檢驗并不是假設兩個結果的方差相等。具體看,如果在工作表中設定數(shù)據(jù)區(qū)域為A1-J2。處理數(shù)據(jù)時可以在“工具”中調用“數(shù)據(jù)分析”模塊。在數(shù)據(jù)分析的窗口上選擇t檢驗當中的“平均值的成對二樣本分析”,這時在顯示出來的“平均值的成對二樣本分析”對話框中輸入需要分析的變量范圍,變量1所代表的區(qū)域,即輸入分析的第1個數(shù)據(jù)區(qū)域的單元格引用。該區(qū)域必須是一個行或者列所構成的數(shù)據(jù)組。這個步驟可以點擊輸入框上的“按鈕”,回到表格的初始數(shù)據(jù)中,利用拖動選取需要處理的單元格數(shù)據(jù)。此時分析工具中的變量1就為A1-J1,完成了自動的輸入。
然后再利用同樣的方式,將變量2輸入到數(shù)據(jù)分析工具中,通過這個操作,使得變量2的數(shù)據(jù)區(qū)域與變量1相對應,為A2-J2。然后再假定平均差,就是在這里輸入期望中樣本的平均差值。如缺省,默認為0值,也就是假設樣本的平均值使相同的。標志,如果在分析區(qū)域內的第1行或者列有包含標志的選項,就應選擇此項為標志;如果在輸入的區(qū)域中沒有標志項,軟件將在輸出表中自動生成其認為的合理數(shù)據(jù)標志。如果選擇這個標志數(shù)據(jù),那么α在這個數(shù)據(jù)檢驗的統(tǒng)計意義為水平,范圍是0-1,缺省的值為0.05。
在利用EXCEL進行數(shù)據(jù)分析時,數(shù)據(jù)分析工具庫中有三種基本的方差分析類型為分析提供幫助。包括:單因素方差分析、重復雙因素分析、無重復雙因素分析,下面針對方差方分析進行簡要的介紹:
單因素方差分析法,在進行這個分析方法前必須將試驗所得到的基礎數(shù)據(jù)輸入到工作表中,而且格式是固定的,其中每種水平關系的試驗數(shù)據(jù)放在同一個行或者列中,具體如在同一個試驗中使試驗前和后的數(shù)據(jù)就應當區(qū)分開,放在同一個行或者列中。數(shù)據(jù)填寫完成后,和前面一樣在工具中找到數(shù)據(jù)分析,選擇數(shù)據(jù)分析對話框中的“單因素方差分析”,這時就會出現(xiàn)下一個對話框,然后操作分為以下步驟:1)輸入數(shù)據(jù)區(qū)域,即選擇分析數(shù)據(jù)所在的工作表區(qū)域,可以是行或者列,也可以選用標志,在針對表中的數(shù)據(jù)進行分析是選擇;2)分組方式的選擇,即提供行和列的選擇,當同一個水平的數(shù)據(jù)在同一個行或列時,需作出相應的選擇,行或者列。3)如選擇的數(shù)據(jù)包中含有水平的標志,則需要選擇標志數(shù)據(jù)位第一行;4)分析中的系數(shù)α為顯著的水平,一般為0.05,也就是體現(xiàn)為95%以上的準確度;5)分析的輸出,按照實際的數(shù)據(jù)保存情況,選擇適當?shù)妮敵鼋Y果的保存位置。
雙因素無重復試驗的方差分析總體看和單因素方差分析十分相似,在分析前也需要將數(shù)據(jù)按照工作表需要的格式輸入到單元格中。數(shù)據(jù)輸入后,同樣在“工具-數(shù)據(jù)分析”中選擇分析的方法,“雙因素無重復方差分析”,這時出現(xiàn)一個對話框,按照內容輸入1)輸入?yún)^(qū)域的選擇,即選擇所要分析的數(shù)據(jù),包括含因素水平的標志;2)如果輸入的數(shù)據(jù)中含有因素水平的標志,則需要選擇標志按鈕;3)顯著的水平性α,可以根據(jù)實際的分析要求進行,但一般為0.05。4)輸出分析數(shù)據(jù)的選項和前面一樣選擇相應的存儲位置。
可重復的雙因素分析,這個分析方法與雙因素無重復方差分析數(shù)據(jù)的差別就是在于增加了對重復試驗數(shù)據(jù)的處理,即將重復試驗的數(shù)據(jù)進行累計,使之參與到數(shù)據(jù)分析中。同樣數(shù)據(jù)輸入后在工具中選擇數(shù)據(jù)分析,在數(shù)據(jù)工具庫中選擇“雙因素可重復方差分析”然后利用和雙因素無重復的數(shù)據(jù)分析操作方法相同,只是在每個樣本的行數(shù)選擇中輸入試驗的次數(shù)而已。如還需要對數(shù)據(jù)進行方差分析時,則在輸入?yún)^(qū)選擇其區(qū)域和因素的水平標記,在每個樣本的行數(shù)位置輸入試驗的次數(shù)即可,而水平性選擇仍然為0.05。最后在輸出位置上選擇合適的區(qū)域,也就完成了分析。
這個分析方法是可以適應于,1)反映兩個或者多個變量之間的關系描述出來,且具備方向和密度性質需求時;2)為了反映兩個或者多個變量之間的相互依存的關系并建立回歸方程,可以采用回歸分析。在實際的應用中也是現(xiàn)將數(shù)據(jù)輸入到工作表中,然后利用EXCEL提供的函數(shù)進行簡單的回歸性分析或者Spearman高等級的相關分析。在菜單中利用的是工具、數(shù)據(jù)分析、相關系數(shù),就可與之相關的分析。應用其中的協(xié)方差工具就可以完成方差分析。同時也可以選擇使用散點圖來繪制直觀的散點圖形。
在統(tǒng)計分析中往往都需要進行假設檢驗,即利用隨機、分組、數(shù)據(jù)采集等方式來得到試驗的數(shù)據(jù)。因此在利用試驗得到統(tǒng)計數(shù)據(jù)的過程中,需要完善數(shù)據(jù)得出的準確性,因為任何統(tǒng)計分析方法都不能彌補試驗中的失誤,或者糾正錯誤。
在對醫(yī)學數(shù)據(jù)進行統(tǒng)計分析中,為了嚴謹普遍將0.05設定為數(shù)據(jù)的準確度標準,但是在有些試驗中這個0.05并不適應試驗的需求,因此在實際的操作中不要忘記在自動統(tǒng)計時確定準確度標準。同時也要利用多種試驗方法來驗證某個試驗的準確性,尤其是醫(yī)學試驗或者數(shù)據(jù)采集,一定要進行多重的檢驗和大量的數(shù)據(jù)匯總,才能讓統(tǒng)計分析數(shù)據(jù)準確。
(作者單位:浙江省安吉人民醫(yī)院統(tǒng)計科)