李瑞閣 萬(wàn)冰蓉 張恒 曠永鑫
摘 要:多元統(tǒng)計(jì)分析是統(tǒng)計(jì)學(xué)專業(yè)的核心課程之一,該課程實(shí)踐性極強(qiáng),需要學(xué)生多學(xué)、多練,多實(shí)踐、多總結(jié)。文章針對(duì)該課程案例教學(xué)中若干統(tǒng)計(jì)分析方法存在的一些誤區(qū),教師在反思學(xué)生出錯(cuò)的原因是概念問(wèn)題,軟件使用問(wèn)題,還是對(duì)實(shí)際問(wèn)題背景理解的偏差問(wèn)題的基礎(chǔ)上,有針對(duì)性地引導(dǎo)學(xué)生走出誤區(qū),學(xué)會(huì)不斷反思,提出問(wèn)題;不斷創(chuàng)新實(shí)踐,發(fā)散式研究學(xué)習(xí),多渠道解決問(wèn)題等方面展開(kāi)探討。
關(guān)鍵詞:教學(xué)實(shí)踐誤區(qū);方差分析;主成分分析;對(duì)應(yīng)分析
中圖分類(lèi)號(hào):G642 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2096-000X(2018)05-0097-03
Abstract: The multivariate statistical analysis is one of the professional core courses of statistics. As the most practical course, it needs students to learn, practice and summary. Based on the case teaching of some misunderstanding in some of the statistical analysis method, the teacher should reflect firstly whether the cause of the error of students is the problem of concept, of using software, or understanding deviation problem to the actual problem. Teacher should aim at leading students to walk out of the erroneous zone, and teaching them to think, ask question, practice innovatively, study by divergent thinking, and solve the problem through various channels.
Keywords: teaching practice myth; analysis of variance; principle component analysis; correspondence analysis
前言
多元統(tǒng)計(jì)分析是統(tǒng)計(jì)學(xué)專業(yè)的核心課程之一,包含諸多多維數(shù)據(jù)統(tǒng)計(jì)分析的方法,案例教學(xué)實(shí)踐中要求學(xué)生依據(jù)問(wèn)題采取適當(dāng)?shù)姆椒?,做出合理分析、推斷、預(yù)策等。由于案例的復(fù)雜性,教學(xué)實(shí)踐中常存在一些誤區(qū)。出現(xiàn)問(wèn)題時(shí)教師首先應(yīng)反思,學(xué)生出錯(cuò)的原因是什么?是概念問(wèn)題,軟件使用問(wèn)題,還是對(duì)實(shí)際問(wèn)題背景理解的偏差問(wèn)題?然后有針對(duì)性地采取有效的策略解決問(wèn)題。以下就如何有針對(duì)性地引導(dǎo)學(xué)生走出誤區(qū),學(xué)會(huì)自主學(xué)習(xí)、創(chuàng)新實(shí)踐、提出問(wèn)題并解決問(wèn)題做些嘗試性探討。
一、有交互方差分析中單因素水平間的均值比較誤區(qū)
教學(xué)過(guò)程中教學(xué)時(shí)間長(zhǎng)度有限,但課堂中教會(huì)學(xué)生學(xué)習(xí)的方法,養(yǎng)成良好的學(xué)習(xí)習(xí)慣將終生受用。同樣教科書(shū)和軟件教材內(nèi)容有限,不可能解決所有的問(wèn)題,比如,SPSS軟件的菜單操作命令簡(jiǎn)單且實(shí)用,但教學(xué)中僅要求學(xué)生會(huì)操作是不夠的,同時(shí)還要求學(xué)生了解程序命令甚至自覺(jué)學(xué)習(xí)編程,這是培養(yǎng)學(xué)生創(chuàng)新思維的有效途徑。比如在解決兩因素有交互效應(yīng)的方差分析問(wèn)題時(shí),固定一因素水平,另一因素水平間的均值比較問(wèn)題,一般SPSS軟件教材,會(huì)給出判斷交互效應(yīng)顯著性判斷,但交互比較就沒(méi)有現(xiàn)成答案。為此向?qū)W生提出問(wèn)題,提醒并鼓勵(lì)學(xué)生查資料,一方面要弄清概念,另一方面通過(guò)自己編程去解決。
案例1 有三種降低轉(zhuǎn)氨酶的藥物,為了考察他們對(duì)甲型肝炎和乙型肝炎患者轉(zhuǎn)氨酶降低程度之間的差異是否有統(tǒng)計(jì)學(xué)意義,收集試驗(yàn)數(shù)據(jù)(略),即從兩型患者的總體中各隨機(jī)抽取30例,然后分別隨機(jī)分到3個(gè)藥物組中。假定資料滿足參數(shù)檢驗(yàn)的條件,問(wèn)不同藥物種類(lèi)之間是否有顯著差異?不同的肝炎類(lèi)型之間是否有顯著差異?不同藥物與肝炎類(lèi)型之間的交互作用是否顯著?教材文獻(xiàn)[1]中使用SAS軟件,課堂上鼓勵(lì)學(xué)生用多種軟件解題。如利用SPSS解決前兩個(gè)問(wèn)題很容易,最后一個(gè)問(wèn)題不易,有學(xué)生查到文獻(xiàn)[2-4],通過(guò)學(xué)習(xí)用SPSS方法編寫(xiě)程序;也有學(xué)生用MATLAB編程的辦法解決,最終將結(jié)果公之于眾,讓學(xué)生討論,起到很好的教學(xué)示范效應(yīng)。然而學(xué)生在訓(xùn)練的過(guò)程中,仍會(huì)出現(xiàn)運(yùn)行的問(wèn)題,進(jìn)一步讓大家共同查找原因,并總結(jié)程序輸入的兩條注意事項(xiàng):
(1)語(yǔ)句編寫(xiě)應(yīng)為全英文符號(hào),若有中文符號(hào)輸入算錯(cuò)誤指令,代碼不會(huì)變色。
(2)所有代碼輸入完成后應(yīng)在語(yǔ)句結(jié)尾劃上英文句號(hào),若沒(méi)有句號(hào),表示該腳本不完整,SPSS會(huì)不承認(rèn)這個(gè)函數(shù)結(jié)構(gòu),代碼開(kāi)頭會(huì)是紅色,正常應(yīng)是藍(lán)色等。其中編寫(xiě)的SPSS程序如下:
UNIANOVA 緩解時(shí)間 BY 成分A 成分B
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PLOT=PROFILE(成分A*成分B 成分B*成分A)
/POSTHOC =成分A(BONFERRON)
/EMMEANS=TABLES(成分A)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分B)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分A*成分B)
/EMMEANS=TABLES(成分A*成分B)COMPARE (成分A)ADJ(BONFERRON)
/EMMEANS=TABLES(成分A*成分B)COMPARE(成分A)ADJ(BONFERRON)
/PRINT=HOMOGENEITY DESCRIPTIVE PARAMETE
R
/CRITERIA=ALPHA(0.05)
/DESIGN=成分A 成分B 成分A*成分B.
二、主成分分析中主成分表達(dá)誤區(qū)
主成分分析中,SPSS軟件輸出的Component Matrix陣,往往被學(xué)生誤讀為主成分系數(shù)陣,直接以此為依據(jù)寫(xiě)出樣本的主成分,實(shí)際上它是因子載荷陣,寫(xiě)主成分時(shí),需在原系數(shù)的基礎(chǔ)上除以相應(yīng)特征根的平方根,得真正的主成分系數(shù)。針對(duì)這一情況,教學(xué)中,如何強(qiáng)調(diào)?才能引起學(xué)生重視?一方面課堂上應(yīng)講清楚概念,另一方面有意識(shí)讓學(xué)生暴露問(wèn)題,發(fā)現(xiàn)問(wèn)題后讓學(xué)生研討,并通過(guò)MATLAB等軟件實(shí)踐確定特征根及特征向量的辦法驗(yàn)證結(jié)果。
案例2某研究單位測(cè)得20名肝病患者的4項(xiàng)肝功能指標(biāo)數(shù)據(jù)(略):轉(zhuǎn)氨酶,肝大指數(shù),硫酸鋅濁度,甲胎球蛋白,試做主成分分析。
利用菜單命令,分析(Analyze)→降維(Data Reduction)→因子(Factor),按shift 鍵將x1至x4全部選入因子分析對(duì)話框,單擊抽?。‥xtraction)選項(xiàng),默認(rèn)公因子提取方法(Principal components),默認(rèn)相關(guān)陣(Correlation matrix)出發(fā)做主成分分析,因子數(shù)按特征根大于(Eigenvalues over)0.9保留,確定(OK)。得到輸出部分結(jié)果如下表1-2:
從表1可見(jiàn)前三個(gè)主成分的方差解釋率為94.828%,盡管第三個(gè)特征根小于1,但接近1,于是可選取前三個(gè)主成分,僅損失較少的方差信息。表2可見(jiàn)第一個(gè)主成分主要包含原變量轉(zhuǎn)氨酶及肝大指數(shù)的信息,可作為急性肝炎的診斷指標(biāo);第二主成分主要包含硫酸辛濁度的信息,可作為慢性肝炎的診斷指標(biāo);第三個(gè)主成分主要包含甲胎球蛋白的信息,可作為原發(fā)性肝炎的診斷指標(biāo)。根據(jù)表2可寫(xiě)出選取的三個(gè)主成分分別為:
然而也有同學(xué)選取的三個(gè)主成分均未除以相應(yīng)特征根的算術(shù)平方根。哪個(gè)主成分表達(dá)式正確?鑒于此,提出問(wèn)題,讓學(xué)生自己去找答案,一方面查找教材或文獻(xiàn)弄清概念做出判斷,另一方面可通過(guò)編程,或用其他軟件來(lái)加以驗(yàn)證。
本題中采用相關(guān)矩陣出發(fā)進(jìn)行主成分分析,為什么呢?為此引導(dǎo)學(xué)生總結(jié)三種情形:各指標(biāo)變量的量綱不同;各指標(biāo)變量類(lèi)型不同,如絕對(duì)指標(biāo),相對(duì)指標(biāo)等;各指標(biāo)變量的方差差異過(guò)大,前兩種情形比較明顯,第三種情形就需先確定協(xié)方差陣,再做決定。如何求協(xié)方差陣?鼓勵(lì)學(xué)生積極思考,踴躍回答。有學(xué)生利用可靠性分析法,工具欄分析→尺度→可靠性分析,點(diǎn)選變量,點(diǎn)擊設(shè)置統(tǒng)計(jì),選擇項(xiàng)間組內(nèi)的選項(xiàng),包含輸出項(xiàng)間相關(guān)矩陣和項(xiàng)間協(xié)方差矩陣;也有同學(xué)任給分類(lèi),利用判別分析選項(xiàng)確定協(xié)方差矩陣。
為了訓(xùn)練學(xué)生,提出問(wèn)題,能否通過(guò)編程直接求出呢?于是有學(xué)生幾經(jīng)嘗試,修改,編出如下程序:
(1)打開(kāi)文獻(xiàn)[5]中案例6.1數(shù)據(jù)集,復(fù)制下面第一語(yǔ)句粘貼至打開(kāi)數(shù)據(jù)集的新建語(yǔ)法窗口,運(yùn)行下列程序生成相關(guān)矩陣(以數(shù)據(jù)集的形式存在)
CORRELATION MATRIX OUT('C:\Documents and Settings\Administrator\桌面\相關(guān)矩陣.sav')/VARIABLES=x1 x2 x3 x4。
(2)打開(kāi)已生成相關(guān)矩陣數(shù)據(jù)集,再?gòu)?fù)制粘貼下述語(yǔ)句至語(yǔ)法窗口,運(yùn)行,生成協(xié)方差陣,打開(kāi)已有的相關(guān)陣數(shù)據(jù)集可見(jiàn)。
GET
FILE='C:\Documents and Settings\Administrator\桌面\相關(guān)矩陣.sav'。
MCONVERT/MATRIX=OUT('C:\Documents and Settin
gs\Administrator\桌面\協(xié)方差矩陣.sav')。
從輸出的相關(guān)系數(shù)矩陣可見(jiàn),各變量的相關(guān)性較強(qiáng);從協(xié)方差陣可見(jiàn),四個(gè)變量的方差差異很大,適合于從相關(guān)矩陣出發(fā)做主成分。
三、對(duì)應(yīng)分析圖中對(duì)應(yīng)關(guān)系表達(dá)誤區(qū)
對(duì)應(yīng)分析圖識(shí)別問(wèn)題,主要是軟件使用問(wèn)題。課堂上利用論文健康教育與兒童呼吸道感染的關(guān)聯(lián)性研究,研究?jī)和?lèi)(A類(lèi))受教育頻次與住院頻次的關(guān)聯(lián)分析,采用的對(duì)應(yīng)分析的操作步驟為:?jiǎn)螕魯?shù)據(jù)(Data)→加權(quán)(Weight Cases)→選入頻數(shù)(num)加權(quán),確定(OK)。接著單擊分析(Analyze)→降維(Data Reduction)→對(duì)應(yīng)分析(Correspondence Analysi
s),將兒童住院頻次選入行,定義范圍1到4,兒童受教育頻次選入列,定義范圍1到3,更新(Update),確定(OK)。對(duì)應(yīng)分析圖如下。
對(duì)應(yīng)分析圖1中兒童住院頻次與兒童受教育頻次對(duì)應(yīng)的二維點(diǎn)除了顏色區(qū)別外,形狀無(wú)區(qū)別,標(biāo)識(shí)數(shù)字的類(lèi)別關(guān)系不明朗,于是啟發(fā)學(xué)生從多角度,多層面嘗試實(shí)踐,改變點(diǎn)的標(biāo)識(shí)、形狀,大小等。具體可點(diǎn)擊圖形區(qū)域,右擊編輯內(nèi)容Edit Content,或雙擊該窗口,選中特殊窗口In Separate Window,在編輯窗口中,分別點(diǎn)擊兒童住院頻次、兒童受教育頻次,在新窗口中選擇圖標(biāo)的形狀、大小、寬度等,甚至可畫(huà)出坐標(biāo)軸方便找對(duì)應(yīng)關(guān)系。數(shù)字替換為文字稍顯復(fù)雜。引導(dǎo)學(xué)生從數(shù)據(jù)集的變量視圖入手,定義變量?jī)和≡侯l次、兒童受教育頻次的各個(gè)分類(lèi)取值及名稱,添加,確定形成圖2,標(biāo)識(shí)既清楚、醒目,可視化效果又好。
總之,多元統(tǒng)計(jì)分析是統(tǒng)計(jì)專業(yè)課中的教學(xué)實(shí)踐性很強(qiáng)的課程,需要在案例教學(xué)實(shí)踐過(guò)程中及時(shí)發(fā)現(xiàn)問(wèn)題,分析原因,針對(duì)不同類(lèi)型采取措施引導(dǎo)學(xué)生走出誤區(qū),及時(shí)糾偏并解決問(wèn)題,有意識(shí)培養(yǎng)學(xué)生自主學(xué)習(xí),創(chuàng)新實(shí)踐能力,提升學(xué)生的綜合素質(zhì)。
參考文獻(xiàn):
[1]梅長(zhǎng)林,范金城.數(shù)據(jù)分析方法[M].北京:高等教育出社,2012:111-112.
[2]傅德印.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:高等教育出版社,2008:159-161,130-134,212-220.
[3]項(xiàng)涇渭,傅德印.基于SPSS的二次開(kāi)發(fā)直接求解主成分[J].統(tǒng)計(jì)研究,2006(4):73-75.
[4]宇傳華.SPSS與統(tǒng)計(jì)分析[M].北京:電子工業(yè)出版社,2014:617-619.
[5]張文彤,董偉.SPSS統(tǒng)計(jì)分析高級(jí)教程[M].北京:高等教育出版社,2004:277-290.
[6]李瑞閣,連冬艷,柳德學(xué).健康教育與兒童呼吸道感染的關(guān)聯(lián)性研究[J].南陽(yáng)理工學(xué)院學(xué)報(bào),2015,7(2):108-110.
[7]王芬.案例教學(xué)法在概率論與數(shù)理統(tǒng)計(jì)教學(xué)中的應(yīng)用[J].高教學(xué)刊,2016(20):74-75.