汪政紅,郭仲凱
(中南民族大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,湖北 武漢 430074)
課程思政是指將各類課程與思想政治理論課同向同行,形成協(xié)同效應(yīng),把“立德樹人”作為教育的根本任務(wù)的一種綜合教育理念。2019年10月教育部發(fā)布的《關(guān)于一流本科課程建設(shè)的實(shí)施意見》中,對(duì)教師在教書育人與課程思政方面提出了具體要求:“推動(dòng)課程思政的理念形成廣泛共識(shí),構(gòu)建全員全程全方位育人大格局。確立以學(xué)生為中心、產(chǎn)出導(dǎo)向、持續(xù)改進(jìn)的理念,提升課程的高階性,突出課程的創(chuàng)新性,增加課程的挑戰(zhàn)度?!弊鳛橐幻砉た普n程教師,做好課程思政是我們的責(zé)任和使命,實(shí)施好課程思政是我們面臨的挑戰(zhàn)。本文將以非參數(shù)統(tǒng)計(jì)課程為例,進(jìn)行理工類課程思政的實(shí)踐探索。
非參數(shù)統(tǒng)計(jì)是應(yīng)用統(tǒng)計(jì)專業(yè)的一門主干課程,是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,以數(shù)理統(tǒng)計(jì)為先修課程,數(shù)理統(tǒng)計(jì)的先修課程是概率論,概率論的先修課程是數(shù)學(xué)分析、高等代數(shù),依照序貫原則,非參數(shù)統(tǒng)計(jì)常在高年級(jí)或研究生階段開設(shè)。作為參數(shù)統(tǒng)計(jì)方法的重要補(bǔ)充,非參數(shù)統(tǒng)計(jì)對(duì)總體分布沒有任何假定前提,更接近真實(shí)數(shù)據(jù),因而方法靈活多樣,適用范圍廣,應(yīng)用性強(qiáng),但理論推導(dǎo)相對(duì)復(fù)雜,是一門教學(xué)難度偏大的課程。因此挖掘和探索生動(dòng)有趣的教學(xué)元素,成為落實(shí)課程思政的迫切需求。
關(guān)于課程思政的一般論述在網(wǎng)上有很多資源,包括論文、講座等,其中葉志明等(2020,2021)[1-2]在論文中均給出了教師在教書育人與課程思政等方面可借鑒的理念、方法與案例,言簡意賅、發(fā)人深省。周茂袁等(2021)[3]一文結(jié)合非參數(shù)統(tǒng)計(jì)課程利用正能量擬人化的方式講解枯燥的知識(shí)點(diǎn)(核密度估計(jì)),同時(shí)將“學(xué)會(huì)分享”的思政思想融入其中,使我深受啟發(fā),遂結(jié)合本人多年從事《非參數(shù)統(tǒng)計(jì)》課程教學(xué)的經(jīng)驗(yàn),對(duì)課程思政的案例進(jìn)行深入挖掘和探索。
1940年代,Wilcoxon[4]是美國氰胺公司的一個(gè)化學(xué)家,使用當(dāng)時(shí)的標(biāo)準(zhǔn)方法即t檢驗(yàn)和Fisher的方差分析分析實(shí)驗(yàn)數(shù)據(jù)時(shí),發(fā)現(xiàn)由于“極端值”或樣本太大太小的影響,結(jié)果產(chǎn)生了異常,他基于他所接收到的最新的統(tǒng)計(jì)理念:科學(xué)研究或測量得到的所有觀測具有同等效力,認(rèn)為不能人為地刪除“異常值”,為了得到一個(gè)好的分析結(jié)果而去挑選看上去正確的數(shù)據(jù)。因此他試圖找到一種新的方法分析實(shí)驗(yàn)數(shù)據(jù),降低“異常值”對(duì)結(jié)果的影響。Wilcoxon首先嘗試搜索相關(guān)文獻(xiàn),沒有找到;然后他被迫按照自己的想法進(jìn)行基于排列組合的計(jì)算,寫了一篇論文,投稿到Biometrics期刊,他投稿的目的是希望審稿人能告訴他之前哪里發(fā)過這樣的論文,這樣他可以驗(yàn)證一下自己的計(jì)算是否有誤,因?yàn)樗X得自己這篇論文不可能是原創(chuàng)。但是,事與愿違,審稿人和編輯判斷這是原創(chuàng)性工作,并在1945年將論文發(fā)布。
緊接著,1947年,一位經(jīng)濟(jì)學(xué)家HenryB.Mann和一位統(tǒng)計(jì)學(xué)研究生Whitney發(fā)表了一篇論文,論文中提出了一種排序法,涉及一系列簡單但冗長的計(jì)數(shù)方法,用于確認(rèn)1940年的工資分布比1944年的工資分布低。很快人們發(fā)現(xiàn)Wilcoxon檢驗(yàn)與Mann-Whitney檢驗(yàn)關(guān)系密切,并證明了二者的等價(jià)性。這種檢驗(yàn)的特點(diǎn)是沒有對(duì)任何總體參數(shù)進(jìn)行估計(jì),這是一種非參數(shù)檢驗(yàn)!Wilcoxon的開創(chuàng)性工作帶來了一個(gè)新的學(xué)科分支──非參數(shù)統(tǒng)計(jì)的蓬勃發(fā)展,這一學(xué)科到20世紀(jì)60年代成為學(xué)術(shù)界的研究熱點(diǎn)。
化學(xué)家Wilcoxon發(fā)現(xiàn)自己的工作開創(chuàng)了一個(gè)新的統(tǒng)計(jì)分支,大受鼓舞,對(duì)其產(chǎn)生濃厚的熱情,逐漸離開了化學(xué)領(lǐng)域,進(jìn)入統(tǒng)計(jì)領(lǐng)域,1960年開始進(jìn)入佛羅里達(dá)州立大學(xué)統(tǒng)計(jì)系,擔(dān)任統(tǒng)計(jì)教員,培養(yǎng)統(tǒng)計(jì)系研究生,直至去世。
這樣的故事每次都能極大地吸引學(xué)生的注意力,屢試不爽,同時(shí)故事中的科學(xué)家充滿正能量,具有很好的育人價(jià)值。Wilcoxon先生尊重每一個(gè)真實(shí)的實(shí)驗(yàn)數(shù)據(jù),謹(jǐn)慎對(duì)待分析結(jié)果,是我們每一個(gè)統(tǒng)計(jì)專業(yè)人士必備的素養(yǎng);Wilc oxon先生謙虛、嚴(yán)謹(jǐn)、低調(diào)的治學(xué)態(tài)度,是我們每一個(gè)研究者應(yīng)該學(xué)習(xí)的素質(zhì)。Wilcoxon先生因?yàn)榕d趣從化學(xué)領(lǐng)域轉(zhuǎn)行到統(tǒng)計(jì)領(lǐng)域,職業(yè)生涯發(fā)生了巨大改變,是以最佳的方式詮釋了愛因斯坦的名言──“興趣是最好的老師”。我們可以借機(jī)引導(dǎo)學(xué)生在選擇就業(yè)或深造方向時(shí),一定要結(jié)合自身的興趣,做自己喜歡、擅長的事情,將時(shí)間投入到熱愛的工作中,我們才能感到自我滿足,煥發(fā)出難以估量的力量。
此外,這個(gè)故事還可以將教學(xué)環(huán)節(jié)中四個(gè)很重要的知識(shí)點(diǎn)[5]串聯(lián)起來,單樣本符號(hào)秩檢驗(yàn)、兩獨(dú)立樣本秩和檢驗(yàn)、多個(gè)獨(dú)立樣本的 Kruskal-Wallis檢驗(yàn)和 Jonckheere-Terpstra檢驗(yàn),見圖1。涉及第①、②個(gè)知識(shí)點(diǎn)的教學(xué)時(shí),教師可以以小樣本為例重現(xiàn)歷史故事中的困境,手工計(jì)算展示這其中的排列組合的技巧。隨著樣本增大,計(jì)算復(fù)雜度增加,鼓勵(lì)大家借助現(xiàn)代軟件技術(shù)編程實(shí)現(xiàn)其中的計(jì)算和圖形化展示。從簡單到復(fù)雜,同學(xué)們不僅理解和掌握了這兩種方法的原理和思想,同時(shí)體驗(yàn)到學(xué)科探索的過程。
圖1 非參數(shù)統(tǒng)計(jì)知識(shí)點(diǎn)思維導(dǎo)圖
第②個(gè)知識(shí)點(diǎn)的名稱來源于學(xué)科起源故事中的人物名稱,Wilcoxon和Mann-Whitney是對(duì)同一個(gè)問題從兩個(gè)不同的角度構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,前者是對(duì)數(shù)據(jù)排序,取秩代替原始數(shù)據(jù),從而減少“異常值”的影響,構(gòu)造秩統(tǒng)計(jì)量,后來被發(fā)展為非參數(shù)統(tǒng)計(jì)里重要的“秩方法”;后者是將兩個(gè)樣本的觀測值兩兩做比較,取所有可能對(duì)子中滿足“<”或“>”關(guān)系的對(duì)子個(gè)數(shù)為檢驗(yàn)統(tǒng)計(jì)量,后來發(fā)展為“U統(tǒng)計(jì)量方法”。將這兩種方法分別推廣至多樣本位置檢驗(yàn),就是后面所學(xué)的Kruskal-Wallis檢驗(yàn)和Jonckheere-Terpstra檢驗(yàn),即第③、④個(gè)知識(shí)點(diǎn)。Kruskal-Wallis檢驗(yàn)統(tǒng)計(jì)量是結(jié)合了秩方法和 Fisher的方差分析的思想而構(gòu)造出來的秩統(tǒng)計(jì)量,可以看做是Wilcoxon秩和檢驗(yàn)從兩樣本到多樣本的推廣;J-T檢驗(yàn)延續(xù)了U統(tǒng)計(jì)量的思想,可以看作是Mann-Whitney檢驗(yàn)從兩樣本到多樣本的推廣。再將細(xì)節(jié)講清楚,同學(xué)們就可以感受到原創(chuàng)思想是科學(xué)創(chuàng)作的靈魂,如何一步步從簡單到復(fù)雜創(chuàng)造出許多新的方法。這個(gè)故事是非參數(shù)統(tǒng)計(jì)歷史上最有名的故事之一,講好它用好它,能將專業(yè)課程教學(xué)講活的同時(shí)實(shí)現(xiàn)育人于潤物細(xì)無聲中,可謂一舉兩得。
到了20世紀(jì)90年代,非參數(shù)統(tǒng)計(jì)的研究和應(yīng)用主要集中在非參數(shù)密度估計(jì)和非參數(shù)回歸,代表人物有Silverman和美籍華人范劍青,提到這段歷史,我通常會(huì)濃墨重彩地介紹華人統(tǒng)計(jì)學(xué)家范劍青,被譽(yù)為統(tǒng)計(jì)學(xué)界的傳奇人物。他是非參數(shù)建模與高維復(fù)雜數(shù)據(jù)建模等方面的國際權(quán)威,有著巨大的貢獻(xiàn)和國際影響。他首創(chuàng)了局部建模法、非漸近替代方法、非凹性懲罰似然法、獨(dú)立篩選法等等為非參數(shù)統(tǒng)計(jì)的研究開創(chuàng)了廣闊的研究領(lǐng)域,并廣泛應(yīng)用于經(jīng)濟(jì)、金融、醫(yī)學(xué)、資訊、生物科技及社會(huì)科學(xué)領(lǐng)域,如金融資產(chǎn)定價(jià)、風(fēng)險(xiǎn)管理、機(jī)器學(xué)習(xí)、生物統(tǒng)計(jì)等。范教授發(fā)表了一百多篇論文,其中大多刊登在統(tǒng)計(jì)學(xué)、金融學(xué)及其他科學(xué)的頂尖刊物,出版兩本權(quán)威性專著。他的文章引用次數(shù)從2001年第一次排名以來,一直位列世界數(shù)學(xué)家排名榜的前十名。2000年時(shí)年僅38歲的他憑借首創(chuàng)的“非參數(shù)建模”獲得COPSS總統(tǒng)獎(jiǎng),是第一位獲此殊榮的中國大陸學(xué)者,該獎(jiǎng)為國際統(tǒng)計(jì)學(xué)領(lǐng)域最高獎(jiǎng)項(xiàng)之一。
百度很容易查到范老師的生平,1982年畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)系,隨后考入中國科學(xué)院應(yīng)用數(shù)學(xué)所攻讀碩士,1986年進(jìn)入美國加州伯克利大學(xué)攻讀博士學(xué)位,2003年起任普林斯頓大學(xué)金融工程終身教授。范老師一直活躍在學(xué)術(shù)界,并不斷往返于國內(nèi)外,熱心推動(dòng)中國統(tǒng)計(jì)學(xué)、金融學(xué)和大數(shù)據(jù)的教育和科研工作,長期與國內(nèi)保持密切的科研工作。范老師能取得如此偉大的成就,一是興趣使然,二是愛國情懷使然,從人民日報(bào)記者對(duì)他的采訪中[6]可以窺見。“這么多年堅(jiān)持下來,是因?yàn)槲覍?duì)統(tǒng)計(jì)事業(yè)有著特殊的情懷?!边@種特殊的情懷就是要做對(duì)社會(huì)有用的科學(xué),“我覺得數(shù)學(xué)跟社會(huì)的溝通是通過統(tǒng)計(jì)學(xué)來完成的?!痹诤M庥螌W(xué)多年,他看到了中國在統(tǒng)計(jì)學(xué)研究方面與國際的差距,“希望統(tǒng)計(jì)學(xué)在中國能夠得到承認(rèn)和發(fā)展”,“為國家做事,這是我對(duì)祖國的感情?!?/p>
在課堂上我們可以截取范老師的講座片段給同學(xué)們觀看,一來目睹學(xué)者容顏,感受學(xué)者的謙遜氣質(zhì),二來可以從范老師的講座中了解統(tǒng)計(jì)學(xué)的前沿研究內(nèi)容、研究方法和觀點(diǎn)等,這對(duì)擴(kuò)充同學(xué)們的知識(shí)面、提升專業(yè)學(xué)習(xí)興趣幫助很大。講述中國科學(xué)家故事,借助范老師的研究內(nèi)容向同學(xué)們展望非參數(shù)統(tǒng)計(jì)學(xué)科發(fā)展的未來,同時(shí)傳達(dá)愛國主義情懷,發(fā)揚(yáng)科學(xué)家精神,如果每個(gè)同學(xué)都有如此情懷,偉大中國的復(fù)興夢必定能實(shí)現(xiàn)。
根據(jù)實(shí)踐經(jīng)驗(yàn),若已知數(shù)據(jù)的總體服從某種分布,例如正態(tài)分布,只是其中的幾個(gè)參數(shù)未知,如均值或方差未知,這種類型假設(shè)條件下使用參數(shù)方法非常有效,因?yàn)榧壤昧藬?shù)據(jù)的信息,又利用了產(chǎn)生數(shù)據(jù)的總體的信息。但在實(shí)踐中,若難以假設(shè)總體具有某種分布,這時(shí)仍采用參數(shù)數(shù)據(jù)分析方法,其統(tǒng)計(jì)結(jié)果是不可信的,甚至有可能是錯(cuò)的。此時(shí),舉個(gè)例子演示可以達(dá)到事半功倍的效果。
引例1:有兩組學(xué)生的成績,第一組為10名,成績?yōu)椋?個(gè)100分,4個(gè)99分,第二組為兩名,成績?yōu)?0分和0分,試分別對(duì)這兩組同學(xué)的平均分是否為100分進(jìn)行假設(shè)檢驗(yàn)。
如果分別對(duì)兩組數(shù)據(jù)采用參數(shù)統(tǒng)計(jì)方法,即單樣本t檢驗(yàn),則第一組數(shù)據(jù)會(huì)拒絕均值為100分的零假設(shè),而第二組數(shù)據(jù)則會(huì)接受均值為100分的零假設(shè),這看起來十分荒謬,出錯(cuò)的原因在哪里呢?在于數(shù)據(jù)并不滿足參數(shù)檢驗(yàn)方法所要求的假設(shè)。
引例2[7]:哪一個(gè)企業(yè)職工的工資高?這里有22名職工的工資,其中的12名來自企業(yè)1,另外10名來自企業(yè)2,數(shù)據(jù)如下:
企業(yè)1 11 12 13 14 15 16 17 18 19 20 40 60企業(yè)2 3 4 5 6 7 8 9 10 30 50
如果采用參數(shù)統(tǒng)計(jì)方法,即兩獨(dú)立樣本t檢驗(yàn),則不能拒絕這兩個(gè)企業(yè)職工工資沒有顯著差異的原假設(shè),與直觀判斷相互矛盾,原因就在于假設(shè)兩個(gè)企業(yè)的職工工資服從正態(tài)分布,而實(shí)際上工資數(shù)據(jù)一般是非對(duì)稱的右拖尾數(shù)據(jù),不能滿足正態(tài)假設(shè)。那么正確的解決思路呢?學(xué)習(xí)非參數(shù)統(tǒng)計(jì)的方法,勢在必行。
通過這些簡單的引例,借助R軟件,圖文并茂地向同學(xué)們展示參數(shù)統(tǒng)計(jì)的結(jié)論以及參數(shù)方法遇到的困境,展示非參數(shù)統(tǒng)計(jì)的魅力,激發(fā)同學(xué)們的學(xué)習(xí)興趣。
“紙上得來終覺淺,絕知此事要躬行”,講完各種方法的理論框架和原理之后,就是利用統(tǒng)計(jì)軟件驗(yàn)證我們的結(jié)論了,也就涉及非參數(shù)統(tǒng)計(jì)的實(shí)踐教學(xué)了。首先,筆者推薦大家使用開源免費(fèi)的R軟件,R是一套開源的數(shù)據(jù)分析解決方案,由一個(gè)龐大、活躍的全球性研究型社區(qū)維護(hù)。學(xué)者們將自己論文中使用的代碼打包存放在社區(qū)網(wǎng)站并定期更新,我們遇到類似問題則可以免費(fèi)下載使用,用完之后,作為回饋,我們也可以把自己寫得好的程序打包放到共享社區(qū),正是由于千千萬萬貢獻(xiàn)者的免費(fèi)共享,加上國際志愿者團(tuán)隊(duì)的工作,R語言社區(qū)實(shí)現(xiàn)了共建自治和蓬勃發(fā)展。此外,筆者一直在教學(xué)中秉承學(xué)以致用的理念,鼓勵(lì)大家將非參數(shù)統(tǒng)計(jì)的豐富思想靈活應(yīng)用到實(shí)踐中。在今年的統(tǒng)計(jì)建模大賽中,就有兩位同學(xué)將非參數(shù)統(tǒng)計(jì)中的方法──游程檢驗(yàn)和 Kendall W 協(xié)同系數(shù)檢驗(yàn)應(yīng)用到自己的論文寫作中,使論文增色不少。游程檢驗(yàn)用于檢驗(yàn)一個(gè)二元序列如000101001111的隨機(jī)性,一位同學(xué)在驗(yàn)證問卷調(diào)查數(shù)據(jù)的隨機(jī)性時(shí),將收集的問卷中的二元變量如性別的取值列出來得到一列0、1序列值,使用游程檢驗(yàn)說明這個(gè)序列是隨機(jī)的,從而從側(cè)面說明這個(gè)調(diào)查問卷的數(shù)據(jù)收集是隨機(jī)的。另一位同學(xué)在研究中國沿海地區(qū)高質(zhì)量發(fā)展水平測度時(shí),使用了三種不同的方法對(duì)各沿海城市進(jìn)行綜合評(píng)價(jià),得到了三組不同的排序結(jié)果,她創(chuàng)新性地采用了 Kendall W 協(xié)同系數(shù)及相關(guān)檢驗(yàn)對(duì)這三種方法的一致性進(jìn)行了檢測,結(jié)果發(fā)現(xiàn)三種不同測度方法得出的評(píng)價(jià)結(jié)果一致性程度很高,從而驗(yàn)證了文中使用的評(píng)價(jià)測度的合理性。
通過以上案例,希望可以幫助大家在將專業(yè)知識(shí)點(diǎn)講得生動(dòng)有趣的同時(shí),將學(xué)科思維、探索奮進(jìn)、開放共享的理念傳遞給學(xué)生,從而落實(shí)非參數(shù)統(tǒng)計(jì)的課程思政。