摘??? 要:隨著計(jì)算技術(shù)的飛速發(fā)展,經(jīng)典的數(shù)理統(tǒng)計(jì)理論得到快速應(yīng)用與推廣,并且同計(jì)算技術(shù)相結(jié)合的統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論應(yīng)運(yùn)而生。文章將探討在傳統(tǒng)的“數(shù)理統(tǒng)計(jì)學(xué)”教學(xué)中融入現(xiàn)代的機(jī)器學(xué)習(xí)方法的教學(xué)模式,并在實(shí)際教學(xué)活動(dòng)中通過與以往的“數(shù)理統(tǒng)計(jì)學(xué)”單一教學(xué)模式相比較,檢驗(yàn)這種融合式教學(xué)模式的效果與質(zhì)量。
關(guān)鍵詞:“數(shù)理統(tǒng)計(jì)學(xué)”;“機(jī)器學(xué)習(xí)”;融合式教學(xué)
中圖分類號(hào):G642????? 文獻(xiàn)標(biāo)識(shí)碼:A????? 文章編號(hào):1002-4107(2022)02-0065-02
數(shù)理統(tǒng)計(jì)學(xué)是以概率論為基礎(chǔ),利用來自總體的大量隨機(jī)樣本,對(duì)總體的規(guī)律性屬性,如參數(shù)、分布、相關(guān)性等進(jìn)行推斷。經(jīng)典的數(shù)理統(tǒng)計(jì)學(xué)理論,涵蓋估計(jì)與假設(shè)檢驗(yàn)兩部分,是以來自描述隨機(jī)現(xiàn)象的總體的樣本為研究對(duì)象,使用數(shù)學(xué)的方法與技巧,挖掘提煉樣本里蘊(yùn)含的總體信息[1]。隨著計(jì)算技術(shù)的蓬勃發(fā)展,特別是高性能并行計(jì)算軟硬件的出現(xiàn)與改善,使得人們可以收集到海量樣本,同時(shí)也可以使用高通量的數(shù)據(jù)進(jìn)行各種統(tǒng)計(jì)推斷,這與經(jīng)典數(shù)理統(tǒng)計(jì)的小樣本情形差別較大,隨之也誕生了一門新的學(xué)科——機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是適應(yīng)大數(shù)據(jù)的統(tǒng)計(jì),它的理論內(nèi)容與經(jīng)典數(shù)理統(tǒng)計(jì)學(xué)高度重合,但也有其自身的優(yōu)勢(shì),具體表現(xiàn)在它克服了經(jīng)典數(shù)理統(tǒng)計(jì)學(xué)傾向于小樣本的特點(diǎn),與計(jì)算技術(shù)高度融合,強(qiáng)調(diào)計(jì)算機(jī)在算法理論中的應(yīng)用[2]。
黑龍江大學(xué)為本科生和研究生開設(shè)了“數(shù)理統(tǒng)計(jì)學(xué)”課程。一直以來,“數(shù)理統(tǒng)計(jì)學(xué)”的講授主要以經(jīng)典數(shù)理統(tǒng)計(jì)學(xué)的理論和方法為主,以數(shù)學(xué)理論為工具,強(qiáng)化數(shù)理統(tǒng)計(jì)的理論完備證明,而應(yīng)用方面則涉及較少。為研究生開設(shè)的“機(jī)器學(xué)習(xí)”課程,則以機(jī)器學(xué)習(xí)的算法應(yīng)用為主,忽視了理論的證明與推導(dǎo),導(dǎo)致學(xué)生在學(xué)習(xí)過程中,較為機(jī)械地理解記憶各種各樣的機(jī)器學(xué)習(xí)算法,而對(duì)算法的優(yōu)化能力不足。文章針對(duì)“數(shù)理統(tǒng)計(jì)學(xué)”與“機(jī)器學(xué)習(xí)”的高度契合特點(diǎn),創(chuàng)造性地提出了“數(shù)理統(tǒng)計(jì)學(xué)”與“機(jī)器學(xué)習(xí)”的融合式教學(xué)模式,同時(shí)兼顧理論與算法實(shí)踐兩方面的教學(xué),并在實(shí)際教學(xué)中通過學(xué)生的反饋檢驗(yàn)這種融合式教學(xué)的效果與質(zhì)量。一、“數(shù)理統(tǒng)計(jì)學(xué)”與“機(jī)器學(xué)習(xí)”理論教學(xué)內(nèi)容的融合
“數(shù)理統(tǒng)計(jì)學(xué)”與“機(jī)器學(xué)習(xí)”的教學(xué)內(nèi)容高度重合,例如,它們都包括回歸、分類、聚類。但是在具體講授內(nèi)容上又各有側(cè)重。以回歸為例,在“數(shù)理統(tǒng)計(jì)學(xué)”的教學(xué)中,教師重點(diǎn)講授最小二乘法的原理以及點(diǎn)估計(jì)的優(yōu)良性,即最小二乘估計(jì)是最小方差線性無偏估計(jì),并且做了嚴(yán)格完備的理論證明。以最小二乘估計(jì)為基礎(chǔ),詳細(xì)討論了回歸系數(shù)及回歸方程的顯著性檢驗(yàn)問題。而在“機(jī)器學(xué)
習(xí)”的教學(xué)中,教師通常忽視最小二乘估計(jì)的理論推導(dǎo),而是重點(diǎn)強(qiáng)調(diào)這種估計(jì)方法的基本思想,即它是以平方損失為目標(biāo)函數(shù),使用優(yōu)化方法求目標(biāo)函數(shù)的極小值點(diǎn)。在回歸的深入教學(xué)中,教師通常以實(shí)際應(yīng)用中的帶懲罰項(xiàng)的回歸為主,主要是嶺回歸、lasso回歸。就其數(shù)學(xué)本質(zhì)來說,嶺回歸是L2約束條件的回歸,而lasso回歸是L1
約束條件的回歸。“機(jī)器學(xué)習(xí)”側(cè)重于嶺回歸和lasso回歸的計(jì)算實(shí)踐與應(yīng)用,而不是從理論上探討它們的完備性。因此,教師應(yīng)在教學(xué)中融合“數(shù)理統(tǒng)計(jì)學(xué)”與“機(jī)器學(xué)習(xí)”的側(cè)重內(nèi)容。在講授完最小二乘法的完備理論后,再詳細(xì)講授帶約束條件的線性回歸模型,并且將最小二乘法的原理應(yīng)用于這種類型的參數(shù)估計(jì)問題,從理論上闡明它們的估計(jì)方法。在教學(xué)中,教師也可以適當(dāng)啟發(fā)學(xué)生提出自己的約束條件,以及怎樣求解等問題,培養(yǎng)鍛煉學(xué)生的理論創(chuàng)新能力?!皵?shù)理統(tǒng)計(jì)學(xué)”教學(xué)的判別分析部分,相當(dāng)于“機(jī)器學(xué)習(xí)”中的分類問題,但二者在教學(xué)內(nèi)容上各有側(cè)重?!皵?shù)理統(tǒng)計(jì)學(xué)”側(cè)重貝葉斯判別法與Fisher判別法的理論介紹。Fisher判別法是經(jīng)典數(shù)理統(tǒng)計(jì)學(xué)的判別分析方法,而貝葉斯判別法是貝葉斯學(xué)派的統(tǒng)計(jì)理論在判別分析中的應(yīng)用,它需要指定k個(gè)總體的先驗(yàn)概率。先驗(yàn)概率通常是指在沒有樣本之前,人們對(duì)總體的認(rèn)識(shí)。例如,根據(jù)某地區(qū)的歷史資料定義該地區(qū)人口得癌癥的概率。貝葉斯判別法在此基礎(chǔ)上定義了廣義平方距離,也就是在這一距離中先體現(xiàn)先驗(yàn)概率,再使用貝葉斯公式提出貝葉斯判別準(zhǔn)則,即給出樣本空間的一個(gè)劃分,根據(jù)樣本落于劃分子空間的情況將它歸類,這時(shí)帶來的平均損失最小?!皵?shù)理統(tǒng)計(jì)學(xué)”的判別分析理論性較強(qiáng),導(dǎo)致以往的教學(xué)重理論而輕實(shí)踐。在“機(jī)器學(xué)習(xí)”的分類問題教學(xué)里,教師側(cè)重于主流的分類算法及其實(shí)踐應(yīng)用效果的講解。例如,K-近鄰法、決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等算法。在講授這些分類算法時(shí),教師往往只介紹基本的算法原理、思想,而忽略深刻的數(shù)學(xué)理論。這導(dǎo)致學(xué)生對(duì)算法的理解領(lǐng)悟僅停留在應(yīng)用層面,而欠缺對(duì)算法的優(yōu)化創(chuàng)新能力。因此,在“數(shù)理統(tǒng)計(jì)學(xué)”與“機(jī)器學(xué)習(xí)”的融合式教學(xué)中,教師應(yīng)詳細(xì)介紹機(jī)器學(xué)習(xí)主流算法的數(shù)學(xué)原理,使學(xué)生深刻理解這些算法的來龍去脈。然后,教師采用啟發(fā)式的教學(xué)方法,引導(dǎo)鼓勵(lì)學(xué)生對(duì)所學(xué)的算法進(jìn)行優(yōu)化推廣。首先,討論分類算法的優(yōu)缺點(diǎn)、適用條件;其次,采用模擬與真實(shí)數(shù)據(jù)相結(jié)合的方式來例證所得到的結(jié)論。這些監(jiān)督式的學(xué)習(xí)過程,不僅加深了學(xué)生對(duì)所學(xué)知識(shí)的本質(zhì)內(nèi)涵的理解,而且訓(xùn)練了學(xué)生的自主科研創(chuàng)新能力,潛移默化中提高了學(xué)生主動(dòng)發(fā)現(xiàn)問題、理解問題、解決問題的能力。
二、理論教學(xué)與案例教學(xué)相結(jié)合
以往的“數(shù)理統(tǒng)計(jì)學(xué)”教學(xué),注重經(jīng)典的統(tǒng)計(jì)理論的數(shù)理證明,計(jì)算應(yīng)用也多是在小樣本情形下的計(jì)算問題[3]。在與“機(jī)器學(xué)習(xí)”的融合式教學(xué)里,“數(shù)理統(tǒng)計(jì)學(xué)”教師應(yīng)吸收借鑒“機(jī)器學(xué)習(xí)”的案例教學(xué)模式。具體來說,分為計(jì)算模擬數(shù)據(jù)與真實(shí)場(chǎng)景數(shù)據(jù)的算法驗(yàn)證教學(xué)兩部分。在基于計(jì)算模擬數(shù)據(jù)的算法驗(yàn)證教學(xué)中,教師向?qū)W生講授常見的數(shù)據(jù)分布形態(tài)以及樣本生成方法。例如,高斯分布的數(shù)據(jù),其常見的聚類方法有k-means法、knn法,但聚類的結(jié)果都不理想,而基于相似圖特征分解的譜聚類算法卻很奏效。在模擬高維復(fù)雜分布的樣本時(shí),馬爾科夫鏈蒙特卡洛法(Markov Chain Monte Carlo,簡(jiǎn)稱MCMC)是一種常用的樣本生成技術(shù)。MCMC使用蒙特卡洛積分,構(gòu)造了一條平穩(wěn)分布為已知的復(fù)雜分布的Markov鏈,通過這條Markov鏈產(chǎn)生樣本。在計(jì)算模擬數(shù)據(jù)的教學(xué)環(huán)節(jié)中,教師將訓(xùn)練學(xué)生對(duì)于這些理論與抽樣技術(shù)的理解與運(yùn)用。在基于真實(shí)場(chǎng)景數(shù)據(jù)的算法驗(yàn)證教學(xué)中,首先,教師向?qū)W生介紹數(shù)據(jù)的獲取方式。數(shù)據(jù)獲取主要有兩種方式:第一種獲取方式,從現(xiàn)有的數(shù)據(jù)存儲(chǔ)網(wǎng)站下載。例如
Kaggle,它是一個(gè)為數(shù)據(jù)業(yè)務(wù)客戶和數(shù)據(jù)分析愛好者提供機(jī)器學(xué)習(xí)、數(shù)據(jù)競(jìng)賽的平臺(tái)。Kaggle于2010年創(chuàng)立,歷經(jīng)10年的發(fā)展,現(xiàn)已成為數(shù)據(jù)科學(xué)領(lǐng)域最具知名度的競(jìng)賽網(wǎng)站之一。目前,很多研究生的科研課題都來自于該平臺(tái)的開放數(shù)據(jù)競(jìng)賽內(nèi)容,同時(shí)該平臺(tái)還有很多優(yōu)秀的數(shù)據(jù)業(yè)務(wù)解決方案,供全世界的數(shù)據(jù)科學(xué)愛好者學(xué)習(xí)交流。另一個(gè)知名的數(shù)據(jù)存儲(chǔ)平臺(tái)UCI,它是一個(gè)機(jī)器學(xué)習(xí)算法數(shù)據(jù)庫,提供數(shù)據(jù)集的實(shí)時(shí)更新維護(hù),現(xiàn)已成為學(xué)生、教師和科研工作者主要的機(jī)器學(xué)習(xí)數(shù)據(jù)源。第二種獲取方式,即使用“爬蟲”計(jì)算技術(shù),從網(wǎng)站實(shí)時(shí)抓取數(shù)據(jù)。這種數(shù)據(jù)獲取技術(shù)的優(yōu)點(diǎn)是可以動(dòng)態(tài)獲取更新的數(shù)據(jù),但對(duì)計(jì)算機(jī)編程能力要求較高。其次,教師向?qū)W生介紹數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的重要環(huán)節(jié),預(yù)處理的效果直接影響后續(xù)數(shù)據(jù)分析的準(zhǔn)確性。在數(shù)據(jù)預(yù)處理的教學(xué)中,教師將介紹常見的特征提取與歸一化方法。最后,教師向?qū)W生講授變量選擇與特征工程技術(shù)。來自現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景的數(shù)據(jù),通常包含太多的特征變量,而它們中的大多數(shù)與所研究問題無關(guān)。如何從眾多的變量中挑選出相關(guān)的變量,是首先需要解決的問題。變量選擇通常在某一準(zhǔn)則下進(jìn)行,如AIC準(zhǔn)則、BIC準(zhǔn)則等。在數(shù)據(jù)分析問題里,特征工程是必做的分析過程,在這一過程中,將對(duì)所選變量進(jìn)行加工、整理、提煉等操作。數(shù)據(jù)實(shí)踐證明,好的特征工程將有助于提高預(yù)測(cè)模型的精準(zhǔn)度,甚至不需要使用高級(jí)的數(shù)據(jù)模型也能得到高精度的結(jié)果。在實(shí)踐教學(xué)中,教師應(yīng)采用漸進(jìn)式的方式,引導(dǎo)學(xué)生建立自己的特征工程,從大量的實(shí)踐環(huán)節(jié)培養(yǎng)學(xué)生的綜合運(yùn)用能力。
三、以編程為主的案例實(shí)操教學(xué)“數(shù)理統(tǒng)計(jì)學(xué)”和“機(jī)器學(xué)習(xí)”與計(jì)算機(jī)的聯(lián)系越來越密切。以編程為主的算法實(shí)現(xiàn)是學(xué)生必備的專業(yè)素養(yǎng)。為此,教師在授課全過程要求學(xué)生至少熟練掌握一門編程工具。例如,R語言或Python語言。同時(shí),教師鼓勵(lì)學(xué)生同時(shí)掌握這兩種編程語言,可以根據(jù)問題需要,在兩者之間靈活選擇。計(jì)算編程是一個(gè)由熟練到精通的循序漸進(jìn)的過程。R語言偏重于統(tǒng)計(jì)模型、方法的編程實(shí)現(xiàn),在CRAN(The Comprehensive R Archive Network)網(wǎng)站有3千多個(gè)實(shí)現(xiàn)各種統(tǒng)計(jì)計(jì)算的函數(shù)包方便學(xué)生下載使用。在教學(xué)過程中,教師鼓勵(lì)學(xué)生將所學(xué)、所解的統(tǒng)計(jì)模型,編寫成R包,上傳到CRAN網(wǎng)站,訓(xùn)練學(xué)生的R編程設(shè)計(jì)能力。Python是機(jī)器學(xué)習(xí)熱門編程軟件,它提供了功能強(qiáng)大的算法庫實(shí)現(xiàn)各種算法。例如,機(jī)器學(xué)習(xí)通用算法庫scikitlearn、數(shù)值運(yùn)算庫pandas、NumPy、數(shù)據(jù)可視化庫matplotlib、深度學(xué)習(xí)庫keras等。教師在講授各種機(jī)器學(xué)習(xí)算法理論的同時(shí),積極引導(dǎo)學(xué)生自主學(xué)習(xí)常用的Python庫函數(shù),培養(yǎng)學(xué)生借助Python庫便利化編程的意識(shí)和能力。學(xué)生普遍對(duì)編程訓(xùn)練感興趣,以編程帶動(dòng)理論學(xué)習(xí)的教學(xué)模式,收到了良好的教學(xué)效果。
參考文獻(xiàn):
[1]? 茆詩松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計(jì)[M].第2版,北京:高等教育出版社,2006:237.
[2]? 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:191.
[3]? 王化琨,李春艷,陳莉莉.“多元統(tǒng)計(jì)分析”課程教學(xué)內(nèi)容與教學(xué)方法的改革與實(shí)踐[J].黑龍江教育(理論與實(shí)踐),2019,73(12):56.
■ 編輯∕陳晶
2540501186295