亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “數(shù)理統(tǒng)計學”與“機器學習”的融合式 教學的探索與實踐

        2022-03-17 21:56:28王化琨
        黑龍江教育·理論與實踐 2022年2期
        關(guān)鍵詞:機器學習

        摘??? 要:隨著計算技術(shù)的飛速發(fā)展,經(jīng)典的數(shù)理統(tǒng)計理論得到快速應(yīng)用與推廣,并且同計算技術(shù)相結(jié)合的統(tǒng)計機器學習理論應(yīng)運而生。文章將探討在傳統(tǒng)的“數(shù)理統(tǒng)計學”教學中融入現(xiàn)代的機器學習方法的教學模式,并在實際教學活動中通過與以往的“數(shù)理統(tǒng)計學”單一教學模式相比較,檢驗這種融合式教學模式的效果與質(zhì)量。

        關(guān)鍵詞:“數(shù)理統(tǒng)計學”;“機器學習”;融合式教學

        中圖分類號:G642????? 文獻標識碼:A????? 文章編號:1002-4107(2022)02-0065-02

        數(shù)理統(tǒng)計學是以概率論為基礎(chǔ),利用來自總體的大量隨機樣本,對總體的規(guī)律性屬性,如參數(shù)、分布、相關(guān)性等進行推斷。經(jīng)典的數(shù)理統(tǒng)計學理論,涵蓋估計與假設(shè)檢驗兩部分,是以來自描述隨機現(xiàn)象的總體的樣本為研究對象,使用數(shù)學的方法與技巧,挖掘提煉樣本里蘊含的總體信息[1]。隨著計算技術(shù)的蓬勃發(fā)展,特別是高性能并行計算軟硬件的出現(xiàn)與改善,使得人們可以收集到海量樣本,同時也可以使用高通量的數(shù)據(jù)進行各種統(tǒng)計推斷,這與經(jīng)典數(shù)理統(tǒng)計的小樣本情形差別較大,隨之也誕生了一門新的學科——機器學習。機器學習是適應(yīng)大數(shù)據(jù)的統(tǒng)計,它的理論內(nèi)容與經(jīng)典數(shù)理統(tǒng)計學高度重合,但也有其自身的優(yōu)勢,具體表現(xiàn)在它克服了經(jīng)典數(shù)理統(tǒng)計學傾向于小樣本的特點,與計算技術(shù)高度融合,強調(diào)計算機在算法理論中的應(yīng)用[2]。

        黑龍江大學為本科生和研究生開設(shè)了“數(shù)理統(tǒng)計學”課程。一直以來,“數(shù)理統(tǒng)計學”的講授主要以經(jīng)典數(shù)理統(tǒng)計學的理論和方法為主,以數(shù)學理論為工具,強化數(shù)理統(tǒng)計的理論完備證明,而應(yīng)用方面則涉及較少。為研究生開設(shè)的“機器學習”課程,則以機器學習的算法應(yīng)用為主,忽視了理論的證明與推導(dǎo),導(dǎo)致學生在學習過程中,較為機械地理解記憶各種各樣的機器學習算法,而對算法的優(yōu)化能力不足。文章針對“數(shù)理統(tǒng)計學”與“機器學習”的高度契合特點,創(chuàng)造性地提出了“數(shù)理統(tǒng)計學”與“機器學習”的融合式教學模式,同時兼顧理論與算法實踐兩方面的教學,并在實際教學中通過學生的反饋檢驗這種融合式教學的效果與質(zhì)量。一、“數(shù)理統(tǒng)計學”與“機器學習”理論教學內(nèi)容的融合

        “數(shù)理統(tǒng)計學”與“機器學習”的教學內(nèi)容高度重合,例如,它們都包括回歸、分類、聚類。但是在具體講授內(nèi)容上又各有側(cè)重。以回歸為例,在“數(shù)理統(tǒng)計學”的教學中,教師重點講授最小二乘法的原理以及點估計的優(yōu)良性,即最小二乘估計是最小方差線性無偏估計,并且做了嚴格完備的理論證明。以最小二乘估計為基礎(chǔ),詳細討論了回歸系數(shù)及回歸方程的顯著性檢驗問題。而在“機器學

        習”的教學中,教師通常忽視最小二乘估計的理論推導(dǎo),而是重點強調(diào)這種估計方法的基本思想,即它是以平方損失為目標函數(shù),使用優(yōu)化方法求目標函數(shù)的極小值點。在回歸的深入教學中,教師通常以實際應(yīng)用中的帶懲罰項的回歸為主,主要是嶺回歸、lasso回歸。就其數(shù)學本質(zhì)來說,嶺回歸是L2約束條件的回歸,而lasso回歸是L1

        約束條件的回歸。“機器學習”側(cè)重于嶺回歸和lasso回歸的計算實踐與應(yīng)用,而不是從理論上探討它們的完備性。因此,教師應(yīng)在教學中融合“數(shù)理統(tǒng)計學”與“機器學習”的側(cè)重內(nèi)容。在講授完最小二乘法的完備理論后,再詳細講授帶約束條件的線性回歸模型,并且將最小二乘法的原理應(yīng)用于這種類型的參數(shù)估計問題,從理論上闡明它們的估計方法。在教學中,教師也可以適當啟發(fā)學生提出自己的約束條件,以及怎樣求解等問題,培養(yǎng)鍛煉學生的理論創(chuàng)新能力?!皵?shù)理統(tǒng)計學”教學的判別分析部分,相當于“機器學習”中的分類問題,但二者在教學內(nèi)容上各有側(cè)重?!皵?shù)理統(tǒng)計學”側(cè)重貝葉斯判別法與Fisher判別法的理論介紹。Fisher判別法是經(jīng)典數(shù)理統(tǒng)計學的判別分析方法,而貝葉斯判別法是貝葉斯學派的統(tǒng)計理論在判別分析中的應(yīng)用,它需要指定k個總體的先驗概率。先驗概率通常是指在沒有樣本之前,人們對總體的認識。例如,根據(jù)某地區(qū)的歷史資料定義該地區(qū)人口得癌癥的概率。貝葉斯判別法在此基礎(chǔ)上定義了廣義平方距離,也就是在這一距離中先體現(xiàn)先驗概率,再使用貝葉斯公式提出貝葉斯判別準則,即給出樣本空間的一個劃分,根據(jù)樣本落于劃分子空間的情況將它歸類,這時帶來的平均損失最小。“數(shù)理統(tǒng)計學”的判別分析理論性較強,導(dǎo)致以往的教學重理論而輕實踐。在“機器學習”的分類問題教學里,教師側(cè)重于主流的分類算法及其實踐應(yīng)用效果的講解。例如,K-近鄰法、決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)等算法。在講授這些分類算法時,教師往往只介紹基本的算法原理、思想,而忽略深刻的數(shù)學理論。這導(dǎo)致學生對算法的理解領(lǐng)悟僅停留在應(yīng)用層面,而欠缺對算法的優(yōu)化創(chuàng)新能力。因此,在“數(shù)理統(tǒng)計學”與“機器學習”的融合式教學中,教師應(yīng)詳細介紹機器學習主流算法的數(shù)學原理,使學生深刻理解這些算法的來龍去脈。然后,教師采用啟發(fā)式的教學方法,引導(dǎo)鼓勵學生對所學的算法進行優(yōu)化推廣。首先,討論分類算法的優(yōu)缺點、適用條件;其次,采用模擬與真實數(shù)據(jù)相結(jié)合的方式來例證所得到的結(jié)論。這些監(jiān)督式的學習過程,不僅加深了學生對所學知識的本質(zhì)內(nèi)涵的理解,而且訓(xùn)練了學生的自主科研創(chuàng)新能力,潛移默化中提高了學生主動發(fā)現(xiàn)問題、理解問題、解決問題的能力。

        二、理論教學與案例教學相結(jié)合

        以往的“數(shù)理統(tǒng)計學”教學,注重經(jīng)典的統(tǒng)計理論的數(shù)理證明,計算應(yīng)用也多是在小樣本情形下的計算問題[3]。在與“機器學習”的融合式教學里,“數(shù)理統(tǒng)計學”教師應(yīng)吸收借鑒“機器學習”的案例教學模式。具體來說,分為計算模擬數(shù)據(jù)與真實場景數(shù)據(jù)的算法驗證教學兩部分。在基于計算模擬數(shù)據(jù)的算法驗證教學中,教師向?qū)W生講授常見的數(shù)據(jù)分布形態(tài)以及樣本生成方法。例如,高斯分布的數(shù)據(jù),其常見的聚類方法有k-means法、knn法,但聚類的結(jié)果都不理想,而基于相似圖特征分解的譜聚類算法卻很奏效。在模擬高維復(fù)雜分布的樣本時,馬爾科夫鏈蒙特卡洛法(Markov Chain Monte Carlo,簡稱MCMC)是一種常用的樣本生成技術(shù)。MCMC使用蒙特卡洛積分,構(gòu)造了一條平穩(wěn)分布為已知的復(fù)雜分布的Markov鏈,通過這條Markov鏈產(chǎn)生樣本。在計算模擬數(shù)據(jù)的教學環(huán)節(jié)中,教師將訓(xùn)練學生對于這些理論與抽樣技術(shù)的理解與運用。在基于真實場景數(shù)據(jù)的算法驗證教學中,首先,教師向?qū)W生介紹數(shù)據(jù)的獲取方式。數(shù)據(jù)獲取主要有兩種方式:第一種獲取方式,從現(xiàn)有的數(shù)據(jù)存儲網(wǎng)站下載。例如

        Kaggle,它是一個為數(shù)據(jù)業(yè)務(wù)客戶和數(shù)據(jù)分析愛好者提供機器學習、數(shù)據(jù)競賽的平臺。Kaggle于2010年創(chuàng)立,歷經(jīng)10年的發(fā)展,現(xiàn)已成為數(shù)據(jù)科學領(lǐng)域最具知名度的競賽網(wǎng)站之一。目前,很多研究生的科研課題都來自于該平臺的開放數(shù)據(jù)競賽內(nèi)容,同時該平臺還有很多優(yōu)秀的數(shù)據(jù)業(yè)務(wù)解決方案,供全世界的數(shù)據(jù)科學愛好者學習交流。另一個知名的數(shù)據(jù)存儲平臺UCI,它是一個機器學習算法數(shù)據(jù)庫,提供數(shù)據(jù)集的實時更新維護,現(xiàn)已成為學生、教師和科研工作者主要的機器學習數(shù)據(jù)源。第二種獲取方式,即使用“爬蟲”計算技術(shù),從網(wǎng)站實時抓取數(shù)據(jù)。這種數(shù)據(jù)獲取技術(shù)的優(yōu)點是可以動態(tài)獲取更新的數(shù)據(jù),但對計算機編程能力要求較高。其次,教師向?qū)W生介紹數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的重要環(huán)節(jié),預(yù)處理的效果直接影響后續(xù)數(shù)據(jù)分析的準確性。在數(shù)據(jù)預(yù)處理的教學中,教師將介紹常見的特征提取與歸一化方法。最后,教師向?qū)W生講授變量選擇與特征工程技術(shù)。來自現(xiàn)實業(yè)務(wù)場景的數(shù)據(jù),通常包含太多的特征變量,而它們中的大多數(shù)與所研究問題無關(guān)。如何從眾多的變量中挑選出相關(guān)的變量,是首先需要解決的問題。變量選擇通常在某一準則下進行,如AIC準則、BIC準則等。在數(shù)據(jù)分析問題里,特征工程是必做的分析過程,在這一過程中,將對所選變量進行加工、整理、提煉等操作。數(shù)據(jù)實踐證明,好的特征工程將有助于提高預(yù)測模型的精準度,甚至不需要使用高級的數(shù)據(jù)模型也能得到高精度的結(jié)果。在實踐教學中,教師應(yīng)采用漸進式的方式,引導(dǎo)學生建立自己的特征工程,從大量的實踐環(huán)節(jié)培養(yǎng)學生的綜合運用能力。

        三、以編程為主的案例實操教學“數(shù)理統(tǒng)計學”和“機器學習”與計算機的聯(lián)系越來越密切。以編程為主的算法實現(xiàn)是學生必備的專業(yè)素養(yǎng)。為此,教師在授課全過程要求學生至少熟練掌握一門編程工具。例如,R語言或Python語言。同時,教師鼓勵學生同時掌握這兩種編程語言,可以根據(jù)問題需要,在兩者之間靈活選擇。計算編程是一個由熟練到精通的循序漸進的過程。R語言偏重于統(tǒng)計模型、方法的編程實現(xiàn),在CRAN(The Comprehensive R Archive Network)網(wǎng)站有3千多個實現(xiàn)各種統(tǒng)計計算的函數(shù)包方便學生下載使用。在教學過程中,教師鼓勵學生將所學、所解的統(tǒng)計模型,編寫成R包,上傳到CRAN網(wǎng)站,訓(xùn)練學生的R編程設(shè)計能力。Python是機器學習熱門編程軟件,它提供了功能強大的算法庫實現(xiàn)各種算法。例如,機器學習通用算法庫scikitlearn、數(shù)值運算庫pandas、NumPy、數(shù)據(jù)可視化庫matplotlib、深度學習庫keras等。教師在講授各種機器學習算法理論的同時,積極引導(dǎo)學生自主學習常用的Python庫函數(shù),培養(yǎng)學生借助Python庫便利化編程的意識和能力。學生普遍對編程訓(xùn)練感興趣,以編程帶動理論學習的教學模式,收到了良好的教學效果。

        參考文獻:

        [1]? 茆詩松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計[M].第2版,北京:高等教育出版社,2006:237.

        [2]? 周志華.機器學習[M].北京:清華大學出版社,2016:191.

        [3]? 王化琨,李春艷,陳莉莉.“多元統(tǒng)計分析”課程教學內(nèi)容與教學方法的改革與實踐[J].黑龍江教育(理論與實踐),2019,73(12):56.

        ■ 編輯∕陳晶

        2540501186295

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應(yīng)用
        久久久av精品波多野结衣| 无码天堂亚洲国产av麻豆| 久久HEZYO色综合| 免费人成黄页网站在线一区二区| 精品无码一区二区三区爱欲| 国产亚洲人成a在线v网站| 91国在线啪精品一区| 亚洲男人的天堂色偷偷| 男吃奶玩乳尖高潮视频| 婷婷五月综合丁香在线| 亚洲欧美中文v日韩v在线| 久久久国产精品三级av| 色又黄又爽18禁免费网站现观看| 台湾佬自拍偷区亚洲综合| 韩国精品一区二区三区| 蜜桃视频网址在线观看| 久久久久久久亚洲av无码| 丰满女人又爽又紧又丰满| 大陆啪啪福利视频| 日本不卡视频一区二区| 国产又粗又黄又爽的大片| 亚洲国产精品自拍一区| 在线看不卡的国产视频| 99久久国产精品网站| 97成人碰碰久久人人超级碰oo | 久久久久久无中无码| 亚洲成人av一区免费看| 性色欲情网站| 国产午夜视频在永久在线观看| 日本不卡的一区二区三区| 日韩a级精品一区二区| 久久久久久伊人高潮影院| 久久精品成人亚洲另类欧美| 一本色道久久亚洲av红楼| 中文字幕人妻中文| 最新国产午夜福利| 中文字幕精品久久一区二区三区| 国内少妇毛片视频| 亚洲国产成人精品无码区在线观看| 国产在线观看不卡网址| 草草影院ccyy国产日本欧美|