陳智敏 黃細(xì)光 宋新波 廣東省中山市中山紀(jì)念中學(xué)
人工智能教育實(shí)踐已成為我國(guó)推動(dòng)人工智能發(fā)展的重要戰(zhàn)略之一,探索中小學(xué)人工智能教育相關(guān)內(nèi)容與策略對(duì)其未來發(fā)展具有一定的指導(dǎo)性作用。人工智能教育不等同于程序設(shè)計(jì)教育,也不僅僅是學(xué)習(xí)如何調(diào)用庫函數(shù)并調(diào)整參數(shù)實(shí)現(xiàn)想法,清華大學(xué)從2021年開始發(fā)起人工智能大中銜接課程培訓(xùn),以期幫助中學(xué)生系統(tǒng)了解人工智能前沿發(fā)展方向并學(xué)習(xí)相關(guān)的核心知識(shí)、原理,掌握人工智能的基本概念、思想方法和重要算法等,并從科學(xué)的視角觀察和理解前沿科研成果,熟悉典型的人工智能系統(tǒng),了解有關(guān)機(jī)器學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的基本原理,初步具備用經(jīng)典人工智能方法解決一些簡(jiǎn)單實(shí)際問題的能力,涉及的主要內(nèi)容包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)等。
中學(xué)不僅是大學(xué)的生源基地,更是大學(xué)教育的前端基地,能否把中學(xué)和大學(xué)的人工智能教育有效貫通、相互銜接,將最終影響人工智能教育領(lǐng)域綜合改革的深入開展和國(guó)家重大戰(zhàn)略發(fā)展。銜接貫通大學(xué)中學(xué)人工智能拔尖創(chuàng)新人才培養(yǎng)的高中人工智能課程側(cè)重于理解前沿發(fā)展方向中的核心原理,并具體表現(xiàn)為計(jì)算思維中的問題“抽象”與“建?!?。“抽象”與“建?!睂?duì)于智能時(shí)代的學(xué)生而言是非常重要的思維,其中“抽象”是指通過對(duì)復(fù)雜的現(xiàn)實(shí)問題進(jìn)行有針對(duì)性的分析挖掘,發(fā)現(xiàn)關(guān)鍵、本質(zhì)的特征要素,并符號(hào)化、數(shù)字化為計(jì)算機(jī)可以處理的特征,從而將復(fù)雜問題簡(jiǎn)化為數(shù)學(xué)問題;“建模”則是根據(jù)抽象出的問題中特征要素之間的關(guān)系,采用適合的方式進(jìn)一步表達(dá)為數(shù)量關(guān)系和空間關(guān)系以建立機(jī)器模型。然而,目前高中人工智能教育重技能輕思維,真正深入探討核心原理的還比較少,因而難以體現(xiàn)出人工智能教育的基本思想,學(xué)生也很難領(lǐng)悟到關(guān)鍵知識(shí)和其中的技術(shù)原理。因此,如何在教學(xué)實(shí)施過程中聚焦培養(yǎng)學(xué)生的“抽象”和“建?!彼季S,最終培養(yǎng)和發(fā)展學(xué)生的計(jì)算思維并完成對(duì)相關(guān)人工智能應(yīng)用的核心原理的理解,非常值得探究。
監(jiān)督學(xué)習(xí)是通過讓機(jī)器學(xué)習(xí)帶有標(biāo)簽的訓(xùn)練數(shù)據(jù),進(jìn)而通過特定的算法令其學(xué)習(xí)和挖掘數(shù)據(jù)所包含的特征或者關(guān)系等,總結(jié)規(guī)律,進(jìn)而訓(xùn)練出相應(yīng)的機(jī)器模型并使該模型可以實(shí)現(xiàn)具體的預(yù)測(cè)和分類功能等。需要注意的是,在利用監(jiān)督學(xué)習(xí)訓(xùn)練機(jī)器模型進(jìn)行相關(guān)事件預(yù)測(cè)時(shí),如果預(yù)測(cè)的變量是連續(xù)的,如想要預(yù)測(cè)一下明天的氣溫是多少攝氏度,攝氏度的取值在數(shù)軸上是“連續(xù)不間斷”分布的,這個(gè)過程稱為“預(yù)測(cè)”;而如果預(yù)測(cè)的變量是離散的,如想要預(yù)測(cè)一下是晴天或者陰天還是下雨,取值只有有限種可能,這個(gè)過程稱為“分類”。監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)正體現(xiàn)了問題抽象、問題建模、設(shè)計(jì)算法、描述算法等過程,其中“抽象”與“建模”是關(guān)鍵,對(duì)問題的解決至關(guān)重要,引導(dǎo)學(xué)生嘗試抽象特征,簡(jiǎn)化問題并構(gòu)建模型,有助于深入認(rèn)識(shí)和理解監(jiān)督學(xué)習(xí)的核心原理,因此,“抽象”與“建模”也可以視為銜接貫通大學(xué)中學(xué)人工智能拔尖創(chuàng)新人才培養(yǎng)的高中人工智能課程中培養(yǎng)計(jì)算思維的關(guān)鍵。
以《監(jiān)督學(xué)習(xí)中的線性回歸預(yù)測(cè)》一課為例,可用精確的數(shù)學(xué)表達(dá)式來表示的關(guān)系稱為函數(shù)關(guān)系,即當(dāng)變量x的取值確定后,有唯一確定的y值與之相對(duì)應(yīng),如正方形的面積和邊長(zhǎng)的關(guān)系;而如果兩個(gè)變量之間存在著非常密切的關(guān)系但又達(dá)不到函數(shù)關(guān)系,如通過散點(diǎn)圖可以發(fā)現(xiàn),頁數(shù)多的圖書往往價(jià)格高,頁數(shù)少的圖書往往價(jià)格低,但頁數(shù)又不是決定價(jià)格的唯一因素,因?yàn)閳D書是否彩色印刷以及暢銷程度等因素都會(huì)影響到價(jià)格,這種關(guān)系則稱為相關(guān)關(guān)系。
學(xué)生結(jié)合數(shù)學(xué)知識(shí)與生活經(jīng)驗(yàn),探討如何根據(jù)圖書頁數(shù)預(yù)測(cè)價(jià)格,包括可以將點(diǎn)連成線進(jìn)而去模擬它們之間的關(guān)系。當(dāng)然,在這個(gè)過程中學(xué)生也會(huì)發(fā)現(xiàn),如果刻意去逼近,雖然數(shù)據(jù)都出現(xiàn)在線上,一定程度上也體現(xiàn)出了關(guān)系,但需要去求解一個(gè)分段函數(shù),過于復(fù)雜也因此很難具有實(shí)際預(yù)測(cè)功能;大部分學(xué)生也會(huì)通過觀察發(fā)現(xiàn)點(diǎn)大致都落在一條從左下角到右上角的直線附近,隨著書頁數(shù)的增加,相應(yīng)的價(jià)格也呈現(xiàn)出增加的趨勢(shì),因此這兩個(gè)量之間是存在一種線性相關(guān)關(guān)系的,所以問題便抽象為了找到一條能夠很好地解釋數(shù)據(jù)的線,使得這條直線與樣本數(shù)據(jù)距離都能夠盡量接近。
在抽象的基礎(chǔ)上,引導(dǎo)學(xué)生分析總結(jié)出如果能夠求出這條直線的方程,就可以比較清楚地了解圖書價(jià)格與頁數(shù)之間的關(guān)系,也因而可以根據(jù)頁數(shù)進(jìn)行價(jià)格預(yù)測(cè),但這種相關(guān)關(guān)系不能簡(jiǎn)單地通過解方程組得出,學(xué)生結(jié)合經(jīng)驗(yàn)意識(shí)到可以用一個(gè)線性函數(shù)f(x)=a*x+b[x稱為自變量,f(x)稱為因變量,a稱為斜率參數(shù),b稱為截距參數(shù)]去模擬這種線性關(guān)系并借助一定的算法計(jì)算參數(shù)a和b,當(dāng)然參數(shù)取值的不同也決定了預(yù)測(cè)的效果好壞,如果每個(gè)圖書價(jià)格的預(yù)測(cè)值f(x)和圖書價(jià)格y的真實(shí)值越接近,預(yù)測(cè)效果則越好。所以,學(xué)生會(huì)結(jié)合數(shù)學(xué)基礎(chǔ)提出用n個(gè)數(shù)據(jù)的偏差之和來刻畫模型預(yù)測(cè)效果的好壞,總的偏差越小,模型的預(yù)測(cè)效果越好,由于每一條數(shù)據(jù)的偏差可正可負(fù),為避免相互抵消,可以取每一條數(shù)據(jù)偏差的平方并求和來表示總的偏差Q(如下圖),其中x表示圖書的頁數(shù),y表示真實(shí)價(jià)格。
回歸分析方法常用來研究相關(guān)變量之間的關(guān)系,如何選擇a和b的取值使得總的偏差越小,即函數(shù)Q的值最小,其中Q被稱為損失函數(shù)或者誤差函數(shù),這種將樣本數(shù)據(jù)真實(shí)值到預(yù)測(cè)值偏差的平方和作為損失函數(shù)的方法叫最小二乘法。進(jìn)而采用研究學(xué)習(xí)時(shí)間與考試成績(jī)之間的關(guān)系是否存在相關(guān)性,并通過學(xué)習(xí)時(shí)間預(yù)測(cè)考試成績(jī)的例子幫助學(xué)生了解機(jī)器是如何借助最小二乘法,通過對(duì)相關(guān)數(shù)據(jù)的計(jì)算得到斜率以及截距從而完成建模,最終得到學(xué)習(xí)時(shí)間與考試成績(jī)的回歸模型,在得到機(jī)器模型后,再輸入學(xué)習(xí)時(shí)間,就可以預(yù)測(cè)出相應(yīng)的考試成績(jī)。
以《監(jiān)督學(xué)習(xí)中的感知器分類》一課為例,學(xué)生通過前面的學(xué)習(xí)也已經(jīng)知道機(jī)器要完成分類任務(wù)也需要先基于已有的帶標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí),而這些數(shù)據(jù)本身是具有自己的特征和屬性的,機(jī)器會(huì)使用相應(yīng)的算法提取相應(yīng)的特征并總結(jié)規(guī)律進(jìn)行分類。可借助英荔AI訓(xùn)練平臺(tái)以及“Machine Learning for Kids”等平臺(tái),幫助學(xué)生通過體驗(yàn),進(jìn)一步總結(jié)梳理出監(jiān)督學(xué)習(xí)中分類的過程,并發(fā)現(xiàn)有效的特征設(shè)計(jì)很大程度上決定了機(jī)器分類結(jié)果的好壞。
關(guān)于提取特征要素,學(xué)生通過觀察發(fā)現(xiàn)所有的訓(xùn)練數(shù)據(jù)中貓基本上都是小鼻子和尖耳朵,而所有的狗幾乎都是大鼻子和圓耳朵的,因此訓(xùn)練集的圖片中可以提取以下兩個(gè)特征——鼻子的大小和耳朵的形狀,引導(dǎo)學(xué)生思考如果每一幅圖片都用兩個(gè)數(shù)字來表示當(dāng)前選擇的特征——一個(gè)數(shù)字表示相對(duì)的鼻子大小,另外一個(gè)數(shù)字表示耳朵圓尖的程度,這樣一張圖片也就是一組數(shù)據(jù)便抽象成了一個(gè)特征向量,把特征向量表示為直角坐標(biāo)系中的一個(gè)點(diǎn),稱為特征點(diǎn),所有這些特征點(diǎn)則構(gòu)成了一個(gè)特征空間,訓(xùn)練集中的圖片也就都可以在這一個(gè)二維的特征空間中表示出來了,其中“鼻子大小”特征和“耳朵形狀”特征分別由水平坐標(biāo)和垂直坐標(biāo)表示。這時(shí),學(xué)生發(fā)現(xiàn)所有的表示貓的特征點(diǎn)和所有表示狗的特征點(diǎn)都聚集成一堆并且區(qū)分開來了,如果用直線作為分界線,那么這個(gè)問題就抽象為一個(gè)簡(jiǎn)單的幾何問題:坐標(biāo)平面中有兩類點(diǎn),畫一條直線將這兩類點(diǎn)分開,即讓計(jì)算機(jī)在精心設(shè)計(jì)的特征空間中找到能夠區(qū)分貓和狗的一個(gè)線性模型。
線性模型包含斜率和截距兩個(gè)參數(shù),這意味著與之前學(xué)習(xí)線性回歸一樣需要根據(jù)訓(xùn)練數(shù)據(jù)的特征為這些參數(shù)找到合適的值。而完成分類任務(wù)的模型可以稱為分類器,即當(dāng)機(jī)器看到貓或者狗的照片時(shí),首先會(huì)提取圖片指定的特征并將這些特征輸入到已經(jīng)訓(xùn)練好的分類器中,分類器能夠根據(jù)這些特征做出預(yù)測(cè)并最終輸出是貓還是狗,所以分類器也可以理解為由特征向量到預(yù)測(cè)類別的一個(gè)函數(shù)。這里需要尋找一個(gè)線性分類器對(duì)貓狗進(jìn)行分類,線性分類器f(x)可以由學(xué)生概括表示出來:f(x,x)=ax+ax+b,其中x、x分別表示鼻子的相對(duì)大小數(shù)據(jù)和耳朵的圓尖程度數(shù)據(jù),f(x,x)稱為因變量,a、a為斜率參數(shù),b為截距參數(shù)。建模的目的就是找到合適的參數(shù)a、a、b,使得對(duì)應(yīng)的分類器能夠區(qū)分貓和狗。后續(xù)提到的感知器是一種訓(xùn)練線性分類器的算法,它是利用被誤分類的訓(xùn)練數(shù)據(jù)調(diào)整現(xiàn)有的分類器的參數(shù),使得調(diào)整后的分類器判斷得更加準(zhǔn)確。
聚焦“抽象”和“建?!钡母咧腥斯ぶ悄芙逃龑?shí)踐有助于在問題解決中滲透計(jì)算思維等核心素養(yǎng),在簡(jiǎn)單的預(yù)測(cè)和分類的基礎(chǔ)上,還可以設(shè)計(jì)后續(xù)的教學(xué)內(nèi)容進(jìn)一步引導(dǎo)學(xué)生針對(duì)問題開展抽象和建模。例如,在利用非監(jiān)督學(xué)習(xí)的K均值聚類算法將景點(diǎn)劃分到景區(qū)的教學(xué)中,引導(dǎo)學(xué)生嘗試選取一些代表性的特征將景點(diǎn)抽象為平面坐標(biāo)體系中的特征點(diǎn)從而形成特征空間,并將特征點(diǎn)之間的相似程度抽象為曼哈頓距離的大小,進(jìn)而采用K均值聚類算法建立聚類模型解決問題;在深度學(xué)習(xí)教學(xué)中引導(dǎo)學(xué)生觀察和分析計(jì)算機(jī)是如何將大腦的神經(jīng)元的集合體抽象為數(shù)學(xué)模型并具體解析隱含層是如何采用卷積運(yùn)算一步步抽象圖片的特征,進(jìn)而理解卷積神經(jīng)網(wǎng)絡(luò)的工作原理等。
當(dāng)然,思維能力的培養(yǎng)并不是一蹴而就的,它需要一個(gè)循序漸進(jìn)的過程,特別是人工智能前沿方向核心原理的分析與探究對(duì)于學(xué)生來說是較難的環(huán)節(jié),需要大量的數(shù)學(xué)知識(shí)作為基礎(chǔ),包括微積分、線性代數(shù)、概率統(tǒng)計(jì)等,這對(duì)一些數(shù)學(xué)基礎(chǔ)較弱的學(xué)生來說更是難上加難。因此,需要細(xì)化探究任務(wù),將探究活動(dòng)拆分為不同層次的小問題,幫助學(xué)生深入了解機(jī)器學(xué)習(xí)的過程,最終掌握算法和原理,并嘗試引導(dǎo)其思考哪些因素會(huì)對(duì)結(jié)果的準(zhǔn)確率造成影響,激發(fā)進(jìn)一步探究學(xué)習(xí)的欲望并嘗試提出優(yōu)化模型的策略,即培養(yǎng)學(xué)生的創(chuàng)新能力。例如,在《監(jiān)督學(xué)習(xí)中的感知器分類》一課中,雖然剛開始鼻子大小和耳朵形狀的組合確實(shí)能區(qū)分出貓和狗,但是由于訓(xùn)練集太小且不夠多樣化,我們發(fā)現(xiàn)基于訓(xùn)練集選擇出來的特征并不能完全有效,因此學(xué)生會(huì)通過討論總結(jié)出:
①可以收集更多的數(shù)據(jù)組成一個(gè)龐大且多樣的訓(xùn)練集,但是不要去刻意迎合數(shù)據(jù)、記憶數(shù)據(jù)從而導(dǎo)致模型無法概括趨勢(shì);
②設(shè)計(jì)更具有辨識(shí)性的特征(如臉型的凹凸、尾巴的形狀等)來進(jìn)一步幫助區(qū)分貓和狗,但是不要過度將模型復(fù)雜化,在一定程度上要簡(jiǎn)化參數(shù);
③用設(shè)計(jì)的特征訓(xùn)練新的模型并用同樣的方式來測(cè)試,看它與原來的模型相比是否有所改進(jìn)。
值得一提的是,聚焦“抽象”和“建模”的高中人工智能教育實(shí)踐在一定程度上還能夠反作用于數(shù)學(xué)關(guān)鍵能力的培養(yǎng),因此也讓信息技術(shù)與數(shù)學(xué)進(jìn)行了更為緊密的融合,讓學(xué)生對(duì)知識(shí)也能夠有更多角度的理解,在一定程度上貫通大學(xué)與中學(xué)人工智能教育,推進(jìn)拔尖創(chuàng)新人才培養(yǎng)的持續(xù)、健康發(fā)展。