王利東 劉婧 張運杰
[摘 要]大數(shù)據(jù)時代,個人生活、科學研究乃至社會管理都需要依靠數(shù)據(jù)進行決策,現(xiàn)代所有人都應該具備大數(shù)據(jù)的理念和思維方式,數(shù)據(jù)素養(yǎng)成為一項通用的技能。線性代數(shù)作為一種數(shù)學工具是工科專業(yè)的必修課,同時也是眾多數(shù)據(jù)分析技術的理論基礎之一。靈活掌握線性代數(shù)知識對于數(shù)據(jù)素養(yǎng)的培養(yǎng)至關重要。本文以數(shù)據(jù)處理原理為引例,探索將數(shù)據(jù)素養(yǎng)教育融于線性代數(shù)教學及自主學習中的教學方法,并以此引導學生掌握數(shù)據(jù)科學的數(shù)學理論,培養(yǎng)學生的創(chuàng)新精神,提高對新知識的求知欲,擴展學生處理大數(shù)據(jù)的思維方式。
[關鍵詞]線性代數(shù);教學模式;數(shù)據(jù)素養(yǎng)
[中圖分類號] G642.0 [文獻標識碼] A [文章編號] 2095-3437(2020)06-0094-03
一、背景
“大數(shù)據(jù)”作為繼云計算、物聯(lián)網(wǎng)之后的又一顛覆性技術,已成為決定國家綜合國力強弱的關鍵資源,因此了解大數(shù)據(jù)的理念、培養(yǎng)大數(shù)據(jù)的思維方式是非常重要的。普遍認為的數(shù)據(jù)素養(yǎng)是指個體在一定行為規(guī)范內(nèi)讀取、理解、創(chuàng)建和分享數(shù)據(jù)的能力。擁有數(shù)據(jù)素養(yǎng)就是具備了一項通用的技能,使得自己在“一切都被記錄,一切都被分析”的數(shù)據(jù)化時代更好的生存和發(fā)展[1]。較好的量化推理能力和數(shù)據(jù)思維已被公眾認為是最該具備的素養(yǎng)。
目前,國內(nèi)高校所開設的數(shù)據(jù)素養(yǎng)通識課程大都以圖書情報信息檢索為主要授課內(nèi)容,這與當今流行的數(shù)據(jù)技術以及與培養(yǎng)數(shù)據(jù)思維相關的教學內(nèi)容有較大差別。由于這些課程面向的是本專業(yè)學生,對前期專業(yè)基礎知識要求較高,即便是眾多高校均開設相關課程,也尚未達到通識教育目的,因此需要發(fā)展多方位的數(shù)據(jù)素養(yǎng)教育實踐活動。培養(yǎng)數(shù)據(jù)素養(yǎng)應是一種終身學習過程,學習教育對學生的影響不能追求立竿見影的效果,因此應該做長遠打算,追求潛在的、深遠的謀略。讓學生產(chǎn)生興趣,進而將學習的積極性調(diào)動起來,這是最好的學習方式。因此,以通識教育為原則,以培養(yǎng)開闊的視野,提升終身學習能力為目標,把數(shù)據(jù)素養(yǎng)的教育融入本科生基礎課教學過程是非常必要的大學生的未來發(fā)展將起著重要的作用。
二、線性代數(shù)與數(shù)據(jù)素養(yǎng)
近年來隨著科技發(fā)展和社會進步,數(shù)學在大數(shù)據(jù)、互聯(lián)網(wǎng)、通信技術、人工智能等各個新興領域中得到重視,并在某些領域發(fā)揮了關鍵的作用。知名通信科技企業(yè)華為公司也宣稱他們真正的核心科技是數(shù)學。最近阿里巴巴公司發(fā)起全球數(shù)學競賽,獎金百萬,鼓勵年輕人熱愛數(shù)學,從數(shù)學中發(fā)現(xiàn)新知。線性代數(shù)作為一門重要的數(shù)學課程,具有強大的應用背景,其理論和方法已經(jīng)滲透到數(shù)學的許多分支,同時也成為人工智能與大數(shù)據(jù)技術支撐的數(shù)學理論基礎之一[2]。無人駕駛、圖像處理、社交網(wǎng)絡和通信系統(tǒng)中的主流智能算法無不以線性代數(shù)為其支撐原理,其重要性不可否定。
三、線性代數(shù)教學模式的思考與借鑒
在國外,線性代數(shù)教學主要采用兩種手段。一種是概念公理化教學,突出線性空間理論、培養(yǎng)學生抽象思維的教學模式。另一種是應用型導向的直覺化教學,突出計算與應用能力[3]。這兩種教學模式各有優(yōu)勢和不足,前者有益于數(shù)學思維的培養(yǎng),對學生后續(xù)學習和發(fā)展有著重要作用,但學生會感覺枯燥。后者具有直觀的優(yōu)點,有助于引導學生入門,但在基于大量軟件教學的模式下,學生對軟件有著依賴性,對培養(yǎng)概念理解能力及深層邏輯思維不利。朱琳和蔣啟芬兩位學者對美國和法國各自線性代數(shù)教學模式的爭論與優(yōu)缺點、三種實踐教學過程的收獲與不足進行了多視角評析,其研究成果為我們本土院校開展教學改革提供了參考[3]。從歷史分析與認識學習視角分析看,兩種教學模式可以相互促進,初始階段的直覺化教學會對后期概念公理化教學產(chǎn)生積極作用,符合學生學習的認知過程。
目前,線性代數(shù)的概念公理化與直覺化協(xié)同教學已經(jīng)引起教師的重視,廣泛采取的方法是以生產(chǎn)實踐中實例作為引例進行概念講解,并結(jié)合數(shù)學軟件進行授課。透過這些實例,讓學生看到數(shù)學的廣泛應用及掌握相關的數(shù)學概念的重要性[4-6]。但是基于實例的教學研究與數(shù)據(jù)素養(yǎng)有聯(lián)系也有一定差別。前者強調(diào)的是應用性,特別是專業(yè)領域的應用;而數(shù)據(jù)素養(yǎng)強調(diào)的是一種通識教育,培養(yǎng)較強的數(shù)據(jù)意識。在大數(shù)據(jù)環(huán)境下,旨在培養(yǎng)數(shù)據(jù)素養(yǎng)的線性代數(shù)教學在強調(diào)直觀教學的同時,也更需要加強對基本概念和基本理論的深入理解,了解現(xiàn)象背后的數(shù)學原理,加強數(shù)學概念的深化教學。本文探索如何將數(shù)據(jù)素養(yǎng)教育融于線性代數(shù)教學及自主學習中,并以范德蒙德行列式和最大無關組的案例教學方式(證明過程此文略去)進行展示。
四、教學設計與擴展分析
范德蒙德行列式和最大無關組是線性代數(shù)中的兩個概念。前者在教材中以例題的形式出現(xiàn):作為一類特殊的行列式,它有著獨特的形式極其簡明的計算結(jié)果;教學中更多關注于它的各種擴展形式的計算(例如加邊法計算范德蒙德行列式)。最大無關組則被用來刻畫向量之間、線性空間結(jié)構(gòu)等問題。范德蒙德行列式與最大無關組不僅是數(shù)學領域中重要的數(shù)學概念,而且在數(shù)據(jù)處理中有著重要的地位。通過了解數(shù)據(jù)處理中的數(shù)學原理,可使得學生了解基本的數(shù)據(jù)處理技能及數(shù)據(jù)意識,更有助于提升他們的學習興趣。
(一)范德蒙德行列式、矩陣及其應用
背景介紹:已知前四個數(shù)字為1,8, 27, 64,預測第五個數(shù)字。課堂上學生很快給出答案是125。這是因為他們觀測到了數(shù)字的變化規(guī)律f(n)=n3。但對于復雜的猜字游戲我們很難立刻給出答案,例如1 ,3 ,6 ,10 的下一位數(shù)字是什么?
問題分析:事實上,數(shù)字是按照先后次序出現(xiàn)的,可以用序?qū)Γ╪, f(n))來刻畫每一個出現(xiàn)的數(shù),既有(1,1),(2,3),(3,6),(4,10)??苫谶@些點通過構(gòu)造一個三次多項式函數(shù)f(x)=c3x3+c2x2+c1x+c0來刻畫數(shù)據(jù)變化規(guī)律。因此,只需計算出常數(shù)c1,c2,c3, c0即可預測下一個數(shù)據(jù)。為此構(gòu)造方程組:
利用范德蒙德行列式計算公式和克拉默法則求解Ac=y,得出c0= c3=0,c1= c2=0.5,由此可知數(shù)字規(guī)律公式為f(n)=0.5(n2+n),f(5)=15。以上恰是數(shù)據(jù)擬合的主要過程,更特別地,在Matlab軟件內(nèi)部曲線擬合函數(shù)p=polyfit(x,y,1) 編程過程中也主要體現(xiàn)了這一點。
擴展分析:猜數(shù)字游戲直覺上是找規(guī)律,背后蘊含著線性方程組求解問題。以上預測方法巧妙利用范德蒙德行列式求構(gòu)造多項式函數(shù),以冪函數(shù)作為基函數(shù)來逼近任何形式的函數(shù),這種方法不但容易求解,而且可以使得結(jié)果具有良好的數(shù)學性質(zhì)。
下面將以指數(shù)型函數(shù)作為基函數(shù)做出逼近曲線并將兩者進行對比。假設曲線過(1.2, 0.91),(1.5, 0.69),(1.9, 0.43), ?(2.5, 0.27), ?(2.6, 0.25)五個點,從圖像上看這些點位于指數(shù)函數(shù)y=3ex圖像附近。我們可基于這些點通過構(gòu)造一個四次多項式f1(x)=c4x4+c3x3+c2x2+c1x+c0,通過建立方程組可求得c4=-0.3323,c3=2.5625,c2=-6.9402,c1=7.2474,c0=-1.5320。同時選指數(shù)函數(shù)1,ex作為基函數(shù)來生成曲線逼近以上五點。通過求解獲得逼近曲線f2(x)=2.9427ex+0.0214,其與f1(x)對比見圖1。由圖1可以看出,盡管五個點位于指數(shù)函數(shù)y=3ex數(shù)的附近,但f1(x)的逼近效果要比f2(x)好。實際上還可進一步借助逼近誤差來論述這一斷言。
(二)最大無關組及應用
問題引入:在自然界中,大部分彩色均可由三種基色按一定比例混合而成;反之,任意一種彩色均可被分解為三種基色。作為基色的三種彩色不是唯一的,但它們之間要相互獨立,即其中任何一種基色都不能由另外兩種基色混合來產(chǎn)生。通常人眼對紅、綠、藍最為敏感,大多數(shù)的顏色可以通過紅、綠、藍作為三基色按照不同的比例合成產(chǎn)生。但是除了紅綠藍作為基色外,還可以選擇其他的三種顏色作為基色,見圖2。
問題分析:實際上圖像的每個像素點是一個三維向量(R, G, B),其分量值分別代表紅綠藍的分量[7]。任何像素點的顏色均由三個向量按照不同比例配置而成,而這三種顏色缺一不可。例如:Red=(255, 0, 0), Green=(0, 255, 0),Blue=(0,0,255). Yellow=Red+Green=(255, 255, 0)。與顏色組合類似,討論向量組線性關系問題時,我們希望掌握部分向量從而把握全局。這少數(shù)部分向量應該滿足:1.不能相互代替——彼此線性無關;2.其余的向量都可以用它們表示——其余向量可由這部分向量線性表示。 滿足以上兩條的向量組就是全體向量組的一個最大無關組。用數(shù)學語言表達如下:
定義引入:設存在向量組a1,a2,…, as的一個部分組ai1,ai2,…,air,滿足:
(1) ai1,ai2,…, air線性無關;
(2)任意的向量ai均與ai1,ai1,ai2,…,air線性相關(等價于任意的ai均可由ai1,ai1,ai2,…,air線性表示),則稱部分組[αi1,αi2,…,αir]是向量組a1,a2,…, as的一個最大線性無關組(簡稱最大無關組)。
擴展分析:直覺上,最大無關組是選最優(yōu)代表問題,其背后是尋找向量空間基的過程。在數(shù)據(jù)挖掘中也有著類似的過程,特征選擇或?qū)傩赃x擇的目的是從已有的M個特征中選擇N(N≤M)個特征使得系統(tǒng)的特定指標最優(yōu)化,降低數(shù)據(jù)集的維度。要求滿足選擇出的N個特征之間的重疊性盡可能小,且與類別信息關聯(lián)性較大(特征子集信息量大,冗余小)。這個原則與最大無關組很接近,但又不能直接照搬。這是因為,不同特征向量,很少具有線性關系,往往采用其他度量方法(一致性、互熵、皮爾遜系數(shù)、依賴度和分類誤差等)作為特征選擇的衡量標準。但無論使用何種標準,其思想與最大無關組都有相似之處。
現(xiàn)以Iris數(shù)據(jù)集的特征選擇為例。Iris數(shù)據(jù)集是數(shù)據(jù)挖掘領域最著名的公開數(shù)據(jù)集,其中文名是安德森鳶尾花卉數(shù)據(jù)集。Iris包含150個樣本,每個樣本對應著四個特征(花萼長度、花萼寬度、花瓣長度、花瓣寬度四個特征)和類別信息(山鳶尾、變色鳶尾、維吉尼亞鳶尾),所以Iris數(shù)據(jù)集是一個150行5列的二維表?,F(xiàn)在需要判斷樣本屬于山鳶尾、變色鳶尾還是維吉尼亞鳶尾。我們希望采用最少的特征來建立分類器,故需要探索各個特征的重要性。由Iris數(shù)據(jù)的散點圖(圖3)可知,花瓣長度、花瓣寬度對分類貢獻率最大,因此只選這兩個特征來建立分類器就能達到較好的分類效果。至于花瓣長度、花瓣寬度兩個特征關聯(lián)性是否較大,可采用數(shù)據(jù)挖掘中最大相關最小冗余方法進一步探索。
提高學生的數(shù)據(jù)素養(yǎng)單單依賴課堂教學遠遠不夠,在提升他們學習興趣的同時,應考慮如何給學生提供一個提升數(shù)據(jù)素養(yǎng)能力的重要途徑。這需要將教學和科研、生產(chǎn)實踐有效地結(jié)合起來,讓學生廣泛參與到科研活動中。在課后可以以專業(yè)實驗室和科研課題為依托,以通識教育為主,深入剖析基本理論適用價值及數(shù)據(jù)信息提取的意義;對于掌握了統(tǒng)計學的基本知識和計算軟件的學習者,可以以課外實踐訓練為主,鼓勵學生參與教師的課題進行探索達到對實際數(shù)據(jù)的理解、推理、發(fā)現(xiàn)和建模決策能力。
五、結(jié)論
本文以實例為背景探索了引入線性代數(shù)相關定義及計算方法的教學模式,通過搭建線性代數(shù)與數(shù)據(jù)分析的橋梁,使得學生直觀體會到線性代數(shù)在數(shù)據(jù)分析中的重要性,并加以概念化掌握理論知識點,了解解決實際問題的方法。在各章節(jié)的教學中,通過將相關的算法思想和實際應用案例貫串其中,潛移默化,進而培養(yǎng)學生的數(shù)據(jù)素養(yǎng),使其自覺地去認識與體驗數(shù)據(jù)處理的方法。這不僅有助于提升學生學習積極性,更有益于學生今后的職業(yè)發(fā)展。然而,目前的線性代數(shù)知識對于大數(shù)據(jù)和人工智能所需的理論基礎還遠遠不夠,那些涉及矩陣論與優(yōu)化算法相關知識的實驗活動可作為課外擴展來進行。
[ 參 考 文 獻 ]
[1] 周濤. 為數(shù)據(jù)而生:大數(shù)據(jù)創(chuàng)新實踐[M]. 北京:北京聯(lián)合出版公司, 2016.
[2] 趙月瑩. 從數(shù)學思維角度淺析傳統(tǒng)數(shù)學運算在未來計算機科學術領域中人工智能方面的應用[J]. 中國戰(zhàn)略新興產(chǎn)業(yè), 2018(4): 3-4.
[3] 朱琳, 蔣啟芬. 國外線性代數(shù)的教學研究述評[J]. 數(shù)學教育學報,2018(1): 79-84.
[4] 王利東, 劉婧. 從應用實例出發(fā)的線性代數(shù)教學模式探討[J]. 數(shù)學教育學報, 2012(3): 83-85.
[5] 劉耀軍,張姍梅. 基于問題解決的線性代數(shù)概念教學[J]. 高師理科學刊,2016(2): 50-54.
[6] 田仁碧. 大數(shù)據(jù)背景下線性代數(shù)課程教學改革初探[J]. 數(shù)學學習與研究,2017(9):34.
[7] 黃靜靜. 基于建模案例的極大線性無關組微課教學設計[J]. 課程教育研究, 2015(13):120.
[責任編輯:林志恒]