李小平 張琳 孫清亮 姜麗萍 陳建珍
摘? ?要:教育大數(shù)據(jù)的出現(xiàn)無疑對教育人工智能機器學習是一個極大的推動,但是推動的核心在哪里、智能的條件和數(shù)據(jù)挖掘的條件是什么、智能有哪些步驟、如何完成機器學習下的教育智能化,一系列問題擺在智能教育推動者的面前。文章針對以上問題進行了實證分析研究,對教育數(shù)據(jù)進行了系列分析,找出了教育數(shù)據(jù)變化的規(guī)律和數(shù)據(jù)性質(zhì),給出了摸索數(shù)據(jù)與事件之間關(guān)系的方法——機器學習,并對主流機器學習進行了系統(tǒng)性分析,找出了一種適合于人類、適合于教育類型、在陌生環(huán)境下可學習、結(jié)果透明、可解釋的擬人機器學習系統(tǒng)。
關(guān)鍵詞:教育大數(shù)據(jù);擬人學習;機器學習
中圖分類號:G434 文獻標志碼:A 文章編號:1673-8454(2020)21-0001-06
一、引言
教育教學的智能化是相對而言的,智能只能輔助教育發(fā)現(xiàn)問題、找出教學規(guī)律、輔助發(fā)現(xiàn)教學應(yīng)力問題,有相當行業(yè)的數(shù)據(jù)問題呈現(xiàn)出的是非準確的、非感知的、非捕捉的、非規(guī)律的、非人類遇到的問題,這種無規(guī)律的現(xiàn)象只能通過擬人的方法解決,并通過人的干預和認識,找出潛在的事物規(guī)律。
而當今技術(shù)的發(fā)展徹底改變了我們尋找教育教學潛在規(guī)律的方法和概念,這些進步主要是基于數(shù)據(jù)的量、復雜度和來源的指數(shù)級別的增長。由于這些技術(shù)極大地影響了我們應(yīng)對具有豐富數(shù)量環(huán)境的能力,輸入的數(shù)據(jù)是非線性的、非固定的、多模態(tài)/異構(gòu)流的,混合了各種物理變量和信號以及圖像、視頻和文字,多源異構(gòu)的大數(shù)據(jù)出現(xiàn)了。[1]教育大數(shù)據(jù)是大數(shù)據(jù)在教育領(lǐng)域的具體表現(xiàn)形式,它為新時代的教育教學創(chuàng)新提供了新的思路和方法,站在人的教育角度上相關(guān)研究如何從海量的教育大數(shù)據(jù)中提煉少量教學本質(zhì)的信息、如何掌握其從大變小的過程、如何使人類教育帶上人的特征或具有人的思維,那就必須從分析教育大數(shù)據(jù)問題下手。
要讓教育具有人的思維和人的智力,先要完成對各種教育教學形態(tài)的辨識,只有在辨識的前提下才能夠?qū)栴}進行決策。如何認識事物和分清事物類型,就要對海量的教育數(shù)據(jù)進行機器訓練,形成模型方可實現(xiàn)智能控制和決策,教育智能化概要如圖1所示。
二、教學大數(shù)據(jù)特性研究
要研究人工智能,就要對數(shù)據(jù)來源和數(shù)據(jù)性質(zhì)進行研究,找出數(shù)據(jù)事件的性質(zhì)和類型,為下一步機器學習提取模型做準備。IT技術(shù)不斷發(fā)展,隨著教學辦公自動化的推進、教育技術(shù)的興起、教育技術(shù)地區(qū)差異化的普及應(yīng)用,也產(chǎn)生了教學管理意志的不統(tǒng)一、數(shù)據(jù)化標準化建設(shè)程度不健全、教學政策變化過快導致政策不連續(xù)等情況,致使教育數(shù)據(jù)呈現(xiàn)出內(nèi)涵和外延兩大特性,如表1所示。
1.教學大數(shù)據(jù)時間軸問題研究
教學大數(shù)據(jù)時間軸描述的是多個事件發(fā)生的過程中所產(chǎn)生事件之間的順序以及關(guān)系,它反映的是事件的特性。我們擬通過數(shù)據(jù)機器學習可以找出對應(yīng)的教學策略和教學結(jié)果,還可以完成對事件的預測。[2]在時間軸上尋找事件之間的規(guī)律和關(guān)系是數(shù)據(jù)挖掘重要的研究方向,時間軸反映了事件的密度和數(shù)據(jù)的密度。
(1)事件密度:事件密度包括事件的慣性、事件的強弱、事件的稀疏、事件的疊加、事件影響力的持續(xù)、幾個數(shù)據(jù)源對一個事件反映的錯位以及突發(fā)事件的出現(xiàn)等。
(2)數(shù)據(jù)密度:數(shù)據(jù)密度與學習的慣性有關(guān),例如學習者在業(yè)余時間上網(wǎng)集中等,這些都是教學慣性所反映的密度,屬于正常密度。而那些不是預期范圍的、突發(fā)的問題則是非正常密度,例如校園出現(xiàn)的突發(fā)沖突等。
2.教學大數(shù)據(jù)對象問題研究
教學大數(shù)據(jù)研究的對象是指那些在教學研究過程中起關(guān)鍵作用的、能被激活的數(shù)據(jù)。站在不同的教學者角度所關(guān)心的數(shù)據(jù)各不相同,因此需要在進行數(shù)據(jù)挖掘研究之前先確定所要研究的數(shù)據(jù)對象,其確定流程如圖2所示。這個過程是在經(jīng)驗的基礎(chǔ)上實現(xiàn)的,依據(jù)教學經(jīng)驗可以確定不同角色所關(guān)心的問題,由于關(guān)心的問題不同,需要獲取的數(shù)據(jù)就會不同,在此基礎(chǔ)之上展開大數(shù)據(jù)的處理。
3.教學大數(shù)據(jù)變化規(guī)律問題研究
教學過程是一個動態(tài)的過程,教學記錄數(shù)據(jù)會隨著教學過程的推進而不斷發(fā)生變化,并且呈現(xiàn)出明顯的特性,其中包括:
(1)慣性特性:教育一直延續(xù)著它的政策和慣性向前推進,這種推進是要符合教學規(guī)律的。教學數(shù)據(jù)同樣常年存在著穩(wěn)定性,在沒有政策跳變的情況下,這些數(shù)據(jù)將維持著自己的變化規(guī)律,保持著一定的慣性特性。
(2)突發(fā)特性:教學過程中突發(fā)事件的產(chǎn)生將會導致教學數(shù)據(jù)的突變,這將對教學規(guī)律的挖掘產(chǎn)生一定的影響,但同時它也會從另一個角度反映出教學中存在的問題,對全面了解教學情況提供一定的依據(jù)。
(3)無規(guī)律特性:教學數(shù)據(jù)的變化雖然長期呈現(xiàn)一種變化的態(tài)勢,但針對某些具體類型的數(shù)據(jù),尤其是一些主觀教學活動產(chǎn)生的數(shù)據(jù),它的變化卻是無規(guī)律的,這就需要進一步對其分析來獲取這些數(shù)據(jù)變化的原因。
(4)疊加特性:影響教學過程數(shù)據(jù)的因素很多,這些因素有時候會單一地作用于教學數(shù)據(jù),但絕大多數(shù)情況下會出現(xiàn)多因素共同作用于同一教學數(shù)據(jù)的情形,于是就會產(chǎn)生疊加效應(yīng)。疊加效應(yīng)的出現(xiàn)會加劇問題的復雜化,為數(shù)據(jù)的分析帶來很多困難,例如一個政策產(chǎn)生影響的過程中又出現(xiàn)另一個新的政策,就會產(chǎn)生相互疊加和相互影響的問題,往往會打破教學規(guī)律。
(5)因果規(guī)律特性:數(shù)據(jù)的因果關(guān)系反映了數(shù)據(jù)之間的聯(lián)系,通過對數(shù)據(jù)聯(lián)系的分析,就可以挖掘出教學現(xiàn)象的原因。數(shù)據(jù)的因果規(guī)律可以根據(jù)影響因素的多少分為單因素因果關(guān)系和多因素因果關(guān)系,根據(jù)影響的結(jié)果還可以分為線性因果關(guān)系和非線性因果關(guān)系兩種。
4.教學大數(shù)據(jù)衍生問題研究
教學中除了常規(guī)的內(nèi)涵數(shù)據(jù)和外延數(shù)據(jù)之外,還存在很多衍生數(shù)據(jù)。通過衍生形成的新數(shù)據(jù)其本身的特性和作用點都將發(fā)生變化,衍生改變了數(shù)據(jù)的性質(zhì),對數(shù)據(jù)挖掘起到了輔助作用,它可以作為參考源,但不是挖掘的主流數(shù)據(jù)源。例如,在對學習者進行困難補助評選中,學習者在食堂的消費數(shù)據(jù)可以作為參考數(shù)據(jù),但不能作為主要依據(jù),它本身具有片面性,不能準確反映事實。[3]
5.教育大數(shù)據(jù)的分析結(jié)論研究
通過以上對教育數(shù)據(jù)的分析找出了教育數(shù)據(jù)的運行規(guī)律,找出了事件之間的、數(shù)據(jù)的對應(yīng)規(guī)律,找出了事件和事件干擾所帶來的影響因子。由于歷史原因和管理因素的不系統(tǒng)性,造成主體數(shù)據(jù)和相關(guān)數(shù)據(jù)都不系統(tǒng),整體數(shù)據(jù)結(jié)構(gòu)混亂,雖然出現(xiàn)了多源異構(gòu),但是,邏輯規(guī)律非常不清晰,無法界定某一個事件集的數(shù)據(jù)是相對獨立或完整的。如果按照抽樣比對分析的方法,數(shù)據(jù)抽樣明顯,不具備有規(guī)律采集的條件。如果按照所有大數(shù)據(jù)進行訓練并進行相應(yīng)的聚類分析等,明顯出現(xiàn)了數(shù)據(jù)的缺陷現(xiàn)象。如果按照單一事件去尋求教學教育的規(guī)律,明顯不符合當今教學形式。怎樣才能夠?qū)虒W教育的事件進行有針對性的捕捉,如何在龐雜無章的教育大數(shù)據(jù)中識別事物的真相,如何進行區(qū)分和判別分類,并通過規(guī)則完成對事件的定位分類、形成人工智能模型,這是當今研究的重大課題。
三、神經(jīng)網(wǎng)絡(luò)機器學習方法的應(yīng)用分析
在實施國家自然科學基金項目“考試作弊行為分析與研究”中,BP神經(jīng)網(wǎng)絡(luò)學習對考場動作行為影響方面,筆者進行了研究:對作弊行為進行訓練,采集無限個樣本場景,對作弊圖像進行學習,試圖找到中間結(jié)果,試圖解釋出決策的原因,我們采用了神經(jīng)網(wǎng)絡(luò)機器學習的BP神經(jīng)網(wǎng)絡(luò)進行訓練分析。
本文共使用了135幅圖像195個人臉進行實驗,其中包括正臉80個、側(cè)臉65個、俯視姿態(tài)50個,實驗結(jié)果統(tǒng)計如表2所示。
在考試實際應(yīng)用過程中,獲得的二維考試現(xiàn)場往往是不確定的,試卷圖像的大小、光線、角度、干擾、遮蓋程度都直接影響其學習效果,必須完成嚴格的圖像預處理,才可進行圖像對象定位、特征學習訓練。僅從訓練字母數(shù)字相似度問題分析,我們?yōu)榱藴p少機器學習次數(shù),采用了基于級聯(lián)分組網(wǎng)絡(luò)將每次分類任務(wù)簡單化的思想,將神經(jīng)網(wǎng)絡(luò)的任務(wù)簡單化以提高其辨別能力。整個系統(tǒng)分成兩級,第一級進行粗分類,即將相似的字符分為同一類別;第二級再對每個類別進行細分類,即將相似的字符區(qū)分開來。這樣,每個子網(wǎng)絡(luò)分類的數(shù)目就會減少很多,特別是第二級子網(wǎng),就是區(qū)分幾個類似的字符。整個框架如圖3所示。
在機器學習訓練輸入層、隱含層和輸出層節(jié)點數(shù)上,通常隱含層節(jié)點數(shù)越多越慢,但可達到更小的誤差值,特別是訓練樣本誤差,但超過一定的數(shù)目后,再增加則對降低誤差幾乎沒有幫助,卻陡然增加執(zhí)行時間。[4]這主要是網(wǎng)絡(luò)變得更加復雜、收斂更慢。因此,隱含層節(jié)點數(shù)目應(yīng)當通過試驗選取,是與其應(yīng)用相吻合的個數(shù)。確定隱含層節(jié)點數(shù)的經(jīng)驗公式是:
s=■+0.51
公式(1)
式(1)中,s為隱含層節(jié)點數(shù),m為輸入層節(jié)點數(shù),n為輸出層節(jié)點數(shù),計算值需經(jīng)四舍五入取整。經(jīng)多個實例驗證,用公式(1)確定隱含層節(jié)點數(shù)比較可靠,一般能滿足訓練要求,有時也需略微調(diào)整。通常隱含層的層數(shù)為一層到兩層時有最好的收斂性質(zhì),太多層或太少層的收斂效果均比較差。為此,我們在算法上進行了改造,有效限定了中間層級,在BP算法性能上取得了一些進展。
但是,整體訓練量非常大,需要采集無限個樣本場景,對作弊圖像進行學習,幾乎對中間結(jié)果無可解釋,內(nèi)部結(jié)構(gòu)不清晰,無法清楚地解釋做出某些決策的原因,自身也不理解正在處理的問題;BP神經(jīng)網(wǎng)絡(luò)能從圖像中提取高級抽象內(nèi)容,但無法以人類可理解的分析方式與所處理的問題相關(guān)聯(lián),沒有明確的內(nèi)部模型、語義結(jié)構(gòu),其隱藏層數(shù)量和許多其它參數(shù)都是臨時確定的,無法在不確定的情境中工作。用結(jié)果對作弊進行實時捕捉,經(jīng)常出現(xiàn)誤判、漏判等致命性錯誤。
四、擬人機器學習問題的研究
讓教育具有人的思維和人的智力,就要完成對各種教育教學形態(tài)的辨識,只有在辨識的前提下才能夠提出問題的決策。對于如何認識事物和分清事物類型,要對海量的教育數(shù)據(jù)進行機器訓練,而訓練是一個非常龐大的工作,訓練生成和處理的數(shù)據(jù)越多,計算就越復雜,耗時就越巨大,安全隱患就越大,風險就越高。由于教育大數(shù)據(jù)具有如此之多的不確定因素,如訓練樣本有限、數(shù)據(jù)不連續(xù)、數(shù)據(jù)呈現(xiàn)簡短特征、數(shù)據(jù)有變化趨勢、事件個性化特征明顯、事件作用相互疊加、干擾度過高等,如果采用傳統(tǒng)的深度學習,無法構(gòu)成訓練環(huán)境及條件,訓練出來的決策如果缺乏透明度,其結(jié)果也無法進行解釋,呈現(xiàn)出中間運算“黑箱”狀態(tài),人們很難斷定訓練結(jié)果是不是百分之百的可靠準確,如果按照傳統(tǒng)深度學習方法去訓練,并將其訓練結(jié)果直接用于汽車自動無人駕駛的項目,很難保證在駕駛中不出事故。[5]
1.擬人機器學習問題的研究
究竟什么樣的訓練方法能夠讓教育決策者知道訓練的中間結(jié)果的方向,所訓練出的結(jié)果是否可靠、科學合理,教育數(shù)據(jù)能否通過機器學習訓練完成智力思維的提升,且不帶來致命的災(zāi)難,不會給人類帶來負面的決策、判斷性危險,這是未來教育人工智能解決問題的關(guān)鍵;針對傳統(tǒng)機器學習訓練種種不足的原因,各國都展開了這方面的基礎(chǔ)研究。美國國防部高級研究計劃局(DARPA)推出了擬人機器學習方法,即機器可以像人類那樣進行學習的方法。
擬人的機器學習訓練環(huán)境更加具有人的因素,需要訓練的結(jié)果更加接近人的意志,不給人帶來復雜的過多的工作量,在擬人的情感、擬人的視點、立體構(gòu)造空間上進行自由思維;擬人可以找出問題,擬人可以對問題進行操控,擬人可以進行自我建構(gòu)。擬人機器學習方法是最近引入的、基于深度規(guī)則系統(tǒng)進行的,從極小訓練數(shù)據(jù)開始逐步建立起模型,通過原型來描述或注釋學到的觀察結(jié)果,解釋系統(tǒng)為何做出決定以及學習一件事。我們將通過擬人的解決方法去處理數(shù)據(jù)教育問題,用擬人思維考慮人的智能參與度和教育自身的智能化。
擬人機器學習的方法非常適合訓練樣本有限、數(shù)據(jù)不連續(xù)、數(shù)據(jù)呈現(xiàn)簡短特征、數(shù)據(jù)有變化趨勢的行業(yè),這種研究思路對非精準的、趨勢性的、允許有一定延遲的、允許有一定干擾的、允許一定影響因子出現(xiàn)的、與目標出現(xiàn)偏差的數(shù)據(jù)訓練更加有效,非常符合教育數(shù)據(jù)特性,人類學習與擬人學習比較問題如表3所示。
擬人化學習會使未來的教育智能機器和機器智能更好地為人類服務(wù),也更與人類相像,同時大幅提高其處理量和自動化水平,更加準確透明,適應(yīng)性強,自學習和計算效率高,更加增強了教育智能化的能力;擬人機器學習比起傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學習更進一步地識別出未知情境,不僅可以識別此前已知的模式,還可以識別意外模式,能夠意識到自身局限,能在面對未知和不可預測的情況時,啟動安全程序,并從中自主學習,可高度自治,對人類友好、透明、符合人性。[6]擬人的機器學習方法非常適合教育智能研究方向,教育的數(shù)據(jù)特點與擬人的分類研究非常擬合。
2.主流機器學習和擬人學習的內(nèi)容比較
目前計算機界推出了三種實現(xiàn)可解釋人工智能(XAI)的方法和模糊邏輯方法,試圖通過近似而非精確或量化的連續(xù)過程模仿人類思維,并在模糊規(guī)則系統(tǒng)(FRBS)上取得了進步,能夠生成更短也更少的條件(if? then)規(guī)則(與數(shù)量無關(guān)),保持系統(tǒng)獲得高清晰度和可解釋性的答案,與傳統(tǒng)FRBS形成鮮明的對比;這是本文重點要推出的方法——擬人機器學習方法,即機器可以像人類那樣進行學習。下面給出幾個主流機器學習和擬人學習的內(nèi)容比較,如表4所示。
3.擬人機器學習在未來教育當中的應(yīng)用研究
能識別未知情境,并從中學習、自主學習,最關(guān)鍵的是基于深度規(guī)則(DRB)系統(tǒng)的;DRB是一個自組織、自適應(yīng)、高透明、收斂性好、并行化基于規(guī)則的架構(gòu)和學習算法,一種通用的新的機器學習方法,可以進行簡單的修改。[7]用于圖像分類的DRB系統(tǒng)的結(jié)構(gòu)示意圖,如圖4所示。
從圖4中可以看到,該分類器由以下組件組成。
(1)預處理塊。它涉及在計算機視覺領(lǐng)域中廣泛使用的預處理技術(shù),包括歸一化、縮放、旋轉(zhuǎn)和分割。
(2)特征描述符。它將原始圖像投影到一個特征空間。使不同類別的圖像分離。I=>X。
(3)大規(guī)模并行模糊規(guī)則庫。它是一種復雜的非線性預測模型,充當系統(tǒng)的“學習引擎”。每個大規(guī)模并行模糊規(guī)則由從訓練集內(nèi)特定類型的樣本中識別的大量原型組成。因此,對于包含c個不同類型的數(shù)據(jù)樣本,例如圖像的訓練集,if…or…or…then…識別出三個并行模糊規(guī)則(既一個類別一個規(guī)則)。
(4)決策器。一個類別帶有一個局部/子決策器,給出一個局部建議。根據(jù)這些大量并行的局部建議的置信度,來決定勝出的類別標簽。
基于識別出的原型RDB,從數(shù)據(jù)中自組織和自我演化一個完全透明且可由人類解釋的條件邏輯(if…then…),大規(guī)模并行FRB系統(tǒng)。每個大規(guī)模并行的模糊規(guī)則是圍繞大量原型確定的。這些原型從特定類型的訓練數(shù)據(jù)樣本中識別出來。RDB方法不是黑盒,它基于原型的特質(zhì)提供內(nèi)部結(jié)構(gòu)的透明度和解釋性。大多數(shù)現(xiàn)有機器學習方法都需要大量訓練數(shù)據(jù),而RDB系統(tǒng)甚至可以從單個例子中學習,也就是從零開始。即使是在完成訓練/部署之后,非迭代在線自主學習算法也能進一步使RDB系統(tǒng)終身不斷地學習新觀察到的樣本。因此它是不斷演化的,對普通的問題場景與特殊場景相結(jié)合的補充性學習非常有用。[8]
例如,使用擬人學習的訓練方法識別教育數(shù)據(jù)沖突事件時,發(fā)生于事件疊加的圖形如圖5 所示。
使用擬人的思想,不是識別一個二維圖形,而是以人的立體化思維學習和認識事物,如果識別的原型有錯誤,可以隨時替換正確的圖形,每一個問題都非常透明,每一步驟都有解釋;沒見過的場景可以隨時隨地添加,這對于面對問題出發(fā)的教育事件識別可操控性非常強,能有目標、無風險地進行智能判斷,為教學教育進一步智能化提供了有利的先決條件。
擬人的機器學習,可以邊實踐邊學習,如果給出的規(guī)則有錯誤,可以修改,如果碰見沒有見過的場景和問題,可以加到規(guī)則中,僅需要一兩個案例學習就可以進行人機互通的交互式學習。不像神經(jīng)網(wǎng)絡(luò)對弈,物體要多角度、不同光線、不同場合進行采樣,況且對其訓練的結(jié)果還沒有把握。
五、結(jié)束語
教育人工智能是一個龐大的系統(tǒng)工程,能否對事件事物數(shù)據(jù)進行正確的定位、找出數(shù)據(jù)的特性將是教育智能的基礎(chǔ),能否找到辨識事件和事物的關(guān)系和類型,及其學習的方法是提取有效模型的技術(shù)關(guān)鍵,能否進行透明的、可解釋的、可調(diào)控的、陌生場景的機器學習,是第五代移動通信下教育人工智能的技術(shù)標志。盲目的數(shù)據(jù)挖掘?qū)韯诿鼈數(shù)男Ч?,科學的機器學習,按人的意志去提取教育所需要的東西,才是教育智能化的本質(zhì)。脫離人的意志的人工智能是盲目的、無前途的。
參考文獻:
[1]P.P.Angelov,X.GU,and J.Principe.“A Generalized Methodology for Data Analysis”IEEE Trans,Cybernetics,2017;doi:10 1109 TCYB.2017.2753880.
[2]C.M.Bishop.Pattern Recognition and Machine Learning,Springer,2006.
[3]A.Nguyen,J.Yosinski and J.Clune.“Deep neural networks are easily fooled: High confidence predictions for unrecognizable images,”2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Boston,MA,2015:427-436.
[4]Y.LeCun,Y.Bengio,and G.Hinton.“Deep Learning”Nature Methods, 2015,13(1):35.
[5]Plamen Angelov.Autonomous Learning Systems:From Data Streams to Knowledge in Real-time[J].2012.
[6]P.P.Angelov and X.Gu.“Deep Rule Base Classifier with Human-Level Performance and Characteristics,”Information Sciences,vol.263-464,208,pp.196-213.
[7]Angelov,Plamen & Gu,Xiaowei.Deep Rule-Based Classifier with Human-level Performance and Characteristics. Information Sciences,2018:463-464.10.1016/j.ins.2018.06.048.
[8]Gu,Xiaowei & Angelov,Plamen.Semi-supervised Deep Rule-based Approach for Image Classification. Applied Soft Computing,2018:68. 10.1016/j.asoc.2018.03.032.
(編輯:王天鵬)