尹鐘 劉麗 陳瑋
摘 要:針對智能科學(xué)與技術(shù)專業(yè)數(shù)據(jù)挖掘課程中的知識難點,引入智能科學(xué)的重要問題——使機器理解人類情感,提出基于情感計算的數(shù)據(jù)挖掘課程教學(xué)案例。筆者利用倫敦瑪麗女王大學(xué)研究者建立的情感識別數(shù)據(jù)集,由淺入深地設(shè)計了針對數(shù)據(jù)預(yù)處理、聚類分析、關(guān)聯(lián)性分析、分類、回歸分析知識點的5個課堂和上機實驗教學(xué)案例;規(guī)劃了一項基于腦電信號識別情緒狀態(tài)的課程作業(yè),培養(yǎng)學(xué)生的綜合知識運用能力和團(tuán)隊協(xié)作能力。這些教學(xué)案例引導(dǎo)學(xué)生分析與人類情緒密切相關(guān)的認(rèn)知數(shù)據(jù),形象展示不同數(shù)據(jù)分析算法的功能特點,在提高教學(xué)效果的同時幫助學(xué)生了解智能人機交互技術(shù)的前沿動態(tài)。
關(guān)鍵詞:數(shù)據(jù)挖掘;情感計算;智能科學(xué)技術(shù)
0 引 言
隨著信息科學(xué)和計算機技術(shù)的進(jìn)步,數(shù)據(jù)的存儲規(guī)模和傳輸速度不斷提高。為了使這些歷史信息更好地為各行各業(yè)服務(wù),數(shù)據(jù)挖掘(data mining)技術(shù)發(fā)揮了重要作用,其旨在發(fā)現(xiàn)隱藏在表層數(shù)據(jù)信息中的內(nèi)在規(guī)律和知識。數(shù)據(jù)挖掘課程是智能科學(xué)與技術(shù)本科專業(yè)的特色課程之一。該課程指導(dǎo)學(xué)生在實踐中理解機器學(xué)習(xí)原理,運用所學(xué)的統(tǒng)計學(xué)和模式識別算法分析數(shù)據(jù),為學(xué)生從事相關(guān)工作或繼續(xù)深造提供必要的知識基礎(chǔ)[1]。
值得指出的是,數(shù)據(jù)挖掘課程中涉及的具體案例,多與該學(xué)科起源領(lǐng)域——商務(wù)、金融、顧客關(guān)系管理——密切相關(guān)[2],而工科專業(yè)學(xué)生對上述問題的重要性缺乏直觀感受。因此,筆者期望通過智能人機交互技術(shù)中的前沿問題——情感計算(affective computing)[3]——設(shè)計基于智能、認(rèn)知科學(xué)交叉的數(shù)據(jù)挖掘教學(xué)案例,幫助學(xué)生循序漸進(jìn)地掌握不同數(shù)據(jù)挖掘方法的原理。
智能人機交互技術(shù)的研究重點之一是提高機器(計算機)理解人類意圖的效率和精度。由于語言、表情形成的人類指令通常伴隨著情緒信息,情感計算的目的是賦予機器理解此類人特有心理活動的能力。而數(shù)據(jù)挖掘技術(shù)通過分析來自人的認(rèn)知狀態(tài)數(shù)據(jù),利用算法實現(xiàn)對人情感狀態(tài)的評估。筆者在以往研究工作[4]的啟發(fā)下,于數(shù)據(jù)挖掘課程教學(xué)中引入情感計算問題,將部分基礎(chǔ)內(nèi)容用以設(shè)計教學(xué)案例。通過以智能科學(xué)發(fā)展的前沿動態(tài)為背景,這些案例很好地調(diào)動了學(xué)生的學(xué)習(xí)積極性。
1 情感計算數(shù)據(jù)集概述
為了直觀展示不同數(shù)據(jù)挖掘方法分析人類情緒信息的功能特點,筆者采用倫敦瑪麗女王大學(xué)研究者建立的DEAP數(shù)據(jù)集作為設(shè)計教學(xué)案例的基礎(chǔ)[5]。該數(shù)據(jù)集于互聯(lián)網(wǎng)上公開可用,其收集了32名志愿者對40條音樂視頻的情緒反饋,共計32×40=1 280條樣例。為了便于學(xué)生理解,教學(xué)案例部分僅使用志愿者對視頻的主觀評價信息。其中,每名志愿者對每條視頻分別給出 “覺醒(arousal)”和“效價(valence)”水平2個分?jǐn)?shù),分?jǐn)?shù)值為1—9之間的實數(shù)。覺醒水平區(qū)分視頻誘發(fā)冷靜(1分)或興奮(9分)的情緒,而效價水平則判別情緒的消極(1分)或積極(9分)程度。如圖1所示,覺醒和效價水平可構(gòu)成一個2維坐標(biāo)平面,描述了喜悅、舒適、沮喪、憤怒4種不同情緒。
2 教學(xué)案例設(shè)計
以DEAP數(shù)據(jù)集為基礎(chǔ),筆者設(shè)計了3個課堂教學(xué)案例和2個上機實驗案例(見表1)。這些案例不僅涵蓋了數(shù)據(jù)挖掘問題的主要任務(wù),同時能系統(tǒng)解析覺醒、效價數(shù)據(jù)的分布特性和潛在規(guī)律。
表1 基于情感計算的教學(xué)案例及對應(yīng)數(shù)據(jù)挖掘任務(wù)案例序號 案例類型 案例內(nèi)容 數(shù)據(jù)挖掘方法
1 課堂教學(xué) 覺醒、效價得分的標(biāo)準(zhǔn)化和歸一化 數(shù)據(jù)預(yù)處理
2 課堂教學(xué) 情緒類別的無監(jiān)督學(xué)習(xí) 聚類分析
3 課堂教學(xué) 不同志愿者覺醒、效價得分的相關(guān)性計算 關(guān)聯(lián)性分析
4 上機實驗 特定志愿者情緒類別判定 分類
5 上機實驗 特定志愿者覺醒、效價得分估計 回歸分析
2.1 課堂教學(xué)案例
課堂教學(xué)案例圍繞數(shù)據(jù)預(yù)處理、聚類分析和關(guān)聯(lián)性分析3個知識點進(jìn)行設(shè)計。
案例1:覺醒、效價得分的標(biāo)準(zhǔn)化和歸一化
該案例旨在向?qū)W生強調(diào)預(yù)處理是數(shù)據(jù)挖掘任務(wù)的首要環(huán)節(jié)。針對DEAP數(shù)據(jù)集,不同志愿者對相同音樂視頻的主觀評分存在個性化差異。為了消除上述差異,引導(dǎo)學(xué)生學(xué)習(xí)兩項數(shù)據(jù)預(yù)處理方法:①0-1標(biāo)準(zhǔn)化;②最大—最小歸一化。
方法①將每名志愿者的覺醒、效價得分線性映射至均值為0、標(biāo)準(zhǔn)差為1的兩個數(shù)組,而方法②利用線性映射將數(shù)據(jù)規(guī)范至最小、最大值分別為0、1的兩個數(shù)組。方法①、②的過程和結(jié)果可通過MATLAB軟件在課堂上為學(xué)生演示。以方法①為例:先分別計算每名志愿者覺醒、效價評分的均值和標(biāo)準(zhǔn)差;再將得分?jǐn)?shù)據(jù)減去均值后除以標(biāo)準(zhǔn)差即可獲得標(biāo)準(zhǔn)化后的數(shù)據(jù)。接下來,使用“plot”指令在相同坐標(biāo)平面上繪制標(biāo)準(zhǔn)化前、后的數(shù)據(jù),向?qū)W生直觀展示標(biāo)準(zhǔn)化對數(shù)據(jù)值域的影響。最后,向?qū)W生講解MATLAB中標(biāo)準(zhǔn)化函數(shù)的參數(shù)設(shè)置和使用方法。
案例2:情緒類別的無監(jiān)督學(xué)習(xí)
該案例先引導(dǎo)學(xué)生思考如何利用標(biāo)準(zhǔn)化后的評分?jǐn)?shù)據(jù),在缺乏先驗知識的條件下獲得每名志愿者評分對應(yīng)的情感類型;繼而向?qū)W生引入無監(jiān)督學(xué)習(xí)方法的定義及相應(yīng)的數(shù)據(jù)聚類算法。案例可基于經(jīng)典聚類算法——K均值聚類——向?qū)W生展示評分?jǐn)?shù)據(jù)的聚類流程和結(jié)果。
首先,先逐一分析算法的每個步驟,再由圖2繪制1名志愿者對40條音樂視頻評分的散點圖和K均值聚類結(jié)果。依據(jù)此圖分析聚類算法如何評價類內(nèi)相似度與類間分散度,最后引入數(shù)據(jù)點隸屬于特定聚類的判定條件。為了更好地展示案例中K均值聚類算法與情感計算問題的聯(lián)系,引導(dǎo)學(xué)生觀察發(fā)現(xiàn)圖1中覺醒—效價平面上的4種情緒可分別與圖2中的4個聚類一一對應(yīng)。
案例3:不同志愿者覺醒、效價得分的相關(guān)性計算
不同志愿者對相同音樂視頻評分的差異體現(xiàn)了情緒數(shù)據(jù)的個性化特質(zhì)。本案例向?qū)W生提出疑問——志愿者們的個性是否存在相互關(guān)聯(lián)?繼而引入數(shù)據(jù)挖掘中關(guān)聯(lián)性分析的概念和方法,并基于線性相關(guān)性系數(shù)講解該知識點。endprint
首先,向?qū)W生講解線性相關(guān)系數(shù)的計算公式。再以志愿者#1的效價數(shù)據(jù)為例,尋找與其評分值正相關(guān)度最高的另一位志愿者。課堂上,可逐一分配每名學(xué)生計算志愿者#1與另一位編號不重復(fù)志愿者數(shù)據(jù)的線性相關(guān)系數(shù),匯總后可得志愿者#26與志愿者#1效價正相關(guān)性最高。最后,利用圖3向?qū)W生可視化志愿者#1、#26效價評分的分布情況。學(xué)生可發(fā)現(xiàn)兩組數(shù)據(jù)的變化趨勢存在一定相似性,即這兩位志愿者由相同音樂視頻引發(fā)的情緒存在關(guān)聯(lián)性。
2.2 上機實驗案例
上機實驗案例圍繞分類、回歸分析兩個知識點設(shè)計,并利用MATLAB軟件幫助學(xué)生深入理解經(jīng)典有監(jiān)督機器學(xué)習(xí)方法的機理,同時鞏固前3個案例中的教學(xué)內(nèi)容。
案例4:特定志愿者情緒類別判定
該案例需與課堂教學(xué)中講解的有監(jiān)督學(xué)習(xí)、分類、訓(xùn)練集、測試集、線性可分等概念緊密聯(lián)系,引導(dǎo)學(xué)生使用開源工具箱實現(xiàn)分類器的訓(xùn)練、測試。以支持向量機方法為例,學(xué)生首先選擇一名志愿者的評分?jǐn)?shù)據(jù),并依照課堂教學(xué)案例1中的內(nèi)容對其標(biāo)準(zhǔn)化。下一步,學(xué)生利用案例2中的聚類算法和聚類解釋方法,獲得若干離散的情緒類別。從中選擇“沮喪”“喜悅”情緒對應(yīng)的數(shù)據(jù)樣例構(gòu)建訓(xùn)練集。接下來,指導(dǎo)學(xué)生設(shè)定合適的正則化參數(shù)和線性核函數(shù),繪制如圖4所示的喜悅—沮喪情緒分類器訓(xùn)練結(jié)果。此圖形象展示了分類邊界、分類面、支持向量3個重要概念。以此為例,學(xué)生依次引入“平和”“憤怒”情緒數(shù)據(jù),設(shè)計不同的分類器,并利用另一名志愿者的評分?jǐn)?shù)據(jù)測試分類器性能。
案例5:特定志愿者覺醒、效價得分估計
由于音樂視頻按照固定時間順序呈現(xiàn),可將志愿者對每條視頻的覺醒、效價評分看作兩個時間序列。在此基礎(chǔ)上,本案例引導(dǎo)學(xué)生先依據(jù)一名志愿者的評分?jǐn)?shù)據(jù)建立回歸模型,再利用另一志愿者的數(shù)據(jù)驗證模型性能。案例3中志愿者#1、#26的評分?jǐn)?shù)據(jù)相關(guān)性最高,可將其分別作為訓(xùn)練、測試集。圖5中,筆者采用超限學(xué)習(xí)機方法對志愿者#1效價評分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。該圖引導(dǎo)學(xué)生發(fā)現(xiàn)模型輸出與訓(xùn)練目標(biāo)并非完全相同,從而幫助學(xué)生進(jìn)一步深入理解過擬合、正則化、均方誤差等回歸建模問題中的重要概念。以此為例,學(xué)生可繪制超限學(xué)習(xí)機對志愿者#26效價、覺醒評分的估計結(jié)果作為實驗報告內(nèi)容。
3 課程作業(yè)題目設(shè)計
通過系統(tǒng)學(xué)習(xí)上述5個案例,學(xué)生可全面掌握關(guān)于數(shù)據(jù)預(yù)處理、聚類分析、關(guān)聯(lián)性分析、分類、回歸分析的相關(guān)概念和備選算法。為了進(jìn)一步鞏固學(xué)生對數(shù)據(jù)挖掘知識的綜合運用能力,筆者基于DEAP數(shù)據(jù)集的生理數(shù)據(jù)部分設(shè)計了一項課程作業(yè),作為評價學(xué)生平時成績的依據(jù)。課程作業(yè)按每組2~3位學(xué)生于教學(xué)進(jìn)程的最后2周內(nèi)完成。
課程作業(yè)題目:基于腦電信號特征識別每條音樂視頻誘發(fā)的情緒狀態(tài)
志愿者在觀看每條音樂視頻的同時,其一分鐘的腦電圖信號被同步記錄于DEAP數(shù)據(jù)集。課程作業(yè)要求學(xué)生依據(jù)相關(guān)腦電特征完成覺醒、效價水平的二類分類任務(wù)。為了保證課程作業(yè)進(jìn)度,腦電特征提取環(huán)節(jié)由教師完成。學(xué)生在課程作業(yè)中需要完成的任務(wù)包括:
(1)腦電特征的預(yù)處理。采用0-1標(biāo)準(zhǔn)化或最大—最小歸一化方法實現(xiàn)。
(2)目標(biāo)情緒類別確定。通過K均值聚類分析覺醒、效價評分實現(xiàn)。
(3)特征選擇。利用線性相關(guān)性系數(shù)確定與目標(biāo)類別最相關(guān)的腦電特征。
(4)覺醒、效價水平二類分類。以選擇的腦電特征為輸入,以聚類獲得的目標(biāo)類別為輸出,基于支持向量機方法設(shè)計分類器識別覺醒、效價的高、低兩種狀態(tài)。
該課程作業(yè)串行連接了不同數(shù)據(jù)挖掘知識點,小組中每名學(xué)生可分工完成其中的一個或多個子任務(wù),培養(yǎng)綜合知識運用能力和團(tuán)隊協(xié)作能力。
4 結(jié) 語
筆者通過引入情感計算問題補充完善了現(xiàn)有的教學(xué)案例類型,幫助智能專業(yè)學(xué)生更好地理解數(shù)據(jù)挖掘技術(shù)在人機交互等領(lǐng)域發(fā)揮的重要作用。通過利用開放的互聯(lián)網(wǎng)數(shù)據(jù)庫資源,筆者設(shè)計了5個由淺入深的課堂教學(xué)、上機實驗案例和一項綜合課堂作業(yè)。這些案例涵蓋了數(shù)據(jù)挖掘的所有主要任務(wù),循序漸進(jìn)地引導(dǎo)學(xué)生掌握數(shù)據(jù)挖掘技術(shù)的知識結(jié)構(gòu),調(diào)動了學(xué)生的學(xué)習(xí)積極性和興趣。在此基礎(chǔ)上,筆者在課后指導(dǎo)學(xué)生參與相關(guān)創(chuàng)新訓(xùn)練項目,相關(guān)研究成果已在2017年舉行的20屆國際自動控制聯(lián)合會世界大會上宣讀。未來工作中,筆者期望結(jié)合自身研究特長,進(jìn)一步引入前沿的人機交互問題于智能科學(xué)與技術(shù)專業(yè)相關(guān)課程的教學(xué)中,豐富教學(xué)案例,提高教學(xué)效果。
參考文獻(xiàn):
[1] 蔣盛益, 李霞, 鄭琪. 研究性學(xué)習(xí)和研究性教學(xué)的實證研究: 以數(shù)據(jù)挖掘課程為例[J]. 計算機教育, 2014(24): 97-101.
[2] 譚征, 孫紅霞, 王立宏, 等. 基于實例的本科數(shù)據(jù)挖掘課程教學(xué)探索[J]. 計算機教育, 2013(9): 67-70.
[3] Kim J, Andre E. Emotion recognition based on physiological changes in music listening[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008(30):2067-2083.
[4] Yin Z, Zhao M, Wang Y, et al. Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods and Programs in Biomedicine, 2017(3): 93-110.
[5] Koelstra S, Muehl C, Soleymani M, et al. DEAP: A database for emotion analysis using physiological signals[J]. IEEE Transaction Affective Computing, 2012(3): 18-31.
(編輯:彭遠(yuǎn)紅)endprint