唐閨臣 謝躍 李克
摘 要 近年來,因為疫情以及音視頻和網(wǎng)絡技術(shù)的發(fā)展,在線教學急速發(fā)展。與傳統(tǒng)課堂教學相比,在線教學具有不受地點限制、互動范圍廣等優(yōu)點。但是,在線教學比較缺乏師生互動,受環(huán)境和軟件等因素影響老師無法面對面有效觀察學員,從而無法判斷學習者的當時的學習狀態(tài),影響教學效果。為此,本文提出一種基于人工智能技術(shù)的學生情緒在線分析方法,旨在通過識別學生的情緒來輔助了解當前學生的學習狀態(tài),從而為授課教師提供教學參考,進而幫助老師正確選擇教學策略,以達到提高教學質(zhì)量的目的。
關(guān)鍵詞 在線教學;情緒識別;深度學習網(wǎng)絡;人工智能
中圖分類號:TP181? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? DOI:10.16400/j.cnki.kjdk.2021.33.044
Online Analysis Method of Students' Emotion Based on
Artificial Intelligence Technology
TANG Guichen[1], XIE Yue[1], LI Ke[2]
([1] School of Information and Communication Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu 211167;
[2] School of Information Science and Engineering, Southeast University, Nanjing, Jiangsu 210096)
Abstract In recent years, due to the epidemic situation and the development of audio, video and network technology, online teaching has developed rapidly. Compared with traditional classroom teaching, online teaching has the advantages of unlimited location and wide range of interaction. However, online teaching lacks interaction between teachers and students. Affected by factors such as environment and software, teachers cannot effectively observe students face to face, so they cannot judge the learners' learning state at that time and affect the teaching effect. Therefore, this paper proposes an online analysis method of students' emotion based on artificial intelligence technology, which aims to help understand the current students' learning state by identifying students' emotion, so as to provide teaching reference for teachers, and then help teachers choose teaching strategies correctly, so as to improve teaching quality.
Keywords online teaching; emotion recognition; deep learning network; artificial intelligence
引言
隨著互聯(lián)網(wǎng)和人工智能技術(shù)的飛速發(fā)展,同時因為疫情,在線教學的發(fā)展越發(fā)迅捷。相比于世界各國,中國雖然起步較晚,但發(fā)展迅速,很多原來從事網(wǎng)絡會議行業(yè)的互聯(lián)網(wǎng)企業(yè)也開始進軍在線教育行業(yè)。騰訊會議、釘釘、飛書等音視頻即時通訊軟件也在在線教學中起著重要的作用。
與傳統(tǒng)課堂教學相比,在線教學具有不受地理位置限制、資源豐富、傳播范圍廣等優(yōu)點。然而,由于在線教育中的教師無法面對面觀察學習者,無法判斷學習者的學習情緒,缺乏與學習者的溝通和互動。與任何學習過程一樣,在線學習依賴于人類知識的有效交流,無論是在面對面的課堂上還是在互聯(lián)網(wǎng)上。因此,如何有效的在在線學習過程中評估學生的學習效果變得非常重要。近年來,人工智能技術(shù)在學生狀態(tài)分析方面的研究越來越多。
有效和個性化的情緒反饋對學習者的動機、參與度、自我調(diào)節(jié)和學習結(jié)果有積極影響。[1]近年來,網(wǎng)絡教育中的情緒問題受到了廣泛關(guān)注。[2]教育中的情感包括:(1)教育者理解和識別學習者情感狀態(tài)并給予他們個性化和有效的情感反饋的能力;(2)讓學習者意識到自己的情緒狀態(tài),以便能夠改變情緒狀態(tài)。情緒會對學習產(chǎn)生巨大影響,并在決策、管理學習活動、時間安排和反思學習中發(fā)揮重要作用。情感在教學和學習中也很重要,通常以特定的方式表達,如與他人互動和學習動機。提高學習者在在線教育中的表現(xiàn)是設計和評估在線平臺[3]的關(guān)鍵挑戰(zhàn)之一。為此,許多學者從事了相關(guān)的研究工作,比如基于人工智能技術(shù)的情緒識別方法等。
Mohamed Soltani等人提出了一種基于表情動作的情感反饋系統(tǒng),通過在課程中使用面部動作系統(tǒng)分析學生的面部表情,讓學生了解自己的情緒狀態(tài),從而提高他們的動機、參與度、自我調(diào)節(jié)和學習成績。YU Wanying等人提出基于深度注意力網(wǎng)絡的課堂教學視頻中學生表情識別模型與智能教學評估算法。[4]Chao Ma等人提出并實現(xiàn)了一個基于CNN的在線教育學習情緒分析識別模型,以加強講師和學員之間的互動,從而有助于個性化教育。[5]Pan Xiang提出一種基于模糊神經(jīng)網(wǎng)絡的情感識別方法,通過分析學生的表情來識別學生的情緒,從而幫助系統(tǒng)正確選擇教學策略。[6]Liang Jie等人以教師的語音信號為研究對象,設計了一套情感檢測音頻處理系統(tǒng),用于教學中的語音情感識別。[7]
針對在線教學現(xiàn)狀,本文提出一種基于人工智能技術(shù)的學生情緒在線分析方法。該方法首先構(gòu)建神經(jīng)網(wǎng)絡模型獲取含有情感信息視頻初級特征,并基于時頻分析方法提取音頻初級特征;然后,根據(jù)視頻初級特征和音頻初級特征得到融合特征,將融合特征矩陣輸入基于深度學習網(wǎng)絡的情緒識別模型,從而得到情緒識別結(jié)果。實驗結(jié)果表明,該方法在開放的多模態(tài)情感識別數(shù)據(jù)集上取得了較好的效果。
1 情緒識別模型
1.1 系統(tǒng)架構(gòu)
圖1是基于人工智能技術(shù)的情緒識別的系統(tǒng)架構(gòu)。如圖所示,整個系統(tǒng)主要分為特征提取,特征融合和識別模型三個部分。其中,特征提取分為音頻和視頻特征提取兩個部分。其中,音頻部分為美爾倒譜系數(shù)提取;而視頻部分是基于深度殘差網(wǎng)絡提取深度特征。兩部分特征提取后,通過特征注意力方法進行融合,并送入情緒識別模型。情緒識別模型由雙向門控循環(huán)單元網(wǎng)絡構(gòu)成,最后一層輸出經(jīng)過全連接層后得到等同于分類數(shù)量的輸出向量,從而獲得情緒識別結(jié)果。
1.2 音視頻特征提取
本文采用深度殘差網(wǎng)絡[8]提取視頻模態(tài)數(shù)據(jù)所包含的特征。深度殘差網(wǎng)絡包括17個卷積層與1個全連接層,最后提取的視頻初級特征共128維。音頻特征為24階梅爾頻率倒譜系數(shù)。
為了將視頻初級特征矩陣和音頻初級特征矩陣進行特征融合,模型采用一種能夠自動學習融合權(quán)重的機制。首先,模型對每一組特征矩陣以相同間隔進行下采樣,并歸一化至相同的時間長度。對于長度不足部分的數(shù)據(jù)采取填零處理,隨后拼接每一時刻對應的視頻初級特征與音頻初級特征,得到融合特征矩陣。其中,融合后的特征維度為152,故為一個行高為152、列寬為的矩陣。
將融合特征矩陣輸入特征融合模塊,得到經(jīng)過自注意力機制處理的融合特征矩陣,該過程使網(wǎng)絡能夠?qū)W習融合特征中更為重要的維度并將注意力集中,提高其權(quán)重并降低冗余維度的權(quán)重。該機制可以被描述為一個查詢矩陣到一系列(鍵-值)對矩陣的映射,[9]其計算方式是先計算查詢矩陣和各個鍵的相關(guān)性,得到每個鍵對應值的權(quán)重系數(shù),即注意力權(quán)重,使用該權(quán)重對各值進行加權(quán)求和,最終得到經(jīng)過注意力機制處理的值。
1.3 識別模型
為建模含有情緒信息的多模態(tài)數(shù)據(jù)樣本中的時序關(guān)系,本文構(gòu)建雙向門控循環(huán)單元網(wǎng)絡。此處的雙向門控循環(huán)單元采用兩個門控循環(huán)單元上下疊加在一起組成,在每一個時刻,輸入會同時提供給這兩個方向相反的門控循環(huán)單元,而輸出則是由這兩個單向的門控循環(huán)單元共同決定。門控循環(huán)單元是循環(huán)神經(jīng)網(wǎng)絡中的一種,可以有效解決長期記憶和反向傳播中的梯度爆炸問題,并且其參數(shù)量較少。
將融合特征矩陣,輸入雙向門控循環(huán)單元網(wǎng)絡,得到所有時刻的輸出向量,以及最后一個隱藏層的狀態(tài)向量,每一時刻的輸出向量為當前時刻的隱藏層向量通過一個全連接層得到,維度設置為128。由于門控循環(huán)單元網(wǎng)絡是雙向的,因此輸出向量與狀態(tài)向量的維度均為256。隨后,使用時間注意力機制模塊計算最后一個隱藏層的狀態(tài)向量與所有時刻的輸出向量之間的注意力:
(1)
其中,、和均為可訓練的參數(shù)向量或矩陣,為時刻的輸出向量在時間維度上的注意力權(quán)重。根據(jù)注意力權(quán)重對所有時刻的輸出向量進行加權(quán)求和,得到高級特征向量:
(2)
此時,256維的高級特征向量已經(jīng)過特征維度和時間維度的注意力機制處理,融合了多模態(tài)特征以及上下文信息,且對于重要的特征維度及時刻擁有更高的權(quán)重。將輸入全連接層得到一個維度等同于分類數(shù)量的輸出向量,使用Softmax函數(shù)映射為概率分布后計算其與樣本實際概率分布之間的交叉熵。以已知真實標簽的含有情感信息的音視頻數(shù)據(jù)作為訓練樣本、以交叉熵作為損失函數(shù)進行反向傳播訓練整個神經(jīng)網(wǎng)絡,最終得到可以預測音視頻樣本情感分類概率的神經(jīng)網(wǎng)絡模型。
2 情緒識別實驗
2.1 實驗設置
為了客觀的評估算法性能,本文使用了一個被廣泛使用的多模態(tài)情感數(shù)據(jù)庫RAVDESS。該數(shù)據(jù)集包含24名專業(yè)演員(12名女性,12名男性)作為被試,每名被試以演講和演唱兩種方式表達各種情緒,本文僅采用其演講的音視頻數(shù)據(jù)進行實驗。對于實驗方案和性能指標,采用五折交叉驗證計算識別精度,并采用平均F1分數(shù)來評估我們多模態(tài)情感識別方法的性能,情緒的分類包括快樂、悲傷、憤怒、恐懼、驚訝和厭惡。
實驗以25fps的幀率提取圖像序列并進行灰度化處理,進而對所有提取出的灰度圖像幀進行人臉檢測,并定位人臉的68點關(guān)鍵點;根據(jù)定位處理得到的關(guān)鍵點,以31號關(guān)鍵點鼻尖為中心,裁剪出人臉正方形區(qū)域,并歸一化為64?4的尺寸、[0,1]的像素值范圍以送入圖像特征提取網(wǎng)絡。以已知真實標簽的含有情感信息的音視頻數(shù)據(jù)作為訓練樣本、以交叉熵作為損失函數(shù)進行反向傳播訓練整個神經(jīng)網(wǎng)絡,并采用自適應矩估計算法進行訓練優(yōu)化,利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學習率,其中,自適應矩估計算法的權(quán)值衰減設置為5e-5,以32個樣本作為一個小批次進行輸入,學習率初始化為4e-3,每20個迭代周期衰減為原先的一半,共迭代100個周期。
2.2 實驗結(jié)果
為驗證情緒識別算法的效果,實驗在公開的主流多模態(tài)情感識別數(shù)據(jù)集RAVDESS上進行對比實驗。對比方法為基于無注意力機制、特征注意力機制和本文提出的方法。評價指標為識別準確率和平均F1分數(shù)。實驗結(jié)果如表1所示。由表可知,本文采用的方法在數(shù)據(jù)集上取得了最好的識別效果。相比于無注意力機制,特征注意力機制的識別準確率在提升5.58%。融合特征-時間注意力后,識別準確率達到11.88%。兩種算法在F1平均分數(shù)上有類似的提升。
3 結(jié)論
為了提升在線教學的效果,本文提出一種基于人工智能技術(shù)的學生情緒在線分析方法。該方法綜合運用了音頻和視頻特征,基于人工智能的方法來有效的被試情緒。實驗結(jié)果顯示,該方法能充分利用錄制的音視頻數(shù)據(jù)來識別被試情緒,使從事在線教學的教師有可能獲得學生的情緒狀況,進而及時對課程內(nèi)容進行調(diào)整,比如增加實例分析、提問、學生答疑等。后期研究應該錄制更有效的音視頻數(shù)據(jù),并融入語音識別和自然語言處理技術(shù),將學生情緒和語言表征相結(jié)合,從而更好的判斷學生的學習狀態(tài),進而全面的評價學生行為并用以指導教學行為。
基金項目:2020年度江蘇高校哲學社會科學研究一般項目“基于人工智能的在線教學質(zhì)量雙向評價研究”(項目編號:2020SJA0455)
參考文獻
[1] Arguedas, Marta1, Daradoumis, Thanasis, Xhafa, Fatos. Analyzing How Emotion Awareness Influences Students' Motivation, Engagement, Self-Regulation and Learning Outcome. Journal of Educational Technology Society, 2016; 19(2): 87-103
[2] Soltani M, Zarzour H, Babahenini M C, Hammad M, Smadi M a-, Jararweh Y. An Emotional Feedback Based on Facial Action Coding System for MOOCs with Computer-Based Assessment.in 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS).2019.
[3] Chemam C, Zarzour H, Sari T, Al-Smadi M, Jararweh Y. Trends in Linked Data-Based Educational Studies: A Review of Contributions in SSCI Journals. in 2018 IEEE/ACS 15th International Conference on Computer Systems and Applications (AICCSA). 2018.
[4] 于婉瑩,梁美玉,王笑笑,等.基于深度注意力網(wǎng)絡的課堂教學視頻中學生表情識別與智能教學評估.計算機應用, 1-7 DOI: 10. 11772/j. issn. 1001-9081. 2021040846.
[5] Ma C, Sun C, Song D, Li X, Xu H. A Deep Learning Approach for Online Learning Emotion Recognition. in 2018 13th International Conference on Computer Science & Education (ICCSE). 2018.
[6] Pan X. Research on the Emotion Recognition Based on the Fuzzy Neural Network in the Intelligence Education System. in 2011 Second International Conference on Digital Manufacturing & Automation. 2011.
[7] Jie L, Xiaoyan Z, Zhaohui Z. Speech Emotion Recognition of Teachers in Classroom Teaching. in 2020 Chinese Control And Decision Conference (CCDC). 2020.
[8] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. in 29th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, June 26, 2016 - July 1, 2016. 2016. Las Vegas, NV, United states: IEEE Computer Society.
[9] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser L, Polosukhin I. Attention is all you need. in 31st Annual Conference on Neural Information Processing Systems, NIPS 2017, December 4, 2017 - December 9, 2017. 2017. Long Beach, CA, United states: Neural information processing systems foundation.