袁同慶, 席 鵬
(1. 安徽師范大學(xué) a. 智能教育研究院, b. 教育科學(xué)學(xué)院, 安徽 蕪湖 241000; 2. 中國科學(xué)技術(shù)大學(xué) 蘇州研究院, 江蘇 蘇州 215000)
目前,質(zhì)量評價任務(wù)主要采用調(diào)查問卷的形式搜集評價目標(biāo)相關(guān)的主觀評價資料,這種方式主要采用評價主體的主觀評價,不僅耗時、費力且采集的調(diào)查問卷不易保存,難以分析和利用[1-3].近年來,隨著互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的快速發(fā)展,質(zhì)量評價逐漸采用網(wǎng)絡(luò)形式展開,不僅可以搜集評價目標(biāo)的主觀評價結(jié)果,而且評價主體可以提交充分的材料以佐證評價結(jié)果[4].采用信息化的質(zhì)量評價與采集方式,可以及時、全面地采集評價主體對于評價目標(biāo)的反饋情況[5-7].雖然這種方法簡化了傳統(tǒng)的質(zhì)量評價采集方式,但仍需花費大量的人力資源和時間對這些評價進(jìn)行分析與處理.為了提升質(zhì)量評價的精度和速度,國內(nèi)外學(xué)者提出了基于機(jī)器學(xué)習(xí)方法[8]、基于深度學(xué)習(xí)方法[9]和基于情感詞典方法[10-11]對評價主體的調(diào)查問卷進(jìn)行分析.其中,基于情感詞典的方法通過構(gòu)建包括形容詞、程度副詞和否定詞的情感詞典對評價文本進(jìn)行分類;基于機(jī)器學(xué)習(xí)的方法采用傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)來完成文本情感數(shù)據(jù)的分類;而基于深度學(xué)習(xí)的方法使用深度神經(jīng)網(wǎng)絡(luò)從文本數(shù)據(jù)中提取特征,并進(jìn)行情感分類[12-13].雖然這些方法使基于調(diào)查問卷的質(zhì)量評價得到了顯著的提升,但若僅采用調(diào)查問卷數(shù)據(jù)進(jìn)行質(zhì)量評價仍顯說服力不足.
隨著多媒體技術(shù)的普及,在信息化評價過程中留下了大量的視頻和語音資料,如何充分挖掘這些多媒體數(shù)據(jù)中的有效信息成為了研究的熱點.本文充分利用多媒體資源,提出了一種基于多模態(tài)音視頻融合的客觀質(zhì)量評價算法.該算法充分考慮評價目標(biāo)的視頻、音頻和文本信息,并挖掘信息間的相關(guān)性進(jìn)行評價與分類.
本文采用多模態(tài)數(shù)據(jù)進(jìn)行客觀質(zhì)量評價.為了實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一輸入和處理,對不同的模態(tài)提取不同的特征,并根據(jù)其特點選擇相應(yīng)的分類器進(jìn)行預(yù)測分類.最后,對各模態(tài)的分類預(yù)測結(jié)果進(jìn)行融合訓(xùn)練,組成一個綜合分類器,從而得到質(zhì)量分類結(jié)果.
文本數(shù)據(jù)包含了對評價目標(biāo)的直接評價,然而文本數(shù)據(jù)包含著復(fù)雜的語言種類和語法,使得對其分析與建模異常困難.為了有效提取出文本中包含的與評價目標(biāo)相關(guān)的特征,本文首先使用Jieba分詞工具對輸入文本進(jìn)行分詞,即將文本序列表示成詞向量集合;然后過濾掉與評價目標(biāo)無關(guān)的停用詞,包括中英文標(biāo)點符號、特殊字符、阿拉伯?dāng)?shù)字和一些影響較小的高頻詞匯;最后,使用Word2vec模型將詞向量表示為多維空間向量.
本文通過提取文本的互信息作為文本特征,互信息通過衡量事件發(fā)生所提供的信息量來衡量文本特征對于評價結(jié)果的影響[14].互信息計算表達(dá)式為
(1)
式中,X和Y分別為文本特征集合及類別集合.本文選取前K個互信息最大的特征作為輸入文本集合的特征.
語音作為評價目標(biāo)的一種信息媒介,不僅包含評價目標(biāo)的內(nèi)容,且包含事件發(fā)生時周圍環(huán)境.本文通過提取語音信息特征,從語音信號中獲取評價目標(biāo)的相關(guān)信息.首先對語音信號進(jìn)行預(yù)加重、分幀和加窗等處理,然后提取語音的梅爾頻譜倒譜系數(shù)(MFCC)特征.其中,預(yù)加重處理采用數(shù)字濾波的方法來提升語音信號的高頻衰減;分幀是將語音信號分割成較短的幀序列;加窗則是采集在增強采樣點附近的語音信號.MFCC特征是根據(jù)人類聽覺的臨界頻帶效應(yīng)來模擬人耳對不同聲音的感知和響應(yīng),從而提取特征.具體的特征提取過程如下:
1) 使用快速傅里葉變換對N幀語音序列x[n](n=0,1,2,…,N-1)進(jìn)行變換.
2) 將傅里葉變換后得到的頻率信號轉(zhuǎn)換為梅爾尺度Mel(f)=2 597lg(1+f/700).
3) 計算三角形濾波后的結(jié)果,即
F(l)=∑wl(k)|x[k]| (l=1,2,…,L)
(2)
式中:k為轉(zhuǎn)換后的頻率;
4) 對步驟3)中得到的結(jié)果進(jìn)行對數(shù)運算和離散余弦運算,得到MFCC特征為
(3)
本文使用循環(huán)神經(jīng)網(wǎng)絡(luò)提取視頻特征,該網(wǎng)絡(luò)采用CNN結(jié)構(gòu)來提取輸入幀的表征特征,采用堆疊的RNN單元來捕捉時序信息.提取單元結(jié)構(gòu)如圖1所示,R為ReLU(Conv())函數(shù),用來提取輸入幀的表征,T為Sigmoid(Conv())函數(shù),用來提取時序信息,oi,t為網(wǎng)絡(luò)輸出,ci,t表示第t幀在第i個循環(huán)單元的記憶狀態(tài).
本文采用堆疊的循環(huán)特征提取單元來提取輸入視頻的深度特征.由于深度網(wǎng)絡(luò)在建模長序列時容易出現(xiàn)梯度消失的問題,本文使用跳躍連接來加深網(wǎng)絡(luò).為了訓(xùn)練該網(wǎng)絡(luò)以提取評價目標(biāo)相關(guān)的特征,本文直接使用BP算法對輸出特征進(jìn)行分類訓(xùn)練,通過最小化網(wǎng)絡(luò)輸出與評價標(biāo)簽之間的交叉熵?fù)p失來完成迭代優(yōu)化.
圖1 循環(huán)特征提取單元Fig.1 Recurrent feature extraction unit
由于評價數(shù)據(jù)中存在大量的與客觀質(zhì)量評價無關(guān)的數(shù)據(jù),需要對這些數(shù)據(jù)進(jìn)行篩選和過濾,以此實現(xiàn)客觀評價質(zhì)量的分類.本文使用了Stacking算法構(gòu)建客觀質(zhì)量分類模型來融合不同數(shù)據(jù)間的特點.算法分別對視頻、語音和文本所提出的特征構(gòu)建預(yù)測分類模型,然后使用一個元分類器對其分類結(jié)果進(jìn)行融合,并得到最終的課程評價結(jié)果.相比于其他集成學(xué)習(xí)方法,該算法適用于異構(gòu)數(shù)據(jù)和異質(zhì)分類器,且最終的分類結(jié)果采用更復(fù)雜的元分類器,而并非傳統(tǒng)集成學(xué)習(xí)方法所采用的平均法或基于投票的方法.本文使用樸素貝葉斯算法(NB)對文本特征進(jìn)行分類,使用支持向量機(jī)算法(SVM)對語音特征進(jìn)行分類,使用BP算法對視頻特征進(jìn)行分類,而元分類器則采用SVM分類器.文中各分類器將輸入數(shù)據(jù)分類為正向情感、負(fù)面情感和無關(guān)三類,其中無關(guān)類即為不包含任何情感傾向.
文中提出的算法主要包含兩層學(xué)習(xí):多模態(tài)初始學(xué)習(xí)器和元學(xué)習(xí)器,其中多模態(tài)初始學(xué)習(xí)器采用K折交叉驗證的方式進(jìn)行訓(xùn)練,在訓(xùn)練預(yù)測器的同時生成訓(xùn)練元數(shù)據(jù)所需的數(shù)據(jù);在得到這些數(shù)據(jù)后,訓(xùn)練元學(xué)習(xí)器實現(xiàn)多模態(tài)數(shù)據(jù)的融合和評價質(zhì)量的預(yù)測.元學(xué)習(xí)器的輸入為基學(xué)習(xí)器的輸出,而不同模態(tài)的數(shù)據(jù)具有不同的特點,故本文為每個初始學(xué)習(xí)器賦予了一個權(quán)重.
基于該權(quán)值計算方式,本文基于Stacking算法構(gòu)建的質(zhì)量分類模型的訓(xùn)練步驟如下:
1) 定義訓(xùn)練數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xK,yK)}=(X,Y),初始學(xué)習(xí)器M1,M1,…,MZ;
3) 對于每個分類器計算其權(quán)重.根據(jù)各初始分類器的預(yù)測結(jié)果對訓(xùn)練數(shù)據(jù)進(jìn)行篩選,刪除與質(zhì)量預(yù)測無關(guān)的數(shù)據(jù).
4) 使用上述步驟得到的初始分類器,針對各訓(xùn)練數(shù)據(jù)的預(yù)測結(jié)果和各分類器的權(quán)重來訓(xùn)練元分類器.
本文以質(zhì)量評估為例進(jìn)行仿真試驗與分析.為了對模型進(jìn)行訓(xùn)練和測試評估,本文搜集了某高校20門公共課程的多媒體數(shù)據(jù),包括教學(xué)視頻、語音和文本評價,共采集了包括30名學(xué)生對于各門課程的評價結(jié)果.其中約有20 TB視頻數(shù)據(jù),10 GB語音數(shù)據(jù)和5 GB文本數(shù)據(jù),每一門課程對應(yīng)的視頻、語音和文本的比例大約為1∶12∶60.通過統(tǒng)計各課程的評價結(jié)果,并將其作為標(biāo)簽進(jìn)行模型訓(xùn)練評估.隨機(jī)選取該數(shù)據(jù)集中15門課程的數(shù)據(jù)作為訓(xùn)練集,使用剩下的5門課程數(shù)據(jù)作為測試集進(jìn)行仿真分析.本文實驗平臺為Intel Xeon CPU E5-2430,使用Ubuntu操作系統(tǒng),并采用Python實現(xiàn)所提出的分類算法.文中使用預(yù)測準(zhǔn)確率和預(yù)測結(jié)果的F1值作為算法性能的評價指標(biāo),F(xiàn)1計算方式為
(4)
(5)
(6)
式中:TP為正確分類的正類;FP為錯誤分類的正類;FN為錯誤分類的負(fù)類.本文將每條評價對應(yīng)的類別作為正類,將其他類別作為負(fù)類.
首先驗證了各個基礎(chǔ)分類器的分類準(zhǔn)確率與F1值,結(jié)果如表1所示.其中樸素貝葉斯算法采用多項式樸素貝葉斯算法,其平滑參數(shù)設(shè)置為1.支持向量機(jī)算法采用徑向基核函數(shù),核帶寬設(shè)置為0.5,懲罰因子設(shè)置為1.BP算法采用3層神經(jīng)網(wǎng)絡(luò)設(shè)計,其輸入神經(jīng)元數(shù)量為100,輸出神經(jīng)元預(yù)測類別數(shù)量為3,包括正向評價、中性評價和負(fù)面評價.從表1結(jié)果可以看出,使用文本評價數(shù)據(jù)可以得到最高的分類精度,而使用視頻和語音得到的評估精度相對較低.綜合各初始分類器的預(yù)測結(jié)果后,可以得到精度更高的質(zhì)量評價結(jié)果.由此表明,融合多模態(tài)數(shù)據(jù)可以提升質(zhì)量評價的精度.
表1 各類預(yù)測結(jié)果的準(zhǔn)確率和F1值Tab.1 Accuracy and F1 values of various prediction results
為了驗證所提出自適應(yīng)加權(quán)算法的有效性,對加權(quán)前后模型的分類精度進(jìn)行測試,結(jié)果如圖2所示.從圖2中可以看出,采用加權(quán)算法不僅可以提升元分類器的性能,還可提升各初始分類器的性能,表明所提出的分類器加權(quán)方法能夠明顯提升預(yù)測精度.
圖2 加權(quán)前后分類精度比較Fig.2 Comparison of classification accuracy before and after weighting
本文對于不同數(shù)據(jù)采用了不同的分類器,并使用元分類器集成所有分類器的預(yù)測結(jié)果.為了驗證該多樣性集成方法的有效性,將所提出的方法與僅采用單一分類器的方法進(jìn)行比較,結(jié)果如圖3所示.從圖3中可以看出,所提出的多樣性集成方法具有最優(yōu)的分類精度,且相對于僅使用單一分類器的方法有明顯提升.根據(jù)不同數(shù)據(jù)的特點,選擇不同的分類器將有助于提升質(zhì)量評價的精度.
為了比較本文與傳統(tǒng)算法性能間的差異,使用提出的數(shù)據(jù)集進(jìn)行了驗證實驗,結(jié)果如表2所示.其中,文獻(xiàn)[4]采用純調(diào)查問卷的方式進(jìn)行質(zhì)量評價;文獻(xiàn)[7]只使用文本特征提取的方法進(jìn)行評價.從表2中可以看出,相比于傳統(tǒng)的算法,本算法具有明顯的性能優(yōu)勢.其中,文獻(xiàn)[7]方法所使用的特征比較單一,而本文算法融合多模態(tài)的特征進(jìn)行評價,說明使用多模態(tài)特征可以明顯增強評價的精度.
圖3 集成模型與初始分類器比較Fig.3 Comparison of ensemble model and initial classifier
表2 不同方法的性能比較Tab.2 Performance comparison of different methods
本文提出了一種基于多模態(tài)音視頻融合的質(zhì)量評價算法,該算法根據(jù)客觀質(zhì)量評價過程中產(chǎn)生的視頻、音頻和文本等多媒體數(shù)據(jù)對相關(guān)的具體情況進(jìn)行分類.通過對不同模態(tài)數(shù)據(jù)提取不同的特征,并使用Stacking算法挖掘不同特征間的關(guān)聯(lián)關(guān)系,從而預(yù)估出評價結(jié)果.以質(zhì)量評價為例,搜集和整理了質(zhì)量評價數(shù)據(jù)集,在該數(shù)據(jù)集上的測試結(jié)果表明,本文所提出的方法能有效提升評價精度.