摘 要:多模態(tài)模型構(gòu)建是為了充分地利用文本、語音和視覺等多種信息源,進(jìn)而提供更準(zhǔn)確、全面的情感分析和理解能力。這在用戶情感理解、品牌口碑分析、輿情監(jiān)控等領(lǐng)域具有重要意義。為了提高多模態(tài)情感分析算法的準(zhǔn)確率,首先通過研究文本、語音和視頻3種模態(tài)的情感特征提取以及實(shí)驗(yàn)驗(yàn)證,選擇更合適的音視頻特征。其次提出了多種多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu),并使用雙層多模態(tài)融合網(wǎng)絡(luò)即結(jié)合LSTM和MLP進(jìn)行驗(yàn)證對(duì)比。實(shí)驗(yàn)結(jié)果表明,與單模態(tài)相比,多模態(tài)模型在分類任務(wù)上具有顯著優(yōu)勢(shì)。該算法在二分類和三分類任務(wù)中的準(zhǔn)確率分別達(dá)到了82.49%和70.9%,超過了其他算法。
關(guān)鍵詞:深度學(xué)習(xí);多模態(tài);情感分析;神經(jīng)網(wǎng)絡(luò);長短期記憶網(wǎng)絡(luò);多層感知機(jī);特征融合
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2024)11-00-05
0 引 言
情感是當(dāng)一個(gè)人遇到一個(gè)特定的事件、人或?qū)嶓w時(shí)所產(chǎn)生的一種長期的情緒。情感分析[1-2]通常是基于文本或圖像等單一模態(tài)信息進(jìn)行分析的。然而,單一模態(tài)因無法完整地表達(dá)情感信息,往往不能獲得理想的效果。近幾年,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,通過多模態(tài)融合獲得具有一定價(jià)值的信息已經(jīng)成為一種趨勢(shì)。例如文獻(xiàn)[3]提出基于全局詞頻統(tǒng)計(jì)的詞表征模型,充分考慮了語義的相似性和共現(xiàn)相似性之間的關(guān)系。文獻(xiàn)[4]發(fā)布了在視頻序列中標(biāo)注句子級(jí)情感標(biāo)簽的MOSI數(shù)據(jù)集。文獻(xiàn)[5]和文獻(xiàn)[6]又先后提出了張量融合網(wǎng)絡(luò)與記憶融合網(wǎng)絡(luò),從長短期記憶網(wǎng)絡(luò)與兩層全連接層網(wǎng)絡(luò)的結(jié)合變化為使用長短期記憶網(wǎng)絡(luò)對(duì)各模態(tài)單獨(dú)建模,做到更有效地反映情感信息。文獻(xiàn)[7]利用同一視頻中句子的上下文信息構(gòu)建了一個(gè)層次模型,以輔助多模態(tài)情感的分類過程。文獻(xiàn)[8]通過在所有層中聯(lián)合調(diào)節(jié)上下文信息來預(yù)訓(xùn)練深層的雙向表示,與傳統(tǒng)模型相比,其并行計(jì)算能力更強(qiáng),模型中的自注意力機(jī)制也使得分類標(biāo)簽?zāi)軌蜿P(guān)注到更多詞與詞之間的離散特征。
然而,多模態(tài)情感分析領(lǐng)域仍有許多研究空白。故本文針對(duì)多模態(tài)領(lǐng)域的情感分類問題展開研究,通過對(duì)模態(tài)數(shù)據(jù)的分析和處理,利用深度學(xué)習(xí)方法搭建多模態(tài)情感分析模型,提高多模態(tài)情感分類的準(zhǔn)確率。多模態(tài)情感分析算法的框架如圖1所示,大致將其分為特征提取和特征融合2個(gè)部分,首先對(duì)輸入視頻進(jìn)行音視頻分離,再將視頻轉(zhuǎn)化為圖像后讓其分別進(jìn)入不同的網(wǎng)絡(luò)中實(shí)現(xiàn)特征提?。蝗缓筝斎胄畔⒌饺诤暇W(wǎng)絡(luò)中,通過雙層網(wǎng)絡(luò)的第二層全連接網(wǎng)絡(luò),生成最終結(jié)果;最后驗(yàn)證本文使用算法的優(yōu)勢(shì)與效果。
1 特征提取
1.1 文本特征
多模態(tài)情感分析任務(wù)需要考慮文本以外的其他數(shù)據(jù)類型,如圖像、音頻或視頻。因此,在篩選特征時(shí),需要確保其與其他模態(tài)數(shù)據(jù)的兼容性和一致性。
2019年,哈爾濱工業(yè)大學(xué)和科大訊飛公司聯(lián)合發(fā)表了一篇關(guān)于中文BERT-WWM模型[9]的論文。為了彌補(bǔ)BERT訓(xùn)練中部分Wordpiece分詞方法的不足,在該模型中引入了全字掩蔽(WWM)方法。全字掩蔽是將文本中的每個(gè)字都進(jìn)行掩蔽,而不是僅僅掩蔽單詞級(jí)別的Wordpiece,這使得BERT-WWM在中文文本處理任務(wù)中表現(xiàn)出更高的準(zhǔn)確性和可靠性。
為克服獨(dú)熱編碼和詞嵌入[10-11]的限制,本文采用了基于Transformer[12]的BERT模型作為文本特征提取器,并引入適合于該領(lǐng)域的BERT-WWM模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。
1.2 視頻特征
視頻特征在情感分析中具有舉足輕重的作用,尤其是人物表情信息的影響不容忽視。
為此,本文采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network, MTCNN)[13]進(jìn)行人臉檢測(cè);又借助OpenFace工具,運(yùn)用CE-CLM模型[14]進(jìn)行人臉特征點(diǎn)檢測(cè)。這種基于模型的方法主要是通過卷積網(wǎng)絡(luò)對(duì)人臉的68個(gè)關(guān)鍵點(diǎn)進(jìn)行精確定位,為特征點(diǎn)提供了正則化形式的形狀和外觀建模。
此外,本文還采用文獻(xiàn)[15]提出的算法來識(shí)別動(dòng)作單元,通過逐幀提取每個(gè)視頻片段的特征,包括關(guān)鍵點(diǎn)坐標(biāo)、面部動(dòng)作單元、眼部關(guān)鍵點(diǎn)以及注視焦點(diǎn)等,并對(duì)特征序列在時(shí)間維度上取平均值,獲得對(duì)應(yīng)視頻片段的綜合特征。
1.3 音頻特征
對(duì)于音頻特征,常見提取方法如下:
(1)過零率(Zero Crossing Rate, ZCR):是時(shí)域語音信號(hào)分析中最簡(jiǎn)單且常用的特征之一。它指的是在特定時(shí)間段內(nèi)語音信號(hào)變化時(shí)穿過零點(diǎn)的次數(shù)。計(jì)算公式如下:
(1)
式中:N是1幀的采樣點(diǎn)數(shù);sgn[]為符號(hào)函數(shù),即:
(2)
通過計(jì)算語音信號(hào)在時(shí)間域上變化的過程中經(jīng)過零點(diǎn)的次數(shù),可以提取出過零率特征。
(2)線性預(yù)測(cè)編碼(Linear Prediction Coding, LPC):是一種被廣泛應(yīng)用于語音信號(hào)處理過程的特征提取方法[16]。其目標(biāo)是找到最佳的預(yù)測(cè)系數(shù),使得通過線性組合得到的預(yù)測(cè)樣本與實(shí)際語音樣本的誤差最小。
(3)恒定Q變換(Constant Q Transform, CQT):是一種將數(shù)據(jù)序列變換到頻域的方法[17],特別適用于音頻信號(hào)分析。
CQT變換在頻率軸上采用等比例劃分,將頻率范圍分為一系列帶寬不斷增大的子帶,不同的頻譜線采用不同長度的濾波窗,以適應(yīng)不同頻率范圍的特性,這使得CQT在表示音頻信號(hào)的時(shí)域-頻域特征時(shí)具有更好的性能。
(4)梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCCs):通過將音頻信號(hào)轉(zhuǎn)換到梅爾頻率刻度,并進(jìn)行離散余弦變換,提取出一組MFCCs特征,用于表征音頻的頻譜特征。
綜上,本文在提取音頻特征時(shí),首先使用FFmpeg工具將每個(gè)視頻片段的音頻內(nèi)容分離,并且使用Librosa庫[18]以512的滑動(dòng)間隔提取過零率、梅爾倒譜系數(shù)、恒定Q變換和線性預(yù)測(cè)編碼特征。然后,將這些特征在時(shí)間維度上求平均,最終得到該片段的音頻特征。
2 特征融合
2.1 基礎(chǔ)網(wǎng)絡(luò)
門控循環(huán)單元網(wǎng)絡(luò)(Gated Recurrent Units, GRU)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,它是為解決反向傳播造成的梯度問題而存在的。
GRU只有兩個(gè)門:更新門zt和重置門rt。
(1)更新門zt:用來控制當(dāng)前狀態(tài)ht需要從上一時(shí)刻狀態(tài)ht-1中保留多少信息(不經(jīng)過非線性變換),以及需要從候選狀態(tài)中接收多少信息;
(2)重置門rt:用來控制候選狀態(tài)的計(jì)算是否依賴上一時(shí)刻狀態(tài)ht-1。
(3)
(4)
(5)
(6)
通過分析上述公式可知,GRU直接利用更新門來平衡輸入和遺忘的權(quán)重。相比之下,長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的結(jié)構(gòu)則顯得更為復(fù)雜。
LSTM通過引入3個(gè)門來控制信息的傳遞,分別是遺忘門ft、輸入門it和輸出門ot。相比于GRU,它的輸入門和遺忘門具有一定的冗余性。
3個(gè)門的作用分別如下:
(1)遺忘門ft控制上一時(shí)刻的內(nèi)部狀態(tài)ct-1需要遺忘多少信息;
(2)輸入門it控制當(dāng)前時(shí)刻的候選狀態(tài)有多少信息需要保存;
(3)輸出門ot控制當(dāng)前時(shí)刻的內(nèi)部狀態(tài)ct有多少信息需要輸出給外部狀態(tài)ht。
此外,本文還涉及到一個(gè)經(jīng)典網(wǎng)絡(luò),多層感知機(jī)(Multi-Layer Perceptron, MLP),又被稱為前饋神經(jīng)網(wǎng)絡(luò),由人工神經(jīng)元連接而成。該網(wǎng)絡(luò)結(jié)構(gòu)中,各神經(jīng)元分別屬于不同的層。每一層的神經(jīng)元可以接收前一層神經(jīng)元的信號(hào),并產(chǎn)生信號(hào)輸出到下一層。第0層叫輸入層,最后一層叫輸出層,其他中間層叫做隱藏層。整個(gè)網(wǎng)絡(luò)中無反饋,信號(hào)從輸入層向輸出層單向傳播。其結(jié)構(gòu)如圖2所示。
2.2 網(wǎng)絡(luò)架構(gòu)
基于以上分析,針對(duì)特征提取進(jìn)行實(shí)驗(yàn)后,進(jìn)一步確定本文的網(wǎng)絡(luò)結(jié)構(gòu),即采用基于長短期記憶網(wǎng)絡(luò)[18]和多層感知機(jī)的雙層多模態(tài)網(wǎng)絡(luò)構(gòu)建模型。
該模型是以雙層架構(gòu)為基礎(chǔ)搭建而成的,框架如圖3所示,該網(wǎng)絡(luò)的輸入是上文從3種模態(tài)中提取出的各個(gè)特征,輸出則是表示情感狀態(tài)的標(biāo)量。雙層結(jié)構(gòu)的第一層由3種子網(wǎng)絡(luò)組成,它們負(fù)責(zé)將輸入特征轉(zhuǎn)換為表示情感的特征向量。第二層網(wǎng)絡(luò)以對(duì)各個(gè)子網(wǎng)絡(luò)的輸出特征拼接后的特征作為輸入,并輸出一個(gè)落在[-1,1]范圍內(nèi)的標(biāo)量,作為最終識(shí)別結(jié)果。
對(duì)于第二層融合網(wǎng)絡(luò),以MLP作為網(wǎng)絡(luò)結(jié)構(gòu),并通過網(wǎng)格搜索的方式選擇超參數(shù)。在這種方式下,用GridSearchCV方法自動(dòng)對(duì)這些參數(shù)組合進(jìn)行排列和測(cè)試評(píng)估,最終得到最優(yōu)的超參數(shù)配置結(jié)果。融合網(wǎng)絡(luò)的重點(diǎn)將集中在第一層中各子網(wǎng)絡(luò)的選取上,把三模態(tài)分類問題解決后,實(shí)現(xiàn)的網(wǎng)絡(luò)架構(gòu)如圖4所示。
當(dāng)輸入為文本特征序列時(shí),可采取以下3種可行方案:
(1)將BERT_WWM提取的特征序列作為輸入,經(jīng)過LSTM網(wǎng)絡(luò)輸出最后狀態(tài),再經(jīng)過MLP網(wǎng)絡(luò)處理,得到特征向量作為子網(wǎng)絡(luò)的輸出。
(2)除將輸入數(shù)據(jù)經(jīng)過GRU網(wǎng)絡(luò)并輸出最后狀態(tài)外,其余與步驟(1)相同。
(3)對(duì)BERT_WWM進(jìn)行微調(diào),并以BERT_WWM輸出序列的第一個(gè)值作為輸入,經(jīng)過MLP網(wǎng)絡(luò)處理,得到的特征向量作為子網(wǎng)絡(luò)的輸出。
當(dāng)輸入為音頻和視頻特征時(shí),同樣可提出3種候選方案:
(1)將對(duì)應(yīng)特征序列作為輸入,經(jīng)過LSTM網(wǎng)絡(luò)輸出最后狀態(tài),再經(jīng)過MLP網(wǎng)絡(luò)處理,將得到的特征向量作為子網(wǎng)絡(luò)的輸出。
(2)除將輸入數(shù)據(jù)經(jīng)過GRU網(wǎng)絡(luò)并輸出最后狀態(tài)外,其余與步驟(1)相同。
(3)將對(duì)應(yīng)的特征序列均值作為輸入,經(jīng)過批歸一化和MLP網(wǎng)絡(luò)處理,得到的特征向量作為子網(wǎng)絡(luò)的輸出。
顯然,除第三方案中的輸入序列加工方法不同外,三模態(tài)提取后的特征操作流程基本一致。后續(xù)實(shí)驗(yàn)中,將針對(duì)上述方案進(jìn)行排列組合,共計(jì)27種由3個(gè)子網(wǎng)絡(luò)組合而成的網(wǎng)絡(luò)。其中,第二層的全連接融合網(wǎng)絡(luò)結(jié)構(gòu)相同,為3層
MLP,每層神經(jīng)元個(gè)數(shù)分別為32、32、1。輸出層使用Sigmoid激活函數(shù),其余層使用ReLU激活函數(shù)。
訓(xùn)練過程中使用tensorboard記錄損失值的變化。此外,使用L1損失函數(shù)進(jìn)行訓(xùn)練,并采用小批量梯度下降的方式,批次大小為32。優(yōu)化器選擇Adam,學(xué)習(xí)率為0.002,其余參數(shù)保持默認(rèn)值。為了防止過擬合,采用了權(quán)值衰減和提前停止的策略,權(quán)值衰減系數(shù)設(shè)置為0.000 1,提前停止的步長設(shè)為32。
結(jié)合以上內(nèi)容,總結(jié)整個(gè)算法流程如下:對(duì)于輸入的視頻數(shù)據(jù)文件使用FFmpeg工具進(jìn)行音視頻分離,并將視頻轉(zhuǎn)換為逐幀圖片,在MTCNN網(wǎng)絡(luò)中對(duì)圖片進(jìn)行人臉檢測(cè)并提取人臉部分;通過OpenFace工具對(duì)檢測(cè)到的人臉圖片進(jìn)行特征提取,生成一個(gè)739維特征向量,并對(duì)每個(gè)視頻片段的特征序列求平均,作為該視頻片段的特征表示。使用Librosa庫提取視頻合適特征,對(duì)每個(gè)視頻片段的音頻特征序列求平均,并作為該片段的音頻特征。使用中文BERT_WWM對(duì)文本進(jìn)行編碼,以生成文本特征序列。最后,將3種模態(tài)的信息輸入上文確定的雙層多模態(tài)融合網(wǎng)絡(luò),3個(gè)子網(wǎng)絡(luò)將輸入特征轉(zhuǎn)換為統(tǒng)一的向量格式,然后將3個(gè)向量拼接,通過第二層的全連接網(wǎng)絡(luò)產(chǎn)生輸入。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 使用數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
本文使用的是CH-SIMS數(shù)據(jù)集[19],共有2 281個(gè)視頻片段,片段中只包含一張人臉,時(shí)長在1~10 s范圍內(nèi)。標(biāo)注者依次根據(jù)單一模態(tài)信息、多模態(tài)信息進(jìn)行標(biāo)注。
后續(xù)實(shí)驗(yàn)中將數(shù)據(jù)集按照3∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。為驗(yàn)證文本特征提取的效果,防止模型過度擬合測(cè)試集數(shù)據(jù),本文在整體模型實(shí)驗(yàn)中,全部使用圖5所示的部分?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練。部分?jǐn)?shù)據(jù)集是重新按照3∶1∶1的比例對(duì)整體數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集進(jìn)行劃分而來。
此外,評(píng)價(jià)指標(biāo)在多模態(tài)情感分析中也起著重要作用。其中二分類準(zhǔn)確率(ACC2)是將情感按照模型輸出的值進(jìn)行劃分,并根據(jù)標(biāo)注值計(jì)算分類準(zhǔn)確率。三分類準(zhǔn)確率(ACC3)是將輸出區(qū)間劃分為積極、消極和中性,進(jìn)而計(jì)算準(zhǔn)確率。這2種指標(biāo)的準(zhǔn)確率都是越高越好;F1分?jǐn)?shù)是召回率和精確率的調(diào)和平均值,綜合了模型的召回率和精確率,F(xiàn)1分?jǐn)?shù)越大表示模型效果越好。平均絕對(duì)誤差(Mean Absolute Error, MAE)也可以作為評(píng)價(jià)指標(biāo),用于衡量維度情感建模的預(yù)測(cè)值與實(shí)際標(biāo)注值之間的誤差,值越小越好。
后文的實(shí)驗(yàn)中將利用上述4種指標(biāo)評(píng)估模型的準(zhǔn)確性和性能優(yōu)劣。
3.2 測(cè)試結(jié)果
在確定三模態(tài)時(shí)文本特征使用BERT_WWM編碼的詞向量,視頻特征使用OpenFace提取的全部特征,音頻特征則選取了過零率與10維MFCCs。本文對(duì)27個(gè)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,結(jié)果見表1。對(duì)于文本特征,使用LSTM和GRU直接進(jìn)行微調(diào)效果更好。視頻和音頻特征則使用上文第三種方案效果更好。故選擇文本LSTM+視頻Mean+音頻Mean的組合作為主體網(wǎng)絡(luò)結(jié)構(gòu)。
為分析多模態(tài)融合方式對(duì)于情感分析算法識(shí)別效果的影響,以及不同模態(tài)信息的重要性,本文設(shè)計(jì)了7組融合實(shí)驗(yàn),包括對(duì)各個(gè)模態(tài)的網(wǎng)絡(luò)單獨(dú)進(jìn)行實(shí)驗(yàn)(通過刪除整體網(wǎng)絡(luò)中的特定分支來實(shí)現(xiàn))、兩模態(tài)融合實(shí)驗(yàn)、三模態(tài)融合實(shí)驗(yàn)。所有網(wǎng)絡(luò)的訓(xùn)練均在整體數(shù)據(jù)集的訓(xùn)練集和驗(yàn)證集上進(jìn)行,其余參數(shù)不變。
最后在整體數(shù)據(jù)集的測(cè)試集上獲得了實(shí)驗(yàn)結(jié)果。每組數(shù)據(jù)均為5次實(shí)驗(yàn)的平均值,并使用了相同的5個(gè)隨機(jī)種子,以確保實(shí)驗(yàn)的可重復(fù)性。得到的相應(yīng)數(shù)據(jù)見表2。通過對(duì)比實(shí)驗(yàn)數(shù)據(jù)可知,三模態(tài)融合的效果最佳。
最后,在CH-SIMS數(shù)據(jù)集上,將本文算法與TFN、LMF、MFN、EF_LSTM等算法進(jìn)行了對(duì)比。所有對(duì)比算法都采用了它們的開源代碼實(shí)現(xiàn),且未進(jìn)行任何參數(shù)調(diào)整,結(jié)果見表3。本文模態(tài)融合算法通過不同模態(tài)信息之間的相互補(bǔ)充,提高了算法的識(shí)別精度,且在各項(xiàng)評(píng)價(jià)指標(biāo)上都優(yōu)于對(duì)比算法。
4 結(jié) 語
本文探討了多模態(tài)情感分析的優(yōu)勢(shì)和研究現(xiàn)狀,并從提高特征表達(dá)能力的角度,選擇3種特征提取方式,設(shè)計(jì)并對(duì)比了多種可行的網(wǎng)絡(luò)模型,最終確定并實(shí)現(xiàn)了一種基于LSTM和MLP的雙層多模態(tài)融合網(wǎng)絡(luò),在CH-SIMS數(shù)據(jù)集上驗(yàn)證了本文算法的有效性。未來針對(duì)多模態(tài)情感分析算法的研究還需要考慮到其他方面,如提升算法對(duì)各種模態(tài)數(shù)據(jù)的魯棒性以及豐富數(shù)據(jù)集等。
參考文獻(xiàn)
[1] HUDDAR M G, SANNAKKI S S, RAJPUROHIT V S. A survey of computational approaches and challenges in multimodal sentiment analysis [J]. International journal of computer sciences and engineering, 2019, 7(1): 876-883.
[2] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. Journal of machine learning research, 2019, 21: 1-67.
[3] PENNINGTON J, SOCHER R, CHRISTOPHER D M, et al. Glove: global vectors for word representation [C]// Conference on Empirical Methods in Natural Language Processing. [S.l.]: [s.n.], 2014.
[4] COWIE R, CORNELIUS R R. Describing the emotional states that are expressed in speech [J]. Speech communication, 2003, 40(1/2): 5-32.
[5] ZADEH A, CHEN M, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.]: [s.n.], 2017: 1103-1114.
[6] ZADEH" A, LIANG P P, et al. Memory fusion network for multi-view sequential learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2018.
[7] PORIA S, CAMBRIA E, HAZARIKA D, et al. Context-dependent sentiment analysis in user-generated videos [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]: [s.n.], 2017.
[8] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [EB/OL].(2019-05-24). https: //doi.org/10.48550/arXiv.1810.04805.
[9] CUI Y, CHE W, LIU T, et al. Pre-training with whole word masking for Chinese BERT [J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 29: 3504-3514.
[10] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2013, 2: 3111-3119.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2017: 6000-6010.
[12] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770-778.
[13] ZADEH A, CHONG L Y, BALTRUSAITIS T, et al. Convolutional experts constrained local model for 3d facial landmark detection [C]// Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice, Italy: IEEE, 2017: 2519-2528.
[14] BALTRU?AITIS T, MAHMOUD M, ROBINSON P. Cross-dataset learning and person-specific normalisation for automatic action unit detection [C]// 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Ljubljana, Slovenia: IEEE, 2015: 1-6.
[15] SCH?RKHUBER C, KLAPURI A. Constant-Q transform toolbox for music processing [C]// 7th Sound and Music Computing Conference. Barcelona, Spain: [s.n.], 2010: 3-64.
[16] MCFEE B, RAFFEL C, LIANG D, et al. Librosa: audio and music signal analysis in Python [C]// Proceedings of the 14th Python in Science Conference. [S.l.]: [s.n.], 2015: 18-25.
[17] HARA K, KATAOKA H, SATOH Y, et al. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and imagenet? [C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 6546-6555.
[18] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural computation, 1997, 9(8): 1735.
[19] MIKOLOV T, CHEN K, DEAN J, et al. Efficient estimation of word representations in vector space [J]. International conference on learning representations, 2013: 5959482.
作者簡(jiǎn)介:張潤桐(2000—),女,在讀碩士研究生,研究方向?yàn)閳D像處理。
張鶴軒(1998—),男,碩士,研究方向?yàn)樯疃葘W(xué)習(xí)。
王紫玉(2000—),女,在讀碩士研究生,研究方向?yàn)槲淖肿R(shí)別。
葛曉康(1999—),男,在讀碩士研究生,研究方向?yàn)橹R(shí)圖譜。
收稿日期:2023-11-10 修回日期:2023-12-11
基金項(xiàng)目:國家自然科學(xué)基金青年基金項(xiàng)目:基于紅外與可見光圖像的雙波段雙視場(chǎng)立體視覺關(guān)鍵問題研究(617013 44)
物聯(lián)網(wǎng)技術(shù)2024年11期