尹 朝
(廣州華商學(xué)院,廣東 廣州510000)
圖像情感分析是挖掘情感信息的重要方式。根據(jù)圖像情感分析結(jié)果,可實(shí)現(xiàn)從不同角度刻畫(huà)人類(lèi)情感變化,輔助人類(lèi)進(jìn)行推理、創(chuàng)造、決策等活動(dòng),創(chuàng)造更大的經(jīng)濟(jì)效益和社會(huì)效益。因此,對(duì)圖像情感進(jìn)行分析具有重要的意義。目前,常用的圖像情感分析方法是從圖像模態(tài)對(duì)圖像情感進(jìn)行分析,如楊松等[1]提出一種基于底層特征和注意力機(jī)制的圖像情感分類(lèi)模型:Featurs Net模型,通過(guò)充分融合圖像的CLAHE 顏色特征和Laplacian 紋理特征,并將其作為模型輸入,同時(shí)引入CBAM 注意力機(jī)制對(duì)圖像重點(diǎn)區(qū)域進(jìn)行關(guān)注,實(shí)現(xiàn)了藝術(shù)圖像情感分析。該模型在藝術(shù)圖像數(shù)據(jù)集上的圖像情感分析準(zhǔn)確率可達(dá)到93%,具有良好的實(shí)用性;李志義等[2]利用改進(jìn)的卷積網(wǎng)絡(luò)模型對(duì)圖像的顏色和紋理特征進(jìn)行訓(xùn)練,可實(shí)現(xiàn)對(duì)圖像情感特征的自動(dòng)抽取,為圖像情感分析奠定了基礎(chǔ);Jayanthi 等[3]通過(guò)綜合考慮人臉靜態(tài)圖像和語(yǔ)音調(diào)制情況,采用深度分類(lèi)器融合方法,提出一種靜態(tài)圖像情感識(shí)別方法,可有效識(shí)別圖像情感,識(shí)別準(zhǔn)確率達(dá)到91.49%。通過(guò)上述研究可以發(fā)現(xiàn),目前圖像情感分析方法主要集中在從圖像模態(tài)進(jìn)行圖像情感分析,而圖像實(shí)際上包含了多種模態(tài)信息,除了圖像模態(tài)信息,還包括文本模態(tài)信息,但目前從文本模態(tài)上分析圖像情感的研究少于從圖像模態(tài)分析圖像情感的研究。因此,本研究提出一種針對(duì)圖像文本的情感分析方法,利用圖像內(nèi)容生成模型獲取圖像并生成描述圖像的文本內(nèi)容,然后采用BERT (Bidirectional encoder representation from transformer)模型提取文本內(nèi)容特征,接著利用SR 樣本精選模型對(duì)BERT 模型提取的特征進(jìn)行精選,獲取高質(zhì)量的樣本BERT 特征,最后利用分類(lèi)模型進(jìn)行圖像情感分析。
圖像內(nèi)容生成是將圖像轉(zhuǎn)化為一段描述性文字的過(guò)程。其主要通過(guò)提取圖像特征,并利用卷積神經(jīng)網(wǎng)絡(luò)尋找可能存在的目標(biāo),再利用相應(yīng)的規(guī)則將目標(biāo)生成圖像內(nèi)容,實(shí)現(xiàn)對(duì)圖像的文字描述。本研究選用基于注意力機(jī)制的圖像內(nèi)容生成模型生成圖像文本內(nèi)容[4]。其主要由編碼器和解碼器構(gòu)成,基本結(jié)構(gòu)如圖1所示。其中解碼器利用LSTM 網(wǎng)絡(luò)生成描述文本。此外,為確保所有特征向量子集均來(lái)自圖像關(guān)鍵區(qū)域,引入注意力機(jī)制分配圖像中的語(yǔ)義權(quán)重。
圖1 基于注意力機(jī)制的圖像內(nèi)容生成模型Fig.1 Image content generation model based on attention mechanism
BERT 模型的基本結(jié)構(gòu)如圖2 所示,基模型為T(mén)ransformer 模型的編碼器,通過(guò)多頭自注意力機(jī)制進(jìn)行文本表示[5]。圖2 中,E1~EN表示文本向量化,Trm為T(mén)ransformer模型編碼器結(jié)構(gòu),TN表示輸出。
Transformer 模型編碼器結(jié)構(gòu)如圖3 所示,包括兩層殘差&歸一化層,以及前饋網(wǎng)絡(luò)、多頭自注意力層、輸入層,可實(shí)現(xiàn)不同任務(wù)并行處理[6]。
圖3 Transformer編碼器結(jié)構(gòu)示意圖Fig.3 Structural diagram of transformer encoder
本研究提出的圖像情感分析,其核心思路是利用圖像內(nèi)容生成模型生成描述圖像的文本內(nèi)容,再采用BERT 模型提取文本內(nèi)容特征;然后利用樣本精選方法對(duì)BERT提取的特征進(jìn)行精選,獲取高質(zhì)量的BERT特征;最后利用分類(lèi)器對(duì)圖像情感進(jìn)行分類(lèi),實(shí)現(xiàn)情感分析。其中,本研究使用的圖像內(nèi)容生成模型則采用事先在COCO數(shù)據(jù)集上預(yù)訓(xùn)練好的模型。
BERT 的圖像內(nèi)容文本特征提取采用COCO 訓(xùn)練集上預(yù)訓(xùn)練好的BERT-base 和BERT-wwm 語(yǔ)言模型[7-8]。其中,BERT-base 的特征提取采用的是12 個(gè)Transformer 編碼塊;BERT-wwm 特征為全詞MASK 特征,是指一個(gè)完整的句子被分為若干個(gè)子詞,而在進(jìn)行樣本訓(xùn)練時(shí),這些子詞又被隨機(jī)MASK。BERT 的圖像內(nèi)容特征提取流程如圖4所示。
圖4 BERT模型提取圖像內(nèi)容特征Fig. 4 Image content features extracted by BERT model
為提高圖像情感分析的準(zhǔn)確性,在2.1 節(jié)圖像文本內(nèi)容特征提取的前提下,參考武晉鵬[9]的精選算法,對(duì)BERT 樣本特征進(jìn)行精選,便于從原始圖像數(shù)據(jù)集中獲取高質(zhì)量的圖像樣本,具體步驟為:
(1)輸入多個(gè)圖像數(shù)據(jù)集,以D1和D22個(gè)圖像數(shù)據(jù)集為例。假設(shè)D1數(shù)據(jù)集中圖像樣本質(zhì)量低于D2數(shù)據(jù)集中圖像樣本質(zhì)量,且D1包含D2數(shù)據(jù)集,則從D1中刪除D2中全部圖像樣本,得到D1-2數(shù)據(jù)集,稱(chēng)為候選數(shù)據(jù);
(2)采用一組分類(lèi)器對(duì)D2數(shù)據(jù)集進(jìn)行預(yù)測(cè)。為避免數(shù)據(jù)集中的內(nèi)容存在歧義,使用9 種不同分類(lèi)器進(jìn)行預(yù)測(cè),并通過(guò)軟投票方式對(duì)D2數(shù)據(jù)集中的每個(gè)圖像進(jìn)行預(yù)測(cè);
(3)利用D2 數(shù)據(jù)集訓(xùn)練模型,并對(duì)D1-2 候選數(shù)據(jù)集進(jìn)行測(cè)試,即可從候選數(shù)據(jù)集中精選出良好的圖像樣本,標(biāo)記為Dsr,表示樣本精選;
(4)最后,將Dsr 與D2 數(shù)據(jù)集進(jìn)行合并,即可得到高質(zhì)量的圖像樣本。
在圖像文本特征提取和精選的背景下,構(gòu)建一個(gè)多分類(lèi)器的圖像情感分析模型,具體如圖5所示。
圖5 多分類(lèi)器的圖像情感分析Fig. 5 Image emotion analysis based on multiple classifiers
在圖像情感分析中,由于采用多個(gè)分類(lèi)器,因此可通過(guò)枚舉實(shí)驗(yàn)對(duì)圖像樣本的情感進(jìn)行分類(lèi),如2 個(gè)分類(lèi)器的分類(lèi)結(jié)果與標(biāo)簽一致,則標(biāo)記為2;3 個(gè)分類(lèi)器的分類(lèi)結(jié)果與標(biāo)簽一致,則標(biāo)記為3,以此類(lèi)推。最后,利用最優(yōu)分類(lèi)器組合實(shí)現(xiàn)圖像情感的分類(lèi)。
本次實(shí)驗(yàn)在Linux Ubuntu 操作系統(tǒng)上進(jìn)行,在MATLAB R2018b、Python3.7 軟件和Tensorflow 深度學(xué)習(xí)框架上實(shí)現(xiàn)。系統(tǒng)配置I7-10700 CPU,2080TI GPU。
本次實(shí)驗(yàn)數(shù)據(jù)集來(lái)自AMT 公司標(biāo)注的圖像情感分析數(shù)據(jù)集:Twitter1 數(shù)據(jù)集和FI 數(shù)據(jù)集。其中,Twitter1數(shù)據(jù)集為二分類(lèi)數(shù)據(jù)集,包括正面和負(fù)面情感2 個(gè)類(lèi)別,由5 名AMT 員工進(jìn)行情感極性標(biāo)注分類(lèi)。其中,正面情感類(lèi)別中含有圖像共769 張,負(fù)面情感中含有圖像500張。每張圖像的情感極性標(biāo)注包括3種,分別是“全部同意”、“至少4 人同意”和“至少3 人同意”,分別包括581張、689張、769張圖像。
FI數(shù)據(jù)集是多分類(lèi)數(shù)據(jù)集,包括生氣、娛樂(lè)、敬畏、滿(mǎn)足、厭惡、興奮、恐懼、悲傷8 個(gè)情感標(biāo)簽,分別包括1266 張、4942 張、3151 張、5374 張、1685 張、2963 張、1032 張、2922 張圖像。每張圖像的情感極性標(biāo)注與Twitter1 數(shù)據(jù)集的標(biāo)注相同,分別包括5238 張、12644張、21508張圖像[10]。
本次實(shí)驗(yàn)選用正確率(Acc)評(píng)估模型識(shí)別性能,并在計(jì)算正確率的基礎(chǔ)上,分別計(jì)算分類(lèi)器的平均正確率(FAcc)和特征的平均正確率(TFAcc)。以上計(jì)算公式為[11]
上式中,TP表示分類(lèi)正確的陽(yáng)性樣本數(shù);TN表示分類(lèi)正確的陰性樣本數(shù);FP表示分類(lèi)錯(cuò)誤的陽(yáng)性樣本數(shù);FN表示分類(lèi)錯(cuò)誤的陰性樣本數(shù);Nclassifier為分類(lèi)器數(shù)量;Nfeature為特征數(shù)量。
3.4.1 基于BERT特征的圖像情感分析
為比較不同特征提取及分類(lèi)器的圖像情感分析結(jié)果,聯(lián)合KNN、SVM、GBDT、LR、RF、DT、NB、Ada 等8種分類(lèi)器在Twitter1 和FI 數(shù)據(jù)集上進(jìn)行分析,結(jié)果如圖6 所示。由圖6(a)可知,BERT-wwm 特征在Twitter1數(shù)據(jù)集上的平均正確率最高,達(dá)到72%,在FI數(shù)據(jù)集上的平均正確率也較高,為64%;由圖6(b)可知,LR分類(lèi)器在Twitter1數(shù)據(jù)集上和FI數(shù)據(jù)集上的平均正確率最高,分別達(dá)74.2%和59.1%。DT分類(lèi)器在Twitter1數(shù)據(jù)集和FI 數(shù)據(jù)集上的平均正確率最低,約為65.0%和47.3%。由此說(shuō)明,BERT-wwm特征的圖像情感分析準(zhǔn)確率最高,選擇BERT-wwm的特征提取方法較為合適。
圖6 不同特征在不同分類(lèi)器下的平均準(zhǔn)確率Fig. 6 Average accuracy of different features under different classifiers
為更形象地區(qū)別BERT-wwm 和BERT-base 2 種特征提取下的分類(lèi)差異,利用t-SNE 技術(shù)對(duì)樣本特征的分類(lèi)進(jìn)行可視化,結(jié)果如圖7 所示。由圖7 可知,BERT-base 和BERT-wwm 的樣本特征分布都較為集中,但BERT-wwm 特征分布更緊密些。因此,進(jìn)一步說(shuō)明選用BERT-wwm特征的合理性。
圖7 不同特征可視化結(jié)果Fig.7 Visualization results of different features
3.4.2 基于內(nèi)容生成與BERT-wwm 特征精選的圖像情感分類(lèi)
為驗(yàn)證本研究構(gòu)建的圖像情感分析模型的有效性,基于BERT-wwm 特征,并結(jié)合情感極性標(biāo)注中采用的多種策略進(jìn)行樣本精選分類(lèi),得到表1和圖8的結(jié)果。
表1 本研究構(gòu)建的圖像情感分析模型的識(shí)別結(jié)果/%Tab.1 The recognition results of the image emotion analysis model constructed in this study/%
圖8 特征平均正確率Fig. 8 Average accuracy of features
由表1 可知,在Twitter1 數(shù)據(jù)集上,采用精選方式4 并使用GBDT 分類(lèi)器得到的圖像情感分析準(zhǔn)確率最高,為81.1%;采用精選方式2,并使用DT 分類(lèi)器得到的圖像情感分析準(zhǔn)確率最低,為64.3%。在FI數(shù)據(jù)集上,采用精選方式2 并使用LR 分類(lèi)器得到的圖像情感分析準(zhǔn)確率最高,為67.4%,采用精選方式7 并使用DT 分類(lèi)器進(jìn)行情感分析的準(zhǔn)確率最低,為47.6%。由此說(shuō)明,在Twitter1 數(shù)據(jù)集上精選方式不宜過(guò)寬松或過(guò)嚴(yán)格,精選方式5 較為合適;在FI 數(shù)據(jù)集上精選方式應(yīng)盡量嚴(yán)格,即精選方式7 較為合適。
圖8為BERT-wwm特征精選下不同精選方式的平均正確率。由圖8(a)可知,Twitter1 數(shù)據(jù)集上精選方式5 的平均正確率最高,在FI 數(shù)據(jù)集上精選方式2 的平均正確率最高。因此,在Twitter1 數(shù)據(jù)集上采用精選方式5,在FI 數(shù)據(jù)集上采用精選方式2 較好。圖8(b)為分別采用精選方式5 和精選方式2 在Twitter1 數(shù)據(jù)集和FI數(shù)據(jù)集上不同分類(lèi)器的平均正確率。由圖8(b)可知,GBDT 模型和LR 模型的平均正確率最高,NB模型的平均正確率最低。
綜上所述,對(duì)Twitter1 數(shù)據(jù)集應(yīng)選用較為松散的精選方式;對(duì)FI數(shù)據(jù)集應(yīng)選用較為嚴(yán)格的精選方式。
同時(shí),為驗(yàn)證本研究構(gòu)建的圖像情感分析模型性能,分析不同分類(lèi)器在BERT-wwm 特征下的平均正確率變化和最高正確率變化,結(jié)果如圖9所示。由圖9可知,BERT-wwm 特征的樣本精選方式可提高識(shí)別的正確率,且對(duì)FI 數(shù)據(jù)集的提升效果更好。其中,在Twitter1 數(shù)據(jù)集,Ada 對(duì)平均正確率的提升幅度最大,為5.46%,GBDT 對(duì)最大正確率的提升幅度最大,為11.63%;在FI 數(shù)據(jù)集上,KNN 對(duì)平均準(zhǔn)確率和最大準(zhǔn)確率的提升幅度最大,分別為5.31%和12.63%。由此說(shuō)明,BERT-wwm 特征對(duì)樣本精選模型有效,通過(guò)選擇適當(dāng)?shù)姆诸?lèi)器可較大幅度地提升模型識(shí)別性能,可驗(yàn)證圖像情感分析模型的有效性。
圖9 樣本精選相對(duì)提升幅度Fig. 9 Relative increase of sample selection
3.4.3 分析模型對(duì)比
為驗(yàn)證本研究圖像情感分析模型的優(yōu)越性,與常用的CCA、GS-XGB 等主流圖像情感分析模型進(jìn)行對(duì)比,結(jié)果如表2 所示。由表2 可知,在Twitter1 數(shù)據(jù)集上,SPN模型的識(shí)別正確率最高,為81.37%,本研究圖像情感分析模型的正確率為81.10%,略低于SPN 模型,但優(yōu)于其他模型;在FI 數(shù)據(jù)集上,本研究模型的正確率最高,為67.40%,高于其他對(duì)比模型。綜合來(lái)看,本研究圖像分析模型具有一定的優(yōu)勢(shì)。
表2 不同模型識(shí)別正確率對(duì)比/%Tab. 2 Comparison of recognition accuracy of different models /%
綜上所述,本研究構(gòu)建的圖像情感分析模型,基于注意力機(jī)制的圖像內(nèi)容生成模型生成圖像文本內(nèi)容,并采用BERT提取圖像生成文本內(nèi)容特征,然后通過(guò)樣本精選,獲取高質(zhì)量的BERT-wwm圖像特征,最后訓(xùn)練不同分類(lèi)器,實(shí)現(xiàn)了圖像情感的分析,具有較高的正確率。相較于CCA、SPN、FTR101等常用圖像情感分析模型,本研究模型對(duì)圖像情感分析的正確率最高,在Twitter1數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到81.1%,在FI數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到67.4%,具有一定的優(yōu)越性和實(shí)用性。本研究的創(chuàng)新是實(shí)現(xiàn)了文本模態(tài)到圖像模態(tài)情感的分析。但由于條件限制,正確率仍有待進(jìn)一步提高。