亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于內(nèi)容生成與特征提取的圖像情感識(shí)別模型研究

2023-09-06 01:00:52尹朝

系統(tǒng)仿真技術(shù) 2023年2期

尹朝

（廣州華商學(xué)院，廣東廣州510000）

圖像情感分析是挖掘情感信息的重要方式。根據(jù)圖像情感分析結(jié)果，可實(shí)現(xiàn)從不同角度刻畫(huà)人類(lèi)情感變化，輔助人類(lèi)進(jìn)行推理、創(chuàng)造、決策等活動(dòng)，創(chuàng)造更大的經(jīng)濟(jì)效益和社會(huì)效益。因此，對(duì)圖像情感進(jìn)行分析具有重要的意義。目前，常用的圖像情感分析方法是從圖像模態(tài)對(duì)圖像情感進(jìn)行分析，如楊松等［1］提出一種基于底層特征和注意力機(jī)制的圖像情感分類(lèi)模型：Featurs Net模型，通過(guò)充分融合圖像的CLAHE 顏色特征和Laplacian 紋理特征，并將其作為模型輸入，同時(shí)引入CBAM 注意力機(jī)制對(duì)圖像重點(diǎn)區(qū)域進(jìn)行關(guān)注，實(shí)現(xiàn)了藝術(shù)圖像情感分析。該模型在藝術(shù)圖像數(shù)據(jù)集上的圖像情感分析準(zhǔn)確率可達(dá)到93%，具有良好的實(shí)用性；李志義等［2］利用改進(jìn)的卷積網(wǎng)絡(luò)模型對(duì)圖像的顏色和紋理特征進(jìn)行訓(xùn)練，可實(shí)現(xiàn)對(duì)圖像情感特征的自動(dòng)抽取，為圖像情感分析奠定了基礎(chǔ)；Jayanthi 等［3］通過(guò)綜合考慮人臉靜態(tài)圖像和語(yǔ)音調(diào)制情況，采用深度分類(lèi)器融合方法，提出一種靜態(tài)圖像情感識(shí)別方法，可有效識(shí)別圖像情感，識(shí)別準(zhǔn)確率達(dá)到91.49%。通過(guò)上述研究可以發(fā)現(xiàn)，目前圖像情感分析方法主要集中在從圖像模態(tài)進(jìn)行圖像情感分析，而圖像實(shí)際上包含了多種模態(tài)信息，除了圖像模態(tài)信息，還包括文本模態(tài)信息，但目前從文本模態(tài)上分析圖像情感的研究少于從圖像模態(tài)分析圖像情感的研究。因此，本研究提出一種針對(duì)圖像文本的情感分析方法，利用圖像內(nèi)容生成模型獲取圖像并生成描述圖像的文本內(nèi)容，然后采用BERT （Bidirectional encoder representation from transformer）模型提取文本內(nèi)容特征，接著利用SR 樣本精選模型對(duì)BERT 模型提取的特征進(jìn)行精選，獲取高質(zhì)量的樣本BERT 特征，最后利用分類(lèi)模型進(jìn)行圖像情感分析。

1 基本算法

1.1 圖像內(nèi)容生成模型

圖像內(nèi)容生成是將圖像轉(zhuǎn)化為一段描述性文字的過(guò)程。其主要通過(guò)提取圖像特征，并利用卷積神經(jīng)網(wǎng)絡(luò)尋找可能存在的目標(biāo)，再利用相應(yīng)的規(guī)則將目標(biāo)生成圖像內(nèi)容，實(shí)現(xiàn)對(duì)圖像的文字描述。本研究選用基于注意力機(jī)制的圖像內(nèi)容生成模型生成圖像文本內(nèi)容［4］。其主要由編碼器和解碼器構(gòu)成，基本結(jié)構(gòu)如圖1所示。其中解碼器利用LSTM 網(wǎng)絡(luò)生成描述文本。此外，為確保所有特征向量子集均來(lái)自圖像關(guān)鍵區(qū)域，引入注意力機(jī)制分配圖像中的語(yǔ)義權(quán)重。

圖1 基于注意力機(jī)制的圖像內(nèi)容生成模型Fig.1 Image content generation model based on attention mechanism

1.2 BERT模型

BERT 模型的基本結(jié)構(gòu)如圖2 所示，基模型為T(mén)ransformer 模型的編碼器，通過(guò)多頭自注意力機(jī)制進(jìn)行文本表示［5］。圖2 中，E1～EN表示文本向量化，Trm為T(mén)ransformer模型編碼器結(jié)構(gòu)，TN表示輸出。

Transformer 模型編碼器結(jié)構(gòu)如圖3 所示，包括兩層殘差&歸一化層，以及前饋網(wǎng)絡(luò)、多頭自注意力層、輸入層，可實(shí)現(xiàn)不同任務(wù)并行處理［6］。

圖3 Transformer編碼器結(jié)構(gòu)示意圖Fig.3 Structural diagram of transformer encoder

2 圖像情感分析模型構(gòu)建

本研究提出的圖像情感分析，其核心思路是利用圖像內(nèi)容生成模型生成描述圖像的文本內(nèi)容，再采用BERT 模型提取文本內(nèi)容特征；然后利用樣本精選方法對(duì)BERT提取的特征進(jìn)行精選，獲取高質(zhì)量的BERT特征；最后利用分類(lèi)器對(duì)圖像情感進(jìn)行分類(lèi)，實(shí)現(xiàn)情感分析。其中，本研究使用的圖像內(nèi)容生成模型則采用事先在COCO數(shù)據(jù)集上預(yù)訓(xùn)練好的模型。

2.1 基于BERT的圖像內(nèi)容文本特征提取

BERT 的圖像內(nèi)容文本特征提取采用COCO 訓(xùn)練集上預(yù)訓(xùn)練好的BERT-base 和BERT-wwm 語(yǔ)言模型［7-8］。其中，BERT-base 的特征提取采用的是12 個(gè)Transformer 編碼塊；BERT-wwm 特征為全詞MASK 特征，是指一個(gè)完整的句子被分為若干個(gè)子詞，而在進(jìn)行樣本訓(xùn)練時(shí)，這些子詞又被隨機(jī)MASK。BERT 的圖像內(nèi)容特征提取流程如圖4所示。

圖4 BERT模型提取圖像內(nèi)容特征Fig. 4 Image content features extracted by BERT model

2.2 BERT樣本特征精選

為提高圖像情感分析的準(zhǔn)確性，在2.1 節(jié)圖像文本內(nèi)容特征提取的前提下，參考武晉鵬［9］的精選算法，對(duì)BERT 樣本特征進(jìn)行精選，便于從原始圖像數(shù)據(jù)集中獲取高質(zhì)量的圖像樣本，具體步驟為：

（1）輸入多個(gè)圖像數(shù)據(jù)集，以D1和D22個(gè)圖像數(shù)據(jù)集為例。假設(shè)D1數(shù)據(jù)集中圖像樣本質(zhì)量低于D2數(shù)據(jù)集中圖像樣本質(zhì)量，且D1包含D2數(shù)據(jù)集，則從D1中刪除D2中全部圖像樣本，得到D1-2數(shù)據(jù)集，稱(chēng)為候選數(shù)據(jù)；

（2）采用一組分類(lèi)器對(duì)D2數(shù)據(jù)集進(jìn)行預(yù)測(cè)。為避免數(shù)據(jù)集中的內(nèi)容存在歧義，使用9 種不同分類(lèi)器進(jìn)行預(yù)測(cè)，并通過(guò)軟投票方式對(duì)D2數(shù)據(jù)集中的每個(gè)圖像進(jìn)行預(yù)測(cè)；

（3）利用D2 數(shù)據(jù)集訓(xùn)練模型，并對(duì)D1-2 候選數(shù)據(jù)集進(jìn)行測(cè)試，即可從候選數(shù)據(jù)集中精選出良好的圖像樣本，標(biāo)記為Dsr，表示樣本精選；

（4）最后，將Dsr 與D2 數(shù)據(jù)集進(jìn)行合并，即可得到高質(zhì)量的圖像樣本。

2.3 圖像情感分析模型構(gòu)建

在圖像文本特征提取和精選的背景下，構(gòu)建一個(gè)多分類(lèi)器的圖像情感分析模型，具體如圖5所示。

圖5 多分類(lèi)器的圖像情感分析Fig. 5 Image emotion analysis based on multiple classifiers

在圖像情感分析中，由于采用多個(gè)分類(lèi)器，因此可通過(guò)枚舉實(shí)驗(yàn)對(duì)圖像樣本的情感進(jìn)行分類(lèi)，如2 個(gè)分類(lèi)器的分類(lèi)結(jié)果與標(biāo)簽一致，則標(biāo)記為2；3 個(gè)分類(lèi)器的分類(lèi)結(jié)果與標(biāo)簽一致，則標(biāo)記為3，以此類(lèi)推。最后，利用最優(yōu)分類(lèi)器組合實(shí)現(xiàn)圖像情感的分類(lèi)。

3 仿真實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境搭建

本次實(shí)驗(yàn)在Linux Ubuntu 操作系統(tǒng)上進(jìn)行，在MATLAB R2018b、Python3.7 軟件和Tensorflow 深度學(xué)習(xí)框架上實(shí)現(xiàn)。系統(tǒng)配置I7-10700 CPU，2080TI GPU。

3.2 數(shù)據(jù)來(lái)源及預(yù)處理

本次實(shí)驗(yàn)數(shù)據(jù)集來(lái)自AMT 公司標(biāo)注的圖像情感分析數(shù)據(jù)集：Twitter1 數(shù)據(jù)集和FI 數(shù)據(jù)集。其中，Twitter1數(shù)據(jù)集為二分類(lèi)數(shù)據(jù)集，包括正面和負(fù)面情感2 個(gè)類(lèi)別，由5 名AMT 員工進(jìn)行情感極性標(biāo)注分類(lèi)。其中，正面情感類(lèi)別中含有圖像共769 張，負(fù)面情感中含有圖像500張。每張圖像的情感極性標(biāo)注包括3種，分別是“全部同意”、“至少4 人同意”和“至少3 人同意”，分別包括581張、689張、769張圖像。

FI數(shù)據(jù)集是多分類(lèi)數(shù)據(jù)集，包括生氣、娛樂(lè)、敬畏、滿(mǎn)足、厭惡、興奮、恐懼、悲傷8 個(gè)情感標(biāo)簽，分別包括1266 張、4942 張、3151 張、5374 張、1685 張、2963 張、1032 張、2922 張圖像。每張圖像的情感極性標(biāo)注與Twitter1 數(shù)據(jù)集的標(biāo)注相同，分別包括5238 張、12644張、21508張圖像［10］。

3.3 評(píng)價(jià)指標(biāo)

本次實(shí)驗(yàn)選用正確率（Acc）評(píng)估模型識(shí)別性能，并在計(jì)算正確率的基礎(chǔ)上，分別計(jì)算分類(lèi)器的平均正確率（FAcc）和特征的平均正確率（TFAcc）。以上計(jì)算公式為［11］

上式中，TP表示分類(lèi)正確的陽(yáng)性樣本數(shù)；TN表示分類(lèi)正確的陰性樣本數(shù)；FP表示分類(lèi)錯(cuò)誤的陽(yáng)性樣本數(shù)；FN表示分類(lèi)錯(cuò)誤的陰性樣本數(shù)；Nclassifier為分類(lèi)器數(shù)量；Nfeature為特征數(shù)量。

3.4 結(jié)果與分析

3.4.1 基于BERT特征的圖像情感分析

為比較不同特征提取及分類(lèi)器的圖像情感分析結(jié)果，聯(lián)合KNN、SVM、GBDT、LR、RF、DT、NB、Ada 等8種分類(lèi)器在Twitter1 和FI 數(shù)據(jù)集上進(jìn)行分析，結(jié)果如圖6 所示。由圖6（a）可知，BERT-wwm 特征在Twitter1數(shù)據(jù)集上的平均正確率最高，達(dá)到72%，在FI數(shù)據(jù)集上的平均正確率也較高，為64%；由圖6（b）可知，LR分類(lèi)器在Twitter1數(shù)據(jù)集上和FI數(shù)據(jù)集上的平均正確率最高，分別達(dá)74.2%和59.1%。DT分類(lèi)器在Twitter1數(shù)據(jù)集和FI 數(shù)據(jù)集上的平均正確率最低，約為65.0%和47.3%。由此說(shuō)明，BERT-wwm特征的圖像情感分析準(zhǔn)確率最高，選擇BERT-wwm的特征提取方法較為合適。

圖6 不同特征在不同分類(lèi)器下的平均準(zhǔn)確率Fig. 6 Average accuracy of different features under different classifiers

為更形象地區(qū)別BERT-wwm 和BERT-base 2 種特征提取下的分類(lèi)差異，利用t-SNE 技術(shù)對(duì)樣本特征的分類(lèi)進(jìn)行可視化，結(jié)果如圖7 所示。由圖7 可知，BERT-base 和BERT-wwm 的樣本特征分布都較為集中，但BERT-wwm 特征分布更緊密些。因此，進(jìn)一步說(shuō)明選用BERT-wwm特征的合理性。

圖7 不同特征可視化結(jié)果Fig.7 Visualization results of different features

3.4.2 基于內(nèi)容生成與BERT-wwm 特征精選的圖像情感分類(lèi)

為驗(yàn)證本研究構(gòu)建的圖像情感分析模型的有效性，基于BERT-wwm 特征，并結(jié)合情感極性標(biāo)注中采用的多種策略進(jìn)行樣本精選分類(lèi)，得到表1和圖8的結(jié)果。

表1 本研究構(gòu)建的圖像情感分析模型的識(shí)別結(jié)果/%Tab.1 The recognition results of the image emotion analysis model constructed in this study/%

圖8 特征平均正確率Fig. 8 Average accuracy of features

由表1 可知，在Twitter1 數(shù)據(jù)集上，采用精選方式4 并使用GBDT 分類(lèi)器得到的圖像情感分析準(zhǔn)確率最高，為81.1%；采用精選方式2，并使用DT 分類(lèi)器得到的圖像情感分析準(zhǔn)確率最低，為64.3%。在FI數(shù)據(jù)集上，采用精選方式2 并使用LR 分類(lèi)器得到的圖像情感分析準(zhǔn)確率最高，為67.4%，采用精選方式7 并使用DT 分類(lèi)器進(jìn)行情感分析的準(zhǔn)確率最低，為47.6%。由此說(shuō)明，在Twitter1 數(shù)據(jù)集上精選方式不宜過(guò)寬松或過(guò)嚴(yán)格，精選方式5 較為合適；在FI 數(shù)據(jù)集上精選方式應(yīng)盡量嚴(yán)格，即精選方式7 較為合適。

圖8為BERT-wwm特征精選下不同精選方式的平均正確率。由圖8（a）可知，Twitter1 數(shù)據(jù)集上精選方式5 的平均正確率最高，在FI 數(shù)據(jù)集上精選方式2 的平均正確率最高。因此，在Twitter1 數(shù)據(jù)集上采用精選方式5，在FI 數(shù)據(jù)集上采用精選方式2 較好。圖8（b）為分別采用精選方式5 和精選方式2 在Twitter1 數(shù)據(jù)集和FI數(shù)據(jù)集上不同分類(lèi)器的平均正確率。由圖8（b）可知，GBDT 模型和LR 模型的平均正確率最高，NB模型的平均正確率最低。

綜上所述，對(duì)Twitter1 數(shù)據(jù)集應(yīng)選用較為松散的精選方式；對(duì)FI數(shù)據(jù)集應(yīng)選用較為嚴(yán)格的精選方式。

同時(shí)，為驗(yàn)證本研究構(gòu)建的圖像情感分析模型性能，分析不同分類(lèi)器在BERT-wwm 特征下的平均正確率變化和最高正確率變化，結(jié)果如圖9所示。由圖9可知，BERT-wwm 特征的樣本精選方式可提高識(shí)別的正確率，且對(duì)FI 數(shù)據(jù)集的提升效果更好。其中，在Twitter1 數(shù)據(jù)集，Ada 對(duì)平均正確率的提升幅度最大，為5.46%，GBDT 對(duì)最大正確率的提升幅度最大，為11.63%；在FI 數(shù)據(jù)集上，KNN 對(duì)平均準(zhǔn)確率和最大準(zhǔn)確率的提升幅度最大，分別為5.31%和12.63%。由此說(shuō)明，BERT-wwm 特征對(duì)樣本精選模型有效，通過(guò)選擇適當(dāng)?shù)姆诸?lèi)器可較大幅度地提升模型識(shí)別性能，可驗(yàn)證圖像情感分析模型的有效性。

圖9 樣本精選相對(duì)提升幅度Fig. 9 Relative increase of sample selection

3.4.3 分析模型對(duì)比

為驗(yàn)證本研究圖像情感分析模型的優(yōu)越性，與常用的CCA、GS-XGB 等主流圖像情感分析模型進(jìn)行對(duì)比，結(jié)果如表2 所示。由表2 可知，在Twitter1 數(shù)據(jù)集上，SPN模型的識(shí)別正確率最高，為81.37%，本研究圖像情感分析模型的正確率為81.10%，略低于SPN 模型，但優(yōu)于其他模型；在FI 數(shù)據(jù)集上，本研究模型的正確率最高，為67.40%，高于其他對(duì)比模型。綜合來(lái)看，本研究圖像分析模型具有一定的優(yōu)勢(shì)。

表2 不同模型識(shí)別正確率對(duì)比/%Tab. 2 Comparison of recognition accuracy of different models /%

4 結(jié) 論

綜上所述，本研究構(gòu)建的圖像情感分析模型，基于注意力機(jī)制的圖像內(nèi)容生成模型生成圖像文本內(nèi)容，并采用BERT提取圖像生成文本內(nèi)容特征，然后通過(guò)樣本精選，獲取高質(zhì)量的BERT-wwm圖像特征，最后訓(xùn)練不同分類(lèi)器，實(shí)現(xiàn)了圖像情感的分析，具有較高的正確率。相較于CCA、SPN、FTR101等常用圖像情感分析模型，本研究模型對(duì)圖像情感分析的正確率最高，在Twitter1數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到81.1%，在FI數(shù)據(jù)集上的識(shí)別準(zhǔn)確率達(dá)到67.4%，具有一定的優(yōu)越性和實(shí)用性。本研究的創(chuàng)新是實(shí)現(xiàn)了文本模態(tài)到圖像模態(tài)情感的分析。但由于條件限制，正確率仍有待進(jìn)一步提高。