景 麗,姚 克
河南財(cái)經(jīng)政法大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,鄭州450046
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和廣泛普及,各種模態(tài)的數(shù)據(jù)井噴式涌現(xiàn),信息的爆炸式增長也為人們帶來了新的挑戰(zhàn):面對如此繁雜的多模態(tài)化數(shù)據(jù),如何從中挖掘出被大眾需要的、有價值的信息,是現(xiàn)階段的一個重要課題。面對模態(tài)多樣且價值密度低的海量數(shù)據(jù),必須要同應(yīng)用背景深度結(jié)合,運(yùn)用自動化手段對數(shù)據(jù)進(jìn)行分類,以便更好地挖掘數(shù)據(jù)中的價值。在這樣的背景下,文本分類方法體現(xiàn)出愈發(fā)重要的研究價值。
文本分類是自然語言處理領(lǐng)域的一項(xiàng)經(jīng)典子任務(wù),指的是將一段文本歸類到一個或多個類別之中。目前,文本分類方法主要分為基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。常見的機(jī)器學(xué)習(xí)方法包括樸素貝葉斯分類[1]、支持向量機(jī)分類[2]、K近鄰分類[3]等。
近年來,隨著深度學(xué)習(xí)[4]的迅速發(fā)展,各種神經(jīng)網(wǎng)絡(luò)模型如雨后春筍般涌現(xiàn),常見的神經(jīng)網(wǎng)絡(luò)模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[6]等。深度學(xué)習(xí)的方法在圖像、音頻等領(lǐng)域都率先取得了驚人的成果,但在詞向量模型出現(xiàn)之前,深度學(xué)習(xí)在自然語言處理領(lǐng)域發(fā)展并不理想,主要原因是神經(jīng)網(wǎng)絡(luò)難以處理高緯度、高稀疏的文本表示。Word2Vec[7]的提出為深度學(xué)習(xí)在NLP領(lǐng)域開辟了道路,它采用分布式表示的詞向量代替?zhèn)鹘y(tǒng)的獨(dú)熱向量,解決了文本表示的問題,常見的詞向量模型包括Word2Vec、ELMo(embeddings from language models)[8]、GPT(generative pre-training)[9]、BERT(bidirectional encoder representation from transformers)[10]等。使用神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練詞向量語言模型,可以自動提取詞向量特征,免去了繁雜的人工特征工程,訓(xùn)練得到的詞向量還可以進(jìn)行靈活的遷移學(xué)習(xí)。
目前,依賴于大規(guī)模的訓(xùn)練數(shù)據(jù)以及高性能GPU、TPU提供的強(qiáng)大計(jì)算能力,以BERT為基線的神經(jīng)網(wǎng)絡(luò)模型大放異彩,在許多應(yīng)用場景都取得了更好的效果。但是,目前的深度學(xué)習(xí)文本分類方法仍是單模態(tài)數(shù)據(jù)驅(qū)動的方法,數(shù)據(jù)中可挖掘的信息量存在一定局限性,模型的泛化能力和魯棒性存在不足。針對這些問題,本文提出兩種提高分類能力的方法:
(1)引入多模態(tài)信息。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,如今的信息呈現(xiàn)多模態(tài)化,每一種信息的來源或形式都是一種模態(tài),比如文本模態(tài)、音頻模態(tài)、圖像模態(tài)等。然而,近來的文本分類方法大多仍處于單模態(tài)階段,其中可挖掘的信息量存在一定的局限性。引入多模態(tài),旨在彌補(bǔ)單模態(tài)信息的局限性,多模態(tài)之間的互補(bǔ)性與冗余性也削弱了單模態(tài)信息受噪聲的影響,提高了整個模型的穩(wěn)定性。
(2)引入知識圖譜。知識圖譜是結(jié)構(gòu)化的知識表示系統(tǒng),包含復(fù)雜的結(jié)構(gòu)化信息,已經(jīng)被廣泛用于搜索引擎、問答系統(tǒng)等領(lǐng)域。引入知識圖譜,旨在為模型提供額外的知識信息,讓模型擁有理解能力、聯(lián)想能力,提高模型的泛化能力。
本章主要從三個角度闡述:(1)從單模態(tài)角度簡述文本分類方法的相關(guān)工作;(2)從知識圖譜角度簡述知識融合的相關(guān)工作;(3)從多模態(tài)角度簡述多模態(tài)特征融合的相關(guān)工作。
Word2Vec的提出使深度學(xué)習(xí)的文本分類方法成為了潮流。學(xué)者們開始結(jié)合詞向量與神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行文本分類。RNN在處理當(dāng)前時刻的狀態(tài)時引入了上一時刻隱藏層的值,使模型擁有了一定的記憶能力,適合處理序列信息,在自然語言處理領(lǐng)域中更常用,但序列過長時會出現(xiàn)長期依賴問題。LSTM(long short term memory)[11]模型是為了解決RNN的長期依賴問題提出的,在標(biāo)準(zhǔn)的RNN單元上添加門控機(jī)制,使得梯度問題得以緩解,但是這個問題仍然存在。CNN在文本分類上也有許多研究成果,Kim[12]提出TextCNN來進(jìn)行文本分類,通過詞向量構(gòu)建了一個句子矩陣,每行都是一個詞向量,隨后通過CNN來進(jìn)行特征提取,取得了不錯的效果。Kalchbrenner等人[13]提出了動態(tài)CNN模型DCNN(dynamic convolutional neural nertwork),模型在池化層使用了k-max-pooling和動態(tài)k-max-pooling,kmax-pooling可以在提取活躍特征的同時保持它們的相對順序,動態(tài)k-max-pooling則在句子長度不同時提取出相應(yīng)數(shù)量的特征,保證后續(xù)卷積層的統(tǒng)一。CNN和RNN在文本分類任務(wù)中都取得了很好的效果,但是其幾乎不具備可解釋性。注意力機(jī)制(Attention)是深度學(xué)習(xí)領(lǐng)域的一個核心技術(shù),也被廣泛應(yīng)用于自然語言處理領(lǐng)域,它模仿人類的視覺注意力,能夠計(jì)算出各個單詞對結(jié)果的貢獻(xiàn),同時注意力機(jī)制有良好的可視化操作,能夠?yàn)槟P吞峁┮欢ǖ目山忉屝浴ahdanau等人[14]使用Attention機(jī)制在機(jī)器翻譯任務(wù)上,取得了顯著的成果,第一次將Attention機(jī)制應(yīng)用到自然語言處理領(lǐng)域中,隨后Attention機(jī)制又被大量應(yīng)用在基于CNN、RNN的網(wǎng)絡(luò)模型上。2017年Google團(tuán)隊(duì)[15]提出了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer,Transformer完全摒棄了RNN與CNN,僅使用基于self-attention的注意力機(jī)制,佐以多頭注意力機(jī)制、位置編碼、前饋神經(jīng)網(wǎng)絡(luò)、殘差連接、層歸一化等技術(shù),在11項(xiàng)NLP領(lǐng)域任務(wù)上刷新了性能記錄。目前以BERT為首的預(yù)訓(xùn)練語言模型就基于Transformer,BERT的出現(xiàn)在整個自然語言處理領(lǐng)域都是里程碑式的,在各項(xiàng)任務(wù)上都顯著刷新了記錄,后續(xù)的大量自然語言處理研究都是基于BERT的改進(jìn)。
人類能夠理解語言,一個重要原因是擁有相關(guān)的先驗(yàn)背景知識。目前的自然語言處理算法,主要基于海量數(shù)據(jù)的統(tǒng)計(jì)擬合來挖掘文本的語義信息,忽略了先驗(yàn)知識的作用,無法提取語言的深層關(guān)聯(lián)與特征,一定程度上限制了其性能上限。因此,要實(shí)現(xiàn)具有理解能力的自然語言處理算法,還需要豐富的領(lǐng)域知識來引導(dǎo)和推理。
知識圖譜是將知識結(jié)構(gòu)化表示的知識系統(tǒng),包含了復(fù)雜的領(lǐng)域知識、通用規(guī)則和其他的結(jié)構(gòu)化信息,如WikiData[16]、YAGO[17]、DBpedia[18]、WordNet[19]等大規(guī)模知識圖譜,被廣泛應(yīng)用于搜索引擎、問答系統(tǒng)等基于知識驅(qū)動的人工智能領(lǐng)域中。將知識圖譜引入到自然語言處理中,能夠讓模型從知識圖譜中提取額外的先驗(yàn)知識,例如文本中隱含的實(shí)體概念、實(shí)體關(guān)系、實(shí)體描述等信息,從而豐富文本的上下文語義信息。Wang等人[20]利用Microsoft提供的概念圖譜將文本概念化,使用CNN聯(lián)合訓(xùn)練文本向量與概念向量,得到了結(jié)合概念知識的文本特征表示。Chen等人[21]進(jìn)一步使用雙向LSTM和注意力機(jī)制來處理概念與文本的關(guān)系以及概念之間的關(guān)系,取得了更好的文本表示效果。得益于BERT的出現(xiàn),一些基于BERT的結(jié)合知識圖譜的預(yù)訓(xùn)練語言模型被提出,比如清華和華為提出的ERNIE(enhanced language representation with informative entities)[22],結(jié)合知識圖譜使用TransE算法獲得文本中包含的實(shí)體向量信息并嵌入到BERT中;北大和騰訊聯(lián)合提出的K-BERT[23]將關(guān)聯(lián)實(shí)體在知識圖譜中的三元組信息注入到文本中,得到一個富含語義信息的句子樹來進(jìn)一步進(jìn)行預(yù)訓(xùn)練,都取得了顯著的效果。
每一種信息的來源或形式都可以稱作一種模態(tài),例如人有觸覺、聽覺、嗅覺;信息的媒介有文字、語音、圖像等,都是一種模態(tài)。多模態(tài)機(jī)器學(xué)習(xí)(multimodal machine learning,MMML),旨在通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多模態(tài)信息的能力。目前比較熱門的研究方向是圖像、文字、音頻、視頻等模態(tài)之間的多模態(tài)學(xué)習(xí)。多模態(tài)學(xué)習(xí)的優(yōu)勢在于彌補(bǔ)了單模態(tài)信息的局限性,受單個模態(tài)中的噪聲影響較小,各模態(tài)之間具有冗余性和互補(bǔ)性,合理處理多模態(tài)信息,就能得到具有更加豐富特征的信息,從而提升整個模型的性能。
多模態(tài)融合是多模態(tài)學(xué)習(xí)的主要研究方向之一,它將從不同模態(tài)數(shù)據(jù)中提取的信息集成到一個穩(wěn)定的多模態(tài)表征中。多模態(tài)融合按照融合的層次劃分,大致可以分為早期融合和晚期融合。Anastasopoulos等人[24]對不同模態(tài)的特征向量直接使用簡單的拼接操作。Zadeh等人[25]提出了基于矩陣的TFN(tensor fusion network),使用矩陣運(yùn)算對不同模態(tài)的特征向量作外積來融合多模態(tài)信息。Nam等人[26]在多模態(tài)融合過程中加入注意力機(jī)制來捕捉視覺和語言模態(tài)間的聯(lián)系,在VQA和圖像文本匹配任務(wù)上達(dá)到了很好的效果。BERT在文本領(lǐng)域的成功,也讓一些多模態(tài)預(yù)訓(xùn)練模型架構(gòu)被提出,比如基于雙流模型的ViLBERT(vision-and-language BERT)[27]、基于單流模型的VisualBERT[28]等,它們將圖像和文本數(shù)據(jù)一同輸入到Transformer中,使用Transformer強(qiáng)大的特征提取能力提取融合的多模態(tài)特征,其中ViLBERT使用雙流模型分別處理圖像和文本數(shù)據(jù),在后期進(jìn)行特征融合,而VisualBERT等單流模型直接在前期將視覺特征和文本特征融合輸入到模型中。后續(xù)研究中,Alberti等人[29]通過實(shí)驗(yàn)和詳細(xì)的分析表明使用早期融合方式的單流模型更具有優(yōu)勢。隨后Kiela等人[30]提出使用單模態(tài)預(yù)訓(xùn)練模型組件來構(gòu)建多模態(tài)架構(gòu),不需要進(jìn)行多模態(tài)任務(wù)上的預(yù)訓(xùn)練,直接在BERT模型上進(jìn)行Fine-tuning就能取得與多模態(tài)預(yù)訓(xùn)練模型具有競爭力的性能。
在以上論述方法的啟發(fā)下,本文針對目前的文本分類模型尚不能有效利用多模態(tài)信息,并且缺乏理解能力的問題,結(jié)合知識融合和多模態(tài)融合兩種提升文本表征能力的方法,構(gòu)建了一個融合知識圖譜和多模態(tài)的文本分類模型,模型利用不同模態(tài)間的信息相互補(bǔ)充,提高了模型的穩(wěn)定性,知識的引入也使模型能夠利用大規(guī)模知識圖譜中的結(jié)構(gòu)化知識。實(shí)驗(yàn)證明,本文提出的方法能夠提升模型的分類性能。
本文的主要貢獻(xiàn)有:
(1)提出了一種同時融合知識圖譜、圖像以及文本信息的多模態(tài)文本分類方法。
(2)在圖像的引入上,對ResNet模型進(jìn)行了改進(jìn),提升了多模態(tài)模型的分類能力。
(3)在知識圖譜的引入上,提出了將知識圖譜實(shí)體信息引入到多模態(tài)文本分類中的思想,并設(shè)計(jì)了一套完整的引入流程。
(4)通過實(shí)驗(yàn)比較了早期融合與晚期融合方式的效果差異。
本文提出的融合知識圖譜和多模態(tài)的文本分類模型如圖1所示。該模型充分結(jié)合了文本、實(shí)體、圖像三種模態(tài)信息的特征表示,其中文本特征表示由BERT預(yù)訓(xùn)練語言模型生成,實(shí)體特征表示通過實(shí)體鏈接提取文本中包含的實(shí)體,利用TransE算法生成對應(yīng)的實(shí)體向量,圖像特征表示由基于ResNet152預(yù)訓(xùn)練模型的改進(jìn)模型生成。
圖1 融合知識圖譜和多模態(tài)的文本分類模型Fig.1 Text classification based on KG and multimodal
BERT(bidirectional encoder representations from transformers)是在大規(guī)模語料庫上進(jìn)行自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練語言模型,通過在未標(biāo)注文本上進(jìn)行MLM(masked language model)隨機(jī)掩蓋和NSP(next sentence prediction)預(yù)測下一句兩種語言模型任務(wù)的預(yù)訓(xùn)練來學(xué)習(xí)語言的內(nèi)部表征,既可以直接使用其進(jìn)行下游任務(wù),也可用來提取對下游任務(wù)有用的文本特征。本文使用bert-base-uncased模型來生成對應(yīng)文本的詞向量。
知識圖譜本質(zhì)上是一個基于圖結(jié)構(gòu)的語義網(wǎng)絡(luò),由節(jié)點(diǎn)和邊組成,每個節(jié)點(diǎn)表示一個實(shí)體,每條邊表示實(shí)體間的一種關(guān)系。實(shí)體可以是具體的事物,也可以是概念或?qū)傩浴R胫R圖譜中的外部知識到模型中主要有兩個重要步驟:實(shí)體鏈接和實(shí)體表示學(xué)習(xí)。
實(shí)體鏈接的主要任務(wù)是將一段文本中提及的關(guān)于實(shí)體的語言片段(mention)鏈接到知識圖譜中對應(yīng)的實(shí)體(entity)上。本文使用BLINK[31]來檢索文本中提及的實(shí)體,對應(yīng)的知識圖譜為Wikidata。BLINK將實(shí)體鏈接任務(wù)分為兩個階段,首先使用Bi-encoder對mention及其上下文、entity及其描述分別編碼得到各自的向量表示,并根據(jù)相似度排序獲取候選實(shí)體candidate,然后將上階段取得的candidate和mention特征向量連接并使用Cross-encoder編碼排序,選出最優(yōu)實(shí)體,模型各階段使用的編碼器都基于獨(dú)立的預(yù)訓(xùn)練的BERT模型。通過BLINK,對于一段給定文本Text={t1,t2,…,tn}可以得到文本對應(yīng)的實(shí)體集Entity={e1,e2,…,es},每個實(shí)體信息都記錄著其在維基數(shù)據(jù)網(wǎng)站上的入口信息。利用這些入口信息,再結(jié)合一定的轉(zhuǎn)換操作,就可以得到這些實(shí)體對應(yīng)的Wikidata實(shí)體“QID”,比如Jay Chou對應(yīng)
Q238819。
實(shí)體表示學(xué)習(xí)的目的在于將以實(shí)體三元組為存儲形式的知識圖譜轉(zhuǎn)化為深度學(xué)習(xí)常用的分布式表示向量形式。本文使用TransE(translating embedding)模型[32]獲取實(shí)體的分布式向量表示。TransE是Bordes等人提出的知識表示學(xué)習(xí)算法,是Trans系列方法的基礎(chǔ),它借鑒詞向量的思想,將實(shí)體和關(guān)系映射到同一個低維向量空間中,關(guān)系被解釋為實(shí)體之間在向量空間中的平移操作,這樣對于一個三元組(h,r,t),其中h、r、t分別代表三元組的頭實(shí)體、關(guān)系和尾實(shí)體的向量表示,TransE希望它們滿足t≈h+r。因此TransE定義了如下?lián)p失函數(shù):
其中d(·)表示兩個向量的距離,這個距離可以為L1或L2范數(shù),S′表示負(fù)例三元組,通過將正例三元組的頭實(shí)體或尾實(shí)體替換為其他隨機(jī)實(shí)體來構(gòu)造,[·]+表示只取結(jié)果為正的部分,γ是一個超參數(shù),用來控制正負(fù)例的距離。損失函數(shù)的目的是讓正例三元組中(h+r)與t距離最小,同時正例三元組中實(shí)體盡可能遠(yuǎn)離負(fù)例三元組中的其他實(shí)體。本文使用OpenKE[33]來提取基于TransE的實(shí)體向量表示。
通過實(shí)體鏈接和實(shí)體表示學(xué)習(xí),可以得到實(shí)體集的向量表示,再經(jīng)過一層多頭自注意力層處理得到實(shí)體特征表示。
深度殘差網(wǎng)絡(luò)(deep residual network,ResNet)[34]的出現(xiàn)是卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域史上的里程碑事件,其提出的殘差網(wǎng)絡(luò)讓深度學(xué)習(xí)的“深度”優(yōu)勢得以顯現(xiàn)。
理論上講,更深層的神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行更加復(fù)雜的特征提取,捕獲更抽象的特征,深層網(wǎng)絡(luò)應(yīng)比淺層網(wǎng)絡(luò)取得更好的效果,至少不會更差。然而事實(shí)上,56層的神經(jīng)網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上的效果遠(yuǎn)不如20層的神經(jīng)網(wǎng)絡(luò),層數(shù)的加深反而使網(wǎng)絡(luò)退化了。針對這個問題,ResNet提出了殘差學(xué)習(xí)的思想,讓層數(shù)的加深不會讓網(wǎng)絡(luò)效果變差,從而解決了深度網(wǎng)絡(luò)的退化問題。
殘差學(xué)習(xí)的思想假設(shè)一個神經(jīng)網(wǎng)絡(luò)已經(jīng)在某一層取得最優(yōu)結(jié)果,其后的深層網(wǎng)絡(luò)是冗余的,如果能夠讓這些冗余層完成一個恒等映射,使冗余層的輸入與輸出不變,就能使網(wǎng)絡(luò)一直保存最優(yōu)層的輸出結(jié)果。殘差網(wǎng)絡(luò)通過引入一個殘差模塊來達(dá)到恒等映射效果,殘差模塊如圖2所示。對于一個冗余的網(wǎng)絡(luò)層,假設(shè)輸入為x,在引入殘差模塊前,網(wǎng)絡(luò)學(xué)習(xí)到的參數(shù)應(yīng)滿足線性變換H(x)=x;引入殘差模塊后,H(x)=F(x)+x,這樣網(wǎng)絡(luò)參數(shù)只需要滿足令殘差F(x)=0,相較于直接學(xué)習(xí)H(x)=x更加容易。
圖2 殘差模塊Fig.2 Residual learning block
ResNet152模型在進(jìn)行了大量的卷積操作后,直接對圖像做了一次全局平局池化操作,將7×7的特征圖壓縮為1×1的矩陣,從而捕獲特征圖的全局特征用于分類。這種方法在一定程度上損失了圖像中局部特征蘊(yùn)含的語義信息和位置信息,本文借鑒了Vit[35]對圖像的處理方式,將ResNet152卷積操作后最終提取的特征圖分割為均等的子特征圖,并將這些子特征圖按照線性順序排列作為圖像的特征表示。本文改進(jìn)后的圖像特征提取模型結(jié)構(gòu)如圖3所示。
圖3 改進(jìn)的圖像編碼器Fig.3 Improved image encoder
本文把將特征圖分割為子特征圖并線性排列的操作稱為UP(unfold patches),經(jīng)過UP操作后,可以得到蘊(yùn)含位置信息的圖像特征表示,這些位置信息能夠輔助Transformer模型更全面地理解圖像,提取到圖像中的語義信息,更好地輔助文本模態(tài)進(jìn)行文本分類。
正如1.3節(jié)所述,晚期融合的方式會忽略掉各模態(tài)之間的互信息。本文在多模態(tài)特征的融合方式上采用早期融合的方式,并利用Transformer模型的強(qiáng)大特征提取能力與多頭自注意力機(jī)制來學(xué)習(xí)各模態(tài)的融合權(quán)重。類似于BERT對文本模態(tài)數(shù)據(jù)的處理方式,各個模態(tài)的輸入向量由特征表示向量、位置編碼向量和段向量疊加而成。由于在圖像模態(tài)數(shù)據(jù)的特征表示方法中引入了UP操作,需要考慮子特征圖的順序關(guān)系,因此圖像模態(tài)的輸入向量中也需要疊加位置編碼向量來學(xué)習(xí)這些位置信息。同時為了保持模型整體一致性,以及實(shí)體信息中可能蘊(yùn)含的位置信息,模型在處理實(shí)體輸入向量時也加入了位置編碼。段向量的作用則是為了讓BERT能夠區(qū)分出輸入向量分別來自不同的模態(tài)。
取得到各模態(tài)的輸入向量后,以級聯(lián)的方式將其拼接在一起,不同模態(tài)之間用特殊標(biāo)記[SEP]分隔開,輸入到預(yù)訓(xùn)練的BERT模型進(jìn)行Fine-tuning訓(xùn)練。輸入層的輸入向量最終形式可表示為:
各模態(tài)特征表示經(jīng)過模型輸入層處理后,輸入到BERT模型中進(jìn)行訓(xùn)練,選取模型輸出的[CLS]標(biāo)簽位置的隱藏向量作為分類任務(wù)所需的特征向量,模型的最后用全連接層作為分類器,輸出一個C維的向量,其中C為分類類別數(shù),第i個維度表示輸入被分為第i個類別的概率。
本文是一個多標(biāo)簽分類問題,使用BCEWithLogitsLoss作為損失函數(shù)來訓(xùn)練模型,該損失函數(shù)是激活函數(shù)Sigmoid和二分類交叉熵BCELoss(binary cross entropy)的組合,并且使用了Log-Sum-Exp的技巧來增強(qiáng)數(shù)值穩(wěn)定性。使用帶有權(quán)重衰減修正的BertAdam優(yōu)化器來更新模型參數(shù)。
MM-IMDB數(shù)據(jù)集[36]由Arevalo等人提供,該數(shù)據(jù)集由IMDB網(wǎng)站提供的電影情節(jié)大綱與電影海報(bào)構(gòu)成,并按照電影體裁對電影進(jìn)行分類,每個電影都可能被分類為多種體裁,體裁共有25個種類,因此這是一個多標(biāo)簽分類問題。整個數(shù)據(jù)集包含25 891條文本以及對應(yīng)的海報(bào)圖片。本文又在其基礎(chǔ)上擴(kuò)充了每條文本包含的實(shí)體信息。實(shí)驗(yàn)中數(shù)據(jù)集按照60%、10%、30%的比例被分為訓(xùn)練集、驗(yàn)證集與測試集。
在多標(biāo)簽分類問題中,模型性能的評價方法相較傳統(tǒng)分類問題更復(fù)雜。本文選用了兩種評價指標(biāo):Micro F1和Macro F1。其中Micro F1同時計(jì)算所有預(yù)測的F1值,Macro F1計(jì)算每個標(biāo)簽的F1值并取平均結(jié)果,各評價指標(biāo)的計(jì)算公式如下:
其中,precision為精確率,即被預(yù)測為正的樣本中實(shí)際為正的比例,recall為召回率,即原本為正的樣本中被預(yù)測為正的比例。F1值則權(quán)衡了精確率和召回率,是二者的調(diào)和平均數(shù)。N指的是標(biāo)簽的種類數(shù)。Micro Precision和Micro Recall是同時計(jì)算所有類別的總精確率和總召回率。
本文實(shí)驗(yàn)主要基于Pytorch深度學(xué)習(xí)框架與pytorch_pretrained_bert庫,GPU為RTX3090,Cuda 11.0,部分模型參數(shù)如表1。
表1 模型參數(shù)Table 1 Parameters of model
本文分別使用單模態(tài)信息和多模態(tài)融合信息進(jìn)行了一系列對比實(shí)驗(yàn)來驗(yàn)證本文方法的有效性:
(1)BERT預(yù)訓(xùn)練模型(text only)。使用BERT預(yù)訓(xùn)練模型對單模態(tài)的文本數(shù)據(jù)進(jìn)行訓(xùn)練與分類。
(2)ResNet152預(yù)訓(xùn)練模型(image only)。使用ResNet152預(yù)訓(xùn)練模型對單模態(tài)的圖像數(shù)據(jù)進(jìn)行訓(xùn)練與分類。
(3)MMBT模型(multimudal bitransformer)。文獻(xiàn)[30]所提出的多模態(tài)分類模型,也是本實(shí)驗(yàn)的基線模型之一。分別使用BERT提取文本特征表示,使用ResNet152提取圖像特征表示,并級聯(lián)拼接輸入到BERT進(jìn)行訓(xùn)練與分類。
(4)UP_E_MMBT模型(unfold patches-entity-MMBT)。本文提出的主要模型,在MMBT模型的基礎(chǔ)上,在圖像的特征提取中引入U(xiǎn)P操作,得到了包含位置信息的圖像特征表示。同時,本文還引入了實(shí)體向量,使用TransE方法訓(xùn)練Wikidata獲得實(shí)體向量,進(jìn)一步提升模型的性能。
(5)晚期融合模型(late concat)。晚期融合對不同模態(tài)的數(shù)據(jù)分別進(jìn)行訓(xùn)練,然后再進(jìn)行融合并輸入分類器進(jìn)行訓(xùn)練與分類。本實(shí)驗(yàn)將各模態(tài)的特征表示進(jìn)行了一系列晚期融合實(shí)驗(yàn)。實(shí)驗(yàn)使用BERT作為文本的特征提取器,使用ResNet或基于ResNet改進(jìn)的模型作為圖像的特征提取器,使用TransE方法訓(xùn)練Wikidata提取實(shí)體特征。
實(shí)驗(yàn)結(jié)果如表2所示,為驗(yàn)證方法的有效性,各模型的實(shí)驗(yàn)參數(shù)(除模型新增參數(shù))和實(shí)驗(yàn)環(huán)境保持完全一致。
表2 實(shí)驗(yàn)結(jié)果Table 2 Results of experiments 單位:%
從實(shí)驗(yàn)結(jié)果可以看出:
(1)單模態(tài)的情況下,文本信息的分類效果優(yōu)于圖像信息,一方面這是由于相較于圖像,文本更容易挖掘出其蘊(yùn)含的語義信息,另一方面則是由分類任務(wù)的性質(zhì)決定的,多模態(tài)文本分類任務(wù)中的圖像信息所表達(dá)的內(nèi)容往往是抽象的、不具體的,僅依靠單模態(tài)的圖像信息難以支撐模型進(jìn)行有效的分類決策。
(2)多模態(tài)融合的情況下,各模型的分類效果均優(yōu)于單模態(tài)情況,這說明為模型引入圖像信息和實(shí)體知識信息能夠提升模型的分類性能。引入圖像能夠補(bǔ)充文本中沒有的語義信息,引入實(shí)體知識能夠使模型獲取額外的先驗(yàn)知識,這些信息都可以幫助模型做出更科學(xué)的分類決策,提升模型的分類性能。
(3)多模態(tài)早期融合的方式取得了更好的效果,這說明在多模態(tài)融合時利用自注意力機(jī)制進(jìn)行早期融合能夠讓模型更好地學(xué)習(xí)到各模態(tài)對分類結(jié)果的貢獻(xiàn)度。UP_E_MMBT的表現(xiàn)優(yōu)于MMBT,說明本文對圖像特征表示的改進(jìn),即對圖像特征圖的UP操作能夠提取圖像中更深層的語義信息。
(4)多模態(tài)晚期融合的效果并不理想,甚至不如純粹的BERT模型,這是因?yàn)橹苯悠唇訒雎愿髂B(tài)對分類結(jié)果的貢獻(xiàn)權(quán)重,但是從實(shí)驗(yàn)結(jié)果仍然可以看出,引入圖像和實(shí)體知識以及引入圖像UP操作后,模型性能會得到提升,這可以佐證本文提出方法的有效性。
為了進(jìn)一步驗(yàn)證本文提出方法的有效性,進(jìn)行了兩組消融實(shí)驗(yàn),并以單模態(tài)文本分類模型BERT和多模態(tài)分類模型MMBT作為基線模型作比較,實(shí)驗(yàn)參數(shù)與實(shí)驗(yàn)環(huán)境同3.2節(jié):
(1)UP_MMBT模型(unfold patches-MMBT)。僅引入圖像模態(tài)并進(jìn)行UP操作,不引入實(shí)體知識。
(2)E_MMBT模型(Entity-MMBT)。僅引入實(shí)體知識,不引入圖像。
實(shí)驗(yàn)結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiments單位:%
從實(shí)驗(yàn)結(jié)果可以看出:分別引入圖像信息和實(shí)體信息后,模型的表現(xiàn)均優(yōu)于基線模型BERT,引入本文提出的UP操作后,UP_MMBT的表現(xiàn)也優(yōu)于MMBT,驗(yàn)證了本文各方法的有效性。對比UP_MMBT和E_MMBT,引入圖像的方法相比引入實(shí)體知識的方法效果更優(yōu),這可能是因?yàn)閿?shù)據(jù)集中圖像與文本是電影海報(bào)與對應(yīng)的情節(jié)大綱,匹配度更高,而目前的實(shí)體鏈接方法不夠成熟,提取的實(shí)體信息與源文本不一定匹配,并且數(shù)據(jù)集每條文本數(shù)據(jù)中所含的實(shí)體數(shù)量也不平衡,因此導(dǎo)致引入實(shí)體知識所帶來的性能提升不如引入圖像信息。
為了進(jìn)一步驗(yàn)證本文提出方法的泛化能力,在Twitter-15&17數(shù)據(jù)集[37]上進(jìn)行了泛化能力分析實(shí)驗(yàn),并以單模態(tài)文本分類模型BERT作為基線模型作比較,實(shí)驗(yàn)參數(shù)與實(shí)驗(yàn)環(huán)境仍保持不變。
本實(shí)驗(yàn)使用Twitter-15&17數(shù)據(jù)集進(jìn)行,該數(shù)據(jù)集收集社交媒體Twitter平臺上的附帶圖片的推文,形式為文本-圖像對,并人工標(biāo)注了圖片和文本各自的情感傾向,情感被分為積極、中性、消極三類。
為了適用本文提出的模型及實(shí)驗(yàn),本文對該數(shù)據(jù)集進(jìn)行了預(yù)處理,將源文本相同的文本-圖像對合并為同一條數(shù)據(jù),并對圖文情感極性按照一定的規(guī)則計(jì)算出每條數(shù)據(jù)的情感極性:如果樣本同時出現(xiàn)了積極標(biāo)注和消極標(biāo)注,則定義該樣本為中性;在其他情況下,如果樣本有積極標(biāo)注,則定義該樣本為積極,消極樣本、中性樣本作同樣處理。最后將兩個數(shù)據(jù)集合并,最終得到本文所需的數(shù)據(jù)集,其中訓(xùn)練集3 847條,驗(yàn)證集1 304條,測試集1 261條。
數(shù)據(jù)集中含有三個情感標(biāo)簽,因此本實(shí)驗(yàn)是一個三分類的情感分析問題。本實(shí)驗(yàn)使用正確率(accuracy,Acc)來作為結(jié)果的評價指標(biāo),Acc表示了預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例。
實(shí)驗(yàn)結(jié)果如表4所示。
表4 泛化能力分析結(jié)果Table 4 Results of generalization analysis
從實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法在不同的數(shù)據(jù)集和分類任務(wù)上有著類似的提升表現(xiàn),這說明本文提出方法具有一定的泛化能力。在情感分析數(shù)據(jù)集上,用戶的評論圖片往往也能夠起到表達(dá)觀點(diǎn)的作用,具有豐富的情感內(nèi)涵,并且用戶的評論通常為短文本,其中含有的實(shí)體更精煉,更貼近文本內(nèi)容,因此模型的性能提升比多標(biāo)簽分類任務(wù)更顯著。引入實(shí)體和引入圖像的方法效果更接近,這說明在引入的信息與文本信息匹配度相似的情況下,其對模型的重要性可能也是相似的。
多模態(tài)學(xué)習(xí)為傳統(tǒng)的基于單模態(tài)的分類模型帶來了新的機(jī)遇與挑戰(zhàn),本文基于多模態(tài)和知識圖譜兩個新興熱點(diǎn),提出了融合知識圖譜和多模態(tài)的文本分類模型,使用各模態(tài)上先進(jìn)的特征提取器提取特征向量,再通過BERT預(yù)訓(xùn)練模型提取各模態(tài)融合后的深層語義信息,取得了良好的效果。
本文對ResNet模型做出了改進(jìn),在模型的尾部引入U(xiǎn)P操作,獲得了蘊(yùn)含位置信息的圖像特征表示,并取得了相較于原模型更好的效果。本文還提出了將實(shí)體知識應(yīng)用到多模態(tài)模型的思想,并設(shè)計(jì)了一套引入實(shí)體的流程,取得了良好的效果。
需要注意的是,本文的工作還有進(jìn)一步的空間,實(shí)驗(yàn)方面可以在其他數(shù)據(jù)集上進(jìn)一步研究模型的有效性和泛化能力,模型細(xì)節(jié)上可以在連接各模態(tài)特征時進(jìn)一步考慮各自的權(quán)重,文本的實(shí)體鏈接和特征表示方法可以采用更成熟的處理方式,知識圖譜的選擇上可以針對具體的下游任務(wù)選用更專業(yè)的領(lǐng)域知識圖譜。