蔣雪瑤,力維辰,劉井平,李直旭,肖仰華
(1.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;2.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)
知識(shí)圖譜是輔助計(jì)算機(jī)理解實(shí)體背景知識(shí)的一種重要方式,目前仍以純符號(hào)化的方式表達(dá)。隨著知識(shí)工程與多模態(tài)學(xué)習(xí)交叉研究的開(kāi)展[1-3],研究者開(kāi)始尋求更多的數(shù)據(jù)模態(tài)來(lái)豐富和完善知識(shí)的表達(dá)方式,因此,多模態(tài)化成為知識(shí)圖譜發(fā)展的主流趨勢(shì)之一。當(dāng)知識(shí)圖譜中的知識(shí)表示包含一種以上模態(tài)的數(shù)據(jù)時(shí),稱之為多模態(tài)知識(shí)圖譜。當(dāng)前,以圖文表示為主的多模態(tài)知識(shí)圖譜構(gòu)建是該領(lǐng)域的研究熱點(diǎn)[4-6],其核心任務(wù)在于為圖譜中的實(shí)體、概念、關(guān)系等符號(hào)知識(shí)匹配合適的圖像,這也是符號(hào)接地的一種方式[7]。
現(xiàn)有的實(shí)體配圖方法可根據(jù)圖像的數(shù)據(jù)來(lái)源大致分為百科圖譜和搜索引擎兩大類。在主流的百科知識(shí)圖譜中,實(shí)體的信息頁(yè)面都會(huì)加入一些圖像輔助說(shuō)明,這為實(shí)體配圖任務(wù)提供了非常充足的圖像資源,一些百科圖譜的構(gòu)建組甚至整理開(kāi)放了針對(duì)這些圖像的檢索工具,如Wikipedia[8]提供了Wikimedia Commons[9],在IMGpedia[10]、VisualSem[11]、Richpedia[12]等常見(jiàn)的多模態(tài)知識(shí)圖譜中都用到了百科圖片。目前的搜索引擎大部分都提供了針對(duì)圖像的搜索功能,利用網(wǎng)頁(yè)中圖像上下文中的文本信息,以及用戶的點(diǎn)擊行為為當(dāng)前的檢索關(guān)鍵字 返回相關(guān)圖 像[13],如ImageGraph[14]、MMKG[15]、TinyImage[16]、NEIL[17]等都選擇圖像搜索引擎作為候選圖像的來(lái)源。
雖然多模態(tài)知識(shí)圖譜的構(gòu)建在實(shí)體配圖方面已經(jīng)取得了一定的成果,但現(xiàn)有方法對(duì)圖像數(shù)據(jù)源的應(yīng)用方式簡(jiǎn)單粗暴,沒(méi)有準(zhǔn)確把握?qǐng)D像數(shù)據(jù)來(lái)源的特點(diǎn),并且忽略了實(shí)體本身的圖像表現(xiàn)規(guī)律:實(shí)體的圖像表現(xiàn)在類內(nèi)有相似性,而在類間有較大差異性,例如,同屬于“人物”這一類別的概念通常都會(huì)用人物的“肖像”來(lái)表達(dá)該實(shí)體,而其他諸如“電影”“島嶼”等類別則一般不使用“肖像”來(lái)表達(dá)實(shí)體。
本文根據(jù)百科圖譜和搜索引擎這兩類圖像源的特點(diǎn),提出一種基于多模態(tài)模式遷移的知識(shí)圖譜實(shí)體配圖方法。借助百科圖譜準(zhǔn)確的人工標(biāo)注圖像及標(biāo)題信息,為同類實(shí)體從中抽取常見(jiàn)的語(yǔ)義模板和視覺(jué)模式。將語(yǔ)義模板應(yīng)用于構(gòu)建更精準(zhǔn)的檢索關(guān)鍵詞,為同類的非頭部實(shí)體從圖像搜索引擎中獲取更準(zhǔn)確的候選圖像。在此基礎(chǔ)上,利用抽取到的視覺(jué)模式對(duì)獲得的候選圖像進(jìn)行篩選,進(jìn)一步提高配圖準(zhǔn)確性。
目前,多模態(tài)知識(shí)圖譜實(shí)體配圖方法可根據(jù)采用的圖像數(shù)據(jù)來(lái)源分為基于百科圖譜的方法和基于圖像搜索引擎的方法。基于百科圖譜為實(shí)體配圖的方法有IMGpedia[10]、VisualSem[11]、Richpedia[12]等。其中:IMGpedia 是規(guī)模最大的,但該方法只是將DBpedia Commons[9]中提供的圖像加以整理,沒(méi)有進(jìn)行篩選,圖像的最終質(zhì)量不可控;VisualSem 使用預(yù)訓(xùn)練語(yǔ)言模型CLIP[18]作為圖文匹配的工具來(lái)檢查圖像是否匹配,但該方法嚴(yán)重依賴于CLIP 訓(xùn)練集中所包含的實(shí)體和概念?;趫D像搜索引擎為實(shí)體配圖的方法有Richpedia[12]、ImageGraph[14]、MMKG[15]、TinyImage[16]等。其中:MMKG、ImageGraph、TinyImage只簡(jiǎn)單粗暴地使用圖像搜索引擎獲得的排名靠前的圖像,同樣沒(méi)有對(duì)實(shí)體的圖像質(zhì)量進(jìn)行把控;Richpedia 雖然同時(shí)使用了百科圖像和圖像搜索引擎兩個(gè)數(shù)據(jù)源,但沒(méi)有利用百科圖像質(zhì)量較高的優(yōu)勢(shì),而是將兩者同等對(duì)待。
本文同時(shí)考慮百科圖譜圖像數(shù)據(jù)和圖像搜索引擎兩個(gè)方面,提出一種基于模式遷移的實(shí)體配圖方法。與Richpedia 不同的是,本文方法篩選了百科圖譜中高質(zhì)量圖像及其文字描述作為實(shí)體的參考模式,并將該模式用于從圖像搜索引擎召回圖像,從而充分利用兩類圖像數(shù)據(jù)的優(yōu)勢(shì),提高配圖準(zhǔn)確性。
本節(jié)形式化地給出問(wèn)題定義,在此基礎(chǔ)上介紹基于模式遷移的實(shí)體配圖方法框架。
多模態(tài)知識(shí)圖譜構(gòu)建工作的核心在于為其中的實(shí)體匹配合適的圖像。給定實(shí)體e,本文的目標(biāo)是為其獲取合適的圖像集Me=[m1,m2,…,mn],使得每張圖像與實(shí)體e在語(yǔ)義上是匹配的。
在本文方法框架中包含以下2 個(gè)階段:
1)模式抽?。簭耐活悇e頭部實(shí)體的百科圖譜的圖文對(duì)中,利用同類實(shí)體的文本描述中的共現(xiàn)性和圖像之間的相似性,抽取該類實(shí)體典型圖像的語(yǔ)義模板和視覺(jué)模式。
2)模式遷移:將得到的語(yǔ)義模板和視覺(jué)模式遷移到同類非頭部實(shí)體的圖像獲取過(guò)程中,其中語(yǔ)義模板用于構(gòu)建搜索引擎檢索關(guān)鍵詞,視覺(jué)模式用于對(duì)檢索結(jié)果去噪。
模式抽取方法整體框架如圖1 所示,本節(jié)分別介紹從百科圖譜的圖文對(duì)中抽取語(yǔ)義模板與視覺(jué)模式的具體步驟。
圖1 模式抽取方法整體框架Fig.1 Overall framework of pattern extraction method
本文采用Wikipedia 描述頁(yè)中圖像的標(biāo)題作為抽取語(yǔ)義模板的數(shù)據(jù)來(lái)源,采用以詞頻統(tǒng)計(jì)為基礎(chǔ)的抽取方法,并使用視覺(jué)信息輔助過(guò)濾冗余的語(yǔ)義模板。
首先將同類實(shí)體的圖文對(duì)中所有的文本整理成一個(gè)大的文本集合,對(duì)文本經(jīng)過(guò)詞根還原等預(yù)處理后,以實(shí)體為單位統(tǒng)計(jì)其中n-gram(n=1,2,3)的詞頻,即如果某實(shí)體的文本中該短語(yǔ)出現(xiàn)了多次,也只記1 次,以避免同一實(shí)體中反復(fù)出現(xiàn)的詞對(duì)模板詞頻統(tǒng)計(jì)的干擾。
在最終應(yīng)用于其他同類實(shí)體時(shí),本文只選用詞頻數(shù)量排序靠前的k個(gè)語(yǔ)義模板,但簡(jiǎn)單統(tǒng)計(jì)n-gram詞頻進(jìn)行排序的方法是存在很多噪聲的,嚴(yán)重影響了排名前k語(yǔ)義模板的質(zhì)量。經(jīng)過(guò)分析,筆者總結(jié)了以下無(wú)效n-gram 類型及解決思路:
1)介詞冗余。例如針對(duì)模板“map”,在抽取到的n-gram 中會(huì)出現(xiàn)“map of ”這類短語(yǔ),其出現(xiàn)頻率與“map”相近,這一模板與“map”在語(yǔ)義表達(dá)上有很大的重復(fù),需要去除,應(yīng)在抽取時(shí)過(guò)濾掉不是以名詞結(jié)尾的短語(yǔ)。
2)包含冗余。以“theatrical release poster”為例,在取1/2/3-gram 時(shí),還會(huì)取到“theatrical”“release”“poster”“theatrical release”“release poster”這5種額外的情況,且這幾個(gè)短語(yǔ)的出現(xiàn)頻率一定大于或等于“theatrical release poster”,但其中只有“poster”是正確的,其余幾項(xiàng)是冗余或者完全錯(cuò)誤的。針對(duì)這一問(wèn)題的解決思路是:同詞頻n-gram 中若存在重疊,則優(yōu)先保留長(zhǎng)度較長(zhǎng)的n-gram,在此基礎(chǔ)上,從高詞頻向低詞頻掃描,若發(fā)現(xiàn)當(dāng)前短語(yǔ)包含其余高頻短語(yǔ),說(shuō)明當(dāng)前短語(yǔ)冗余,刪去該短語(yǔ)。
視覺(jué)模式抽取階段主要包括以下3 個(gè)步驟:1)獲取語(yǔ)義模板對(duì)應(yīng)的圖像;2)去除噪聲圖像;3)過(guò)濾語(yǔ)義模板。其中,前2 個(gè)步驟是對(duì)視覺(jué)模式的獲取及精化,第3 步是通過(guò)視覺(jué)模式進(jìn)一步對(duì)語(yǔ)義模板過(guò)濾。
1)獲取語(yǔ)義模板對(duì)應(yīng)的圖像
在抽取到合適的語(yǔ)義模板后,將從Wikipedia 描述頁(yè)中抽取到的圖文對(duì)進(jìn)一步處理成
2)去除噪聲圖像
通過(guò)純文本比對(duì)的方式獲得的語(yǔ)義模板,其對(duì)應(yīng)圖像中存在噪聲,因?yàn)檎Z(yǔ)義模板可能出現(xiàn)在圖像的標(biāo)題中但并不是圖像所表達(dá)的主體??紤]到這種噪聲的存在,在本步驟中,借助于整體圖像的視覺(jué)特征對(duì)這些圖像進(jìn)行過(guò)濾,這些噪聲圖像的視覺(jué)特征與大部分圖像都存在很大的差距,從圖像特征的向量空間看,這些圖像就是顯然的離群點(diǎn)。本文采用預(yù)訓(xùn)練圖像分類模型VGG16[19]對(duì)圖像進(jìn)行編碼,得到對(duì)應(yīng)的圖像向量,之后用局部離群因子檢測(cè)方法(Local Outlier Factor,LOF)[20]對(duì)這些圖像向量進(jìn)行擬合,計(jì)算每張圖在向量空間中對(duì)應(yīng)點(diǎn)周圍的密度,從而得到其離群因子,最終預(yù)測(cè)出離群點(diǎn)。
筆者沒(méi)有采用常規(guī)的K-Means、G-Means[21]等聚類算法過(guò)濾噪聲圖像,是考慮到不需要明確提取圖像聚類,而只用于過(guò)濾邊緣圖像,且聚類算法會(huì)引入額外的超參,而這些超參需要針對(duì)實(shí)體的不同類別進(jìn)行設(shè)置,影響了方法的泛化能力。
3)過(guò)濾語(yǔ)義模板
3.1節(jié)中獲得的排名靠前的語(yǔ)義模板具備很高的質(zhì)量,但將所有的模板都用作圖像召回是不現(xiàn)實(shí)的,需要對(duì)這些模板作進(jìn)一步的篩選,截取前k個(gè)作為最終的語(yǔ)義模板,這一步需要使用視覺(jué)信息進(jìn)行檢驗(yàn)。
在此提出語(yǔ)義模板的另一條隱形規(guī)則:語(yǔ)義模板之間是視覺(jué)獨(dú)立的,即一個(gè)語(yǔ)義模板所要表達(dá)的圖像與其他模板所表達(dá)的圖像應(yīng)該是低重合度的?;谶@樣一個(gè)隱形條件,本步驟借助于離群點(diǎn)檢測(cè)的方法對(duì)語(yǔ)義模板進(jìn)行篩選。
對(duì)每個(gè)模板pi,若存在pj(j
表1 語(yǔ)義模板示例Table 1 Examples of semantic patterns
本節(jié)介紹語(yǔ)義模板和視覺(jué)模式的遷移方式。其中,語(yǔ)義模板的遷移主要應(yīng)用于構(gòu)建搜索引擎檢索關(guān)鍵詞,視覺(jué)模式的遷移主要應(yīng)用于檢索結(jié)果的去噪。
本文提出通過(guò)在實(shí)體名稱后增加關(guān)鍵詞的方式,具體化檢索的方向。若抽取得到實(shí)體e所屬概念c有語(yǔ)義模板Pc=[p1,p2,…,pl],則 可以構(gòu)建l條對(duì)應(yīng)的搜索關(guān)鍵詞,用模板pi具體化的檢索詞對(duì)當(dāng)前實(shí)體進(jìn)行檢索,得到的圖像就會(huì)集中于該實(shí)體的pi方面。如圖2 所示,在搜索引擎中單純搜索“Greenland”得到的圖像結(jié)果十分雜亂,大部分是風(fēng)景照,中間夾雜了幾張地圖。但在檢索的關(guān)鍵詞后加上語(yǔ)義模板對(duì)其做進(jìn)一步約束后,得到的圖像結(jié)果的表達(dá)方式更為集中,且抽取到的多個(gè)語(yǔ)義模板也能保證檢索結(jié)果的全面性。
圖2 不同檢索關(guān)鍵詞下的圖像搜索引擎檢索結(jié)果Fig.2 Retrieval results of image search engine with different keywords
通過(guò)語(yǔ)義模板得到的關(guān)鍵詞檢索結(jié)果會(huì)更精確,可以將當(dāng)前語(yǔ)義模板限定下的實(shí)體圖像從廣泛的網(wǎng)頁(yè)圖像中召回到排名靠前的位置,但圖像搜索引擎檢索中噪聲問(wèn)題依然存在,除了排序靠前的圖像較為可信外,剩下的圖像中依然存在錯(cuò)誤圖像,尤其是針對(duì)中長(zhǎng)尾實(shí)體,圖像搜索引擎的準(zhǔn)確率是很不可靠的[22]。因此,還需要使用3.2 節(jié)中獲取的視覺(jué)模式對(duì)搜索引擎得到的圖像進(jìn)行篩選和過(guò)濾。
圖像篩選的方式同3.2 節(jié)的噪聲過(guò)濾類似,即通過(guò)LOF 算法對(duì)每個(gè)語(yǔ)義模板對(duì)應(yīng)的圖像集進(jìn)行離群點(diǎn)檢測(cè)。需要注意的是,進(jìn)行離群點(diǎn)檢測(cè)時(shí)需要將同類概念的頭部實(shí)體圖像信息作為參考,一起加入到數(shù)據(jù)集中,LOF 算法在頭部實(shí)體圖像集擬合的基礎(chǔ)上對(duì)同類其他實(shí)體的圖像進(jìn)行檢測(cè)過(guò)濾,以防止實(shí)體從圖像搜索引擎檢索得到的圖像整體視覺(jué)模式偏移,無(wú)法通過(guò)局部離群因子檢測(cè)的方法過(guò)濾離群點(diǎn)。
本節(jié)介紹實(shí)驗(yàn)數(shù)據(jù)及其統(tǒng)計(jì)信息,以及實(shí)驗(yàn)所用到的一些模型和超參的設(shè)置。此外,還將對(duì)最終獲得的多模態(tài)知識(shí)圖譜的規(guī)模和數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并通過(guò)與現(xiàn)有多模態(tài)知識(shí)圖譜的比較評(píng)估和完成下游任務(wù)的情況,證明所提方法的有效性。
5.1.1 數(shù)據(jù)源
本文實(shí)驗(yàn)基于百科知識(shí)圖譜WikiData[23]開(kāi)展。WikiData 是 對(duì)Wikipedia 和Wikimedia Commons 結(jié) 構(gòu)化處理形成的一個(gè)知識(shí)庫(kù),其包含的實(shí)體數(shù)量達(dá)到9.6×107之多。同時(shí),模式抽取的數(shù)據(jù)來(lái)源是Wikipedia,一個(gè)多語(yǔ)言的百科知識(shí)圖譜,其中用英文表述的文章數(shù)量超過(guò)6×106。作為WikiData 本身構(gòu)建的數(shù)據(jù)來(lái)源,Wikipedia 中每個(gè)實(shí)體的描述頁(yè)中的信息比WikiData 中的更加完整和全面。此外,用以構(gòu)建圖譜的圖像數(shù)據(jù)來(lái)源有百科圖像和圖像搜索引擎兩類,由于數(shù)據(jù)本身為英文表達(dá),因此采用Google圖像搜索引擎。
在實(shí)驗(yàn)中,對(duì)WikiData 中不同概念的實(shí)體數(shù)量進(jìn)行統(tǒng)計(jì)和排序,在排除“消歧頁(yè)”等Wikipedia 的內(nèi)置類別和“Taxon”“Surname”等明顯的非視覺(jué)類別[24]后,排名前25 的統(tǒng)計(jì)結(jié)果如圖3 所示,其中,橫坐標(biāo)為類別名稱,縱坐標(biāo)為實(shí)體數(shù)量的對(duì)數(shù)值,這么做是因?yàn)閃ikiData數(shù)據(jù)存在一定的偏向,Human 包含的實(shí)體數(shù)量遠(yuǎn)大于其他概念,為了更清楚地顯示其數(shù)值,故使用對(duì)數(shù)值(底數(shù)為e)。每次從這些概念中選取頭部的100 個(gè)實(shí)體作為參考實(shí)體,對(duì)當(dāng)前概念的圖像表達(dá)模式進(jìn)行抽取,包括語(yǔ)義模板和視覺(jué)模式。經(jīng)統(tǒng)計(jì),最終為每個(gè)概念抽取了平均約2 個(gè)語(yǔ)義模板。
圖3 概念分布統(tǒng)計(jì)Fig.3 Statistics of concept distribution
5.1.2 實(shí)驗(yàn)設(shè)置
在視覺(jué)模式抽取中,本文采用VGG16 作為圖像特征的抽取算法,并將VGG16 分類模型中分類層之前的最后一個(gè)池化層的輸出作為特征向量,其為一個(gè)512 維的向量。
在對(duì)模板進(jìn)行視覺(jué)重合度檢測(cè)時(shí),評(píng)估不同離群點(diǎn)比例routliers的取值對(duì)最終得到的語(yǔ)義模板的影響。實(shí)驗(yàn)結(jié)果如圖4 所示,可以看出,routliers取值越大,對(duì)語(yǔ)義模板的過(guò)濾效果越好。最終選取F1 值最大的routliers=0.25 作為過(guò)濾閾值,即當(dāng)模板pi的圖像集中只有不超過(guò)25%的圖像對(duì)于模板pj是離群點(diǎn)時(shí),認(rèn)為pi與pj視覺(jué)重合度高,過(guò)濾其中之一。
圖4 routliers 取值對(duì)語(yǔ)義模板的影響Fig.4 The influence of routliers on semantic pattern
經(jīng)統(tǒng)計(jì),本文方法為25 類實(shí)體,共1.27.8×105個(gè)實(shí)體收集了1.8×106張圖像。抽取到的圖像數(shù)量按類別分布如圖5(a)所示,可見(jiàn)其中“Island”“City”“Town”這3 類所收集到的圖像數(shù)量最多。實(shí)體按圖像數(shù)量的分布如圖5(b)所示,可見(jiàn)為每個(gè)實(shí)體最多收集了124 張圖像,且由于語(yǔ)義模板加入構(gòu)造搜索引擎檢索關(guān)鍵詞,每加入一個(gè)語(yǔ)義模板就多檢索一次,每次檢索爬取20張圖像,因此實(shí)體包含的圖像數(shù)量以20 為間隔出現(xiàn)一個(gè)小的峰值。
圖5 實(shí)體圖像數(shù)據(jù)統(tǒng)計(jì)Fig.5 Statistics of entity images data
本文選取4 個(gè)多模態(tài)知識(shí)圖譜(IMGpedia、VisualSem、Richpedia、MMKG)對(duì)圖像質(zhì)量進(jìn)行比較,每次為一個(gè)實(shí)體分別從對(duì)比的多模態(tài)知識(shí)圖譜和本文所構(gòu)建的圖譜中獲取對(duì)應(yīng)圖像進(jìn)行評(píng)估,若本文方法的圖像質(zhì)量高于對(duì)比圖譜則打分“better”,若一致則打分“equal”,否則打分“worse”。打分的標(biāo)準(zhǔn)包括準(zhǔn)確性、多樣性、數(shù)量,且優(yōu)先級(jí)為準(zhǔn)確性>多樣性>數(shù)量,當(dāng)準(zhǔn)確性一致時(shí)才比較多樣性,當(dāng)多樣性也一致時(shí)才比較圖像數(shù)量。每次由3 位專家進(jìn)行評(píng)分,若3 位專家的評(píng)分完全不一致,則說(shuō)明該實(shí)體圖像準(zhǔn)確率受主觀因素影響較大,直接舍去這條數(shù)據(jù),否則取3 個(gè)評(píng)估結(jié)果中一致的打分作為評(píng)估的結(jié)果。最終從4 個(gè)基線多模態(tài)知識(shí)圖譜與本文的多模態(tài)知識(shí)圖譜的交集中抽取200 個(gè)結(jié)果進(jìn)行評(píng)估,結(jié)果如圖6 所示,可以看出,本文方法所獲得的圖像質(zhì)量普遍優(yōu)于4 個(gè)基線方法。
圖6 多模態(tài)知識(shí)圖譜對(duì)比Fig.6 Comparison of multi-modality knowledge graph
在評(píng)估的過(guò)程中,本文方法在同名實(shí)體消歧、去除噪聲圖像等方面的效果也得到了驗(yàn)證。圖7(a)~圖7(c)都是常見(jiàn)的通過(guò)直接搜索實(shí)體名稱容易引入的噪聲類型,本文通過(guò)引入語(yǔ)義模板的方式規(guī)避了這些問(wèn)題:圖7(a)中“Brazil”指的是一部電影,但由于與國(guó)家“Brazil”重名,單在搜索引擎中搜索“Brazil”得到的圖像便全是巴西的地圖,而本文方法在檢索時(shí)會(huì)在關(guān)鍵詞中加入“poster”這個(gè)限定詞,檢索得到的圖像就都是正確指向電影的圖;圖7(b)中“Moby”是一個(gè)人,通過(guò)名字在搜索引擎上搜索得到的圖像,除了“Moby”本人的照片,還會(huì)出現(xiàn)與他人的合照,這也是通過(guò)圖像搜索引擎搜索人名時(shí)經(jīng)常會(huì)遇到的噪聲,而本文方法在檢索時(shí)通過(guò)加入“portrait”這個(gè)語(yǔ)義模板,將圖像搜索引擎的結(jié)果正確引向了人物個(gè)人的肖像;圖7(c)中“IBM”指的是一個(gè)企業(yè)的名字,但由于與一款計(jì)算機(jī)同名,導(dǎo)致其搜索結(jié)果中包含很多個(gè)人電腦的照片,而本文通過(guò)在檢索時(shí)加入“l(fā)ogo”“headquarters”等關(guān)鍵詞,將檢索結(jié)果引向了正確的圖像。圖7(d)是少數(shù)MMKG優(yōu)于本文方法的一個(gè)例子,“Walter Lantz”是一位畫家,但由于他也是一個(gè)人,本文方法在檢索時(shí)同樣加入了“portrait”作為限定,但其畫作中也存在肖像,因此導(dǎo)致最終搜索結(jié)果偏向了他的畫作。
圖7 案例分析Fig.7 Case analysis
為進(jìn)一步檢驗(yàn)使用本文方法獲取的圖像的質(zhì)量,本文設(shè)計(jì)一種基于“Prompt”[25]的鏈接預(yù)測(cè)方法在數(shù)據(jù)集FB15k(Freebase[26]的子集)上對(duì)收集得到的圖像進(jìn)行評(píng)估。任務(wù)定義如下:輸入三元組以及實(shí)體s的圖像,預(yù)測(cè)輸出實(shí)體o。
此處借鑒Frozen[27]的思路,將鏈接預(yù)測(cè)任務(wù)轉(zhuǎn)換成完形填空問(wèn)題,實(shí)現(xiàn)方式如下:針對(duì)三元組,利用關(guān)系p的預(yù)設(shè)填空模板將三元組轉(zhuǎn)換成文本“shas a relationpwith[MASK].”。得益于預(yù)訓(xùn)練語(yǔ)言模型BERT[28]的預(yù)訓(xùn)練任務(wù)設(shè)計(jì),BERT 模型有輸出句子中“[MASK]”所在位置的詞的能力,因此,將上述文本輸入BERT,使其預(yù)測(cè)輸出“[MASK]”位置的詞,即實(shí)體o,同時(shí)在輸入中加入實(shí)體s的圖像編碼信息作為填空提示,幫助BERT 預(yù)測(cè)“[MASK]”的詞。實(shí)驗(yàn)所采用的模型結(jié)構(gòu)如圖8所示,將實(shí)體s對(duì)應(yīng)的圖像使用預(yù)訓(xùn)練圖像分類模型得到特征向量后,進(jìn)一步映射到BERT 的詞向量空間中,由三元組填空形成的文本則利用BERT 模型編碼成詞向量序列。將圖像轉(zhuǎn)換而來(lái)的詞向量與句子的詞向量拼接后,一起輸入BERT 模型進(jìn)行訓(xùn)練,最終得到“[MASK]”標(biāo)記處的詞表對(duì)應(yīng)概率分布。
圖8 基于Prompt 的鏈接預(yù)測(cè)模型結(jié)構(gòu)Fig.8 Structure of link prediction model based on Prompt
本實(shí)驗(yàn)為FB15k 中包含數(shù)據(jù)量最大的15 種關(guān)系構(gòu)建了語(yǔ)義填空模板,例如:針對(duì)FB15k 數(shù)據(jù)集中的關(guān)系“/film/actor/film./film/performance/film”,可構(gòu)建填空模板“sis an actor of[MASK].”。根據(jù)這15 種關(guān)系分別對(duì)FB15k 已有的訓(xùn)練集、驗(yàn)證集、測(cè)試集進(jìn)行篩選,最終得到3 927 條訓(xùn)練數(shù)據(jù)、378 條驗(yàn)證數(shù)據(jù)和462 條測(cè)試數(shù)據(jù)。
為了檢驗(yàn)實(shí)體圖像帶來(lái)的作用,本節(jié)還進(jìn)行了以下消融實(shí)驗(yàn):1)只使用預(yù)訓(xùn)練文本編碼(Text);2)傳入空的圖像編碼(Zero Embedding);3)替換其他多模態(tài)知識(shí)圖譜的圖像。本文對(duì)比的多模態(tài)知識(shí)圖譜為Richpedia 和MMKG,這是由于現(xiàn)有的多模態(tài)知識(shí)圖譜本身構(gòu)建依賴的符號(hào)知識(shí)庫(kù)不同,所包含的實(shí)體也不同,只有包含F(xiàn)B15k 中實(shí)體的多模態(tài)知識(shí)圖譜才適合用于比較。盡管VisualSem、IMGpedia 的一部分實(shí)體可以與FB15k 中的實(shí)體對(duì)齊,但數(shù)量太少,不足以支撐訓(xùn)練,故不在此進(jìn)行比較,最終實(shí)驗(yàn)結(jié)果如表2 所示。
表2 鏈接預(yù)測(cè)消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results of link prediction %
通過(guò)對(duì)比使用純文本預(yù)測(cè)和加入圖像信息進(jìn)行預(yù)測(cè)的結(jié)果可以發(fā)現(xiàn),圖像信息的引入有效增強(qiáng)了模型對(duì)實(shí)體的預(yù)測(cè)能力。同時(shí)對(duì)比加入本文方法所收集的圖像和加入其他多模態(tài)知識(shí)圖譜的圖像的結(jié)果,可以發(fā)現(xiàn),本文方法收集到的圖像訓(xùn)練所得的鏈接預(yù)測(cè)模型在各個(gè)指標(biāo)上均超過(guò)其他多模態(tài)知識(shí)圖譜,證明了本文方法的有效性和優(yōu)越性。
本文提出基于多模態(tài)模式遷移的知識(shí)圖譜實(shí)體配圖方法,借助同類實(shí)體圖像之間存在的共性,以語(yǔ)義和圖像2 個(gè)角度,從頭部實(shí)體的百科圖像與標(biāo)題中抽取相關(guān)的語(yǔ)義模板和視覺(jué)模式,并遷移應(yīng)用到非頭部實(shí)體的圖像獲取過(guò)程中?;诒疚姆椒?5 類實(shí)體,共1.278×105個(gè)實(shí)體收集1.8×106張圖像。與4 個(gè)現(xiàn)有多模態(tài)知識(shí)圖譜的對(duì)比結(jié)果表明,本文方法收集到的圖像具有更高的準(zhǔn)確性和多樣性,在下游任務(wù)鏈接預(yù)測(cè)中引入本文方法收集的圖像,可使模型效果得到顯著提升。在目前的多模態(tài)知識(shí)圖譜構(gòu)建工作中,對(duì)圖像質(zhì)量的評(píng)估方法仍有很多不足,導(dǎo)致構(gòu)建所得的知識(shí)圖譜整體質(zhì)量得不到有效評(píng)估,也就很難應(yīng)用于下游任務(wù),后續(xù)將對(duì)此進(jìn)行相關(guān)研究。