閆盈盈 曹 揚 灑科進 支 婷
(1.中電科大數(shù)據(jù)研究院有限公司 貴陽 550022)(2.提升政府治理能力大數(shù)據(jù)應(yīng)用技術(shù)國家工程研究中心 貴陽 550022)
檢索是用戶獲取知識的常用方式之一,傳統(tǒng)的跨媒體檢索研究主要集中在以文搜圖和以圖搜文兩種媒體數(shù)據(jù)之間。事實上,隨著大數(shù)據(jù)時代的來臨,人們通過互聯(lián)網(wǎng)會產(chǎn)生大量的文本數(shù)據(jù)如新聞報道、微信聊天記錄、彈幕等,圖片數(shù)據(jù)如文章配圖、醫(yī)療影像等,視頻數(shù)據(jù)如抖音、快手等視頻媒體軟件數(shù)據(jù)、城市攝像頭數(shù)據(jù)等,同時伴隨著如微信語音、視頻配音等音頻信息。通常四種媒體常常會同時出現(xiàn)且語義具有相關(guān)性,但大多數(shù)跨媒體檢索技術(shù)研究僅僅限于兩種媒體數(shù)據(jù)之間,顯然,這種搜索已經(jīng)不能夠滿足人們?nèi)找嬖黾拥臄?shù)據(jù)檢索需求。提供高效的跨媒體檢索方法滿足人們精準且豐富的數(shù)據(jù)檢索需求,提升用戶的知識獲取效率和檢索體驗是目前跨媒體檢索技術(shù)的研究熱點。
近年來,跨媒體檢索受到了廣泛的關(guān)注和研究,主要分為基于子空間學習的方法、基于哈希學習的方法以及基于深度學習的方法?;谧涌臻g學習的方法中最常用的方法是典型相關(guān)分析(CCA)。Rasiwasia 等[1]將語義類別信息與CCA 進行結(jié)合,Hardoon 等[2]提出了一種基于高斯分布核函數(shù)的KCCA方法,Andrew等[3]提出了DCCA方法,該方法是一種參數(shù)化方法,可以通過深度網(wǎng)絡(luò)靈活學習兩種相關(guān)類型媒體之間的非線性變換。Gong等[4]提出了Multi-view CCA 將高層語義作為第3 個視角來擴展傳統(tǒng)CCA 方法,李廣麗等[5]利用Tag-rank 和典型性相關(guān)分析法(CCA)進行在線商品的跨媒體檢索研究?;诠W習的跨媒體檢索方法主要思想為通過學習哈希函數(shù),將高維數(shù)據(jù)映射到二進制編碼的海明空間,同時盡可能保留原始空間的相似結(jié)構(gòu)[6],包括模態(tài)間檢索方法IME[7]、潛在語義稀疏哈希方法LSSH[8]、多視角檢索語義保持哈希方法SePH[9]、判別的跨模態(tài)哈希方法DHC[10]、線性跨模態(tài)哈希LCMH[11]、協(xié)同矩陣分解哈希CMFH[12]、語義相關(guān)最大化SCM[13]。在基于深度學習的跨媒體檢索方法方面,Peng等[14]構(gòu)建跨媒體層次化網(wǎng)絡(luò),通過兩階段的學習策略發(fā)現(xiàn)媒體內(nèi)及媒體間關(guān)聯(lián)關(guān)系,從而獲得跨媒體信息的共享表征;Wei 等[15]提出了利用卷積神經(jīng)網(wǎng)絡(luò)視覺特征的跨媒體檢索方法;Wang 等[16]提出基于生成對抗網(wǎng)絡(luò)的了跨媒體檢索方法(ACMR)。Huang等[17]提出了基于混合遷移網(wǎng)絡(luò)的跨媒體統(tǒng)一表征方法,實現(xiàn)了不同媒體間的知識遷移。綦金瑋等[18]利用兩級循環(huán)神經(jīng)網(wǎng)絡(luò)建模不同媒體內(nèi)及媒體間的細粒度上下文信息,然后引入注意力機制實現(xiàn)了精確的跨媒體關(guān)聯(lián)關(guān)系挖掘。He 等[19]提出了一種基于Resnet 的細??缑襟w統(tǒng)一表征模型FGCrossNet,實現(xiàn)了基于四種媒體類型數(shù)據(jù)的跨媒體檢索。
本文致力于四種模態(tài)的跨媒體檢索方法的研究,提出了基于Resnet-Bert 網(wǎng)絡(luò)模型的跨媒體檢索方法,旨在解決目前僅使用兩種模態(tài)進行檢索導致的用戶檢索體驗不佳以及四種模態(tài)檢索精度不高,效果不好的問題。
跨媒體統(tǒng)一表征是跨媒體檢索的重要研究基礎(chǔ),將不同媒體類型數(shù)據(jù)的特征表示映射到同一個共享子空間,從而跨越異構(gòu)鴻溝,實現(xiàn)語義關(guān)聯(lián)。本文提出的跨媒體檢索基于圖1 所示的跨媒體統(tǒng)一表征思想。
圖1 基于類別標簽的跨媒體統(tǒng)一表征模型(以5種類別為例)
如圖1 所示,展示了基于類別標簽的跨媒體統(tǒng)一表征模型。該模型包括兩個步驟。首先,將圖像、視頻、音頻以及文本媒體類型數(shù)據(jù)分別通過深度學習、機器學習等方法進行特征提取,分別形成各自的類別空間,圖中各媒體類型的坐標軸數(shù)目分別表示不同的類別標簽,空間點代表數(shù)據(jù)的類別特征向量。其次,將各媒體類型數(shù)據(jù)的類別特征向量表示映射到同一個類別子空間中,從而實現(xiàn)跨媒體數(shù)據(jù)的統(tǒng)一表征。基于該表征思想,能夠簡潔高效地實現(xiàn)不同類型的媒體數(shù)據(jù)語義關(guān)聯(lián)和檢索計算。
針對當前跨模態(tài)檢索存在的媒體類型較少以及跨媒體檢索效果不佳的問題,提出了一種基于Resnet-Bert網(wǎng)絡(luò)模型的跨媒體檢索方法,利用卷積神經(jīng)網(wǎng)絡(luò)模型Resnet[20]良好的圖像編碼能力與自然語言處理模型Bert[21]良好的文本編碼能力,在圖像、視頻、音頻以及文本四種媒體類型數(shù)據(jù)之間建立了基于類別標簽的跨媒體統(tǒng)一表征共享空間,通過不同模態(tài)間信息互補與增強,實現(xiàn)跨媒體信息語義的遷移輔助與關(guān)聯(lián)理解,使得模型具有較好的表達能力。本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Resnet-Bert網(wǎng)絡(luò)模型圖
如圖2 所示,對于圖像、視頻以及音頻三種媒體的數(shù)據(jù),統(tǒng)一構(gòu)建基于Resnet50 的卷積神經(jīng)網(wǎng)絡(luò)。對于文本數(shù)據(jù),構(gòu)建基于Bert 的網(wǎng)絡(luò)模型,在輸出層,形成基于圖像、視頻、文本及音頻的跨媒體統(tǒng)一表征類別標簽空間。
本文利用兩種損失函數(shù)驅(qū)動Resnet-Bert 模型的學習,分別為交叉熵損失函數(shù)與中心損失函數(shù)。交叉熵損失函數(shù)是利用交叉熵計算各媒體類型的類別特征表示與正確的標簽向量之間的差異,并將各媒體的損失函數(shù)求和。其定義如下所示:
其中,l(xk,yk)是交叉熵損失函數(shù)。I、V、A 以及T 分別表示圖像、視頻、音頻以及文本媒體類型。以圖像為例,NI 表示訓練集中圖像的總數(shù)量,表示模型學習的第k 個圖像數(shù)據(jù)的類別特征,表示第k 個圖像數(shù)據(jù)的真實標簽。NV 表示視頻分幀后的所有的幀的總數(shù)量。
中心損失函數(shù)希望每個樣本的特征離特征中心的距離的平方和越小越好,即中心損失函數(shù)用于減少類內(nèi)差異,能夠把同一類的樣本之間的距離拉近一些,使其相似性變大。中心損失含函數(shù)的定義如下:
其中,xk表示屬于第yk個類的第k 個訓練樣本的特征表示,該處的訓練樣本是可以是任何媒體數(shù)據(jù)類型。N 表示所有媒體訓練數(shù)據(jù)的總個數(shù)。cyk表示第yk個類別的特征中心。
按照文獻[19]介紹的四種類型媒體數(shù)據(jù)采集與預處理情況,本文通過爬蟲、下載等多種方式,獲得了主題相關(guān)、語義一致且標簽相同的四種跨媒體數(shù)據(jù)。該數(shù)據(jù)包括圖像、視頻、音頻、文本四種媒體類型,每種媒體類型均包括200 種鳥類。其中圖像數(shù)據(jù)為CUB-200-2011數(shù)據(jù)集[22],共11788幅圖片,5994 張訓練集和5794 張測試集。視頻數(shù)據(jù)采用YouTube Birds 數(shù)據(jù)集[23],訓練集為12666 個視頻,測試集為5864個視頻。文本數(shù)據(jù)集[19]為4000篇訓練集和4000個測試集。音頻數(shù)據(jù)[19]包括6000個訓練頻譜圖和6000 個測試頻譜圖。其中,圖像CUB-200-2011 數(shù)據(jù)是通過相關(guān)網(wǎng)站下載獲得,視頻YouTube Birds 數(shù)據(jù)是通過爬蟲方式獲得。文本和音頻數(shù)據(jù)由北京大學多媒體信息處理研究室(MIPL)實驗室提供。圖像、音頻及文本的數(shù)據(jù)標簽與數(shù)據(jù)呈現(xiàn)一一對應(yīng)關(guān)系。視頻數(shù)據(jù)的標簽與視頻數(shù)目呈現(xiàn)一一對應(yīng)關(guān)系。對采集的跨媒體數(shù)據(jù)進行數(shù)據(jù)清洗和轉(zhuǎn)換,形成可用干凈的數(shù)據(jù)。由于YouTube Birds 視頻具有時間序列信息,因此需要進一步進行處理。根據(jù)文獻[19]對于鳥類數(shù)據(jù)集的預處理情況,將爬取的視頻分別利用python腳本進行分幀實驗,每個視頻獲取50 幀,剔除無用幀和質(zhì)量較低的幀,最終保留每個視頻為25 個幀,即25 幅圖像。每個音頻數(shù)據(jù)為通過傅里葉變換技術(shù)轉(zhuǎn)化得到的頻譜圖,將頻譜圖作為該模型的音頻輸入數(shù)據(jù)。
為了充分評估本文方法的有效性,在上述數(shù)據(jù)集上使用精確率(Precious,P)指標和平均精度均值(Mean Average Precision,MAP)指標。其中,前者用于衡量訓練、驗證與測試效果,后者用于衡量跨媒體檢索效果。
1)精確率指標P。P 指標用于衡量模型在給定數(shù)據(jù)集上的訓練和驗證效果,將實際的數(shù)據(jù)標簽與模型的輸出標簽進行比較,能夠直觀地展示模型效果。其計算公式如下所示:
其中,TP 為預測標簽與實際標簽相同的數(shù)據(jù)數(shù)目,F(xiàn)P為預測標簽與實際類別標簽不同的數(shù)據(jù),P值越高越好。
2)平均精度均值指標MAP。MAP為跨媒體檢索的常用評價指標,利用測試集中的一種媒體的數(shù)據(jù)作為查詢集合來檢索另一種媒體類型的數(shù)據(jù),如果返回結(jié)果中的數(shù)據(jù)和查詢數(shù)據(jù)屬于同一個類別標簽則為相關(guān),否則為不相關(guān)。給定一個查詢(圖片或文本或視頻或音頻)和返回的R 個檢索結(jié)果,則精度均值為
其中,T 為檢索結(jié)果中與查詢相關(guān)數(shù)據(jù)的個數(shù),P(r)為返回的前r個數(shù)據(jù)的準確率,即相關(guān)的數(shù)據(jù)所占的被分數(shù),如果第r 個數(shù)據(jù)與查詢數(shù)據(jù)相關(guān)則δ(r)為1,否則δ(r)為0。然后通過對查詢集中的所有查詢的AP 值求平均值來計算MAP 的值。該指標能夠同時兼顧返回結(jié)果的排序以及準確率,在信息檢索領(lǐng)域被廣泛使用。MAP 值越大,算法準確性越好。
本文選用深度學習框架Pytorch 搭建本文提出的Resnet-Bert網(wǎng)絡(luò)模型,Python 的版本為3.6,實驗均在64 位的Ubuntu16.04 操作系統(tǒng)下完成。本文提出的Resnet-Bert 網(wǎng)絡(luò)模型,使用的Resnet 網(wǎng)絡(luò)模型為Resnet50,學習率learning-rate 設(shè)置為0.001,輪數(shù)epoch 的設(shè)置為50,最小批次batchsize設(shè)置為4,動量momentum設(shè)置為0.9。加載Reset在ImageNet 數(shù)據(jù)集上的預訓練模型,將圖像數(shù)據(jù)、視頻數(shù)據(jù)與音頻數(shù)據(jù)輸入到Resnet中進行模型微調(diào),得到符合樣本數(shù)據(jù)的網(wǎng)絡(luò)模型參數(shù)。加載谷歌提供的Bert 預訓練模型“uncased_L-12_H-768_A-12”,將文本數(shù)據(jù)輸入到Bert 中進行訓練,得到符合訓練數(shù)據(jù)的Bert 的網(wǎng)絡(luò)模型參數(shù)。本文在網(wǎng)絡(luò)模型訓練之前,對圖像數(shù)據(jù)、處理后的視頻數(shù)據(jù)以及音頻數(shù)據(jù)采用了數(shù)據(jù)增強的策略,包括數(shù)據(jù)的中心化、隨機縮放、中心裁剪等,輸入Resnet50的數(shù)據(jù)尺寸為448*448。對于輸入Bert 模型的文本數(shù)據(jù),固定了文本的長度為80,采用“短補長切”的方法進行處理。
實驗對比了文獻[19]提出的FGCrossNet 模型。該模型使用4 種跨媒體類型數(shù)據(jù),基于Resnet50 模型實現(xiàn)了跨媒體數(shù)據(jù)的統(tǒng)一表征和檢索。
基于Resnet-Bert 的跨媒體檢索實驗,包括兩個步驟。第一個步驟為訓練與驗證。在處理后的跨媒體訓練數(shù)據(jù)集上進行模型的訓練,并在測試集上進行測試,利用精確率指標P 衡量模型學習效果。第二個步驟為檢索。將測試集輸入模型中,得到圖像、視頻、音頻以及文本數(shù)據(jù)的類別標簽特征表示,利用MAP 指標衡量各媒體之間的檢索效果。表1 展示了在Resnet-Bert 模型上訓練和測試的效果。
表1 在Resnet和Resnet-Bert模型上的訓練與測試效果
由上表,我們可以得到如下結(jié)論。
1)基于Resnet 網(wǎng)絡(luò)模型的跨媒體數(shù)據(jù)的訓練與測試,圖像、視頻以及音頻數(shù)據(jù)的驗證效果較高,但是文本驗證效果較差,主要原因為文本媒體類型在使用卷積神經(jīng)網(wǎng)絡(luò)時,特征提取效果不佳。
2)使用自然語言處理模型Bert 進行文本類別標簽特征的提取,使用在視覺方面處理較好的卷積神經(jīng)網(wǎng)絡(luò)Resnet進行圖像、視頻以及音頻特征的提取,極大地提高了各模態(tài)的分類準確率,尤其是文本模態(tài)的準確率,為進一步的跨模態(tài)檢索奠定了堅實的基礎(chǔ)。
3)對比使用單一交叉熵損失函數(shù)LCRO,同時使用LCRO和LCEN的驗證效果更好,說明中心損失函數(shù)LCEN能夠有效提高測試效果。
利用訓練步驟學習到的Resnet 模型和Bert 模型,在測試集上實現(xiàn)跨媒體數(shù)據(jù)的統(tǒng)一表征,得到類別空間的特征向量和預測類別標簽,并與正確的標簽進行對比分析。表2 展示了利用MAP 指標衡量的各檢索任務(wù)效果。
表2 基于Resnet-Bert網(wǎng)咯模型的跨媒體檢索效果
如表2所示,我們可以發(fā)現(xiàn):
1)利用交叉熵損失函數(shù)LCRO的Resnet-Bert 模型的檢索效果高于單一使用Resnet 模型的檢索效果,尤其是與文本相關(guān)的Image2Text、Audio2Text、Video2Text、Text2Image、Text2Video、Text2Audio 以及Text2all,MAP 值平均提升了0.1 以上,提升效果顯著,主要原因為利用Bert 模型之后,文本的特征表示能力得到較大的提升;除文本相關(guān)的其余檢索效果也有不同程度的上浮,主要原因為文本、圖像、視頻以及音頻等特征表示信息通過交叉損失函數(shù)的不斷降低,實現(xiàn)了信息的媒體間輔助遷移和關(guān)聯(lián)學習。
2)在交叉損失函數(shù)LCRO的基礎(chǔ)上,引入中心損失函數(shù)LCEN后,Resnet-Bert 網(wǎng)絡(luò)模型的檢索效果均好于單一使用LCRO的檢索效果,主要原因是LCRO考慮的為類間差異,LCEN考慮的為類內(nèi)差距,文獻[19,24]研究顯示兩者的搭配對于單一損失函數(shù)使用具有較大的提升作用。
3)基于交叉損失函數(shù)LCRO和中心損失函數(shù)LCEN的Resnet-Bert 網(wǎng)絡(luò)模型在文本相關(guān)檢索效果方面明顯好于Resnet網(wǎng)絡(luò)模型,但是圖像、音頻、視頻的相互檢索方面卻小于Resnet模型的效果,一個可能的原因Bert 模型的引入,LCEN的類中心向量的不斷向文本特征擬合更新,類別區(qū)分度較低的特征向量進行了錯誤的類別選擇。
利用Resnet-Bert 網(wǎng)絡(luò)模型獲得四種媒體類別標簽的特征表示之后,通過余弦相似度計算等度量方法,進而實現(xiàn)不同媒體類型的相互檢索與應(yīng)用。
本文針對跨模態(tài)檢索研究中媒體數(shù)目較少以及檢索效果不佳的問題,提出了一種基于Resnet-Bert 網(wǎng)絡(luò)模型的跨媒體檢索方法。該方法利用卷積神經(jīng)網(wǎng)絡(luò)模型Resnet獲取視頻、音頻和圖像的特征表達,利用Bert 模型獲取文本的特征表達,通過類別標簽空間實現(xiàn)了跨媒體數(shù)據(jù)的統(tǒng)一表征。在公開數(shù)據(jù)集上進行實驗,采用精確率P 和平均精度均值MAP 作為評價指標,證明本文提出的Resnet-Bert網(wǎng)絡(luò)模型在跨媒體檢索效果方面,尤其是文本檢索效果方面具有較好的提升作用。未來我們將嘗試構(gòu)建基于特定場景且與工程實踐相結(jié)合的四種跨媒體類型數(shù)據(jù)集,并繼續(xù)研究基于深度學習的統(tǒng)一表征模型提高跨媒體檢索效果。