亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合注意力機制的跨模態(tài)圖文檢索算法

        2023-11-22 08:19:30吳春明
        計算機技術與發(fā)展 2023年11期
        關鍵詞:語義模態(tài)特征

        楊 迪,吳春明

        (西南大學 計算機與信息科學學院,重慶 400700)

        0 引 言

        隨著移動設備智能化,社交軟件的普及,人們可以更加便捷地生成各種不同模態(tài)的多媒體數據(圖像、文本、視頻、音頻等)。面對這些海量數據,人們的檢索需求從傳統(tǒng)的單模態(tài)檢索轉變?yōu)榭缒B(tài)檢索??缒B(tài)檢索是指給定一種模態(tài)的查詢樣本,得到與查詢樣本語義相似的其他模態(tài)的樣本[1],如文本/視頻檢索圖像,圖像/視頻檢索文本,該技術的關鍵在于如何有效提取不同模態(tài)數據的特征,并將這些特征以適宜的方法進行相似性度量。以圖文檢索為例,圖像由像素構成,文本由單詞序列組成,它們之間的相似度不能直接比較,這種底層特征異構所帶來的“語義鴻溝”是跨模態(tài)檢索首先要解決的重要問題。

        傳統(tǒng)的跨模態(tài)檢索主要采用典型相關性分析(Canonical Correlation Analysis,CCA)方法,如Yan等人[2]利用該方法來尋找圖像和句子的最大相關性。隨著深度學習技術的發(fā)展,跨模態(tài)檢索普遍解決方案變?yōu)閺牟煌B(tài)提取特征,再將這些特征映射到深度空間中,在該空間進行距離計算,經過學習之后,該空間鼓勵相似樣本對互相靠近,不相似樣本對互相遠離。Wang等人[3]利用CNN和WCNN分別提取圖像和文本特征,證明這種基于深度神經網絡提取的特征能有效提高檢索精度。Dong等人[4]提出圖卷積網絡(Graph Convolutional Network,GCN),利用樣本的鄰接關系重構樣本表示并基于局部圖重構節(jié)點特征,從而獲取隱藏的高級語義信息,但節(jié)點更新較為復雜,計算代價巨大。Peng等人[5]提出了一種跨模態(tài)生成對抗網絡(Cross-Modal Generative Adversarial Networks,CM-GAN),利用生成模型和判別模型互相博弈來生成更具細粒度的多模態(tài)特征表示。Bahdanau[6]首次將注意力機制應用到機器翻譯領域,該機制能聚焦重要部分而忽略不重要部分的特性,使得其在計算機視覺和自然語言處理領域取得了一系列成績,學者們也開始將注意力機制應用到跨模態(tài)檢索領域。Nam等人[7]提出雙重注意力網絡(Dual Attention Networks,DANs),利用視覺和文本注意力機制來捕獲圖像區(qū)域和單詞之間的相互關系;Lee等人[8]提出堆疊交叉注意力方法來捕捉圖像區(qū)域和單詞的潛在對齊;Li等人[9]提出DMASA方法,利用多種自注意力機制從不同角度提取圖像文本細粒度特征。

        上述工作都在一定程度上提升了檢索效果,但也存在兩個主要問題:一是僅考慮了局部特征或者全局特征的一種,導致特征關鍵語義不夠全面,信息表征不夠完善;二是忽略了模態(tài)間有效交互,由于不同模態(tài)所含信息量不等,這會導致特征語義表達不夠充分。針對這些問題,該文提出了一種融合注意力機制的圖文檢索算法。首先,利用ViT和Bert模型得到包含上下文信息的圖像和文本特征;其次,利用注意力機制融合不同模態(tài)信息即用文本信息來表示圖像,用圖像信息表示文本;再次,將注意力機制引進到特征提取過程,利用融合不同模態(tài)信息的特征向量來獲得新的全局特征表示和局部特征表示;最后,融合新的全局特征向量、局部特征向量和原始特征向量來表征數據。由于該方法更好地融合了全局和局部特征,因而取得了更好的檢索精度,通過在Wikipedia數據集上與6種經典方法的對比實驗,證明了該方法的有效性。

        1 網絡結構

        整個模型結構如圖1所示,包含圖像編碼模塊、文本編碼模塊、交互模塊3個部分。其中,圖像編碼模塊負責圖像特征提取,首先將圖像分成塊并加入位置信息編碼,通過輸入ViT模型得到全局特征和局部特征,作為圖像的基礎特征表示;文本編碼模塊負責文本特征提取,首先將文本數據通過詞嵌入方式轉為詞向量,輸入Bert模型得到文本的全局表示和單體表示,作為文本的基礎特征表示;交互模塊又分為模態(tài)內注意模塊和模態(tài)間注意模塊,為了挖掘語義相似不同模態(tài)數據間的內在聯系,該文利用兩個模塊分別獲取圖像和文本新的局部特征和新的全局特征。最后,將這些特征與基礎特征拼接,作為圖像和文本的最終特征表示。

        圖1 模型結構

        1.1 圖像編碼模塊

        Transformer模型的自注意力機制能對長距離依賴問題建模,能充分利用上下文信息從而獲得有效的全局信息,因此,文中圖像特征提取過程使用基于Transformer編碼器的ViT模型。ViT[10]是Google團隊提出的基于Transformer的一種圖像分類模型,該模型將二維的圖像數據轉換成一維塊序列使得Transformer能處理圖像。具體來說,將輸入圖像的像素調整為224×224,把圖像分割成大小為16×16、數量為196的patch塊,加入位置信息編碼并將其按順序展平轉化為向量,輸入預訓練好的ViT模型,得到輸入圖像的特征表示V={vcls,v1,…,vi,…,vn},其中vcls表示圖像的整體信息,n為圖像塊的數量,vi為第i個圖像塊的特征向量。特征提取整體過程如圖2所示。

        1.2 文本編碼模塊

        在圖文檢索中,文本通常以句子或長段落形式存在,而Bert模型的雙向編碼結構使得其在提取長文本數據特征方面有著突出優(yōu)勢。Bert[11]模型也是基于Transformer的自然語言處理模型,該模型使用Transformer Encoder 作為特征提取器,具有強大的語義信息提取能力。因此,該文利用Bert模型進行文本特征的提取。如圖3所示,首先,將文本數據通過word2vec模型轉化為詞向量,然后,輸入到預訓練好的Bert模型得到文本特征表示T={tcls,t1,…,tj,…,tl},其中,tcls為文本的全局表示,l為文本長度,tj為第j個詞的特征向量。

        圖2 圖像特征提取

        圖3 文本特征提取

        1.3 交互模塊

        注意力機制能選擇性地關注重要信息,能為其賦予更高的權重,因而能有效提取關鍵特征。在圖像和文本編碼模塊,利用注意力機制對圖像和文本的基礎特征進行了提取,但這種注意計算僅局限在同一模態(tài)內,即圖像塊到圖像塊的注意和單詞到單詞的注意,然而語義相似的圖像和文本數據所包含的信息量不等,不同模態(tài)所關注的內容也不盡相同,因此在進行注意計算的時候應充分考慮不同模態(tài)間的相互影響,即圖像塊到單詞的注意和單詞到圖像塊的注意。因此,為了融合不同模態(tài)的特征并挖掘不同模態(tài)的內在聯系,在本模塊中,結合注意力機制分別設計了模態(tài)內注意模塊和模態(tài)間注意模塊,用來尋找新的局部特征映射和全局特征映射。

        圖像數據相比于文本數據具有更多的細節(jié)信息,文本數據比圖像數據有更多的語義描述,為了凸顯它們的內在關系,該文用文本信息來表征圖像,用圖像信息來表征文本。首先計算每個圖像塊和每個單詞的相似性:

        (1)

        每個圖像塊的文本表示為:

        (2)

        同理,每個單詞的圖像表示為:

        (3)

        其中,exp是以自然數e為底的指數函數。在Transformer中,通過點乘的方式來計算兩個向量的相似性,而這里的圖像和單詞相似性矩陣乘與該方式本質上一致。

        1.3.1 模態(tài)內注意模塊

        (4)

        (5)

        (6)

        (7)

        以相同的方法計算融合圖像信息的文本局部特征向量Tp。

        1.3.2 模態(tài)間注意模塊

        (8)

        βj的計算過程與公式(6)(7)相同。同理可以得到融合圖像信息的文本全局特征向量Tw。

        最后,融合新的局部特征向量Vp、Tp,新的全局特征向量Vw、Tw及基礎全局特征向量vcls、tcls作為圖像文本的最終特征表示VF、TF,分別見公式(9)和(10),其中[;]表示向量的拼接。

        VF=Ffusion[Vp;Vw;vcls]

        (9)

        TF=Ffusion[Tp;Tw;tcls]

        (10)

        1.4 損失函數

        為了保證共享空間中語義相似的圖像-文本對距離足夠近,不相似圖像-文本對的距離足夠遠,該文采用三元組排序損失函數[12]。對于圖像數據集,構建三元組{VF,TF+,TF-},其中(VF,TF+)表示錨點VF的正樣本對,(VF,TF-)表示負樣本對,即與圖像樣本語義不相似的文本對,以相同的方式構建文本三元組{TF,VF+,VF-}。通過最小化相似樣本對之間的距離,同時最大化不相似樣本對的距離,保證圖像文本模態(tài)的一致性。由于跨模態(tài)檢索任務是雙向檢索,因此損失函數定義為:

        L=[S(VF,TF-)-S(VF,TF+)+λ]++

        S(TF,VF-)-S(VF,TF+)+λ]+

        (11)

        其中,λ是一個常量,用來保證相似樣本對得分比不相似樣本對得分大于一個固定值,[x]+≡max(0,x)。S函數表示圖像文本對的相似性得分,以S(VF,TF-)為例,具體的計算公式為:

        (12)

        算法流程如表1所示。

        表1 跨模態(tài)檢索算法

        2 實驗結果與分析

        2.1 數據集

        Wikipedia[13]是跨模態(tài)檢索研究普遍使用的數據集,來源于維基百科中的代表文章,并基于對應文章補充相關圖像,整個數據集共有2 866個圖像文本對,這些文本以短段落(至少70個字)描述圖像,包含10個語義類。

        2.2 評價指標

        該文采用跨模態(tài)檢索研究中通常采用的精確率-召回率(Precision-recall)曲線和平均精度均值mAP(Mean Average Precision)作為評價指標。

        PR曲線橫坐標為召回率,縱坐標為精確率,縱坐標值越大表示該方法性能越好。精確率P、召回率R計算公式如下:

        (13)

        (14)

        其中,a表示檢索返回中的正樣本數量,b表示檢索返回中的負樣本數量,c表示數據集中沒有返回的正樣本數量。

        mAP是AP的平均值,該指標綜合考慮了排序信息和精確率[14]。取值越接近1代表方法性能越好。給出查詢數據和n個檢索結果,AP計算公式如下:

        (15)

        其中,R是測試集中的正樣本數量,P(i)表示前i個檢索結果的精確率,若檢索結果為正樣本,則δ(i)=1,否則為0。Q代表查詢次數,最終mAP值公式為:

        (16)

        2.3 模型對比分析

        基于驗證文中算法有效性的目的,選取了KCCA[15]、DCCA[16]、SCM[17]、ACMR[18]、DSCMR[19]、DMTL[20]共6種方法進行對比實驗。其中,KCCA利用核函數改變特征維度再進行關聯分析,解決了CCA不能處理非線性關系的不足;DCCA將深度神經網絡與CCA相結合,從兩個視圖學習非線性投影,比KCCA模型更為簡潔;SCM是在CCA基礎上將無監(jiān)督相關和有監(jiān)督語義結合的匹配算法;ACMR將對抗機制引入到語義融合層面,豐富了特征空間內容,并利用三元組約束保證語義相同的不同模態(tài)表示差異最小;DSCMR充分利用標簽信息有效學習了不同模態(tài)公共表示,并通過最小化標簽空間和公共表示空間的判別損失,以監(jiān)督模型學習判別特征;DMTL由兩個多模態(tài)特定的神經網絡和一個聯合學習模塊組成,是一種遷移已標記類別的知識,以提高在未標記的新類別上檢索性能的學習方法。

        實驗結果如表2所示。

        由表2可知,文中方法的平均mAP達到了0.699,不管是圖像模態(tài)檢索文本還是文本模態(tài)檢索圖像,均高于其他方法。對比DMTL方法,文中方法圖像檢索文本的mAP值從0.633提高到0.687,文本檢索圖像的mAP值從0.652提高到0.711,平均mAP值從0.642提高到0.699。整體來看,基于深層結構方法在檢索效果上大于淺層結構方法,這得益于深度學習強大的特征學習能力,可以有效捕捉樣本間非線性關系,從而獲取更能代表數據的關鍵特征。現用的跨模態(tài)檢索方法大多將不同模態(tài)的數據映射到公共空間,這些方法只是簡單將圖像文本全局特征或局部特征對齊,而文中方法利用注意力機制充分挖掘同一模態(tài)內細粒度局部信息和不同模態(tài)間交互全局信息,全面考慮兩種信息從而提高了模型的檢索準確率。

        表2 跨模態(tài)檢索方法mAP(Wikipedia數據集)

        為了進一步驗證文中方法的有效性,在數據集上繪制所有對比方法的PR曲線,如圖4所示。

        圖4 圖像檢索文本PR曲線

        由圖4可知,文中方法明顯優(yōu)于其他對比方法,當召回率值為0.4時,僅DMTL方法的精確率與文中方法基本持平,當召回率為其他值時,文中方法的精確率均高于其他方法。

        2.4 注意力可視化

        為了更加直觀地表現在交互模塊中圖像對文本和文本對圖像的注意,該文進行了注意力可視化分析,結果如圖5所示。

        圖5 注意力可視化

        由圖5可知,圖像對文本的注意力主要集中在單詞“football”“World”“Cup”和“FIFA”上,即圖中文字描述劃線部分。文本對圖像的注意力權重主要集中在球員、球迷和場地等部分,即圖中標注區(qū)域。

        2.5 對照實驗

        考慮到特征提取器及注意力機制對整個檢索模型性能的影響,該文通過改變特征提取器類型和是否添加注意力機制等方式進行了一系列對照實驗。為公平起見,對于圖像特征提取器為CNN類的實驗,該文均采用預訓練好的VGG16的最后一個池化層作為圖像特征向量。

        實驗結果如表3所示,由方法二四六和方法一三五對比得知,添加了注意力機制的方法在檢索效果上顯著優(yōu)于沒有添加注意力機制的方法。這是因為融合注意力的方法能選擇性地關注不同模態(tài)數據間的重要信息部分,進而提取到更完善的語義特征。通過方法一和三、二和四比較得知,圖像特征提取器為ViT模型類的方法與為CNN類的方法效果存在差異,但差距并不明顯。通過方法六和四、五和三對比得知,文本特征提取器為Bert類模型的方法比為LSTM類方法的效果更好,一是因為Bert模型是雙向編碼模型,能同時考慮上下文信息,具有更強大的語義提取能力,二是因為Wikipedia數據集中多以長文本為主,在處理長距離依賴問題上,Bert模型有著更為優(yōu)秀的表現。

        表3 對照實驗mAP結果對比(Wikipedia數據集)

        3 結束語

        針對圖文檢索研究,該文提出了一種融合注意力機制的跨模態(tài)檢索算法。為了綜合考慮全局特征和局部特征對檢索效果的影響,基于注意力機制提取語義表達更充分的全局特征和局部特征,并將這些特征有機融合,使得模態(tài)數據特征信息表達更完善;同時,為了挖掘語義相似但模態(tài)不同的數據內在關系,通過注意力機制融合不同模態(tài)信息,從而提取更好的特征表示。實驗證明,提出的算法優(yōu)于目前已知方法,未來將針對文本描述為中文的圖文檢索做進一步研究。

        猜你喜歡
        語義模態(tài)特征
        語言與語義
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認知闡釋
        現代語文(2016年21期)2016-05-25 13:13:44
        國內多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認知范疇模糊與語義模糊
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        線性代數的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        久久亚洲道色宗和久久| 天干天干天啪啪夜爽爽av| 国产91九色免费视频| 国产精品夜色视频久久| 亚洲av手机在线网站| 中文字幕人成人乱码亚洲av| 亚洲av香蕉一区区二区三区| 亚洲一区自拍高清亚洲精品| 亚洲国色天香卡2卡3卡4| 蜜桃成人无码区免费视频网站| 猫咪www免费人成网最新网站 | 亚洲中文字幕无码一区| 亚洲另类激情综合偷自拍图| 一出一进一爽一粗一大视频免费的| 国产精品午夜波多野结衣性色| www.亚洲天堂.com| 亚洲天堂免费一二三四区| 少妇高潮免费在线观看| 成人自拍小视频在线看| 18禁裸体动漫美女无遮挡网站 | 激情视频在线观看好大| 日本激情网站中文字幕| 欧美丰满少妇xxxx性| 亚洲国产成人精品无码区二本 | 99久久亚洲精品加勒比| 国产在线一区二区三区不卡| 国产午夜免费高清久久影院| 亚洲成色www久久网站夜月| 亚洲欧洲日产国码久在线| 不卡免费在线亚洲av| 一区二区三区无码高清视频| 日本真人做爰免费视频120秒| 亚洲日韩一区二区三区| 国产一区二区牛影视| 久久久国产精品粉嫩av| 日本91一区二区不卡| 极品尤物一区二区三区| 在线人成免费视频69国产| 国内精品视频一区二区三区| 日本一区二区三区专区 | 国产一区二区三区爆白浆|