亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖文注意力融合的主題標(biāo)簽推薦

        2022-10-08 09:03:32馮皓楠何智勇馬良荔
        關(guān)鍵詞:標(biāo)簽模態(tài)單詞

        馮皓楠, 何智勇, 馬良荔

        (中國人民解放軍海軍工程大學(xué) 電子工程學(xué)院, 湖北 武漢 430000)

        0 引言

        社交媒體平臺(tái)(如Twitter)上提供了大量的文本、圖片及視頻數(shù)據(jù),這些數(shù)據(jù)的爆發(fā)式增長已經(jīng)遠(yuǎn)遠(yuǎn)超過了人們的接收理解能力。如何消化大量嘈雜的社交媒體數(shù)據(jù),提取其中的重要內(nèi)容,為用戶推薦其所需的快速訪問信息已經(jīng)成為一個(gè)新的挑戰(zhàn)。用戶在社交媒體平臺(tái)發(fā)布文本、圖片和視頻數(shù)據(jù)時(shí),會(huì)使用一種特定形式的元數(shù)據(jù)標(biāo)簽(hashtag),它是一串以符號(hào)#為前綴的字符,一般可以用來描述帖子中的關(guān)鍵詞或主題。

        表1展示了一個(gè)用戶在Twitter上為帖子內(nèi)容配上標(biāo)簽的示例。通過帖子文本及其配套圖片的耦合效應(yīng)指示帖子的主題內(nèi)容并且推薦一系列能反映帖子的主要關(guān)注點(diǎn)的標(biāo)簽是目前研究的熱點(diǎn)。然而,前人的研究主要集中在文本特征的使用上[1],但社交媒體的語言風(fēng)格本質(zhì)上是非正式的、碎片化的,為了豐富語境,本文分析利用了帖子中配套的圖片內(nèi)容。

        表1 Twitter數(shù)據(jù)集中的一個(gè)真實(shí)帖子示例Table 1 A real post example from Twitter dataset

        現(xiàn)有的研究主要是針對(duì)單模態(tài)的標(biāo)簽推薦或關(guān)于多模態(tài)標(biāo)簽推薦的分類算法的研究,但從實(shí)際應(yīng)用的角度出發(fā),生成數(shù)據(jù)集標(biāo)簽空間中不存在的標(biāo)簽至關(guān)重要。因此,本文進(jìn)行了多模態(tài)標(biāo)簽序列生成模型(GEN-CO-ATT)的研究,并進(jìn)一步提出了多模態(tài)標(biāo)簽推薦算法的分類方法和生成方法的統(tǒng)一模型(UNIFIED-CO-ATT)。

        本文旨在為新型社交平臺(tái)設(shè)計(jì)一種完整而有效的標(biāo)簽推薦方法,采用共注意力機(jī)制對(duì)多模態(tài)內(nèi)容進(jìn)行建模融合,并采用Seq2Seq框架生成新的標(biāo)簽序列(GEN-CO-ATT);同時(shí),針對(duì)分類方法和生成方法的特點(diǎn),采用復(fù)制機(jī)制的擴(kuò)展方法將分類模型的結(jié)果聚合到序列生成模型的輸出中,并通過2個(gè)模塊端到端的聯(lián)合訓(xùn)練得到一個(gè)統(tǒng)一的標(biāo)簽推薦模型(UNIFIED-CO-ATT)。

        1 相關(guān)工作

        早期的研究工作中,通常僅將多模態(tài)內(nèi)容各自建模使用,例如,Vinyals等[2]提出先對(duì)文本和圖片建模,提取高層圖片特征,再將其輸入LSTM中對(duì)圖片生成字幕;何偉成[3]提出基于圖卷積神經(jīng)網(wǎng)絡(luò)的個(gè)性化標(biāo)簽推薦算法,借助圖卷積網(wǎng)絡(luò)的表示、學(xué)習(xí)能力進(jìn)行標(biāo)簽推薦;Yang等[4]使用注意力機(jī)制多次查詢圖片,逐步推斷推薦結(jié)果。但是,這些工作并沒有考慮圖片對(duì)文本特征提取的指導(dǎo)意義和二者之間的關(guān)聯(lián)。

        為了分析多模態(tài)內(nèi)容之間的語義關(guān)聯(lián)性,張素威[5]提出了一個(gè)基于異質(zhì)注意力的圖文融合的標(biāo)簽推薦模型,既強(qiáng)化了跨模態(tài)的共性信息,也考慮了不同模態(tài)差異信息之間的互補(bǔ)性。由于共注意力機(jī)制[6]可以同時(shí)考慮文本與圖片對(duì)推薦結(jié)果的影響,Zhang等[7]采用共注意力機(jī)制對(duì)文本和圖片的關(guān)聯(lián)建模,通過分類的方法研究了基于多模態(tài)內(nèi)容的標(biāo)簽推薦問題。

        在關(guān)鍵詞預(yù)測(cè)方面,大部分工作是直接從源輸入中提取序列[8]或從預(yù)定義的候選列表中進(jìn)行分類[9],這樣不會(huì)產(chǎn)生數(shù)據(jù)集標(biāo)簽空間中不存在的關(guān)鍵詞。受到在科學(xué)文章中生成關(guān)鍵詞方法的啟發(fā),Wang等[10]采用Seq2Seq框架實(shí)現(xiàn)了在社交媒體平臺(tái)上生成關(guān)鍵詞;Chen等[11]也采用了分離檢索的方法來生成關(guān)鍵字;Wang等[12]基于復(fù)制機(jī)制將分類方法的結(jié)果與生成方法的結(jié)果進(jìn)行聚合。首先,本文應(yīng)用共注意力機(jī)制對(duì)多模態(tài)內(nèi)容進(jìn)行建模與融合;其次,建立基于多模態(tài)內(nèi)容的標(biāo)簽分類模型和標(biāo)簽序列生成模型,允許端到端的聯(lián)合訓(xùn)練,以更好地捕捉2種模型的多樣化結(jié)果,并通過一種聚合策略將分類方法的輸出結(jié)果聚合到生成的標(biāo)簽序列中;最后,得到2種方法的統(tǒng)一推薦模型。

        2 統(tǒng)一的多模態(tài)標(biāo)簽推薦模型

        圖1為所提出的多模態(tài)標(biāo)簽推薦模型的總體框架。該模型是從下往上運(yùn)行的:首先,將帖子中的文本和圖片編碼為文本表示和圖片表示,使用共注意力機(jī)制捕捉它們復(fù)雜的語義交互;其次,將學(xué)習(xí)到的多模態(tài)表示向量cfuse用于標(biāo)簽的分類模型或序列生成模型,使用一種聚合策略來組合它們的輸出;最后,上述整個(gè)框架可以通過多任務(wù)學(xué)習(xí)的方式聯(lián)合訓(xùn)練為一個(gè)整體的模型。

        圖1 基于多模態(tài)內(nèi)容的標(biāo)簽推薦統(tǒng)一模型Figure 1 Unified model of hashtag recommendation based on multi-modal content

        2.1 多模態(tài)編碼

        (1)學(xué)習(xí)文本表示。通過數(shù)據(jù)集預(yù)訓(xùn)練的查找表將文本輸入序列中的每個(gè)單詞xi嵌入到一個(gè)高維向量中,使用雙向門控循環(huán)單元(BiGRU)對(duì)嵌入后的單詞e(xi)進(jìn)行編碼,表達(dá)式為

        (1)

        (2)

        (2)學(xué)習(xí)圖片表示。采用在大規(guī)模圖片庫ImageNet上預(yù)訓(xùn)練后的VGG-16網(wǎng)絡(luò)[14]對(duì)每個(gè)圖片I提取49個(gè)卷積特征圖,每個(gè)特征圖通過一個(gè)線性投影層轉(zhuǎn)化為一個(gè)新的向量vi,然后存儲(chǔ)到一個(gè)圖片向量庫Mvis={v1,v2,…,vlν}∈Rlν×d中,其中l(wèi)ν為圖片區(qū)域的個(gè)數(shù)。

        2.2 共注意力機(jī)制

        圖2 共注意力機(jī)制結(jié)構(gòu)Figure 2 Co-attention mechanism structure

        H=tanh(WxX+Wgg);

        (3)

        (4)

        (5)

        式中:Wx、Wg∈Rk×d,ωhx∈Rk均為特征矩陣;αx為特征X的注意力權(quán)重。

        考慮社交媒體數(shù)據(jù)的噪聲特性,采用最大/平均池化層為每個(gè)模態(tài)獲取一個(gè)整體的查詢向量,將所有共注意力層的輸出通過一個(gè)線性多模態(tài)融合層表示為上下文向量cfuse∈Rd,并輸入標(biāo)簽分類模型和標(biāo)簽序列生成模型中進(jìn)行標(biāo)簽推薦。

        2.3 統(tǒng)一的多模態(tài)標(biāo)簽推薦模型

        結(jié)合不同方法的特點(diǎn),采用一種聚合策略將多模態(tài)標(biāo)簽推薦的分類方法和生成方法結(jié)合為一個(gè)統(tǒng)一的推薦模型。

        步驟1 標(biāo)簽分類。由于每個(gè)標(biāo)簽y通常只由幾個(gè)單詞組成,因此可以將單詞視為整體標(biāo)簽的離散部分,并通過推薦單詞來推薦標(biāo)簽。在分類方法中,直接將多模態(tài)上下文向量cfuse傳遞到一個(gè)雙層的多層感知器MLP中,然后將它映射到標(biāo)簽分類詞匯表Vcls的分布中:

        Pcls(y)=softmax(MLPcls(cfuse))。

        (6)

        步驟2 標(biāo)簽序列生成。在標(biāo)簽序列生成方面,使用Seq2Seq框架來生成新的標(biāo)簽序列y=,其中生成器概率定義為

        (7)

        采用一個(gè)單向的門控循環(huán)單元GRU解碼器對(duì)生成建模過程,具體來說,解碼器釋放的隱藏狀態(tài)st=GRU(st-1,ut)∈Rd是基于前一個(gè)隱藏狀態(tài)st-1和嵌入式解碼器的輸入ut,st由文本編碼器的最后一個(gè)隱藏狀態(tài)hlx初始化。采用共注意力機(jī)制獲取文本的上下文語境向量ctext:

        (8)

        αt,i=softmax(S(st,hi));

        (9)

        (10)

        式中:S(st,hi)為得分函數(shù),用來衡量第t個(gè)被解碼的單詞和文本編碼器的第i個(gè)單詞之間的兼容性;Wα∈Rd×2d,Bα、vα∈Rd均為可訓(xùn)練權(quán)值。

        接下來結(jié)合靜態(tài)多模態(tài)向量cfuse來構(gòu)建豐富的上下文表示:

        ct=[ut;st;ctext+cfuse]。

        (11)

        在此基礎(chǔ)上,采用另一個(gè)帶有softmax函數(shù)的MLP將ct映射到生成詞匯表Vgen的單詞分布中:

        Pgen(yt)=softmax(MLPgen(ct))。

        (12)

        為了使解碼器更好地從源輸入帖子中復(fù)制單詞,應(yīng)用復(fù)制機(jī)制[15]設(shè)置一個(gè)帶有sigmoid激活函數(shù)的MLP軟開關(guān)λt∈[0,1],它決定了模型是從詞匯表Vgen中生成單詞序列還是從源輸入序列中提取單詞,其中提取源輸入序列的概率分布由文本注意力權(quán)重αt,i決定。

        步驟3 聚合策略。使用復(fù)制機(jī)制的擴(kuò)展方法將分類模型的輸出結(jié)果聚合到標(biāo)簽序列生成結(jié)果中:①從分類模型中檢索前K個(gè)預(yù)測(cè)結(jié)果,并將其轉(zhuǎn)換為單詞序列w=,lw為組合預(yù)測(cè)后的序列長度;②使用softmax函數(shù)將它們的分類對(duì)數(shù)歸一化為一個(gè)詞級(jí)分布β∈Rlw,該分布表示單詞從分類輸出中被提取的概率。

        步驟4 統(tǒng)一模型的標(biāo)簽推薦。根據(jù)聚合后的結(jié)果得到統(tǒng)一的標(biāo)簽推薦模型。

        (13)

        式中:a、b為超參數(shù),a+b=1,用于決定模型是從輸入序列中提取單詞還是從分類輸出中提取單詞。為了穩(wěn)定分類輸出結(jié)果的聚合,設(shè)置a為1,b為0,輸入分類器進(jìn)行訓(xùn)練,實(shí)驗(yàn)完成幾個(gè)批次后,將兩者都設(shè)置為0.5以進(jìn)行更進(jìn)一步的訓(xùn)練。

        2.4 聯(lián)合訓(xùn)練目標(biāo)

        本文采用標(biāo)準(zhǔn)的負(fù)對(duì)數(shù)似然損失函數(shù)來定義整個(gè)模型的訓(xùn)練目標(biāo)。似然損失函數(shù)由多任務(wù)學(xué)習(xí)的標(biāo)簽分類損失和單詞級(jí)序列生成損失的線性組合構(gòu)成:

        (14)

        式中:N為訓(xùn)練文本-圖片對(duì)的大??;γ為平衡這2個(gè)損失的超參數(shù),設(shè)為1;θ表示整個(gè)框架共享的可訓(xùn)練參數(shù)。從式(14)可以看出,聯(lián)合訓(xùn)練標(biāo)簽分類模型有助于統(tǒng)一的標(biāo)簽推薦,不僅隱式地提供了更好的參數(shù)學(xué)習(xí),還明確提供了更精確的輸出,以供聚合策略組合到標(biāo)簽生成模型中。

        3 實(shí)驗(yàn)與結(jié)果分析

        本文的實(shí)驗(yàn)設(shè)置為Ubuntu20.04、CPU i9-10900X、64 GB內(nèi)存、NVIDIA GeForce RTX 2090,實(shí)驗(yàn)環(huán)境為python3.6、pytorch1.5。

        3.1 數(shù)據(jù)收集和統(tǒng)計(jì)

        由于缺少社交媒體平臺(tái)基于多模態(tài)內(nèi)容的帖子及標(biāo)簽的公開數(shù)據(jù)集,因此本文使用了文獻(xiàn)[12]中公開的數(shù)據(jù)集。該數(shù)據(jù)集使用了Twitter高級(jí)搜索API查詢2019年1月至2019年6月期間包含文本、圖片和標(biāo)簽的英文帖子,并獲得53 701條推文。本文將數(shù)據(jù)按8∶1∶1隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集的數(shù)據(jù)分割和統(tǒng)計(jì)信息如表2所示。

        表2 數(shù)據(jù)集的數(shù)據(jù)分割和統(tǒng)計(jì)Table 2 Data segmentation and statistics of dataset

        3.2 實(shí)驗(yàn)設(shè)置

        3.2.1 評(píng)價(jià)指標(biāo)

        本文采用信息檢索指標(biāo)宏平均F1值來評(píng)估本文模型,選取推薦概率排名前K的主題標(biāo)簽計(jì)算評(píng)價(jià)指標(biāo),例如:F1@K表示推薦概率排名前K的標(biāo)簽計(jì)算出的F1值,其中K=1,3,5。F1@K值越大表示模型性能越好。為了進(jìn)一步測(cè)量標(biāo)簽的推薦順序,本文對(duì)推薦概率排名前5的標(biāo)簽采用平均精度指標(biāo)MAP(mean average precision)[16]進(jìn)行評(píng)價(jià)。指標(biāo)得分越高表示模型性能越好。

        3.2.2 參數(shù)設(shè)置

        本文使用了一個(gè)有45 000單詞的生成詞匯表Vgen和4 262個(gè)標(biāo)簽的關(guān)鍵短語分類詞匯表Vcls,采用200維的Twitter GloVe嵌入[17]來編碼文本輸入。采用兩層的BiGRU作為編碼器,一層的GRU作為解碼器,隱藏大小設(shè)置為300。對(duì)于圖片,本文使用VGG-16提取49個(gè)特征圖和512維的特征。在訓(xùn)練中,本文設(shè)置損失系數(shù)γ=1,采用Adam優(yōu)化器,學(xué)習(xí)率為0.001。如果驗(yàn)證損失沒有下降,則采用最大梯度范數(shù)為5的梯度裁剪方法將其衰減0.5,通過監(jiān)測(cè)驗(yàn)證損失的變化,采用了提前停止方法。

        3.2.3 對(duì)比模型

        選擇2種對(duì)比模型TAKG[10]和COA[6]。TAKG模型是針對(duì)社交媒體平臺(tái)的主題感知關(guān)鍵詞生成模型,只使用了帖子中的文本模態(tài)信息推薦關(guān)鍵字;COA模型是針對(duì)社交媒體平臺(tái)的基于多模態(tài)內(nèi)容的主題標(biāo)簽推薦模型,此模型使用共注意力機(jī)制對(duì)多模態(tài)特征建模,并使用多類分類的方法進(jìn)行標(biāo)簽推薦。

        3.3 實(shí)驗(yàn)結(jié)果

        表3為本文模型與其他模型的實(shí)驗(yàn)結(jié)果對(duì)比。分析表3可得如下結(jié)論。

        表3 各模型的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Experimental results of models %

        (1)多模態(tài)方法比單模態(tài)方法更具優(yōu)勢(shì)。所提統(tǒng)一推薦模型UNIFIED-CO-ATT的F1值比僅使用單模態(tài)的對(duì)比模型TAKG高9.44百分點(diǎn);所提標(biāo)簽序列生成模型GEN-CO-ATT相比于TAKG模型在F1@1、F1@3、MAP@5上分別提升8.19百分點(diǎn)、3.59百分點(diǎn)、6.07百分點(diǎn)??梢钥闯?考慮多模態(tài)內(nèi)容的模型比只考慮文本模態(tài)內(nèi)容的模型有更好的表現(xiàn),這說明基于Seq2Seq框架的標(biāo)簽序列生成模型能夠很好地利用社交媒體平臺(tái)上多模態(tài)信息的特殊性,且圖片模態(tài)提供了許多文本模態(tài)中未包含的額外信息。

        (2)生成新標(biāo)簽序列的方法也優(yōu)于傳統(tǒng)的分類方法。所提GEN-CO-ATT模型比基于多模態(tài)內(nèi)容的多類分類方法進(jìn)行主題標(biāo)簽推薦的模型COA在F1@1、F1@3、MAP@5上分別提升3.41百分點(diǎn)、0.11百分點(diǎn)、2.12百分點(diǎn)。這說明基于多模態(tài)內(nèi)容進(jìn)行主題標(biāo)簽推薦的問題中,能夠生成出標(biāo)簽空間中不存在的主題標(biāo)簽是非常重要的,分類方法只能推薦出在標(biāo)簽空間中預(yù)定義的主題標(biāo)簽,有一定局限性。

        (3)本文統(tǒng)一標(biāo)簽推薦模型UNIFIED-CO-ATT比僅使用生成方法的GEN-CO-ATT模型在F1@1、F1@3、MAP@5上分別提升1.25百分點(diǎn)、0.02百分點(diǎn)、0.29百分點(diǎn),即統(tǒng)一的標(biāo)簽推薦模型比僅使用分類方法的模型表現(xiàn)更好。這說明本文先聯(lián)合訓(xùn)練分類模型和生成模型,再將分類結(jié)果聚合于生成方法中進(jìn)行優(yōu)化的聚合策略有效果。這種聚合策略使模型同時(shí)具有準(zhǔn)確性和新穎性的特點(diǎn)。

        圖3為4種模型在K=1,3,5時(shí)的精確度和召回率。由圖3可以看出,模型GEN-CO-ATT和UNIFIED-CO-ATT在精確度和召回率方面也優(yōu)于對(duì)比模型TAKG和COA。由于測(cè)試集中每個(gè)帖子中已有的標(biāo)簽的平均數(shù)量為1.32(見表2),因此所有模型在K從1到3的性能比K從3到5的性能表現(xiàn)更好,同時(shí)性能也下降更快;在K>3時(shí),模型的性能都逐漸平穩(wěn)。這可能是由于在本文使用的嘈雜的社交媒體數(shù)據(jù)集中,關(guān)鍵詞數(shù)量大但是缺位率高的原因。

        圖3 4種模型在K=1,3,5時(shí)的精確度和召回率Figure 3 Accuracy and recall rate of 4 models with K=1,3,5

        4 結(jié)束語

        本文圍繞社交媒體平臺(tái)上的基于多模態(tài)內(nèi)容的標(biāo)簽推薦問題,研究了標(biāo)簽序列生成模型在此問題中的性能表現(xiàn),進(jìn)一步提出了一個(gè)統(tǒng)一的標(biāo)簽推薦模型,將序列生成模型和分類模型的優(yōu)勢(shì)結(jié)合起來。此外,本文使用的先聯(lián)合訓(xùn)練單個(gè)模型,再將分類模型結(jié)果聚合到生成模型結(jié)果中的聚合策略是有效的。在大規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文的模型明顯優(yōu)于只使用文本內(nèi)容生成標(biāo)簽的模型和僅使用分類方法推薦標(biāo)簽的模型。

        猜你喜歡
        標(biāo)簽模態(tài)單詞
        單詞連一連
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        看圖填單詞
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        看完這些單詞的翻譯,整個(gè)人都不好了
        標(biāo)簽化傷害了誰
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        中文字幕精品久久天堂一区| 手机av在线播放网站| 国产av一区二区三区狼人香蕉| 国产自拍三级黄片视频| gg55gg国产成人影院| 亚洲精品1区2区在线观看| 国产又黄又硬又粗| 无码毛片视频一区二区本码| 国产极品久久久久极品| 国产亚洲精品成人无码精品网站| 亚洲精品日本久久久中文字幕| 国产成av人在线观看| 一区二区三区日韩亚洲中文视频| 婷婷伊人久久大香线蕉av| 自拍偷自拍亚洲精品情侣| 在线播放a欧美专区一区| 久草精品手机视频在线观看| 在线免费看91免费版.| 无码人妻h动漫中文字幕| 理论片87福利理论电影| 国产自精品| av手机在线天堂网| 一区二区三区极品少妇| 中文字幕人妻熟女人妻| 久久夜色精品国产欧美乱| 欧美另类在线视频| 亚洲精品尤物av在线网站| 黄色av亚洲在线观看| 蜜臀av999无码精品国产专区| 自拍偷自拍亚洲精品播放| 日韩人妻无码精品久久伊人| 亚洲一区二区三区国产精品| 久久亚洲中文字幕伊人久久大| 亚洲精品乱码久久久久久中文字幕 | 一区二区三区中文字幕| 精品亚洲成a人7777在线观看| 国产曰批免费视频播放免费s| 日本精品国产1区2区3区| 精品国产成人av久久| 久久综合精品国产二区无码| 午夜一级成人|