亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異構(gòu)數(shù)據(jù)特征向量的圖文檢索方法研究

        2021-09-24 09:54:20駱有隆朱卉鈺梁松宇張騰
        情報工程 2021年4期
        關(guān)鍵詞:圖文特征向量語義

        駱有隆 朱卉鈺 梁松宇 張騰

        1. 武漢理工大學(xué)管理學(xué)院 武漢 430070;

        2.富媒體數(shù)字出版內(nèi)容組織與知識服務(wù)重點實驗室 北京 100038;

        3. 武漢理工大學(xué)計算機學(xué)院 武漢 430070

        引言

        隨著信息技術(shù)的高速發(fā)展, 信息形式呈現(xiàn)多樣化的趨勢, 如文本、圖片、視頻、音頻等。人們對信息的獲取、傳播、分析和處理也逐漸從單一媒體形式轉(zhuǎn)變?yōu)槎喾N媒體形式。傳統(tǒng)獲取信息的方式是從海量數(shù)據(jù)中過濾出用戶需要的信息,再將過濾結(jié)果返回用戶,但無法獲取和解析這些結(jié)果間存在的內(nèi)在關(guān)系,缺乏從語義角度去挖掘隱藏在大數(shù)據(jù)深層次規(guī)律和知識的能力,用戶只能從結(jié)果中自己去理解和篩選信息??缑襟w數(shù)據(jù)融合通過挖掘出深層次的不同媒體數(shù)據(jù)間的語義關(guān)聯(lián)實現(xiàn)數(shù)據(jù)融合, 以最大化滿足用戶的信息需求,從而提供更加優(yōu)質(zhì)的信息服務(wù)。因此,研究跨媒體數(shù)據(jù)之間的融合具有重要的實際意義和應(yīng)用價值。

        近年來,圖文匹配在人工智能、機器學(xué)習(xí)等領(lǐng)域中逐漸興起。為了給文本選取最適合的圖像,在過去通常借助人工搜索的方式,通過判斷文本內(nèi)容來從海量圖像中篩選出匹配的圖像集合,但這會耗費人類大量的時間和精力。而圖文匹配系統(tǒng),則能大大減輕這種負擔。

        圖文匹配必須同時關(guān)注文本和圖像這兩個不同模態(tài)下的數(shù)據(jù),但因為不同模態(tài)數(shù)據(jù)存在于不同的特征空間且擁有不同的表征形式和分布特征,所以不能直接度量不同模態(tài)數(shù)據(jù)之間的相似性?,F(xiàn)有的跨媒體融合著重解決不同模態(tài)數(shù)據(jù)間的語義關(guān)聯(lián)問題,而較少關(guān)注到可以通過比較底層特征來實現(xiàn)跨媒體數(shù)據(jù)融合。本文通過分析跨媒體數(shù)據(jù)融合的一般過程,從借助深度學(xué)習(xí)技術(shù)獲取文本特征和圖像特征入手,解決跨媒體數(shù)據(jù)的一致性表達問題,從而實現(xiàn)圖文相互檢索的目的,為跨媒體數(shù)據(jù)融合之后的實體識別和關(guān)系抽取做技術(shù)儲備。

        本文第2節(jié)描述之前的相關(guān)工作。第3節(jié)正式介紹了基于異構(gòu)數(shù)據(jù)融合的圖文檢索模型。第4節(jié)通過實驗檢驗圖文匹配效果。第5節(jié)對文章內(nèi)容進行總結(jié)。

        1 研究現(xiàn)狀

        現(xiàn)有的圖文匹配方法主要有兩大類:第一類方法是將不同模態(tài)的數(shù)據(jù)映射到同一語義空間中,然后在該空間中對二者進行語義匹配。較早對該方法進行研究的是Rasiwasia等[1],他們將典型相關(guān)性分析方法和語義匹配方法融合,建立數(shù)據(jù)關(guān)聯(lián)結(jié)構(gòu)實現(xiàn)了跨媒體數(shù)據(jù)在子空間上的映射。國內(nèi)較早關(guān)注這方面的李向陽等[2],則提出了基于內(nèi)容相關(guān)性的跨媒體檢索方法,取得了不錯的效果。Socher等[3]提出通過語義依賴樹遞歸神經(jīng)網(wǎng)絡(luò)(SDT-RNN)將語句數(shù)據(jù)映射到圖像的語義空間中,然后通過圖像的語義空間上的距離來度量圖片與語句之間的關(guān)聯(lián)。Wang等[4]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)提取圖片特征,使用WCNN提取語句特征,然后將二者特征映射到同一公共空間中,形成相關(guān)或不相關(guān)的圖像-文本對,并使用一對多學(xué)習(xí)策略對其進行學(xué)習(xí)。Karpathy等[5]做了精度更進一步的工作,他們將語句的類型依賴關(guān)系樹與圖片的對象映射到同一公共空間,然后再對二者進行度量以確定其關(guān)聯(lián)度。

        另一類方法主要是利用像典型相關(guān)分析(Canonical correlation analysis,CAA),深度學(xué)習(xí)等方法來挖掘語句與圖片的語義關(guān)聯(lián)。王曉宇[6]運用基于詞袋模型的邏輯回歸分類器進行圖文結(jié)合,然后進行了基于二類型文本相似度計算交叉融合的配圖推薦和基于反向傳播神經(jīng)網(wǎng)絡(luò)的配圖推薦,也取得了不錯的效果。Hodosh等[7]提出了核典型相關(guān)分析方法(Kernel canonical correlation analysis,KCCA),利用該方法來尋找語句和圖片共享的特征空間。Vendrov等[8]提出了Gated recurrent unit(GRU)方法來提取句子的特征,他們將句子和圖片的關(guān)系看作是一種偏序關(guān)系,并在此偏序關(guān)系的基礎(chǔ)上進行圖文關(guān)聯(lián)性的度量。Ma等[9]將圖文分別在詞、片段和語句三種級別使用多通道卷積神經(jīng)網(wǎng)絡(luò)(Multimodal convolutional neural networks, m-CNNs)進行匹配,實現(xiàn)了圖文在局部與全局的混合匹配。

        跨媒體數(shù)據(jù)融合的一般過程[10]為:首先分別提取不同模態(tài)數(shù)據(jù)的特征信息,此時的特征信息是異構(gòu)的,無法直接計算它們之間的距離;然后通過某種映射機制將處于異構(gòu)空間中的跨媒體數(shù)據(jù)特征映射到同構(gòu)空間中,就可以使用公共距離計算公式去度量異構(gòu)數(shù)據(jù)間相似性。過程中每一環(huán)節(jié)的效果對最終結(jié)果都有重要影響。

        1.1 文本特征提取

        文本特征提取技術(shù)屬于自然語言處理問題,是一種從文本中提取出關(guān)鍵信息,然后用提取出的關(guān)鍵信息表示文本的方法?,F(xiàn)今主要包括三種研究方法:基于統(tǒng)計的方法、基于詞向量的方法和基于主題模型的方法[10],如圖1所示。

        圖1 文本特征提取技術(shù)

        (1)基于統(tǒng)計的方法[11-13]中最具代表性的方法是詞頻–逆向文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF),它的思路相對簡單,通過統(tǒng)計文檔內(nèi)和所有文檔中詞頻和詞間關(guān)系來表征文本,再根據(jù)特征項之間所含信息量的多少來衡量該特征項的重要性。

        (2)基于主題模型的方法[14,15]可解釋性強,通過主題建模技術(shù)產(chǎn)生抽象主題統(tǒng)計模型方法,但其受文檔長度的限制, 代表方法為潛在狄利克雷分布(Latent Dirichlet Allocation,LDA),它將每一篇文檔視為一個詞頻向量,通過對每篇文檔抽取主題得到的關(guān)于所有文檔的概率分布。

        (3)基于詞向量的方法[16]應(yīng)用廣泛, 通常采用分布式表示方法將詞表示為一個定長且連續(xù)的稠密向量。詞向量的出現(xiàn)使得詞與詞之間有了距離的概念, 讓語義相近的詞在距離上更近, 相對而言是效果較好的方法。Word2vec作為其中應(yīng)用較為廣泛的代表,它主要依據(jù)是詞上下文之間的關(guān)系訓(xùn)練生成的詞向量包含語義信息且能將其作為中間結(jié)果參與其他計算。然而Word2vec模型通過對詞向量進行平均處理,忽略了詞之間的排列順序?qū)η楦蟹治龅挠绊?,即Word2vec只是基于詞的維度進行“語義分析”的,而不具有上下文的“語義分析”能力。因此Quoc Le和Tomas Mikolov于2014年提出了一種處理可變長度文本的總結(jié)性方法,即Doc2Vec模型。該模型在Word2Vec模型基礎(chǔ)上增加一個段落向量,涵蓋了段落級的上下文語義信息,更加符合本文研究的需求。

        1.2 圖像特征提取

        圖像特征提取是圖像處理中最初級的運算,指使用計算機提取圖像中屬于特征性信息的方法及過程,主要分為兩種方法:視覺底層特征提取和神經(jīng)網(wǎng)絡(luò)的方法[10],如圖2所示。

        圖2 圖像特征提取技術(shù)

        (1)視覺底層特征涵蓋了圖片顏色、形狀、紋理、空間關(guān)系等各個方面的特征[17,18],顏色特征是在符合人眼視覺感知的HSV顏色空間下提取的,包括飽和度、亮度等指標;形狀特征一般有兩種表示方法,一種是輪廓特征,另一種是區(qū)域特征。圖像的輪廓特征主要針對物體的外邊界,而圖像的區(qū)域特征則關(guān)系到整個形狀區(qū)域;紋理特征主要采用濾波器等方法來提取圖像的局部特征;空間關(guān)系特征主要是指從圖像中分割出來的多個目標之間的相互的空間位置或相對方向關(guān)系,實際應(yīng)用中它不能有效地表達場景信息,通常需要與其他特征相結(jié)合。

        (2)神經(jīng)網(wǎng)絡(luò)方法由于其高精度而受到人們關(guān)注,其中最為廣泛使用的當屬卷積神經(jīng)網(wǎng)絡(luò)[19](Convolutional Neural Networks, CNN),它在對圖像語義處理上與其它視覺底層特征相比能力更強。卷積神經(jīng)網(wǎng)絡(luò)由一系列的卷積層、池化層、激活層和全連接層組成,理論上, 隨著網(wǎng)絡(luò)層次的增加, 網(wǎng)絡(luò)模型可以提取更復(fù)雜的特征, 從而能夠取得更好的效果,但實際上會出現(xiàn)梯度消失、網(wǎng)絡(luò)“退化”等問題。而在ICLR2015會議中提出的VGG16模型[20]在圖像識別領(lǐng)域準確率能達到極高的水平。

        1.3 圖文匹配

        傳統(tǒng)的匹配任務(wù)大多是在同一語義空間下進行,比如搜索引擎中網(wǎng)頁匹配就是通過用戶輸入文本分詞后得到的關(guān)鍵字來進行直接匹配獲取的,甚至大多數(shù)的圖片搜索引擎也是通過對用戶輸入圖片進行關(guān)鍵詞標注,或為圖片生成描述文本,最后就將其轉(zhuǎn)換為文本關(guān)鍵詞匹配來得到近似圖片[21]。

        圖文匹配在推薦系統(tǒng)、機器學(xué)習(xí)等領(lǐng)域中都起著不可忽視的作用。Yan等[22]提出使用深度網(wǎng)絡(luò)來表示圖像和文本,然后借助帶有深度典型關(guān)聯(lián)分析的聯(lián)合隱藏空間學(xué)習(xí)來解決圖文匹配。Ma等[23]通過在圖文匹配任務(wù)中構(gòu)建圖像特征抽取網(wǎng)絡(luò)并提出使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來初始化。Wang等[24]則基于深度學(xué)習(xí)方法來構(gòu)建了一個圖文聯(lián)合隱藏空間學(xué)習(xí)的一般框架,還提出了圖像和文本都存在各自的結(jié)構(gòu)保持約束以及圖文匹配的雙向排名約束。

        2 基于異構(gòu)數(shù)據(jù)融合的圖文檢索模型

        由于異構(gòu)數(shù)據(jù)通常以多種形態(tài)表示,例如文本、視頻、音頻等,但是不同形態(tài)的數(shù)據(jù)可能表達了同一個主題,也就是說他們的高層語義十分相似,而將這些不同模態(tài)之間的數(shù)據(jù)進行聚類,建立起異構(gòu)數(shù)據(jù)之間的聯(lián)系是非常困難的。故本文提出的異構(gòu)數(shù)據(jù)融合的圖文檢索內(nèi)容重點在于從文本上下文聯(lián)系與圖像自身的底層語義特征出發(fā),通過Doc2vec模型提取文本特征向量以及VGG16模型提取圖片特征向量,提出一種基于異構(gòu)數(shù)據(jù)特征向量的圖文檢索模型。

        本文提出的基于異構(gòu)數(shù)據(jù)特征向量的圖文檢索模型主要為了實現(xiàn)在給定單獨圖片的情況下,從圖像數(shù)據(jù)庫中挑選出與其最匹配的文本描述,即以圖配文。

        2.1 異構(gòu)數(shù)據(jù)融合模型

        Word2vec模型能夠捕獲詞匯上下文語義信息并得出兩個詞語間的相似程度,主要包括兩種訓(xùn)練模型[25]——連續(xù)詞袋模型(Continuous Bag-of-Words,CBOW)和跳字模型(Skip-gram)。其中CBOW的目標是根據(jù)上下文來預(yù)測當前詞語的概率。Skip-gram剛好相反,它是根據(jù)當前詞語來預(yù)測上下文的概率。

        而Doc2vec模型除了增加一個段落向量以外,其幾乎等同于 Word2Vec。和Word2Vec一樣,該模型同樣存在兩種方法,包括句向量的分布記憶模型(Distributed Memory Model of Paragraph Vectors,PV-DM)和句向量的分布詞袋(Distributed Bag of Words version of Paragraph Vector,PV-DBOW)。PV-DM試圖在給定上下文和段落向量的情況下預(yù)測詞語的概率。而PV-DBOW 則是在只給定段落向量的情況下預(yù)測段落中一組隨機詞語的概率。由于Word2vec模型只是基于詞的維度進行比較的,而不具有基于上下文的語義分析能力,故綜合考慮下選擇使用Doc2vec模型進行文本特征提取。

        VGG16模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3中配置D所示[20]。

        圖3 VGG模型網(wǎng)絡(luò)結(jié)構(gòu)

        D配置所示模型總共有16層,包括13個卷積層和3個全連接層,首先經(jīng)過含有64個卷積核的兩次卷積后,進行一次pooling,然后經(jīng)過含有128個卷積核的兩次卷積后,再進行pooling,接著經(jīng)過含有三個512個卷積核的兩次卷積后,再進行pooling,最后再經(jīng)過三次全連接層。VGG16模型通過增加深度能有效地提升性能,且從頭到尾只有3x3卷積與2x2池化,簡潔優(yōu)美,卷積可代替全連接,可適應(yīng)各種尺寸的圖片。

        2.2 異構(gòu)數(shù)據(jù)匹配

        本節(jié)實現(xiàn)了Doc2vec與VGG16模型融合并得到一種基于異構(gòu)數(shù)據(jù)特征向量的圖文檢索模型。設(shè)A代表訓(xùn)練集中的文本集合,B代表測試集中的圖像集合,result_img代表推薦結(jié)果的圖像集合。模型的具體實現(xiàn)步驟為:

        (1)給定一張在數(shù)據(jù)集中的圖片Ytest,利用VGG16模型提取出Ytest與數(shù)據(jù)集中圖片的特征向量,接著通過與訓(xùn)練集中圖片特征向量進行相似度比較,所用的相似度計算公式如式(1),dis代表兩個特征向量A,B的余弦距離,其中||A||,||B||分別代表這兩個向量的模,n表示向量的維數(shù),Ai與Bi代表向量A,B每一維上的值,最后得到與Ytest最相似的圖像集result_img,其大小為設(shè)定的范圍R,將其作為推薦候選圖像集合,其中包括圖像編號與圖像相似度。

        圖4 基于異構(gòu)數(shù)據(jù)融合的圖文檢索模型

        (2)根據(jù)Ytest對應(yīng)的文本Ttest,通過預(yù)訓(xùn)練的Doc2vec模型或者Doc2vec與語義分析Triple模型得到與其最相似的文本集result_text,其大小同樣為R。

        (3)由于數(shù)據(jù)集中圖像和文本編號相同,通過去除其本身編號后判斷result_img中的圖片編號是否同樣存在于result_text中。若存在,則表示該圖像配文命中成功,若不存在則表示命中失敗,遍歷所有測試圖片,得到關(guān)于以圖配文的評價命中率,具體公式見式(2)。

        2.3 文本分類模型

        在NLP各類中文任務(wù)中,無論是稍早提出的Cove、Elmo、GPT,還是BERT模型,其建模對象主要聚焦在原始語言信號上,較少利用語義知識單元建模,這個問題在中文方面尤為明顯。

        如果能夠讓模型學(xué)習(xí)到海量文本中蘊含的潛在知識,勢必會進一步提升各類NLP任務(wù)效果。因此百度提出了基于知識增強的ERNIE模型。ERNIE模型能夠?qū)A繑?shù)據(jù)中的實體概念等先驗語義知識建模,學(xué)習(xí)真實世界中的語義關(guān)系,該模型通過對詞、實體等語義單元的掩碼,使得模型學(xué)習(xí)完整概念的語義表示。相較于BERT學(xué)習(xí)原始語言信號,ERNIE直接對先驗語義知識單元進行建模,增強了模型語義表示能力,因此采用ERNIE模型進行分類模型的訓(xùn)練及預(yù)測。

        BERT模型與ERNIE模型的對比如圖5所示。

        圖5 BERT模型與ERNIE模型對比

        3 實驗設(shè)計與分析

        3.1 實驗數(shù)據(jù)及指標

        為了驗證本文設(shè)計的算法,實驗數(shù)據(jù)選取了Wiki中文語料、THUCNews中84萬篇的新聞文檔數(shù)據(jù)以及2017年由搜狐公司舉辦的圖文匹配大賽中所用數(shù)據(jù)。后者所使用的數(shù)據(jù)包含了100000級別的訓(xùn)練集及20000級別的驗證集。該數(shù)據(jù)集里的每一篇新聞文本描述都有與之對應(yīng)的一幅配圖。

        本文設(shè)置平均命中率(Average Hit Rate,AHR)作為參考指標,AHR@N表示從圖像相似度匹配結(jié)果中的第一個開始遍歷,看從第一個到第N個編號對應(yīng)文本標題是否能夠在文本相似度匹配結(jié)果中的前N個中找到,如果遇到了就將計數(shù)值Count加一,并結(jié)束小循環(huán),最后直到大循環(huán)結(jié)束,根據(jù)公式(2)得到AHR@N的值,其值越大說明匹配結(jié)果越好。

        3.2 基于分類的圖文匹配實驗

        3.2.1 實驗流程

        首先利用keras庫中預(yù)訓(xùn)練好的VGG16模型計算出數(shù)據(jù)集中圖像的特征向量,再通過內(nèi)積運算得到所有圖像間的向量距離,對于每幅圖像的特征向量都能得到一個它與其他圖像特征向量距離的序列,將其從大到小排序,得到與該圖像最為相似的R幅圖像。

        由于數(shù)據(jù)集中的文本冗雜,故通過數(shù)據(jù)預(yù)處理將其規(guī)范化,得到關(guān)于每篇文檔的標題,通過分析文檔標題將其分為10個類別,包括財經(jīng)、房產(chǎn)、股票、教育、科技、社會、時政、體育、游戲、娛樂,接著從THUCNews中獲取了上述10個類別的20萬條新聞標題數(shù)據(jù)(每類包含20000條數(shù)據(jù)),再通過ERNIE模型訓(xùn)練得到關(guān)于新聞標題文本的預(yù)訓(xùn)練模型,然后通過該預(yù)訓(xùn)練模型對數(shù)據(jù)集中的標題進行預(yù)測,得到數(shù)據(jù)集中的文本標題分類結(jié)果。

        其次通過中文維基百科語料集訓(xùn)練Doc2vec模型,再根據(jù)前面的分類結(jié)果將標題數(shù)據(jù)集劃分,通過該預(yù)訓(xùn)練模型得到關(guān)于每個標題文本的特征向量,同樣經(jīng)過內(nèi)積運算得到所有相同類別中標題之間的向量距離,對于每個標題的特征向量都能得到一個它與其他標題特征向量距離的序列,將其從大到小排序,得到與該文本標題最為相似的R份文檔,通過設(shè)置不同的R值和判斷圖像最為相似的R幅圖像對應(yīng)文檔標題是否出現(xiàn)在這R份文檔標題中來檢驗圖像匹配結(jié)果的有效性,最后我們能夠通過評價不同類別的AHR,得到該模型在不同新聞類別中的效果。

        3.2.2 實驗結(jié)果分析

        表1顯示了本實驗在搜狐圖文匹配大賽的驗證集上獲得的評估結(jié)果。我們可以從圖6看出,R的取值越大,平均命中率越高。在R=50時,在教育類新聞中圖文匹配效果最好,平均命中率到達了69.0%,在游戲類新聞中圖文匹配效果最差,平均命中率只有37.3%。

        圖6 在基于分類的實驗中,不同類別新聞在取不同R值時的平均命中率

        表1 基于分類的圖文匹配

        3.3 基于語義分析的圖文匹配實驗

        因為圖像與語句的高層語義信息是人類理解的一種抽象信息,與底層的數(shù)據(jù)特征存在“語義鴻溝”,所以導(dǎo)致在房產(chǎn)與游戲類新聞中圖文匹配效果較差。故我們進行了基于語義分析的圖文匹配實驗。

        3.3.1 實驗流程

        整體流程與基于分類的圖文匹配實驗步驟相似,在計算近似度時,要先對驗證集利用基于分類的圖文匹配實驗中的預(yù)訓(xùn)練模型進行分類,然后使用預(yù)訓(xùn)練后的三元組提取模型Triple得到每個標題文本的三元組(實體1,關(guān)系,實體2)。利用三元組中實體或關(guān)系的特征向量距離計算近似度,近似度的計算主要分為以下兩種情況:

        (1)若兩者的三元組都完整,沒有缺失,則將實體1與實體2進行拼接,使用Doc2vec將其轉(zhuǎn)化為特征向量,通過式(1)計算出兩者近似度S1;將關(guān)系使用Doc2vec轉(zhuǎn)化為特征向量,計算出兩者近似度S2,通過式(3)計算出兩者近似度S。

        (2)若有一方的三元組有缺失,則直接使用兩者標題文本信息,使用Doc2vec模型將其轉(zhuǎn)化為特征向量,通過式(1)計算出兩者近似度。

        3.3.2 實驗結(jié)果分析

        表2顯示了本實驗在搜狐圖文匹配大賽的驗證集上獲得的評估結(jié)果。由圖7我們可以看出,與上一個實驗類似,R的取值越大,我們的平均命中率也就越高。當R取50時,在教育類新聞中圖文匹配效果最好,平均命中率到達了60.4%,在體育類新聞中圖文匹配效果最差,平均命中率只有28.8%。通過圖8我們可以看出,在R取10或30時,基于語義分析的圖文匹配對于游戲類新聞的平均命中率稍有提升,但對于其它類別的命中率影響不明顯。且在R取50時,基于語義分析的圖文匹配的平均命中率明顯低于基于分類的圖文匹配,可能是因為三元組的提取丟失了部分語義信息,所以導(dǎo)致命中率的降低。

        圖7 在基于語義分析的實驗中,不同類別新聞在取不同R值時的平均命中率

        圖8 基于分類與基于語義分析的實驗對比

        表2 基于語義分析的圖文匹配

        4 結(jié)語

        由于涉及不同模態(tài)的數(shù)據(jù),基于異構(gòu)數(shù)據(jù)的圖文檢索方法在實體抽取、知識圖譜等領(lǐng)域意義深遠,前景十分廣闊。除了用戶對圖文匹配有需求之外,人工智能等領(lǐng)域也需要通過處理不同模態(tài)形式的數(shù)據(jù)來進行研究,這對之后的實體識別、知識推理和豐富知識圖譜等方面有著不可替代的作用。

        本文通過應(yīng)用Doc2vec模型和VGG16模型分別處理得到文本特征和圖片特征,以及使用向量相似度距離度量的方法計算得出文本和圖片的匹配結(jié)果,實驗結(jié)果表明Doc2vec模型能夠較好地保存文本語義信息而VGG16模型提取的圖片特征向量不盡人意。這極有可能是訓(xùn)練所用數(shù)據(jù)體量較小的緣故,在未來研究中,可以嘗試擴大數(shù)據(jù)集的體量并采用其他神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練得到更能表征圖片的特征向量。本實驗的另一個局限在于,由于Doc2vec模型和VGG16模型訓(xùn)練得到的特征并未映射到同一相關(guān)子空間,無法直接對文本與圖片進行比較。在后續(xù)研究中,可以嘗試將本方法與子空間映射方法相結(jié)合,應(yīng)能得到更優(yōu)的結(jié)果。

        猜你喜歡
        圖文特征向量語義
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        畫與理
        語言與語義
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        圖文配
        海外英語(2013年9期)2013-12-11 09:03:36
        圖文配
        海外英語(2013年10期)2013-12-10 03:46:22
        少妇勾引视频网站在线观看| 亚洲熟妇丰满大屁股熟妇| 一级午夜视频| 亚洲精品日本久久久中文字幕 | 中文字幕有码人妻在线| 精品久久久久久无码中文字幕| 白嫩少妇激情无码| 无码国产精品一区二区免费式芒果| 杨幂一区二区系列在线| 99久久亚洲精品日本无码| 激情欧美日韩一区二区| 欧美人与动牲交片免费播放| 五月婷婷开心六月激情| 色欲aⅴ亚洲情无码av| 国产精品厕所| 女优免费中文字幕在线| 免费久久久一本精品久久区| 亚洲а∨精品天堂在线| 精品 无码 国产观看| 亚洲av大片在线免费观看| 国产成人精品免费视频大全软件| 精品国产aⅴ无码一区二区 | 免费女同毛片在线不卡| 国产偷国产偷亚洲高清视频| 免费a级毛片无码a∨男男| 国产精品久久久久久久专区| 日韩一区三区av在线| 国内熟女啪啪自拍| 久久精品片| 最新日本免费一区二区三区| 亚洲国产精品一区二区成人片国内| 一二三四视频社区在线| www.五月激情| 久久国产精品一区av瑜伽| 中文字幕丰满乱子无码视频| 麻豆久久五月国产综合| 国产特黄a三级三级三中国| 久久无码人妻一区二区三区午夜| 男女真实有遮挡xx00动态图| 国产成人夜色在线视频观看| 国产亚洲av无码av男人的天堂|