亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于無(wú)監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索

        2021-11-17 03:12:52紀(jì)沖,劉
        計(jì)算機(jī)仿真 2021年3期
        關(guān)鍵詞:模態(tài)深度方法

        紀(jì) 沖,劉 巖

        (內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010018)

        1 引言

        移動(dòng)設(shè)備、社交網(wǎng)絡(luò)以及自媒體平臺(tái)的蓬勃發(fā)展,圖像、文本、音頻以及視頻等多媒體數(shù)據(jù)出現(xiàn)了指數(shù)級(jí)的上漲趨勢(shì),但這些具有差異性的數(shù)據(jù)往往可能是在對(duì)同一事件或者主題進(jìn)行描述,所以,用戶迫切希望在海量多媒體數(shù)據(jù)中,通過(guò)其中一種模態(tài)檢索到其它相關(guān)聯(lián)的模態(tài)數(shù)據(jù),此類檢索也叫作跨模態(tài)檢索。當(dāng)前的檢索技術(shù)分為單模態(tài)與多模態(tài)檢索,前者的檢索目標(biāo)必須為相同模態(tài)種類,而后者則通過(guò)融合不同模態(tài),依據(jù)模態(tài)的互補(bǔ)信息,達(dá)成檢索目的,該檢索階段中必須確保查詢集和檢索集兩者之一具有相同模態(tài),該方法雖然可以處理多種模態(tài)數(shù)據(jù),但是無(wú)法完成不同模態(tài)間的跨模態(tài)檢索。近年來(lái),跨模態(tài)檢索技術(shù)得到了眾多相關(guān)學(xué)者的廣泛關(guān)注,并成為學(xué)術(shù)領(lǐng)域的研究熱點(diǎn)。

        文獻(xiàn)[1]提出的異構(gòu)哈希網(wǎng)絡(luò)下跨模態(tài)人臉檢索方法,利用圖像與視頻分支,在一個(gè)公共空間中進(jìn)行人臉圖像與人臉視頻映射以及非線性哈希函數(shù)學(xué)習(xí),應(yīng)用Fisher、softmax以及三元排序等損失函數(shù)對(duì)哈希網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過(guò)設(shè)定Fisher為公共空間判別力,softmax指代空間表達(dá)的可分性,將三元排序用于檢索性能提升,完成人臉視頻數(shù)據(jù)集合的跨模態(tài)人臉檢索;文獻(xiàn)[2]為了獲取更加真實(shí)精準(zhǔn)的物體材質(zhì)分析結(jié)果,構(gòu)建了一種表面材質(zhì)的跨模態(tài)檢索方法,經(jīng)過(guò)梅爾頻率倒譜系數(shù)特征提取,利用卷積神經(jīng)網(wǎng)絡(luò)取得圖像特征,通過(guò)典型相關(guān)分析達(dá)成特征與子空間的映射操作后,根據(jù)歐氏距離得到檢索結(jié)果;而文獻(xiàn)[3]則針對(duì)跨模態(tài)檢索算法中不同模態(tài)數(shù)據(jù)間的潛在語(yǔ)義關(guān)聯(lián),設(shè)計(jì)出一種融合多層語(yǔ)義的跨模態(tài)檢索模型,基于深度玻爾茲曼機(jī)的雙向框架屬性,建立文本模態(tài)各抽象層次與圖像模態(tài)各抽象層次關(guān)系,依據(jù)挖掘到的模態(tài)抽象層內(nèi)在關(guān)聯(lián),達(dá)成數(shù)據(jù)集檢索。

        由于上述方法均沒(méi)有將模態(tài)內(nèi)數(shù)據(jù)結(jié)構(gòu)與模態(tài)間結(jié)構(gòu)匹配關(guān)聯(lián)考慮在內(nèi),為此,提出一種基于無(wú)監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索方法。

        2 無(wú)監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建

        無(wú)監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)主要由棧式自編碼[4]神經(jīng)網(wǎng)絡(luò)與深度信任網(wǎng)絡(luò)兩部分共同架構(gòu)而成,基于自編碼器與受限玻爾茲曼機(jī)[5]的基本單元,通過(guò)棧式框架完成深層神經(jīng)網(wǎng)絡(luò)的創(chuàng)建。

        2.1 棧式自編碼神經(jīng)網(wǎng)絡(luò)模塊

        由各層自編碼器組成的棧式自編碼神經(jīng)網(wǎng)絡(luò)中,自編碼器具備稀疏性與降噪性兩種屬性,通過(guò)將下一層自編碼器的輸出作為上一層自編碼器的輸入,實(shí)現(xiàn)所需層數(shù)的迭代操作。

        假設(shè)第k層自編碼器W(1)、W(2)、b(1)以及b(2)的對(duì)應(yīng)參數(shù)分別是W(k,1)、W(k,2)、b(k,1)以及b(k,2),那么,采用下列兩個(gè)表達(dá)式,對(duì)該層自編碼器的編碼方式進(jìn)行描述

        z(l+1)=W(l,1)a(l)+b(l,1)

        (1)

        a(l+1)=f(z(l+1))

        (2)

        式中,矢量為a(l),用于表示第l層神經(jīng)元[6]的激活狀態(tài)。若解決事件類別屬于分類問(wèn)題,則可以在最頂層設(shè)置一個(gè)分類器。

        同理,能夠推導(dǎo)出下列兩個(gè)表達(dá)式,來(lái)表示第k層自編碼器的解碼方式

        z(n-l)=W(n-l,2)a(n-l+1)+b(n-l,2)

        (3)

        a(n-l)=f(z(n-l))

        (4)

        式中,神經(jīng)網(wǎng)絡(luò)的層級(jí)總數(shù)是n。

        利用貪婪的逐層初始化策略,對(duì)棧式自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化處理,操作起始點(diǎn)為神經(jīng)網(wǎng)絡(luò)的最底層,隨后根據(jù)所得的初始化參數(shù)W(1,1)、W(1,2)、b(1,1)以及b(1,2),對(duì)首層的隱含層神經(jīng)單元激活狀態(tài)a(1)進(jìn)行求取,因?yàn)榈诙幼跃幋a器的輸入即為首層的輸出,所以,依據(jù)第二層自編碼器的輸入a(1),對(duì)該層的網(wǎng)絡(luò)參數(shù)W(2,1)、W(2,2)、b(2,1)以及b(2,2)進(jìn)行初始化,從而取得第二層的隱含層神經(jīng)單元激活狀態(tài)a(2),待到達(dá)所需層數(shù)時(shí),該迭代操作終止。若頂層存在分類器,那么,可將輸入設(shè)定為最頂層的激活狀態(tài),進(jìn)而實(shí)現(xiàn)分類器所需參數(shù)的初始化處理。

        2.2 深度信任網(wǎng)絡(luò)模塊

        構(gòu)建深度信任網(wǎng)絡(luò)(deep belief network,簡(jiǎn)稱DBN)的基本單元為受限玻爾茲曼機(jī),通過(guò)逐層初始化與整體反饋策略,不僅使深層網(wǎng)絡(luò)的訓(xùn)練弊端得以有效解決,降低了網(wǎng)絡(luò)訓(xùn)練復(fù)雜度,而且掀起了深度學(xué)習(xí)的探索浪潮,該網(wǎng)絡(luò)既能夠做判別使用,也能夠用于生成操作。

        利用無(wú)向連接把圖中的h2層與h3層聯(lián)立為聯(lián)合內(nèi)存,而x與h1、h1與h2的層間都為有向連接,其中,認(rèn)知權(quán)值是由底層向上層的權(quán)值,功能是按照從下到上的順序產(chǎn)生認(rèn)知,而生成權(quán)值則是由頂層向下層的權(quán)值,功能是按照從上到下的順序生成數(shù)據(jù)。最底層屬于可見(jiàn)層,決定因素為訓(xùn)練數(shù)據(jù),且該層級(jí)矢量中的每一維均可利用該層的神經(jīng)元表示。深度信任網(wǎng)絡(luò)的預(yù)訓(xùn)練模式為逐層進(jìn)行,在對(duì)各層實(shí)施訓(xùn)練的過(guò)程中,依據(jù)可見(jiàn)層對(duì)隱藏層進(jìn)行推斷,隨后再將該隱藏層作為下一層級(jí)的可見(jiàn)層。

        圖1 深度信任網(wǎng)絡(luò)框圖

        深度信任網(wǎng)絡(luò)的訓(xùn)練流程描述如下:

        1)把訓(xùn)練數(shù)據(jù)作為輸入項(xiàng),對(duì)受限玻爾茲曼機(jī)的底層進(jìn)行訓(xùn)練;

        2)根據(jù)上一層級(jí)生成的隱藏層狀態(tài)輸入項(xiàng),完成該層級(jí)受限玻爾茲曼機(jī)的訓(xùn)練;

        3)迭代操作第二步,待生成所需隱藏層數(shù)后結(jié)束;

        4)如果頂層的受限玻爾茲曼機(jī)訓(xùn)練數(shù)據(jù)存在標(biāo)簽,則需要在訓(xùn)練過(guò)程里添加神經(jīng)元作為分類標(biāo)簽,共同完成訓(xùn)練。若頂層受限玻爾茲曼機(jī)包含10個(gè)神經(jīng)元,并劃分訓(xùn)練數(shù)據(jù)為兩個(gè)類別,則頂層受限玻爾茲曼機(jī)含有12個(gè)神經(jīng)元,當(dāng)各訓(xùn)練數(shù)據(jù)歸屬于對(duì)應(yīng)的類別時(shí),該類別的對(duì)應(yīng)神經(jīng)元標(biāo)簽標(biāo)記為1,否則,標(biāo)記成0。

        深度信任網(wǎng)絡(luò)的調(diào)優(yōu)階段將代價(jià)函數(shù)設(shè)定為交叉熵,通過(guò)wake流程與sleep流程,使優(yōu)化參數(shù)滿足最小化條件。其中,wake流程即為認(rèn)知階段,根據(jù)外界特征與認(rèn)知權(quán)值,完成各層結(jié)點(diǎn)狀態(tài)的生成,再采用梯度下降法,對(duì)各層間的生成權(quán)值進(jìn)行修改;而sleep流程即為生成階段,依據(jù)頂層表示與生成權(quán)值,得到底層狀態(tài),從而實(shí)現(xiàn)認(rèn)知權(quán)值的更改。

        3 基于無(wú)監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索

        基于架構(gòu)的無(wú)監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)跨模態(tài)數(shù)據(jù)目標(biāo)檢索方法進(jìn)行設(shè)計(jì)。

        3.1 跨模態(tài)對(duì)應(yīng)受限玻爾茲曼機(jī)搭建

        為了實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)目標(biāo)檢索,將單模態(tài)受限玻爾茲曼機(jī)擴(kuò)展為跨模態(tài)對(duì)應(yīng)受限玻爾茲曼機(jī),其構(gòu)建示意圖如下所示。

        圖2 對(duì)應(yīng)受限玻爾茲曼機(jī)框架圖

        從圖2中可以看出,對(duì)應(yīng)受限玻爾茲曼機(jī)中兩個(gè)單模態(tài)受限玻爾茲曼機(jī)擁有的神經(jīng)元個(gè)數(shù)相同,在表示層進(jìn)行關(guān)聯(lián)的各模態(tài)相似約束用圖中虛線來(lái)表示。

        假設(shè)跨模態(tài)搜索的數(shù)據(jù)目標(biāo)分別是圖像與文本,則從兩目標(biāo)受限玻爾茲曼機(jī)的輸入層到表示層的映射函數(shù)分別用fI(·)與fT(·)表示,包含目標(biāo)受限玻爾茲曼機(jī)輸入層與表示層間權(quán)值W、輸入層偏置[7]c以及表示層偏置b等所有指標(biāo)在內(nèi)的參數(shù)均表示為θ,得到θ={WI,cI,bI,WT,cT,bT},其中,圖像為I,文本為T。

        minimizeθLD+αLI+βLT

        (5)

        式中,α與β不能取值為0,在表示空間內(nèi)數(shù)據(jù)目標(biāo)之間的歐幾里得距離總和為L(zhǎng)D,也叫作多模態(tài)關(guān)聯(lián)偏差,數(shù)據(jù)目標(biāo)受限玻爾茲曼機(jī)的優(yōu)化目標(biāo)函數(shù)分別是LI與LT,其表達(dá)式分別如下所示

        (6)

        (7)

        (8)

        利用一種輪流優(yōu)化方法對(duì)目標(biāo)函數(shù)進(jìn)行計(jì)算,基于圖像與文本數(shù)據(jù)目標(biāo)的似然,采取對(duì)比散度算法實(shí)施參數(shù)更新,再根據(jù)關(guān)聯(lián)偏差,利用梯度下降算法更新參數(shù)。該學(xué)習(xí)算法的流程描述如下:

        1)采用下列對(duì)比散度計(jì)算公式,對(duì)圖像受限玻爾茲曼機(jī)的參數(shù)進(jìn)行更新

        θ←θ+ε·α·Δθ

        (9)

        式中,θ∈(WI,cI,bI),學(xué)習(xí)速率為ε。

        2)文本受限玻爾茲曼機(jī)的參數(shù)更新,由下列對(duì)比散度計(jì)算公式完成。

        3)結(jié)合關(guān)聯(lián)誤差,通過(guò)下列梯度下降法實(shí)現(xiàn)參數(shù)更新

        (10)

        σI(·)=σ(·)(1-σ(·))

        (11)

        4)對(duì)上述三個(gè)階段進(jìn)行迭代操作,直到收斂后結(jié)束。

        3.2 跨模態(tài)數(shù)據(jù)目標(biāo)檢索流程

        隨著多模態(tài)信息的不斷增加,其數(shù)據(jù)量日益龐大,根據(jù)數(shù)據(jù)目標(biāo)之間存在的關(guān)聯(lián)性進(jìn)行跨模態(tài)檢索,具有一定的實(shí)踐意義,其檢索具體流程描述如下:

        1)數(shù)據(jù)預(yù)處理:因?yàn)楦髂B(tài)數(shù)據(jù)均為非結(jié)構(gòu)化或半結(jié)構(gòu)化,且其中會(huì)產(chǎn)生不相關(guān)的噪聲,因此,為了準(zhǔn)確提取數(shù)據(jù)特征,要對(duì)各模態(tài)數(shù)據(jù)實(shí)施預(yù)處理。初始所提數(shù)據(jù)通常為所提文檔,無(wú)法直接采用無(wú)監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,所以,先利用結(jié)構(gòu)分詞模型執(zhí)行分詞處理,再使用word2vec[9]實(shí)施詞向量化,最后,依據(jù)單詞和文本的相關(guān)性,構(gòu)建詞向量矩陣(即文本);圖像數(shù)據(jù)的尺寸大小不一,應(yīng)用OpenCV統(tǒng)一調(diào)整圖像大小為相同尺寸后完成去噪處理。

        2)數(shù)據(jù)特征提?。簣D像經(jīng)過(guò)預(yù)處理被轉(zhuǎn)換為用來(lái)表示空間的特征向量,統(tǒng)計(jì)圖像“詞頻”就是對(duì)特征集合“單詞表”中與各特征相對(duì)應(yīng)的“單詞”出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),結(jié)合所得詞頻數(shù)據(jù)與全部圖像信息,架構(gòu)圖像特征向量空間;利用LDA模型對(duì)預(yù)處理的文本單詞實(shí)施建模,隨后依據(jù)單詞的主題分布推導(dǎo)出文本主題分布狀況[10]。

        3)跨模態(tài)檢索:根據(jù)無(wú)監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)創(chuàng)建的對(duì)應(yīng)受限玻爾茲曼機(jī)模型,得到圖像與文本之間的關(guān)聯(lián)誤差,利用提取的數(shù)據(jù)目標(biāo)特征,完成圖像與文本的跨模態(tài)檢索。

        4 仿真研究

        4.1 仿真環(huán)境

        仿真環(huán)境的硬件配置是:32位Windows7系統(tǒng),Pentium四核3.2GHz處理器,運(yùn)行內(nèi)存2GB;軟件配置為MATLAB R2012a版本。

        4.2 測(cè)試指標(biāo)

        檢索性能評(píng)估指標(biāo)設(shè)置成平均值平均精度mAP,已知任意查詢點(diǎn)q和該點(diǎn)的前R個(gè)查詢結(jié)果,則其平均精度計(jì)算公式如下所示

        (12)

        式中,查詢點(diǎn)q的實(shí)際近鄰個(gè)數(shù)為L(zhǎng),前r個(gè)檢索到的文檔精度為P(r),指示函數(shù)表示為δ(r),若指示函數(shù)取值是1,則第r個(gè)文檔與檢索到的文檔具有關(guān)聯(lián)性,反之,若取值為0,則不存在相關(guān)性。因此,推導(dǎo)出下列平均值精度表達(dá)式

        (13)

        其中,查詢點(diǎn)數(shù)量是Q。

        4.3 檢索性能評(píng)估

        為了驗(yàn)證所提方法的適用性與理想性,分別采用文獻(xiàn)[2]方法、文獻(xiàn)[3]方法與所提方法進(jìn)行仿真,仿真數(shù)據(jù)集合分別是由3000個(gè)多媒體文檔構(gòu)成的wiki data集合與由25000個(gè)多媒體文檔組成的mirflickr-25K數(shù)據(jù)集合。下圖分別是不同方法檢索數(shù)據(jù)集合的跨模態(tài)檢索精度。

        圖5 不同方法檢索示意圖

        通過(guò)圖中曲線走勢(shì)可以看出,檢索較小的wiki數(shù)據(jù)集合時(shí),三種方法均具有良好的檢索精度,雖然評(píng)估參數(shù)值相同,但所提方法仍有較為明顯的優(yōu)勢(shì);當(dāng)對(duì)數(shù)據(jù)較多的mirflickr-25K集合進(jìn)行檢索時(shí),典型相關(guān)分析策略與自學(xué)習(xí)哈希方法的平均精度參數(shù)并沒(méi)有隨著數(shù)據(jù)量的增加而提升檢索性能,反而出現(xiàn)下降情況,而所提方法則呈現(xiàn)出數(shù)據(jù)越多、精度越高的趨勢(shì),具有顯著的優(yōu)越性。

        4.4 檢索效率對(duì)比

        為了驗(yàn)證所提方法的檢索效率,對(duì)比不同方法檢索所用時(shí)間,對(duì)比結(jié)果如圖6所示。

        圖6 不同方法檢索用時(shí)對(duì)比圖

        如圖所示,相比傳統(tǒng)方法,所提方法檢索用時(shí)最少,充分證明所提方法檢索效率更高,實(shí)際應(yīng)用性較高。

        5 結(jié)論

        由于當(dāng)前檢索技術(shù)的研究多數(shù)仍集中在本質(zhì)為單模態(tài)檢索的領(lǐng)域中,造成模態(tài)無(wú)法被檢索成功,為此,提出一種基于無(wú)監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索方法。該方法既推動(dòng)了相關(guān)機(jī)器學(xué)習(xí)理論的應(yīng)用與發(fā)展,也滿足了檢索方式多樣化的需求,具備重要的應(yīng)用價(jià)值,為后續(xù)研究奠定了數(shù)據(jù)資源。

        猜你喜歡
        模態(tài)深度方法
        深度理解一元一次方程
        深度觀察
        深度觀察
        深度觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        久久婷婷色综合一区二区| 久久精品中文少妇内射| 国产欧美一区二区三区在线看| 少妇饥渴xxhd麻豆xxhd骆驼| 丁香六月久久| 女同舌吻互慰一区二区| 免费国产线观看免费观看| 国产精品久久久| 亚洲AV无码国产精品久久l| 亚洲精品成人一区二区三区| 婷婷伊人久久大香线蕉av| 三级4级全黄60分钟| 亚洲精品成人国产av| 亚洲国产91精品一区二区| 超碰人人超碰人人| av色综合久久天堂av色综合在| 手机久草视频福利在线观看| 一区二区三区人妻少妇| 人妻少妇精品视频无码专区| 精品无码AⅤ片| 亚洲国产av午夜福利精品一区| 欧美精品无码一区二区三区| 精品国产人妻一区二区三区| 免费高清av一区二区三区 | 男人阁久久| 日本妇女高清一区二区三区| 好紧好爽免费午夜视频| 亚洲av国产av综合av| 亚洲av综合色区久久精品天堂| 国产亚洲精品品视频在线| 久久精品成人无码观看不卡| 亚洲精品美女久久久久久久 | 日本久久久免费高清| 国产优质av一区二区三区| 成人试看120秒体验区| 国产美女在线精品免费观看网址| 日本一区二区三区专区| 少妇下面好爽好紧好湿一区二区| 熟女体下毛毛黑森林| 欧美中文字幕在线看| 成人自拍偷拍视频在线观看 |