亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分?jǐn)?shù)階網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的圖像實(shí)例分割模型

        2022-03-01 12:34:42李學(xué)明吳國豪周尚波林曉然謝洪斌
        計(jì)算機(jī)應(yīng)用 2022年2期
        關(guān)鍵詞:實(shí)例像素耦合

        李學(xué)明,吳國豪,周尚波,林曉然,謝洪斌

        (1.重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044;2.河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,石家莊 050061;3.外生成礦與礦山環(huán)境重慶市重點(diǎn)實(shí)驗(yàn)室(重慶地質(zhì)礦產(chǎn)研究院),重慶 400042)

        0 引言

        近十余年,圖像實(shí)例分割[1-2]問題一直是計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn)和熱點(diǎn),目的是使用緊密邊界框覆蓋圖像中目標(biāo)物體所包含的像素點(diǎn)。國內(nèi)外許多研究者針對(duì)這個(gè)領(lǐng)域進(jìn)行了研究,提出了許多有效的實(shí)例分割方法,這些方法基本都是模擬人眼視覺神經(jīng)系統(tǒng)對(duì)圖像信息的處理過程,一種是基于“自上而下”的注意力機(jī)制[3-4],先定位目標(biāo)物體的位置再對(duì)輪廓曲線進(jìn)行精準(zhǔn)分割;另一種是基于“自下而上”的注意力機(jī)制[5],將屬于同一目標(biāo)物體的像素點(diǎn)按照某種相似性逐漸聚合在一起。本文通過非線性理論和深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的起源[6]——人腦中海馬體研究的啟發(fā),認(rèn)為應(yīng)當(dāng)將這兩種注意力方式結(jié)合在一起模擬視覺神經(jīng)系統(tǒng)的信息獲取和處理方式,首先人眼瞬間觀測(cè)到的外界環(huán)境必定為非線性復(fù)雜區(qū)域而非像素點(diǎn),即先看到目標(biāo)物體的大致輪廓,這是一個(gè)“自下而上”的過程,本文稱之為初始階段;在看清輪廓后,仔細(xì)觀察過程中,會(huì)邊觀察邊根據(jù)以往的經(jīng)驗(yàn)判斷看到的某一部分是否屬于該物體,即精細(xì)化細(xì)節(jié)部分,這是一個(gè)“自上而下”的過程,本文稱之為第二階段。因此,為了建立完整的圖像信息接收和處理過程,以及針對(duì)以往非線性圖像特征建模較少的問題,本文提出了一種聯(lián)合分?jǐn)?shù)階非線性系統(tǒng)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的全新圖像實(shí)例分割模型。

        具體來說,在初始階段,通過分?jǐn)?shù)階非線性系統(tǒng)中混沌同步和混沌吸引子的方法,對(duì)圖像進(jìn)行初步分割,完成視覺系統(tǒng)中接收?qǐng)D像特征并“看清輪廓”的過程?;煦缤剑?-8]現(xiàn)象普遍存在于猴子、小鼠、貓和人類的大腦中,而且利用同步現(xiàn)象進(jìn)行特征綁定和圖像分割[9-10]可以有效降低模型復(fù)雜度。另外,混沌理論中認(rèn)為,大多數(shù)系統(tǒng)在經(jīng)歷過一系列迭代過程后會(huì)達(dá)到某種穩(wěn)定狀態(tài),即混沌吸引子[11],可以用來表征本文提出的圖像初步分割結(jié)果。

        在第二階段,將第一階段獲取到的特征和混沌吸引子作為先驗(yàn)知識(shí),為強(qiáng)化學(xué)習(xí)的DQN(Deep Q-learning Network)提供指導(dǎo)性策略:先將agent 的注意力聚集在混沌吸引子附近,之后使用agent 的探索策略模擬觀察過程,一點(diǎn)點(diǎn)完善物體邊界處的細(xì)節(jié)信息,達(dá)到精細(xì)化的效果。因?yàn)橐曈X神經(jīng)系統(tǒng)對(duì)圖像數(shù)據(jù)的處理是一個(gè)固定的順序變化過程,人腦在視網(wǎng)膜細(xì)胞捕獲到物體形狀、顏色等整體信息后,會(huì)快速地根據(jù)大腦中存儲(chǔ)的經(jīng)驗(yàn)對(duì)物體進(jìn)行判別,隨后再注意到更加細(xì)節(jié)的地方,這是一個(gè)連續(xù)決策過程。為了最終建立一個(gè)健壯的決策過程,本文設(shè)計(jì)了符合本文提出的視覺神經(jīng)系統(tǒng)機(jī)制的動(dòng)作-狀態(tài)表示、獎(jiǎng)勵(lì)函數(shù)和策略。

        1 相關(guān)工作

        1.1 分?jǐn)?shù)階導(dǎo)數(shù)及其應(yīng)用

        分?jǐn)?shù)階微積分算子是整數(shù)階算子的擴(kuò)展。在本文中,通過GL(Grunwald-Letnikov)定義[12]建立了分?jǐn)?shù)階弛豫系統(tǒng)。GL 的定義可以描述為:

        式(1)可以改寫為:

        其中:q1 和h分別是系統(tǒng)的分?jǐn)?shù)階階數(shù)和時(shí)間步長。

        就其應(yīng)用而言,當(dāng)前圖像處理技術(shù)中的圖像增強(qiáng)[13]和圖像降噪[14]已相對(duì)成熟,而圖像分割技術(shù)仍處于發(fā)展階段,幾乎沒有性能非常好的基準(zhǔn)模型。其中,最初的圖像分割模型是Wang 等[15]提出的LEGION(Locally Excitatory Globally Inhibitory Oscillator Network)模型,其中要分割的目標(biāo)由與時(shí)間相關(guān)性和空間分布相關(guān)的振蕩器表示(稱為“振蕩相關(guān)性”機(jī)制)。在此基礎(chǔ)上,Zhao 等[9-10,16-17]提出了一系列場(chǎng)景分割模型。具體來說,文獻(xiàn)[9-10,16]是基于分?jǐn)?shù)階網(wǎng)絡(luò)和“振蕩相關(guān)”機(jī)制的單層模型。文獻(xiàn)[17]是一個(gè)雙層模型,該模型結(jié)合了深度學(xué)習(xí)中的特征圖以提取圖像中像素的基本特征,并添加了基于分時(shí)同步的注意力機(jī)制,即第二層的中央控制單元在不同時(shí)間段內(nèi)與具有不同特征的像素進(jìn)行同步。在另外幾項(xiàng)研究[18-19]中,模型是兩層的,其中模型的第一層類似于文獻(xiàn)[15]。然而,Qiao 等[18]提出的是基于共振頻率的視覺選擇注意力機(jī)制。在Lin 等[19]的模型中,模型的第二層是中央控制單元,通過分時(shí)相位同步來模擬大腦皮層神經(jīng)元,以在第一層的不同目標(biāo)間實(shí)現(xiàn)視覺注意力選擇和轉(zhuǎn)移。

        1.2 強(qiáng)化學(xué)習(xí)

        在強(qiáng)化學(xué)習(xí)中,使用agent 評(píng)估特定狀態(tài)下某些動(dòng)作對(duì)最終結(jié)果的影響,以此來對(duì)順序決策問題進(jìn)行優(yōu)化。Mnih等[6]應(yīng)用深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器來估計(jì)強(qiáng)化學(xué)習(xí)的動(dòng)作-值函數(shù),從而得出深度強(qiáng)化學(xué)習(xí)方法。之后,提出了一系列方法[20]來輔助改進(jìn)DRL,例如內(nèi)存重播[6]和策略梯度[21]等。

        最近,有一些成功將DRL 方法應(yīng)用于計(jì)算機(jī)視覺任務(wù)的嘗試。Caicedo 等[22]將整張圖像視為一個(gè)環(huán)境,agent 根據(jù)學(xué)習(xí)的策略對(duì)邊界框執(zhí)行一系列變形操作,從而檢測(cè)目標(biāo)對(duì)象。Kong 等[23]針對(duì)圖像中出現(xiàn)的不同目標(biāo),提出了一種基于協(xié)同深度強(qiáng)化學(xué)習(xí)的聯(lián)合搜索算法,將每個(gè)檢測(cè)器視為一個(gè)agent,然后利用多agent 深度強(qiáng)化學(xué)習(xí)算法來學(xué)習(xí)目標(biāo)物定位的最優(yōu)策略。Choi 等[24]提出了一種基于模板選擇策略的深度強(qiáng)化學(xué)習(xí)跟蹤算法。該跟蹤算法構(gòu)建了一個(gè)匹配網(wǎng)絡(luò)和一個(gè)策略網(wǎng)絡(luò),其中,匹配網(wǎng)絡(luò)用來生成當(dāng)前視頻幀中每個(gè)候選目標(biāo)外觀模板的預(yù)測(cè)熱度圖,策略網(wǎng)絡(luò)根據(jù)強(qiáng)化學(xué)習(xí)的思想學(xué)習(xí)如何從預(yù)測(cè)熱度圖中決策出最佳目標(biāo)外觀模板,從而實(shí)現(xiàn)跟蹤任務(wù)。這些模型都是與目前非常流行的深度學(xué)習(xí)相結(jié)合,而本文嘗試將強(qiáng)化學(xué)習(xí)與分?jǐn)?shù)階網(wǎng)絡(luò)結(jié)合來解決目標(biāo)實(shí)例分割問題。

        2 本文方法

        2.1 整體架構(gòu)

        本文提出了一個(gè)針對(duì)某一特定類的自適應(yīng)性模型來了解并分割圖像中的目標(biāo)實(shí)例。該模型遵循鄰居搜索策略,該策略在選擇初始像素點(diǎn)后,搜索初始像素點(diǎn)的相鄰像素并比較彼此之間的相似性。詳細(xì)流程如下:首先利用分?jǐn)?shù)階網(wǎng)絡(luò)進(jìn)行初步的圖像分割,得到的圖像分割結(jié)果,即混沌吸引子可以為后續(xù)的強(qiáng)化學(xué)習(xí)提供指導(dǎo);然后使用強(qiáng)化學(xué)習(xí)對(duì)分?jǐn)?shù)階同步網(wǎng)絡(luò)分割結(jié)果進(jìn)行學(xué)習(xí)和分析,以了解像素之間的相似性和耦合力;然后根據(jù)搜索策略,agent 選擇下一個(gè)像素和最佳動(dòng)作;最后,agent 耦合屬于同一目標(biāo)實(shí)例的像素點(diǎn)。為了激發(fā)提出的agent 的注意力,本文設(shè)計(jì)了獎(jiǎng)勵(lì)函數(shù)來評(píng)估當(dāng)前已耦合像素點(diǎn)與GT(Ground Truth)之間的相似度。為了提高模型的適應(yīng)性,本文進(jìn)一步設(shè)計(jì)了一種新穎的探索方法,以加快最佳狀態(tài)-動(dòng)作對(duì)的選擇。

        2.2 分?jǐn)?shù)階網(wǎng)絡(luò)

        本文的工作建立在采用混沌相同步方法進(jìn)行圖像分割的分?jǐn)?shù)階網(wǎng)絡(luò)的基礎(chǔ)上。詳細(xì)過程如下:首先,給定輸入圖像,將圖像轉(zhuǎn)化為一個(gè)由混沌R?ssler 振子耦合而成的二維網(wǎng)絡(luò),網(wǎng)絡(luò)中每個(gè)振子代表圖像的一個(gè)像素,并從其相應(yīng)的像素接收輸入。耦合系統(tǒng)如下:

        其中:ω和d分別是系統(tǒng)的耦合力和該振子對(duì)應(yīng)的頻率。本文中dj,k是在[0.98,0.99]區(qū)間的任意值?;煦缦到y(tǒng)的相位同步狀態(tài)受耦合力的影響,不同耦合力隨時(shí)間變化對(duì)相位方差S的影響如圖1 所示。隨著耦合力的增加,耦合振子的相位趨于一致,當(dāng)耦合力ω=0.09 時(shí)相位方差最小。因此,之后的實(shí)驗(yàn)中,耦合力的取值都為0.09。在分?jǐn)?shù)階網(wǎng)絡(luò)中,代表相同對(duì)象的振蕩器之間的相位在一定的時(shí)間t范圍內(nèi)往往相同,而不同對(duì)象之間的振蕩器則完全不同,這是分?jǐn)?shù)階網(wǎng)絡(luò)進(jìn)行圖像分割的基礎(chǔ)。

        (j,k)表示振子所在的二維平面的j行和k列。ρxj,k指像素之間的耦合項(xiàng),每個(gè)像素將選擇其8 個(gè)相鄰像素點(diǎn)進(jìn)行耦合,如下所示:

        其中:如果振子(j,k)與振子(p,q)相耦合,則Δj,k;p,q=1;否則為0。

        dj,k是像素(j,k)的對(duì)比度,它由?d決定,而?d取決于圖像本身和Cj,k,如下所示:

        其中:l為特征的總量;是像素點(diǎn)(j,k)特征值所選用特征l的平均值。本文在實(shí)驗(yàn)過程中使用了四個(gè)特征,F(xiàn)g、FR、FG和FB,對(duì)應(yīng)每個(gè)像素點(diǎn)的灰度(g)和RGB 值。四個(gè)特征的權(quán)重分別為1/2、1/6、1/6 和1/6。耦合力的計(jì)算方式如下:

        其中:cpmax即是前文提到的最大耦合力,圖像中像素之間的相似度越高,振蕩器之間的耦合力就越大,圖1 中顯示了不同耦合力導(dǎo)致的振蕩器的相位方差不同;而只有耦合力超過研究中設(shè)置的耦合閾值,才認(rèn)為這兩個(gè)像素點(diǎn)屬于同一個(gè)目標(biāo)物體。σ對(duì)于不同類別的圖像具有不同的值。

        圖1 不同耦合力的相位方差Fig.1 Phase variance of different coupling force

        整個(gè)圖像分割過程如下所示:

        2.3 強(qiáng)化學(xué)習(xí)

        本文考慮建立一個(gè)標(biāo)準(zhǔn)的馬爾可夫決策過程[25],agent在連續(xù)的時(shí)間步t內(nèi)與環(huán)境E進(jìn)行交互,每個(gè)時(shí)間步t內(nèi)都會(huì)獲得對(duì)環(huán)境的觀測(cè)xt,動(dòng)作at并接受到一個(gè)獎(jiǎng)勵(lì)Rt。通常來說,agent 只能觀測(cè)到環(huán)境的一部分,所以記錄的狀態(tài)-動(dòng)作歷史為st=(x1,a1,x2,a2,…,at-1,xt)來描述狀態(tài)。本文假定環(huán)境都是可觀測(cè)的,所以st=xt。策略π定義了agent 的動(dòng)作集A,該策略計(jì)算狀態(tài)-動(dòng)作集π:S→P(A)上的概率分布。環(huán)境E也可能是隨機(jī)的。本文將其建模為具有狀態(tài)集合S,動(dòng)作空間A=IRN,初始狀態(tài)分布p(s1),動(dòng)態(tài)的轉(zhuǎn)換過程p(st+1|st,at)和獎(jiǎng)勵(lì)函數(shù)Rt(st,at)的馬爾可夫決策過程(Markov Decision Process,MDP)。

        2.3.1 Action

        動(dòng)作集A包含四個(gè)主要元素:

        方向:agent 可以在四個(gè)方向上選擇一個(gè)相鄰像素,已選擇過的像素點(diǎn)不會(huì)重復(fù)選擇。

        耦合力:agent 將所選相鄰像素的特征與初始像素進(jìn)行比較以計(jì)算相似度,然后根據(jù)相似度確定耦合力。

        耦合狀態(tài):agent 將耦合力與給定閾值進(jìn)行比較。如果耦合力大于閾值,則將相鄰像素存儲(chǔ)到耦合像素列表中;否則,不會(huì)。

        終止動(dòng)作:終止當(dāng)前搜索序列,并在下一個(gè)初始像素處重新開始搜索新實(shí)例。

        2.3.2 State

        狀態(tài)集合S可能會(huì)非常大,因?yàn)樗▉碜源罅繄D像的任意像素以及在這些像素采取的所有動(dòng)作組合,因此,泛化對(duì)于設(shè)計(jì)有效的狀態(tài)表示很重要,所以考慮將狀態(tài)設(shè)計(jì)為元組(f,h,cl),其中:f代表觀察到的像素的特征向量;h代表歷史動(dòng)作的二進(jìn)制向量;cl代表已耦合像素列表。

        特征向量f從之前的分?jǐn)?shù)階混沌同步網(wǎng)絡(luò)中獲取。h表示經(jīng)常使用的動(dòng)作,每個(gè)動(dòng)作均由7 維二進(jìn)制矢量表示,其中除與所采取的動(dòng)作對(duì)應(yīng)的值為1 外,所有值均為0。盡管h的維數(shù)很低,但它也足以說明過去發(fā)生的情況。將h和cl放在同一元組中的原因是,可以通過觀察agent 和已耦合像素(即形成吸引子的過程)所形成的軌跡來獲得圖像的區(qū)域結(jié)構(gòu)信息。

        分?jǐn)?shù)階網(wǎng)絡(luò)的輸出與動(dòng)作歷史向量和耦合的像素列表連接在一起,以完成狀態(tài)表示,并由DQN 中的Q-learning 網(wǎng)絡(luò)處理來輸出動(dòng)作值。

        2.3.3 Reward

        為了解決稀疏獎(jiǎng)勵(lì)的問題[26],本文將獎(jiǎng)勵(lì)函數(shù)分為兩類:即時(shí)獎(jiǎng)勵(lì)和最終獎(jiǎng)勵(lì)。即時(shí)獎(jiǎng)勵(lì)使用相似度sim來衡量從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)后對(duì)整體效果的改善。因?yàn)楸疚膶⒁曈X實(shí)例分割分為了兩個(gè)階段,所以不同的階段會(huì)有不同的策略和獎(jiǎng)勵(lì)函數(shù)。在初始階段,agent 每20 步得到一次獎(jiǎng)勵(lì)。在第二階段,agent 的每一步都會(huì)獲得即時(shí)獎(jiǎng)勵(lì)。實(shí)驗(yàn)過程中,只需在訓(xùn)練中評(píng)估獎(jiǎng)勵(lì)函數(shù),因?yàn)閳D像需要手動(dòng)標(biāo)記為ground truth 情況。

        假設(shè)p是當(dāng)前耦合像素的列表,而g是目標(biāo)實(shí)例的ground truth。將p和g之間的sim定義為:

        而即時(shí)獎(jiǎng)勵(lì)函數(shù)的設(shè)置如下:

        式(9)表示如果sim在狀態(tài)之間得到改善,則獎(jiǎng)勵(lì)為正,否則為負(fù),并且本文采用“鼓勵(lì)好結(jié)果”的獎(jiǎng)勵(lì)設(shè)定原則,即相似度越高,獎(jiǎng)勵(lì)越大。獎(jiǎng)勵(lì)功能適用于動(dòng)作集A中的任何動(dòng)作。這有效地提高了訓(xùn)練及測(cè)試數(shù)據(jù)集中的準(zhǔn)確性。

        當(dāng)終止條件觸發(fā)時(shí),此時(shí)應(yīng)該計(jì)算最終的獎(jiǎng)勵(lì)。最終獎(jiǎng)勵(lì)具有不同類型的方案,這取決于最終耦合像素列表與ground truth 之間的相似性。因此,最終獎(jiǎng)勵(lì)函數(shù)被設(shè)置為閾值函數(shù),如下所示:

        其中:T是終止點(diǎn)。使用相似度的平方可以擴(kuò)大良好行為的獎(jiǎng)勵(lì)與不良行為的懲罰之間的差異,從而有助于提高強(qiáng)化學(xué)習(xí)agent 的訓(xùn)練速度。

        2.4 訓(xùn)練分割agent

        模型的體系結(jié)構(gòu)如圖2 所示。agent 的目標(biāo)是通過選擇動(dòng)作來耦合像素,以最大限度地提高與環(huán)境交互過程中獲得的獎(jiǎng)勵(lì)總和。核心問題是找到指導(dǎo)agent 的決策過程的策略。策略是函數(shù)π(s,a),用于選擇當(dāng)前狀態(tài)為s時(shí)要選擇的動(dòng)作a。因?yàn)楸疚氖紫仁褂昧朔謹(jǐn)?shù)階網(wǎng)絡(luò)來對(duì)圖像進(jìn)行了初步分割,在此基礎(chǔ)上將整個(gè)強(qiáng)化學(xué)習(xí)過程分為兩個(gè)階段:初始階段和第二階段,由于本文方法采用的是像素級(jí)分割,因此在兩個(gè)階段中采用了不同的像素-動(dòng)作策略。

        圖2 模型體系架構(gòu)Fig.2 Model architecture

        2.4.1 初始階段

        在初始階段,agent 的探索行動(dòng)不是隨機(jī)的。取而代之的是,根據(jù)強(qiáng)化學(xué)習(xí)中學(xué)徒式學(xué)習(xí)[27]的原則,使用具有指導(dǎo)性的探索策略對(duì)agent 的動(dòng)作作出一定的引導(dǎo),即在初始階段使用分?jǐn)?shù)階混沌同步網(wǎng)絡(luò)形成的混沌吸引子作為專家指導(dǎo)。這種方法與圖像的注意力機(jī)制有一些相似之處,讓agent 首先關(guān)注圖像中的重要區(qū)域。但由于圖像的尺寸相對(duì)較大,因此整個(gè)時(shí)間序列較長,并且整個(gè)決策過程中每一個(gè)步驟都需要消耗一定的成本,因此短序列可以有效降低累積效用。在經(jīng)過實(shí)驗(yàn)后,本文決定讓agent 每20 個(gè)時(shí)間步就獲得一次即時(shí)獎(jiǎng)勵(lì)。由于該策略是確定性的,因此可以將其描述為一個(gè)函數(shù),并避免內(nèi)在期望:

        2.4.2 第二階段

        在第二階段,分?jǐn)?shù)階同步網(wǎng)絡(luò)的分割結(jié)果由于在局部以及邊緣區(qū)域的精度不夠,因此只能起到輔助作用,所以決定agent 每一個(gè)時(shí)間步就獲得一次獎(jiǎng)勵(lì),以此來更新策略。由于沒有狀態(tài)轉(zhuǎn)移概率,并且獎(jiǎng)勵(lì)函數(shù)與數(shù)據(jù)相關(guān),因此該問題被公式化為使用Q-learning 的強(qiáng)化學(xué)習(xí)問題。根據(jù)之前定義的動(dòng)作集、狀態(tài)集和獎(jiǎng)勵(lì)函數(shù),agent 通過應(yīng)用Q-learning算法學(xué)習(xí)最優(yōu)策略,基于Q(s,a)選擇具有最高期望獎(jiǎng)勵(lì)的行為,并用Bellman 方程更新Q(s,a),其公式如下:

        其中:s表示當(dāng)前狀態(tài);a表示當(dāng)前選擇的動(dòng)作;r表示立即獎(jiǎng)勵(lì);γ表示折扣系數(shù);s′表示下一個(gè)狀態(tài);a′表示下一個(gè)動(dòng)作。

        在連續(xù)動(dòng)作空間中學(xué)習(xí)的主要挑戰(zhàn)是探索。非指導(dǎo)性策略算法的一個(gè)優(yōu)點(diǎn)是agent 可以獨(dú)立于學(xué)習(xí)算法來處理探索問題。通過將從噪聲過程N(yùn)采樣的噪聲添加到本文的策略中來構(gòu)造探索策略。

        其中:N是根據(jù)環(huán)境來選擇的,參數(shù)更新方法使用與DQN 相同的梯度下降方法。

        2.4.3 實(shí)例分割中的DQN

        本文使用該DQN 將狀態(tài)表示作為輸入,并給出第七個(gè)動(dòng)作的值作為輸出。按照?qǐng)D2 所示的架構(gòu)訓(xùn)練類別特定的Q-learning 網(wǎng)絡(luò)。DQN 在訓(xùn)練過程中需要經(jīng)驗(yàn)回放(Memory Replay)以存儲(chǔ)大量經(jīng)驗(yàn)樣本。為了優(yōu)化DQN,本文建立了改進(jìn)的Memory Replay 來存儲(chǔ)訓(xùn)練所需的經(jīng)驗(yàn)數(shù)據(jù)。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)設(shè)置

        分?jǐn)?shù)階圖像分割網(wǎng)絡(luò)需要為不同類型的圖像設(shè)置不同的參數(shù)。β是每個(gè)振蕩器的分?jǐn)?shù)階,而a、b、c是系統(tǒng)參數(shù)。在2.2 節(jié)中,參數(shù)取值不同對(duì)分?jǐn)?shù)階混沌同步網(wǎng)絡(luò)的耦合連接結(jié)果影響不同。本文中采用Pascal VOC 數(shù)據(jù)集中的單類——“飛機(jī)”圖像對(duì)模型效果進(jìn)行說明。為了增強(qiáng)模型的通用性,在實(shí)驗(yàn)過程中發(fā)現(xiàn),設(shè)置β=0.9,a=0.5,b=0.65,c=6.2,?d=1.01,分?jǐn)?shù)階網(wǎng)絡(luò)的整體初步分割結(jié)果較好。

        在強(qiáng)化學(xué)習(xí)agent 的學(xué)習(xí)過程中,設(shè)置合適的超參數(shù)很重要。當(dāng)使用Bellman-equation 更新Q-function 時(shí),如果系數(shù)γ較大,則生成的邊界輪廓曲線很難覆蓋目標(biāo);當(dāng)該值較小時(shí),分割目標(biāo)實(shí)例過程中需要過多對(duì)圖像環(huán)境的探索。在進(jìn)行一定的實(shí)驗(yàn)后,本文設(shè)置γ=0.9。此外,Memory Replay 的大小設(shè)置為1 000,每個(gè)隨機(jī)采樣的最小batch 大小為128,訓(xùn)練次數(shù)為50。

        3.2 數(shù)據(jù)集

        本文的方法在Pascal VOC2007、Pascal VOC2012 以及這兩個(gè)數(shù)據(jù)集的聯(lián)合數(shù)據(jù)集上進(jìn)行了評(píng)估。從Pascal VOC2007 和Pascal VOC2012 數(shù)據(jù)集中選擇“飛機(jī)”圖像,手動(dòng)去除一些背景和干擾,并進(jìn)行高斯模糊,來改善和簡化數(shù)據(jù)集。其中,VOC2007 中共包含442 張此類圖像,VOC2012 中共含有421 張圖片。

        本文提出了兩種設(shè)置來評(píng)估模型的實(shí)驗(yàn)結(jié)果:1)使用標(biāo)準(zhǔn)的5 倍交叉驗(yàn)證(5-Fold Cross-Validation,5FCV),即80%的圖像用于訓(xùn)練,其余圖像用于測(cè)試;2)將訓(xùn)練數(shù)據(jù)集分為VOC2007 數(shù)據(jù)集和VOC2007+2012 數(shù)據(jù)集,并將測(cè)試數(shù)據(jù)集分為VOC2007 和VOC2007+2012。本文將在之后的3.7 節(jié)中詳細(xì)說明該評(píng)估設(shè)置對(duì)實(shí)驗(yàn)精度的影響。

        3.3 評(píng)價(jià)指標(biāo)

        本文遵循文獻(xiàn)[28]來測(cè)量區(qū)域相似性J。具體地說,J被定義為“交集相交”,它僅考慮agent 在其中明確使用觸發(fā)器來指示對(duì)象實(shí)例的存在的區(qū)域。對(duì)于每個(gè)圖像的分割精度,區(qū)域相似度J表示如下:

        其中:b是邊界輪廓曲線;y是相應(yīng)的ground truth。

        而對(duì)于整個(gè)數(shù)據(jù)集的分割精度,本文采用平均精度AP(Average Precision)進(jìn)行評(píng)估,如下所示:

        其中:Ji是第i個(gè)圖像的J值;N表示輸入圖像的數(shù)量,即兩個(gè)訓(xùn)練數(shù)據(jù)集中圖像的總和。

        3.4 基準(zhǔn)模型

        將本文模型與以下基準(zhǔn)模型進(jìn)行比較:

        1)LEGION[15]。這是最早使用“振蕩相關(guān)”機(jī)制和分?jǐn)?shù)階混沌單層網(wǎng)絡(luò)進(jìn)行圖像分割的網(wǎng)絡(luò)。具體而言,該網(wǎng)絡(luò)將具有相同特征的像素分組在一起,并區(qū)分具有不同特征的像素,此模型只能處理灰度圖像。

        2)SMCS(Scene segmentation Model based on Chaotic Synchronization)[10]和CPS(Chaotic Phase Synchronization and desynchronization)[16]。這些模型在文獻(xiàn)[15]中模型的基礎(chǔ)上,利用了更多的像素特征和新的特征編碼方式,在實(shí)驗(yàn)精度上較LEGION 有明顯提升。

        3)FCPSM(Fractional-order Chaotic Phase Synchronization Model)[19]和NMVS(Neural network Model for Visual selection and Shifting)[18]。均為兩層網(wǎng)絡(luò),它們引入了分時(shí)同步的注意力機(jī)制,即首先聚集吸引更多視覺注意力的像素,因此具有顯著性標(biāo)注能力,并提升了圖像分割的效率。

        4)OVSF(Object-based Visual Selection Framework)[17]。該模型將深度學(xué)習(xí)中的特征圖與分?jǐn)?shù)階同步網(wǎng)絡(luò)相結(jié)合,以提取圖像的紋理,并引入了自上而下的注意力機(jī)制來標(biāo)注目標(biāo)顯著性,整體效果較優(yōu)。

        3.5 分?jǐn)?shù)階網(wǎng)絡(luò)圖像分割過程

        以自然圖像“飛機(jī)”為例,如圖3 所示。由于耦合力的存在和振子本身的振蕩頻率,代表相同目標(biāo)的振子會(huì)實(shí)現(xiàn)相位同步。與圖3 相對(duì)應(yīng)的仿真結(jié)果在圖4~6 中示出:圖4 顯示對(duì)應(yīng)于不同目標(biāo)的混沌吸引子不同;在圖5 中,展示了從不同視角下不同坐標(biāo)(i,j)目標(biāo)振子的相位φ(i,j)圖;在圖6中,代表不同目標(biāo)的振子之間相位變化較大。

        圖3 自然圖像“飛機(jī)”Fig.3 Natural image“plane”

        圖4 圖3中不同目標(biāo)物體對(duì)應(yīng)的吸引子Fig.4 Attractors corresponding to different target objects in Fig.3

        圖5 不同視角下不同坐標(biāo)的振子相位圖Fig.5 Phase diagrams of oscillators in different coordinates under different perspectives

        圖6 圖3中代表不同目標(biāo)物體的振子間相位方差隨時(shí)間變化曲線Fig.6 Curves of phase standards between oscillators representing different objects in Fig.3 varying with time

        3.6 對(duì)比實(shí)驗(yàn)

        首先,在圖7 中本文提出的模型與基準(zhǔn)模型FCPSM 進(jìn)行比較。圖7 的結(jié)果強(qiáng)調(diào)了兩個(gè)要點(diǎn):首先,在大多數(shù)情況下,本文提出的模型使用具有類別特定知識(shí),即agent 在單類圖像探索過程中agent 可以從經(jīng)驗(yàn)池中歸納總結(jié)出圖像的類別信息,通過這種方式來查找目標(biāo)實(shí)例的方法的性能要優(yōu)于不具備此特性的FCPSM,但存在一個(gè)缺點(diǎn),即在給定特征表示從未被識(shí)別的情況下,無法對(duì)目標(biāo)實(shí)例進(jìn)行分割。其次,本文模型的主要優(yōu)點(diǎn)是在強(qiáng)化學(xué)習(xí)中使用動(dòng)作,狀態(tài)和獎(jiǎng)勵(lì)等元素來聚合相似像素形成局部區(qū)域,進(jìn)而利用區(qū)域才具有的形狀和輪廓等特征,而很少有分割模型試圖做到這一點(diǎn)。這在圖7 中也有所反映,即在通過強(qiáng)化學(xué)習(xí)處理初始分割結(jié)果之后,在處理諸如機(jī)尾、機(jī)翼等非平滑曲線的實(shí)驗(yàn)精度大大提高了。

        圖7 本文模型與基準(zhǔn)模型FCPSM的實(shí)驗(yàn)效果對(duì)比Fig.7 Comparison of experimental results between the proposed model and baseline model FCPSM

        本文模型與 OVSF、Mask-RCNN(Mask Region Convolutional Neural Networks)實(shí)例分割結(jié)果對(duì)比如圖8 所示。從圖8 可以看出:OVSF 因?yàn)榻Y(jié)合了分?jǐn)?shù)階網(wǎng)絡(luò)和深度學(xué)習(xí)中的feature map,所以取得的效果比之前的分?jǐn)?shù)階非線性模型效果都要好,但依然無法完全識(shí)別目標(biāo)實(shí)例中應(yīng)包含的像素,而本文提出的模型可以識(shí)別更多細(xì)節(jié)。因此,本文模型在目標(biāo)實(shí)例像素覆蓋率和邊緣檢測(cè)方面勝過OVSF。

        圖8 不同圖像實(shí)例分割模型的實(shí)驗(yàn)效果對(duì)比Fig.8 Comparisons of result of different image instance segmentation models

        目前,以Mask-RCN 為代表的圖像實(shí)例分割中表現(xiàn)最佳。深度學(xué)習(xí)方法不僅可以更準(zhǔn)確地標(biāo)記目標(biāo)的輪廓,而且,當(dāng)場(chǎng)景中存在多種類型的目標(biāo)實(shí)例時(shí),深度學(xué)習(xí)方法仍然可以快速準(zhǔn)確地分割實(shí)例。在算法復(fù)雜度方面,圖1 中顯示了分?jǐn)?shù)階網(wǎng)絡(luò)在處理圖像時(shí)達(dá)到同步所需的時(shí)間步驟,而且本文實(shí)驗(yàn)采用了聯(lián)合分?jǐn)?shù)階同步和強(qiáng)化學(xué)習(xí)的雙層模型,因此模型復(fù)雜度較高,在圖像處理速度上與深度學(xué)習(xí)模型之間仍然存在一定的差距。這也是目前非線性模型的主要研究方向之一,仍需要一些更深入的探索。

        表1 顯示了各個(gè)非線性圖像處理模型與本文模型在測(cè)試數(shù)據(jù)集上的AP 值,對(duì)每個(gè)圖像僅進(jìn)行一次實(shí)驗(yàn)。

        表1 各個(gè)模型的AP值 單位:%Tab.1 AP of each model unit:%

        LEGION、SMCS 和CPS 依次使用更多的像素基本特征,因此數(shù)據(jù)集上的最終結(jié)果越來越好。FCPSM 和NMVS 明顯優(yōu)于LEGION、SMCS 和CPS,達(dá)到約54%,因?yàn)樗鼈兪紫葘?duì)圖像的顯著性進(jìn)行標(biāo)注。OVSF 利用深度學(xué)習(xí)中的feature map處理像素的基本特征,因此其結(jié)果超過60%。然而以上模型的結(jié)果未達(dá)到65%。最后,本文模型表現(xiàn)最好,證明了將RL構(gòu)造的區(qū)域特征與像素的基本特征相結(jié)合是有效的。有趣的是,在擴(kuò)展數(shù)據(jù)集后,本文模型對(duì)測(cè)試集的實(shí)驗(yàn)精度有了很大的改進(jìn),提升了至少15 個(gè)百分點(diǎn),這是其他模型均不具有的特性,其原因?qū)⒃?.6 節(jié)中說明。

        3.7 最終實(shí)驗(yàn)結(jié)果與分析

        圖9 顯示了本文模型在“飛機(jī)”類別測(cè)試集的分割結(jié)果。大多數(shù)圖像的背景信息僅在RGB 顏色、對(duì)比度等方面有所區(qū)別,但是對(duì)于某些具有附加干擾信息的圖像,本文提出的模型仍然可以清晰地分割目標(biāo)實(shí)例,而傳統(tǒng)的混沌同步方法不僅容易受到背景干擾,而且難以準(zhǔn)確地分割目標(biāo)實(shí)例。

        圖9 本文模型部分實(shí)驗(yàn)效果Fig.9 Some experimental results for the proposed model

        對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理的優(yōu)點(diǎn):如前所述,本文實(shí)驗(yàn)中簡單預(yù)處理了數(shù)據(jù)集,然后將Pascal VOC2007 訓(xùn)練數(shù)據(jù)集與Pascal VOC2012 訓(xùn)練數(shù)據(jù)集混合在了一起,使圖像數(shù)量比單個(gè)數(shù)據(jù)集多了大約1 倍,用以評(píng)估模型。實(shí)驗(yàn)結(jié)果的對(duì)比如圖10 所示,可以看出在目標(biāo)實(shí)例的像素覆蓋率和邊緣檢測(cè)精度方面圖(b)明顯高于圖(a)。圖片的Ji值從單個(gè)數(shù)據(jù)集的43.6%和57.2%提高到了76.8%和81.1%,這與強(qiáng)化學(xué)習(xí)本身的性質(zhì)有關(guān):訓(xùn)練集的數(shù)量越多,agent 可以探索的上下文信息和先驗(yàn)知識(shí)越詳細(xì),可以借鑒的經(jīng)驗(yàn)越多,實(shí)驗(yàn)的最終結(jié)果越精確。

        圖10 不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Fig.10 Comparison of experiment results on different datasets

        由于RL 模型在訓(xùn)練過程中采用了累積式獎(jiǎng)勵(lì),因此不僅考慮當(dāng)前效果,而且考慮未來的潛在優(yōu)勢(shì)。換句話說,以監(jiān)督學(xué)習(xí)方式訓(xùn)練的模型較為短視,而以RL 方式訓(xùn)練的模型則更加關(guān)注全局利益和整體性能,所以更適合于圖像相關(guān)的任務(wù)。此外,RL 還可以重用數(shù)據(jù)集進(jìn)行訓(xùn)練。而與深度學(xué)習(xí)方法的對(duì)比中可以發(fā)現(xiàn),基于深度學(xué)習(xí)的模型具有較好的性能,因?yàn)樗鼈兛梢詮纳窠?jīng)網(wǎng)絡(luò)中的多層功能模塊中學(xué)習(xí)更多的抽象圖像特征。受此啟發(fā),本文模型按照一定的相似性對(duì)像素進(jìn)行匯總,以此來按照另一種方式抽象化圖像的局部區(qū)域特征。這是本文模型在局部區(qū)域的分割精度幾乎可以達(dá)到Mask R-CNN 水平的原因,同時(shí)也是下一步的重點(diǎn)工作,即將非線性圖像基礎(chǔ)特征提取模型按照深度學(xué)習(xí)的思想進(jìn)行改進(jìn)。

        4 結(jié)語

        在圖像實(shí)例分割方面,本文提出了一種基于分?jǐn)?shù)階混沌同步網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的模型。該模型與大多數(shù)實(shí)例分割方法具有本質(zhì)上的不同,是分?jǐn)?shù)階網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)結(jié)合在一起進(jìn)行像素級(jí)別的目標(biāo)實(shí)例分割。本文模型的實(shí)驗(yàn)結(jié)果比目前基于分?jǐn)?shù)階模型的現(xiàn)有方法更好,而且可以與某些深度學(xué)習(xí)基準(zhǔn)模型競爭,在局部區(qū)域的細(xì)粒度信息獲取能力甚至超過了某些深度學(xué)習(xí)模型。但在獲取目標(biāo)實(shí)例類別信息的能力仍有所欠缺,因此未來的工作旨在構(gòu)建更強(qiáng)大的分?jǐn)?shù)階網(wǎng)絡(luò)以表征和提取圖像基礎(chǔ)特征。

        猜你喜歡
        實(shí)例像素耦合
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        非Lipschitz條件下超前帶跳倒向耦合隨機(jī)微分方程的Wong-Zakai逼近
        “像素”仙人掌
        高像素不是全部
        CHIP新電腦(2016年3期)2016-03-10 14:22:03
        基于“殼-固”耦合方法模擬焊接裝配
        大型鑄鍛件(2015年5期)2015-12-16 11:43:20
        完形填空Ⅱ
        完形填空Ⅰ
        求解奇異攝動(dòng)Volterra積分微分方程的LDG-CFEM耦合方法
        非線性耦合KdV方程組的精確解
        米奇777四色精品人人爽| japanese色国产在线看视频| 无码国产精品色午夜| 国产不卡在线免费视频| 国产人妖在线视频网站| 五月av综合av国产av| 亚洲伊人av综合福利| 久久免费看少妇高潮v片特黄| 亚洲首页一区任你躁xxxxx| 国产69精品一区二区三区| 国产精品国产三级国产专播| 国产精品久久久久久妇女| 无码国产色欲xxxx视频| 国产精品免费久久久久影院| 亚洲成人观看| 国产精品女同学| 国产午夜免费一区二区三区视频| 高清精品一区二区三区| 人妻无码αv中文字幕久久琪琪布 美女视频黄的全免费视频网站 | 国产一区二区三区精品免费av| 久久久久亚洲av片无码下载蜜桃| 免费人成在线观看播放国产| 久久精品国产亚洲av成人无人区| 国产乱人伦偷精品视频免观看| 在线亚洲+欧美+日本专区| 亚洲 欧美 激情 小说 另类| 亚洲国产视频精品一区二区| 高清在线有码日韩中文字幕| 久久久国产乱子伦精品作者| 亚洲av无码精品色午夜果冻不卡| 日本一区二区三区中文字幕最新 | 国产午夜精品av一区二区三| 99久久国产精品免费热| 中国少妇内射xxxx狠干| 亚洲男女免费视频| 一区二区亚洲熟女偷拍| 黄片视频免费在线播放观看| 50岁熟妇大白屁股真爽| 在线国产小视频| 国产精品日本一区二区三区| 亚洲 小说区 图片区 都市|