劉海燕,楊云飛,朱 健,李小潔
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650504;2.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650504)
太陽(yáng)黑子是太陽(yáng)內(nèi)部向太空繼而向地球表面輻射的強(qiáng)磁場(chǎng)的產(chǎn)物[1,2]。相關(guān)研究表明,不同形態(tài)的黑子群與太陽(yáng)活動(dòng)有著緊密的聯(lián)系,因此準(zhǔn)確地檢測(cè)和描述太陽(yáng)黑子群可以為監(jiān)控和預(yù)測(cè)太陽(yáng)活動(dòng)提供相應(yīng)的依據(jù)。世界各地的天文臺(tái)一直在觀測(cè)可見(jiàn)的太陽(yáng)黑子群,并對(duì)其進(jìn)行分析,提出了一些分類標(biāo)準(zhǔn),以便及時(shí)掌握和描述太陽(yáng)活動(dòng)的動(dòng)態(tài)。但是,在已有的幾種分類標(biāo)準(zhǔn)中,由于太陽(yáng)黑子群形態(tài)復(fù)雜多樣,即使屬于同一個(gè)分類,仍存在一些區(qū)別和自有的特征。若能以文字的方式對(duì)黑子群圖像進(jìn)行描述,就可以讓天文學(xué)者直觀快速地了解太陽(yáng)黑子群的現(xiàn)狀、特點(diǎn)和變化,可以為天文科普工作提供便捷的手段,便于人們對(duì)太陽(yáng)周期[3,4]、空間氣候及黑子群對(duì)地球氣候系統(tǒng)影響的理解。
圖像描述[5,6]是一個(gè)融合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理[7]的綜合性技術(shù)。它的目的是生成基于圖像的描述語(yǔ)句,這不僅需要識(shí)別圖像中的物體,還需要識(shí)別其它的視覺(jué)元素,如物體的動(dòng)作和屬性,理解物體之間的相互關(guān)系,并生成人類可讀的、符合自然語(yǔ)言習(xí)慣的描述句子。目前,圖像描述技術(shù)一般應(yīng)用于一些日常的圖像場(chǎng)景中,例如,Mao等[8]提出的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)m-RNN(multimodal Recurrent Neural Network)模型開(kāi)創(chuàng)性地將深度學(xué)習(xí)[9]方法用于解決圖像描述生成問(wèn)題;Lu等[10]提出的自適應(yīng)注意力機(jī)制可以讓模型在生成每個(gè)單詞時(shí),自適應(yīng)地決定是否要利用圖像信息;Jia等[11]將語(yǔ)義信息作為長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)LSTM(Long Short-Term Memory)的額外輸入,進(jìn)一步指導(dǎo)模型生成與圖像內(nèi)容更加貼切的描述;You等[12]提出的模型同時(shí)利用了圖像的全局特征向量和表示高層語(yǔ)義概念的屬性向量,并結(jié)合注意力機(jī)制,進(jìn)一步提升了圖像描述的效果。相較于前人提出的方法,Johnson等[13]提出的全卷積定位網(wǎng)絡(luò)FCLN(Fully Convolutional Localization Network)是一個(gè)區(qū)域描述模型,通過(guò)局部區(qū)域描述獲得更加完整的圖像信息。
本文針對(duì)太陽(yáng)黑子群圖像描述任務(wù)的特點(diǎn),基于FCLN模型,對(duì)其中的區(qū)域候選網(wǎng)絡(luò)RPN(Region Proposal Network)[14]進(jìn)行了改進(jìn),建立了一個(gè)端到端的太陽(yáng)黑子群圖像描述模型。本文主要有以下貢獻(xiàn):
(1)通過(guò)綜合探索視覺(jué)和語(yǔ)義信息,本文設(shè)計(jì)了一種Inception區(qū)域候選定位網(wǎng)絡(luò)IRLN(Inception-RPN Localization Network)的圖像描述模型。該模型在FCLN網(wǎng)絡(luò)的基礎(chǔ)上,將原網(wǎng)絡(luò)中的RPN替換成Inception區(qū)域候選網(wǎng)絡(luò)(Inception-RPN)[15],首次將Inception-RPN網(wǎng)絡(luò)應(yīng)用到圖像描述中;并針對(duì)太陽(yáng)黑子群大小差異較大這一特征改進(jìn)了Inception模塊的結(jié)構(gòu),在最后一層特征圖上使用該Inception模塊滑動(dòng)窗來(lái)生成候選區(qū)域,從而進(jìn)一步提高太陽(yáng)黑子群檢測(cè)的準(zhǔn)確度。
(2)制作太陽(yáng)黑子群數(shù)據(jù)集,并在FCLN和IRLN 2個(gè)模型上訓(xùn)練該數(shù)據(jù)集,結(jié)果顯示本文IRLN模型相較于FCLN模型在平均精度均值mAP(mean Average Precision)上提高了16%。
本文余下內(nèi)容的組織方式為:第2節(jié)介紹相關(guān)工作,第3節(jié)詳細(xì)闡述本文設(shè)計(jì)的IRLN模型,第4節(jié)是實(shí)驗(yàn)結(jié)果的分析比較,第5節(jié)對(duì)全文進(jìn)行總結(jié)。
現(xiàn)有的圖像描述方法主要分為以下三大類:
(1)基于模板式的方法[16 - 19]:首先檢測(cè)圖像中的物體類別、動(dòng)作和屬性,并理解物體之間的相互關(guān)系,然后將這些信息對(duì)應(yīng)的單詞填入固定模板中,最終生成1個(gè)描述語(yǔ)句。該類方法生成的句子在語(yǔ)法上較為精確,但描述形式較為單一,主要是其過(guò)于依賴固定模板,限制了描述語(yǔ)句的多樣性,因而不適用于所有圖像。此外,圖像中物體種類豐富,物體之間存在多樣性的關(guān)系,導(dǎo)致標(biāo)注任務(wù)復(fù)雜繁重。
(2)基于相似檢索式的方法[20 - 23]:首先檢索與待描述圖像最接近的圖像,然后將檢索到的圖像對(duì)應(yīng)的描述語(yǔ)句遷移到待描述圖像上,最終生成基于待描述圖像的語(yǔ)句。該類方法生成的描述語(yǔ)句形式多樣、靈活,且語(yǔ)法也更貼近人類日常表達(dá)方式,但其嚴(yán)重依賴檢索庫(kù),當(dāng)待描述圖像在檢索庫(kù)中檢索不到相似的圖像時(shí),生成的描述語(yǔ)句就會(huì)與待描述圖像有較大出入。此外,這類檢索方法需要收集大量人工生成的語(yǔ)句,訓(xùn)練集也需要多樣化,因而在一定程度上生成的描述語(yǔ)句缺乏新穎性。
(3)基于編碼器-解碼器[24]的方法:首先通過(guò)編碼器將輸入序列轉(zhuǎn)化成1個(gè)固定長(zhǎng)度的向量,然后再通過(guò)解碼器將之前生成的固定向量轉(zhuǎn)化成輸出序列,整個(gè)過(guò)程是1個(gè)端到端的訓(xùn)練過(guò)程?;诰幋a器-解碼器的圖像描述方法一般分為2個(gè)部分:基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)的圖像編碼器進(jìn)行有效的特征提取與編碼;基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)或其變體(如LSTM[25],聯(lián)想記憶單元GRU(Gated Recurrent Unit)[26]等)的句子解碼器生成描述語(yǔ)句。FCLN屬于編碼器-解碼器的模型,它首先通過(guò)CNN提取特征,然后在定位層上定位物體,最后在RNN語(yǔ)言模型上對(duì)定位的物體進(jìn)行描述。
在前人工作的基礎(chǔ)上,本文設(shè)計(jì)了一種IRLN太陽(yáng)黑子群描述模型,制作了1個(gè)太陽(yáng)黑子群圖像和描述文本的數(shù)據(jù)集,重點(diǎn)是根據(jù)黑子群的特征改進(jìn)了FCLN模型中的RPN網(wǎng)絡(luò),通過(guò)不同大小的感受野獲得特征圖來(lái)定位不同尺度的目標(biāo),提高網(wǎng)絡(luò)對(duì)多尺度黑子群的檢測(cè)能力。
本文設(shè)計(jì)的太陽(yáng)黑子群描述流程圖如圖1所示,通過(guò)單輪優(yōu)化實(shí)現(xiàn)端到端的訓(xùn)練。選取黑子群數(shù)據(jù)集作為訓(xùn)練樣本,將寬為W、高為H的原始圖像輸入CNN網(wǎng)絡(luò),生成維度為C、寬為W′、高為H′的特征圖;將輸出的特征圖輸入定位層,通過(guò)Inception-RPN生成候選區(qū)域,采用非極大值抑制[27,28]方法選取B個(gè)候選區(qū)域,再通過(guò)雙線性插值將大小為W′×H′的卷積特征圖進(jìn)行劃分,得到X×Y個(gè)小網(wǎng)格圖,最終得到B個(gè)C×X×Y固定大小的區(qū)域特征;這些區(qū)域特征經(jīng)過(guò)識(shí)別網(wǎng)絡(luò)后,被處理成B個(gè)D維的可供LSTM處理的向量,在B個(gè)候選區(qū)域中,每一個(gè)候選區(qū)域都會(huì)生成1個(gè)長(zhǎng)度為D的一維向量,最終生成描述語(yǔ)句。
本文采用VGG-16[29,30]網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)由13個(gè)3×3卷積層和4個(gè)2×2最大池化層[31]組成,但去掉了原VGG-16網(wǎng)絡(luò)中的全連接層[32]和最后一個(gè)池化層。輸入圖像大小為224×224時(shí),具體的網(wǎng)絡(luò)參數(shù)如表1所示。
本文將VGG-16網(wǎng)絡(luò)中輸出大小相同的卷積層歸為一組,如表1中第1列所示,整個(gè)網(wǎng)絡(luò)分為5組卷積層,每一組分別包含x層,如Conv1_x/2表示第1組共包含2層卷積。由表1可見(jiàn),整個(gè)網(wǎng)絡(luò)卷積核大小均為3×3,通過(guò)反復(fù)堆疊小尺寸的卷積核來(lái)提升CNN對(duì)特征的學(xué)習(xí)能力。表1中第2~4列分別表示卷積核數(shù)量、卷積核大小/步長(zhǎng)、每一層對(duì)應(yīng)的特征圖輸出大小。
Figure 1 Flow chart of sunspot groups caption圖1 太陽(yáng)黑子群描述流程圖
Table 1 VGG-16 network structure parameter
IRLN的主要目的是物體定位。對(duì)于輸入大小為C×W′×H′的特征圖,先通過(guò)Inception-RPN提取候選區(qū)域,并使用邊界回歸對(duì)候選區(qū)域進(jìn)行微調(diào),再根據(jù)候選區(qū)域的置信分?jǐn)?shù)選擇B個(gè)感興趣區(qū)域ROI(Region Of Interest),最后通過(guò)雙線性插值將B個(gè)候選區(qū)域提取成B×C×X×Y固定大小的特征表示向量。Inception-RPN定位層結(jié)構(gòu)圖如圖2所示。
3.3.1 Inception-RPN
Figure 2 Diagram of Inception-RPN localization layer 圖2 Inception-RPN定位層結(jié)構(gòu)圖
FCLN中的RPN網(wǎng)絡(luò)采用VGG-16卷積層的最后一層特征圖生成候選區(qū)域,經(jīng)過(guò)3×3滑窗后每一個(gè)像素點(diǎn)的感受野是固定的,也就是僅由一種感受野生成候選區(qū)域,這樣的方式會(huì)造成部分信息的丟失。但是,如果不同尺度的目標(biāo)采用不同大小的感受野,就可以獲得更好的候選區(qū)域。Zhong等[15]提出了Inception-RPN結(jié)構(gòu),用來(lái)提取候選單詞區(qū)域,取得了較好的結(jié)果。因此,本文基于FCLN網(wǎng)絡(luò),將原網(wǎng)絡(luò)中的RPN替換成Inception-RPN網(wǎng)絡(luò),并針對(duì)太陽(yáng)黑子群大小差異較大這一特征改進(jìn)了Inception模塊的結(jié)構(gòu),在最后一層特征圖上使用該Inception模塊滑動(dòng)窗來(lái)生成候選區(qū)域,應(yīng)用在黑子群描述上。改進(jìn)后的Inception-RPN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
Figure 3 Structure of improved inception-RPN圖3 改進(jìn)后的Inception-RPN網(wǎng)絡(luò)結(jié)構(gòu)
本文改進(jìn)后的Inception-RPN網(wǎng)絡(luò)由1×1卷積、3×3卷積、5×5卷積和3×3最大池化層組成,將Conv5_3特征圖輸入網(wǎng)絡(luò)中,采用多尺度滑動(dòng)窗實(shí)現(xiàn)局部特征提取。此外,在3×3最大池化層的頂部使用1×1卷積進(jìn)行降維。圖3中的k為錨盒的個(gè)數(shù),對(duì)這些錨進(jìn)行回歸得到候選區(qū)域的信息,即錨點(diǎn)對(duì)應(yīng)的置信分?jǐn)?shù)和位置信息。改進(jìn)的Inception-RPN具有以下優(yōu)點(diǎn):(1)添加1×1卷積后,形成的多尺度Inception滑動(dòng)窗可以更好地檢測(cè)黑子群,降低漏識(shí)別率。(2)太陽(yáng)黑子群大小差異較大,通過(guò)使用感受野不同的特征圖來(lái)定位不同尺度的黑子群目標(biāo),從而進(jìn)一步提高太陽(yáng)黑子群檢測(cè)的準(zhǔn)確度。
3.3.2 邊界回歸
邊界回歸[33]的主要原因是候選區(qū)域往往與真實(shí)區(qū)域的匹配度不夠,經(jīng)過(guò)Inception-RPN網(wǎng)絡(luò)得到的候選區(qū)域的位置信息需要通過(guò)邊界回歸對(duì)候選區(qū)域邊框進(jìn)行微調(diào)。一個(gè)錨盒中心坐標(biāo)為(xa,ya),寬為wa,高為ha,利用線性回歸得到關(guān)于邊框的4個(gè)位移參數(shù)(tx,ty,tw,th),然后通過(guò)式(1)對(duì)候選區(qū)域的中心點(diǎn)(x,y)和尺寸(w,h)進(jìn)行更新。
x=xa+txwa,
y=ya+tyha,
w=waexp(tw),
h=haexp(hw)
(1)
3.3.3 雙線性插值
根據(jù)Inception-RPN網(wǎng)絡(luò)得到候選區(qū)域的置信分?jǐn)?shù),采用非極大抑制選取B=300個(gè)置信分?jǐn)?shù)最高的候選區(qū)域,這些候選區(qū)域是具有不同大小和寬高比的矩形框。為了與全連接層和LSTM語(yǔ)言模型建立連接,需要將候選區(qū)域轉(zhuǎn)換成固定大小的特征向量。最終,對(duì)B個(gè)候選區(qū)域進(jìn)行雙線性插值[33]后,一個(gè)尺寸為B×C×X×Y的向量就是定位層的最終輸出。
具體來(lái)說(shuō),就是對(duì)于任意的特征圖U(C×W′×H′)和候選區(qū)域,要將其放縮成大小為(C×X×Y)的特征圖V,放縮過(guò)程按照如下步驟進(jìn)行:
(2)
式(2)中,xi,j和yi,j的值均為浮點(diǎn)數(shù),然而圖像的像素坐標(biāo)在計(jì)算機(jī)中必須為整數(shù),所以坐標(biāo)(xi,j,yi,j)對(duì)應(yīng)的像素點(diǎn)是虛擬像素點(diǎn),并不是U中實(shí)際存在的點(diǎn)。
(3)
其中,k(d)=max(0,1-|d|)。
(3)利用上面的方法,計(jì)算V中所有像素點(diǎn)的坐標(biāo)值,得到C×X×Y的特征圖。
識(shí)別網(wǎng)絡(luò)是一個(gè)全連接神經(jīng)網(wǎng)絡(luò),它的輸入來(lái)自定位層的候選區(qū)域的特征矩陣。將每個(gè)候選區(qū)域的特征轉(zhuǎn)換成一個(gè)一維列向量,令其經(jīng)過(guò)2層全連接層,每次都使用線性整流ReLU(Rectified Linear Unit)激活函數(shù)和隨機(jī)失活(Dropout)優(yōu)化原則。最終,對(duì)于每一個(gè)候選區(qū)域,生成一個(gè)長(zhǎng)度D為4 096的一維向量。存儲(chǔ)所有的正樣本,形成一個(gè)B×D的矩陣,將該矩陣輸入到LSTM語(yǔ)言模型中。
通過(guò)識(shí)別網(wǎng)絡(luò)對(duì)候選區(qū)域的置信分?jǐn)?shù)和位置信息進(jìn)行二次精修,從而生成每個(gè)候選區(qū)域最終的置信分?jǐn)?shù)和位置信息。這次的精修與之前的邊界回歸基本是一樣的,只是對(duì)長(zhǎng)度為D的向量又進(jìn)行了一次邊界回歸。
將特征圖輸入到LSTM語(yǔ)言模型當(dāng)中,從而獲得基于圖像內(nèi)容的自然語(yǔ)言序列。其方法是將識(shí)別網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行編碼(每一個(gè)候選區(qū)域?qū)?yīng)一個(gè)編碼),記為x-1=CNN(I)(I為特征圖,CNN為編碼函數(shù),x-1為D維圖像特征向量),然后將該區(qū)域?qū)?yīng)的真實(shí)描述向量s1,s2,…,st(t表示句子的長(zhǎng)度)也進(jìn)行編碼,記為x1,…,xt,這里xi就是對(duì)應(yīng)的si的向量編碼。從而得到了長(zhǎng)度為t+2的單詞向量序列x-1,x0,x1,…,xt,其中x-1代表候選區(qū)域的圖像信息,x0是特殊的開(kāi)始標(biāo)志,x1,…,xt代表每一個(gè)單詞的向量編碼,將這個(gè)長(zhǎng)度為t+2的向量序列輸入到LSTM中。
x-1=CNN(I)
xt=WeSt,t∈{0,1,…,N-1}
pt+1=LSTM(xt),t∈{0,1,…,N-1}
(4)
其中,x-1代表CNN生成的D維圖像特征向量,它將作為整個(gè)LSTM語(yǔ)言模型的初始輸入,St為對(duì)應(yīng)的真實(shí)描述,We為一個(gè)變換矩陣,xt表示經(jīng)過(guò)矩陣變換后的D維向量,N-1表示句子的長(zhǎng)度,S0和SN是特殊的開(kāi)始標(biāo)記和結(jié)束標(biāo)記,pt+1代表第t+1個(gè)單詞在整個(gè)單詞表中的分布率,它是p(St+1|I,S0,…,St)的簡(jiǎn)寫(xiě)形式。之后,選取pt最大的元素作為句子中第t個(gè)單詞的輸出,如果概率最大的元素對(duì)應(yīng)的是END標(biāo)識(shí)符,則句子生成結(jié)束,迭代終止。
4.1.1 VG(Visual Genome)數(shù)據(jù)集
本文實(shí)驗(yàn)所用到的是VG(Visual Genome)[34]區(qū)域描述數(shù)據(jù)集,其中包含了94 313幅圖像和4 100 413個(gè)描述片段(平均每幅圖像43.5個(gè)描述片段)。圖像取自MSCOCO和YFCC100M,對(duì)每幅圖像中區(qū)域的注釋是在Amazon Mechanical Turk人工完成的。對(duì)于注釋的內(nèi)容,去掉了類似于“there is…”和“this seems to be a…”這樣的用一句話描述整幅圖的短語(yǔ)和模糊描述短語(yǔ)。為了提高效率去除了大于10個(gè)單詞的注釋,還去掉了注釋個(gè)數(shù)小于20或者大于50的圖像。最終留下87 398幅圖像。其中,77 398幅圖像作為訓(xùn)練集,驗(yàn)證集和測(cè)試集各使用5 000幅圖像。
4.1.2 太陽(yáng)黑子群數(shù)據(jù)集
太陽(yáng)黑子群數(shù)據(jù)集是由美國(guó)的太陽(yáng)動(dòng)力學(xué)天文臺(tái)SDO(Solar Dynamics Observatory)的日震和磁成像儀HMI(Helioseismic and Magnetic Imager)提供的連續(xù)光譜全日面圖像。本文選取了從2011年1月到2017年4月3 500幅HMI圖作為圖像數(shù)據(jù)集。數(shù)據(jù)集的制作步驟如下所示:
(1)對(duì)太陽(yáng)黑子群進(jìn)行分類。
太陽(yáng)黑子群的分類標(biāo)準(zhǔn)有多種,本文選擇蘇黎世分類法[35]對(duì)其進(jìn)行描述,根據(jù)黑子群誕生以后的發(fā)展形態(tài),將黑子群按大小和復(fù)雜程度分為以下9類:
①無(wú)半影的小黑子,或未顯示雙極結(jié)構(gòu)的小黑子群;
②無(wú)半影的雙極群;
③雙極群,其中1個(gè)黑子有半影;
④雙極群,2個(gè)主要黑子都有半影,至少有1個(gè)黑子為簡(jiǎn)單結(jié)構(gòu),日面經(jīng)度延伸小于10°;
⑤大雙極群,結(jié)構(gòu)復(fù)雜,2個(gè)主要黑子均有半影,它們之間還有些小黑子,日面經(jīng)度延伸大于10°~15°;
⑥非常大而復(fù)雜的雙極群,日面經(jīng)度延伸大于15°;
⑦大雙極群,只有幾個(gè)大黑子,無(wú)小黑子,日面經(jīng)度延伸大于10°;
⑧有半影的單極群,直徑大于2.5°;
⑨有半影的單極群,直徑小于2.5°。
(2)對(duì)分類后的黑子群添加描述。
一幅全日面圖像中包含多個(gè)黑子群,根據(jù)上述步驟分類后,手動(dòng)加入黑子群的詳細(xì)特征,如所屬類、最大黑子的描述和黑子群的大小描述。
最終,該數(shù)據(jù)集包含了3 500幅圖像和15 314個(gè)描述片段,其中,3 260幅作為訓(xùn)練圖像,120幅作為驗(yàn)證圖像,120幅作為測(cè)試圖像。
2個(gè)數(shù)據(jù)集的信息如表2所示。
Table 2 Details for the two datasets used in experiment
實(shí)驗(yàn)程序用lua語(yǔ)言編寫(xiě),并使用torch7框架實(shí)現(xiàn)圖像描述算法。計(jì)算機(jī)配置如下:操作系統(tǒng)為Ubuntu 16.04,8 GB內(nèi)存的Intel i3-4150 CPU,8 GB顯存的NVIDIA GTX-1070Ti GPU。
Figure 4 Test result of FCLN model on VG dataset圖4 VG數(shù)據(jù)集上FCLN模型測(cè)試結(jié)果
Figure 5 Test result of IRLN model on VG dataset圖5 VG數(shù)據(jù)集上IRLN模型測(cè)試結(jié)果
在圖像描述任務(wù)中,模型接收單幅圖像并生成一組區(qū)域,每個(gè)區(qū)域都帶有置信度和描述。為了評(píng)估模型的性能,用與FCLN相同的評(píng)價(jià)指標(biāo)mAP,該值聯(lián)合測(cè)量定位和描述精度。本文在不同的重疊度IOU(Intersection Over Union)定位閾值和不同的Meteor[36]語(yǔ)言相似性閾值下計(jì)算mAP。對(duì)于定位,IOU的閾值分別取0.3,0.4,0.5,0.6,0.7;對(duì)于語(yǔ)言相似性,Meteor的閾值分別取0,0.05,0.1,0.15,0.2,0.25。
為了驗(yàn)證本文設(shè)計(jì)模型的有效性,本文在VG數(shù)據(jù)集和太陽(yáng)黑子群數(shù)據(jù)集上進(jìn)行了2組對(duì)比實(shí)驗(yàn)。
圖4和圖5是在VG數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖4展示了在FCLN模型上測(cè)試一幅圖像的描述結(jié)果,可以看出其描述的圖像信息較少,造成部分信息缺失。圖5為改進(jìn)后IRLN的模型測(cè)試結(jié)果,其描述的信息更為詳細(xì),且描述的內(nèi)容與圖像的真實(shí)內(nèi)容也比較貼切。
圖6和圖7所示為在太陽(yáng)黑子群數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖6展示了FCLN模型的測(cè)試結(jié)果,可以看出該模型漏掉了1個(gè)較小的黑子群。圖7所示為本文改進(jìn)后的IRLN模型測(cè)試結(jié)果,該模型不僅可以識(shí)別較大的物體,在識(shí)別小物體的能力上也有所提高,從而降低了漏識(shí)率。
Figure 6 Test result of FCLN model on sunspot groups dataset圖6 太陽(yáng)黑子群數(shù)據(jù)集上FCLN模型測(cè)試結(jié)果
Figure 7 Test result of IRLN model on sunspot groups dataset圖7 太陽(yáng)黑子群數(shù)據(jù)集上IRLN模型測(cè)試結(jié)果
Full image RNN[5]和Region RNN[5]是使用MSCOCO圖像數(shù)據(jù)集訓(xùn)練的,不同的是Full image RNN模型在基于整幅圖的描述上訓(xùn)練,Region RNN模型在區(qū)域描述上訓(xùn)練。VG數(shù)據(jù)集圖像取自MSCOCO和YFCC100M,且它包含的是日常場(chǎng)景的圖像,所以用VG數(shù)據(jù)集圖像測(cè)試這3個(gè)模型有一定的可比性。本文分別將IRLN模型與Full image RNN、Region RNN和FCLN模型在VG數(shù)據(jù)集上進(jìn)行對(duì)比,再將IRLN模型與FCLN模型在太陽(yáng)黑子群數(shù)據(jù)集上進(jìn)行對(duì)比,具體結(jié)果如表3所示。
由表3可以看出,在VG數(shù)據(jù)集上得到的mAP值都較小,主要原因是該數(shù)據(jù)集的目標(biāo)種類較多,達(dá)到33 877種,而MSCOCO數(shù)據(jù)集的目標(biāo)種類只有380種;且該數(shù)據(jù)集的圖像尺寸都在800×
Table 3 Performance comparison of models
800以下,特征提取時(shí)較小的特征容易被忽略,所以對(duì)于改進(jìn)部分提高的性能并不是很突出。在VG數(shù)據(jù)集上,用5 000幅圖像進(jìn)行測(cè)試,F(xiàn)CLN比Full image RNN在mAP上提高了1.12%,比Region RNN在mAP上提高了1.13%;IRLN比Full image RNN在mAP上提高了1.82%,比Region RNN在mAP上提高了1.83%,比FCLN在mAP上提高了0.7%。在Meteor指標(biāo)上,F(xiàn)CLN比Full image RNN提高了7.6%,比Region RNN提高了2.9%;IRLN在Meteor上比Full image RNN提高了12.2%,比Region RNN提高了7.5%,比FCLN提高了4.6%。
在太陽(yáng)黑子群數(shù)據(jù)集上得到的mAP值相較VG數(shù)據(jù)集上的較大,主要原因是黑子群的種類較少,且所有圖像尺寸都是4096×4096,較小的特征也能被提取,通過(guò)改進(jìn)后的多尺寸感受野的方法獲得更加精確的候選區(qū)域,從而提高了整個(gè)網(wǎng)絡(luò)的描述質(zhì)量。在太陽(yáng)黑子群數(shù)據(jù)集上,用120幅圖像進(jìn)行測(cè)試,F(xiàn)CLN的mAP為58.22%,IRLN的mAP為74.47%,IRLN比FCLN在mAP上提高了16%。在Meteor指標(biāo)上,F(xiàn)CLN的值為33.4%,IRLN的值為47.6%,IRLN比FCLN提高了14.2%。
本文設(shè)計(jì)了一種IRLN的太陽(yáng)黑子群圖像描述模型,該模型能夠?qū)⑷彰鎴D像中的多個(gè)黑子群標(biāo)注出來(lái),并對(duì)每一個(gè)目標(biāo)進(jìn)行詳細(xì)的描述。根據(jù)黑子群大小差異較大這一特征,將FCLN中的RPN替換成Inception-RPN,并進(jìn)一步改進(jìn)了Inception模塊的結(jié)構(gòu),通過(guò)添加1×1卷積組成多尺度滑動(dòng)窗,在最后一層特征圖上使用該Inception模塊滑動(dòng)窗來(lái)生成候選區(qū)域。改進(jìn)的Inception-RPN使用感受野不同的特征圖來(lái)定位不同尺度的目標(biāo),這使得本文模型的結(jié)果在VG和太陽(yáng)黑子數(shù)據(jù)集上均有所提高。在VG數(shù)據(jù)集上,IRLN的mAP為6.09%,比FCLN提高了0.7%;IRLN的Meteor為31.9%,比FCLN提高了4.6%。在太陽(yáng)黑子群數(shù)據(jù)集上,IRLN的mAP為74.47%,比FCLN提高了16%;IRLN的Meteor為47.6%,比FCLN提高了14.2%。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的模型可以較好地描述太陽(yáng)黑子群。
在未來(lái)的工作中,將進(jìn)一步擴(kuò)充數(shù)據(jù)集,包括天文領(lǐng)域的其它圖像,并且繼續(xù)改進(jìn)語(yǔ)言模型,進(jìn)一步提高描述的準(zhǔn)確度。