亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Inception區(qū)域候選定位網(wǎng)絡(luò)的太陽(yáng)黑子群描述研究*

2020-06-02 00:19:00劉海燕楊云飛李小潔

計(jì)算機(jī)工程與科學(xué) 2020年5期

劉海燕，楊云飛，朱健，李小潔

(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明 650504;2.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室，云南昆明 650504)

1 引言

太陽(yáng)黑子是太陽(yáng)內(nèi)部向太空繼而向地球表面輻射的強(qiáng)磁場(chǎng)的產(chǎn)物[1,2]。相關(guān)研究表明，不同形態(tài)的黑子群與太陽(yáng)活動(dòng)有著緊密的聯(lián)系，因此準(zhǔn)確地檢測(cè)和描述太陽(yáng)黑子群可以為監(jiān)控和預(yù)測(cè)太陽(yáng)活動(dòng)提供相應(yīng)的依據(jù)。世界各地的天文臺(tái)一直在觀測(cè)可見(jiàn)的太陽(yáng)黑子群，并對(duì)其進(jìn)行分析，提出了一些分類標(biāo)準(zhǔn)，以便及時(shí)掌握和描述太陽(yáng)活動(dòng)的動(dòng)態(tài)。但是，在已有的幾種分類標(biāo)準(zhǔn)中，由于太陽(yáng)黑子群形態(tài)復(fù)雜多樣，即使屬于同一個(gè)分類，仍存在一些區(qū)別和自有的特征。若能以文字的方式對(duì)黑子群圖像進(jìn)行描述，就可以讓天文學(xué)者直觀快速地了解太陽(yáng)黑子群的現(xiàn)狀、特點(diǎn)和變化，可以為天文科普工作提供便捷的手段，便于人們對(duì)太陽(yáng)周期[3,4]、空間氣候及黑子群對(duì)地球氣候系統(tǒng)影響的理解。

圖像描述[5,6]是一個(gè)融合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理[7]的綜合性技術(shù)。它的目的是生成基于圖像的描述語(yǔ)句，這不僅需要識(shí)別圖像中的物體，還需要識(shí)別其它的視覺(jué)元素，如物體的動(dòng)作和屬性，理解物體之間的相互關(guān)系，并生成人類可讀的、符合自然語(yǔ)言習(xí)慣的描述句子。目前，圖像描述技術(shù)一般應(yīng)用于一些日常的圖像場(chǎng)景中，例如，Mao等[8]提出的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)m-RNN(multimodal Recurrent Neural Network)模型開(kāi)創(chuàng)性地將深度學(xué)習(xí)[9]方法用于解決圖像描述生成問(wèn)題；Lu等[10]提出的自適應(yīng)注意力機(jī)制可以讓模型在生成每個(gè)單詞時(shí)，自適應(yīng)地決定是否要利用圖像信息；Jia等[11]將語(yǔ)義信息作為長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)LSTM(Long Short-Term Memory)的額外輸入，進(jìn)一步指導(dǎo)模型生成與圖像內(nèi)容更加貼切的描述；You等[12]提出的模型同時(shí)利用了圖像的全局特征向量和表示高層語(yǔ)義概念的屬性向量，并結(jié)合注意力機(jī)制，進(jìn)一步提升了圖像描述的效果。相較于前人提出的方法，Johnson等[13]提出的全卷積定位網(wǎng)絡(luò)FCLN(Fully Convolutional Localization Network)是一個(gè)區(qū)域描述模型，通過(guò)局部區(qū)域描述獲得更加完整的圖像信息。

本文針對(duì)太陽(yáng)黑子群圖像描述任務(wù)的特點(diǎn)，基于FCLN模型，對(duì)其中的區(qū)域候選網(wǎng)絡(luò)RPN(Region Proposal Network)[14]進(jìn)行了改進(jìn)，建立了一個(gè)端到端的太陽(yáng)黑子群圖像描述模型。本文主要有以下貢獻(xiàn)：

(1)通過(guò)綜合探索視覺(jué)和語(yǔ)義信息，本文設(shè)計(jì)了一種Inception區(qū)域候選定位網(wǎng)絡(luò)IRLN(Inception-RPN Localization Network)的圖像描述模型。該模型在FCLN網(wǎng)絡(luò)的基礎(chǔ)上，將原網(wǎng)絡(luò)中的RPN替換成Inception區(qū)域候選網(wǎng)絡(luò)(Inception-RPN)[15]，首次將Inception-RPN網(wǎng)絡(luò)應(yīng)用到圖像描述中；并針對(duì)太陽(yáng)黑子群大小差異較大這一特征改進(jìn)了Inception模塊的結(jié)構(gòu)，在最后一層特征圖上使用該Inception模塊滑動(dòng)窗來(lái)生成候選區(qū)域，從而進(jìn)一步提高太陽(yáng)黑子群檢測(cè)的準(zhǔn)確度。

(2)制作太陽(yáng)黑子群數(shù)據(jù)集，并在FCLN和IRLN 2個(gè)模型上訓(xùn)練該數(shù)據(jù)集，結(jié)果顯示本文IRLN模型相較于FCLN模型在平均精度均值mAP(mean Average Precision)上提高了16%。

本文余下內(nèi)容的組織方式為：第2節(jié)介紹相關(guān)工作，第3節(jié)詳細(xì)闡述本文設(shè)計(jì)的IRLN模型，第4節(jié)是實(shí)驗(yàn)結(jié)果的分析比較，第5節(jié)對(duì)全文進(jìn)行總結(jié)。

2 相關(guān)工作

現(xiàn)有的圖像描述方法主要分為以下三大類：

(1)基于模板式的方法[16 - 19]：首先檢測(cè)圖像中的物體類別、動(dòng)作和屬性，并理解物體之間的相互關(guān)系，然后將這些信息對(duì)應(yīng)的單詞填入固定模板中，最終生成1個(gè)描述語(yǔ)句。該類方法生成的句子在語(yǔ)法上較為精確，但描述形式較為單一，主要是其過(guò)于依賴固定模板，限制了描述語(yǔ)句的多樣性，因而不適用于所有圖像。此外，圖像中物體種類豐富，物體之間存在多樣性的關(guān)系，導(dǎo)致標(biāo)注任務(wù)復(fù)雜繁重。

(2)基于相似檢索式的方法[20 - 23]：首先檢索與待描述圖像最接近的圖像，然后將檢索到的圖像對(duì)應(yīng)的描述語(yǔ)句遷移到待描述圖像上，最終生成基于待描述圖像的語(yǔ)句。該類方法生成的描述語(yǔ)句形式多樣、靈活，且語(yǔ)法也更貼近人類日常表達(dá)方式，但其嚴(yán)重依賴檢索庫(kù)，當(dāng)待描述圖像在檢索庫(kù)中檢索不到相似的圖像時(shí)，生成的描述語(yǔ)句就會(huì)與待描述圖像有較大出入。此外，這類檢索方法需要收集大量人工生成的語(yǔ)句，訓(xùn)練集也需要多樣化，因而在一定程度上生成的描述語(yǔ)句缺乏新穎性。

(3)基于編碼器-解碼器[24]的方法：首先通過(guò)編碼器將輸入序列轉(zhuǎn)化成1個(gè)固定長(zhǎng)度的向量，然后再通過(guò)解碼器將之前生成的固定向量轉(zhuǎn)化成輸出序列，整個(gè)過(guò)程是1個(gè)端到端的訓(xùn)練過(guò)程?；诰幋a器-解碼器的圖像描述方法一般分為2個(gè)部分：基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)的圖像編碼器進(jìn)行有效的特征提取與編碼；基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)或其變體(如LSTM[25]，聯(lián)想記憶單元GRU(Gated Recurrent Unit)[26]等)的句子解碼器生成描述語(yǔ)句。FCLN屬于編碼器-解碼器的模型，它首先通過(guò)CNN提取特征，然后在定位層上定位物體，最后在RNN語(yǔ)言模型上對(duì)定位的物體進(jìn)行描述。

在前人工作的基礎(chǔ)上，本文設(shè)計(jì)了一種IRLN太陽(yáng)黑子群描述模型，制作了1個(gè)太陽(yáng)黑子群圖像和描述文本的數(shù)據(jù)集，重點(diǎn)是根據(jù)黑子群的特征改進(jìn)了FCLN模型中的RPN網(wǎng)絡(luò)，通過(guò)不同大小的感受野獲得特征圖來(lái)定位不同尺度的目標(biāo)，提高網(wǎng)絡(luò)對(duì)多尺度黑子群的檢測(cè)能力。

3 IRLN網(wǎng)絡(luò)模型

3.1 模型框架介紹

本文設(shè)計(jì)的太陽(yáng)黑子群描述流程圖如圖1所示，通過(guò)單輪優(yōu)化實(shí)現(xiàn)端到端的訓(xùn)練。選取黑子群數(shù)據(jù)集作為訓(xùn)練樣本，將寬為W、高為H的原始圖像輸入CNN網(wǎng)絡(luò)，生成維度為C、寬為W′、高為H′的特征圖；將輸出的特征圖輸入定位層，通過(guò)Inception-RPN生成候選區(qū)域，采用非極大值抑制[27,28]方法選取B個(gè)候選區(qū)域，再通過(guò)雙線性插值將大小為W′×H′的卷積特征圖進(jìn)行劃分，得到X×Y個(gè)小網(wǎng)格圖，最終得到B個(gè)C×X×Y固定大小的區(qū)域特征；這些區(qū)域特征經(jīng)過(guò)識(shí)別網(wǎng)絡(luò)后，被處理成B個(gè)D維的可供LSTM處理的向量，在B個(gè)候選區(qū)域中，每一個(gè)候選區(qū)域都會(huì)生成1個(gè)長(zhǎng)度為D的一維向量，最終生成描述語(yǔ)句。

3.2 CNN

本文采用VGG-16[29,30]網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)由13個(gè)3×3卷積層和4個(gè)2×2最大池化層[31]組成，但去掉了原VGG-16網(wǎng)絡(luò)中的全連接層[32]和最后一個(gè)池化層。輸入圖像大小為224×224時(shí)，具體的網(wǎng)絡(luò)參數(shù)如表1所示。

本文將VGG-16網(wǎng)絡(luò)中輸出大小相同的卷積層歸為一組，如表1中第1列所示，整個(gè)網(wǎng)絡(luò)分為5組卷積層，每一組分別包含x層，如Conv1_x/2表示第1組共包含2層卷積。由表1可見(jiàn)，整個(gè)網(wǎng)絡(luò)卷積核大小均為3×3，通過(guò)反復(fù)堆疊小尺寸的卷積核來(lái)提升CNN對(duì)特征的學(xué)習(xí)能力。表1中第2～4列分別表示卷積核數(shù)量、卷積核大小/步長(zhǎng)、每一層對(duì)應(yīng)的特征圖輸出大小。

Figure 1 Flow chart of sunspot groups caption圖1 太陽(yáng)黑子群描述流程圖

Table 1 VGG-16 network structure parameter

3.3 Inception-RPN定位層

IRLN的主要目的是物體定位。對(duì)于輸入大小為C×W′×H′的特征圖，先通過(guò)Inception-RPN提取候選區(qū)域，并使用邊界回歸對(duì)候選區(qū)域進(jìn)行微調(diào)，再根據(jù)候選區(qū)域的置信分?jǐn)?shù)選擇B個(gè)感興趣區(qū)域ROI(Region Of Interest)，最后通過(guò)雙線性插值將B個(gè)候選區(qū)域提取成B×C×X×Y固定大小的特征表示向量。Inception-RPN定位層結(jié)構(gòu)圖如圖2所示。

3.3.1 Inception-RPN

Figure 2 Diagram of Inception-RPN localization layer 圖2 Inception-RPN定位層結(jié)構(gòu)圖

FCLN中的RPN網(wǎng)絡(luò)采用VGG-16卷積層的最后一層特征圖生成候選區(qū)域，經(jīng)過(guò)3×3滑窗后每一個(gè)像素點(diǎn)的感受野是固定的，也就是僅由一種感受野生成候選區(qū)域，這樣的方式會(huì)造成部分信息的丟失。但是，如果不同尺度的目標(biāo)采用不同大小的感受野，就可以獲得更好的候選區(qū)域。Zhong等[15]提出了Inception-RPN結(jié)構(gòu)，用來(lái)提取候選單詞區(qū)域，取得了較好的結(jié)果。因此，本文基于FCLN網(wǎng)絡(luò)，將原網(wǎng)絡(luò)中的RPN替換成Inception-RPN網(wǎng)絡(luò)，并針對(duì)太陽(yáng)黑子群大小差異較大這一特征改進(jìn)了Inception模塊的結(jié)構(gòu)，在最后一層特征圖上使用該Inception模塊滑動(dòng)窗來(lái)生成候選區(qū)域，應(yīng)用在黑子群描述上。改進(jìn)后的Inception-RPN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

Figure 3 Structure of improved inception-RPN圖3 改進(jìn)后的Inception-RPN網(wǎng)絡(luò)結(jié)構(gòu)

本文改進(jìn)后的Inception-RPN網(wǎng)絡(luò)由1×1卷積、3×3卷積、5×5卷積和3×3最大池化層組成，將Conv5_3特征圖輸入網(wǎng)絡(luò)中，采用多尺度滑動(dòng)窗實(shí)現(xiàn)局部特征提取。此外，在3×3最大池化層的頂部使用1×1卷積進(jìn)行降維。圖3中的k為錨盒的個(gè)數(shù)，對(duì)這些錨進(jìn)行回歸得到候選區(qū)域的信息，即錨點(diǎn)對(duì)應(yīng)的置信分?jǐn)?shù)和位置信息。改進(jìn)的Inception-RPN具有以下優(yōu)點(diǎn)：(1)添加1×1卷積后，形成的多尺度Inception滑動(dòng)窗可以更好地檢測(cè)黑子群，降低漏識(shí)別率。(2)太陽(yáng)黑子群大小差異較大，通過(guò)使用感受野不同的特征圖來(lái)定位不同尺度的黑子群目標(biāo)，從而進(jìn)一步提高太陽(yáng)黑子群檢測(cè)的準(zhǔn)確度。

3.3.2 邊界回歸

邊界回歸[33]的主要原因是候選區(qū)域往往與真實(shí)區(qū)域的匹配度不夠，經(jīng)過(guò)Inception-RPN網(wǎng)絡(luò)得到的候選區(qū)域的位置信息需要通過(guò)邊界回歸對(duì)候選區(qū)域邊框進(jìn)行微調(diào)。一個(gè)錨盒中心坐標(biāo)為(xa,ya)，寬為wa，高為ha，利用線性回歸得到關(guān)于邊框的4個(gè)位移參數(shù)(tx,ty,tw,th)，然后通過(guò)式(1)對(duì)候選區(qū)域的中心點(diǎn)(x,y)和尺寸(w,h)進(jìn)行更新。

x=xa+txwa,

y=ya+tyha,

w=waexp(tw),

h=haexp(hw)

(1)

3.3.3 雙線性插值

根據(jù)Inception-RPN網(wǎng)絡(luò)得到候選區(qū)域的置信分?jǐn)?shù)，采用非極大抑制選取B=300個(gè)置信分?jǐn)?shù)最高的候選區(qū)域，這些候選區(qū)域是具有不同大小和寬高比的矩形框。為了與全連接層和LSTM語(yǔ)言模型建立連接，需要將候選區(qū)域轉(zhuǎn)換成固定大小的特征向量。最終，對(duì)B個(gè)候選區(qū)域進(jìn)行雙線性插值[33]后，一個(gè)尺寸為B×C×X×Y的向量就是定位層的最終輸出。

具體來(lái)說(shuō)，就是對(duì)于任意的特征圖U(C×W′×H′)和候選區(qū)域，要將其放縮成大小為(C×X×Y)的特征圖V，放縮過(guò)程按照如下步驟進(jìn)行：

(2)

式(2)中，xi,j和yi,j的值均為浮點(diǎn)數(shù)，然而圖像的像素坐標(biāo)在計(jì)算機(jī)中必須為整數(shù)，所以坐標(biāo)(xi,j,yi,j)對(duì)應(yīng)的像素點(diǎn)是虛擬像素點(diǎn)，并不是U中實(shí)際存在的點(diǎn)。

(3)

其中，k(d)=max(0,1-|d|)。

(3)利用上面的方法，計(jì)算V中所有像素點(diǎn)的坐標(biāo)值，得到C×X×Y的特征圖。

3.4 識(shí)別網(wǎng)絡(luò)

識(shí)別網(wǎng)絡(luò)是一個(gè)全連接神經(jīng)網(wǎng)絡(luò)，它的輸入來(lái)自定位層的候選區(qū)域的特征矩陣。將每個(gè)候選區(qū)域的特征轉(zhuǎn)換成一個(gè)一維列向量，令其經(jīng)過(guò)2層全連接層，每次都使用線性整流ReLU(Rectified Linear Unit)激活函數(shù)和隨機(jī)失活(Dropout)優(yōu)化原則。最終，對(duì)于每一個(gè)候選區(qū)域，生成一個(gè)長(zhǎng)度D為4 096的一維向量。存儲(chǔ)所有的正樣本，形成一個(gè)B×D的矩陣，將該矩陣輸入到LSTM語(yǔ)言模型中。

通過(guò)識(shí)別網(wǎng)絡(luò)對(duì)候選區(qū)域的置信分?jǐn)?shù)和位置信息進(jìn)行二次精修，從而生成每個(gè)候選區(qū)域最終的置信分?jǐn)?shù)和位置信息。這次的精修與之前的邊界回歸基本是一樣的，只是對(duì)長(zhǎng)度為D的向量又進(jìn)行了一次邊界回歸。

3.5 LSTM語(yǔ)言模型

將特征圖輸入到LSTM語(yǔ)言模型當(dāng)中，從而獲得基于圖像內(nèi)容的自然語(yǔ)言序列。其方法是將識(shí)別網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行編碼(每一個(gè)候選區(qū)域?qū)?yīng)一個(gè)編碼)，記為x-1=CNN(I)(I為特征圖，CNN為編碼函數(shù)，x-1為D維圖像特征向量)，然后將該區(qū)域?qū)?yīng)的真實(shí)描述向量s1,s2,…,st(t表示句子的長(zhǎng)度)也進(jìn)行編碼，記為x1,…，xt，這里xi就是對(duì)應(yīng)的si的向量編碼。從而得到了長(zhǎng)度為t+2的單詞向量序列x-1,x0,x1,…,xt，其中x-1代表候選區(qū)域的圖像信息，x0是特殊的開(kāi)始標(biāo)志，x1,…,xt代表每一個(gè)單詞的向量編碼，將這個(gè)長(zhǎng)度為t+2的向量序列輸入到LSTM中。

x-1=CNN(I)

xt=WeSt,t∈{0,1,…,N-1}

pt+1=LSTM(xt),t∈{0,1,…,N-1}

(4)

其中，x-1代表CNN生成的D維圖像特征向量，它將作為整個(gè)LSTM語(yǔ)言模型的初始輸入，St為對(duì)應(yīng)的真實(shí)描述，We為一個(gè)變換矩陣，xt表示經(jīng)過(guò)矩陣變換后的D維向量，N-1表示句子的長(zhǎng)度，S0和SN是特殊的開(kāi)始標(biāo)記和結(jié)束標(biāo)記，pt+1代表第t+1個(gè)單詞在整個(gè)單詞表中的分布率，它是p(St+1|I,S0,…,St)的簡(jiǎn)寫(xiě)形式。之后，選取pt最大的元素作為句子中第t個(gè)單詞的輸出，如果概率最大的元素對(duì)應(yīng)的是END標(biāo)識(shí)符，則句子生成結(jié)束，迭代終止。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

4.1.1 VG(Visual Genome)數(shù)據(jù)集

本文實(shí)驗(yàn)所用到的是VG(Visual Genome)[34]區(qū)域描述數(shù)據(jù)集，其中包含了94 313幅圖像和4 100 413個(gè)描述片段(平均每幅圖像43.5個(gè)描述片段)。圖像取自MSCOCO和YFCC100M，對(duì)每幅圖像中區(qū)域的注釋是在Amazon Mechanical Turk人工完成的。對(duì)于注釋的內(nèi)容，去掉了類似于“there is…”和“this seems to be a…”這樣的用一句話描述整幅圖的短語(yǔ)和模糊描述短語(yǔ)。為了提高效率去除了大于10個(gè)單詞的注釋，還去掉了注釋個(gè)數(shù)小于20或者大于50的圖像。最終留下87 398幅圖像。其中，77 398幅圖像作為訓(xùn)練集，驗(yàn)證集和測(cè)試集各使用5 000幅圖像。

4.1.2 太陽(yáng)黑子群數(shù)據(jù)集

太陽(yáng)黑子群數(shù)據(jù)集是由美國(guó)的太陽(yáng)動(dòng)力學(xué)天文臺(tái)SDO(Solar Dynamics Observatory)的日震和磁成像儀HMI(Helioseismic and Magnetic Imager)提供的連續(xù)光譜全日面圖像。本文選取了從2011年1月到2017年4月3 500幅HMI圖作為圖像數(shù)據(jù)集。數(shù)據(jù)集的制作步驟如下所示：

(1)對(duì)太陽(yáng)黑子群進(jìn)行分類。

太陽(yáng)黑子群的分類標(biāo)準(zhǔn)有多種，本文選擇蘇黎世分類法[35]對(duì)其進(jìn)行描述，根據(jù)黑子群誕生以后的發(fā)展形態(tài)，將黑子群按大小和復(fù)雜程度分為以下9類：

①無(wú)半影的小黑子，或未顯示雙極結(jié)構(gòu)的小黑子群;

②無(wú)半影的雙極群;

③雙極群，其中1個(gè)黑子有半影;

④雙極群，2個(gè)主要黑子都有半影，至少有1個(gè)黑子為簡(jiǎn)單結(jié)構(gòu)，日面經(jīng)度延伸小于10°;

⑤大雙極群，結(jié)構(gòu)復(fù)雜，2個(gè)主要黑子均有半影，它們之間還有些小黑子，日面經(jīng)度延伸大于10°～15°;

⑥非常大而復(fù)雜的雙極群，日面經(jīng)度延伸大于15°;

⑦大雙極群，只有幾個(gè)大黑子，無(wú)小黑子，日面經(jīng)度延伸大于10°;

⑧有半影的單極群，直徑大于2.5°;

⑨有半影的單極群，直徑小于2.5°。

(2)對(duì)分類后的黑子群添加描述。

一幅全日面圖像中包含多個(gè)黑子群，根據(jù)上述步驟分類后，手動(dòng)加入黑子群的詳細(xì)特征，如所屬類、最大黑子的描述和黑子群的大小描述。

最終，該數(shù)據(jù)集包含了3 500幅圖像和15 314個(gè)描述片段，其中，3 260幅作為訓(xùn)練圖像，120幅作為驗(yàn)證圖像，120幅作為測(cè)試圖像。

2個(gè)數(shù)據(jù)集的信息如表2所示。

Table 2 Details for the two datasets used in experiment

4.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)程序用lua語(yǔ)言編寫(xiě)，并使用torch7框架實(shí)現(xiàn)圖像描述算法。計(jì)算機(jī)配置如下：操作系統(tǒng)為Ubuntu 16.04，8 GB內(nèi)存的Intel i3-4150 CPU，8 GB顯存的NVIDIA GTX-1070Ti GPU。

Figure 4 Test result of FCLN model on VG dataset圖4 VG數(shù)據(jù)集上FCLN模型測(cè)試結(jié)果

Figure 5 Test result of IRLN model on VG dataset圖5 VG數(shù)據(jù)集上IRLN模型測(cè)試結(jié)果

4.3 評(píng)價(jià)指標(biāo)

在圖像描述任務(wù)中，模型接收單幅圖像并生成一組區(qū)域，每個(gè)區(qū)域都帶有置信度和描述。為了評(píng)估模型的性能，用與FCLN相同的評(píng)價(jià)指標(biāo)mAP，該值聯(lián)合測(cè)量定位和描述精度。本文在不同的重疊度IOU(Intersection Over Union)定位閾值和不同的Meteor[36]語(yǔ)言相似性閾值下計(jì)算mAP。對(duì)于定位，IOU的閾值分別取0.3,0.4,0.5,0.6,0.7；對(duì)于語(yǔ)言相似性，Meteor的閾值分別取0,0.05,0.1,0.15,0.2,0.25。

4.4 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文設(shè)計(jì)模型的有效性，本文在VG數(shù)據(jù)集和太陽(yáng)黑子群數(shù)據(jù)集上進(jìn)行了2組對(duì)比實(shí)驗(yàn)。

圖4和圖5是在VG數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖4展示了在FCLN模型上測(cè)試一幅圖像的描述結(jié)果，可以看出其描述的圖像信息較少，造成部分信息缺失。圖5為改進(jìn)后IRLN的模型測(cè)試結(jié)果，其描述的信息更為詳細(xì)，且描述的內(nèi)容與圖像的真實(shí)內(nèi)容也比較貼切。

圖6和圖7所示為在太陽(yáng)黑子群數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖6展示了FCLN模型的測(cè)試結(jié)果，可以看出該模型漏掉了1個(gè)較小的黑子群。圖7所示為本文改進(jìn)后的IRLN模型測(cè)試結(jié)果，該模型不僅可以識(shí)別較大的物體，在識(shí)別小物體的能力上也有所提高，從而降低了漏識(shí)率。

Figure 6 Test result of FCLN model on sunspot groups dataset圖6 太陽(yáng)黑子群數(shù)據(jù)集上FCLN模型測(cè)試結(jié)果

Figure 7 Test result of IRLN model on sunspot groups dataset圖7 太陽(yáng)黑子群數(shù)據(jù)集上IRLN模型測(cè)試結(jié)果

Full image RNN[5]和Region RNN[5]是使用MSCOCO圖像數(shù)據(jù)集訓(xùn)練的，不同的是Full image RNN模型在基于整幅圖的描述上訓(xùn)練，Region RNN模型在區(qū)域描述上訓(xùn)練。VG數(shù)據(jù)集圖像取自MSCOCO和YFCC100M，且它包含的是日常場(chǎng)景的圖像，所以用VG數(shù)據(jù)集圖像測(cè)試這3個(gè)模型有一定的可比性。本文分別將IRLN模型與Full image RNN、Region RNN和FCLN模型在VG數(shù)據(jù)集上進(jìn)行對(duì)比，再將IRLN模型與FCLN模型在太陽(yáng)黑子群數(shù)據(jù)集上進(jìn)行對(duì)比，具體結(jié)果如表3所示。

由表3可以看出，在VG數(shù)據(jù)集上得到的mAP值都較小，主要原因是該數(shù)據(jù)集的目標(biāo)種類較多，達(dá)到33 877種，而MSCOCO數(shù)據(jù)集的目標(biāo)種類只有380種；且該數(shù)據(jù)集的圖像尺寸都在800×

Table 3 Performance comparison of models

800以下，特征提取時(shí)較小的特征容易被忽略，所以對(duì)于改進(jìn)部分提高的性能并不是很突出。在VG數(shù)據(jù)集上，用5 000幅圖像進(jìn)行測(cè)試，F(xiàn)CLN比Full image RNN在mAP上提高了1.12%，比Region RNN在mAP上提高了1.13%；IRLN比Full image RNN在mAP上提高了1.82%，比Region RNN在mAP上提高了1.83%，比FCLN在mAP上提高了0.7%。在Meteor指標(biāo)上，F(xiàn)CLN比Full image RNN提高了7.6%，比Region RNN提高了2.9%；IRLN在Meteor上比Full image RNN提高了12.2%，比Region RNN提高了7.5%，比FCLN提高了4.6%。

在太陽(yáng)黑子群數(shù)據(jù)集上得到的mAP值相較VG數(shù)據(jù)集上的較大，主要原因是黑子群的種類較少，且所有圖像尺寸都是4096×4096，較小的特征也能被提取，通過(guò)改進(jìn)后的多尺寸感受野的方法獲得更加精確的候選區(qū)域，從而提高了整個(gè)網(wǎng)絡(luò)的描述質(zhì)量。在太陽(yáng)黑子群數(shù)據(jù)集上，用120幅圖像進(jìn)行測(cè)試，F(xiàn)CLN的mAP為58.22%，IRLN的mAP為74.47%，IRLN比FCLN在mAP上提高了16%。在Meteor指標(biāo)上，F(xiàn)CLN的值為33.4%，IRLN的值為47.6%，IRLN比FCLN提高了14.2%。

5 結(jié)束語(yǔ)

本文設(shè)計(jì)了一種IRLN的太陽(yáng)黑子群圖像描述模型，該模型能夠?qū)⑷彰鎴D像中的多個(gè)黑子群標(biāo)注出來(lái)，并對(duì)每一個(gè)目標(biāo)進(jìn)行詳細(xì)的描述。根據(jù)黑子群大小差異較大這一特征，將FCLN中的RPN替換成Inception-RPN，并進(jìn)一步改進(jìn)了Inception模塊的結(jié)構(gòu)，通過(guò)添加1×1卷積組成多尺度滑動(dòng)窗，在最后一層特征圖上使用該Inception模塊滑動(dòng)窗來(lái)生成候選區(qū)域。改進(jìn)的Inception-RPN使用感受野不同的特征圖來(lái)定位不同尺度的目標(biāo)，這使得本文模型的結(jié)果在VG和太陽(yáng)黑子數(shù)據(jù)集上均有所提高。在VG數(shù)據(jù)集上，IRLN的mAP為6.09%，比FCLN提高了0.7%；IRLN的Meteor為31.9%，比FCLN提高了4.6%。在太陽(yáng)黑子群數(shù)據(jù)集上，IRLN的mAP為74.47%，比FCLN提高了16%；IRLN的Meteor為47.6%，比FCLN提高了14.2%。實(shí)驗(yàn)結(jié)果表明，本文設(shè)計(jì)的模型可以較好地描述太陽(yáng)黑子群。

在未來(lái)的工作中，將進(jìn)一步擴(kuò)充數(shù)據(jù)集，包括天文領(lǐng)域的其它圖像，并且繼續(xù)改進(jìn)語(yǔ)言模型，進(jìn)一步提高描述的準(zhǔn)確度。