基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述

2022-01-24 04:51:30李沛卓李盛陽

光學(xué)精密工程 2021年12期

李沛卓，萬雪，李盛陽

（中國科學(xué)院大學(xué)中國科學(xué)院空間應(yīng)用工程與技術(shù)中心中國科學(xué)院太空應(yīng)用重點(diǎn)實(shí)驗(yàn)室，北京 100094）

1 引言

中國空間站核心艙于2021 年4 月29 日成功發(fā)射，其上搭載了10 余個(gè)科學(xué)實(shí)驗(yàn)柜，用于開展空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)等11 個(gè)方向的科學(xué)實(shí)驗(yàn)。面對(duì)海量的數(shù)據(jù)，如何快速的自動(dòng)提取大量數(shù)據(jù)中的目標(biāo)，對(duì)專業(yè)性較強(qiáng)的空間科學(xué)實(shí)驗(yàn)圖像/視頻自動(dòng)添加描述性內(nèi)容、對(duì)其進(jìn)行圖像描述，讓科學(xué)家快速定位實(shí)驗(yàn)關(guān)鍵過程、獲取豐富的語義信息，使復(fù)雜的科學(xué)知識(shí)與應(yīng)用成果信息以可視化形式進(jìn)行交互，已經(jīng)成為空間科學(xué)與應(yīng)用數(shù)據(jù)管理以及眾多專家學(xué)者共同關(guān)注的話題。

近年來，隨著人工智能的飛速發(fā)展，深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用和發(fā)展。目標(biāo)分割算法通過對(duì)興趣區(qū)域進(jìn)行分類和分割，已經(jīng)成為計(jì)算機(jī)視覺的重要任務(wù)，廣泛應(yīng)用到農(nóng)業(yè)種植［1］、遙感影像處理［2］、自動(dòng)駕駛［3］等多個(gè)領(lǐng)域。按照分割結(jié)果是否具有語義信息，目標(biāo)分割主要分為語義分割，如Mask R-CNN［4］、U-Net［5］等，和非語義分割，如傳統(tǒng)的Ostu［6］、改進(jìn)的Canny 邊緣檢測(cè)［7］、DSS 顯著性檢測(cè)［8］等。

計(jì)算機(jī)學(xué)會(huì)了識(shí)別物體，為了使計(jì)算機(jī)能真正看懂圖像，將視覺信息和自然語言相融合，使計(jì)算機(jī)對(duì)圖像進(jìn)行深層次理解，生成自然語言描述。從圖像中生成視覺內(nèi)容的自然語言描述的任務(wù)，就是“圖像描述”［9］。常見的圖像描述算法如Neuraltalk2［10］、“show and tell”［11］、DenseCap［12］等只能處理訓(xùn)練時(shí)見過的語料庫里的物體，訓(xùn)練過程非常依賴于圖像和對(duì)應(yīng)的描述，模型的輸入均是圖像和描述成對(duì)出現(xiàn)，在只有圖像和類別的情況下，無法進(jìn)行遷移學(xué)習(xí)。因此圖像描述一個(gè)重要的任務(wù)是如何在保持模型生成句子的能力的同時(shí)，僅告訴模型新的類別，來進(jìn)行遷移學(xué)習(xí)。在此情況下，DCC［13］、NOC［14］、Nocaps［9］等應(yīng)運(yùn)而生。其中，DCC、NOC 這些模型需要加入新類別重新訓(xùn)練，較為復(fù)雜，且需要強(qiáng)大的計(jì)算資源支持。Nocaps 使用自上而下的描述模型［15］、NBT［16］、Constrained Beam Search（CBS）［17］等基準(zhǔn)模型，通過將解碼問題轉(zhuǎn)換為具有對(duì)應(yīng)于約束滿足轉(zhuǎn)換條件的有限狀態(tài)機(jī)，來使語言模型含有稱為約束的特定單詞，然而Nocaps 需要提供每一張圖像中新類別的邊界框等相關(guān)人工標(biāo)注信息，過于依賴人工標(biāo)注。

面對(duì)海量的數(shù)據(jù)，如何讓科學(xué)家快速定位實(shí)驗(yàn)關(guān)鍵過程，獲取豐富的語義信息，對(duì)空間科學(xué)實(shí)驗(yàn)對(duì)象進(jìn)行語義分割只是第一步，屬于低層次感知層面，未考慮各個(gè)對(duì)象之間的關(guān)聯(lián)。為了讓科學(xué)家快速定位實(shí)驗(yàn)關(guān)鍵過程，獲取更為詳細(xì)的實(shí)驗(yàn)過程信息，將語義分割結(jié)果和自然語言相結(jié)合，對(duì)空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行專業(yè)性的一句話描述，這對(duì)于快速提取實(shí)驗(yàn)過程相關(guān)信息、自動(dòng)理解實(shí)驗(yàn)數(shù)據(jù)數(shù)據(jù)中的內(nèi)容非常重要。同時(shí)也為科學(xué)家開展科學(xué)研究提供輔助參考，促進(jìn)科學(xué)發(fā)現(xiàn)與成果產(chǎn)出。

如何在保持模型具有生成句子的能力下，融入新的空間科學(xué)實(shí)驗(yàn)類別，對(duì)空間科學(xué)實(shí)驗(yàn)進(jìn)行專業(yè)性描述，實(shí)現(xiàn)自動(dòng)化的淺層類別感知到深層場(chǎng)景理解，是本文的主要研究內(nèi)容。

空間科學(xué)實(shí)驗(yàn)圖像描述存在以下難點(diǎn)：（1）空間科學(xué)實(shí)驗(yàn)對(duì)象一般尺寸較小，往往會(huì)在深層神經(jīng)網(wǎng)絡(luò)中發(fā)生目標(biāo)消失的情況，較難有效地將其檢測(cè)出來；（2）空間科學(xué)實(shí)驗(yàn)類別繁多，但總體數(shù)據(jù)樣本較少，沒有大量數(shù)據(jù)積累，深度學(xué)習(xí)所用的大規(guī)模數(shù)據(jù)學(xué)習(xí)方式就不適用；（3）空間科學(xué)實(shí)驗(yàn)場(chǎng)景偏向于科學(xué)性和專業(yè)性，與通用場(chǎng)景差別較大，實(shí)驗(yàn)類別也較為罕見，通用的圖像描述模型并不能準(zhǔn)確地對(duì)空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行圖像描述。

針對(duì)以上問題，本文面向空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)，構(gòu)建基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述模型，自動(dòng)化的對(duì)空間科學(xué)實(shí)驗(yàn)對(duì)象進(jìn)行語義分割，進(jìn)而對(duì)整張實(shí)驗(yàn)圖像進(jìn)行描述，實(shí)現(xiàn)智能化地從淺層語義感知到深層場(chǎng)景理解。本文的創(chuàng)新點(diǎn)如下：

（1）構(gòu)建空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)集

本文從國際空間站以及天舟一號(hào)和天宮二號(hào)的公開實(shí)驗(yàn)數(shù)據(jù)中收集數(shù)據(jù)，最終標(biāo)注3 016張圖片，包含空間植物實(shí)驗(yàn)、空間細(xì)胞組織類實(shí)驗(yàn)、空間燃燒實(shí)驗(yàn)和空間流體實(shí)驗(yàn)四大類。對(duì)數(shù)據(jù)分別進(jìn)行語義掩碼的標(biāo)注和圖像描述的標(biāo)注，每一張圖像均標(biāo)注一張彩色掩碼和3 句不同的英文描述。

（2）提出基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述模型

本文基于改進(jìn)U-Net 語義分割模型和No?caps 圖像描述算法，融合圖像、類別標(biāo)簽、語義分割結(jié)果、自然語言等多種模態(tài)的數(shù)據(jù)。利用語義分割結(jié)果自動(dòng)化地提取出空間科學(xué)實(shí)驗(yàn)對(duì)象的語義和邊界框信息，融合基于語義分割的空間科學(xué)實(shí)驗(yàn)詞匯候選和自下而上的通用場(chǎng)景圖像特征向量提取，在圖像描述過程中，不需要人工標(biāo)注空間科學(xué)實(shí)驗(yàn)對(duì)象的位置等信息，實(shí)現(xiàn)空間科學(xué)實(shí)驗(yàn)圖像的自動(dòng)解譯。

2 基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述算法

圖1 為基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述算法框架圖。它融合了圖像、類別標(biāo)簽、語義分割結(jié)果、自然語言等多種模態(tài)的數(shù)據(jù)，主要由基于改進(jìn)U-Net 的空間科學(xué)實(shí)驗(yàn)語義分割、基于語義分割的空間科學(xué)實(shí)驗(yàn)詞匯候選、自下而上的通用場(chǎng)景圖像特征向量提取和空間科學(xué)實(shí)驗(yàn)圖像描述的學(xué)習(xí)四部分構(gòu)成。首先對(duì)空間科學(xué)實(shí)驗(yàn)利用改進(jìn)U-Net 的語義分割模型進(jìn)行語義分割；利用語義分割結(jié)果對(duì)空間科學(xué)實(shí)驗(yàn)?zāi)繕?biāo)進(jìn)行語義和邊界框提取，得到空間科學(xué)實(shí)驗(yàn)詞匯候選；利用自下而上的注意力機(jī)制模型對(duì)空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)中的通用場(chǎng)景特征進(jìn)行提取，得到通用圖像特征向量；將前兩步得到的相關(guān)特征信息輸入到自上而下的描述模型中，并利用CBS 進(jìn)行詞匯約束，得到最終的描述結(jié)果。

圖1 算法框架圖Fig.1 Framework of the algorithm

2.1 基于改進(jìn)U-Net 的空間科學(xué)實(shí)驗(yàn)語義分割

對(duì)空間科學(xué)實(shí)驗(yàn)的實(shí)驗(yàn)對(duì)象進(jìn)行分割主要是為科學(xué)家用戶提供定制化圖像檢測(cè)識(shí)別服務(wù)，而科學(xué)家用戶通常更關(guān)注自己領(lǐng)域內(nèi)的實(shí)驗(yàn)，需要的是特定實(shí)驗(yàn)對(duì)象在地面實(shí)驗(yàn)與空間站實(shí)驗(yàn)的對(duì)比，因此分割模型不需要具有良好的普適性。由于空間科學(xué)實(shí)驗(yàn)通常在實(shí)驗(yàn)艙或是實(shí)驗(yàn)柜中進(jìn)行，實(shí)驗(yàn)對(duì)象通常為小目標(biāo)，這些小目標(biāo)在經(jīng)過卷積和池化操作后通常會(huì)發(fā)生目標(biāo)消失的現(xiàn)象。

針對(duì)空間科學(xué)實(shí)驗(yàn)樣本較少和目標(biāo)較小的問題，研究應(yīng)用基于U-Net 的語義分割框架：UNet 是最早針對(duì)醫(yī)療影像提出的圖像分割模型，其網(wǎng)絡(luò)結(jié)構(gòu)簡單，適合醫(yī)療影像數(shù)據(jù)量少，圖像語義簡單結(jié)構(gòu)較為固定的特點(diǎn)?？臻g科學(xué)實(shí)驗(yàn)數(shù)據(jù)恰好與醫(yī)療影像的數(shù)據(jù)特點(diǎn)類似。因此本文采用基于U-Net 的結(jié)構(gòu)從空間站的圖像/視頻數(shù)據(jù)中學(xué)習(xí)有效的語義特征，以地面數(shù)據(jù)為訓(xùn)練集，對(duì)空間站實(shí)驗(yàn)進(jìn)行測(cè)試，實(shí)現(xiàn)對(duì)空間科學(xué)實(shí)驗(yàn)對(duì)象的精準(zhǔn)分割。

以U-Net 的U 型結(jié)構(gòu)和跳躍連接結(jié)構(gòu)為基礎(chǔ)，如圖2 所示，（a）圖為原始U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖，（b）圖為改進(jìn)的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖。具體改進(jìn)如表1 所示，將其輸入層的網(wǎng)絡(luò)大小調(diào)整為256×256，進(jìn)行6 次上采樣和6 次下采樣，設(shè)置激活函數(shù)為sigmoid 函數(shù)，損失函數(shù)為BCEDice 損失函數(shù)，使其更適用于空間科學(xué)實(shí)驗(yàn)的語義分割。

圖2 原始U-Net 與改進(jìn)U-Net 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比圖Fig.2 Comparison of original U-Net and improved U-Net

表1 原始U-Net 和改進(jìn)U-Net 對(duì)比Tab.1 Comparison between original U-Net and advanced U-Net

2.2 基于語義分割的空間科學(xué)實(shí)驗(yàn)詞匯候選

對(duì)空間科學(xué)實(shí)驗(yàn)進(jìn)行圖像描述，由于實(shí)驗(yàn)的專業(yè)性和科學(xué)性，采用通用模型，并不能準(zhǔn)確檢測(cè)出空間科學(xué)實(shí)驗(yàn)對(duì)象，往往還會(huì)進(jìn)行誤識(shí)別。

為了使描述模型在不加人工標(biāo)注的情況下自動(dòng)識(shí)別出空間科學(xué)實(shí)驗(yàn)對(duì)象，本文利用2.1 生成的語義分割結(jié)果獲得空間科學(xué)實(shí)驗(yàn)的詞匯候選Ws，包括空間科學(xué)實(shí)驗(yàn)對(duì)象的標(biāo)簽信息Ls及位置信息bboxs，以此獲取空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)的專業(yè)性圖像特征。

具體的詞匯候選生成方法為，利用語義分割結(jié)果的掩碼圖像Masks，提取空間科學(xué)實(shí)驗(yàn)對(duì)象的邊界區(qū)域，獲得目標(biāo)區(qū)域的左上點(diǎn)坐標(biāo)(x1，y1)和右下點(diǎn)坐標(biāo)(x2，y2)，以此確定空間科學(xué)實(shí)驗(yàn)對(duì)象的位置信息bboxs(x1，y1，x2，y2)。和語義分割結(jié)果得到的語義標(biāo)簽Ls一起構(gòu)成空間科學(xué)實(shí)驗(yàn)詞匯候選結(jié)果Ws={Ls，bboxs(x1，y1，x2，y2)}。

2.3 自下而上的通用場(chǎng)景圖像特征向量提取

為了獲取空間科學(xué)實(shí)驗(yàn)中的其他通用場(chǎng)景中的常見特征，如天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)中的窗口等信息，本文采用UpDown［15］算法中提到的自下而上的注意力機(jī)制模型對(duì)空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行通用場(chǎng)景圖像特征提取。

自下而上的注意力機(jī)制、自上而下的注意力機(jī)制，這兩種類型的注意力機(jī)制存在于人類的視覺系統(tǒng)中。其中，基于自下而上的注意力機(jī)制關(guān)注圖像興趣區(qū)域，屬于“硬”注意力機(jī)制；而基于自上而下的注意力集中關(guān)注圖像的整體內(nèi)容，利用先驗(yàn)知識(shí)或任務(wù)，來創(chuàng)建注意力所應(yīng)在的視覺區(qū)域的標(biāo)準(zhǔn)，屬于“軟”注意力機(jī)制。因此對(duì)于計(jì)算機(jī)視覺而言，將圖像中顯著區(qū)域提取出圖像特征，就是基于自下而上的注意力模型的首要任務(wù)，這一步類似于對(duì)圖像進(jìn)行特征編碼。如圖3所示，（a）為自下而上的注意力模型效果圖，（b）為傳統(tǒng)CNN 模型提取特征效果圖。相對(duì)于自下而上的的注意力模型，基于CNN 的模型檢測(cè)到了更多的特征，但是這些特征往往是無用的，且需消耗更多的時(shí)間和資源，因此本文選擇自下而上的注意力機(jī)制對(duì)圖像進(jìn)行特征提取。

圖3 自下而上注意力機(jī)制和傳統(tǒng)CNN 特征提取效果圖Fig.3 Bottom-up attention and CNN attention results

UpDown 的自下而上的注意力模型框架采用嵌入ResNet-101 的Faster R-CNN［18］結(jié) 構(gòu)，該模型在Visual Genome 圖像語義理解數(shù)據(jù)集中進(jìn)行訓(xùn)練。Faster R-CNN 是目標(biāo)檢測(cè)網(wǎng)絡(luò)，它預(yù)先找到圖像中目標(biāo)可能出現(xiàn)的位置，提取候選區(qū)域，并對(duì)候選區(qū)域進(jìn)行分類。主要分為四個(gè)步驟：特征提取，區(qū)域提取網(wǎng)絡(luò)，目標(biāo)區(qū)池化，目標(biāo)分類。在這個(gè)過程中，F(xiàn)aster R-CNN 在框架中有效地起到了“硬”注意力機(jī)制的作用，僅從大量的可能中選擇了相對(duì)較少的圖像邊界框特征。

通過該模型提取出整張圖像的通用場(chǎng)景特征向量Fg={Lg，bboxg，fg}，Lg和bboxg為提取到的通用場(chǎng)景對(duì)象的類別和邊界框信息，格式與Ls及bboxs相同，相對(duì)于Ws，F(xiàn)g增加了2 048 維的特征向量fg，包含檢測(cè)到對(duì)象的一些屬性信息，如顏色、材質(zhì)等。

2.4 基于多模態(tài)學(xué)習(xí)的描述語句生成

空間科學(xué)實(shí)驗(yàn)描述語句的生成，是基于多模態(tài)學(xué)習(xí)實(shí)現(xiàn)的，融合了圖像、類別標(biāo)簽、語義分割結(jié)果、自然語言等多種模態(tài)的數(shù)據(jù)，從多種模態(tài)的數(shù)據(jù)中學(xué)習(xí)語義特征和。利用2.2 節(jié)的空間科學(xué)實(shí)驗(yàn)語義分割結(jié)果得到的空間科學(xué)實(shí)驗(yàn)的專業(yè)性詞匯候選Ws，與2.3 節(jié)得到的通用場(chǎng)景圖像特征向量Fg一起輸入到自上而下的描述模型中，并利用CBS 進(jìn)行詞匯約束，進(jìn)行模態(tài)共享混合遷移，得到跨媒體統(tǒng)一表征，以此來獲取最終的描述結(jié)果。基于自上而下的注意力集中關(guān)注圖像的整體內(nèi)容，利用先驗(yàn)知識(shí)或任務(wù)，來創(chuàng)建注意力所應(yīng)在的視覺區(qū)域的標(biāo)準(zhǔn)。相對(duì)于自下而上的注意力機(jī)制，屬于高級(jí)感知。

UpDown 中的自上而下的描述模型主要由語言LSTM 和自上而下注意力LSTM 兩部分組成：自上而下的注意力LSTM 用來確定圖像特征的權(quán)重，在描述生成過程中對(duì)每個(gè)特征進(jìn)行加權(quán)；語言LSTM 的輸入由注意力模型生成的特征加權(quán)和以及當(dāng)前時(shí)刻注意力模型的隱藏狀態(tài)組合而成，最終輸出到Softmax 分類器中，得到每一個(gè)單詞的概率分布。

為了使描述模型能包含空間科學(xué)實(shí)驗(yàn)的專業(yè)性信息，使用CBS 進(jìn)行詞匯約束。CBS 使用有限狀態(tài)機(jī)FSM 來包含2 個(gè)或3 個(gè)空間科學(xué)實(shí)驗(yàn)詞匯作為約束，如擬南芥、水稻、液滴等，在解碼后選擇至少包含2 個(gè)約束的句子作為最終的專業(yè)性描述。

3 實(shí)驗(yàn)與結(jié)果

3.1 空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)集的構(gòu)建

針對(duì)空間科學(xué)實(shí)驗(yàn)圖像描述的任務(wù)，本文首先構(gòu)建了空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)集，利用該數(shù)據(jù)集進(jìn)行語義分割和圖像描述模型，以此解決空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)目標(biāo)較小，樣本較少的問題。

本文從國際空間站、天舟一號(hào)和天宮二號(hào)的公開實(shí)驗(yàn)數(shù)據(jù)中收集視頻，每隔5 幀進(jìn)行抽幀處理，得到的相關(guān)類別和圖片數(shù)量如圖4 所示。

圖4 空間科學(xué)實(shí)驗(yàn)圖片類別數(shù)量圖Fig.4 Space science experiment picture categroy quantity chart

經(jīng)過對(duì)視頻進(jìn)行抽幀和篩選，最終確定標(biāo)注數(shù)據(jù)共3 016 張圖片，數(shù)據(jù)標(biāo)注類別為：空間植物實(shí)驗(yàn)（327 張），空間細(xì)胞組織類實(shí)驗(yàn)（293 張），空間燃燒實(shí)驗(yàn)（881 張）和空間流體實(shí)驗(yàn)（1 515 張）。其中空間植物實(shí)驗(yàn)為天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)，國際空間站蕪菁種子生長實(shí)驗(yàn)；空間細(xì)胞組織類實(shí)驗(yàn)為空間細(xì)胞融合實(shí)驗(yàn)，空間硅藻運(yùn)動(dòng)實(shí)驗(yàn)；空間燃燒實(shí)驗(yàn)為零重力火焰燃燒實(shí)驗(yàn)，國際空間站燃燒實(shí)驗(yàn)；空間流體實(shí)驗(yàn)為國際空間站試管流體實(shí)驗(yàn)，空間液滴乒乓實(shí)驗(yàn)和空間液滴游動(dòng)實(shí)驗(yàn)。標(biāo)注的數(shù)據(jù)集部分展示如圖5 所示。

圖5 空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)集部分?jǐn)?shù)據(jù)圖Fig.5 Samples of space science experiment dataset

3.1.1 空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)語義分割的標(biāo)注

針對(duì)空間科學(xué)實(shí)驗(yàn)所需的目標(biāo)分割任務(wù)，按照VOC 數(shù)據(jù)集的標(biāo)注格式，對(duì)數(shù)據(jù)分別進(jìn)行語義掩碼的標(biāo)注，背景為黑色，目標(biāo)掩碼為其他顏色。其中空間植物實(shí)驗(yàn)中，標(biāo)注目標(biāo)為擬南芥，水稻和蕪菁，標(biāo)簽分別為Arabidopsis thaliana，rice，Brassica rapa；空間細(xì)胞組織類實(shí)驗(yàn)中，目標(biāo)標(biāo)注為細(xì)胞，標(biāo)簽為cell；空間燃燒實(shí)驗(yàn)中，目標(biāo)標(biāo)注為火焰，標(biāo)簽為flame；空間流體實(shí)驗(yàn)中，目標(biāo)標(biāo)注為液滴和氣泡，標(biāo)簽分別為droplet，bub?ble。

部分標(biāo)注結(jié)果如圖6 所示，（a）天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)中，綠色標(biāo)注為水稻，黃色標(biāo)注為擬南芥；（b）國際空間站試管流體實(shí)驗(yàn)中，深藍(lán)色標(biāo)注為液滴，淺藍(lán)色標(biāo)注為氣泡。

圖6 空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)集語義分割標(biāo)注示例Fig.6 Samples of semantic segmentation annotations of the dataset

3.1.2 空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)圖像描述的標(biāo)注

針對(duì)圖像描述算法，本文對(duì)天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)、零重力火焰燃燒實(shí)驗(yàn)、國際空間站液滴乒乓實(shí)驗(yàn)、國際空間站火焰燃燒實(shí)驗(yàn)進(jìn)行標(biāo)注，分別記為T2、ZeroG-Flame、Droplet-Ping-Pong、ISS-Flame。對(duì)實(shí)驗(yàn)視頻每隔10 幀進(jìn)行抽幀處理，分別得到321 幀圖像、54 幀圖像、55幀圖像、77 幀圖像，包含擬南芥（Arabidopsis thaliana）、水稻（rice）、火焰（flame）、液滴（droplet）四種空間科學(xué)實(shí)驗(yàn)對(duì)象，相對(duì)于包含80 個(gè)類別的通用圖像描述數(shù)據(jù)集COCO Captions 來說，也是四種罕見類別。

對(duì)每一張圖像進(jìn)行人工標(biāo)注，分別標(biāo)注三句不同的描述，得到真值數(shù)據(jù)集。如圖7 所示，為天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)，包含擬南芥和水稻兩種空間科學(xué)實(shí)驗(yàn)對(duì)象，因此對(duì)應(yīng)的真值標(biāo)注為：“there are rice and Arabidopsis thaliana in the experimental cabinet”，“rice and Arabidopsis thali?ana are growing in the laboratory cabinet”，“rice and Arabidopsis thaliana thrive in the experimental cabinet”。

圖7 天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)Fig.7 Growth experiment of Arabidopsis thaliana and rice in Tiangong-2

3.2 空間科學(xué)實(shí)驗(yàn)語義分割實(shí)驗(yàn)驗(yàn)證

天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)視頻幀率30 幀/秒，每幀圖像大小296×360，將視頻逐幀轉(zhuǎn)為圖像序列，共計(jì)3 270 張圖像。本實(shí)驗(yàn)從天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)中隨機(jī)選取45 張圖像，將對(duì)應(yīng)標(biāo)注的45 張實(shí)驗(yàn)真值數(shù)據(jù)作為訓(xùn)練模型的輸入，利用改進(jìn)U-Net 的語義分割模型進(jìn)行模型訓(xùn)練，對(duì)剩余的圖像序列進(jìn)行模型測(cè)試，得到擬南芥和水稻的分割結(jié)果。

3.2.1 數(shù)據(jù)處理

對(duì)標(biāo)注后的45 張掩碼信息，按照4∶1 的方式進(jìn)行隨機(jī)分配，其中36 張作為訓(xùn)練數(shù)據(jù)，9 張作為測(cè)試數(shù)據(jù)。同時(shí)，對(duì)訓(xùn)練集內(nèi)的圖像進(jìn)行擴(kuò)充處理：對(duì)輸入的原始圖像和掩碼進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)、色相、飽和度等調(diào)整，以提高后續(xù)分割的準(zhǔn)確度。使用keras 深度學(xué)習(xí)框架進(jìn)行訓(xùn)練，分別訓(xùn)練擬南芥和水稻兩個(gè)語義分割模型，在GPU 為Titan X 12G 顯存的硬件條件下，模型在訓(xùn)練164 個(gè)ep?och 時(shí)學(xué)習(xí)率下降到0.000 001，訓(xùn)練停止。相應(yīng)的訓(xùn)練過程中，訓(xùn)練損失和驗(yàn)證損失變化曲線如圖8 所示，（a）圖為訓(xùn)練集loss 變化曲線，（b）圖為驗(yàn)證集的loss 變化曲線，可以看出損失在平穩(wěn)下降。

圖8 天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)loss 曲線圖Fig.8 Loss curves of Arabidopsis thaliana and rice growth experiment on Tiangong-2

3.2.2 實(shí)驗(yàn)結(jié)果

本文利用傳統(tǒng)圖像分割算法，Canny 邊緣檢測(cè)，對(duì)天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測(cè)試；同時(shí)還利用和改進(jìn)U-Net 相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練參數(shù)，基于Mask R-CNN 訓(xùn)練天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)語義分割模型，對(duì)天宮二號(hào)擬南芥和水稻實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測(cè)試。如圖9 所示，（a）為Canny 邊緣檢測(cè)算法的分割結(jié)果，（b）為訓(xùn)練的基于Mask R-CNN 天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)語義分割模型對(duì)相應(yīng)實(shí)驗(yàn)圖像的分割結(jié)果，（c）為本文提出的基于改進(jìn)U-Net 的天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)語義分割模型的對(duì)相應(yīng)實(shí)驗(yàn)圖像的分割結(jié)果。

圖9 天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)語義分割結(jié)果對(duì)比Fig.9 Comparisons between segmentation results of be?tween Arabidopsis thaliana and rice growth experi?ment in Tiangong-2

通過對(duì)比實(shí)驗(yàn)結(jié)果可以看出，傳統(tǒng)的分割方法不能將背景信息和所需目標(biāo)進(jìn)行分離，檢測(cè)結(jié)果中包含大量背景信息，并不能分割出所需目標(biāo)；Mask R-CNN 只能在部分場(chǎng)景中識(shí)別出擬南芥，且對(duì)水稻的邊緣信息處理結(jié)果較差，只能檢測(cè)出水稻的大概位置；本課題提出的算法可以很好地識(shí)別出水稻和擬南芥，并對(duì)其邊緣信息進(jìn)行了較好地處理。

3.2.3 精度評(píng)定

使用剩余實(shí)驗(yàn)圖像序列中標(biāo)注的62 張真值結(jié)果，對(duì)Mask R-CNN 和改進(jìn)U-Net 的天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)結(jié)果分別進(jìn)行精度評(píng)定，采用DAVIS［19］數(shù)據(jù)集提出的評(píng)價(jià)指標(biāo)：區(qū)域分割相似度J，輪廓相似度F。為了測(cè)量基于區(qū)域的分割相似度，即錯(cuò)誤像素的數(shù)量，使用區(qū)域相似度J，J 定義為估計(jì)分割和真值掩膜之間的IoU（Intersection over Union）：

其中：M為測(cè)試后的輸出分割結(jié)果，G為預(yù)先標(biāo)注的真值掩膜，M和G均表示為二值圖像中的白色區(qū)域。計(jì)算M和G重合區(qū)域的面積，也就是像素個(gè)數(shù)，記作M交G；計(jì)算M和G相并區(qū)域的面積，記作M 并G。

從基于輪廓的角度來看，可以將M 解釋為一組限定掩模空間范圍的閉合輪廓c（M）。因此，通過一個(gè)二分圖匹配以提高對(duì)小誤差的魯棒性，可以比較c（M）和c（G）的邊緣點(diǎn)計(jì)算基于輪廓的精度PC和召回RC。PC為M 中為真實(shí)分割結(jié)果的像素的比例，RC為G中被模型檢測(cè)為分割結(jié)果的像素的比例。輪廓相似度F 可以取得精度和召回之間較好的權(quán)衡，定義為：

精度評(píng)定結(jié)果如表2 所示。其中：下標(biāo)M表示均值精度mean；O表示召回recall，測(cè)量得分高于閾值0.5 的序列的分?jǐn)?shù)；D表示衰減decay，主要衡量隨時(shí)間變化的損失或增益。

表2 天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)語義分割算法精度評(píng)定對(duì)比表Tab.2 Comparison table for evaluation of semantic seg?mentation algorithm in Tiangong-2 Arabidopsis thaliana and rice growth experiment

精度評(píng)定結(jié)果如表2 所示。從精度評(píng)定結(jié)果中可以看出，相對(duì)于Mask R-CNN，本課題提出的算法在輪廓相似度和區(qū)域相似度方面得到了40%～70%的提升，分割效果更加精確。

3.3 空間科學(xué)實(shí)驗(yàn)圖像描述實(shí)驗(yàn)驗(yàn)證

3.3.1 數(shù)據(jù)處理

利用語義分割結(jié)果進(jìn)行空間科學(xué)實(shí)驗(yàn)詞匯候選，過程如圖10 所示，圖（a）為天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)，圖（b）為本文提出的基于改進(jìn)U-Net 的語義分割算法得到的相應(yīng)語義分割結(jié)果。利用語義分割結(jié)果，提取空間科學(xué)實(shí)驗(yàn)?zāi)繕?biāo)（擬南芥和水稻）對(duì)應(yīng)的類別標(biāo)簽和位置信息，生成json 文件輸入給圖像描述模型，提取效果圖如（c）所示，為類別和位置信息提取結(jié)果。

圖10 天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)詞匯候選提取Fig.10 Vocabulary candidate extraction for Tiangong-2 Arabidopsis thaliana and rice growth experiment

3.3.2 實(shí)驗(yàn)結(jié)果

基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述算法，分別對(duì)天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)、零重力火焰燃燒實(shí)驗(yàn)、國際空間站液滴乒乓實(shí)驗(yàn)、國際空間站火焰燃燒實(shí)驗(yàn)進(jìn)行圖像描述，對(duì)比Neuraltalk2 的相應(yīng)的描述結(jié)果如圖11所示。

圖11 本文提出的圖像描述算法和Neuraltalk2 在空間科學(xué)實(shí)驗(yàn)場(chǎng)景的結(jié)果對(duì)比Fig.11 Comparison of image caption between Neural?talk2 and this paper in space science experiment

通過對(duì)比結(jié)果可以看出，本文采用的基于多模態(tài)的空間科學(xué)實(shí)驗(yàn)圖像描述算法可以識(shí)別出擬南芥、水稻、火焰、液滴等專業(yè)性科學(xué)實(shí)驗(yàn)詞匯和特征，并將其和自然語言進(jìn)行結(jié)合，實(shí)現(xiàn)對(duì)空間科學(xué)實(shí)驗(yàn)的專業(yè)性描述。

空間液滴游動(dòng)實(shí)驗(yàn)的前后變化描述結(jié)果如圖12 所示，上圖的液滴為藍(lán)色，中圖中航天員對(duì)液滴進(jìn)行染色后為綠色，下圖為航天員離開后只有綠色液滴特寫的場(chǎng)景?？臻g科學(xué)實(shí)驗(yàn)圖像描述模型可以檢測(cè)出視頻前后，宇航員以及液滴顏色的變化，從而實(shí)現(xiàn)了對(duì)空間科學(xué)實(shí)驗(yàn)的圖像描述。

圖12 本文算法和Neuraltalk2 在空間液滴游動(dòng)實(shí)驗(yàn)的圖像描述結(jié)果對(duì)比Fig.12 Comparison results of image caption between this paper and Neuraltalk2 in space droplet experi?ment

3.3.3 精度評(píng)定

自然語言處理中常用的Bleu［20］的評(píng)價(jià)標(biāo)準(zhǔn)過于依賴真值，對(duì)每一個(gè)單詞及其位置進(jìn)行評(píng)判，而真值的標(biāo)定具有很大的人為主觀因素。在這種情況下，算法生成的描述很大程度上所表達(dá)的意思是正確的，然而因?yàn)橛迷~及表述方式與真值不一致則會(huì)導(dǎo)致其評(píng)定出的精度非常低。因此，對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行精度評(píng)定，采用METEOR［21］和SIPCE［22］評(píng)價(jià)指標(biāo)。

METEOR 全稱為Metric for Evaluation of Translation with Explicit Ordering，通過計(jì)算算法描述和真值之間的召回率和準(zhǔn)確率的調(diào)和平均，解決了Bleu 中的一些問題。使用了WordNet 等進(jìn)行同義詞擴(kuò)充處理；考慮了詞性的變化，引入了句子連續(xù)性的考慮。

SPICE 使用基于圖的語義表示（場(chǎng)景圖）來評(píng)估算法描述的質(zhì)量，它通過依賴關(guān)系解析樹對(duì)算法描述和真值之間建立語義場(chǎng)景圖，對(duì)存在的對(duì)象、屬性和關(guān)系進(jìn)行顯示編碼，提取描述中的大部分詞匯和語法特征。

本文利用METEOR 和SPICE 對(duì)天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)、零重力火焰燃燒實(shí)驗(yàn)、國際空間站液滴乒乓實(shí)驗(yàn)、國際空間站火焰燃燒實(shí)驗(yàn)進(jìn)行圖像描述，分別記為T2、ZeroGFlame、Droplet-Ping-Pong、ISS-Flame。對(duì)實(shí)驗(yàn)視頻每隔10 幀進(jìn)行抽幀處理，分別得到321 幀圖像、54 幀圖像、55 幀圖像、77 幀圖像，對(duì)每一幀圖像進(jìn)行人工標(biāo)注，分別標(biāo)注三句不同的描述，得到真值數(shù)據(jù)集。相應(yīng)的精度評(píng)定結(jié)果如表3 所示。

表3 本文提出算法和Neuraltalk2 的精度評(píng)定結(jié)果Tab.3 Evaluation results of this paper and Neuraltalk2

通過表3 可以看出，只有在Droplet-Ping-Pong 實(shí)驗(yàn)中，本文提出的算法在METEOR 指標(biāo)中略低于經(jīng)典圖像描述算法Neuraltalk2，其他實(shí)驗(yàn)中均高于Neuraltalk2。本文提出算法的ME?TEOR 結(jié)果平均為0.176 3，SPICE 結(jié)果平均為0.214，相對(duì)于Neuraltalk2 分別提升了0.088 5 和0.173 5，表明該算法可以對(duì)空間科學(xué)實(shí)驗(yàn)在句子連續(xù)性、準(zhǔn)確性、專業(yè)性方面均有明顯提升。

4 結(jié)論

針對(duì)空間科學(xué)實(shí)驗(yàn)小樣本和小目標(biāo)的問題，構(gòu)建空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)集，并提出了基于多模態(tài)學(xué)習(xí)的空間科學(xué)實(shí)驗(yàn)圖像描述算法，然后詳細(xì)介紹了該算法的流程，并進(jìn)行了實(shí)驗(yàn)驗(yàn)證和精度評(píng)定。實(shí)驗(yàn)結(jié)果證明：天宮二號(hào)擬南芥和水稻生長實(shí)驗(yàn)中，擬南芥的語義分割結(jié)果的區(qū)域相似度為0.882 2，輪廓相似度為0.966 4，水稻的語義分割結(jié)果的區(qū)域相似度為0.663 9，輪廓相似度為0.927 2；空間科學(xué)實(shí)驗(yàn)的圖像描述METEOR 結(jié)果平均為0.176 3，SPICE 結(jié)果平均為0.214，相對(duì)于經(jīng)典的Neuraltalk2 算法分別提升了0.088 5和0.173 5，可以對(duì)空間科學(xué)實(shí)驗(yàn)進(jìn)行專業(yè)性科學(xué)性的描述。實(shí)現(xiàn)了從低層次感知到深層場(chǎng)景理解的能力，智能化自動(dòng)解譯空間科學(xué)實(shí)驗(yàn)的場(chǎng)景。然而，空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)圖像描述目前是對(duì)單張圖像進(jìn)行圖像描述，缺乏對(duì)場(chǎng)景的連續(xù)性和變化性的感知。因此，后續(xù)的研究中考慮對(duì)視頻進(jìn)行描述，重點(diǎn)關(guān)注實(shí)驗(yàn)?zāi)繕?biāo)的生長、運(yùn)動(dòng)等變化趨勢(shì)，以此來感知整個(gè)實(shí)驗(yàn)過程，以實(shí)現(xiàn)對(duì)整個(gè)實(shí)驗(yàn)過程的理解。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放