于 寧,宋海玉,孫東洋,王鵬杰,姚金鑫
基于深度學習中間層卷積特征的圖像標注
于 寧1,宋海玉1,孫東洋2,王鵬杰1,姚金鑫1
(1. 大連民族大學計算機科學與工程學院,遼寧 大連 116600;2.安迅達盛醫(yī)療科技有限公司,北京 100020)
針對基于深度特征的圖像標注模型訓練復雜、時空開銷大的不足,提出一種由深度學習中間層特征表示圖像視覺特征、由正例樣本均值向量表示語義概念的圖像標注方法。首先,通過預訓練深度學習模型的中間層直接輸出卷積結果作為低層視覺特征,并采用稀疏編碼方式表示圖像;然后,采用正例均值向量法為每個文本詞匯構造視覺特征向量,從而構造出文本詞匯的視覺特征向量庫;最后,計算測試圖像與所有文本詞匯的視覺特征向量相似度,并取相似度最大的若干詞匯作為標注詞。多個數(shù)據(jù)集上的實驗證明了所提出方法的有效性,就1值而言,該方法在IAPR TC-12數(shù)據(jù)集上的標注性能比采用端到端深度特征的2PKNN和JEC分別提高32%和60%。
深度學習;圖像標注;卷積;正例均值向量;特征向量
近20年來,自動圖像標注一直是計算機視覺領域研究熱點。圖像標注的效果主要取決于標注模型和視覺特征向量,其中,視覺特征向量質量決定著圖像標注質量的上限。近年來,隨著圖像標注模型越來越成熟,視覺特征向量已經(jīng)成為圖像標注效果的決定性因素。2012年之前,計算機視覺領域的圖像特征均為領域專家設計的人工特征,人工特征質量主要取決于專家的領域知識和經(jīng)驗,在復雜的計算機視覺應用中,人工特征很難提取出高質量的特征向量[1]。
2012年,Alex和Hinton構建了基于卷積神經(jīng)網(wǎng)絡的深度學習模型AlexNet[2],在ImageNet圖像分類比賽中以壓倒性的優(yōu)勢奪取了冠軍,自此開啟了深度學習時代。此后研究者們在AlexNet的基礎上提出了許多優(yōu)秀的網(wǎng)絡模型,如:VGG[3],GoogleNet[4],ResNet[5]等。深度學習特征是一個端到端的特征提取過程,不需要人工參與。對于圖像特征提取而言,輸入端輸入原始圖像,通過復雜的模型訓練后,在輸出端直接輸出高質量的深度特征?;诟哔|量的端到端特征向量,深度學習在圖像分類領域取得了突破性進展,并被嘗試應用于很多領域[1]。
深度學習之所以可以取得突破性進展,很大程度上取決于其復雜的網(wǎng)絡結構。為了取得較好的效果,深度學習網(wǎng)絡結構設計越來越復雜,層數(shù)越來越深。然而數(shù)以百萬計、千萬計參數(shù)的模型訓練不僅需要海量的訓練樣本支撐,而且需要巨大的時間開銷以及較高的硬件配置,這些因素限制了深度學習的應用,例如2012年所提出的AlexNet網(wǎng)絡模型共有6 100萬參數(shù)[2],此后提出的VGG-16模型參數(shù)有1.38億[3]。在訓練樣本充足的情況下,模型訓練充分,復雜的深度學習可以取得預期效果。但事實上,大多數(shù)應用很難提供充足的訓練樣本,往往會造成模型過擬合等,從而使得模型訓練質量較差。針對以上缺點,相關學者提出了一些解決方法,比如基于預訓練模型進行微調訓練并應用于復雜的標注算法等等。盡管取得了較好的標注效果,但是依然沒有提取適合于圖像標注的高質量的深度特征。
2014年,Caffe的設計者賈揚清團隊率先將深度學習應用于圖像標注[6],此后,越來越多的學者基于深度學習技術開展圖像標注的研究。表1為基于深度學習的圖像標注模型與傳統(tǒng)標注模型的效果對比,實驗數(shù)據(jù)集均為Corel5K。
表1 基于深度學習的標注模型與傳統(tǒng)標注模型的效果對比(Corel5k)
由表1可以看出,深度學習方法相對于傳統(tǒng)的圖像標注方法,效果雖然有所提升但是并不顯著,特別是當網(wǎng)絡模型較復雜時(例如VGG-16網(wǎng)絡),標注性能甚至會降低。主要原因是小規(guī)模圖像數(shù)據(jù)無法滿足復雜網(wǎng)絡結構模型的訓練。如果沒有足夠訓練數(shù)據(jù)支撐,由于過擬合等原因,復雜的網(wǎng)絡模型并不能取得理想的標注效果,甚至越是復雜的網(wǎng)絡結構的深度學習模型其標注性能越差。同時該深度學習訓練方法需要巨大的時間開銷以及較高的硬件配置。針對以上不足,OQUAB等[10]提出了遷移學習的方法。將遷移學習應用于圖像標注的效果有了較好地提升,但是訓練過程時空開銷仍然較大并且需要較高的硬件配置。
盡管理論上很多深度學習模型有很好的理論基礎和科學的網(wǎng)絡結構,但如果沒有足夠訓練數(shù)據(jù)支撐,復雜的網(wǎng)絡模型并不能取得理想的標注效果,同時深度模型訓練所需的巨大的時空開銷和較高的硬件配置使得其應用受到限制。因此相關學者將研究重心轉向更為復雜的標注算法或更優(yōu)質的特征表示,例如將深度特征與其他特征融合進行圖像標注。
目前,圍繞深度學習開展圖像標注的研究主要分3類:①設計新的網(wǎng)絡結構或改進已有模型,通過修改損失函數(shù)、輸出類別個數(shù)等方法,使用目標數(shù)據(jù)集進行訓練,使得原有模型適合圖像標注[11-12]。②基于預訓練模型的微調型,僅修改在較大數(shù)據(jù)集上已訓練好的網(wǎng)絡模型的全連接層和輸出層使其適應目標數(shù)據(jù)集,而其他網(wǎng)絡結構和參數(shù)保持不變,即在現(xiàn)有網(wǎng)絡權重的基礎上對網(wǎng)絡進行微調,如文獻[10]提出的遷移學習方法等。③直接使用預訓練模型完成目標數(shù)據(jù)集的特征提取,然后再使用其他復雜算法完成標注,或把深度特征與其他特征融合進行圖像標注;文獻[13]提出圖像標注模型CMRM和MBRM,將深度學習特征應用于JEC、2PKNN等復雜標注算法,并取得了較好的標注效果,主要原因是后續(xù)的復雜標注模型或多種特征融合。依然沒有解決在數(shù)據(jù)集較小的情況下,如何提取適合于圖像標注的高質量深度特征,以及如何設計高效的標注模型。為此,本文試圖在資源受限、數(shù)據(jù)量不足的情況下,提取高質量的深度特征,并提出有針對性的圖像標注模型。
目前,深度學習模型所提取的端到端特征可以視為是圖像的全局特征,該方法在圖像分類領域取得極大成功,但在圖像標注領域并未取得顯著成果。在基于深度學習的圖像分類中,將僅使用模型末端輸出層的全局特征,而忽略中間層的輸出特征,稱為端到端模型。然而深度學習模型在對圖像特征進行層層抽象時,每層都有其自身價值,因感受野不同,提取的特征所描述范圍不同,網(wǎng)絡模型末端的全連接層刻畫的是圖像的全局視覺特征,而中間層刻畫的是圖像的區(qū)域或局部特征。深度學習中間層卷積核感受野小,但個數(shù)多,中間層卷積核更容易捕獲局部或區(qū)域特征,因此,中間層特征更善于刻畫多對象或復雜圖像中的對象特征。而且,直接提取中間層特征可以避免深度學習全連接層較高的時空開銷。本文提取了深度學習的中間卷積層特征,通過稀疏編碼的方式生成圖像的特征向量。特征生成過程如下:
(1) 提取預訓練深度學習模型的中間層輸出特征,即∈(K×W×H),其中為特征圖的個數(shù),和分別為特征圖的寬和高。然后對特征進行規(guī)格化并轉換為二維特征矩陣,表示為(W×H, K)。
(2) 對原始特征進行高斯規(guī)格化處理,并將數(shù)據(jù)應用主成分分析(principal component analysis, PCA)進行約減。此時卷積特征用F(W×H, n)表示,其中代表約減后的維度。
(3) 將降維后的數(shù)據(jù)進行K-means聚類,構造個視覺詞匯。根據(jù)視覺詞袋原理,每幅圖像表示為維的詞袋向量。
(4) 利用獲取到的聚類中心點將卷積特征進行(vector of locally aggregated descriptors, VLAD)編碼[14]轉換為圖像的視覺特征向量,即
其中,為圖塊特征;[1,2,···,]為聚類中心點;()為離最近的聚類中心。
人工特征向量往往是底層視覺的統(tǒng)計量等,其視覺模式不顯著,語義級別較低,因此,基于人工特征向量的圖像分類/標注模型往往較抽象、算法較復雜、時空代價較大。與傳統(tǒng)的人工特征相比,深度學習中間層特征視覺模式顯著、語義級別較高,采用視覺詞典等稀疏編碼方式后,其視覺和語義刻畫能力較強。如果能為每個文本詞匯構造視覺特征向量,那么,傳統(tǒng)的圖像標注問題中計算詞匯隸屬于圖像的置信度問題就轉換為計算2個視覺特征向量(文本詞匯視覺特征向量和圖像視覺特征向量)的相似度問題了。基于此種文本詞匯視覺特征向量標注方法的時空開銷非常小,且與訓練數(shù)據(jù)集規(guī)模無關。與傳統(tǒng)方法相比,更能夠勝任處理大規(guī)模數(shù)據(jù)集。
本文提出的圖像標注方法的系統(tǒng)結構如圖1所示。在訓練階段,提取所有訓練圖像的深度特征并形成VLAD向量,從而構成圖像視覺特征圖庫,采用正例樣本均值向量法為每個文本詞匯構造能代表其最本質視覺信息的視覺特征向量,從而構成包含所有詞匯對應特征的正例均值向量詞庫。在標注(測試)階段,在線提取該測試圖像的特征向量并生成其VLAD向量,測試圖像的VLAD特征向量逐一與正例均值向量詞庫中各個詞匯的正例均值向量計算視覺相似度,最終,排序選擇相似度最大特征向量所對應的文本語義詞匯作為該測試圖像的標注詞匯。
圖1 圖像標注的系統(tǒng)結構圖
在傳統(tǒng)的視覺詞典表示方法中,若有個視覺詞匯,相當于在視覺詞典中構造一個維的視覺特征空間,每個圖像都是該空間中的一個對象,因此可以由個基底特征向量線性表示。從語義角度看,每幅圖像可以視為若干個文本概念的組合,如果每個文本概念均可以表示為視覺特征空間中的特征向量,那么任一圖像的視覺特征向量可以視為若干個文本語義詞匯對應視覺特征向量的線性和,即
其中,系數(shù)a為布爾型,若圖像中有對應詞匯則為1,否則為0;為詞匯w的視覺特征向量。
當已知圖像特征向量以及其所包含的詞匯信息時,可以根據(jù)矩陣知識求出每個文本詞匯的視覺向量。但該方程組求解存在如下困難:①理想情況下,所有語義對象的特征向量都是線性無關的,其可以作為該語義空間的基底向量,但事實上,不同概念之間會有相關視覺模式,因此,這一假設很難嚴格成立;②大多數(shù)圖像數(shù)據(jù)集詞匯分布不均衡,一些低頻詞匯對應的圖像個數(shù)遠低于向量維數(shù);③當特征向量維數(shù)較高時,求解的時空復雜度過高。因此,很難采用傳統(tǒng)的矩陣方法或機器學習方法求解。
針對深度學習中間層特征的區(qū)域或局部調整描述能力強、區(qū)分度大,且具有一定語義刻畫能力,本文提出一種基于正例樣本均值向量的快速標注方法。盡管無法直接對方程式求解,但針對深度學習中間層特征的特點,任一文本詞匯的特征向量可由包含該詞匯的所有圖像特征向量的均值近似表示。以詞匯w為例,若有幅圖像包含這個詞匯,則幅圖像均由語義概念特征向量表示,即方程為
本文提出詞匯w的視覺特征向量可由包含該詞匯正例樣本均值向量近似表示,即
其中,為圖像的特征向量;為詞匯w的正例圖像集合,正例圖像集合是指包含該詞匯的所有圖像的集合;為正例圖像個數(shù)。將式(3)代入式(4),得到正例樣本均值向量,即
基于正例均值向量的標注過程是,詞庫中所有詞匯的視覺特征向量均與待標注圖像的視覺特征向量計算相似度,取視覺相似度最大的若干詞匯作為圖像的標注詞。相似度距離采用L2距離,即
為了準確、客觀地比較并評價本文方法的各項性能,實驗數(shù)據(jù)集采用經(jīng)典數(shù)據(jù)集Corel5k和IAPR TC-12,這2個數(shù)據(jù)集是圖像標注領域最常用的實驗數(shù)據(jù)集,已經(jīng)成為事實上的標準數(shù)據(jù)集[1]。Corel5k數(shù)據(jù)集規(guī)模較小,包括4 500幅訓練圖像、500幅測試圖像,共包含260個語義概念;IAPR TC-12數(shù)據(jù)集規(guī)模較大,共有19 623幅圖像,其中訓練圖像17 663幅,測試圖像1 960幅,數(shù)據(jù)集內共包含291個語義概念。實驗平臺為64位Windows7操作系統(tǒng),硬件配置為3.60 GHz的i7-3790 CPU、NVIDA GeForce GTX 1080的顯卡、28 GB內存,軟件環(huán)境為Matlab2016a。
性能評價指標采用圖像標注領域最廣泛的查準率(precision)、查全率(recall)、1值(1-score)和N+[1]。給定詞匯w的查準率、查全率和1值的計算式為
其中,為正確標注詞匯w的圖像個數(shù);為錯誤標注詞匯w的圖像個數(shù);為數(shù)據(jù)集中含有標注詞w的圖像個數(shù)。對數(shù)據(jù)集中所有詞匯分別計算查準率、查全率和1,最后計算所有詞匯查準率和查全率的平均值作為系統(tǒng)整體評價。N+為標注結果中所能標注出的詞匯個數(shù),即標注詞出現(xiàn)次數(shù)大于零的詞匯個數(shù),作為正確標注詞匯多樣性的評價指標。各項指標數(shù)值越高標注性能越好,理論上,查準率、查全率和1性能上限可以接近于100%,N+可以接近于數(shù)據(jù)集中詞匯個數(shù)。
為了客觀評價本文所提取的深度學習中間卷積層特征的性能,將實驗的結果與使用傳統(tǒng)人工特征經(jīng)典圖像標注模型(MBRM模型、JEC模型)以及將深度學習特征應用于JEC、2PKNN等復雜標注算法[13]的結果進行了比較。與文獻[13]中深度學習網(wǎng)絡模型相同,本文采用VGG-16網(wǎng)絡,根據(jù)網(wǎng)絡結構及卷積核等信息,選用Conv5-2層數(shù)據(jù)作為圖像的局部特征信息。預訓練數(shù)據(jù)集為ILSVRC-2012[15]。在較小規(guī)模數(shù)據(jù)集Corel5k和較大規(guī)模數(shù)據(jù)集IAPR TC-12上完成的實驗結果分別見表2和表3。
表2 本文方法與其他方法實驗結果性能對比(Corel5k)
表3 本文方法與其他方法實驗結果性能對比(IAPR TC-12)
表2和表3實驗結果表明,無論是在較小規(guī)模數(shù)據(jù)集Corel5k,還是在較大數(shù)據(jù)集IAPR TC-12中,本文所提出方法主要性能指標不僅優(yōu)于采用人工特征的標注模型MBRM和JEC,也優(yōu)于使用深度學習端到端特征的標注模型JEC和2PKNN。表2實驗結果表明本文所提出方法標注效果略優(yōu)于其他方法,主要是因為Corel5k數(shù)據(jù)集中語義詞匯出現(xiàn)頻次很不均衡,最高頻次和最低頻次的詞匯出現(xiàn)次數(shù)分別是1 004次和1次。而表3表明在IAPR TC-12中本文所提出方法除N+略低于2PKNN外,其他指標明顯優(yōu)于其他方法,綜合評價指標1值分別比MBRM、JEC (人工特征)、JEC (深度特征)、2PKNN (深度特征)提升了63%、35%、60%、32%。這印證了,式(4)和式(5)中的推理,圖像數(shù)據(jù)集規(guī)模越大,所構造的越接近于目標詞匯w的特征向量。因此,采用該方法所完成的圖像標注效果越好。
由于2PKNN和JEC涉及的多種人工特征模型復雜度較高,現(xiàn)有相關資料中均未給出這些特征的時間開銷,且模型較復雜,實驗環(huán)節(jié)未能在同一環(huán)境下完成對比實驗,因此表2和表3僅對比了這些算法的標注效果,而沒有列出時間開銷。但理論上,此類算法的時間復雜度、空間復雜度均大于本文所提出的方法。本文所提出方法無需訓練深度學習模型,Corel5k測試圖像數(shù)據(jù)集特征提取時間為55 s,而傳統(tǒng)的端到端的深度學習微調方法模型訓練時間是8 h,測試圖像數(shù)據(jù)特征提取時間為70 s。在較大規(guī)模數(shù)據(jù)集IAPR TC-12中,本文方法測試圖像特征提取時間為330 s,而傳統(tǒng)的端到端的深度學習微調方法模型訓練時間是10 h,測試圖像數(shù)據(jù)特征提取時間為360 s。若測試圖像個數(shù)為、訓練圖像個數(shù)為、數(shù)據(jù)集中所包含詞匯個數(shù)為,JEC和2PKNN時間復雜度為O(),而本文方法時間復雜度為O(),由于數(shù)據(jù)集中訓練圖像個數(shù)遠大于詞匯個數(shù),因此,標注階段本文所提出方法的時間開銷也明顯低于JEC和2PKNN,遠低于MBRM等標注模型。
本文所采用的VGG-16模型預訓練所用的ImageNet數(shù)據(jù)集,以及圖像標注領域最常用的圖像數(shù)據(jù)集Corel5k和IAPR TC12均為自然場景領域圖像,為了驗證所提出方法對領域遷移的適應性,在ESP Game數(shù)據(jù)集上完成了圖像標注實驗。ESP Game數(shù)據(jù)集是雙人游戲圖像數(shù)據(jù),與自然場景數(shù)據(jù)集ImageNet屬于完全不同的領域。該數(shù)據(jù)集共有20 770幅圖像,其中訓練圖像18 689幅,測試圖像2 981幅,數(shù)據(jù)集內共包含268個語義概念。相同實驗方法下,在ESP Game數(shù)據(jù)集上完成的實驗結果見表4。實驗結果表明,在其他領域的圖像數(shù)據(jù)集上,本文方法的標注性能也優(yōu)于其他方法,說明本文方法對領域遷移有較強的適應性。
表4 本文方法與其他方法實驗結果性能對比(ESP Game)
深度學習是近年來的研究熱點,但模型訓練所要求的數(shù)據(jù)門檻和系統(tǒng)配置都比較高,制約了深度學習的應用。本文根據(jù)深度學習模型中間層視覺特征模式的通用性,采用提取深度學習中間層卷積特征的方法,并在此基礎之上提出了基于正例均值的圖像標注方法。與傳統(tǒng)的依賴于大規(guī)模數(shù)據(jù)模型訓練的端到端深度特征相比,本文所采用的基于深度學習中間層卷積特征提取方法,無需大規(guī)模數(shù)據(jù)集訓練模型,降低了深度特征的數(shù)據(jù)和硬件門檻、擴大了深度學習應用范圍;所提出的標注方法時空開銷較小,更適合于大規(guī)模數(shù)據(jù)集的處理和在線標注。此外,由于測試圖像的最終標注詞匯主要取決于文本詞匯的視覺特征向量,而不是訓練圖像的特征向量,所以,本文所提出的方法也有助于緩解訓練數(shù)據(jù)類別不均衡的難題。
[1] CHENG Q M, ZHANG Q, FU P, et al. A survey and analysis on automatic image annotation [J]. Pattern Recognition, 2018, 79: 242-259.
[2] 張順, 龔怡宏, 王進軍. 深度卷積神經(jīng)網(wǎng)絡的發(fā)展及其在計算機視覺領域的應用[J]. 計算機學報, 2019, 42(3): 453-482.
[3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). [2018-09-11]. https://arxiv.org/pdf/1409.1556.pdf.
[4] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]//Proceedings of the 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.
[5] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]//Proceedings of the 2016 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[6] GONG Y C, JIA Y Q, LEUNG T K, et al. Deep convolutional ranking for multilabel image annotation [EB/OL]. (2014-04-14). [2018-11-14]. https://arxiv. org/pdf/1312.4894v2.pdf.
[7] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation [C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2004: 1002-1009.
[8] MAKADIA A, PAVLOVIC V, KUMAR S. A new baseline for image annotation [C]//Proceedings of the 10th European Conference on Computer Vision. Heidelberg: Springer, 2008: 316-329.
[9] 羅世操. 基于深度學習的圖像語義提取與圖像檢索技術研究[D]. 上海: 東華大學, 2016: 55.
[10] OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks [C]//Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2014: 1717-1724.
[11] JOHNSON J, BALLAN L, LI F F. Love thy neighbors: Image annotation by exploiting image metadata [C]// Proceedings of the 2015 IEEE Computer Society International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4624-4632.
[12] 黎健成, 袁春, 宋友. 基于卷積神經(jīng)網(wǎng)絡的多標簽圖像自動標注[J]. 計算機科學, 2016, 43(7): 41-45.
[13] MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations [C]// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. New York: ACM Press, 2015: 603-606.
[14] NG J Y H, YANG F, DAVIS L S. Exploiting local features from deep networks for image retrieval [C]// Proceedings of the 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVRPW). New York: IEEE Press, 2015: 53-61.
[15] 田萱, 王亮, 丁琪. 基于深度學習的圖像語義分割方法綜述[J]. 軟件學報, 2019, 30(2): 440-468.
Image Annotation Based on Middle-Layer Convolution Features of Deep Learning
YU Ning1, SONG Hai-yu1, SUN Dong-yang2, WANG Peng-jie1, YAO Jin-xin1
(1. College of Computer Science and Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China; 2. Anxundasheng Medical Technology Company, Beijing 100020, China)
Image annotation based on deep features always requires complex model training and huge space-time cost. To overcome these shortcomings, an efficient and effective approach was proposed, whose visual feature was described by middle-level features of deep learning and semantic concept was represented by mean vector of positive samples. Firstly, the convolution result is directly outputted as the low-level visual feature by the middle layer of the pre-training deep learning model, and the sparse coding method was used to represent image. Then, visual feature vector was constructed for each textual word by the mean vector method of positive samples, and the visual feature vector database of the text vocabulary was constructed. Finally, the similarities of visual feature vectors between test image and all textual words were computed, and some words with largest similarities were selected as annotation words. The experimental results on several datasets demonstrate the effectiveness of the proposed method. In terms of1-measure, the experimental results on IAPR TC-12 dataset show that the performance of the proposed method was improved by 32% and 60% respectively, compared to 2PKNN and JEC with end-to-end deep features.
deep learning; image annotation; convolution; mean vector of positive sample; feature vector
TP 391
10.11996/JG.j.2095-302X.2019050872
A
2095-302X(2019)05-0872-06
2019-07-31;
2019-08-22
國家自然科學基金項目(61300089);遼寧省自然科學基金項目(201602199,2019-ZD-0182);遼寧省高等學校創(chuàng)新人才支持計劃項目(LR2016071)
于 寧(1995-),女,內蒙古呼倫貝爾人,碩士研究生。主要研究方向為圖像理解、機器學習等。E-mail:877213412@qq.com
宋海玉(1971-),男,河南安陽人,副教授,博士,碩士生導師。主要研究方向為圖像理解、計算機視覺等。E-mail:shy@dlnu.edu.cn