亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)應(yīng)用于目標檢測中失衡問題研究綜述

        2022-09-15 10:27:22吳艷霞梁鵬舉
        計算機與生活 2022年9期
        關(guān)鍵詞:分類特征優(yōu)化

        任 寧,付 巖+,吳艷霞,梁鵬舉,韓 希

        1.哈爾濱工程大學(xué),哈爾濱 150001

        2.黑龍江省自然資源技術(shù)保障中心,哈爾濱 150030

        目標檢測是提取圖片或者視頻等數(shù)據(jù)特征去定位目標位置并進行準確分類,這是計算機視覺中的基本問題之一,并且在安全監(jiān)控、自動駕駛、醫(yī)療決策、遙感等領(lǐng)域有廣泛應(yīng)用。

        目標檢測算法主要分類為:基于階段的檢測方案、是否采用錨的檢測方案和基于標簽的檢測方案。盡管三類方法在深度學(xué)習(xí)的目標檢測方面都很實用,但近幾年大多數(shù)的目標檢測方法都普遍存在失衡問題。其中基于階段的檢測方案中單階段檢測器出現(xiàn)的失衡問題較為嚴重,雙階段和多階段相對穩(wěn)定。Anchor-base的方法主要代表有SSD(single shot multibox detector)、RetinaNet等,造成失衡問題的主要原因是錨框?qū)?yīng)的參數(shù)長寬比、空間特征信息和IoU 的微小變化會直接影響檢測效果。Anchorfree的方法是近幾年才提出的,典型的代表作是YOLO(you only look once)變種,主要特點是快速且魯棒,但是由于追求檢測速度導(dǎo)致的失衡問題也隨之而來?;跇撕灥臋z測方案分為region proposal-based、author-IOU 和keypoint-based,其中region proposalbased 的檢測方法核心思想是將依賴離線的算法工具直接嵌入到傳統(tǒng)算法中,加快了檢測速度,但是直接造成了均衡問題;author-IoU 的方案是巧妙地在訓(xùn)練過程中動態(tài)設(shè)置樣本來篩選閾值去分配正樣本優(yōu)化IoU 對實例本身的不敏感問題;keypoint-based 的出現(xiàn)直接替換了anchor預(yù)設(shè)框的概念,用點代替框的同時也造成嚴重的均衡問題。

        應(yīng)用深度學(xué)習(xí)的目標檢測綜述,Litjens 等人討論了各種應(yīng)用深度神經(jīng)網(wǎng)絡(luò)的方法,如分類、檢測、分割在醫(yī)學(xué)圖像分析中的應(yīng)用。Johnson 等人僅考慮機器學(xué)習(xí)方法,未特別關(guān)注基于深度學(xué)習(xí)的方法。董文軒等人以時間和算法架構(gòu)為研究主線,綜述了近年來基于深度卷積的目標檢測代表性算法的研究和發(fā)展歷程。李柯泉等人介紹了圖像目標檢測模型中常用的卷積神經(jīng)網(wǎng)絡(luò),從候選區(qū)域、回歸和anchor-free 方法的角度對現(xiàn)有經(jīng)典的圖像目標檢測模型進行綜述。但以上文章并未提到目標檢測失衡問題。

        近幾年關(guān)于目標檢測失衡的綜述主要介紹應(yīng)用深度學(xué)習(xí)的通用目標檢測發(fā)展過程。綜述提出了一個分類法,用于正輸入邊界框的對象IoU 分布整個圖像中對象的位置不同任務(wù)(即分類、回歸)對整體損失檢測方法的貢獻,并詳細分析典型優(yōu)化方法。其中,Zou 等人對處理規(guī)模失衡的方法進行了辯證分析。程旭等人總結(jié)了深度學(xué)習(xí)中區(qū)域提案和單階段基準檢測模型。并從特征圖、上下文模型、邊框優(yōu)化、區(qū)域提案、類別不平衡處理、訓(xùn)練策略、弱監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)這八個角度分類總結(jié)當(dāng)前主流的目標檢測模型。但是僅僅討論了類別失衡問題,并且未深度解析產(chǎn)生的原因。Dollar 等人對處理尺度失衡的特征提取方法進行了全面分析。張偉針對目標檢測尺度失衡問題進行全面分析和歸納,總結(jié)引起尺度不平衡的原因,針對每種原因分析解決方案。然而從失衡的角度,以上綜述只分析了一類或者其中一種失衡問題。與這些綜述不同的是,本文應(yīng)用深度學(xué)習(xí)模型剖析目標檢測失衡的每一類問題在模型中產(chǎn)生的原因,并對優(yōu)化失衡問題的方法進行全面對比分析。

        目前針對目標檢測的深度學(xué)習(xí)技術(shù)綜述相對較多,但針對目標檢測失衡問題的綜述論文涉及較少或者簡單介紹其中的一類。然而失衡問題發(fā)生在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的每一個環(huán)節(jié)并且每一個微小的變化都會產(chǎn)生意想不到的影響,因此目標檢測中的失衡問題一直是困擾研究人員進一步優(yōu)化檢測器需要解決的核心問題之一。本文的目標是全面介紹目標檢測中的失衡問題,剖析問題產(chǎn)生的原因并將問題根據(jù)產(chǎn)生原因進行分類,總結(jié)主要優(yōu)化方案,分析優(yōu)化策略的對比結(jié)果,最后展望此領(lǐng)域未來的研究方向。

        1 目標檢測失衡問題

        近年來深度學(xué)習(xí)應(yīng)用于目標檢測算法取得了顯著成果。最常用的檢測算法主要分為兩個方向:一是基于Region Proposal 的雙階段算法(R-CNN、Fast R-CNN、Faster R-CNN);另一類是YOLO 和SSD 系列的單階段算法。圖1(a)展示了單階段網(wǎng)絡(luò)的訓(xùn)練流程示例圖,首先將圖像輸入到深度卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,得到一組密集的假設(shè)錨,然后將假設(shè)錨與真實數(shù)據(jù)框匹配和采樣,最后將以上輸出反饋給分類和回歸網(wǎng)絡(luò)進行訓(xùn)練。與單階段不同的是,在雙階段中第一階段做前景-背景分類和候選區(qū)域回歸,第二階段是特征提取和候選區(qū)域篩選、精確和再分類。由于單階段中刪去RPN(region proposal network)操作,雙階段存在的失衡問題在單階段中更為突出。當(dāng)然,無論是單階段還是雙階段檢測方案均需要訓(xùn)練神經(jīng)網(wǎng)絡(luò)達到實驗效果。

        圖1 失衡問題示例圖Fig.1 Example diagram of imbalance problem

        如圖1(b)展示訓(xùn)練的四個環(huán)節(jié)存在的四類目標檢測失衡問題,從上到下為數(shù)據(jù)失衡、尺度失衡、相對空間失衡和分類與回歸失衡。其中數(shù)據(jù)失衡包括:前景/背景失衡、前景/前景失衡、類別標簽失衡、長尾數(shù)據(jù)失衡。尺度失衡包括:目標實例/邊界框失衡、特征失衡。相對空間失衡包括:回歸損失失衡、目標位置失衡。

        2 失衡問題分類

        2.1 數(shù)據(jù)失衡

        數(shù)據(jù)失衡是指在一個數(shù)據(jù)集中類別數(shù)量分布直接導(dǎo)致數(shù)據(jù)特征偏移形成的分布失衡。主要分為四種:前景/背景失衡、前景/前景失衡、類別標簽失衡和長尾數(shù)據(jù)失衡。

        (1)前景/背景失衡

        前景/背景失衡中背景類是過度代表類,前景類是不足代表類。此類問題是由邊界框匹配和標記模塊邊界框過多被標記為背景(負類)導(dǎo)致訓(xùn)練過程出現(xiàn)前景/背景失衡,因為它不包含任何背景標注,所以它不依賴于數(shù)據(jù)集中每一類的實例數(shù)量。

        可以將前景/背景類失衡的解決方案分為四種:硬采樣方法、軟采樣方法、無采樣方法和生成方法。

        (2)前景/前景失衡

        在前景/前景類失衡中,過度代表類和不足代表類都是前景類。根據(jù)問題的起因可以分為兩種:數(shù)據(jù)集和批處理。數(shù)據(jù)集引起的前景/前景失衡是由于目標存在不同性質(zhì),在數(shù)據(jù)集中會出現(xiàn)目標類之間的失衡。通過直接生成人工樣本并將其插值到訓(xùn)練數(shù)據(jù)集中的生成方法可解決此類問題。批處理引起的數(shù)據(jù)失衡是指不同的類在一個批次中的分布不均勻?qū)е履P驮谟?xùn)練期間偏向于代表性過強的類而忽略了代表性不足的類。針對批處理引起的失衡問題,OFB(online foreground balanced)表明通過給每個待采樣邊界框分配概率,可以在批處理級別上解決前景/前景類失衡問題,使得批處理中不同類的分布均勻。同理,該方法旨在提升抽樣過程中正樣本數(shù)量較少的類。

        (3)類別標簽失衡

        類別標簽失衡主要是發(fā)生在半監(jiān)督學(xué)習(xí)的訓(xùn)練中,是由訓(xùn)練過程中參數(shù)的更新過度依賴固定閾值來計算無監(jiān)督損失導(dǎo)致的,僅用預(yù)測置信度高于閾值的未標記數(shù)據(jù)造成標簽之間的失衡從而影響檢測結(jié)果。主要分類是標簽內(nèi)失衡、標簽間失衡和標簽集失衡。

        目前的解決方案分為重采樣、分類器自適應(yīng)和集成方法。

        (4)長尾數(shù)據(jù)失衡

        長尾數(shù)據(jù)失衡是指在訓(xùn)練樣本中,其中頭部有大量的樣本點,但尾部僅有少部分樣本,如圖2 所示。這種訓(xùn)練樣本級的類失衡導(dǎo)致深度學(xué)習(xí)模型的識別和分類表現(xiàn)不佳。目前的研究方案分為以下三類:類-再平衡、信息增強和模型改進。

        圖2 長尾數(shù)據(jù)標簽分布Fig.2 Label distribution of long-tail data

        2.2 尺度失衡

        尺度失衡是目標檢測對象與預(yù)測邊界框的尺度之間的失衡。主要分為以下兩種:目標實例/邊界框失衡和特征失衡。

        (1)目標實例/邊界框失衡

        當(dāng)部分大小的目標或輸入邊界框在數(shù)據(jù)集中過度表示時會導(dǎo)致尺寸失衡。已經(jīng)證明,這會影響估計ROIs 的尺寸和整體檢測性能。He 等人提出了邊界框?qū)δ繕藱z測結(jié)果的直接影響分為圖3 中的四種情況。

        圖3 邊界框示例圖Fig.3 Example diagram of boundary box

        圖3(a)(c)中的邊界框標記不準確;(b)有遮擋物導(dǎo)致的標記偏差;(d)圖像中待檢測物體邊界模糊。以上幾個問題會直接導(dǎo)致目標檢測的分類和定位偏差。

        深度學(xué)習(xí)應(yīng)用于目標檢測的檢測器時存在一個缺陷是依賴于主干卷積神經(jīng)網(wǎng)絡(luò),預(yù)先訓(xùn)練圖像分類任務(wù)以便從輸入圖像中提取視覺特征。Henderson等人提出一種專門為目標檢測任務(wù)而設(shè)計的主干網(wǎng)絡(luò),通過限制高層特征的空間降采樣率,減小此類問題對檢測結(jié)果帶來的影響。

        (2)特征失衡

        主干網(wǎng)絡(luò)的特征集在低特征和高特征層之間進行平衡,才能得到一致的預(yù)測結(jié)果。傳統(tǒng)的FPN(feature pyramid network)系統(tǒng)架構(gòu)如圖4 所示,2 層自下而上通過低級特征的5 層特征金字塔,然而2和2 層直接集成層,導(dǎo)致2 和5 層中的高級和低級特性的效果是不同的。

        圖4 特征失衡問題在FPN 中的體系結(jié)構(gòu)Fig.4 Architecture of feature imbalance problem in FPN

        解決FPN 架構(gòu)中的失衡問題的主要趨勢是從改進的自上而下特征層連接到新的架構(gòu),用新的架構(gòu)來解決特征失衡問題的方法分為兩大類:金字塔特征提取方法或主干特征提取方法。

        對于金字塔型代表方法是PANet(path aggregation network)。PANet 是第一個表明FPN 提取的特征可以進一步增強,采用自頂向下和自底向上的雙向融合骨干網(wǎng)絡(luò),提升預(yù)測掩碼的質(zhì)量。主干特征提取的代表方法是STDN(scale transferrable detection network),利用Dense-Net 塊提取主干特征的最后一個層特征生成金字塔特征。

        2.3 相對空間失衡

        相對空間失衡是由圖片大小、形狀、位置(相對于圖像或另一個框)和IoU(邊界框)的空間屬性的失衡造成的。在單階段檢測器分類與定位是并行的,因此空間失衡在單階段檢測器中愈加嚴重。例如,損失函數(shù)的選擇、位置的微小變化可能會導(dǎo)致回歸(局部化)損失的大幅變化。主要分為:回歸損失失衡和目標位置失衡。

        (1)回歸損失失衡

        回歸損失主要分為點回歸損失和邊框回歸損失(IoU 損失)。其中點回歸損失包含均方差損失、平均絕對誤差損失、Huber Loss 和分位數(shù)損失。邊框回歸損失包含IoU Loss、GIoU Loss、DIoU Loss、CIoU Loss、EIoU Loss 和Focal-EIoU Loss。其中最常見的回歸損失失衡是IoU 分布失衡。

        IoU 分布失衡是當(dāng)輸入邊界框呈傾斜的IoU 分布時,會觀察到IoU 分布失衡,回歸后退化的錨的比率逐漸向回歸器訓(xùn)練的閾值下降。另一方面,假陽性錨的比例正向增加,其中陽性錨被回歸變量丟失。R-CNN方法是第一個解決IoU 失衡的方法,直接最小化Anchor 和目標框之間的歸一化距離以達到更快的收斂速度。Multi-Region CNN和AttractioNet迭代地將相同的網(wǎng)絡(luò)應(yīng)用到邊界框達到均衡。另一個解決IoU 失衡的方法是HSD(hierarchical shot detector),在邊界框回歸之后運行分類器使分布更加均衡。

        (2)目標失衡

        目標失衡是由目標在整個圖像中的分布不勻?qū)е碌模壳暗纳疃葯z測器使用密集采樣錨作為滑動窗口分類器。大部分方法默認錨點在圖像中均勻分布,因此圖像中的每一部分都被認為具有相同的權(quán)重。另一方面,圖像中物體的不均勻分布導(dǎo)致物體位置存在失衡問題。主要解決方案是同時學(xué)習(xí)錨點的位置、尺度和長寬比屬性,針對不同的任務(wù)設(shè)計生成錨點,減少錨點的數(shù)量同時提高召回率。

        2.4 分類與回歸失衡

        目標檢測任務(wù)中包含分類任務(wù)和回歸任務(wù),分類的目的是目標識別,而回歸的任務(wù)是位置的回歸,實現(xiàn)目標定位。分類與回歸都是監(jiān)督學(xué)習(xí),對輸入的數(shù)據(jù)進行預(yù)測。其中分類的輸出結(jié)果是分散的,例如目標所屬的類別,貓、狗、熊等,最終的目的是得到一個決策面?;貧w的輸出結(jié)果是連續(xù)的目標值,最終目的是得到一個最優(yōu)擬合線。分類的分支任務(wù)是用來目標識別,回歸的分支任務(wù)是用來實現(xiàn)目標定位。

        分類與回歸失衡是指訓(xùn)練過程中目標(損失)功能被最小化。根據(jù)定義,目標檢測要同時解決分類和回歸任務(wù),如圖5(a)所示。然而不同的任務(wù)可能由以下情況導(dǎo)致失衡:(1)如果分類損失函數(shù)相較于回歸損失下降速度很快,會導(dǎo)致其中一個任務(wù)主導(dǎo)整個訓(xùn)練,如圖5(b)。(2)不同任務(wù)的損失函數(shù)范圍不同,導(dǎo)致了任務(wù)之間的失衡,如圖5(c)。(3)各個任務(wù)的訓(xùn)練成本不同直接影響任務(wù)的學(xué)習(xí)速度,從而影響訓(xùn)練結(jié)果,如圖5(d)。

        圖5 分類與回歸損失函數(shù)圖Fig.5 Classification and regression loss function diagram

        3 優(yōu)化策略

        3.1 數(shù)據(jù)失衡優(yōu)化策略

        數(shù)據(jù)失衡問題的優(yōu)化策略之一硬采樣,采用啟發(fā)式方法執(zhí)行,通過一組給定的標記BBs中選擇正負樣本示例的子集來解決失衡問題。雙階段算法中的硬采樣代表作是Faster R-CNN,通過預(yù)先定義的前景背景比例隨機檢測樣本,但這種方案忽視了難易樣本的區(qū)別。OHEM(online hard example mining)提出來一種考慮正負樣本損失值的方案。但是傾向于采樣更難的目標示例,而不是更容易的示例,導(dǎo)致難易樣本差距更大。S-OHEM(stratified online hard example mining for object detection)是基于OHEM的改進,根據(jù)loss 的分布抽樣訓(xùn)練樣本避免了僅使用高損失的樣本來更新模型參數(shù),卻引入額外超參數(shù)增加了訓(xùn)練成本。

        軟采樣方法的經(jīng)典之作是Focal Loss,它動態(tài)地給復(fù)雜例子分配權(quán)重,如下公式所示:

        在式(1)中,當(dāng)=0 時,F(xiàn)ocal Loss退化為香農(nóng)交叉熵損失。當(dāng)=2 時,體系結(jié)構(gòu)中復(fù)雜示例和簡單示例之間達到良好平衡狀態(tài)。Focal Loss針對的是難易樣本失衡問題,提出關(guān)注部分很少但很難被分類的樣本上,避免容易樣本在分類過程中主導(dǎo)檢測器的訓(xùn)練過程,設(shè)計出簡單的密集檢測器RetinaNet取得顯著成果。然而當(dāng)樣本中有離群點,即使模型已經(jīng)收斂了,F(xiàn)ocal Loss還是由于離群點導(dǎo)致判斷錯誤。因此梯度均衡機制GHM(gradient harmonized singlestage detector)出現(xiàn)了,提出計算梯度密度的倒數(shù)作為損失函數(shù)的權(quán)重分別引入到分類損失函數(shù)(GHMC)和邊框損失函數(shù)(GHM-R)。它抑制了容易產(chǎn)生的正、負梯度。與Focal Loss 的不同點是,GHM 運用一種基于計數(shù)的方法計算具有相似梯度范數(shù)的樣本數(shù)量,如果有許多具有相似梯度的樣本,則降低樣本的損失,如式(2)所示。

        式中,(BB)為梯度范數(shù)接近BB梯度范數(shù)的樣本個數(shù);為輸入邊界框的個數(shù)。GHM 方法預(yù)先假設(shè)簡單的例子是具有多相似梯度的示例。與其他方法的不同點是GHM 能夠證明不僅對類別耦合任務(wù)有效,也對回歸任務(wù)有效。

        2020 年P(guān)ISA(prime sample attention)提出新的研究角度,從樣本獨立性和平等性出發(fā),根據(jù)mAP測量的整體性能重新定義范式,更關(guān)注對檢測性能方面發(fā)揮關(guān)鍵作用的樣本,開發(fā)一種簡單有效的采樣和學(xué)習(xí)策略。提出了IoU-HLR 對小批量邊界框樣本的重要性進行排序優(yōu)化失衡問題。

        由于上述方案中超參數(shù)量不斷增加,無采樣方法應(yīng)運而生,代表方案是AP-Loss,直接根據(jù)最終的損失分類建模成一項排序任務(wù),并使用平均精度作為任務(wù)的損失函數(shù)減少超參數(shù)數(shù)量來平衡前景/背景類失衡問題。DR-Loss將前景/背景的置信度值分布推向決策邊界,優(yōu)化派生分布的期望進行排序代替原始示例,解決背景中困難樣本的問題,從而達到相對平衡的狀態(tài)。

        2021 年Chen 等人提出的無采樣機制是基于類別自適應(yīng)的思想。在研究中發(fā)現(xiàn)訓(xùn)練檢測器時不采用抽樣啟發(fā)式會直接導(dǎo)致檢測精度大幅度下降,而這種下降主要由于分類梯度失衡。因此Sampling-Free 通過初始化bias、引導(dǎo)損失函數(shù)權(quán)重和類別分數(shù)閾值自適應(yīng)來解決正負樣本失衡問題取得了顯著成效。然而與減少超參數(shù)量的初衷相悖。

        生成方法的主要思想是將人工生成的樣本注入到數(shù)據(jù)集中解決數(shù)據(jù)失衡問題,代表作是生成性對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)。優(yōu)勢是在訓(xùn)練過程中生成更難的樣本訓(xùn)練模型,得到更穩(wěn)定的模型。例如,TADS(task-aware data synthesis)是一種特定于任務(wù)的合成數(shù)據(jù)生成方法,通過評估目標分類器的優(yōu)缺點來產(chǎn)生有意義的訓(xùn)練樣本。合成器和目標網(wǎng)絡(luò)以對抗方式進行訓(xùn)練,其中每個網(wǎng)絡(luò)都以超越另一個的目標進行更新,優(yōu)化數(shù)據(jù)失衡問題。另一種研究方向是GA-RPN(guided anchoring region proposal network),一種新的anchor 生成方法。該方案通過圖像特征來指導(dǎo)生成anchor,運用CNN 預(yù)測anchor 的形狀和位置,生成稀疏而且形狀任意的anchor,并且設(shè)計Feature Adaption 模塊來修正特征圖使之與anchor 精確匹配,從基于anchor 的角度優(yōu)化失衡問題。

        此類方案的性能對比結(jié)果如表1 所示,可以總結(jié)為:(1)軟采樣方案中的PISA 在Faster R-CNN 上獲得最高AP 值41.5%,相對硬采樣中的MBS 提升了5.1個百分點;PISA 在RetinaNet 上取得40.4%的效果,相比無采樣方案的AP Loss提升了5.4個百分點。(2)生成方案中,在Fast R-CNN 上,GA-RPN 相比TADS 提升了7.4 個百分點。(3)四類方案中整體性能都處于上升趨勢,其中軟采樣方案和生成方案相對提升顯著。

        表1 前景/背景失衡優(yōu)化策略性能對比Table 1 Performance comparison of foregroundbackground class imbalance optimization strategies

        針對前景/前景失衡問題,Oksuz 等人開發(fā)了一種生成器pRoI Generator,根據(jù)IoU 分布自動生成RoI來模擬正樣本的采樣方式,平衡前景/前景失衡問題。實驗證明pRoI 在Pascal VOC 2007 數(shù)據(jù)集上獲得了77.8%的mAP。pRoI 應(yīng)用在Faster R-CNN 上在低IoU 下取得更好或者同等性能,同時也體現(xiàn)出該方案的局限性,在高IoU 下無優(yōu)勢。另一種方案是預(yù)先訓(xùn)練主干網(wǎng)絡(luò)的最后一層的特征做內(nèi)積,再構(gòu)建類之間的相似度度量,并分層分組來優(yōu)化數(shù)據(jù)集級前景類失衡。針對設(shè)計的層次樹中的每個節(jié)點,根據(jù)分類器的置信度得分來學(xué)習(xí)分類器。

        針對以上方案存在的問題,GraphSMOTE(graph synthetic minority oversampling techniques)在特征提取階段先用GNN(graph neural networks)學(xué)習(xí)Embedding,得到低維且稠密的特征避免引入域外噪音,且能夠同時編碼節(jié)點特征和圖結(jié)構(gòu)。然后生成合成節(jié)點,將生成的結(jié)果輸入到GNN 分類器最終進行端到端的訓(xùn)練。該模型構(gòu)造一個嵌入空間來編碼節(jié)點之間的相似性,從未生成新樣本,具備良好的可擴展性。

        2022 年Hou 等人提出新的研究方向,從Batch內(nèi)失衡的角度解決失衡問題,設(shè)計批量轉(zhuǎn)換在訓(xùn)練期間隱式探索樣本關(guān)系,實現(xiàn)不同樣本間的協(xié)作關(guān)系,同時將BatchFormer 設(shè)計成即插即用模式,在測試期間將其刪除,來減少時間消耗。實驗表明Batch-Former 在數(shù)據(jù)集ImageNet-LT、iNaturalist 2018 和Places分別取得了47.6%、74.1%和41.6%的AP值。在零樣本學(xué)習(xí)中的MIT-States、UT-Zap50K 和C-GQA 數(shù)據(jù)集上取得了6.7%、34.6%和3.8%的AUC 值。

        類別標簽失衡問題的優(yōu)化方法之重采樣,是一種應(yīng)用廣泛的優(yōu)化數(shù)據(jù)失衡問題的方案。例如,MLSOL(synthetic oversampling of multi-label data based on local label distribution)首先根據(jù)局部標簽分布計算實例的權(quán)重向量和合成實例生成的類型矩陣,使用加權(quán)采樣進行實例選擇,新實例的標簽會根據(jù)位置發(fā)生變化,從而避免標簽失衡。

        另一種采樣方式是MMT(mutual mean-teaching),利用更魯棒的“軟”標簽對偽標簽進行在線優(yōu)化,并設(shè)計針對三元組的合理偽標簽以及對應(yīng)的損失函數(shù)來優(yōu)化標簽失衡問題。實驗證明MMT 在Duke-to-Market和Market-to-Duke上分別取得76.50%和65.75%的mAP 值,相比不采用MMT 的方案優(yōu)化效果顯著。

        類別自適應(yīng)的核心思想是直接從數(shù)據(jù)集中的類中學(xué)習(xí)失衡分布?;诜菍ΨQ的stagewise loss函數(shù)來動態(tài)調(diào)整正負樣本的損失來解決弱監(jiān)督多標簽學(xué)習(xí)中的失衡問題。Zhang 等人提出COCOA(crosscoupling aggregation),結(jié)合當(dāng)前標簽對應(yīng)的二元類不平衡分類器的預(yù)測結(jié)果和多類不平衡學(xué)習(xí)器的預(yù)測結(jié)果得到每個類標簽的最終決策優(yōu)化失衡問題。實驗證明COCOA 在F-measure、G-mean、Balanced Acc、AUC-ROC 和AUC-PR 五個評價指標中分別取得了4.22、5.00、4.50、4.31 和4.55 的效果。

        集成方法的核心思想是結(jié)合多個分類器作為集合訓(xùn)練多變標簽的分類器,可以實現(xiàn)多樣化的多標簽預(yù)測和解決失衡問題。MCHE(multi-label classification using heterogeneous ensemble)通過結(jié)合最先進的多標簽方法,提出多標簽學(xué)習(xí)者的異構(gòu)集成。該方法同時解決了樣本失衡和標簽相關(guān)性問題。由五個分類器組成,在同一數(shù)據(jù)上使用不同的算法進行訓(xùn)練。測試連接單個預(yù)測的方法,以及通過交叉驗證調(diào)整不同閾值和加權(quán)方案。ECCRU(ensemble of classifier chains with random undersampling)通過耦合欠采樣和改進對多數(shù)樣本的利用,擴展了ECC 對失衡的彈性。實驗證明ECCRU3 在F-measure、Gmean、Balanced Acc、AUC-ROC 和AUC-PR 五個評價指標中分別取得了2.81、2.72、1.91、1.84 和2.06 的效果。相較于COCOA 方案有明顯優(yōu)勢。

        長尾數(shù)據(jù)失衡的優(yōu)化方案之一類-再平衡,目的是平衡模型訓(xùn)練過程中不同類的訓(xùn)練樣本數(shù)。SimCal提出了一種新的雙層類平衡采樣策略來處理長尾實例分割。具體來說,雙層采樣策略結(jié)合了圖像級重采樣和實例級重采樣,以緩解實例分割中的失衡問題。BALMS(balanced meta-Softmax)開發(fā)了一種基于元學(xué)習(xí)的采樣方法來估計長尾學(xué)習(xí)的不同類別的最佳采樣率。提出的元學(xué)習(xí)方法是一種雙層優(yōu)化策略,通過在平衡的元驗證集上優(yōu)化模型分類性能來學(xué)習(xí)最佳樣本分布參數(shù)。FVR(framework for long-tail visual recognition)提出一種自適應(yīng)校準函數(shù)對分類器的輸出進行評估和一種廣義重加權(quán)校準方法,通過數(shù)據(jù)集分布的先驗信息對損失函數(shù)進行調(diào)整。FASA(feature augmentation and sampling adaptation)提出使用平衡元驗證集(作為度量)上的模型分類損失來調(diào)整不同類別的特征采樣率,從而可以對代表性不足的尾類進行更多采樣。

        面對長尾失衡問題,類-再平衡方案的性能分析如表2,其中AP 表示平均精度,AP、AP和AP分別表示稀有類、常見類和頻繁類的平均精度,可以看出整體檢測精度不斷提高。其中FVR 方案的表現(xiàn)不如BALMS,但是提出的自適應(yīng)校準和廣義重加權(quán)是一個新的研究方向。

        表2 類-再平衡策略性能對比表Table 2 Performance comparison of class re-balancing

        信息增強的核心思想是試圖在模型訓(xùn)練中引入額外的信息,以便在長尾學(xué)習(xí)中提高模型性能。LEAP(learnable embedding augmentation perspective)為每個類構(gòu)建“特征云”,通過對尾類樣本進行一定的擴充,并尋求通過在特征空間中增加具有一定擾動的尾類樣本來轉(zhuǎn)移頭類特征云的知識,以增強尾類特征云的類內(nèi)變化,最終減輕了類間類內(nèi)特征方差的失真。M2M(major-to-minor)提出通過基于擾動的優(yōu)化將頭級樣本轉(zhuǎn)換為尾級樣本來增強尾級,這基本上類似于對抗攻擊。處理后的尾類樣本將用于構(gòu)建給模型訓(xùn)練的更平衡的訓(xùn)練集。GIST(geometric structure transfer network)提出在分類器級別進行頭對尾傳輸。通過利用頭類相對較大的分類器幾何信息來增強尾類的分類器權(quán)重,GIST 能夠獲得更好的尾類性能。

        模型改進是從網(wǎng)絡(luò)模型的角度優(yōu)化失衡問題。KCL提出了一種k-positive contrastive loss 來學(xué)習(xí)平衡的特征空間,這有助于緩解類不平衡并提高模型泛化能力。另一種方案是引入一種原型對比學(xué)習(xí)策略來增強長尾學(xué)習(xí)。PaCo(parametric contrastive)通過添加一組參數(shù)可學(xué)習(xí)的類中心進一步創(chuàng)新了監(jiān)督對比學(xué)習(xí),如果將類中心視為分類器權(quán)重,則它們起到與分類器相同的作用。DRO-LT(distributional robustness loss for long-tail)使用分布魯棒優(yōu)化擴展了原型對比學(xué)習(xí),這使得學(xué)習(xí)模型對數(shù)據(jù)分布變化更加魯棒。

        表3 總結(jié)了在不同數(shù)據(jù)集上信息增益和模型改進方案的檢測準確度對比結(jié)果。從表2 與表3 可以總結(jié)出,相較于類-再平衡,信息增益和模型改進方案的整體性能具有優(yōu)勢。尤其是GIST 在iNaturalist 2018數(shù)據(jù)集上的ACC 已經(jīng)達到70.8%。PaCo 在ImageNet-LT 數(shù)據(jù)集上相較于KCL 提升5.26 個百分點,DROLT 在CIFAR-LT-100 數(shù)據(jù)集上相較于Hybrid-PSC 提升2.34 個百分點。

        表3 信息增益和模型改進方案性能對比Table 3 Performance comparison of information augmentation and module improvement

        因此無標簽的類-再平衡值得進一步研究,具體而言,實際的長尾任務(wù)除了類別失衡之外,還存在標簽頻繁出現(xiàn)導(dǎo)致的失衡問題,影響著訓(xùn)練結(jié)果。如何獲得準確的標簽頻率從而精進類-重平衡方案是進一步研究的方向。

        3.2 尺度失衡優(yōu)化策略

        針對目標實例/邊界框失衡,主要的優(yōu)化策略如下:(1)從主干特征層次進行預(yù)測的方法是根據(jù)主干網(wǎng)絡(luò)不同級別的特征進行獨立的預(yù)測。由于不同的層次在不同的尺度上編碼信息不同,該方法考慮了多尺度上的目標檢測。Scale Aware Fast R-CNN方法是學(xué)習(xí)兩個分類器的集成,一個用于小尺度目標,一個用于大尺度目標,進行聯(lián)合預(yù)測。同時Fast R-CNN 采用隨機梯度下降訓(xùn)練,使用分層抽樣進行采樣。并且對每一張圖都要取足夠的候選框,因此與Faster R-CNN 相比,在檢測速度上效果不好。(2)特征金字塔網(wǎng)絡(luò)(FPN)在進行預(yù)測前將不同尺度的特征進行組合。FPN 利用了一種附加的自上而下的方法,橫向連接高層和低層的功能,在增加極小計算量前提下處理目標檢測多尺度失衡問題。但是由于直接從主干網(wǎng)絡(luò)提取特征進行組合導(dǎo)致了一定的特征失衡。(3)相比FPN 的不斷疊加特征,SNIP(scale normalization for image pyramids)巧妙地引入圖像金字塔來處理數(shù)據(jù)集中的尺寸失衡問題。SNIP是Singh和Davis 提出的一種新的訓(xùn)練方法。該研究證明通過向檢測器輸入特定尺度數(shù)據(jù)進行訓(xùn)練會損壞數(shù)據(jù),并且在單個檢測器上使用多尺度訓(xùn)練。由于保留數(shù)據(jù)的變化導(dǎo)致尺度不平衡。因此SNIP 只對尺寸在指定范圍內(nèi)的目標回傳損失,減小了Domain-Shift的影響。在訓(xùn)練過程中用不同大小的圖像訓(xùn)練多個網(wǎng)絡(luò)模型和檢測器網(wǎng)絡(luò),并且對于每個網(wǎng)絡(luò)只標記適當(dāng)尺寸的輸入邊界框為有效框來控制多尺寸訓(xùn)練下數(shù)據(jù)損失。SNIPER(scale normalization for image pyramids with efficient resampling)不是處理圖像金字塔中的每個像素,而是以適當(dāng)?shù)谋壤幚碚鎸崒嵗車纳舷挛膮^(qū)域。在訓(xùn)練期間每個圖像生成的chips 的數(shù)量會根據(jù)場景復(fù)雜度自適應(yīng)地變化。(4)圖像與特征金字塔相結(jié)合的方法是生成超分辨率特征圖。Noh 等人提出了用于雙階段目標檢測器的小目標檢測的超分辨率,這些檢測器在RoI 標準化層之后缺乏小目標的強表示。另一種方法,Scale-Aware Trident Network結(jié)合基于特征金字塔和圖像金字塔方法的優(yōu)點,未使用多個下采樣圖像,而是用擴大卷積來提高檢測準確率。為了保證每個分支的特定比例,將三種不同的感受野網(wǎng)絡(luò)并行化,根據(jù)其大小為適當(dāng)?shù)姆种гO(shè)置輸入邊界框,并且提出了一種使用單個參數(shù)共享分支來近似其他分支優(yōu)化損失函數(shù)的方案。

        特征失衡的優(yōu)化方案中,PANet(path aggregation network)通過自下而上的路徑擴展特征金字塔,將底層特征更快地輸入到預(yù)測層,然后建立自適應(yīng)特征池,將每個ROI 與每個級別相關(guān)聯(lián),再應(yīng)用ROI 池化操作進行融合,得到固定大小的特征網(wǎng)格傳播到檢測器網(wǎng)絡(luò)。但是PANet 依然采用順序路徑提取特征。ThunderNet 網(wǎng)絡(luò)的檢測部分采用壓縮的RPN 網(wǎng)絡(luò),即CEM(context enhancement module)整合局部和全局特征增強網(wǎng)絡(luò)特征表達能力,并提出Spatial Attention Module 空間注意模塊,引入來自RPN 的前后景信息用以優(yōu)化特征分布。然而Libra FPN打破順序提取特征的方式,采用縮放和平均將來自不同層的所有特征圖都集成為一個單一特征圖,再運用卷積網(wǎng)絡(luò)將細化后的結(jié)果添加到金字塔特征的每一層,保證提取特征能夠被充分利用。使用整體平衡的設(shè)計優(yōu)化檢測器訓(xùn)練過程中的失衡,從而盡可能地挖掘模型架構(gòu)的潛力。

        STDN(scale-transferrable detection network)使用DenseNet-169 作為基礎(chǔ)網(wǎng)絡(luò)提取特征,基于多層特征做預(yù)測,并對預(yù)測結(jié)果做融合得到最終結(jié)果。該方案提出Scale-transfer Layer,在幾乎不增加參數(shù)量和計算量的情況下生成大尺度的特征圖,STDN 不僅mAP 高,而且運行速度快。

        NAS-FPN(neural architecture search FPN)通過使用神經(jīng)架構(gòu)搜索方法來搜索最佳架構(gòu),以在給定主干特征的情況下生成金字塔特征,此方案在圖像分類任務(wù)中取得良好效果。Auto FPN是另一個使用NAS 的方案,同時學(xué)習(xí)從主干到金字塔功能和其他功能的連接。雖然NAS-FPN 實現(xiàn)了更高的性能,但Auto FPN 效率更高,內(nèi)存占用更少。

        GraphFPN使用拓撲結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)跨空間和尺度地執(zhí)行特征交互。通過泛化卷積神經(jīng)網(wǎng)絡(luò)的全局通道注意力,為圖神經(jīng)網(wǎng)絡(luò)引入了兩種類型的局部通道注意力。提出的圖特征金字塔網(wǎng)絡(luò)增強卷積特征金字塔網(wǎng)絡(luò)的多尺度特征,使得特征層之間達到平衡。

        另一個研究方向是基于主干特征網(wǎng)絡(luò)的探索,例如Multi-level FPN主要由特征融合模塊FFM(feature fusion module)、細化U 型模塊TUM(thinned Ushape modules)和尺度特征聚合模塊SFAM(scale-wise feature aggregation module)三個模塊組成。實現(xiàn)了比FPN 融合更多的特征,且按照不同size進行融合。

        2022 年AdaMixer的出現(xiàn)提出了自適應(yīng)的特征采樣位置,將Query 解耦成內(nèi)容向量和位置向量,并且將位置向量采用參數(shù)化使得Query 與多層特征形成的3D 特征空間直接聯(lián)系。該方案通過自適應(yīng)地學(xué)習(xí)目標物體的位置和尺度變化來優(yōu)化失衡問題。消融實驗證明AdaMixer 在不加入額外金字塔網(wǎng)絡(luò)的條件下效果高出0.01(AP)。在COCO 數(shù)據(jù)集上取得AP 值45.0%,相比GraphFPN 高出0.013。

        3.3 相對空間失衡優(yōu)化策略

        針對回歸損失失衡的優(yōu)化策略,GIOU-loss(generalized-IoU loss)直接把IOU 設(shè)為回歸的loss,基于一種距離度量方法不僅關(guān)注重疊區(qū)域,還關(guān)注非重合區(qū)域,從重合角度優(yōu)化尺度失衡問題。更進一步,DIoU Loss(distance-IoU loss)將目標與anchor 的距離、重疊率和尺度都作為建模參考值,實現(xiàn)了收斂速度比GIOU-loss 更快,并且當(dāng)出現(xiàn)兩個框在水平方向或者垂直方向時,DIoU Loss 回歸非???,而此時的GIOU-loss 會退化為IOU loss。CIoU Loss(complete-IoU loss)是在DIoU Loss 的基礎(chǔ)上考慮長寬比問題,引入了一個影響因子,把預(yù)測框的長寬比擬合目標框的長寬比來計算損失,改進了DIoU Loss 存在的對小尺度樣本精確度低的問題,優(yōu)化了大小尺度樣本間的失衡問題。EIoU Loss摒棄IoU Loss 的長寬比指標,直接運用邊長(寬和高的值)作為懲罰項,直接優(yōu)化DIoU-Loss 存在的邊長被錯誤放大問題,從而達到平衡。

        基于IoU 系列方案的性能對比結(jié)果如表4 所示。從相對對比結(jié)果看到整體性能是在提升的,CIoU 在YOLOv3、SSD 和Faster R-CNN 上相較于GIoU-loss 和DIoU-loss 分別有3.10%、0.74%和1.66%相對提升結(jié)果。EIoU 在COCO val-2017 數(shù)據(jù)集上相比GIoU 和CIoU 分別有1.66%和4.11%的相對提升結(jié)果。整體性能呈上升趨勢,下一步研究可以繼續(xù)探索基于IoU 的優(yōu)化策略。

        表4 IOU 系列性能對比Table 4 Performance comparison of IOU

        另一種優(yōu)化思路是Cascade R-CNN,在樣本數(shù)不減少的情況下通過調(diào)試最優(yōu)閾值來訓(xùn)練一個高性能檢測器。在出現(xiàn)偏態(tài)的分布下使回歸對單個閾值過擬合,證明正樣本的分布對回歸有影響,表明分布的失衡可以從左偏移到近似均勻,甚至右偏移,為訓(xùn)練最優(yōu)閾值提供足夠的樣本。IoU-uniform R-CNN增加可控的抖動,并以這種方式只向回歸變量提供近似一致的正輸入邊達到均衡。相對于其他方法,Oksuz等人的一個重要研究是系統(tǒng)地使用邊界框生成器生成邊界框,優(yōu)化失衡問題的同時提高檢測效率。

        針對目標失衡問題,主要的工作是在anchor上做改進來優(yōu)化失衡問題。Wang 等人提出同時學(xué)習(xí)錨的位置、尺度和長寬比屬性,以減少錨的數(shù)量,同時提高召回率。利用在特征圖上的完全卷積分類器,提出基于可變形卷積的錨特征自適應(yīng),以獲得基于錨大小的平衡表示。2018年RefineDet算法改進SSD算法,采用ARM+ODM結(jié)合調(diào)整anchors的失衡,簡化模型的同時優(yōu)化失衡問題。2019年提出RepPoints,通過卷積的方式預(yù)測各個點的相對位置偏移,以此作為卷積網(wǎng)絡(luò)的偏移量對原特征圖進行卷積,得到重合率更高的特征與目標區(qū)域,再進行第二階段的預(yù)測來優(yōu)化失衡問題。Free anchor沒有學(xué)習(xí)錨,而是減小匹配策略的硬約束。通過修改loss函數(shù)刪去固定閾值使網(wǎng)絡(luò)自主學(xué)習(xí)選擇anchor 真實目標匹配。實驗證明Free anchor 在COCO 數(shù)據(jù)集上獲得43.1%的AP 值。

        2020 年YOLO 系列中YOLOv4在輸入端引入數(shù)據(jù)增強(Mosaic)、cmBN 模塊;將主干網(wǎng)絡(luò)更換為CSDarknet-53 結(jié)合Mish 激活函數(shù);將原來的FPN 換為PANet 中的FPN;針對回歸失衡問題采用CIOU_Loss 進行回歸預(yù)測。實驗證明YOLOv4 取得43.5%(AP),相比Free anchor 和RefineDet 的43.1%(AP)和41.0%(AP)有優(yōu)勢。

        3.4 分類與回歸失衡優(yōu)化策略

        針對分類與回歸任務(wù)失衡問題,Jiang等人證明了基于CNN 的目標檢測方法存在分類置信度和定位置信度不匹配問題,并設(shè)計IoU-Net來解決此類問題。IoU-Net學(xué)習(xí)預(yù)測每個檢測得到的邊界框和與之匹配的目標之間的IoU 作為該框的定位置信度。利用這種定位置信度,檢測器能確保定位更準確的邊界框在NMS 過程中被保留下來,從而改進NMS 過程。研究者在MS-COCO 數(shù)據(jù)集上進行了大量實驗,證明IoU-Net的有效性。

        Kendall 等人已經(jīng)證明,基于多任務(wù)學(xué)習(xí)的模型的性能在很大程度上取決于每個任務(wù)損失之間的相對權(quán)重。但是以前的方法主要關(guān)注如何增強模型體系結(jié)構(gòu)的識別能力。

        2020 年出現(xiàn)的aLRP Loss(average localisationrecall-precision loss)是第一個用于分類和回歸任務(wù)中的基于排名的損失函數(shù)且僅引入單個超參數(shù)。aLRP執(zhí)行對高精度的分類實施高質(zhì)量的定位,并且證明了正面和負面樣本之間的平衡。

        Double-Head RCNN的出現(xiàn)是一個轉(zhuǎn)折點,開啟了分類與回歸的解耦之路。由于雙階段目標檢測器中共享一個分類和回歸的頭部,然而對全連接頭部和卷積頭部結(jié)構(gòu)之間缺乏聯(lián)系。通過對比發(fā)現(xiàn),兩種頭部可以實現(xiàn)互補。全連接頭部可以更好地區(qū)分一個完整目標和一個目標的局部,用于分類任務(wù),卷積頭部輸出更準確的回歸邊界框用于回歸任務(wù)。在此基礎(chǔ)之上研究者提出Double-Head RCNN。但由于輸入到兩個分支的是同一個proposal ROI pooling之后的特征,因此分類和回歸任務(wù)失衡依然存在。Song 等人從空間維度上來解耦目標檢測中的分類和回歸失衡問題,作者證明分類和回歸存在空間維度上的不對齊問題。即兩個任務(wù)在特征學(xué)習(xí)時關(guān)注的點是不一樣的,某些顯著區(qū)域的特征可能具有豐富的分類信息,而邊界附近的特征更有利于位置回歸。TSD(task-aware spatial disentanglement)的出現(xiàn)為它們生成兩個通過共享估計得到的解耦Proposal,將它們與空間維度解耦。實驗表明,TSD 使COCO和谷歌Open-Image 上的所有主骨架和模型一致地增加約0.03 的mAP。

        2021 年YOLO 系列提出一個無錨框的高性能目標檢測器YOLOX,參考雙階段中的Double-Head RCNN 和TSD 中的思想用解耦頭替換YOLO 的耦合檢測頭。實驗結(jié)果如表5 所示,在速度增加的情況下,AP 精度提高0.8~2.9 個百分點。當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)較輕時,YOLOX-S 相較于YOLOv5-S 提升了2.9 個百分點,隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深和擴寬,AP 增長逐漸降低到0.8 個百分點。因此進一步研究探索如何精簡網(wǎng)絡(luò)結(jié)構(gòu)成為關(guān)鍵。

        表5 YOLOX 性能對比Table 5 Performance comparison of YOLOX

        在經(jīng)典的失衡問題下,Yang 等人探索回歸失衡問題提出了DIR(delving into deep imbalanced regression),并泛化到整個目標范圍。分別提出LDS(labeldistribution smoothing)和FDS(feature distribution smoothing),運用目標之間的相似性解決在computer vision、NLP 和healthcare上的回歸任務(wù)失衡。

        單階段中分類與回歸失衡問題相較于雙階段更加嚴重,單階段的分類任務(wù)和回歸任務(wù)是并行分支且共享參數(shù)導(dǎo)致兩個任務(wù)之間相互限制。TOOD(taskaligned one-stage object detection)設(shè)計T-head 增強分類與定位之間的相互作用,提出TAL 對兩個任務(wù)進行顯示對齊,該方法平衡學(xué)習(xí)任務(wù)交互和任務(wù)特定功能。實驗證明在COCO數(shù)據(jù)集上達到51.1%AP。

        RS(rank &sort)Loss的提出開辟了新的研究方向。該方案在沒有額外輔助頭的情況下對陽性樣本屬性(中心,IoU,mask-IoU)進行優(yōu)先排序,也因此RS Loss 對目標失衡具有魯棒性;使用無需調(diào)整的任務(wù)平衡系數(shù)來解決視覺檢測器的多任務(wù)失衡問題。因此RS Loss 是采用一種簡潔高效、基于損失且無需調(diào)參的啟發(fā)式算法來平衡多任務(wù)中的失衡問題。

        3.5 方案總結(jié)

        本節(jié)系統(tǒng)總結(jié)分析應(yīng)用深度學(xué)習(xí)的目標檢測算法針對失衡問題提出的優(yōu)化策略。

        數(shù)據(jù)失衡問題主要改進思路是從采樣的角度優(yōu)化失衡問題,優(yōu)勢是直接且高效,局限性表現(xiàn)在內(nèi)存和時間成本上。從表6~表8 可以得出以下結(jié)論:

        表6 前景/背景&前景/前景失衡優(yōu)化策略總結(jié)Table 6 Summary of foreground/background&foreground/foreground imbalance optimization strategy

        表7 類別標簽失衡優(yōu)化策略總結(jié)Table 7 Summary of category label imbalance optimization strategy

        表8 長尾數(shù)據(jù)失衡優(yōu)化策略總結(jié)Table 8 Summary of long-tail data imbalance optimization strategy

        (1)前景/背景失衡的優(yōu)化方案在早期主要采用硬采樣,核心思想是設(shè)置固定數(shù)量或者比例的正負樣本優(yōu)化失衡問題,優(yōu)勢是啟發(fā)式抽樣提高算法精度,局限性主要表現(xiàn)在時間成本上。軟采樣方案的核心思想是通過對訓(xùn)練過程的相對權(quán)重來設(shè)定樣本損失權(quán)重,優(yōu)勢是訓(xùn)練更高效,局限性表現(xiàn)在泛化性上。無采樣方法的核心思想是引入新的分支,根據(jù)前一批樣本預(yù)測后一批樣本的權(quán)重。優(yōu)勢是分類問題轉(zhuǎn)化為排序問題更精確,局限性表現(xiàn)為超參數(shù)過量。近期出現(xiàn)的生成式方案主要是基于GAN 的生成器和判別器組成的一系列方法,優(yōu)勢是提高召回率,局限性表現(xiàn)在訓(xùn)練時間上。

        (2)前景/前景問題的優(yōu)化主要是針對數(shù)據(jù)集失衡和每個批次內(nèi)的類別失衡問題?;跀?shù)據(jù)集的失衡代表作是pRoI Generator,生成新的圖像和類別進行優(yōu)化;基于批次內(nèi)的類別失衡優(yōu)化思路是提升捕捉類間關(guān)系實現(xiàn)不同樣本之間的協(xié)作關(guān)系,使得樣本之間達到平衡如Batch Former。綜合評價兩種改進方向各有優(yōu)缺點,并且探索樣本關(guān)系會一直是優(yōu)化前景/前景失衡的熱門話題。

        (3)類別標簽失衡的優(yōu)化策略中重采樣方法是具有優(yōu)勢的,因為它脫離于分類器且不需要任何特定的多標簽分類器來預(yù)處理MLD。但標簽之間失衡的差異以及標簽之間的高并發(fā)會直接影響重采樣結(jié)果。因此在低并發(fā)的情況下是最有優(yōu)勢的策略。分類器自適應(yīng)是依賴分類器進行優(yōu)化的策略,優(yōu)勢是直接從數(shù)據(jù)集的分布中學(xué)習(xí)且自適應(yīng)輸出結(jié)果。但由于分類器是根據(jù)實驗環(huán)境設(shè)計則很難在不同的環(huán)境中適用。集成方法的創(chuàng)新點在于集合幾個基本模型的優(yōu)點來產(chǎn)生一個最優(yōu)的預(yù)測模型,可以完成多樣化的多標簽預(yù)測,異構(gòu)集成突破了同時解決樣本失衡和標簽相關(guān)性的問題,然而該方案存在計算復(fù)雜性問題。

        (4)長尾數(shù)據(jù)失衡的優(yōu)化方案中類-再平衡方法相對簡單,卻取得很好的效果。但該方法是以犧牲頭類性能為代價來改善尾類性能。雖然整體性能有所提高,卻無法從本質(zhì)上解決缺少信息的問題。為了解決這一局限性,提出對所有類進行信息擴充,即信息增益。信息增益的代表方案是數(shù)據(jù)增強,一種運用類條件統(tǒng)計量來優(yōu)化失衡問題的方案。該方案可以保證在不犧牲頭部信息的條件下提高尾部性能。然而,簡單地使用現(xiàn)有的與類無關(guān)的增強技術(shù)來改進長尾學(xué)習(xí)是不利的,因為頭部類有更多的樣本會被更多地增強,存在進一步增加失衡的風(fēng)險。模型改進方案中解耦訓(xùn)練越來越受到關(guān)注。該方法在類-再平衡分類器學(xué)習(xí)的第二階段不引入大量計算開銷,卻帶來顯著的性能提升。解耦訓(xùn)練的思想在概念上很簡單,易于設(shè)計解決各種長尾學(xué)習(xí)問題的新方法,但同時也伴隨著訓(xùn)練時間的問題。

        尺度失衡問題的核心改進思路是提升多尺度目標的檢測效果,優(yōu)勢是實現(xiàn)多尺度目標檢測性能,局限性表現(xiàn)在網(wǎng)絡(luò)結(jié)構(gòu)加深。表9 可以總結(jié)為:(1)目標實例/邊界框失衡的優(yōu)化策略主要是基于特征層的優(yōu)化思路,從主干特征層次到圖像與金字塔的結(jié)合是不斷改進的過程,性能也在不斷提升,但更進一步的模型改進遇到了瓶頸。(2)針對特征失衡問題的優(yōu)化方案主要是基于FPN 的改進過程,如Libra FPN、Multi-level FPN、NAS-FPN 和GraphFPN,雖然該系列的改進取得顯著效果,卻在時間上有一定的局限性。當(dāng)然也有PANet、ThunderNet、SSD、STDN 和Objectness Prior 等方案的進一步優(yōu)化提升。主要研究趨勢是克服時間和空間問題。

        表9 尺度失衡優(yōu)化策略總結(jié)Table 9 Summary of scale imbalance optimization strategy

        相對空間失衡問題的改進思路分為回歸和目標兩類。表10 可以總結(jié)為:(1)回歸失衡問題的改進是基于IOU 損失函數(shù)系列,優(yōu)勢是反映預(yù)測檢測框與真實檢測框的檢測效果,局限性表現(xiàn)在收斂和退化問題上需要進一步研究。(2)目標失衡基于錨的方案和無錨點優(yōu)化。基于錨點的優(yōu)勢是獲得更精細的目標檢測框,提高定位準確率;局限性是存儲空間需求大和網(wǎng)絡(luò)量較大影響檢測速度。無錨點的方案優(yōu)勢是減少超參數(shù),泛化能力強;局限性表現(xiàn)在檢測精度偏低。因此提取更有價值的錨點成為研究熱點。

        表10 相對空間失衡優(yōu)化策略總結(jié)Table 10 Summary of relative spatial imbalance optimization strategy

        分類與回歸失衡的優(yōu)化算法分為解耦和不解耦兩個方向。如表11 所示優(yōu)化方案主要在于如何設(shè)置權(quán)重來保持分類與回歸平衡,如IoU-Net。此類方案是以一種控制的方式優(yōu)化失衡,分類與回歸失衡依然存在于每一個空間點。因此出現(xiàn)了新的研究方向在空間上對頭部進行解耦來優(yōu)化失衡問題,如Double-Head RCNN、TSD、TOOD 和YOLOX。這些優(yōu)化方案都是運用解耦的思想使分類與回歸達到時間或者空間上的平衡,但是網(wǎng)絡(luò)模型在不斷地擴寬,雖然失衡得到控制,性能有所提升,卻導(dǎo)致訓(xùn)練和檢測速度降低,難以滿足端側(cè)實時檢測的要求,因此分類與回歸失衡依然是一個有待解決的問題。

        表11 分類與回歸失衡優(yōu)化策略總結(jié)Table 11 Summary of classification and regression imbalance optimization strategy

        4 未來展望

        隨著特征提取網(wǎng)絡(luò)的深入、優(yōu)化和更新,目標檢測的算法精度在逐步提升,但是依然存在待解決的問題。本文針對在深度學(xué)習(xí)系統(tǒng)中出現(xiàn)的目標失衡問題開展了一系列的優(yōu)化策略總結(jié),但隨著應(yīng)用環(huán)境和目標對象的多元化,檢測難度越來越大。目標檢測失衡問題也仍需解決,以下列出幾個未來面臨的主要挑戰(zhàn):

        (1)抽象特征層語義提取方式。較高層次的特征包括對象或者部分對象的高級語義相對低層次的信息(邊緣、輪廓等)更難提取。例如一只熊貓頭的圖片高層語義特征只顯示一張臉的輪廓。目前的解決方案大多采用特征融合(FPN、HRNet),但會引入高低層特征信息不對等和高低層特征之間在空間上存在不對齊的問題。因此設(shè)計可行的特征篩選機制和利用圖像的幀來對齊高低層特征或許可以提高高層語義的利用率。

        (2)分析異常值和不變量對回歸損失函數(shù)的影響。目前關(guān)于損失函數(shù)的研究方法中研究者根據(jù)具體問題描述損失函數(shù)的結(jié)果。例如,AP Loss 損失的計算是基于所有BBs 的置信度得分的單個示例的排名,因此損失是由整個集合得到而不是單個示例,卻因單個或者個別異常值降低模型整體性能。因此是否可以借鑒LSTM 中“過濾門”的思想減小異常值和不變量引導(dǎo)整體的性能。

        (3)剖析損失函數(shù)失衡問題,損失函數(shù)在深度學(xué)習(xí)目標檢測中直接反映一個模型的性能。然而目前的研究都在優(yōu)化損失失衡,未考慮失衡原因?;诰嚯x度量的損失函數(shù)和基于概率分布計算的損失函數(shù)失衡的誘因不同。是否可以采用對抗訓(xùn)練的方式引入重構(gòu)損失和分類損失對失衡問題引入額外約束探索此類問題。

        (4)Anchors 相似性對失衡問題的影響,單階段目標檢測器的顯著效果依賴于大量的錨,因此數(shù)據(jù)失衡問題在單階段檢測器中異常突出。Anchors 之間的相似性關(guān)系是否可以通過Anchor based 和Anchor free融合解決此類問題有待研究。

        (5)量化與評估失衡問題,失衡問題發(fā)生在深度學(xué)習(xí)目標檢測的每個環(huán)節(jié)。但在多樣化的應(yīng)用場景下如何量化失衡問題并且建模一個具有魯棒性的評估模型將會是一個研究趨勢。今后可以綜合準確度、精度、召回率和平均精度等的計算方法評估每個環(huán)節(jié)的平衡度結(jié)果供研究人員參考。

        目標檢測作為計算機視覺任務(wù)的基礎(chǔ)性研究,受到了很多學(xué)者的關(guān)注,近年來也取得了較大進展。本文從不同角度指出應(yīng)用深度學(xué)習(xí)的通用目標檢測算法中存在的失衡問題并總結(jié)目前的優(yōu)化策略。未來,深度學(xué)習(xí)中的目標檢測領(lǐng)域仍有許多問題需要解決,目標檢測與各個領(lǐng)域的結(jié)合不斷推動未來發(fā)展。

        5 結(jié)束語

        由于深度學(xué)習(xí)算法及其應(yīng)用場景的多元化,檢測失衡的問題也會隨之有所差異,本著解決問題的角度,本文綜述了目前一些具有代表性的優(yōu)化策略。未來隨著加速器以及應(yīng)用場景的變化,相信此類問題會提出更好的優(yōu)化方案。

        猜你喜歡
        分類特征優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        分類算一算
        一道優(yōu)化題的幾何解法
        如何表達“特征”
        不忠誠的四個特征
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        国产suv精品一区二区6| 国产极品粉嫩福利姬萌白酱| 日本中文字幕一区二区有码在线| 337p粉嫩日本欧洲亚洲大胆| 风流老熟女一区二区三区| 又爽又黄又无遮挡的激情视频| 亚洲妓女综合网99| 成黄色片视频日本秘书丝袜 | 亚洲中文字幕无码卡通动漫野外| 国产精品亚洲精品日韩动图 | 人妻无码中文专区久久AV| 超短裙老师在线观看一区| 干出白浆视频在线观看| 久久精品免费中文字幕| 影音先锋色小姐| 风间由美性色一区二区三区| 成人片99久久精品国产桃花岛| 国产日韩午夜视频在线观看| 亚洲一区二区三区18| 国产嫩草av一区二区三区| 少妇伦子伦情品无吗| 精品无码日韩一区二区三区不卡| 免费无码av片在线观看网址| 国产精品福利小视频| 久草久热这里只有精品| 亚洲乱码中文字幕三四区| 在线一区二区三区国产精品| 国色天香精品一卡2卡3卡4| 精品国产三级a∨在线观看| 一级片麻豆| 人妻精品一区二区免费| 中文字幕一区二区三区四区| 脱了老师内裤猛烈进入| 亚洲av福利无码无一区二区| 少妇激情av一区二区| 中文字幕日产人妻久久| 丰满人妻一区二区三区免费| 91成人自拍国语对白| 久久精品国产www456c0m| 国产亚洲精品hd网站| 国产av黄色一区二区|