趙晴宜 譚海楓
(廣西科技大學(xué),廣西 柳州545026)
基于預(yù)測框的密集行人檢測框架已被廣泛用于現(xiàn)代物體檢測系統(tǒng)中[1]。其已經(jīng)在例如COCO和PASCAL VOC流行數(shù)據(jù)集中取得了很好的表現(xiàn)[2],但實踐中仍難以進(jìn)行人群檢測。圖1(a)展示了一個常見的失敗案例(虛線框中為未被識別到的人)。
圖1 密集人群檢測
這種在密集場景中的典型失敗主要有兩個原因:
1.2.1 高度重疊的實例可能具有非常相近的特征,從而導(dǎo)致檢測器難以分別為每個預(yù)測框生成區(qū)別預(yù)測。
1.2.2 由于實例之間嚴(yán)重重疊,預(yù)測結(jié)果很可能會被非極大值抑制(Non-Maximum Suppression,NMS)錯誤地去除。
已有的研究試圖從不同的角度來解決這個問題,例如提出復(fù)雜的固定非極大值抑制(Set Non-Maximum Suppression,Set NMS),新的損失函數(shù),重計分機制等[3]。但是,這些方法尚存在計算復(fù)雜度過高,處理高度重疊的實例時效果不佳等不足。
基于以上問題,本文在此介紹一種解決密集行人檢測問題的方法:
1.4.1 對于每個預(yù)測框,區(qū)別于已有方法預(yù)測一個實例,本文方法預(yù)測一組可能高度重疊的實例,如圖2所示。
1.4.2 利用推土機距離(Earth Mover's Distance Loss,EMD Loss)函數(shù)來監(jiān)督實例集預(yù)測目標(biāo)的回歸。
1.4.3 使用Set NMS這種新的后處理方法,以抑制不同預(yù)測框的重復(fù)性。
假設(shè)有多個物體嚴(yán)重重疊(如圖2所示),其中至少一個預(yù)測框?qū)?yīng)不止一個對象,對于這樣的預(yù)測框可采用預(yù)測整體的方法。對于每個預(yù)測框Bi,本文方案所提方法為預(yù)測其相關(guān)集合G(Bi):其中G是實際的訓(xùn)練標(biāo)注樣本,θ是設(shè)定的劃分閾值。如圖2(b)所示,將三個預(yù)測框分配給同一組基本真值實例集是可行的,因為這三個預(yù)測框特征幾乎相同?,F(xiàn)介紹本文方法的細(xì)節(jié)如下:
圖2 典型的密集檢測案例
對于每個預(yù)測框Bi,現(xiàn)存已有基于預(yù)測框的檢測框架都是采用檢測函數(shù)預(yù)測(Ci,Li)來表示相關(guān)實例,其中Ci是帶有置信度的類別標(biāo)簽,Li是相對的新坐標(biāo)[4]。本文方法對其進(jìn)行擴展,通過使用K個檢測函數(shù)來生成一組預(yù)測結(jié)果P(Bi):
其中K為給定常數(shù)表示G(Bi)見等式(1)的最大基數(shù)。在大多數(shù)現(xiàn)有的檢測框架中,引入額外的預(yù)測分支可以簡單地實現(xiàn)P(Bi)[5]。
本文提出了EMD Loss損失函數(shù),以最小化與預(yù)測框Bi對應(yīng)的預(yù)測P(Bi)和實際的訓(xùn)練標(biāo)注樣本G(Bi)之間的差距:
其中π表示(1,2,…,K)的特定排列,其第k項是πk;gπk?G(Bi)是第πk個標(biāo)注樣本;LCLS(·)和LREG(·)分別是分類損失和預(yù)測框回歸損失,遵循常用定義。
原始NMS在后處理時會影響到密集場景中的對象檢測。而本文方案由于EMD Loss函數(shù),使得一個預(yù)測框預(yù)測的實例在定義上是唯一的,由此我們引入Set NMS,即每次在NMS算法中一個邊界框抑制另一個邊界框之前,插入額外的測試,用于檢查這兩個框是否來自同一個;如果是,則跳過抑制。實驗表明,只有將多實例預(yù)測和Set NMS結(jié)合使用,本文方法才能在密集檢測方面取得顯著的改進(jìn)。
3.1.1 平均精度
平均精度(average precision,AP)反映了測試結(jié)果的準(zhǔn)確性和召回率,是最將常用到的指標(biāo),其對召回分?jǐn)?shù)更敏感。AP越大,則性能越好。
3.1.2 平均漏失率
平均漏失率(log-average Miss Rate,MR-2)指對每幅圖像誤報率((False Positive per Image,FPPI)的對數(shù)的平均漏失率,通常用于行人檢測。MR-2對誤報(False Positive,FP)非常敏感,尤其是高置信度的誤報會嚴(yán)重?fù)p害MR-2比值。MR-2越小,表現(xiàn)越好。
3.1.3 Jaccard指數(shù)
Jaccard指數(shù)(Jaccard Index,JI)主要用于評估檢測器的計數(shù)能力。JI評估預(yù)測集與基本事實的重疊程度。通常,預(yù)測集可以通過引入一個置信分?jǐn)?shù)閾值來生成。JI越大,性能越好。
CrowdHuman包含15000張、4370張和5000張圖片,分別用于訓(xùn)練、驗證和測試。
本文提出了一種簡單而有效的基于建議的對象檢測器,該檢測器專門用于密集行人檢測。該方法利用多實例預(yù)測的概念,引入了EMD損失、Set NMS等新技術(shù)。本文方法不僅有效,而且可以靈活地應(yīng)用于大多數(shù)最先進(jìn)的基于預(yù)測框的檢測框架。