劉瑞康,劉偉銘,段夢(mèng)飛,謝瑋,戴愿
(華南理工大學(xué)土木與交通學(xué)院,廣東 廣州 510640)
全自動(dòng)駕駛地鐵列車具有安全風(fēng)險(xiǎn)小、運(yùn)營(yíng)效率高、運(yùn)營(yíng)成本低等優(yōu)勢(shì),已經(jīng)成為城市軌道交通的發(fā)展趨勢(shì)。國(guó)內(nèi)主要城市已將全自動(dòng)運(yùn)行系統(tǒng)納入建設(shè)規(guī)劃,經(jīng)過(guò)多年的發(fā)展,全自動(dòng)運(yùn)行系統(tǒng)已經(jīng)成為我國(guó)城市軌道交通建設(shè)的主流制式選擇。據(jù)中國(guó)城市軌道交通協(xié)會(huì)統(tǒng)計(jì),截至2021年底,中國(guó)內(nèi)地共計(jì)有北京、上海、天津、重慶、廣州、深圳、武漢、成都、蘇州、寧波、南寧、濟(jì)南、太原、蕪湖14市開(kāi)通了全自動(dòng)運(yùn)行系統(tǒng)線路,線路共計(jì)23條,已形成了554 km的全自動(dòng)運(yùn)行線路規(guī)模。
站臺(tái)屏蔽門與列車門是連接站臺(tái)與列車的唯一通道,是地鐵運(yùn)輸系統(tǒng)的風(fēng)險(xiǎn)點(diǎn)和管控核心區(qū)域,直接影響地鐵在站時(shí)間、運(yùn)輸效率和安全。據(jù)統(tǒng)計(jì),上海地鐵10號(hào)線(全自動(dòng)駕駛線路)安全事故30%來(lái)自乘客、24.82%來(lái)自列車門、10.64%來(lái)自站臺(tái)屏蔽門、12.74%來(lái)自站臺(tái)門與列車門及間隙夾人與夾物,可見(jiàn)列車門與站臺(tái)門處是影響全自動(dòng)駕駛系統(tǒng)運(yùn)營(yíng)安全的重要因素。因此,在無(wú)人駕駛運(yùn)行環(huán)境下,乘降作業(yè)監(jiān)督是最重要的安全功能之一。
目前國(guó)內(nèi)外關(guān)于地鐵站臺(tái)異物檢測(cè)的研究較少。傳統(tǒng)的地鐵風(fēng)險(xiǎn)空間異物檢測(cè)方式主要有4種:人工瞭望燈帶技術(shù);基于激光掃描的方法;基于紅外光幕的方法;基于激光探測(cè)的方法。人工瞭望燈帶技術(shù)[1]依靠司機(jī)觀測(cè)屏蔽門尾端立柱外明亮燈帶的完整度來(lái)判斷是否新增異物。然而,由于視力和疲勞的限制,人工方式容易產(chǎn)生漏檢,尤其是小尺寸異物?;诩す鈷呙璧姆椒╗2]和基于紅外光幕的方法[3]分別依賴點(diǎn)探測(cè)器和區(qū)域探測(cè)器,根據(jù)發(fā)射器和接收器間光幕的完整性進(jìn)行異物辨別。這2種方式易受到灰塵、懸浮粒、昆蟲(chóng)、環(huán)境內(nèi)折射/反射光等干擾,常常產(chǎn)生虛報(bào)和誤報(bào)。基于激光探測(cè)的方法[4]聚光效果好且能遠(yuǎn)距離檢測(cè),但列車行駛產(chǎn)生的振動(dòng)可能會(huì)使激光偏離對(duì)應(yīng)的接收器,造成無(wú)效檢測(cè)。
自2012年KRIZHEVSKY等[5]提出AlexNet以來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNN)在近十年里主導(dǎo)了計(jì)算機(jī)視覺(jué),并取得了許多成就,基于圖像的地鐵異常檢測(cè)方法逐漸被研究人員所采納??椎慢埖萚6]利用深度殘差神經(jīng)網(wǎng)絡(luò)自動(dòng)檢測(cè)地鐵站臺(tái)門與列車門間的異物。ZHENG等[7]提出一種順序可更新異常檢測(cè)網(wǎng)絡(luò)來(lái)解決軌道中異物入侵的問(wèn)題。近年來(lái),視覺(jué)Transformer(ViT)完全依靠自注意力來(lái)捕獲長(zhǎng)程的全局關(guān)系,并取得了輝煌的成功。在短時(shí)間內(nèi),涌現(xiàn)出許多基于Transformer的改進(jìn)模型,并取得了比CNN更高的精度。由于CNN通過(guò)堆疊更多的卷積層來(lái)擴(kuò)大感受野,因此它只能對(duì)像素的局部依賴進(jìn)行建模??紤]到全局依賴在視覺(jué)任務(wù)中扮演著不可或缺的作用,Transformer能夠在任意圖像塊之間構(gòu)建長(zhǎng)程依賴的優(yōu)勢(shì)將被引入到本文算法中。
然而,基于Transformer的異常檢測(cè)方法仍然面臨著以下挑戰(zhàn):
1)圖像塊尺度受限。受內(nèi)存資源限制,DOSOVITSKIY等[8]提出的純ViT網(wǎng)絡(luò)僅接收粗粒度圖像塊(16×16像素)作為模型輸入以縮短數(shù)據(jù)序列的長(zhǎng)度。然而,網(wǎng)絡(luò)中生成的低分辨率特征圖對(duì)小尺度的異常目標(biāo)學(xué)習(xí)能力不足,表現(xiàn)出較低的檢測(cè)性能。細(xì)粒度的圖像塊輸入能夠具備較強(qiáng)的局部特征提取能力,但對(duì)計(jì)算資源的要求較高。因此,即使不同尺度的圖像塊能帶來(lái)更豐富的語(yǔ)義特征,現(xiàn)有的Transformer模型仍難以同時(shí)兼容多尺度的圖像塊輸入。
2)注意力機(jī)制的計(jì)算量過(guò)大。Transformer中多頭自注意力(MHSA)模塊的計(jì)算量和空間復(fù)雜度與圖像塊數(shù)量(圖像塊尺寸越小,劃分的數(shù)量越多)是呈二次相關(guān)的,如何輕量化自注意力機(jī)制并維持Transformer全局信息交互的優(yōu)勢(shì)尤為重要。
為增強(qiáng)Transformer對(duì)圖像局部細(xì)節(jié)信息的感知能力,本文提出一種雙通道Transformer來(lái)引入不同尺度的圖像塊作為輸入并完成特征映射變換,優(yōu)化Transformer在全局和局部特征上的表征性能。同時(shí),受SENet的啟發(fā),提出通道交叉注意力機(jī)制來(lái)實(shí)現(xiàn)Transformer網(wǎng)絡(luò)中不同尺度圖像塊輸出特征間的交互。此外,將級(jí)聯(lián)卷積模塊嵌入MHSA模塊中以縮短輸入序列長(zhǎng)度并學(xué)習(xí)到強(qiáng)大的上下文信息,極大地減少了模型的計(jì)算成本并促使DualFormer模型靈活地學(xué)習(xí)多尺度和高分辨率特征。
在深度學(xué)習(xí)中,CNN已經(jīng)成為目標(biāo)檢測(cè)的經(jīng)典框架,其代表性算法主要包括單階段檢測(cè)器(如SSD[9]、YOLOX[10]、RetinaNet[11]、TOOD[12])和兩階段檢測(cè)器(如Faster R-CNN[13]、Mask R-CNN[14]、Cascade R-CNN[15]、Sparse R-CNN[16])。兩階段檢測(cè)網(wǎng)絡(luò)通常包括候選區(qū)域的生成及分類2個(gè)步驟。Faster R-CNN[13]是兩階段檢測(cè)網(wǎng)絡(luò)的里程碑,其首先利用區(qū)域候選方法在輸入圖像中映射出目標(biāo)候選區(qū)域,然后識(shí)別不同候選目標(biāo)實(shí)現(xiàn)密集預(yù)測(cè)。Cascade R-CNN[15]基于多閾值交并比(IoU)檢測(cè)子網(wǎng)絡(luò)的級(jí)聯(lián)結(jié)構(gòu),避免了單個(gè)模塊檢測(cè)網(wǎng)絡(luò)設(shè)置閾值時(shí)的矛盾,顯著提升了模型準(zhǔn)確率。Sparse R-CNN[16]拋棄了對(duì)密集候選框的依賴,省略了基于非極大值抑制(NMS)算法的后處理過(guò)程,通過(guò)一種純稀疏的方式提升了檢測(cè)速度。單階段檢測(cè)網(wǎng)絡(luò)則無(wú)需生成區(qū)域候選的階段,而是直接預(yù)測(cè)目標(biāo)的類別和位置坐標(biāo)。YOLO[17]將圖像劃分為多個(gè)網(wǎng)格,可以一次性輸出所有檢測(cè)到的目標(biāo)信息。然而,YOLO對(duì)小目標(biāo)的檢測(cè)性能有所不足。為了緩解該問(wèn)題,SSD[9]在多個(gè)尺度的特征圖上分別檢測(cè)不同尺寸的目標(biāo),在減小計(jì)算復(fù)雜度的同時(shí),實(shí)現(xiàn)了與Faster R-CNN相當(dāng)?shù)臏?zhǔn)確性。此外,RetinaNet[11]提出了一個(gè)新的分類損失Focal Loss,解決了訓(xùn)練過(guò)程中正負(fù)樣本不均衡的問(wèn)題,VarifocalNet[18]則提出了Varifocal Loss來(lái)優(yōu)化密集目標(biāo)檢測(cè)任務(wù)。TOOD[12]設(shè)計(jì)了一種新穎的任務(wù)對(duì)齊頭部(T-Head),對(duì)現(xiàn)有單階段檢測(cè)器分類與定位中存在的非對(duì)齊問(wèn)題進(jìn)行平衡,進(jìn)一步提高了算法的準(zhǔn)確性。
相比之下,單階段網(wǎng)絡(luò)速度更快,而雙階段網(wǎng)絡(luò)精度更具優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)的共性在于需要堆疊更深的網(wǎng)絡(luò)層來(lái)獲取更大的感受野,提升全局上下文信息的提取性能。本文的關(guān)注點(diǎn)更傾向于具有長(zhǎng)程特征提取優(yōu)勢(shì)的Transformer網(wǎng)絡(luò)。
隨著圖像分類網(wǎng)絡(luò)ViT[8]和目標(biāo)檢測(cè)網(wǎng)絡(luò)DETR[19]的提出,研究人員對(duì)它們的變體進(jìn)行了廣泛的研究。ViT先將圖像劃分為無(wú)重疊、固定大小的圖像塊,并將圖像塊拉平為一維向量進(jìn)行線性投影實(shí)現(xiàn)特征提取。在骨干網(wǎng)絡(luò)設(shè)計(jì)中,針對(duì)ViT局部信息容易受損的問(wèn)題,Swin Transformer[20]利用局部注意力思想和位移窗口多頭注意力機(jī)制(SW-MSA)來(lái)實(shí)現(xiàn)局部與全局特征的交互,在多個(gè)視覺(jué)任務(wù)上達(dá)到了較好的結(jié)果。DeiT[21]通過(guò)知識(shí)蒸餾的方式來(lái)減少訓(xùn)練ViT[8]所需的計(jì)算資源。此外,CvT[22]將Transformer模塊中每個(gè)自注意塊之前的線性投影替換為卷積投影,在引入CNN中固有的移動(dòng)、縮放和失真不變性等優(yōu)勢(shì)的同時(shí),保持了Transformer中動(dòng)態(tài)關(guān)注和全局上下文的特性。DETR[19]模型是目標(biāo)檢測(cè)領(lǐng)域的又一里程碑,它利用Transformer解碼器將目標(biāo)檢測(cè)看作一個(gè)目標(biāo)集的預(yù)測(cè)問(wèn)題,成功消除了NMS等繁瑣的后處理過(guò)程。Deformerble DETR[23]提出了一種可變形注意機(jī)制,緩解了DETR收斂緩慢和特征分辨率有限的問(wèn)題。然而,這些算法在多尺度密集預(yù)測(cè)任務(wù)上表現(xiàn)并不理想。因此,一些學(xué)者模仿了CNN的架構(gòu),為Transformer構(gòu)建類似的多尺度金字塔特征層以適應(yīng)密集預(yù)測(cè)的需求,如PVT[24]、P2T[25]等。此外,為了實(shí)現(xiàn)模型的輕量化,在MHSA模塊中引入池化操作來(lái)縮減Value和Key的長(zhǎng)度,減少模型內(nèi)存占用。
深度學(xué)習(xí)的巨大成功使得其在地鐵異物檢測(cè)中受到青睞。劉偉銘等[26]提出了一種結(jié)合語(yǔ)義分割和背景參考的前景檢測(cè)方法,通過(guò)背景差分的方式檢測(cè)地鐵中存在的異物。LIU等[27]利用生成對(duì)抗網(wǎng)絡(luò)將異常圖片重新生成為正常圖片,利用輸入與輸出圖片間的差異來(lái)定位異常。然而,這些基于圖像像素差異或特征差異的方法只能判斷異物的存在,無(wú)法進(jìn)一步辨識(shí)異物類別。由于不同類型異物危害等級(jí)有所區(qū)別,因此地鐵工作人員的應(yīng)對(duì)措施具有很大差異。例如:小型或柔軟異物對(duì)列車運(yùn)行的安全威脅小,風(fēng)險(xiǎn)等級(jí)低,通常不會(huì)延誤列車的正常發(fā)車;夾人事件則對(duì)應(yīng)最高的危險(xiǎn)等級(jí),須立即停車并實(shí)施應(yīng)急方案。DAI等[28]改進(jìn)了CNN算法來(lái)檢測(cè)地鐵風(fēng)險(xiǎn)空間中的異物,證明了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在該任務(wù)中的潛力。然而,所提方法的檢測(cè)精度還有待提升。本文結(jié)合Transformer和CNN的優(yōu)勢(shì)來(lái)提升算法檢測(cè)精度,并進(jìn)一步緩解Transformer參數(shù)量大的問(wèn)題。
DualFormer整體架構(gòu)如圖1所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版本,下同),主要包括3個(gè)部分:基于雙通道策略的Transformer(作為骨干網(wǎng)絡(luò));基于通道交叉注意力的多尺度特征聚合;基于特征金字塔網(wǎng)絡(luò)(FPN)[29]的異常目標(biāo)檢測(cè)。
圖1 DualFormer網(wǎng)絡(luò)架構(gòu)Fig.1 The architecture of DualFormer network
首先將輸入圖片劃分成2種不同尺寸的圖像塊(Patch),并將這些具有不同尺寸的圖像塊分別放入2個(gè)不同的Transformer網(wǎng)絡(luò)分支中進(jìn)行特征提取。骨干網(wǎng)絡(luò)包括4個(gè)階段(Stage),對(duì)每個(gè)階段中2個(gè)分支網(wǎng)絡(luò)的輸出利用通道交叉注意力機(jī)制進(jìn)行交互,使得提取到的特征能夠在特征通道上深層次融合,避免局部信息的損失。然后,將聚合后的4個(gè)特征輸入FPN構(gòu)造5個(gè)不同尺度的特征圖進(jìn)行目標(biāo)定位和分類。
ViT將圖像劃分為多個(gè)圖像塊以使它們轉(zhuǎn)換為序列。圖像塊的大小及數(shù)量影響著算法的速度和精度:較小的圖像塊具有較高的精度,但導(dǎo)致更高的耗時(shí);較大的圖像塊具有較低的耗時(shí),但檢測(cè)精度欠佳。此外,自注意力機(jī)制雖然能夠有效地建立圖像塊之間的遠(yuǎn)程依賴關(guān)系,但大圖像塊在訓(xùn)練過(guò)程中容易忽略其自身內(nèi)部的結(jié)構(gòu)特征和細(xì)節(jié)信息。因此,本文提出一種雙通道Transformer骨干網(wǎng)絡(luò),利用不同的網(wǎng)絡(luò)通道提取2種不同尺度圖像塊的上下文信息,并設(shè)計(jì)一種金字塔輕量化Transformer塊來(lái)減少模型的計(jì)算參數(shù),實(shí)現(xiàn)精度與速度的平衡。
以圖像I∈3×H×W作為輸入,雙通道Transformer首先將其分割成尺寸為的大圖像塊和尺寸為的小圖像塊。定義4×4×3或8×8×3的圖像塊為一個(gè)元素,每個(gè)元素具有48維。與PVT[24]相似,將這些平鋪的圖像塊輸入到一個(gè)Patch embedding模塊,該模塊包括一個(gè)線性投影層,然后添加一個(gè)可學(xué)習(xí)的位置編碼以保證圖像塊的相對(duì)位置信息不被丟失。Patch embedding首先將輸入特征維度從48維擴(kuò)展到C1維,然后對(duì)2.2節(jié)中引入的金字塔輕量化Transformer塊進(jìn)行堆疊。如圖1所示,整個(gè)骨干網(wǎng)絡(luò)可分為4個(gè)階段,其特征維度分別為{C1,C2,C3,C4}。在每2個(gè)階段之間,上一階段輸出特征中每個(gè)2×2圖像塊組合將被拼接起來(lái),并通過(guò)深度可分離卷積[30]將特征維度從4×Ci維投影到Ci+1維(i∈{1,3})。2個(gè)Transformer分支中4個(gè)階段的尺度分別變?yōu)楹驮谶@4個(gè)不同階段中,每個(gè)分支將分別產(chǎn)生4個(gè)特征表示,包括粗粒度特征{b1,b2,b3,b4}和細(xì)粒度特征{s1,s2,s3,s4}。
ViT的計(jì)算成本和內(nèi)存消耗即使對(duì)于普通大小的輸入圖像也相對(duì)較高。本文設(shè)計(jì)的雙通道網(wǎng)絡(luò)同樣受到該問(wèn)題的困擾。為此,將級(jí)聯(lián)卷積引入多頭自注意力層,提出一種金字塔輕量化Transformer塊。它能夠減少Transformer的計(jì)算與內(nèi)存消耗,促進(jìn)雙通道網(wǎng)絡(luò)靈活地學(xué)習(xí)多尺度和高分辨率的特征。
傳統(tǒng)Transformer中的構(gòu)建塊通常由一個(gè)MHSA層和一個(gè)前饋網(wǎng)絡(luò)(FFN)組成。如圖2(a)所示,本文提出的金字塔輕量化Transformer塊在傳統(tǒng)的MHSA層中引入了級(jí)聯(lián)卷積。輸入首先通過(guò)基于級(jí)聯(lián)卷積的MHSA層(命名為CC-MHSA),輸出通過(guò)殘差連接方式[31]與輸入進(jìn)行相加,然后再經(jīng)過(guò)一個(gè)線性歸一化層(LayerNorm)[32]進(jìn)行處理。FFN的作用在于特征投影。接著,再次經(jīng)過(guò)殘差連接和一個(gè)線性歸一化層來(lái)得到輸出特征。
圖2 金字塔輕量化Transformer塊Fig.2 Pyramid lightweight Transformer block
CC-MHSA層如圖2(b)所示。首先,輸入X的形狀將被重塑為二維形式以便于卷積進(jìn)行處理。然后,在重塑后的X上分別應(yīng)用不同數(shù)量的級(jí)聯(lián)小卷積層(卷積核大小為3×3,步長(zhǎng)為2)來(lái)生成多尺度金字塔特征,例如:
(1)
(2)
與傳統(tǒng)MHSA中Q(query) 、K(key) 、V(value) 的值不同,本文對(duì)CC-MHSA中的Q、K、V進(jìn)行了轉(zhuǎn)變:
(Q,K,V)={Xwq,Xwk,Xwv}→
(3)
其中:wq、wk、wv分別表示Q、K、V的權(quán)重矩陣。自注意力計(jì)算公式如下:
(4)
其中:dk為K的通道維數(shù)。由于K和V的長(zhǎng)度遠(yuǎn)小于X,因此CC-MHSA的計(jì)算量遠(yuǎn)小于傳統(tǒng)的MHSA,具有更小的參數(shù)量和更低的內(nèi)存占用。此外,由于K和V包含高度抽象的多尺度語(yǔ)義信息,因此CC-MHSA具有更強(qiáng)的特征表達(dá)能力,有助于提升檢測(cè)精度。
從骨干網(wǎng)絡(luò)中獲得雙尺度輸出特征后,關(guān)鍵問(wèn)題在于如何有效地聚合它們來(lái)形成多尺度特征表示。最直接的方式是對(duì)粗粒度特征和細(xì)粒度特征直接拼接,然后利用一個(gè)卷積實(shí)現(xiàn)特征融合。然而,這種簡(jiǎn)單的方式無(wú)法充分利用不同尺度特征間的長(zhǎng)程和短程依賴關(guān)系。因此,本文提出一種新的通道交叉注意力模塊,利用通道注意力機(jī)制實(shí)現(xiàn)多尺度特征間的有效融合。
受到SENet的啟發(fā),本文將不同尺度特征圖上的空間和通道信息聚合得到交互特征。不同的是,SENet是一種自注意力機(jī)制,它通過(guò)建模特征圖自身通道之間的相互依賴關(guān)系來(lái)提高重要特征在網(wǎng)絡(luò)中的占比,而本文提出的通道交叉注意力模塊則考慮了不同尺度特征通道之間的權(quán)重關(guān)系,通過(guò)交叉訓(xùn)練促進(jìn)不同尺度全局特征間的交互。如圖3所示,所提出的通道交叉注意力模塊可以整合來(lái)自不同尺度的2個(gè)分支的特征。具體來(lái)說(shuō),對(duì)于同一階段的2個(gè)分支的輸出{si,bi},i∈(1,4),小尺度圖像塊分支的輸出Si形狀重塑為C×h1×w1,大尺度互補(bǔ)分支的輸出bi被重塑為C×h2×w2,其中,C代表特征通道數(shù),h和w代表各階段輸出特征圖的大小。首先,通過(guò)使用全局平均池化層分別將細(xì)粒度特征Si和粗粒度特征bi內(nèi)的全局空間信息壓縮到一個(gè)通道描述符中,這個(gè)通道描述符具有全局的感受野。隨后,依次通過(guò)全連接層、ReLU層和Sigmoid激活層來(lái)顯式地建模特征通道之間的相關(guān)性。第1個(gè)全連接層用于特征降維(降維比率為16),第2個(gè)全連接層用于特征升維(恢復(fù)為原始通道維數(shù))。處理后的全局特征分別表示為gglobal(bi)和gglobal(si)。接著,對(duì)特征圖gglobal(bi)和gglobal(si)進(jìn)行縮放,使得gglobal(bi)與Si的特征圖尺寸保持一致,gglobal(si)與bi的特征圖尺寸保持一致。最后,將全局通道特征與輸入特征進(jìn)行交叉融合,即gglobal(si)×bi,gglobal(bi)×si。通過(guò)交叉注意力融合方式,細(xì)粒度特征可以從大尺度圖像塊分支獲得粗粒度信息,粗粒度特征也同樣可以從小尺度圖像塊分支獲得細(xì)粒度信息。更重要的是,不同尺度的特征之間存在著間接的相互作用,可以有效地保持圖像塊周圍的局部連續(xù)性,避免Transformer網(wǎng)絡(luò)中局部細(xì)節(jié)信息的丟失。
圖3 通道交叉注意力機(jī)制Fig.3 Channel cross-attention mechanism
如圖1所示,融合后的4個(gè)特征圖輸入FPN構(gòu)造5個(gè)不同尺度的特征進(jìn)行目標(biāo)定位和分類。FPN[29]因在處理多尺度變化問(wèn)題和小目標(biāo)檢測(cè)方面的優(yōu)越性被廣泛使用在不同的檢測(cè)器中,如Faster R-CNN[13]、Mask R-CNN[14]、RetinaNet[11]等。因此,本文直接引入FPN來(lái)高效地處理這4個(gè)融合后的高級(jí)語(yǔ)義特征,實(shí)現(xiàn)目標(biāo)檢測(cè)與定位。
簡(jiǎn)單來(lái)說(shuō),FPN利用2×雙線性上采樣的方式將小特征圖放大到同上一個(gè)Stage的特征圖一樣的大小。同時(shí),為了將高層語(yǔ)義特征和底層的精確定位能力結(jié)合,其利用類似于殘差網(wǎng)絡(luò)的側(cè)向連接結(jié)構(gòu)將上采樣后的特征圖和當(dāng)前層特征圖通過(guò)相加的方式進(jìn)行融合。此外,利用一個(gè)3×3卷積對(duì)最底層特征進(jìn)行又一次的下采樣,增加一個(gè)尺度的特征以提升網(wǎng)絡(luò)檢測(cè)性能。
不同類別異常樣本數(shù)量不均衡,這種不平衡現(xiàn)象容易導(dǎo)致模型訓(xùn)練難度劇增。為了優(yōu)化檢測(cè)模型,本文直接采用Focal Loss[11]函數(shù)來(lái)促進(jìn)網(wǎng)絡(luò)的平穩(wěn)訓(xùn)練。分類損失函數(shù)表達(dá)式如下:
FL(pt)=-αt(1-pt)γlgpt
(5)
其中:pt是不同類別的分類概率;γ與αt都是大于0的固定值。從式(5)中可以看出,pt越大,權(quán)重值(1-pt)越小。因此,容易區(qū)分的類別對(duì)整體損失貢獻(xiàn)小,難以區(qū)分的類別則對(duì)損失貢獻(xiàn)大,這有利于誘導(dǎo)模型努力分辨難以訓(xùn)練的目標(biāo)類別,提升精度。αt用于調(diào)節(jié)正例(Positive)目標(biāo)和反例(Negative)目標(biāo)的比例,與γ的取值相互影響。因此,本文設(shè)γ=2,α=0.25,調(diào)節(jié)損失函數(shù)對(duì)難識(shí)別樣本和易識(shí)別樣本的權(quán)重。
此外,定位損失函數(shù)表達(dá)式定義為L(zhǎng)1 loss,用以回歸預(yù)測(cè)框的準(zhǔn)確位置:
(6)
其中:pi和ti分別代表預(yù)測(cè)框和ground-truth中左上角和右下角坐標(biāo)位置信息;n代表圖片中目標(biāo)的數(shù)量。
因此,檢測(cè)模型的整體損失函數(shù)為:
LLoss=FL(pt)+Lloss(x,y)
(7)
與其他風(fēng)格的Transformer模型一樣,本文的雙通道Transformer網(wǎng)絡(luò)包含幾個(gè)具有不同參數(shù)的模型,它們共享相同的架構(gòu),但網(wǎng)絡(luò)寬度和深度不同。在本文研究中,為了在精度和速度之間進(jìn)行更好的權(quán)衡,設(shè)置了3種不同的檢測(cè)模型:small,base,larger,具體的參數(shù)如表1所示。其中:圖像輸入尺寸為640×640像素(H×W),C1、C2、C3、C4為不同構(gòu)建塊內(nèi)特征的通道數(shù),N為不同階段CC-MHSA設(shè)置的卷積數(shù)量。圖像首先經(jīng)過(guò)一個(gè)7×7卷積層實(shí)現(xiàn)特征采樣,并將特征通道數(shù)調(diào)整為48,然后依次經(jīng)過(guò)4個(gè)階段進(jìn)行處理。在后續(xù)實(shí)驗(yàn)中,將展示這些變體的性能。
表1 DualFormer網(wǎng)絡(luò)的變體Table 1 Variations of DualFormer network
由于地鐵異物檢測(cè)數(shù)據(jù)集匱乏,通過(guò)在地鐵站中放置異物來(lái)收集和構(gòu)建一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(MAD)進(jìn)行仿真測(cè)試,采集地點(diǎn)為廣州某地鐵站。地鐵風(fēng)險(xiǎn)空間是指列車在站??科陂g,屏蔽門與列車之間、站臺(tái)水平面至列車車門頂水平面之間、屏蔽門垂直面與列車垂直輪廓面之間所形成的立體區(qū)域,見(jiàn)圖4藍(lán)色區(qū)域。
圖4 地鐵站臺(tái)列車門與屏蔽門間風(fēng)險(xiǎn)空間結(jié)構(gòu)圖Fig.4 Risk spatial structure diagram between metro platform train door and screen door
異物是指列車離站前,風(fēng)險(xiǎn)空間新增的影響地鐵設(shè)施、乘客安全和列車正常運(yùn)營(yíng)的人和物。本文收集了15種常見(jiàn)的不同類別物體來(lái)覆蓋大多數(shù)異物實(shí)例。構(gòu)建的MAD數(shù)據(jù)集包含5 854張圖像,它們包含的類別有粗繩、細(xì)繩、假發(fā)、書(shū)包、塑料袋、盒子、單肩包、錢包、手機(jī)、水瓶、傘、人、紙板、其他異物和正常?!按掷K”和“細(xì)繩”代表不同大小的兒童防丟失牽引繩。出于安全考慮,用假發(fā)代替真人頭發(fā)夾在門縫間。此外,“其他異物”代表了標(biāo)記它們時(shí)無(wú)法識(shí)別的物體或其他罕見(jiàn)的異常物體,“正常”則表示沒(méi)有異物。按照COCO[33]數(shù)據(jù)集的格式進(jìn)行數(shù)據(jù)標(biāo)注,并隨機(jī)抽取20%的數(shù)據(jù)作為測(cè)試集,其余80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。采集的圖片大小統(tǒng)一為640×480像素。MAD數(shù)據(jù)集中各類別異物的數(shù)量在表2中列出,MAD數(shù)據(jù)集的部分示例在圖5中展示(紅色框內(nèi)包含異物)。
表2 MAD數(shù)據(jù)集中各類物體圖片數(shù)量Table 2 Number of images of various objects in MAD dataset 單位:張
圖5 MAD數(shù)據(jù)集圖片樣例Fig.5 Sample images in MAD dataset
實(shí)驗(yàn)采用目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo),即平均精度均值(mAP)、每秒傳輸幀率(FPS)、每秒10億次浮點(diǎn)運(yùn)算數(shù)(GFLOPs)。平均精度(AP)計(jì)算可以定義為經(jīng)過(guò)插值的查準(zhǔn)率-查全率曲線與x軸包絡(luò)的面積。FPS用于評(píng)價(jià)模型的檢測(cè)速度,GFLOPs用于評(píng)估模型的復(fù)雜度。查準(zhǔn)率P和查全率R的公式表示如下:
(8)
其中:NTP、NFP和NFN分別表示正確匹配的目標(biāo)數(shù)、錯(cuò)誤匹配的預(yù)測(cè)目標(biāo)數(shù)和錯(cuò)誤匹配的真實(shí)目標(biāo)數(shù)。
基于PyTorch平臺(tái)和MMDetection[34]開(kāi)發(fā)工具,本文使用3個(gè)2080Ti GPU來(lái)進(jìn)行模型訓(xùn)練,采用與文獻(xiàn)[25]相似的訓(xùn)練技巧,并將AdamW設(shè)置為具有0.9動(dòng)量和0.000 1權(quán)重衰減的優(yōu)化算法。在MAD數(shù)據(jù)集上,初始學(xué)習(xí)率為0.000 1,batch size為16,模型的迭代次數(shù)為36次。
將本文提出的DualFormer與其他先進(jìn)的目標(biāo)檢測(cè)算法在MAD數(shù)據(jù)集上進(jìn)行對(duì)比,包括基于CNN的算法和基于Transformer的算法?;贑NN的算法包括VarifocalNet[18]、RetinaNet[11]、YOLOX[10]、ConvNeXt[35]、Mask R-CNN[14]和TOOD[12],基于Transformer的算法包括PVT[24]、Swin Transformer[20]、P2T[25]和Deformable DETR[23]。
表3列出了對(duì)比實(shí)驗(yàn)結(jié)果??梢钥闯?總體上,DualFormer網(wǎng)絡(luò)的性能優(yōu)于現(xiàn)有的目標(biāo)檢測(cè)算法。表中展示了AP、AP50、AP75、APS、APM和APL指標(biāo)的結(jié)果。APS、APM和APL分別表示文獻(xiàn)[33]中定義的小、中和大目標(biāo)的AP得分。與其他算法相比,DualFormer 的AP、AP50、AP75達(dá)到了最高值,證明了所提模型的有效性。此外,DualFormer在APS、APM和APL上相對(duì)排名第2的算法分別取得了2.7、0.6、0.5個(gè)百分點(diǎn)的增長(zhǎng),這驗(yàn)證了雙通道網(wǎng)絡(luò)在粗、細(xì)粒度特征聚合中的優(yōu)勢(shì)。
表3 MAD數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Comparative experimental results on MAD dataset
表3還給出了各模型時(shí)間和空間復(fù)雜度的比較。根據(jù)表1中不同變體的參數(shù)設(shè)置,可以在參數(shù)量和速度上進(jìn)行權(quán)衡。從對(duì)比結(jié)果中可以看出,DualFormer-small在具有最小參數(shù)量(1.98×107)和GFLOPs(6.29×1010)的情況下獲得了89.7%的檢測(cè)精度(AP50),在時(shí)間和空間復(fù)雜度上優(yōu)于其他對(duì)比算法。此外,隨著參數(shù)量的增加,DualFormer-base和DualFormer-lager能夠進(jìn)一步提升檢測(cè)精度(AP50)。圖6中展示了部分DualFormer算法的檢測(cè)結(jié)果。
圖6 部分檢測(cè)結(jié)果Fig.6 Partial test results
在本節(jié)中,對(duì)DualFormer網(wǎng)絡(luò)中不同組件和操作策略的作用和功效進(jìn)行分析。以DualFormer-small為基線進(jìn)行實(shí)驗(yàn)。
1)不同組件的性能分析。
如表4所示,設(shè)置5個(gè)實(shí)驗(yàn)組來(lái)驗(yàn)證雙通道策略、CC-MHSA和通道注意力機(jī)制的優(yōu)越性。實(shí)驗(yàn)組2和3將雙通道策略分別替換為大尺度(8×8圖像塊)和小尺度(4×4圖像塊)的單通道特征提取方式,并保持其他組件不變。從表中可以看出,雙通道策略的應(yīng)用使得評(píng)價(jià)指標(biāo)AP50明顯提高。與單通道模型相比,在精度上分別帶來(lái)了5.6和0.6個(gè)百分點(diǎn)的改進(jìn)。實(shí)驗(yàn)組4驗(yàn)證了CC-MHSA和MHSA之間精度和速度的差異,這表明CC-MHSA可以對(duì)輸入特征進(jìn)行壓縮并得到更強(qiáng)大的特征表示。實(shí)驗(yàn)組5將通道注意力機(jī)制替換為簡(jiǎn)單的融合機(jī)制,使得精度有0.4個(gè)百分點(diǎn)的下降。這驗(yàn)證了通道交叉注意力融合機(jī)制對(duì)粗、細(xì)粒度特征聚合的有效性。
表4 不同組件的消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experimental results of different components
2)級(jí)聯(lián)卷積數(shù)量。
為了驗(yàn)證級(jí)聯(lián)卷積數(shù)量的重要性,以DualFormer-small為基線進(jìn)行評(píng)估,結(jié)果如表5所示。可以看出,可以級(jí)聯(lián)卷積的數(shù)量越多,輸入序列的壓縮比越大,模型的運(yùn)算速度也越快。同時(shí),本文提出的CC-MHSA中有3個(gè)并行卷積操作,每個(gè)卷積通路有不同大小的感受野(級(jí)聯(lián)數(shù)量不同)。因此,壓縮后的特征能具有不同強(qiáng)度的語(yǔ)義表達(dá)。從表中可以看出,當(dāng)網(wǎng)絡(luò)模型中4個(gè)不同階段的CC-MHSA設(shè)置的卷積數(shù)量為{[5,4,3], [4,3,2], [3,2,1], [2,1,1]}時(shí),算法能夠達(dá)到最佳性能。由于網(wǎng)絡(luò)4個(gè)階段的特征有不同的尺度大小,因此不同階段的卷積數(shù)量呈梯次遞減的趨勢(shì)。
表5 CC-MHSA中不同級(jí)聯(lián)卷積數(shù)量的比較Table 5 Comparison of different cascade convolution quantity in CC-MHSA
3)壓縮方式的選擇。
最大池化、平均池化和級(jí)聯(lián)卷積是3種典型的特征壓縮方式。在表6的對(duì)比實(shí)驗(yàn)中,池化的步長(zhǎng)與級(jí)聯(lián)卷積的累積步長(zhǎng)相同,以保持相同的下降采樣率。相同的特征壓縮比率對(duì)網(wǎng)絡(luò)模型復(fù)雜度的影響較小,它們只影響模型參數(shù)量大小。相比池化操作,卷積操作將增加少量的參數(shù)計(jì)算。然而,級(jí)聯(lián)卷積帶來(lái)的精度提升明顯優(yōu)于另外2種選擇。平均池化和最大池化僅僅對(duì)特征進(jìn)行簡(jiǎn)單的抽樣,而級(jí)聯(lián)卷積可以高度概括輸入特征,得到更強(qiáng)的語(yǔ)義表示。因此,本文將級(jí)聯(lián)卷積作為最優(yōu)選。
表6 不同特征壓縮方式的比較Table 6 Comparison of different feature compression methods
本文提出了一種基于雙通道Transformer、金字塔輕量化Transformer塊和通道交叉注意力融合機(jī)制的DualFormer框架來(lái)檢測(cè)地鐵風(fēng)險(xiǎn)空間中的異物,及時(shí)為工作人員提供預(yù)警。雙通道策略緩解了現(xiàn)有Transformer方法在輸入圖像塊尺寸上的限制,引入了多尺度全局特征。通道交叉注意力融合機(jī)制使得不同尺度特征在通道中進(jìn)行深層次的交互,促進(jìn)了全局與局部信息的聚合。CC-MHSA利用級(jí)聯(lián)小卷積緩解了Transformer計(jì)算和內(nèi)存成本大的問(wèn)題。此外,分別給出DualFormer的3種變體,實(shí)現(xiàn)了模型速度和精度之間較好的平衡。在MAD數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了DualFormer的優(yōu)越性。在mAP、FPS、GFLOPs和模型參數(shù)量等評(píng)估指標(biāo)上,DualFormer模型均獲得了最優(yōu)性能。下一步工作將研究權(quán)重優(yōu)化問(wèn)題并探索模型量化等神經(jīng)網(wǎng)絡(luò)壓縮方法,在盡可能減少精度損失的前提下輕量化網(wǎng)絡(luò)模型,使其能夠在邊緣設(shè)備上進(jìn)行部署。