陳太光,鮑新平,汪 濤,李瑞斌
(1.國(guó)家能源集團(tuán)新疆能源公司,新疆 烏魯木齊 830000;2.陜西航泰電氣股份有限公司,陜西 西安 710199)
隨著煤礦智能化水平的提高,煤礦安全管理也越來(lái)越精細(xì)化,對(duì)新技術(shù)的要求也更加迫切。針對(duì)不斷開采延伸的煤礦巷道來(lái)說(shuō),如何精確地定位每個(gè)巷道的人員分布、數(shù)量和異常情況對(duì)于煤礦安全管理來(lái)說(shuō)至關(guān)重要。對(duì)于礦井人員的定位計(jì)數(shù),傳統(tǒng)的方式多采用紅外探測(cè)、UWB、LoRa 等無(wú)線通信技術(shù)。但紅外探測(cè)只能探測(cè)通過(guò)某個(gè)截面的人數(shù),當(dāng)多人并列行走出現(xiàn)遮擋時(shí),紅外探測(cè)并不能準(zhǔn)確識(shí)別出人員的數(shù)量[1];對(duì)于UWB 超寬帶定位技術(shù),需要部署通信基站,工程造價(jià)昂貴,并且UWB 定位需要每個(gè)下井人員佩戴電子標(biāo)簽,假如電子標(biāo)簽丟失、損壞也會(huì)造成定位偏差等情況[2]。
隨著深度學(xué)習(xí)目標(biāo)檢測(cè)和跟蹤技術(shù)的發(fā)展以及礦井巷道監(jiān)控相機(jī)的覆蓋,使用深度學(xué)習(xí)圖像處理技術(shù)對(duì)礦井巷道人員進(jìn)行實(shí)時(shí)統(tǒng)計(jì)分析成為研究熱點(diǎn)[3]。相比傳統(tǒng)的礦井人員計(jì)數(shù)技術(shù),利用監(jiān)控相機(jī)可見(jiàn)光進(jìn)行成像,通過(guò)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)所監(jiān)控的可視區(qū)域人員進(jìn)行實(shí)時(shí)監(jiān)控、統(tǒng)計(jì)分析、及時(shí)預(yù)警,不僅可以做到事后溯源,施工成本低,而且計(jì)數(shù)準(zhǔn)確率和實(shí)時(shí)性相對(duì)可靠。
為此,利用深度學(xué)習(xí)圖像識(shí)別技術(shù),基于多目標(biāo)檢測(cè)和跟蹤算法對(duì)礦井巷道人員進(jìn)行實(shí)時(shí)分析,針對(duì)礦井下特殊的成像環(huán)境,通過(guò)對(duì)現(xiàn)有多目標(biāo)跟蹤算法進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)礦井巷道人員的進(jìn)出數(shù)量進(jìn)行準(zhǔn)確統(tǒng)計(jì)。
使用深度學(xué)習(xí)多目標(biāo)跟蹤實(shí)現(xiàn)的計(jì)數(shù)方法[4]已在多個(gè)場(chǎng)景中得到研究和應(yīng)用。例如,使用多目標(biāo)跟蹤算法,在智能交通方面進(jìn)行了監(jiān)控視頻中車流量計(jì)數(shù)的應(yīng)用研究[5-6];在養(yǎng)殖產(chǎn)業(yè)的自動(dòng)化方面實(shí)現(xiàn)對(duì)羊只自動(dòng)計(jì)數(shù)的應(yīng)用研究[7];在人員計(jì)數(shù)方面,實(shí)現(xiàn)行人實(shí)時(shí)檢測(cè)與跟蹤,對(duì)地鐵客流量的統(tǒng)計(jì)進(jìn)行了應(yīng)用研究[8]??梢?jiàn)多目標(biāo)跟蹤[9-10]在目標(biāo)計(jì)數(shù)方面已經(jīng)得到廣泛的應(yīng)用。
基于深度學(xué)習(xí)的多目標(biāo)跟蹤技術(shù)包括2 階段方法和單階段方法2 大類。
2 階段方法是指基于檢測(cè)的跟蹤算法,檢測(cè)模型用于目標(biāo)定位,數(shù)據(jù)關(guān)聯(lián)模型實(shí)現(xiàn)跟蹤,檢測(cè)和關(guān)聯(lián)分2 步進(jìn)行,例如,SORT 或DeepSORT 結(jié)合檢測(cè)算法來(lái)實(shí)現(xiàn)目標(biāo)跟蹤。其中SORT 算法可結(jié)合了卡爾曼濾波器和匈牙利算法,實(shí)現(xiàn)了視頻幀到幀的預(yù)測(cè)和關(guān)聯(lián),結(jié)合檢測(cè)模型可以實(shí)現(xiàn)在線和實(shí)時(shí)跟蹤,達(dá)到了同時(shí)期最先進(jìn)的目標(biāo)跟蹤性能;Deep-SORT 算法延續(xù)了SORT 算法實(shí)現(xiàn)簡(jiǎn)單和實(shí)時(shí)運(yùn)行的優(yōu)點(diǎn),同時(shí)整合了外觀特征,對(duì)于長(zhǎng)時(shí)間遮擋的目標(biāo),大大減少了跟蹤ID 的切換。
單階段方法是指檢測(cè)模型和數(shù)據(jù)關(guān)聯(lián)模型共享特征同時(shí)進(jìn)行,不需要依賴單獨(dú)的檢測(cè)算法。其中JDE 算法聯(lián)合檢測(cè)和關(guān)聯(lián),將外觀嵌入模型合并到單次激發(fā)檢測(cè)器中,可以同時(shí)輸出檢測(cè)信息和相應(yīng)的外觀嵌入信息,降低了計(jì)算成本;CenterTrack 算法給出了1 個(gè)基于點(diǎn)的聯(lián)合檢測(cè)和跟蹤框架,通過(guò)在1 對(duì)圖像上執(zhí)行檢測(cè),并結(jié)合先前幀的目標(biāo)檢測(cè)結(jié)果來(lái)估計(jì)當(dāng)前幀的目標(biāo)運(yùn)動(dòng)情況,達(dá)到實(shí)時(shí)的跟蹤效果;FairMOT 算法認(rèn)為以往的單階段跟蹤算法偏向于檢測(cè)任務(wù),對(duì)Re-ID 任務(wù)不公平,容易導(dǎo)致ID切換,提出了基于無(wú)錨框目標(biāo)檢測(cè)體系結(jié)構(gòu)Center-Net 的公平跟蹤算法,減少了ID 切換。
YOLO 系列目標(biāo)檢測(cè)算法已經(jīng)發(fā)展得很成熟,在目標(biāo)檢測(cè)領(lǐng)域取得了卓越的效果,YOLO+Deep-SORT 實(shí)現(xiàn)目標(biāo)跟蹤的方案已經(jīng)被廣泛應(yīng)用在各個(gè)行業(yè),也是目前最受歡迎的多目標(biāo)跟蹤方案之一。YOLO 算法在煤礦行業(yè)同樣得到廣泛應(yīng)用,基于YOLOv3 算法已在多個(gè)項(xiàng)目中實(shí)現(xiàn)了對(duì)礦井巡檢人員進(jìn)行持續(xù)的檢測(cè)跟蹤,用于判斷井下工作人員巡檢時(shí)是否存在漏檢行為,和對(duì)礦井下安全帽佩戴進(jìn)行的檢測(cè),但是對(duì)于礦井人員計(jì)數(shù)方面研究較少。
由于環(huán)境的特殊性和復(fù)雜性,視頻成像夾雜大量噪聲,直接使用YOLO+DeepSORT 模型用于礦井人數(shù)統(tǒng)計(jì)還存在一些缺陷。在DeepSORT 中,對(duì)于目標(biāo)不存在遮擋的情況,跟蹤效果主要取決于檢測(cè)模型的檢測(cè)效果,當(dāng)存在遮擋時(shí),目標(biāo)的特征提取也顯得很重要。在原本的DeepSORT 結(jié)構(gòu)中,使用了1 個(gè)CNN 網(wǎng)絡(luò)用于提取目標(biāo)特征,但是原本的CNN 網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于簡(jiǎn)單,沒(méi)有提取到更豐富的目標(biāo)特征。礦井環(huán)境下光照不足畫面模糊的情況很多,實(shí)驗(yàn)表明,對(duì)于這種情況跟蹤效果不佳,出現(xiàn)ID 切換的情況較多,跟蹤不準(zhǔn)確的情況如圖1。
圖1 跟蹤不準(zhǔn)確的情況Fig.1 Examples of inaccurate tracking
如圖1,當(dāng)發(fā)生遮擋之后又重新出現(xiàn)的人,ID 發(fā)生了切換,圖1(a)中ID 為7 的人被遮擋后重新出現(xiàn),圖1(b)中ID 變成了9;對(duì)于大燈照耀或者光照不足的情況下,也容易跟丟,如圖1(c)和圖1(d)情況。
基于上述原因,針對(duì)DeepSORT 進(jìn)行改進(jìn),再結(jié)合YOLOv5 檢測(cè)算法,實(shí)現(xiàn)礦井下人員的穩(wěn)定跟蹤計(jì)數(shù)。
針對(duì)DeepSORT 的目標(biāo)特征提取部分進(jìn)行改進(jìn),使用Re-ID 特征提取模型OSNet 代替原本的CNN 模型。OSNet 是1 個(gè)使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積的輕量級(jí)網(wǎng)絡(luò),它通過(guò)設(shè)計(jì)1 種由多個(gè)卷積特征流組成的殘差塊,每個(gè)殘差塊檢測(cè)一定尺度的特征來(lái)實(shí)現(xiàn)全尺度特征學(xué)習(xí)。在礦井里面,工人穿著基本統(tǒng)一,使得不同人之間的差異很小,特別是在畫面稍有模糊的情況下更是如此,為了正確匹配同一個(gè)人和區(qū)分不同的人,局部小區(qū)域的特征和整體身體區(qū)域的特征是同樣重要的,支持全尺度特征學(xué)習(xí)的OSNet 正符合這樣的需求。此外,OSNet 具備輕量的特點(diǎn),更適合用在礦井安全監(jiān)控設(shè)備等算力有限的環(huán)境中。
在OSNet 中,構(gòu)建塊由多個(gè)感受野的不同卷積特征流組成,每個(gè)特征流所關(guān)注的特征尺度由1 個(gè)維度因子決定,維度因子跨流線性增加,以確保每個(gè)塊中捕獲不同尺度,然后通過(guò)聚合門動(dòng)態(tài)融合得到的多尺度特征圖。OSNet 構(gòu)建塊示意圖如圖2。
圖2 OSNet 構(gòu)建塊示意圖Fig.2 Building block schematic of OSNet
由圖2 可知,聚合門可以根據(jù)特定的輸入圖像,通過(guò)為特定的尺度分配主導(dǎo)權(quán)重來(lái)聚焦于單個(gè)尺度,它可以自適應(yīng)混合,對(duì)多尺度特征進(jìn)行動(dòng)態(tài)聚合,從而產(chǎn)生異構(gòu)的全尺度特征。
另外,為了減少參數(shù)的數(shù)量,OSNet 采用了深度可分離卷積,將標(biāo)準(zhǔn)卷積分為點(diǎn)卷積和深度卷積2層,計(jì)算量由h*w*k2*c*c′減少到了h*w*(k2+c)*c′,參數(shù)個(gè)數(shù)由k2*c*c′減少到了(k2+c)*c′。其中:
h 為高;w 為寬;k 為卷積核大小;c 為輸入通道的深度;c′為輸出通道的深度。
算法總體流程如圖3。
圖3 算法總體流程圖Fig.3 Algorithm process
視頻每一幀圖像通過(guò)YOLOv5 模型得到目標(biāo)檢測(cè)結(jié)果,檢測(cè)結(jié)果中包含了目標(biāo)檢測(cè)框的位置坐標(biāo)、置信度和類別,將檢測(cè)結(jié)果傳入OSNet 特征提取網(wǎng)絡(luò),從原圖中裁剪出檢測(cè)到的目標(biāo),提取所有檢測(cè)目標(biāo)的特征。通過(guò)卡爾曼濾波器,根據(jù)之前的運(yùn)動(dòng)狀態(tài)預(yù)測(cè)當(dāng)前幀的運(yùn)動(dòng)狀態(tài)。然后從已存在的軌跡中劃分出確認(rèn)態(tài)軌跡和未確認(rèn)態(tài)軌跡,使用OSNet提取到的外觀特征對(duì)確認(rèn)的軌跡和當(dāng)前的檢測(cè)框進(jìn)行關(guān)聯(lián)。沒(méi)有匹配上的跟蹤框和未確認(rèn)的跟蹤框一起去跟未匹配的檢測(cè)框基于IOU 損失做匈牙利匹配。對(duì)于匹配的跟蹤框,則拿去更新軌跡。
基于ROI 區(qū)域的計(jì)數(shù)方法示意圖如圖4。
圖4 基于ROI 區(qū)域的計(jì)數(shù)方法示意圖Fig.4 Example of counting based on ROI area
在視頻畫面中設(shè)置ROI 區(qū)域,ROI 區(qū)域中設(shè)置1 條判斷進(jìn)出的參考線,當(dāng)1 個(gè)人進(jìn)入ROI 區(qū)域時(shí)開始進(jìn)行跟蹤,離開時(shí)停止跟蹤。如果1 個(gè)人朝著入口方向移動(dòng)并穿過(guò)進(jìn)出判斷參考線,說(shuō)明是進(jìn)入當(dāng)前巷道,該巷道人數(shù)加1,如果是朝出口方向移動(dòng)并穿過(guò)進(jìn)出判斷參考線,說(shuō)明是離開當(dāng)前巷道,則該巷道人數(shù)減1。
訓(xùn)練策略是YOLOv5 檢測(cè)模型和OSNet 特征提取模型分開單獨(dú)訓(xùn)練,為此準(zhǔn)備了相應(yīng)的數(shù)據(jù)集。
針對(duì)YOLOv5 的訓(xùn)練數(shù)據(jù)集,為了保證數(shù)據(jù)的質(zhì)量,提升模型的魯棒性,采集了礦井下多個(gè)場(chǎng)景的圖像數(shù)據(jù),最后經(jīng)過(guò)篩選選出10 000 張圖像作為數(shù)據(jù)集進(jìn)行標(biāo)注用于訓(xùn)練和測(cè)試,數(shù)據(jù)集僅僅包含礦工一類標(biāo)注目標(biāo), 其中8 000 張用于訓(xùn)練,2 000張用于測(cè)試。對(duì)于數(shù)據(jù)集的標(biāo)注,借助makesense 工具采用人工標(biāo)注。
訓(xùn)練模型時(shí),對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了Mosaic 數(shù)據(jù)增強(qiáng),Mosaic 數(shù)據(jù)增強(qiáng)示例如圖5。也就是選4 張圖片,采用隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布的方式進(jìn)行拼接。這樣做豐富數(shù)據(jù)集的同時(shí)增加了許多小目標(biāo),可以提高網(wǎng)絡(luò)的魯棒性。
圖5 Mosaic 數(shù)據(jù)增強(qiáng)示例Fig.5 Examples of Mosaic data enhancement
針對(duì)Re-ID 特征提取模型OSNet 的訓(xùn)練數(shù)據(jù),通過(guò)人工裁剪從監(jiān)控視頻畫面中裁剪出1 張張僅包含1 個(gè)人的圖片,圖片大小為256×128。訓(xùn)練集包含4 000 張圖片,100 個(gè)人,每個(gè)人40 張;測(cè)試集包含1 000 張圖片,100 個(gè)人,每個(gè)人10 張。每個(gè)人隨機(jī)選2 張作為query,剩下的作為gallery。
采用2 階段的跟蹤模型,首先單獨(dú)訓(xùn)練YOLOv5,使用的圖片尺寸為640×368,batch-size 為8,epochs 為300。使用預(yù)訓(xùn)練的YOLOv5s 進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束時(shí),mAP_0.5:95 為0.52,mAP_0.5 為0.76,precision 為0.79,recall 為0.66。然后,單獨(dú)訓(xùn)練Re-ID 特征提取模型OSNet,使用在ImageNet 上進(jìn)行預(yù)訓(xùn)練的模型進(jìn)行訓(xùn)練,使用的圖片尺寸為256×128,batch-size 為8,epochs 為200。訓(xùn)練結(jié)束時(shí)Rank-1為91.4 %,mAP 為80.8%。最后,將2 種模型進(jìn)行級(jí)聯(lián)測(cè)試驗(yàn)證跟蹤效果。
通過(guò)實(shí)驗(yàn),采集200 段礦井監(jiān)控設(shè)備拍攝到的視頻片段測(cè)試跟蹤計(jì)數(shù)效果,先將訓(xùn)練好的目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5 和原生的DeepSORT 結(jié)合進(jìn)行跟蹤測(cè)試,然后使用訓(xùn)練好的目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5 和融合了OSNet 的DeepSORT 結(jié)合進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表1,視頻跟蹤效果示例如圖6。
表1 實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results
圖6 視頻跟蹤效果示例Fig.6 Examples of video tracking effects
從實(shí)驗(yàn)結(jié)果可以看出,使用OSNet 的跟蹤效果明顯優(yōu)于原生DeepSORT 的效果??梢?jiàn)提出的基于Re-ID 特征提取模型對(duì)礦井下復(fù)雜的成像環(huán)境更友好,而改進(jìn)后的模型對(duì)于遮擋的目標(biāo)也實(shí)現(xiàn)了穩(wěn)定跟蹤。
使用YOLO v5 作為目標(biāo)檢測(cè)器,結(jié)合改進(jìn)的DeepSORT 跟蹤算法進(jìn)行礦井人員跟蹤,實(shí)現(xiàn)煤礦礦井各個(gè)巷道區(qū)域的人員計(jì)數(shù),在煤礦發(fā)生安全事故時(shí)可以明確地掌握各個(gè)區(qū)域的人員情況,為安排營(yíng)救計(jì)劃提供支持。分析并通過(guò)實(shí)驗(yàn)說(shuō)明了Deep-SORT 存在的缺陷,以及應(yīng)用在礦井場(chǎng)景下的不足,并針對(duì)性地對(duì)目標(biāo)特征提取部分進(jìn)行改進(jìn),使用全尺度特征學(xué)習(xí)且輕量化的Re-ID 特征提取模型OSNet 替代DeepSORT 中的原本的CNN 特征提取模型;采用了檢測(cè)器和Re-ID 特征提取模型單獨(dú)訓(xùn)練的訓(xùn)練策略,并取得了很好的效果;在實(shí)現(xiàn)人員穩(wěn)定跟蹤的基礎(chǔ)上通過(guò)在視頻畫面中設(shè)置ROI 區(qū)域來(lái)跟蹤人員進(jìn)出方向進(jìn)行人數(shù)統(tǒng)計(jì)。改進(jìn)后的跟蹤模型取得了很好的效果。