程 健 ,李 昊 ,馬 昆 ,劉 斌 ,孫大智 ,馬永壯 ,殷 罡 ,王廣福 ,李和平
(1.煤炭科學(xué)研究總院有限公司 礦山大數(shù)據(jù)研究院, 北京 100013;2.天地科技股份有限公司, 北京 100013;3.煤炭智能開采與巖層控制全國重點(diǎn)實(shí)驗(yàn)室, 北京 100013;4.國家能源集團(tuán)寧夏煤業(yè)有限責(zé)任公司 金家渠煤礦, 寧夏 銀川 750410;5.國家能源集團(tuán)寧夏煤業(yè)有限責(zé)任公司 羊場灣煤礦, 寧夏 銀川 750411)
以煤為主的能源結(jié)構(gòu)是我國的基本國情,當(dāng)前我國煤炭工業(yè)正轉(zhuǎn)向高質(zhì)量發(fā)展階段[1]。煤礦智能化則是煤炭工業(yè)高質(zhì)量發(fā)展的核心技術(shù)支撐[2],旨在利用人工智能、大數(shù)據(jù)、機(jī)器人等技術(shù)手段,實(shí)現(xiàn)煤礦開拓、采掘(剝)、運(yùn)輸、通風(fēng)、分選、安全保障、經(jīng)營管理等過程的智能化運(yùn)行,提升煤礦安全生產(chǎn)水平,促進(jìn)煤炭安全穩(wěn)定供應(yīng),保障國家能源安全。
煤礦井下地質(zhì)條件及現(xiàn)場工作狀況復(fù)雜,不確定性高,危險(xiǎn)系數(shù)大,因此,遠(yuǎn)離這種復(fù)雜環(huán)境、實(shí)現(xiàn)智能化無人操作,一直是國內(nèi)外煤炭行業(yè)普遍的需求[3-4]。雖然目前我國煤礦對智能化開采的需求非常旺盛,相關(guān)研究者前期在智能化開采技術(shù)手段、解決方案方面做了大量探索[5-6],一些煤礦在煤炭智能化開采方面也進(jìn)行了試驗(yàn)與生產(chǎn),在綜采工作面的安全保證、工程質(zhì)量與作業(yè)效率方面得到了一定的提高,但是這離煤礦真正實(shí)現(xiàn)智能化、無人化的常態(tài)化應(yīng)用還存在較大差距,主要原因是智能礦山建設(shè)相關(guān)的支撐理論和方法有待進(jìn)一步突破和完善,而煤礦井下環(huán)境感知與計(jì)算理論和實(shí)踐就是關(guān)鍵之一。
機(jī)器視覺作為煤礦井下環(huán)境感知與計(jì)算的重要手段[7],已經(jīng)在國內(nèi)一些企業(yè)進(jìn)行了部分產(chǎn)品的應(yīng)用與推廣,比如研發(fā)了煤礦掘進(jìn)工作面危險(xiǎn)區(qū)域標(biāo)準(zhǔn)化作業(yè)識(shí)別分析系統(tǒng)、提升機(jī)首尾繩視頻智能檢測系統(tǒng)、礦山區(qū)域限員視頻智能監(jiān)控系統(tǒng)、煤礦生產(chǎn)三違智能視頻識(shí)別管理系統(tǒng)以及煤礦“電子封條”等;推出了基于端側(cè)接入、邊側(cè)推理、云端管理一體化架構(gòu)的煤礦人工智能(Artificial Intelligence,AI)視頻識(shí)別系統(tǒng),解決煤礦安全生產(chǎn)問題和提高煤礦生產(chǎn)效率。上述感知與計(jì)算系統(tǒng)主要是基于二維圖像感知技術(shù),在煤礦井下可控場景下得到了有效應(yīng)用,但還需要深入探索適合光場分布多變、高濕高熱、水霧粉塵多、狹窄長通道結(jié)構(gòu)明顯等煤礦復(fù)雜環(huán)境下的視覺計(jì)算理論與技術(shù)。
首先圍繞煤礦井下視覺計(jì)算的基本概念,比較分析計(jì)算機(jī)視覺與煤礦井下視覺計(jì)算的異同,總結(jié)提出煤礦井下視覺計(jì)算的組成架構(gòu)體系。在此基礎(chǔ)上,詳細(xì)介紹煤礦井下視覺計(jì)算所涉及的視覺感知與增強(qiáng)、特征提取與特征描述、語義學(xué)習(xí)與視覺理解、三維視覺與空間重建、感算一體與邊緣智能等關(guān)鍵技術(shù),并簡要介紹視覺計(jì)算在煤礦井下的典型應(yīng)用案例,最后給出煤礦井下視覺計(jì)算的發(fā)展趨勢和展望。
人工智能專家David Marr 首先提出了視覺計(jì)算理論[8],即視覺信息處理理論,設(shè)計(jì)了一個(gè)多級的、自下而上的視覺計(jì)算框架。2010 年在David Marr 遺作[8]再版時(shí),David Marr 當(dāng)年的合作者Tomaso Poggio 在上述視覺計(jì)算框架下補(bǔ)充了一個(gè)學(xué)習(xí)層,并認(rèn)為學(xué)習(xí)是視覺計(jì)算高層表示中非常重要的成分。馬頌德等[9]通過引進(jìn)視覺系統(tǒng)與視覺環(huán)境和模型知識(shí)的交互作用、局部信息與整體信息的交互作用,構(gòu)建了新的視覺計(jì)算理論框架。謝劍斌[10]將圖像增強(qiáng)與分割、特征檢測與描述、聚類處理、運(yùn)動(dòng)檢測等歸為視覺計(jì)算。
Marr 視覺計(jì)算理論的提出,標(biāo)志著計(jì)算機(jī)視覺成為了一門獨(dú)立的學(xué)科。從廣義上說,計(jì)算機(jī)視覺就是“賦予機(jī)器自然視覺能力”的學(xué)科,而其本質(zhì)上就是研究視覺感知問題[11]。根據(jù)Wikipedia 的定義,視覺感知是指對“環(huán)境表達(dá)和理解中,對視覺信息的組織、識(shí)別和解釋的過程”。因此,計(jì)算機(jī)視覺是以圖像或視頻為輸入,以對環(huán)境的表達(dá)和理解為目標(biāo),研究圖像或視頻信息組織、物體和場景識(shí)別、進(jìn)而對事件給予解釋的學(xué)科。可見,計(jì)算機(jī)視覺是用計(jì)算機(jī)來模擬人的視覺機(jī)理和視覺信息處理的能力。
礦井視覺計(jì)算的主要目標(biāo)是針對礦井這一特定的應(yīng)用領(lǐng)域,研究煤礦井下環(huán)境的感知、描述、識(shí)別和理解模型與框架,以使智能裝備具有通過圖像或視頻感知煤礦井下三維環(huán)境信息的能力。礦井視覺計(jì)算對推動(dòng)煤礦智能化高質(zhì)量發(fā)展具有十分重要的理論意義,能夠增強(qiáng)煤礦井下環(huán)境感知能力,促進(jìn)煤礦安全生產(chǎn)與監(jiān)管從二維感知時(shí)代進(jìn)入三維感知時(shí)代,也將與傳統(tǒng)采礦技術(shù)相結(jié)合開辟新的應(yīng)用領(lǐng)域。
當(dāng)視覺計(jì)算應(yīng)用到不同領(lǐng)域的時(shí)候,由于應(yīng)用環(huán)境的差異,可能會(huì)涉及到多個(gè)不同的專業(yè)理論與技術(shù)。圖1 給出了礦井視覺計(jì)算的體系架構(gòu)。這里,針對煤礦智能化應(yīng)用,礦井視覺計(jì)算主要基于不同視覺傳感器數(shù)據(jù),構(gòu)建煤礦井下感知、描述、識(shí)別和理解等計(jì)算模型,獲取煤礦井下三維環(huán)境信息,主要涉及到煤礦井下視覺感知與增強(qiáng)、特征提取與特征描述、語義學(xué)習(xí)與視覺理解、三維視覺與空間重建等關(guān)鍵基礎(chǔ)技術(shù)領(lǐng)域,以及相關(guān)模型在邊緣端的應(yīng)用技術(shù),重點(diǎn)包括模型輕量化智能計(jì)算技術(shù)和數(shù)據(jù)協(xié)同邊緣計(jì)算技術(shù),在此基礎(chǔ)上,進(jìn)行智能識(shí)別與預(yù)警、定位與導(dǎo)航、遠(yuǎn)程臨場感操控、增強(qiáng)/混合現(xiàn)實(shí)、平行智能采礦[12]等煤礦智能化應(yīng)用。
圖1 礦井視覺計(jì)算的體系架構(gòu)Fig.1 Architecture of vision computing for underground coalmine
視覺感知技術(shù)作為計(jì)算機(jī)獲取外部世界信息的重要方式,已經(jīng)廣泛應(yīng)用到煤礦井下各種場景中。視覺傳感器作為視覺感知的主要手段,已經(jīng)逐漸成為煤礦生產(chǎn)生活的重要組成部分。但煤礦井下環(huán)境復(fù)雜,如圖2 所示,巷道空間狹長、光照不均衡、多粉塵水霧等干擾因素使得煤礦井下場景復(fù)雜多變,致使視覺傳感器獲得的視頻圖像質(zhì)量較低,視覺效果差,不利于煤礦井下場景的視覺應(yīng)用。
圖2 煤礦井下部分場景Fig.2 Underground coalmine environment
針對煤礦井下復(fù)雜環(huán)境對視覺應(yīng)用的影響,通常從2 個(gè)方面來解決:①對采集的視頻圖像進(jìn)行去噪、增強(qiáng)等預(yù)處理,提高視頻圖像的質(zhì)量;②通過其它異構(gòu)傳感器來輔助視覺傳感器,增強(qiáng)視頻圖像的表征信息。
1)礦井圖像增強(qiáng)。圖像增強(qiáng)的定義非常廣泛,簡單來說,可以提高圖像整體或局部區(qū)域質(zhì)量,將不清晰的圖像變得清晰或突出感興趣的特征,從而有利于后續(xù)圖像處理和提高視覺效果的方法都可稱為圖像增強(qiáng)方法。由于光照不均衡、多粉塵水霧、空間狹長等干擾因素,煤礦井下圖像增強(qiáng)是煤礦領(lǐng)域的熱點(diǎn)研究方向,很多學(xué)者在這些方面作了大量研究。
針對煤礦井下光照低、光照不均衡等問題,智寧等[13]通過融合多尺度引導(dǎo)濾波和Retinex 算法,引入受限對比度自適應(yīng)直方圖,提升圖像整體亮度和對比度;范偉強(qiáng)等[14]采用自適應(yīng)小波變換和雙邊濾波算法,對圖像低頻子圖和個(gè)尺度高頻子圖進(jìn)行小波重構(gòu),實(shí)現(xiàn)圖像增強(qiáng)目的;吳佳齊等[15]提出一種基于CycleGAN 網(wǎng)絡(luò)的圖像增強(qiáng)方法,將CSDNet 網(wǎng)絡(luò)引入CycleGAN 生成器中,實(shí)現(xiàn)井下低照度圖像增強(qiáng);張立亞等[16]在圖像HSV 顏色空間基礎(chǔ)上,利用改進(jìn)雙邊濾波算法和多尺度Retinex 算法,抑制了圖像光暈和邊緣模糊現(xiàn)象,提高了圖像的亮度和對比度;WEI 等[17]構(gòu)造了一種基于Retinex 模型的深度學(xué)習(xí)圖像分解算法,建立了一個(gè)融合圖像分解和連續(xù)增強(qiáng)操作的深度網(wǎng)絡(luò),引入了反射率去噪,不僅在弱光增強(qiáng)中獲得了良好的視覺效果,而且能很好地表征圖像的分解;LIU 等[18]引入了一個(gè)基于蒸餾池的先驗(yàn)?zāi)K搜索空間,提出了一種合作的雙層搜索策略,通過注入弱光圖像的知識(shí)和搜索輕量級的優(yōu)先架構(gòu),為現(xiàn)實(shí)場景中的微光圖像構(gòu)建輕量級但有效的增強(qiáng)網(wǎng)絡(luò)。同時(shí),也有針對煤礦井下部分場景多粉塵水霧和空間狹小的特點(diǎn),引入圖像去霧算法[19]和圖像拼接算法[20],降低干擾因素影響,提高圖像細(xì)節(jié),實(shí)現(xiàn)圖像增強(qiáng)的目的。
2)礦井多傳感器融合感知計(jì)算。鑒于視覺傳感器在煤礦井下的應(yīng)用缺陷,可以引入其它異構(gòu)傳感器來提高傳感器對煤礦井下場景的視覺表征能力。在多傳感器感知系統(tǒng)中,視覺傳感器通常包括單目相機(jī)、雙目相機(jī)和RGB-D 相機(jī),其它異構(gòu)傳感器常用的有激光雷達(dá)、毫米波雷達(dá)、超聲波雷達(dá)、慣性測量單元(Inertial Measurement Unit,IMU)等。
多傳感器融合在煤礦有著廣泛的應(yīng)用,很多研究人員作了大量研究。XU 等[21]提出了一種融合視覺傳感器和超聲波傳感器的煤礦巷道車輛定位方法,其在巷道墻壁上布設(shè)條形碼,利用視覺傳感器和超聲波傳感器,求出車輛和巷道間的位置關(guān)系,實(shí)現(xiàn)巷道局部區(qū)域車輛的自主定位。楊文娟等[22]提出了一種融合三激光束標(biāo)靶的視覺定位方法,利用三激光束標(biāo)靶解決低照度、高粉塵等因素干擾,輔助視覺特征提取和定位,求解懸臂式掘進(jìn)機(jī)機(jī)身位姿信息。陳先中等[23]詳細(xì)介紹了毫米波雷達(dá)在煤礦地下通訊、點(diǎn)云成像、SLAM 導(dǎo)航和地圖構(gòu)建等方面的應(yīng)用優(yōu)勢和研究進(jìn)展,充分體現(xiàn)了毫米波雷達(dá)在煤礦地下應(yīng)用的發(fā)展?jié)摿?。周李兵等[24]深入研究了無人駕駛在煤礦井下的應(yīng)用情況,設(shè)計(jì)了IMU、激光雷達(dá)、毫米波雷達(dá)、超聲波雷達(dá)和攝像頭等多傳感器融合策略,感知周圍環(huán)境信息,實(shí)現(xiàn)無軌膠輪車無人駕駛感知系統(tǒng)。
上述文獻(xiàn)都針對煤礦井下不同需求開展多傳感器融合研究,但研究主要集中在裝備或需求本身,不能普遍應(yīng)用于煤礦井下不同場景。因此,面對煤礦海量需求應(yīng)用,研究多傳感器融合感知計(jì)算技術(shù),增強(qiáng)對煤礦井下場景的表征能力,形成一個(gè)可服務(wù)于未來煤礦井下各項(xiàng)應(yīng)用的環(huán)境感知信息平臺(tái)有著重要的研究價(jià)值和應(yīng)用前景。
在圖像增強(qiáng)的基礎(chǔ)上進(jìn)行視覺特征提取可有效地用于環(huán)境感知、語義理解,從而正確解析圖像、理解圖像和識(shí)別目標(biāo)。視覺特征包含點(diǎn)特征、線面特征、對象級特征(Object Level)等多個(gè)類型。
在視覺點(diǎn)特征提取與描述中,由于成像環(huán)境和設(shè)備復(fù)雜多變,正確匹配同名特征點(diǎn)具有較大的難度。因此較好的匹配需要特征描述具有良好的性質(zhì),包括光照不變性、旋轉(zhuǎn)不變性、尺度不變性和仿射不變性等。Harris 算法[25]、FAST 算法[26]具有較好的抗噪性和旋轉(zhuǎn)不變性;BRIEF 特征描述[27]具有較好的抗噪性和光照不變性;ORB 算法[28]和SIFT 算法[29]具有較好的抗噪性、光照不變性、旋轉(zhuǎn)不變性和尺度不變性;SURF 算法[30]、ASIFT 算法[31]、Harris-Affine 算法[32]和MSER 算法[33]具有較好的仿射不變性。
視覺線面特征提取和描述與點(diǎn)特征具有密切關(guān)聯(lián),可使用局部坐標(biāo)的起點(diǎn)、終點(diǎn)及置信度等參數(shù)進(jìn)行描述并使用普呂克坐標(biāo)(Plücker Coordinates)或旋量(Screw)表示。線、面特征提取算法包括基于全局霍夫的方法、基于局部的方法、基于深度學(xué)習(xí)的方法及混合方法等。在基于全局霍夫(Hough)的方法中,DUDA 等[34]特征描述解決了笛卡爾坐標(biāo)系下無法檢測到垂直于坐標(biāo)軸直線的問題。MATAS 等[35]將圖像空間中的線段檢測問題轉(zhuǎn)化為Hough 空間中的峰值統(tǒng)計(jì)問題。在基于局部的方法中,LSD 算法[36]對噪聲具有魯棒性,可以檢測不同方向和長度的線段。EDLines 算法[37]僅使用提取的邊緣實(shí)現(xiàn)了比LSD算法快10 倍以上。MLSD[38]、FCLIP[39]、L-CNN[40]等使用深度學(xué)習(xí)技術(shù)進(jìn)行線面結(jié)構(gòu)特征提取與描述。HTLCNN[41]結(jié)合霍夫變換與神經(jīng)網(wǎng)絡(luò),使構(gòu)建的網(wǎng)絡(luò)能夠提取全局和局部特征用于檢測線特征。
在對象級特征提取與描述中,由于視覺場景捕獲的場景對象多樣且具有層次性,目前常采用基于深度學(xué)習(xí)方法進(jìn)行場景對象特征提取與描述。BLOESCH[42]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)學(xué)習(xí)視覺數(shù)據(jù)中的對象特征的二進(jìn)制編碼并進(jìn)行優(yōu)化感知定位。LIU 等[43]通過目標(biāo)檢測或語義分割算法,從圖像中提取語義對象的信息并將語義對象與先前的觀測進(jìn)行關(guān)聯(lián)。基于對象級特征提取與表示中,對象特征實(shí)質(zhì)上已經(jīng)具有了明確的語義信息,當(dāng)前的語義信息包含語義類別信息、語義實(shí)例信息等,這些語義信息能夠提供更準(zhǔn)確和一致的觀測特征匹配。
視覺不同類型的特征提取與表示如圖3 所示。煤礦井下視覺數(shù)據(jù)受到拍攝角度、距離、光照、遮擋和噪聲影響,這要求視覺特征提取與描述具有較好性質(zhì)且易構(gòu)成魯棒的匹配,因此在多視角圖像三維重建、圖像拼接、視頻拼接和視覺導(dǎo)航等技術(shù)中應(yīng)用視覺點(diǎn)特征、線面特征、對象級特征的提取與描述具有重要作用,涉及煤礦智能化較多工程技術(shù)領(lǐng)域,其中目前應(yīng)用較多的視覺特征為點(diǎn)特征,尤其是ORB特征、SIFT 特征等。
圖3 典型特征算法與類型Fig.3 Typical feature algorithm and classification
針對煤礦井下海量二維圖像、視頻的理解以及三維場景的解析對加速煤礦智能化建設(shè)具有重要意義,該細(xì)分領(lǐng)域主要包括物體檢測、語義分割、動(dòng)作定位與識(shí)別及場景解析共4 個(gè)方面的研究。
物體檢測是確定圖像中目標(biāo)物體位置及類別的重要技術(shù)手段[44],也是礦井視覺計(jì)算的一個(gè)核心研究領(lǐng)域。以煤礦井下場景為例,針對傳輸輸送帶上夾雜的大煤塊、錨桿或者煤矸石等異物的檢測對煤礦安全生產(chǎn)有著重要意義。近十年,物體檢測領(lǐng)域取得了長足的發(fā)展,2017 年,Mask R-CNN 方法[45]被提出,通過在參數(shù)訓(xùn)練中設(shè)置遮掩,提升計(jì)算速度的同時(shí)實(shí)現(xiàn)了關(guān)鍵點(diǎn)的物體檢測及實(shí)例分割。2019 年,Cascade R-CNN[46]和SCNN[47]方法被相繼提出,其中Cascade R-CNN 通過在Faster R-CNN 的基礎(chǔ)上進(jìn)一步細(xì)化邊界實(shí)現(xiàn)更準(zhǔn)確的物體檢測,SCNN 則是通過在CNN 中引入正態(tài)分布的統(tǒng)計(jì)學(xué)特征,提升了物體檢測的魯棒性。2020 年,考慮到部分圖像呈現(xiàn)小樣本分布,F(xiàn)SOD 算法[48]提供了更具通用性的小樣本檢測框架。2021 年起,該領(lǐng)域?qū)ψ⒁饬C(jī)制的實(shí)際應(yīng)用給予了更多關(guān)注,DETR 模型[49]作為一種高效且快速收斂的端到端目標(biāo)檢測器,取得了優(yōu)異的表現(xiàn)。2022 年,針對背景與目標(biāo)對象混淆的場景,COD 算法[50]被提出并實(shí)現(xiàn)了對隱藏對象的成功識(shí)別。如今,本領(lǐng)域逐漸聚焦于復(fù)雜場景下的高效物體檢測,以提升在實(shí)際場景中應(yīng)用的可能。
通過對圖像的語義進(jìn)行分析和分割,將不同的對象進(jìn)行分離與標(biāo)注是語義分割研究的目標(biāo)。在井下復(fù)雜場景中,如何在復(fù)雜低照度場景中完成不同大小對象的分割一直是難點(diǎn)。類似地,ScribbleSup[51]被提出應(yīng)用于涂鴉級語義分割,可以在主要目標(biāo)上進(jìn)行簡易標(biāo)注;BoxSup[52]成為了邊框極語義分割的經(jīng)典算法,可以實(shí)現(xiàn)對候選區(qū)域完成提??;2016 年,Bearman 提出針對特征點(diǎn)的識(shí)別與標(biāo)注[53]。2022 年,針對局部面片級和全局區(qū)域級的圖像分割任務(wù),一種基于ViTs 的框架被提出并有著優(yōu)異的表現(xiàn)[54]。
人體動(dòng)作的定位與識(shí)別旨在從圖像或視頻幀中完成對人體動(dòng)作的解析,是應(yīng)用中非常經(jīng)典的任務(wù)之一,如圖4 所示,煤礦井下完成對人及其動(dòng)作的準(zhǔn)確識(shí)別對煤礦安全生產(chǎn)有著重要意義。2020 年,ResNet50[55]被成功應(yīng)用于礦工異常行為的識(shí)別任務(wù)中,其中將礦工的異常行為劃分為3 個(gè)維度進(jìn)行辨識(shí);文獻(xiàn)[56]應(yīng)用數(shù)千條真實(shí)行為序列訓(xùn)練LSTM模型成功預(yù)測了短時(shí)間內(nèi)異常行為的發(fā)生概率。
圖4 煤礦井下人體動(dòng)作識(shí)別效果Fig.4 Action recognition in underground coalmine
然而,上述較為成熟的模型僅僅只能應(yīng)用于常規(guī)的識(shí)別任務(wù),無法在空間和時(shí)間復(fù)雜性較高的復(fù)雜光學(xué)場景中開展視覺理解工作。為此,2020 年,注意力相關(guān)的非穩(wěn)態(tài)動(dòng)態(tài)定位算法[57]被提出,通過從其他提案中獲取有用的信息來增強(qiáng)表示能力。2021 年,在跟蹤學(xué)習(xí)檢測(Tracking Learning Detection,TLD)框架的基礎(chǔ)上,多特征融合的Mean Shift算法[58]被成功應(yīng)用于煤礦井下巷道視頻的動(dòng)態(tài)目標(biāo)跟蹤任務(wù),能夠有效應(yīng)對目標(biāo)形變、復(fù)雜光照等挑戰(zhàn)。2022 年,一項(xiàng)基于Transformer 的端到端動(dòng)作特征提取模型[59]被提出,可以靈活地從視頻中提取時(shí)態(tài)上下文信息,促進(jìn)了該領(lǐng)域相關(guān)方法的應(yīng)用。但是這些前沿算法在井下復(fù)雜環(huán)境中的應(yīng)用尚不具備魯棒性,主要受限于遮擋、光照、目標(biāo)形變等復(fù)雜客觀條件。因此,如何從算法模型層面有效突破此類場景的挑戰(zhàn)也成為了近些年井下視覺理解相關(guān)研究的關(guān)鍵。
除了針對圖像和視頻數(shù)據(jù)進(jìn)行分析,如何結(jié)合音頻等多模態(tài)數(shù)據(jù)進(jìn)行場景理解可以應(yīng)用于井下機(jī)器人視覺系統(tǒng)等復(fù)雜業(yè)務(wù)場景,有著重要的作用,同時(shí)也面臨著巨大的挑戰(zhàn)?,F(xiàn)如今,通過對全局圖像特征進(jìn)行搜索并建立與語句或?qū)嶓w的關(guān)系是一種典型的視覺場景理解方法[60]。除此之外,基于模板匹配[61]和基于注意力機(jī)制[62]的場景理解模型也對準(zhǔn)確理解圖像等數(shù)據(jù)有著促進(jìn)作用。
視覺三維感知技術(shù)可以有效應(yīng)用于自動(dòng)駕駛、AR(Augmented Reality)/VR(Virtual Reality)、自主飛行無人機(jī)等實(shí)際應(yīng)用中[63],在煤礦智能化中也將發(fā)揮重要作用[64]。
視覺數(shù)據(jù)的三維感知技術(shù)可利用多視圖幾何原理或神經(jīng)網(wǎng)絡(luò)進(jìn)行空間的感知。在應(yīng)用多視圖幾何原理進(jìn)行基于視覺數(shù)據(jù)的三維感知中可應(yīng)用SfM(Structure from Motion)技術(shù)或SLAM(Simultaneous Localization and Mapping)技術(shù)。SfM 與SLAM方法采用多模塊設(shè)計(jì)架構(gòu),包括前端特征提取技術(shù)、后端整體或部分優(yōu)化技術(shù)、回環(huán)與重定位技術(shù)[65],SLAM 基本結(jié)構(gòu)如圖5 所示,其中包含多源數(shù)據(jù)采集、前端特征提取與位姿預(yù)估計(jì)、后端位姿優(yōu)化估計(jì)、地圖管理與維護(hù)、空間重建生成等模塊,這些模塊的計(jì)算可采用本地的三維感知計(jì)算,也可采用端云融合的方式,該技術(shù)可以用于礦井在線或離線的視覺計(jì)算與空間重建。各模塊中也可應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)現(xiàn),LF-Net、SuperPoint 等方案[66]應(yīng)用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)視覺特征提取與表達(dá),SuperGlue[67]實(shí)現(xiàn)了應(yīng)用深度學(xué)習(xí)的特征匹配與驗(yàn)證。
圖5 SLAM 基本結(jié)構(gòu)Fig.5 Basic structure of SLAM
目前已有較多針對SfM 的研究成果,例如:VisualSfM[68]、COLMAP[69]等,VisualSfM 將SfM 算法的時(shí)間改進(jìn)到O(n2)的同時(shí)又保留了較高的精度,COLMAP 進(jìn)一步提升精度的同時(shí)實(shí)現(xiàn)了稠密三維空間重建。PTAM[70]首先將SLAM 劃分為前后端的結(jié)構(gòu),實(shí)現(xiàn)了前端實(shí)時(shí)跟蹤、后端滑動(dòng)優(yōu)化算法。這一結(jié)構(gòu)深度影響了當(dāng)前較多SLAM 算法的實(shí)現(xiàn),如:ORBSLAM 系列[71]、LSD-SLAM[72]等。
在礦井環(huán)境應(yīng)用SfM 或SLAM 技術(shù)面臨著諸多挑戰(zhàn),包括環(huán)境照度低、照度不穩(wěn)定、紋理缺失、紋理重復(fù)、多粉塵、多水霧、GPS 信號(hào)缺乏等不利因素,不僅影響視覺數(shù)據(jù)質(zhì)量,也對激光雷達(dá)、IMU 數(shù)據(jù)的采集精度造成嚴(yán)重影響。為在礦井環(huán)境進(jìn)行基于視覺的三維感知,當(dāng)前研究主要從多傳感器融合的角度進(jìn)行實(shí)現(xiàn),應(yīng)用慣性測量單元、激光雷達(dá)、毫米波雷達(dá)、non-GPS/GPS 等多源傳感器進(jìn)行融合計(jì)算,包括MSCKF[73]、R3LIVE 系列[74]等。為在礦井環(huán)境中應(yīng)用多傳感器融合方案,李猛鋼等[75]研究應(yīng)用融合激光雷達(dá)與慣性測量單元的定位系統(tǒng),實(shí)現(xiàn)了緊耦合的井下移動(dòng)機(jī)器人定位功能,由于移動(dòng)機(jī)器人算力與內(nèi)存約束、激光雷達(dá)數(shù)據(jù)規(guī)模隨運(yùn)行時(shí)間線性增長,該類融合方法難以長時(shí)間運(yùn)行。為解決礦井環(huán)境中實(shí)現(xiàn)準(zhǔn)確、魯棒、實(shí)時(shí)的三維感知定位技術(shù),可行的解決路徑有:①為使得系統(tǒng)具備未知環(huán)境語義級信息感知及應(yīng)對動(dòng)態(tài)環(huán)境挑戰(zhàn),應(yīng)用深度學(xué)習(xí)替代或增強(qiáng)傳統(tǒng)SLAM 部分模塊成為可行方案,如DS-SLAM[76]方案;②考慮到三維感知技術(shù)計(jì)算密集、資源消耗較大、礦井終端的算力資源約束,應(yīng)用端云協(xié)同技術(shù)或設(shè)計(jì)合理的優(yōu)化方案以控制計(jì)算規(guī)模成為必然選擇,如DM-VIO[77]等方案;③應(yīng)用于大尺度場景時(shí),為克服大場景伴隨的計(jì)算困難,常采用包含設(shè)計(jì)合理的算法、應(yīng)用分布式方案等進(jìn)行計(jì)算的方案,如Davison 等[78]提出應(yīng)用高斯信念傳播算法進(jìn)行分布式三維感知定位。
三維感知中一項(xiàng)重要的應(yīng)用是利用視覺信息進(jìn)行空間計(jì)算。在三維空間的表示方面,主要包含4類形式的地圖,包括:①點(diǎn)云形式[79],這類地圖可以用作語義分析、輔助定位的高精地圖等場景;②柵格地圖[80],可以用于位置環(huán)境的導(dǎo)航、避障等功能;③應(yīng)用TSDF 隱式表示并進(jìn)行Mesh 提取的地圖表示[81];④基于神經(jīng)網(wǎng)絡(luò)進(jìn)行的可微地圖表示,以Neural Radiance Field 技術(shù)[82]為代表。XUE 等[83]利用激光雷達(dá)數(shù)據(jù)進(jìn)行ICP 點(diǎn)云配準(zhǔn)并基于激光雷達(dá)SLAM 技術(shù)進(jìn)行煤礦井下車場的高精地圖構(gòu)建,但該系統(tǒng)面臨的實(shí)時(shí)計(jì)算困難的問題??紤]礦井主運(yùn)等場景環(huán)境較為穩(wěn)定,因此基于神經(jīng)輻射場或柵格地圖的可微表征形式可作為有效的礦井立體感知三維可視化形態(tài);而用于輔助定位實(shí)現(xiàn)時(shí),基于點(diǎn)云的表征三維形式結(jié)構(gòu)簡單、方便采集,因此可構(gòu)造為高精地圖的形式進(jìn)行利用。
針對礦井環(huán)境的挑戰(zhàn),礦井環(huán)境應(yīng)用視覺計(jì)算與空間重建技術(shù)有以下可行路徑:①采用多源數(shù)據(jù)融合進(jìn)行位姿估計(jì),提升位姿估計(jì)精度與魯棒性;②應(yīng)用數(shù)據(jù)增強(qiáng)方法對視覺數(shù)據(jù)、IMU 數(shù)據(jù)、激光雷達(dá)數(shù)據(jù)進(jìn)行預(yù)處理,提升數(shù)據(jù)質(zhì)量;③探索在礦井壁面附加人工紋理,提升紋理豐富程度;④應(yīng)用端云融合的SfM 方法,提升數(shù)據(jù)處理的質(zhì)量與三維空間計(jì)算的精度。
隨著我國煤礦智能化的加速推進(jìn),以視覺感知為代表的礦井下端側(cè)各類設(shè)備傳感器數(shù)量會(huì)爆發(fā)式增長,產(chǎn)生的海量數(shù)據(jù)需要實(shí)時(shí)計(jì)算,同時(shí),需要降低數(shù)據(jù)傳輸路徑長度以有效減少帶寬消耗。盡管引入5G 技術(shù)可以在一定程度減少延遲和降低帶寬消耗、在礦井下應(yīng)用也有成功案例,但考慮建設(shè)成本較高,同時(shí)未實(shí)質(zhì)打破基于傳統(tǒng)“云邊”架構(gòu)導(dǎo)致計(jì)算與數(shù)據(jù)距離遠(yuǎn)而產(chǎn)生延遲性問題的壁壘,因此傳統(tǒng)架構(gòu)方案已無法滿足實(shí)際需求。將計(jì)算能力下沉到邊端成為新的解決思路,由于礦井下環(huán)境特殊,算力設(shè)備或模組的安全性是重中之重,實(shí)際應(yīng)用中,需要平衡算力與功耗,這也是目前邊緣計(jì)算在礦井下應(yīng)用不成熟的原因。針對以上分析,感算一體與邊緣智能成為新的解決方案,引入智能感知、邊緣計(jì)算、群體智能和模型輕量化等核心技術(shù),能夠在端側(cè)就近提供高效的算力和智能應(yīng)用。感算一體與邊緣智能主要由感存算一體架構(gòu)、模型輕量化智能計(jì)算及數(shù)據(jù)協(xié)同邊緣計(jì)算技術(shù)三部分組成。圖6 給出了感算一體與邊緣智能架構(gòu)圖。
圖6 感算一體與邊緣智能架構(gòu)Fig.6 Architecture of sense computing integration and edge intelligence
感算一體架構(gòu)是集傳感、儲(chǔ)存和運(yùn)算為一體的多元計(jì)算架構(gòu)[84],解決馮諾依曼架構(gòu)的數(shù)據(jù)搬運(yùn)的功耗瓶頸,同時(shí)與傳感結(jié)合提高整體效率。在傳感器自身包含的AI 存算一體芯片上運(yùn)算,來實(shí)現(xiàn)零延時(shí)和超低功耗的智能視覺處理能力。
在礦井智能化應(yīng)用場景中,由于受限安裝環(huán)境及不穩(wěn)定網(wǎng)絡(luò)問題的影響,使邊緣智能落地需要邊緣智能傳感器、邊緣智能控制器、邊緣智能服務(wù)器等大量智能算力設(shè)備。這些設(shè)備都是基于感算存或算存一體架構(gòu)設(shè)計(jì),內(nèi)部采用邊緣算力模組擴(kuò)展方案,使在核心模組基礎(chǔ)上靈活擴(kuò)展接入專業(yè)的激光、攝像頭、紅外、WIFI 和5G 等設(shè)備,進(jìn)而滿足礦井智能產(chǎn)品的多樣化。
在礦井邊緣智能計(jì)算場景下,一方面,資源的限制難以滿足大規(guī)模的算力需求;另一方面,場景的不同也對準(zhǔn)確率有不同的要求,這給模型輕量化智能計(jì)算技術(shù)帶來了極大的挑戰(zhàn)。模型的參數(shù)在一定程度上能夠代表其復(fù)雜性,并不是所有的參數(shù)都在模型中發(fā)揮作用。因此,高效的模型壓縮技術(shù)是模型輕量化的關(guān)鍵所在。目前模型壓縮加速方法主要分為兩類:前端壓縮和后端壓縮。緊湊模型設(shè)計(jì)和蒸餾技術(shù)就是前端壓縮的代表性算法。后端壓縮主要包括量化、剪枝和矩陣低秩分解等。
知識(shí)蒸餾技術(shù)[85-86],通過構(gòu)建一個(gè)輕量化的小模型,利用性能更好的大模型的監(jiān)督信息,來訓(xùn)練該小模型,以期達(dá)到更好的性能和精度。大模型稱為教師模型,小模型稱為學(xué)生模型,利用來自教師模型輸出的監(jiān)督信息,讓學(xué)生模型學(xué)習(xí)遷移來自教師模型的監(jiān)督信息,達(dá)到壓縮目的;模型整點(diǎn)化方法[87],通過參數(shù)修剪量化方法試圖去除模型冗余和不重要的項(xiàng),并且把權(quán)重從浮點(diǎn)變成整點(diǎn),有利于AI 邊緣服務(wù)器的快速計(jì)算,從而在礦井資源受限場景下設(shè)計(jì)出輕量級網(wǎng)絡(luò)模型。
數(shù)據(jù)協(xié)同邊緣計(jì)算技術(shù)的本質(zhì)目的是協(xié)同使用靠近邊緣側(cè)的多個(gè)邊緣設(shè)備的計(jì)算資源和網(wǎng)絡(luò)資源[88],發(fā)揮不同計(jì)算設(shè)備和網(wǎng)絡(luò)設(shè)備的優(yōu)點(diǎn),增強(qiáng)系統(tǒng)整體效率和性能,共同完成計(jì)算任務(wù),從而降低時(shí)延,平衡邊緣節(jié)點(diǎn)配置低帶來的功能限制和時(shí)延增加之間的關(guān)系。邊緣的數(shù)據(jù)來源具有較強(qiáng)的局部性,需要與其他邊緣協(xié)同以完成更大范圍的任務(wù)[89]。為了充分利用煤礦井下多模態(tài)異構(gòu)的算力設(shè)備,利用邊緣計(jì)算調(diào)配子系統(tǒng),對于接入系統(tǒng)的不同應(yīng)用的設(shè)備和軟件,提供統(tǒng)一算法接口和運(yùn)行模式,對礦井視覺計(jì)算相關(guān)算法開發(fā)提供規(guī)范管理和技術(shù)支撐。
隨著煤礦信息化程度的不斷提高,現(xiàn)有的煤礦井下視頻監(jiān)控系統(tǒng)大部分僅用于井下場景的顯示和監(jiān)控作用,在掘進(jìn)、采煤、運(yùn)輸?shù)拳h(huán)節(jié)及重點(diǎn)場景中還面臨著許多的應(yīng)用難題[90-91]。部分煤礦基礎(chǔ)設(shè)施如運(yùn)輸系統(tǒng)、巷道等,由于分布地域廣、設(shè)備管理維護(hù)工作量大,需遠(yuǎn)程化、智能化的管理模式支持,以提升煤礦的生產(chǎn)質(zhì)量和管理效率,實(shí)現(xiàn)降本增效。
在實(shí)際的井下生產(chǎn)過程中,僅依靠人力的肉眼觀察難以保障煤礦安全生產(chǎn)萬無一失。近年來,雖然有大量的視頻AI 分析與識(shí)別方法被提出并應(yīng)用在日常生產(chǎn)管理中[92-94],但是煤礦井下環(huán)境昏暗、采掘工作面粉塵大、圖像/視頻采集終端成像分辨率模糊、色彩辨識(shí)度低、前后景對比度差、電磁環(huán)境復(fù)雜等因素,導(dǎo)致經(jīng)常出現(xiàn)少檢、漏檢等現(xiàn)象。目前煤礦最大的痛點(diǎn)和需求就是解決煤礦視頻監(jiān)控系統(tǒng)中由“看得見”變成“看得清”,并且通過礦井視覺計(jì)算變成“看得懂”。設(shè)計(jì)清晰明確的視頻智能識(shí)別系統(tǒng)架構(gòu)保證煤礦生產(chǎn)建設(shè)沿著安全、高效、綠色、低碳方向發(fā)展是煤炭領(lǐng)域最渴望的需求。全域智能視頻識(shí)別系統(tǒng)應(yīng)能實(shí)現(xiàn)對人員、裝備、環(huán)境等監(jiān)控視頻進(jìn)行智能分析,高效存儲(chǔ)和交互數(shù)據(jù)信息及模型,并實(shí)現(xiàn)與煤礦其他相關(guān)子系統(tǒng)的聯(lián)動(dòng)與協(xié)同,從而提高煤礦生產(chǎn)質(zhì)量和效率。
因此,構(gòu)建煤礦智能視頻識(shí)別分析系統(tǒng),支撐煤礦的高效發(fā)展迫在眉睫。通過對煤礦井下目標(biāo)快速檢測、三維測量、深度學(xué)習(xí)等模型在煤礦應(yīng)用場景的優(yōu)化等共性技術(shù)研究,研制系列礦用視頻采集分析裝備,構(gòu)建煤礦智能視頻智能識(shí)別系統(tǒng),實(shí)現(xiàn)不同場景的自動(dòng)識(shí)別,并與生產(chǎn)設(shè)備進(jìn)行聯(lián)動(dòng)控制。表1給出了礦井視頻智能識(shí)別系統(tǒng)所涉及煤礦的綜采系統(tǒng)、掘進(jìn)系統(tǒng)、運(yùn)輸系統(tǒng)、提升系統(tǒng)和洗選系統(tǒng)5 個(gè)應(yīng)用場景,每個(gè)系統(tǒng)都包含了4 個(gè)礦井視頻智能識(shí)別系統(tǒng)的典型應(yīng)用。這些應(yīng)用主要使用了基于深度學(xué)習(xí)的檢測、識(shí)別、分割、回歸算法??紤]到煤礦井下的邊緣算力的計(jì)算能力和開銷,主要采用改進(jìn)的輕量級YOLO 算法,并使用拉普拉斯算子和高斯濾波器來減少粉塵和水霧的影響,通過增加特征金字塔的層數(shù)獲得更加豐富的信息,具有良好的抗干擾能力,同時(shí)加入注意力機(jī)制以增強(qiáng)跨維度交互信息。已有試驗(yàn)表明改進(jìn)的YOLO 系統(tǒng)算法具有更好的檢測精度和更快的檢測速度和魯棒性。圖7 給出了上述算法的部分檢測結(jié)果示例。
表1 煤礦視頻智能識(shí)別系統(tǒng)典型應(yīng)用Table 1 Typical applications of video intelligent identification system in coal mine
圖7 礦井視頻識(shí)別示例Fig.7 Mine video recognition examples
由于煤礦井下生產(chǎn)環(huán)境的特殊性,煤礦井下存在著“水、火、瓦斯、煤塵、頂板”五大自然災(zāi)害,威脅職工的生命安全。利用AI 和機(jī)器學(xué)習(xí)(Machine Learning,ML)技術(shù),不斷積累優(yōu)化算法庫、模型庫和知識(shí)庫,對煤礦風(fēng)險(xiǎn)進(jìn)行迭代與推理,構(gòu)建了符合煤礦安全風(fēng)險(xiǎn)指標(biāo)體系和風(fēng)險(xiǎn)預(yù)警模型[95-98]。應(yīng)用礦井視覺計(jì)算先進(jìn)技術(shù),充分發(fā)揮井下煤礦的硬件設(shè)施的價(jià)值,克服傳統(tǒng)“人管人”方式面臨效率低下的問題。通過加強(qiáng)礦井視覺技術(shù)研究,開發(fā)低延時(shí)、高精度、廣覆蓋的重大危險(xiǎn)源智能預(yù)警防控平臺(tái),實(shí)現(xiàn)“人-機(jī)-環(huán)”的全面感知、實(shí)時(shí)互聯(lián)、精準(zhǔn)識(shí)別與智能協(xié)同。充分發(fā)揮礦井視覺計(jì)算技術(shù)在重大災(zāi)害風(fēng)險(xiǎn)識(shí)別中的優(yōu)勢,實(shí)時(shí)感知和判識(shí)重點(diǎn)部位及全局安全態(tài)勢,形成風(fēng)險(xiǎn)告警與異常事件處理流程,對于提升煤礦的安全生產(chǎn)水平有著重要的意義。
圍繞構(gòu)建煤礦視頻智能預(yù)警系統(tǒng),重點(diǎn)針對煤礦場景訓(xùn)練數(shù)據(jù)樣本少、正負(fù)樣本不均衡,模型容易出現(xiàn)過擬合現(xiàn)象,導(dǎo)致模型泛化能力弱的問題,研究樣本增廣、難負(fù)樣本挖掘等算法,增加模型訓(xùn)練正負(fù)樣本數(shù)量,提高目標(biāo)檢測準(zhǔn)確率;針對煤礦井下弱光照與強(qiáng)干擾引起目標(biāo)灰度變化、高動(dòng)態(tài)引起姿態(tài)變化與尺度變化等問題,研究光照、姿態(tài)與尺度自適應(yīng)的跟蹤濾波器技術(shù),提高目標(biāo)跟蹤算法的魯棒性;研究融合多特征的多目標(biāo)匹配跟蹤算法,提高多姿態(tài)、多尺度的跟蹤運(yùn)算效率。
通過上述各種算法的研究與開發(fā),實(shí)現(xiàn)對視頻圖像中的人員和裝備的行為與狀態(tài)進(jìn)行智能分析,根據(jù)不同場景,實(shí)現(xiàn)對煤礦井下常見的“三違”隱患及裝備運(yùn)行狀態(tài)的識(shí)別分析,實(shí)時(shí)發(fā)現(xiàn)違章行為及其它安全隱患。同時(shí),在擁有嚴(yán)格安全管理規(guī)范的煤礦生產(chǎn)區(qū)域中,平臺(tái)還可對工作面、場區(qū)、車輛等裝備進(jìn)行實(shí)時(shí)智能安全管理,通過自動(dòng)化危險(xiǎn)預(yù)警降低安全事故的發(fā)生率。全面實(shí)現(xiàn)對實(shí)體煤礦井下的數(shù)字化管理,極大提升管理運(yùn)維效率,賦能煤礦安全與運(yùn)營管理的智能化。
表2 給出了礦井視頻智能預(yù)警系統(tǒng)所涉及的五大應(yīng)用,主要針對煤礦人、車、物的綜合管理,提供關(guān)鍵崗位、人員管理、特定場所、入口出口、車輛管理等功能。這些應(yīng)用主要采用基于深度學(xué)習(xí)的目標(biāo)檢測和跟蹤算法。面向煤礦復(fù)雜環(huán)境,普遍采用動(dòng)態(tài)閾值的YOLO 算法,并結(jié)合動(dòng)態(tài)自適應(yīng)背景建模,大幅加速了人體檢測效率;在多目標(biāo)跟蹤過程中,可以采用帶權(quán)重的匈牙利匹配算法,通過動(dòng)態(tài)閾值保留檢測人員的低分檢測框,利用低分檢測框與軌跡的相似性,降低漏檢并提高軌跡連貫性,進(jìn)而有效緩解人像重疊帶來的跟丟、軌跡碎片化等問題,同時(shí)使用高效的檢測模型和匈牙利匹配數(shù)據(jù)關(guān)聯(lián)策略,進(jìn)一步提升跟蹤性能。圖8 給出了礦井出入口多目標(biāo)人員跟蹤的效果。
表2 煤礦視頻智能預(yù)警系統(tǒng)典型應(yīng)用Table 2 Typical application of video intelligent warning platform in coal mine
圖8 多目標(biāo)檢測跟蹤示例Fig.8 Multiple object detection and tracking
煤礦開采常在數(shù)百米、甚至超過千米的地下,空間昏暗模糊,人員進(jìn)出常具有諸多不便,降低作業(yè)效率,也影響救援工作的實(shí)施。此外,在煤礦開采的過程中,井下也經(jīng)常存在著瓦斯、煤塵、水、火等許多潛在的風(fēng)險(xiǎn),威脅著作業(yè)人員的人身安全。具有自主定位與導(dǎo)航能力的煤礦機(jī)器人在開采、運(yùn)輸、巡檢等環(huán)節(jié)可替代人工作業(yè),具有高效率、高可靠性、低成本、低風(fēng)險(xiǎn)的優(yōu)點(diǎn),可降低煤礦開采中的風(fēng)險(xiǎn),較少人員傷亡,因而得到越來越多的應(yīng)用。
當(dāng)前可用于礦井環(huán)境的機(jī)器人自主定位技術(shù)主要包括慣性定位技術(shù)、視覺定位技術(shù)、激光雷達(dá)定位技術(shù)等。激光雷達(dá)定位在巷道場景特征點(diǎn)少時(shí),低線束雷達(dá)建圖稀疏、高線束雷達(dá)成本昂貴[99];慣性定位易受溫度、零偏的影響,產(chǎn)生累積誤差;而視覺定位則具有價(jià)格低廉,信息豐富等優(yōu)點(diǎn),可以作為主要定位手段,或作為其他定位技術(shù)的補(bǔ)充。圖9 給出了礦井視覺定位導(dǎo)航系統(tǒng)流程,由傳感器信息獲取、圖像預(yù)處理、視覺里程計(jì)、后端優(yōu)化與建圖等模塊組成。
礦井環(huán)境通常存在著大量粉塵,而且存在著狹窄、潮濕、光線昏暗等特點(diǎn)。加之人員或設(shè)備上的移動(dòng)光源,礦井環(huán)境的光線相比地面環(huán)境更為多變。這使得礦井圖像存在著低照度、低對比度、顏色不均勻的特點(diǎn)。這些特點(diǎn)導(dǎo)致了礦井圖像難以滿足光度不變假設(shè),也會(huì)影響特征點(diǎn)的提取與匹配,使得定位性能急劇下降。因而,在進(jìn)行礦井環(huán)境的視覺定位之前,有必要對礦井特殊環(huán)境的圖像進(jìn)行針對性的預(yù)處理,提升輸入圖像質(zhì)量。
前端用來估計(jì)幀間的位姿變換,視覺里程計(jì)(Visual Odometry,VO)是基于視覺的前端,融合了IMU 的VO 則稱為視覺–慣性里程計(jì)(Visual-Inertial Odometry,VIO)。根據(jù)使用的相機(jī)數(shù)量與種類不同,視覺里程計(jì)一般可分為單目、雙目、RGB-D 等方法。視覺里程計(jì)一般也可分為基于特征點(diǎn)的方法和不使用特征點(diǎn)的直接法?;谔卣鼽c(diǎn)的方法首先對圖像進(jìn)行特征提取與匹配,進(jìn)而估計(jì)兩幀圖像之間的位姿變化。整體來看,基于特征點(diǎn)的方法對光照變化、遮擋與大視角的變化等情況具有更好的魯棒性,但這種方法得到的地圖往往是僅包含特征點(diǎn)的稀疏地圖,還存在著對紋理缺失的環(huán)境魯棒性不強(qiáng)等的問題,難以用于機(jī)器人導(dǎo)航等場景。直接法無需進(jìn)行特征提取,而是基于光度不變假設(shè),通過最小化重投影誤差,得到幀間位姿變換的估計(jì)。相比基于特征點(diǎn)的方法,直接法對紋理缺失環(huán)境的魯棒性更強(qiáng),而且更易于構(gòu)建稠密、半稠密地圖。但由于依賴于光度不變假設(shè),直接法易受光照條件變化的影響,而且對視角變化較大的場景魯棒性較差。
后端的目的是通過濾波、優(yōu)化的方法,優(yōu)化位姿,提高位姿估計(jì)的一致性,并在融合了回環(huán)檢測結(jié)果的基礎(chǔ)上,提高位姿估計(jì)精度。后端大致可分為基于濾波的方法和基于優(yōu)化的方法。基于濾波的方法通常利用擴(kuò)展卡爾曼濾波(Extended Kalman Filter,EKF)等方法,對前端的估計(jì)結(jié)果進(jìn)行后處理,提高估計(jì)結(jié)果的精度?;跒V波的方法計(jì)算效率高、實(shí)時(shí)性好,但估計(jì)精度較低。此外,由于該類方法基于一階馬爾可夫假設(shè),難以實(shí)現(xiàn)回環(huán)檢測,無法保證全局最優(yōu),使得估計(jì)精度難以進(jìn)一步提高?;趦?yōu)化的方法的優(yōu)化過程一般稱為捆集調(diào)整(Bundle Adjustment,BA)[100],它將歷史時(shí)刻的狀態(tài)看作優(yōu)化變量,利用運(yùn)動(dòng)方程、觀測方程等作為約束,通過最小化誤差,優(yōu)化每時(shí)每刻的狀態(tài)估計(jì)。相比基于濾波的方法,基于優(yōu)化的方法可以融合回環(huán)檢測的結(jié)果,在檢測到的回環(huán)之上進(jìn)行優(yōu)化,可以得到更優(yōu)的估計(jì)結(jié)果。
目前的煤礦機(jī)器人主要通過激光雷達(dá)、電子標(biāo)簽、慣性導(dǎo)航等技術(shù)實(shí)現(xiàn)自主定位導(dǎo)航,主要用于輔助運(yùn)輸、巡檢記錄、搶險(xiǎn)救援等,代替人工進(jìn)行物料的運(yùn)輸、環(huán)境聲音和溫度等數(shù)據(jù)的采集與監(jiān)視,進(jìn)行清堵、清淤、清道作業(yè),進(jìn)行被困人員的自主搜救工作等。礦井視覺定位除了為機(jī)器人的移動(dòng)提供必要的位置信息,輔助實(shí)現(xiàn)運(yùn)輸、巡檢、救援等功能以外,還提供比激光雷達(dá)等更豐富的紋理信息,可輔助進(jìn)行環(huán)境分析與救援目標(biāo)的搜尋,也可用于礦井環(huán)境的三維構(gòu)建,實(shí)現(xiàn)對巷道形變等風(fēng)險(xiǎn)的監(jiān)控。
大型采掘裝備的遠(yuǎn)程操控是實(shí)現(xiàn)煤礦無人化開采的關(guān)鍵技術(shù)。然而,井下惡劣環(huán)境,低照度、高粉塵使得遠(yuǎn)程操控過程中視頻監(jiān)控看不清、參照物少、無空間感等問題。這些問題造成了操作人員在進(jìn)行遠(yuǎn)程操控裝備過程中的臨場感差,操作效率低,操作準(zhǔn)確性差。通過礦井視覺技術(shù)重建井下工作環(huán)境、呈現(xiàn)全景現(xiàn)場和增強(qiáng)環(huán)境感知,給操作人員呈現(xiàn)逼真的工作現(xiàn)場,增強(qiáng)臨場感,提升操作效率,提高操作準(zhǔn)確性,如圖10 所示。
圖10 礦井視覺計(jì)算增強(qiáng)臨場感技術(shù)路線Fig.10 Technical route of mine visual computing to enhance presence
三維重建煤礦井下工作環(huán)境[101-102]。應(yīng)用視覺計(jì)算技術(shù)中的三維重建技術(shù),通過激光、視覺、慣導(dǎo)等多源數(shù)據(jù)融合對井下工作環(huán)境進(jìn)行三維重建,實(shí)時(shí)重建生成的虛擬工作環(huán)境與裝備虛擬樣機(jī)通過大地坐標(biāo)系進(jìn)行位置匹配。操作人員通過在虛擬工作環(huán)境中對虛擬裝備的操控完成對井下真實(shí)裝備的遠(yuǎn)程操控。這種通過視覺計(jì)算和虛實(shí)映射的遠(yuǎn)程操控的方式使得操作者在操作過程中如身臨其境,實(shí)現(xiàn)了采掘裝備視覺臨場感操控。
視頻拼接呈現(xiàn)全景現(xiàn)場[103]。應(yīng)用視覺計(jì)算技術(shù)中的視覺感知與增強(qiáng)技術(shù),通過對井下低照度視頻進(jìn)行噪聲濾波、亮度增強(qiáng)、快速去霧等處理,實(shí)現(xiàn)對光照較低、亮度不均、紋理模糊、噪聲較多的視頻進(jìn)行增強(qiáng),將增強(qiáng)后的位于不同點(diǎn)位的多路視頻信號(hào)進(jìn)行全景視頻拼接,形成對整個(gè)采掘工作面環(huán)境的監(jiān)控視頻。操作人員通過對增強(qiáng)拼接后的視頻感知現(xiàn)場工況,操作采掘裝備進(jìn)行工作,可以大幅增強(qiáng)操作人員的臨場感。
虛實(shí)融合增強(qiáng)環(huán)境感知[104]。應(yīng)用視覺計(jì)算技術(shù)中的三維視頻融合技術(shù),通過三維虛實(shí)注冊,將預(yù)先根據(jù)參數(shù)建好的礦井三維模型與視頻圖像進(jìn)行融合,在融合后的視頻中通過三維標(biāo)注顯示礦井的參數(shù)信息,為操作人員提供多角度多參數(shù)的視頻信號(hào)和語義信息。三維視頻融合技術(shù)使位置信息與視頻緊密聯(lián)動(dòng),增強(qiáng)了操作人員監(jiān)控和操作的臨場感,有效提高了環(huán)境監(jiān)控效率和裝備操作準(zhǔn)確度。
礦井視覺計(jì)算中的三維重建技術(shù)、視覺感知和增強(qiáng)技術(shù)、視頻融合技術(shù),通過對礦井環(huán)境重構(gòu)、視頻圖像的增強(qiáng)和虛實(shí)數(shù)據(jù)的融合,增強(qiáng)了操作人員對遠(yuǎn)程環(huán)境的感知能力,使其在環(huán)境監(jiān)控和裝備遠(yuǎn)程操過程中具有較強(qiáng)的臨場感和較好的操作體驗(yàn),實(shí)現(xiàn)環(huán)境和裝備的遠(yuǎn)程精準(zhǔn)操控,臨場感遠(yuǎn)程操控使作業(yè)人員可以遠(yuǎn)離危險(xiǎn)生產(chǎn)場景,將會(huì)成為無人化礦井的重要技術(shù)支撐。
為促進(jìn)煤炭行業(yè)高質(zhì)量發(fā)展,煤礦智能化、無人化建設(shè)已經(jīng)成為煤炭行業(yè)發(fā)展的必然趨勢,礦井視覺計(jì)算技術(shù)及系統(tǒng)也將在其中發(fā)揮越來越重要的作用。但是,目前礦井視覺計(jì)算在煤礦井下很多應(yīng)用場景中還存在諸多技術(shù)難題:
1)煤礦井下環(huán)境的復(fù)雜性給礦井視覺計(jì)算應(yīng)用帶來巨大挑戰(zhàn)。由于煤礦井下環(huán)境照度低、光照不穩(wěn)定、紋理缺失、紋理重復(fù)、多粉塵、多水霧等不利因素的影響,視覺計(jì)算相關(guān)算法目前在煤礦井下只能有效應(yīng)用于局部條件好的場景。為適應(yīng)煤礦智能化的進(jìn)一步發(fā)展需求,還需要深入研究并突破煤礦井下復(fù)雜環(huán)境下的視覺計(jì)算理論和方法。
2)煤礦井下數(shù)據(jù)采集手段和計(jì)算方式已經(jīng)嚴(yán)重阻礙了礦井視覺計(jì)算的應(yīng)用。煤礦井下目前大多采用單一視覺傳感器采集圖像或視頻上傳至云端服務(wù)器進(jìn)行處理。由于視覺傳感器自身的限制,在煤礦井下光照不充分的場景,單一視覺傳感器很難獲取全面有效的數(shù)據(jù),因此,需要進(jìn)一步研制組合傳感器。另外,數(shù)據(jù)遠(yuǎn)距離上傳至云端,會(huì)造成數(shù)據(jù)傳輸擁塞,反映延時(shí),不能滿足實(shí)時(shí)應(yīng)用場景的需求。雖然近年來,邊緣計(jì)算已經(jīng)逐步進(jìn)入煤礦,但是煤礦井下輕量化算法的支撐還有限,還缺乏局部協(xié)同處理數(shù)據(jù)的能力,更不能應(yīng)對融合數(shù)據(jù)處理的需求。
伴隨著上述問題的不斷突破和礦井視覺計(jì)算與采礦工藝的深度融合,新的礦井生產(chǎn)模式變革也將出現(xiàn),其中,礦井增強(qiáng)現(xiàn)實(shí)/混合現(xiàn)實(shí)(Augmented Reality/Mixed Reality,AR/MR)交互應(yīng)用和平行智能采礦是2 種非常重要的發(fā)展方向:
1)礦井增強(qiáng)/混合現(xiàn)實(shí)交互應(yīng)用。礦井AR/MR交互將基于礦井視覺計(jì)算技術(shù),特別是煤礦井下受限空間的環(huán)境感知與圖像增強(qiáng)、語義識(shí)別與理解、空間重建與定位、語義模型恢復(fù)與矢量化技術(shù),采用微服務(wù)架構(gòu),結(jié)合礦井大型模型端云協(xié)同實(shí)時(shí)渲染技術(shù),建立統(tǒng)一高效的礦井視覺計(jì)算、渲染與交互應(yīng)用工作流。綜合微服務(wù)架構(gòu)和AR/MR 相關(guān)技術(shù),將可以實(shí)現(xiàn)煤礦井下綜采/掘進(jìn)工作面、巷道、水泵房、變電站等典型場景的AR/MR 交互應(yīng)用。
2)平行智能采礦。平行智能采礦重點(diǎn)將針對新時(shí)代下我國礦區(qū)智能化發(fā)展訴求與礦山無人化進(jìn)程中遇到的復(fù)現(xiàn)難、協(xié)同難的技術(shù)問題[12],將結(jié)合平行智能理論與智能采礦技術(shù),基于礦井視覺的環(huán)境感知與建模技術(shù),設(shè)計(jì)平行礦井?dāng)?shù)字仿真技術(shù)、遠(yuǎn)程臨場感操作技術(shù)、礦井通信與協(xié)作技術(shù),構(gòu)建礦井平行智能采礦系統(tǒng),推動(dòng)煤礦井下生產(chǎn)朝智能化、無人化發(fā)展,減少現(xiàn)場人員數(shù)量,提高工作效率。
礦井視覺計(jì)算主要通過構(gòu)建煤礦井下環(huán)境的感知、描述、識(shí)別和理解計(jì)算模型,以使計(jì)算機(jī)具有通過圖像或視頻感知煤礦井下三維環(huán)境信息的能力。本文首先圍繞煤礦井下視覺計(jì)算的基本概念,重點(diǎn)比較分析了計(jì)算機(jī)視覺與礦井視覺計(jì)算的異同,總結(jié)提出煤礦井下視覺計(jì)算的組成架構(gòu)體系;然后,詳細(xì)介紹了煤礦井下視覺計(jì)算所涉及的視覺感知與增強(qiáng)、特征提取與特征描述、語義學(xué)習(xí)與視覺理解、三維視覺與空間重建、感算一體與邊緣智能等關(guān)鍵技術(shù),并給出視覺計(jì)算在煤礦井下的典型應(yīng)用案例;最后給出煤礦井下視覺計(jì)算的發(fā)展趨勢和展望。隨著煤礦井下視覺計(jì)算理論的不斷突破和完善,筆者相信礦井視覺計(jì)算在煤礦智能化發(fā)展中將發(fā)揮越來越重要的作用。