王學立 ,趙辰燃 ,李 青 ,何顯能 ,甘 梅
(1.西安博深安全科技股份有限公司,陜西 西安 710304;2.西安交通大學 軟件學院,陜西 西安 710000;3.中煤科工集團重慶研究院有限公司,重慶 401325)
礦業(yè)行業(yè)是全球經(jīng)濟發(fā)展的基礎產(chǎn)業(yè)之一,但同時也面臨著諸多挑戰(zhàn),如人力成本上升、礦區(qū)工人的安全問題和礦區(qū)設備安全問題。人工智能技術的快速發(fā)展和應用,為礦業(yè)行業(yè)提供了一種新的解決方案,旨在通過科技手段提高礦山生產(chǎn)效率、降低成本、提高安全性和環(huán)保性。近年來,在一系列政策和行業(yè)應用的持續(xù)推進下,智能礦山已經(jīng)進入攻堅克難、落地見效的關鍵階段。AI 大模型的研發(fā)和應用無疑是核心驅(qū)動力之一。
AI 大模型[1]的應用在近年來得到了廣泛的關注和應用,例如Google 的BERT 模型、Facebook 的GPT 模型、OpenAI 的GPT-3 模型等[2]。AI 大模型是指由大量參數(shù)和計算資源組成的機器學習模型,能夠處理更加復雜的任務和應用到更復雜的場景之中。這些模型通常采用深度學習算法,例如神經(jīng)網(wǎng)絡,能夠通過對大量數(shù)據(jù)的學習,發(fā)現(xiàn)數(shù)據(jù)之間的復雜關系,從而實現(xiàn)各種任務,例如圖像識別、自然語言處理、機器翻譯等。
AI 礦山大模型是一種基于人工智能技術的礦山智能化解決方案,它利用大數(shù)據(jù)、深度學習、機器學習等技術,針對礦山各種復雜場景,對礦山生產(chǎn)、安全、環(huán)保等方面進行綜合分析和預測,幫助礦山企業(yè)做出更加精準的決策。特別是在圖像識別方面,隨著深度學習目標檢測的發(fā)展以及礦井巷道監(jiān)控相機的全覆蓋,使用深度學習圖像處理技術對礦井下安全問題進行監(jiān)控預測[3-4],最大程度預防安全事故的發(fā)生。
為此,利用礦山AI 大模型,基于Transformer模型將視頻和音頻的多模態(tài)數(shù)據(jù)拼接、融合,提出了采用DETR-Audio 模型對煤礦輸送帶撕裂進行檢測,通過現(xiàn)有的數(shù)據(jù)進行訓練,實現(xiàn)對輸送帶裂紋的精確的識別并及時發(fā)出預警。
在煤礦開采中,輸送帶是一個至關重要但最易耗損的材料,受井下各種復雜環(huán)境的影響,輸送帶在運輸過程中經(jīng)常出現(xiàn)裂紋或者直接撕裂,極容易對生產(chǎn)甚至安全造成影響,造成財產(chǎn)損失。為了避免大面積撕裂情況的直接發(fā)生,及時檢測預警十分重要,目前檢測輸送帶的撕裂主要分為2 大類:接觸式檢測和非接觸式檢測。隨著設備智能化的不斷普及,非接觸式檢測也逐漸占據(jù)主導地位,其中,視覺和聲音是最常使用的2 個角度。
基于深度學習的視覺檢測方法已經(jīng)能夠?qū)崿F(xiàn)高精度和高效率的輸送帶撕裂檢測。在目標檢測方面,使用卷積神經(jīng)網(wǎng)絡(CNN)結(jié)構(gòu)的模型已經(jīng)能夠?qū)崿F(xiàn)對輸送帶撕裂區(qū)域的定位和分類。其中,一些基于Anchor 的目標檢測算法如Faster R-CNN、YOLO 和SSD 等,已經(jīng)被廣泛應用于輸送帶撕裂檢測中。文獻[5]提出了一種改進區(qū)域卷積神經(jīng)網(wǎng)絡Light-Head R-CNN 的輸送帶撕裂檢測方法,旨在解決輸送帶撕裂檢測中破損目標檢測精度不足和檢測性能低下的問題;文獻[6]通過Yolov4-tiny 目標檢測網(wǎng)絡對輸送帶損傷類型進行分類,實驗結(jié)果表明,Yolov4-tiny 目標檢測網(wǎng)絡在輸送帶損傷數(shù)據(jù)集上對表面劃傷、撕裂、表面破損和擊穿4 種損傷類型檢測的平均精度分別為99.36%、94.85%、89.30%、86.76%。但由于環(huán)境的特殊性和復雜性,視頻成像夾雜大量噪聲,直接利用傳統(tǒng)的目標檢測算法還會存在一些缺陷,由于Yolo采用了全卷積網(wǎng)絡的結(jié)構(gòu),在多個尺度上進行檢測時,不同的目標大小可能被映射到不同的層級上,這就導致了對小目標的檢測不夠準確,并且光線較差的環(huán)境下,對小裂紋的檢測會更不敏感,出現(xiàn)漏檢。文獻[7]針對小尺寸漏檢、誤檢問題,設計了DDS unit 替換主干網(wǎng)絡中的Res unit,利用不同層次特征跨層連接的方式獲得完整豐富的多尺度特征完成小尺寸破損的檢測。
聲波信號對輸送帶撕裂進行檢測是一種非常有效的方法[8-9]。輸送帶的撕裂通常會產(chǎn)生特定的聲波信號,可以通過聲音傳感器進行檢測和識別。這種方法的優(yōu)點是不需要直接接觸輸送帶,可以在不干擾生產(chǎn)流程的情況下進行監(jiān)測。在實踐中,通過使用麥克風或其他聲音傳感器收集聲波信號,并對其進行分析和處理,可以檢測傳送帶是否存在撕裂。聲波信號的分析可以使用各種信號處理技術,如時域分析、頻域分析、小波變換等。文獻[10]提出了一種基于聲音的帶式輸送機輸送帶縱向撕裂檢測方法,將采集的聲音信號進行預處理,提取梅爾頻率倒譜系數(shù)和短時能量參數(shù),再經(jīng)過高斯混合模型(GMM)進行均值估計,形成特征數(shù)據(jù)作為支持向量機(SVM)的輸入進行分類和識別,實現(xiàn)帶式輸送機的輸送帶縱向撕裂檢測。但是由于傳送帶所處環(huán)境復雜,噪聲干擾大,會對波形圖產(chǎn)生較大影響,導致撕裂的特征波形受到破壞,不能夠很好地規(guī)避這種情況,可能會導致誤檢。
隨著大模型熱潮的興起和Transformer 模型在自然語言處理領域的出色表現(xiàn),近年來也被應用到圖像處理之中,Transformer 模型可以同時處理多個類型的數(shù)據(jù),包括圖像、文本、聲音等多模態(tài)數(shù)據(jù)[11-12],文獻[13]調(diào)查了多模態(tài)機器學習本身的最新進展,并以一種共同的分類方式呈現(xiàn)它們,指出多模態(tài)機器學習旨在建立能夠處理和關聯(lián)來自多個模態(tài)的信息的模型?;赥ransformer 模型將聲音和視覺多模態(tài)數(shù)據(jù)結(jié)合對輸送帶撕裂檢測,可以通過融合聲音和視覺信息來提高檢測精度和魯棒性。聲音信息可以捕捉到傳送帶的振動和噪聲等特征,而視覺信息可以提供更豐富的目標形狀、紋理等特征。將這2 種信息結(jié)合起來,可以更全面地描述目標,提高模型的檢測能力。在處理多元數(shù)據(jù)時,傳統(tǒng)的方法是將不同類型的數(shù)據(jù)分別輸入到不同的深度學習模型中,然后將它們的輸出進行融合和拼接,但這種方法會導致信息的丟失和誤差的累積。
基于上述原因,基于Transformer 模型在處理多模態(tài)數(shù)據(jù)時,可以同時編碼和解碼多個類型的數(shù)據(jù),并且在編碼和解碼過程中,不同類型的數(shù)據(jù)可以相互交互影響,從而實現(xiàn)更好的信息傳遞和融合,提高模型的表征能力的特點,提出綜合視頻和音頻2 方面來對輸送帶撕裂進行檢測的方案,視頻和音頻分別進行編碼,最后使用1 個Transformer 解碼器來將這些語義表示結(jié)合起來,進行多模態(tài)學習。
基于Transformer 模型能處理多模態(tài)數(shù)據(jù)的特性,提出了DETR-Audio 模型。將視頻利用DETR 模型編碼,同時將音頻進行處理后傳入編碼器進行編碼,最后解碼器負責將視覺和音頻信息的編碼結(jié)果進行融合,產(chǎn)生最終的多模態(tài)表示。DETR-Audio 模型主要包含3 個模塊:視頻編碼模塊、音頻編碼模塊和音視頻融合解碼模塊。
在計算機視覺領域,Transformer 模型被廣泛應用于圖像分類、目標檢測和圖像生成等任務[14-15]。DETR(Detection Transformer)[16]是一種使用 Transformer 實現(xiàn)目標檢測的模型。DETR 框架對視頻進行編碼如圖1。
圖1 DETR 框架對視頻進行編碼Fig.1 DETR framework encodes the video
利用DERT 對視頻進行編碼,首先用Res-Net 作為backbone 提取圖片的特征,然后結(jié)合輸入的Position encoding 層提供位置信息,將圖片特征輸入到Transformer 的編碼器中,每個Transformer 編碼器層包含多個自注意力層和前饋神經(jīng)網(wǎng)絡層。自注意力層用于計算輸入序列中每個元素與其他元素的相關性,從而得到每個元素在序列中的重要性,前饋神經(jīng)網(wǎng)絡層用于非線性變換和特征提取。多個Transformer 編碼器層可以進一步提取輸入序列中的特征,將特征向量收集起來,等待后續(xù)的使用。
Transformer 模型針對音頻處理也可以采取和視頻同樣的方式對音頻進行編碼,將收集到的音頻數(shù)據(jù)利用短時傅里葉變換(STFT)對信號進行時頻譜分析和去噪聲[17-18],將時域信號分解成不同頻率的振幅和相位。將得到的聲頻譜圖輸入到Transformer 編碼器中進行特征提取。在Transformer 編碼器中,輸入的聲頻譜圖會被轉(zhuǎn)換為一系列特征向量,每個特征向量表示輸入序列的1個時間步長。為了捕獲長距離的依賴關系,Transformer 編碼器會采用自注意力機制對輸入序列進行建模,并利用多頭自注意力機制增強模型的表達能力。最終,經(jīng)過Transformer 編碼器處理后的特征向量序列將被送入模型的后續(xù)階段,進行音視頻融合和預測任務。
解碼器負責將視覺和音頻信息的編碼結(jié)果進行融合[19-20],產(chǎn)生最終的多模態(tài)表示。解碼器也是一個Transformer 模型[21],由多層自注意力機制、前饋神經(jīng)網(wǎng)絡和殘差連接組成。對音視頻融合并解碼如圖2,圖中:K、T、Q分別為多頭注意力塊的鍵、值和查詢張量。
圖2 對音視頻融合并解碼Fig.2 Fusion and decoding of audio and video
在每個解碼器層中,視頻(V)和音頻(A)編碼分別被獨立的多頭注意力模塊分別關注。對于這2 種模態(tài)特征向量Vc和Ac,分別進行通道級的拼接,并輸入到前饋層中。對于自注意力層,始終是Q=K=T,而對于編碼器-解碼器注意力層,K=T是編碼產(chǎn)生的(T或A),而Q是前1 層的輸出(或?qū)τ诘? 層,是網(wǎng)絡在前1 個解碼步驟中的預測)。
本文的圖像訓練策略是采用DETR 檢測模型,為此準備了相應的數(shù)據(jù)集。
針對DETR 模型的訓練數(shù)據(jù)集,為了保證數(shù)據(jù)的質(zhì)量,提升模型的魯棒性,采集了礦井下多個場景的傳送帶數(shù)據(jù),最后經(jīng)過篩選選出3 000 張圖像作為數(shù)據(jù)集進行標注用于訓練和測試,數(shù)據(jù)集僅僅包含礦工一類標注目標,其中2 700 張用于訓練,300 張用于測試。對于數(shù)據(jù)集的標注,借助LabelImg 工具采用人工標注。
針對音頻的數(shù)據(jù)集,對收集到的數(shù)據(jù)先進行采樣、濾波、降噪等處理,選取了圖像視頻對應的音頻用Label Studio 進行標注。
采用DETR 模型訓練視頻,使用的圖片尺寸為800×1 333,backbone 采用resnet50,position embedding 選用sine,transformer 編碼器(encoder)和解碼器(decoder)的層數(shù)都是6,注意力頭數(shù)(attention heads)為8,隱藏層維度(hidden dimension)為512,epochs 為300。
在利用Transformer 訓練音頻時,使用的采樣率(sample rate)為16 kHz,每個音頻片段的長度(segment length)為4 s,每個音頻片段的重疊(segment overlap)為2 s,幀長(frame length)為25 ms,時域窗口(time-domain window)為Hamming window,編碼器(encoder)和解碼器(decoder)的層數(shù)都是6,注意力頭數(shù)(attention heads)為8,隱藏層維度(hidden dimension)為512,學習率(learning rate)為10-4,大?。╞atch size)為16。
通過實驗,采集200 段礦井監(jiān)控設備拍攝到的傳送帶視頻片段測檢測效果,先利用原生的DETR 模型進行檢測測試,然后使用DETR-Audio 模型進行測試。DETR-Audio 模型測試結(jié)果見表1,音、視頻綜合檢測如圖3,對小塊撕裂的識別如圖4。
表1 DETR-Audio 模型測試結(jié)果Table 1 DETR audio model test results
圖3 音、視頻綜合檢測Fig.3 Sound and video comprehensive detection
圖4 對小塊撕裂的識別Fig.4 Identification of small pieces of tear
由表1 可知:比起單一通過視覺或音頻對輸送帶進行檢測,DETR-Audio 模型同時利用視頻和音頻信息來檢測目標,在輸送帶撕裂的場景中,該模型能夠更好地檢測傳送帶的破損位置。
實驗結(jié)果表明:在這個任務上,DETR-Audio 模型具有良好性能,比單獨使用視頻或音頻信息的模型具有更高的檢測準確度和魯棒性。同時,模型通過學習音頻和視頻之間的關系,能夠更準確地定位目標的位置(圖3);對于輸送帶上一些小的裂紋檢測會更加敏感(圖4),這對于輸送帶撕裂等需要精確定位的任務非常重要。此外,實驗還證明了在訓練過程中,同時使用視頻和音頻信息對于提高模型性能至關重要。
基于Transformer 的多模態(tài)處理數(shù)據(jù),提出了一種新的結(jié)構(gòu)設計DETR-Audio 模型,用于輸送帶撕裂的檢測。DETR-Audio 模型可以同時編碼和解碼音頻和視頻類型的數(shù)據(jù),并且在編碼和解碼過程中,2 種類型的數(shù)據(jù)可以相互交互影響,從而實現(xiàn)更好的信息傳遞和融合,提高模型的表征能力。具體來說就是將視頻和音頻2 方面綜合起來對輸送帶撕裂進行檢測。視頻和音頻分別進行編碼,最后使用1 個Transformer 解碼器將這些特征結(jié)合起來,進行多模態(tài)學習。實驗結(jié)果表明:DETR-Audio 模型相比僅利用DETR 模型識別度效果更好,可以提高傳送帶撕裂檢測的精度和魯棒性。