胡美辰,劉敦龍,桑學(xué)佳,張少杰,陳 喬
(1.成都信息工程大學(xué)軟件工程學(xué)院,四川 成都 610225;2.四川省信息化應(yīng)用支撐軟件工程技術(shù)研究中心,四川 成都 610225;3.中國科學(xué)院水利部成都山地災(zāi)害與環(huán)境研究所,四川 成都 610041;4.中國科學(xué)院重慶綠色智能技術(shù)研究院,重慶 400714)
泥石流是一種常見且破壞性極強(qiáng)的山地災(zāi)害,具有突發(fā)性強(qiáng)和難以防御等特點,給山區(qū)人民造成了重大生命傷亡及財產(chǎn)損失[1-3]。據(jù)國家減災(zāi)網(wǎng)統(tǒng)計,2022 年中國發(fā)生滑坡、崩塌、泥石流等地質(zhì)災(zāi)害共5659 起,以中小型為主,主要集中在中南、華南、西南等地,尤以西南為甚[4]。我國泥石流災(zāi)害量多面廣,無法進(jìn)行全面的工程治理。為了提高泥石流防御能力,建立科學(xué)的泥石流防災(zāi)減災(zāi)體系,泥石流監(jiān)測預(yù)警技術(shù)受到工程界和學(xué)術(shù)界的廣泛關(guān)注。
目前的泥石流監(jiān)測預(yù)警技術(shù),大多都是基于雨量、土壤含水率、次聲、地聲、泥水位、視頻和斷線等監(jiān)測指標(biāo)[5-9]來實現(xiàn)的。胡凱衡等人[10]以土體含水量為預(yù)警指標(biāo),建立了臨界土體含水量與土體滲透系數(shù)、孔隙度和顆粒曲率系數(shù)的經(jīng)驗關(guān)系,提出了一種基于臨界土體含水量和實時降雨的泥石流預(yù)警方法。周銘[11]分析了不同形態(tài)泥石流產(chǎn)生地聲與次聲的頻率范圍等特征,為后續(xù)進(jìn)行泥石流地聲與次聲聯(lián)合監(jiān)測預(yù)警提供參考。Liu 等人[12-13]分析了泥石流次聲與環(huán)境干擾次聲的特征差異,通過特征參數(shù)閾值的方式研制了泥石流次聲信號識別系統(tǒng),大幅提高了次聲預(yù)警準(zhǔn)確率,并利用次聲監(jiān)測陣列與互相關(guān)時延估計算法建立了泥石流次聲波源定位模型,結(jié)合GIS 技術(shù)實現(xiàn)了泥石流運動過程的實時跟蹤定位。馮蒼旭等人[14]通過圖像采集卡把視頻信號采入計算機(jī)中,用與該儀器配套的專門軟件對采集到的光斑圖像進(jìn)行處理,計算出光斑的三維中心坐標(biāo)值,把該值和原點坐標(biāo)值進(jìn)行比較,可算出災(zāi)害體移動的距離。鐘曉清等人[15]采用實時視頻網(wǎng)絡(luò)監(jiān)測系統(tǒng)觀察地質(zhì)災(zāi)害隱患點在汛期內(nèi)的位移變化,若有異常則將發(fā)出警報。鄧方雄等人[16]基于視頻圖像動態(tài)跟蹤地質(zhì)災(zāi)害目標(biāo),設(shè)計了一種地質(zhì)災(zāi)害預(yù)警系統(tǒng),能夠有效監(jiān)測滑坡、泥石流等地質(zhì)災(zāi)害的發(fā)生,但對于設(shè)備的網(wǎng)絡(luò)環(huán)境要求較高。
本文借鑒遷移學(xué)習(xí)的思想,對TSN(Temporal Segment Networks)模型[17]的底層網(wǎng)絡(luò)架構(gòu)進(jìn)行修改,通過基于ImageNet 數(shù)據(jù)集和Kinetics-400 數(shù)據(jù)集的預(yù)訓(xùn)練,再結(jié)合大量地質(zhì)災(zāi)害類視頻(如泥石流、滑坡、崩塌)對模型進(jìn)行訓(xùn)練和微調(diào),得到更適用于泥石流識別的視頻分類模型。該方法可以起到實時監(jiān)測的作用,提高攝像頭監(jiān)控在泥石流監(jiān)測預(yù)警中的有效性。
本文采用多元化的數(shù)據(jù)來源進(jìn)行地質(zhì)災(zāi)害視頻數(shù)據(jù)的收集與整理。第一類數(shù)據(jù)來源于互聯(lián)網(wǎng)上通過關(guān)鍵詞檢索獲取的地質(zhì)災(zāi)害視頻。這些視頻資源豐富,覆蓋了全球各地的不同地區(qū)、不同時間段以及不同類型的地質(zhì)災(zāi)害事件,包括泥石流、滑坡、崩塌等地質(zhì)災(zāi)害事件。這些視頻片段為理解和分析地質(zhì)災(zāi)害的發(fā)生場景提供了重要視角,為模型的訓(xùn)練提供了更加全面的數(shù)據(jù)基礎(chǔ)。在視頻篩選過程中,挑選出具有代表性和典型性的視頻作為樣本,這些視頻能夠真實反映地質(zhì)災(zāi)害發(fā)生的狀態(tài)和過程。第二類數(shù)據(jù)來源于溝道附近部署的泥石流監(jiān)控攝像頭。這些攝像頭記錄了地質(zhì)災(zāi)害的實際運動軌跡和形態(tài)信息,對于理解和預(yù)測災(zāi)害的發(fā)展趨勢具有重要價值,能夠為模型的訓(xùn)練提供更加精準(zhǔn)和可靠的數(shù)據(jù)支持。同時,采用了數(shù)據(jù)增強(qiáng)等手段來擴(kuò)充數(shù)據(jù)集的規(guī)模和多樣性,使模型訓(xùn)練更加充分,以便更好地應(yīng)對實際應(yīng)用中的各種情況。這一步驟不僅增加了數(shù)據(jù)數(shù)量,也豐富了數(shù)據(jù)多樣性,使得模型能夠更好地理解和處理各種復(fù)雜情況。
經(jīng)整理分析,實驗視頻數(shù)據(jù)集分為泥石流、滑坡和崩塌以及非地質(zhì)災(zāi)害3種類型。
1)泥石流視頻數(shù)據(jù)。
泥石流是一種包含大量泥沙和石塊的固液兩相流體,其中的固相物質(zhì)粒度分布比較廣,通常呈粘性層流或稀性紊流等運動狀態(tài)[18]。根據(jù)物質(zhì)組成和顆粒物粒徑大小,本文將收集到的泥石流視頻劃分為泥石流、水石流和泥流3 類,在視頻中都可能呈現(xiàn)出快速流動、混濁和攜帶大量物質(zhì)的特點,運動速度較快,短時間內(nèi)可造成大規(guī)模破壞[19]。部分泥石流視頻數(shù)據(jù)截圖如圖1所示。
圖1 泥石流災(zāi)害視頻數(shù)據(jù)示例
2)滑坡和崩塌視頻數(shù)據(jù)。
滑坡和崩塌是2種常見的地質(zhì)災(zāi)害現(xiàn)象。這2種現(xiàn)象通常是由于斜坡巖土體失穩(wěn)而引起的,成因往往相互關(guān)聯(lián)[20]。在自然作用(如降雨、地震等)或工程活動(如爆破、灌溉滲漏等)的影響下,斜坡巖土體重度增加和巖土軟化,導(dǎo)致山坡或巖石等物質(zhì)不穩(wěn)定從而發(fā)生下滑現(xiàn)象。這種災(zāi)害的運動特征主要表現(xiàn)為碎石流、碎屑流、落石等[21]。它們在視頻圖像中的表現(xiàn)特征具有一定的相似性,故將這2 種地質(zhì)災(zāi)害現(xiàn)象歸為同一類視頻進(jìn)行分析。其視頻數(shù)據(jù)截圖如圖2所示。
圖2 滑坡和崩塌視頻數(shù)據(jù)示例
3)非地質(zhì)災(zāi)害視頻數(shù)據(jù)。
除了收集地質(zhì)災(zāi)害視頻外,還收集了一些來自溝道和坡體的正常自然環(huán)境視頻作為未發(fā)生地質(zhì)災(zāi)害的樣本集。這些視頻內(nèi)容同樣也伴隨著劇烈的動態(tài)變化,例如大風(fēng)吹動或者湍急的河流等。圖3 展示了非地質(zhì)災(zāi)害視頻數(shù)據(jù)的部分截圖。
圖3 非地質(zhì)災(zāi)害視頻數(shù)據(jù)示例
在深度學(xué)習(xí)模型的應(yīng)用中,對泥石流的識別任務(wù)需要依賴于大量準(zhǔn)確和標(biāo)記正確的視頻數(shù)據(jù)。然而,當(dāng)前的原始數(shù)據(jù)集并未針對地質(zhì)災(zāi)害類視頻進(jìn)行優(yōu)化,且部分視頻同時包含了正常自然環(huán)境片段和地質(zhì)災(zāi)害片段,這使得視頻的內(nèi)容過于復(fù)雜,無法通過單一標(biāo)簽進(jìn)行有效的數(shù)據(jù)分類。針對上述問題,需要將對原始數(shù)據(jù)進(jìn)行必要的清理與預(yù)處理。
1)分割視頻場景。
由于使用的視頻采集形式不統(tǒng)一,并不都是由專業(yè)設(shè)備拍攝采集。部分從網(wǎng)絡(luò)下載的視頻鏡頭是由非專業(yè)人員使用手機(jī)手持拍攝,導(dǎo)致鏡頭轉(zhuǎn)換頻繁,視頻數(shù)據(jù)內(nèi)容缺乏連貫性。為了解決這一問題,利用PySceneDetect工具進(jìn)行鏡頭邊界檢測和視頻修剪,將包含過多不同概念的復(fù)雜視頻分割為短視頻片段。首先將所有視頻都以30 幀/s 的速率重新生成。統(tǒng)一幀速率可簡化映射幀的計算與時間戳的關(guān)聯(lián),方便數(shù)據(jù)后續(xù)處理。PySceneDetect 提供了內(nèi)容感知檢測器和閾值檢測器。閾值檢測器采用最傳統(tǒng)的場景檢測算法,將當(dāng)前幀的每個像素的強(qiáng)度(如平均RGB 值)與固定閾值進(jìn)行比較,超過設(shè)定閾值時將觸發(fā)分離事件[22]。在預(yù)處理階段,使用以上方法獲取2個連續(xù)幀之間的差異超過閾值的視頻段,以此檢測出視頻突然的變化,達(dá)到分割視頻內(nèi)容的目的。
2)修剪視頻。
在完成視頻場景分割后,獲得了時間長度不一的視頻數(shù)據(jù)。利用ffmpeg 這一命令行軟件來獲取具有特定時長的分段視頻片段。在處理過程中,保持視頻數(shù)據(jù)的編解碼器格式不變,并統(tǒng)一將文件格式設(shè)定為mp4。獲得視頻數(shù)據(jù)之后,需要將這些視頻轉(zhuǎn)化為適合遷移學(xué)習(xí)的Kinetics-400 數(shù)據(jù)集的格式,并對其進(jìn)行剪裁,使其長度固定在約10 s。針對每個視頻片段采用Kinetics 的標(biāo)注方式,將每個樣本從起始直至結(jié)束劃分為不同的部分,每個部分分別對應(yīng)一個類別。由于事先進(jìn)行了視頻場景分割,所以一個視頻只代表著一個類別信息。此外,還將相應(yīng)的標(biāo)簽信息和原始視頻名稱嵌入到每個視頻片段的文件名中,以便能夠準(zhǔn)確定位原始視頻并檢查分類錯誤。剪裁后再對這些數(shù)據(jù)進(jìn)行人工分類。最終,所獲取的泥石流災(zāi)害視頻、滑坡或崩塌視頻以及正常自然環(huán)境視頻的數(shù)量分別為432、73、197。
3)數(shù)據(jù)增強(qiáng)。
為了豐富視頻數(shù)據(jù)并提高模型對泥石流場景識別的準(zhǔn)確性,在視頻處理過程中采用數(shù)據(jù)增強(qiáng)技術(shù),對視頻進(jìn)行隨機(jī)裁剪和50%概率的水平方向的隨機(jī)翻轉(zhuǎn),從而提升數(shù)據(jù)量并豐富數(shù)據(jù)多樣性。預(yù)處理結(jié)束之后,每個視頻片段被標(biāo)記為具有相同的語義概念。最終得到泥石流、滑坡和崩塌以及正常自然環(huán)境視頻的視頻數(shù)量分別為864、146、394。
在基于深度學(xué)習(xí)的視頻分類方法中,Simonyan等人[23]提出的雙流神經(jīng)網(wǎng)絡(luò),它由空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)組成,為輸入的視頻建立基于時間序列的特征提取和分類網(wǎng)絡(luò)結(jié)構(gòu),可以分別提取視頻的空間和時間信息,從而有效地處理多幀視頻數(shù)據(jù),并基于特征對視頻分類。本文參考雙流神經(jīng)網(wǎng)絡(luò)和TSN 模型[17]的框架構(gòu)建泥石流場景識別模型。其模型結(jié)構(gòu)如圖4所示。
圖4 TSN模型架構(gòu)
具體而言,對于給定的視頻V,將其平均地劃分為長度相等的K個視頻段{S1,S2,…,SK},并從每個視頻段SK中隨機(jī)抽取一個片段TK,此時得到一個子片段序列(T1,T2,…,TK),TSN將通過以下方式對這一系列子片段序列進(jìn)行建模:
式中,F(xiàn)(TK;W)表示以W為參數(shù)的卷積網(wǎng)絡(luò)函數(shù),它提取片段TK的特征向量,并生成類別分?jǐn)?shù)。G為分段共識函數(shù),它將所有的子片段的得分求平均。H為Softmax 函數(shù),得到輸入視頻樣本被分類到的每一類視頻的概率,概率最高的類別就是本段視頻所屬的類別,即:
根據(jù)標(biāo)準(zhǔn)分類交叉熵?fù)p失函數(shù),得到分段共識函數(shù)G(F(T1;W),F(xiàn)(T2;W),…,F(xiàn)(TK;W))的最終損失函數(shù)為:
式中,C是視頻類型數(shù),yi是關(guān)于類i的基真標(biāo)簽,g函數(shù)為均值函數(shù),Gj是G的第j維,可推導(dǎo)出損失值L相對于模型參數(shù)W的梯度為:
式中,K為視頻的分段數(shù),使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化方法來更新參數(shù)W。
視頻具有空域信息與時間信息,而優(yōu)秀的視頻分類模型能夠檢索更多離散的空間特征和時間特征。文獻(xiàn)[24]的研究結(jié)果表明,更深層次的卷積神經(jīng)網(wǎng)絡(luò)模型可以提取離散特征,有利于模型在視頻中學(xué)習(xí)到更多特征。然而,過多的卷積層不僅會導(dǎo)致模型訓(xùn)練時間變長,模型訓(xùn)練參數(shù)量增多,占用更多內(nèi)存空間,而且容易導(dǎo)致過擬合現(xiàn)象(即模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測試數(shù)據(jù)上表現(xiàn)較差)[25]。ResNet-50[26]的50 層深度使其能更好地捕獲和提取圖像細(xì)節(jié),更深層次的網(wǎng)絡(luò)結(jié)構(gòu)使ResNet-50 的分類精度高于ResNet-18 和ResNet-34。另外,與ResNet-101 和ResNet-152 相比,ResNet-50 的層數(shù)較少,節(jié)約了計算成本和訓(xùn)練時間,更易訓(xùn)練和泛化,更具實際應(yīng)用價值。因此,本文選取ResNet-50 作為模型的底層網(wǎng)絡(luò)架構(gòu)(見圖5),進(jìn)一步結(jié)合視頻圖像序列時間流來更好地提取視頻的空間特征和時間特征。ResNet-50的網(wǎng)絡(luò)結(jié)構(gòu)可以分為5 個階段。1)輸入層:使用視頻截圖作為模型的輸入。2)預(yù)處理層:對輸入圖像進(jìn)行預(yù)處理,例如歸一化、裁剪等操作。3)Conv1:第一個卷積層,包括一個7×7 的卷積核、步幅為2 的卷積操作,以及一個2×2 的最大池化層。4)Conv2 ~Conv5一共4 個階段,每個階段包括多個殘差塊,每個殘差塊包括主要分支和跳躍連接分支。主要分支含有多個卷積層,用于學(xué)習(xí)輸入特征的非線性變換。跳躍連接分支則直接將輸入添加到主要分支的輸出上,以形成殘差。每個階段的第一個殘差塊中,主要分支的步幅為2,用于降低特征圖的維度;后續(xù)的殘差塊中,主要分支的步幅則為1。5)平均池化層和全連接層:用于降低特征圖的空間維度,并通過一個全連接層將特征圖映射到輸出類別上。
圖5 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)
原始模型的性能和泛化能力還不夠,且如果重新訓(xùn)練一個新的模型需要大量數(shù)據(jù)樣本且會耗費很多時間。文獻(xiàn)[27-29]中的研究結(jié)果表明,利用遷移學(xué)習(xí)方法,先使用圖像或視頻預(yù)訓(xùn)練之后再微調(diào)的方式已經(jīng)在多個視頻基準(zhǔn)測試中取得了巨大成功。為了進(jìn)一步提升卷積神經(jīng)網(wǎng)絡(luò)在泥石流視頻分析中的性能和泛化能力,本文引入遷移學(xué)習(xí)方法。具體而言,利用ImageNet 和Kinetics-400 開源數(shù)據(jù)集對神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,以獲取通用的特征表達(dá)能力。隨后,針對地質(zhì)災(zāi)害場景的特殊性,使用預(yù)訓(xùn)練模型作為初始化網(wǎng)絡(luò),使用大量地質(zhì)災(zāi)害視頻數(shù)據(jù)微調(diào)模型。這種方式可以在較小的代價和計算資源的情況下,快速地獲得在特定領(lǐng)域表現(xiàn)優(yōu)良的神經(jīng)網(wǎng)絡(luò)模型。
本文模型的處理流程如圖6 所示。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)包含時域和空域流,分別對空域和時域信息建模。首先,將預(yù)處理之后的視頻分割成固定長度的連續(xù)幀序列,稱為樣本片段,保證每個樣本片段內(nèi)幀圖像規(guī)格相同以及所有樣本片段數(shù)量相同。其次,從每個樣本片段中稀疏采樣得到一系列關(guān)鍵幀,將這些關(guān)鍵幀輸入到基于ResNet-50 的空間流卷積網(wǎng)絡(luò)中,以提取視頻的外觀特征。同時,在這些關(guān)鍵幀的前后使用Open CV 實現(xiàn)的TVL1 光流算法[30],如圖7 所示。將這些光流圖像一起輸入到時間流卷積網(wǎng)絡(luò)中,以提取視頻的運動特征。最后,每個樣本片段都會分別生成外觀分析分?jǐn)?shù)和運動分析分?jǐn)?shù),然后將兩者的分?jǐn)?shù)進(jìn)行加權(quán)求均值的方式合并,得到該樣本片段的最終預(yù)測值。這樣依次對所有樣本片段進(jìn)行預(yù)測,最終得到整個視頻的識別分類結(jié)果。
圖6 泥石流識別流程
圖7 抽取光流示例圖
本文實驗采用Windows11 64 位操作系統(tǒng),并基于x64 架構(gòu)的處理器進(jìn)行操作。實驗環(huán)境中的GPU為NVIDIA GeForce RTX 3050Ti 顯卡。本文使用的模型是基于mmaction2 行為識別框平臺實現(xiàn)的,訓(xùn)練集與測試集的劃分比例為7:3。采用隨機(jī)梯度下降法來優(yōu)化網(wǎng)絡(luò)模型的參數(shù),動量大小設(shè)置為0.9,權(quán)重衰減項為0.0001,初始學(xué)習(xí)率設(shè)置為0.01。Batch Size(BS)對預(yù)模型的訓(xùn)練效率和結(jié)果具有重要影響。BS 過小,會導(dǎo)致模型訓(xùn)練過程中出現(xiàn)梯度消失或梯度爆炸的問題,從而影響模型的收斂和性能,而過大則可能導(dǎo)致模型對每個batch 的樣本分布過擬合,從而在測試集上表現(xiàn)不佳。因此,選擇一個適當(dāng)?shù)腂S對于預(yù)模型的訓(xùn)練效率和結(jié)果是至關(guān)重要的??紤]到設(shè)備資源的有限性,為了節(jié)約計算資源并加快訓(xùn)練過程中的迭代速度,增加模型的泛化能力,本文采用準(zhǔn)確率作為評價指標(biāo),經(jīng)過相同條件下的消融實驗,實驗結(jié)果如圖8所示。由圖8可以看出將BS設(shè)置為6時,網(wǎng)絡(luò)總體的識別準(zhǔn)確率最高,可達(dá)87.73%。
圖8 不同BS情況下模型的準(zhǔn)確率
在進(jìn)行研究時,本文采用一系列的數(shù)據(jù)預(yù)處理策略來對視頻數(shù)據(jù)進(jìn)行處理,為了確保這些策略對模型訓(xùn)練是有利的,設(shè)計如下對比試驗。將原始的視頻數(shù)據(jù)根據(jù)視頻的內(nèi)容進(jìn)行粗略的分類,生成數(shù)據(jù)集A。使用分割場景、修剪視頻、數(shù)據(jù)增強(qiáng)的步驟對數(shù)據(jù)進(jìn)行預(yù)處理,生成數(shù)據(jù)集B。分別將這2 類數(shù)據(jù)集輸入到模型中進(jìn)行訓(xùn)練,并記錄數(shù)據(jù)集訓(xùn)練后模型的最高準(zhǔn)確率的模型參數(shù)值,實驗結(jié)果如表1 所示。經(jīng)過數(shù)據(jù)預(yù)處理后,訓(xùn)練集的準(zhǔn)確率從原本的63.66%提高到了87.73%,提升了24.07 個百分點,測試集的準(zhǔn)確率也從64.58%提升到了89.15%,提高了24.57 個百分點。實驗結(jié)果表明,本文的數(shù)據(jù)預(yù)處理方式對提高模型的準(zhǔn)確率有著正向作用。
表1 數(shù)據(jù)預(yù)處理對模型準(zhǔn)確率的影響
為全面評估分類模型的性能,精細(xì)計算每個類別的準(zhǔn)確率,實驗結(jié)果如表2 所示。由實驗數(shù)據(jù)可知,模型在處理泥石流視頻分類時的效果最佳,準(zhǔn)確率高達(dá)93.84%,然而,滑坡和崩塌視頻分類的準(zhǔn)確率相對較低,為80.27%,自然場景非地質(zhì)災(zāi)害視頻分類的準(zhǔn)確率為86.33%。這些數(shù)據(jù)清晰地揭示了模型在處理不同類型自然災(zāi)害視頻時的性能有所差異。對于泥石流視頻的高準(zhǔn)確率,可能的原因是該類視頻中出現(xiàn)的視覺特征較為獨特和明顯,如大量的泥土和石頭流動,這些顯著的視覺元素容易被模型正確識別。然而,滑坡和自然環(huán)境非地質(zhì)災(zāi)害視頻包含了更復(fù)雜的視覺特征,使得模型在進(jìn)行這2 類視頻分類時的準(zhǔn)確率有所下降。除此之外,模型的性能表現(xiàn)與訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量緊密關(guān)聯(lián)。在本文實驗中,由于泥石流視頻的數(shù)量最多,模型在該類別的表現(xiàn)也相應(yīng)地達(dá)到了最佳,然而,滑坡視頻的數(shù)量相對較少,由于數(shù)據(jù)不足影響了模型的準(zhǔn)確率。針對滑坡視頻的分類性能,未來可以通過增加該類視頻的訓(xùn)練數(shù)據(jù)量進(jìn)行優(yōu)化和提升。
表2 不同視頻的分類準(zhǔn)確率
為了驗證本文所使用的網(wǎng)絡(luò)模型在自制泥石流數(shù)據(jù)集上的優(yōu)越性,設(shè)計一組消融實驗。為確保實驗的公平性,對模型都預(yù)先使用Kinetics-400 數(shù)據(jù)集預(yù)訓(xùn)練,并使用相同的測試集和驗證集對模型進(jìn)行測試。如表3所示,特征提取網(wǎng)絡(luò)采用ResNet-50的網(wǎng)絡(luò)模型取得了最高的準(zhǔn)確率,相對于傳統(tǒng)的TSN模型和I3D模型,本文所使用的網(wǎng)絡(luò)模型具有更優(yōu)異的表現(xiàn)。
表3 不同方法的分類準(zhǔn)確率
為了驗證開源數(shù)據(jù)預(yù)訓(xùn)練對模型訓(xùn)練速度和準(zhǔn)確率的提升效果,對未經(jīng)過開源數(shù)據(jù)集訓(xùn)練的模型、經(jīng)過ImageNet 數(shù)據(jù)集訓(xùn)練的模型和經(jīng)過ImageNet 和Kinetics-400數(shù)據(jù)集預(yù)訓(xùn)練的模型進(jìn)行對比實驗。實驗結(jié)果表明(見表4),經(jīng)過預(yù)訓(xùn)練的模型在迭代次數(shù)更短的情況下,取得了更高的Top1/ACC值。
表4 使用公開數(shù)據(jù)集預(yù)訓(xùn)練對模型性能的影響
本文介紹了利用TSN 模型對泥石流視頻進(jìn)行分類的方法,并詳細(xì)探討了關(guān)鍵環(huán)節(jié)的實現(xiàn)過程:
1)數(shù)據(jù)集的收集與制作:借助互聯(lián)網(wǎng)和部署在地質(zhì)災(zāi)害點的攝像設(shè)備,收集各類地質(zhì)災(zāi)害視頻數(shù)據(jù),并根據(jù)災(zāi)害類型將視頻分為泥石流、滑坡和崩塌以及非地質(zhì)災(zāi)害3種類型。
2)視頻數(shù)據(jù)的預(yù)處理:使用PySceneDetect 工具進(jìn)行鏡頭邊界檢測和使用ffmpeg修剪視頻,將包含過多不同概念的復(fù)雜視頻分割為短視頻片段,再通過隨機(jī)裁剪和水平方向的隨機(jī)翻轉(zhuǎn)的方式,提升數(shù)據(jù)量并豐富數(shù)據(jù)多樣性。
3)分類模型的構(gòu)建:該模型參考雙流神經(jīng)網(wǎng)絡(luò)和TSN網(wǎng)絡(luò)的框架,并使用ResNet-50作為模型的底層架構(gòu),以捕捉泥石流災(zāi)害視頻中的運動特征和場景信息。
本文在使用ImageNet 和Kinetics-400 開源數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練后,再加入大量地質(zhì)災(zāi)害視頻數(shù)據(jù)對模型進(jìn)行訓(xùn)練和微調(diào)。實驗結(jié)果表明,本文采用的視頻預(yù)處理方法和識別模型可以有效提高特定場景下特定攝像頭捕捉到的泥石流運動場景視頻的識別準(zhǔn)確率,并為利用攝像頭對泥石流進(jìn)行監(jiān)測預(yù)警的研究和應(yīng)用提供了有益參考。