袁啟旺 蘆健秋 戶傳真 涂小雅 周志文
淮陰工學(xué)院管理工程學(xué)院 江蘇淮安 223003
施工現(xiàn)場(chǎng)視頻包含工程項(xiàng)目管理所需的施工設(shè)備、施工對(duì)象及其活動(dòng)關(guān)系等重要的視覺信息?;谝曈X技術(shù)分析施工視頻,可以通過自動(dòng)監(jiān)控施工效率,識(shí)別施工安全風(fēng)險(xiǎn)、優(yōu)化施工空間等實(shí)現(xiàn)工地智慧化。近年來,基于視覺的土方開挖效率提升、施工現(xiàn)場(chǎng)臨空護(hù)欄管理等智慧化管理方法逐漸得到應(yīng)用。相較于激光掃描儀、射頻識(shí)別和全球定位系統(tǒng)等智慧工地管理技術(shù)相比,基于視覺的施工現(xiàn)場(chǎng)監(jiān)測(cè)技術(shù)成本低、施工現(xiàn)場(chǎng)布置及維護(hù)簡(jiǎn)便。
現(xiàn)有的基于視覺的施工方法包括目標(biāo)檢測(cè)、目標(biāo)跟蹤、活動(dòng)識(shí)別、場(chǎng)景分析等,許多施工現(xiàn)場(chǎng)智慧化管理均基于這四種類型方法開發(fā)得到。對(duì)象檢測(cè)方法從施工圖像或視頻中檢索施工對(duì)象(如機(jī)器、工人和材料)的定位和分類信息,這是多數(shù)基于視覺的施工管理研究的基本步驟。目標(biāo)跟蹤的目的是在連續(xù)幀中檢索和解釋施工物體的運(yùn)動(dòng),通過為每個(gè)物體分配標(biāo)識(shí)號(hào)(ID)來生成軌跡信息。已有研究表明,活動(dòng)識(shí)別可以有效地用于基于視覺智慧管理,包括安全控制、生產(chǎn)率分析等。
場(chǎng)景分析是指通過識(shí)別人、料、機(jī)、法、環(huán)等施工要素來解釋施工圖像,提供施工管理圖像中的視覺信息。場(chǎng)景分析主要應(yīng)用于包括違反施工安全規(guī)則的自動(dòng)檢測(cè)、道路資產(chǎn)評(píng)估和施工危險(xiǎn)識(shí)別等。但場(chǎng)景分析目前多通過物體檢測(cè)或活動(dòng)識(shí)別分別檢索施工要素,并將所有信息組合到預(yù)定義的模板中,這種方法在不同場(chǎng)景檢測(cè)極其耗時(shí),而按預(yù)定義的順序進(jìn)行分組,并生成語句時(shí)極易出錯(cuò)。而圖像字幕基于計(jì)算機(jī)視覺和自然局域網(wǎng)測(cè)量處理,可用于施工場(chǎng)景分析。近來,深度學(xué)習(xí)能夠自動(dòng)從圖像中提取高級(jí)特征,用于計(jì)算機(jī)視覺、自然語言處理、強(qiáng)化學(xué)習(xí)等各種應(yīng)用。圖像字幕技術(shù)結(jié)合深度學(xué)習(xí),可以通過在有標(biāo)記的圖像數(shù)據(jù)集上訓(xùn)練而得到精確而簡(jiǎn)潔的文本描述。通過采用深度學(xué)習(xí)圖像字幕技術(shù),可以將施工圖像或視頻中的場(chǎng)景信息以自然語句的形式進(jìn)行整體檢索。盡管深度學(xué)習(xí)圖像字幕在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用廣泛,但基于施工場(chǎng)景的應(yīng)用很少,其可行性尚需驗(yàn)證。目前多數(shù)深度學(xué)習(xí)圖像字幕技術(shù)都基于日常生活場(chǎng)景,用于施工圖像標(biāo)注的語言模式尚未建立,施工場(chǎng)景搜索通常只采用基本的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)方法,而深度學(xué)習(xí)方法尚未在施工應(yīng)用中得到測(cè)試。為此本研究提出一種將深度學(xué)習(xí)圖像字幕技術(shù)集成到施工構(gòu)建場(chǎng)景中的方法。該方法包括三個(gè)主要步驟:數(shù)據(jù)集開發(fā)、模型建立和實(shí)驗(yàn)評(píng)估。
構(gòu)建注釋圖像數(shù)據(jù)集是將深度學(xué)習(xí)圖像字幕應(yīng)用于施工現(xiàn)場(chǎng)管理的基礎(chǔ)步驟。數(shù)據(jù)集建構(gòu)一般包括三項(xiàng)內(nèi)容:圖像采集、選擇和注釋。
收集具有尺寸、顏色、形狀和照明水平等一系列視覺特征的施工圖像,提高了深度學(xué)習(xí)圖像說明方法在建筑場(chǎng)景中的魯棒性和泛化性。本文采用文獻(xiàn)[1]中的圖像進(jìn)行圖像標(biāo)注,包括挖掘機(jī)、夯實(shí)機(jī)、推土機(jī)、平地機(jī)、自卸汽車、混凝土攪拌車、輪式裝載機(jī)、反鏟裝載機(jī)、塔式起重機(jī)和移動(dòng)式起重機(jī),該文獻(xiàn)中124500幅施工圖像來自在線資源37500幅施工圖像,由智能手機(jī)、固定位置相機(jī)和無人機(jī)拍攝。然后,對(duì)采集的16.2萬張圖像進(jìn)行手動(dòng)處理,去除重復(fù)圖像、低分辨率圖像、刪除過大和過小的圖像及隱私保護(hù)處理。圖1為示例圖像,3800張施工圖像參與運(yùn)算。
圖1 施工圖像示例
對(duì)于圖像字幕數(shù)據(jù)集,每張圖像都需要手動(dòng)標(biāo)注簡(jiǎn)單語句來描述圖像內(nèi)容。必須使用專業(yè)術(shù)語描述施工對(duì)象、施工活動(dòng)和工作內(nèi)容。
首先根據(jù)語言圖式從施工形象中解構(gòu)出施工機(jī)械及其配套設(shè)備、施工內(nèi)容及活動(dòng)情況,以及顏色、數(shù)量、天氣等補(bǔ)充信息;其次,將專業(yè)術(shù)語與施工元素匹配;最后用詞語來描述施工圖像中進(jìn)行的活動(dòng),形成一個(gè)邏輯正確的語句。選擇挖掘機(jī)、夯實(shí)機(jī)、推土機(jī)、平地機(jī)、自卸卡車、混凝土攪拌車、輪式裝載機(jī)、反鏟裝載機(jī)、塔吊和移動(dòng)吊車等作為主要施工對(duì)象和輔助施工對(duì)象術(shù)語。
對(duì)3800張圖像進(jìn)行注釋,共生成8122個(gè)注釋。字幕數(shù)據(jù)集中的元素分布包括機(jī)器術(shù)語和活動(dòng)術(shù)語,挖掘機(jī)和自卸卡車是字幕數(shù)據(jù)集中出現(xiàn)頻率最高的兩個(gè)對(duì)象術(shù)語,而裝載和傾倒是使用頻率最高的兩個(gè)活動(dòng)術(shù)語。字幕數(shù)據(jù)集劃分為訓(xùn)練集(80%)和驗(yàn)證集(20%),為實(shí)驗(yàn)評(píng)價(jià)步驟。
施工領(lǐng)域目前大多數(shù)圖像字幕使用CNN-RNN方法構(gòu)建,本研究選擇六種深度學(xué)習(xí)圖像字幕方法。
2.1.1 基線方法(Baseline method,Base)
選擇由CNN和RNN網(wǎng)絡(luò)組成的基線方法進(jìn)行評(píng)估,采用ResNet101網(wǎng)絡(luò)作為編碼器,采用LSTM網(wǎng)絡(luò)作為解碼器。施工管理中多使用基線方法進(jìn)行施工圖像字幕技術(shù)研究。
2.1.2 注意法(Attention meth attention method,Att)
注意方法結(jié)構(gòu)采用文獻(xiàn)[3]的描述,選擇注意方法作為檢測(cè)施工圖像解碼器(已選擇ResNet101作為編碼器)。注意力解碼器允許神經(jīng)網(wǎng)絡(luò)在序列的不同步驟上查看圖像的不同部分。通常,注意力解碼器的功能是一個(gè)小型神經(jīng)網(wǎng)絡(luò),將工作添加到LSTM神經(jīng)網(wǎng)絡(luò)中,將隱藏狀態(tài)作為輸入,并輸出一組圖像特征的權(quán)重,表明LSTM應(yīng)該關(guān)注哪些較大的權(quán)重區(qū)域。對(duì)圖像特征施加權(quán)重,得到特征內(nèi)容,然后將內(nèi)容發(fā)送回LSTM以幫助生成輸出。與基線方法相比,在集中注意力方法中,LSTM作為注意網(wǎng)絡(luò),而編碼器網(wǎng)絡(luò)保持不變。
2.1.3 轉(zhuǎn)換方法(transformer method,Tsfm)
轉(zhuǎn)換解碼是一種多頭注意機(jī)制,在計(jì)算機(jī)視覺應(yīng)用中取得了比注意解碼器更好的性能,通過集成ResNet101編碼器和轉(zhuǎn)換解碼器來實(shí)現(xiàn)。轉(zhuǎn)換前解碼器由多線程注意層、歸一化層和前饋層組成。多頭注意層是一組計(jì)算注意權(quán)重的并行注意網(wǎng)絡(luò),前饋層負(fù)責(zé)進(jìn)行大量的解碼工作。
2.1.4 自我臨界序列訓(xùn)練(self-critical sequence training,SCST)
該法整合了自—關(guān)鍵序列訓(xùn)練(SCST)策略,采用強(qiáng)化學(xué)習(xí)方法訓(xùn)練深度學(xué)習(xí)圖像字幕生成,通過不可微的任務(wù)指標(biāo)進(jìn)行優(yōu)化。在SCST中,在推理測(cè)試過程中估計(jì)了兩個(gè)序列,分別是從softmax分布中抽樣,另一個(gè)是貪婪抽樣。兩個(gè)序列的獎(jiǎng)勵(lì)組合為自我批判的最終損失,這使得SCST在深度學(xué)習(xí)圖像字幕中更有效地訓(xùn)練。在本研究中,上述三種方法均應(yīng)用SCST策略。
這樣,六種深度學(xué)習(xí)圖像字幕生成方法(即Base、Base-SCST、Att、Att-SCST、Tsfm和Tsfm-SCST)可以進(jìn)行測(cè)試字幕數(shù)據(jù)集。
目前計(jì)算機(jī)視覺研究中,并沒有單一的評(píng)價(jià)圖像字幕技術(shù)的通用指標(biāo)。本文采用了5個(gè)自動(dòng)評(píng)價(jià)指標(biāo),通過比較事實(shí)語句和生成語句,來評(píng)估深度學(xué)習(xí)圖像字幕方法在語句層級(jí)的性能。這些評(píng)價(jià)指標(biāo)包括雙語評(píng)價(jià)替補(bǔ)研究(BLEU)、基于回憶的引文評(píng)價(jià)(ROUGE)、基于顯式排序的翻譯評(píng)價(jià)指標(biāo)(METEOR)、基于共識(shí)的圖像描述評(píng)價(jià)(CIDEr)和語義命題圖像標(biāo)題評(píng)價(jià)(SPICE)。對(duì)于這些指標(biāo),需要更高的值表示更好的字幕性能。CIDEr的數(shù)值范圍是0到10,其他四個(gè)指標(biāo)的范圍是0到1。
在前述圖像字幕訓(xùn)練集上對(duì)深度學(xué)習(xí)圖像字幕生成模型進(jìn)行訓(xùn)練。所有六種深度學(xué)習(xí)圖像字幕方法都是用Python語言實(shí)現(xiàn),編碼器(ResNet101)和解碼器(LSTM、attention和transformer)均使用Pytorch庫實(shí)現(xiàn),ResNet101在ImageNet數(shù)據(jù)集和Opencv庫上進(jìn)行預(yù)訓(xùn)練用于圖像輸入/輸出。
對(duì)上述圖片進(jìn)行字幕生成,如圖2示例圖片,六種方法對(duì)其圖像字幕生成結(jié)果如下表所示。
示例圖片的字幕生成結(jié)果表
圖2 六種方法得到的圖像字幕生成結(jié)果示意
從語句層級(jí)評(píng)價(jià)結(jié)果看,Tsfm-SCST施工筑圖像字幕處理性能最好,證明了轉(zhuǎn)換解碼器和SCST策略用于深度學(xué)習(xí)圖像字幕的可行性。在大多數(shù)情況下能夠正確描述施工圖像內(nèi)容;Base方法在性能上排名第二,施工場(chǎng)景中優(yōu)于Att和Tsfm;在計(jì)算機(jī)視覺方面,Att和Tsfm取得了比Base方法更好的性能。這表明圖像字幕在施工管理中技術(shù)難度度低于傳統(tǒng)計(jì)算機(jī)視覺應(yīng)用。
在元素級(jí)評(píng)估中,同樣使用Tsfm-SCST方法進(jìn)行訓(xùn)練與進(jìn)行驗(yàn)證。結(jié)果表明,Tsfm-SCST在驗(yàn)證集的平均精度為91.1%,召回率為83.3%,F1得分為86.6%,這意味著它在施工場(chǎng)景中與最先進(jìn)的對(duì)象檢測(cè)方法具有接近但略低的性能。Tsfm-SCST方法在識(shí)別塔機(jī)時(shí)達(dá)到100%的最高精度,在識(shí)別分級(jí)施工設(shè)備及材料時(shí)達(dá)到92.9%最高召回率。
模型實(shí)驗(yàn)結(jié)果表明:
(1)對(duì)于施工場(chǎng)景分析,圖像字幕方法相對(duì)于現(xiàn)有的施工方法,推理速度更快。
(2)在施工監(jiān)控中,圖像字幕方法可以從圖像/視頻中生成自然語句描述施工現(xiàn)場(chǎng)實(shí)際狀況,有可能以文本格式自動(dòng)記錄項(xiàng)目進(jìn)度和安全問題,減少大量的人工記錄工作及手動(dòng)報(bào)告。由于生成語句包含解釋性信息,圖像字幕可用于評(píng)估基礎(chǔ)設(shè)施損壞情況。
(3)SCST策略被證明可以提高施工中圖像字幕方法的性能。模型試驗(yàn)結(jié)果表明,在訓(xùn)練中應(yīng)用特定策略可提高圖像字幕方法的性能。
但本研究數(shù)據(jù)集的數(shù)量相對(duì)較少,僅對(duì)比了基于編碼器—解碼器的圖像字幕方法,而有一些基于其他機(jī)制的深度學(xué)習(xí)圖像字幕方法尚需進(jìn)一步研究。