摘要:橋梁設(shè)計(jì)圖紙中含有重要的鋼筋數(shù)量信息,施工過程中需要利用鋼筋數(shù)量信息進(jìn)行鋼筋的分配工作,同時(shí)這些信息可以在新項(xiàng)目設(shè)計(jì)時(shí)提供設(shè)計(jì)經(jīng)驗(yàn),然而這些鋼筋數(shù)量信息通常以表格形式保存在紙質(zhì)圖紙中,對查閱和參照造成了不便?;诖?,提出了一種從橋梁設(shè)計(jì)圖紙中歸集鋼筋數(shù)量的方法,首先在YOLOv7的骨干網(wǎng)絡(luò)中,融入卷積注意力模塊(CBAM)注意力機(jī)制獲取更多細(xì)節(jié)特征,在頭部結(jié)構(gòu)中引入多分支卷積RFB模塊,提升模型對小目標(biāo)的特征表達(dá)能力,基于改進(jìn)后的YOLOv7對橋梁設(shè)計(jì)圖紙的表格和圖簽欄進(jìn)行目標(biāo)檢測;其次利用PP-StructureV2的表格識別功能對圖紙中的表格和圖簽欄進(jìn)行表格識別,經(jīng)過匯總驗(yàn)證,最終生成包含所有鋼筋數(shù)量信息的Excel文檔,實(shí)現(xiàn)橋梁設(shè)計(jì)圖紙中鋼筋數(shù)量信息的歸集。利用安徽省交通規(guī)劃設(shè)計(jì)研究總院股份有限公司提供的橋梁設(shè)計(jì)圖紙進(jìn)行實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的YOLOv7算法的F1 Score可達(dá)到98.35%,和原始YOLOv7算法相比,提升了0.86%,可滿足從橋梁設(shè)計(jì)圖紙中檢測表格以及圖簽欄的要求。
關(guān)鍵詞:橋梁設(shè)計(jì)圖紙;目標(biāo)檢測;YOLOv7;PP-StructureV2;表格識別;歸集;鋼筋數(shù)量表
中圖分類號: TP391.4文獻(xiàn)標(biāo)志碼:文獻(xiàn)標(biāo)識碼A
Methods of collecting rebar quantities information in bridge design drawings
based on deep learning
HU" Mengnan1,CHENG" Zhiyou1,AN" Ning2,WANG" Chuanjian1*,ZHU" Junan1,YIN" Liang3,
WANG" Qian3
(1 School of Internet, Anhui University, Hefei,Anhui 230031, China; 2 School of Electronic and Information Engineering, Anhui
University,Hefei,Anhui 230031, China; 3 Anhui Transport Consuling amp; Design Institute Company Limited,
Heifei,Anhui 230088, China)
Abstract: There exists rebar quantity information in bridge design drawings, which is used in the construction process for rebar allocation work, and at the same time, this information can provide design experience in the design of new projects, however, this rebar quantity information is usually saved in paper drawings in the form of tables, which is inconvenient for access and reference. Based on this, a method is proposed to summarize the rebar quantity from bridge design drawings. Firstly, in the backbone network of YOLOv7, the convolutional attention module (CBAM) attention mechanism is incorporated to obtain more detailed features, and the multi-branch convolutional RFB module is introduced in the head structure to improve the feature expression ability of the model for small targets, object detection of normal tables and title block of bridge design drawings based on improved YOLOv7; secondly, the table recognition function provided by PP-StructureV2 is used to identify the table of common table norma tables and title block in the drawings; after summarization and validation, an Excel table containing all the rebar quantity information is finally generated to realize the summarization of rebar quantity information in bridge design drawings. Next, PP-StructureV2 is used to identify the common tables and title column tables in the drawings, and after summarizing and verifying, an Excel table containing all the rebar quantities information is finally generated to realize the aggregation of rebar quantities information in the bridge design drawings. Experimental studies were conducted using the bridge design drawings provided by Anhui Transport Consuling amp; Design Institute Company Limited. The experimental results show that the F1 Score of the improved YOLOv7 algorithm provided in this paper can reach 98.35%, which is 0.86% higher compared with the original YOLOv7 algorithm, and it can meet the requirements of detecting the common table as well as the title block table from the bridge design drawings.
Key words: bridge design drawings;object detection;YOLOv7;PP-StructureV2;table recognition;collect;rebar quantity tables
隨著我國交通建設(shè)事業(yè)的迅速發(fā)展,交通建設(shè)設(shè)計(jì)得到了大力支持。橋梁設(shè)計(jì)是整個(gè)建設(shè)過程中的關(guān)鍵環(huán)節(jié),決定了具體建設(shè)的實(shí)施方向[1]。作為交通工程設(shè)計(jì)中技術(shù)難度最大、安全關(guān)注度最高的部分,橋梁設(shè)計(jì)存在著周期短、工作量大以及較多重復(fù)設(shè)計(jì)工作的情況。在橋梁施工圖設(shè)計(jì)階段,設(shè)計(jì)人員通常會參考已有橋梁項(xiàng)目的設(shè)計(jì)圖紙,借鑒其中的參數(shù)信息,減少試算過程,傳承設(shè)計(jì)經(jīng)驗(yàn)。配筋率是橋梁設(shè)計(jì)中影響受力特征的一個(gè)重要參數(shù),即鋼筋混凝土構(gòu)件中縱向受力(拉或壓)鋼筋的面積與構(gòu)件的有效面積之比,對橋梁的結(jié)構(gòu)性能和安全性起著至關(guān)重要的作用,控制配筋率可以防止構(gòu)件發(fā)生少筋破壞[2]。橋梁設(shè)計(jì)圖紙具有數(shù)據(jù)量大、來源分散的特點(diǎn),對于計(jì)算配筋率這樣的任務(wù),采用傳統(tǒng)的手工方法收集和管理這些數(shù)據(jù)將耗費(fèi)大量的時(shí)間、資金和人力。在橋梁施工期間,施工人員需要對圖紙內(nèi)的鋼筋數(shù)量信息進(jìn)行讀取,以便進(jìn)行施工工作。然而,由于圖紙通常是紙質(zhì)形式,翻閱和查找起來相對困難。因此,需要探索新的方式來快速查閱并獲取所需鋼筋數(shù)量信息。
建筑信息模型(Building Information Modeling,BIM)是建筑、工程、施工和運(yùn)營行業(yè)中一個(gè)廣泛的知識領(lǐng)域,產(chǎn)生一種在整個(gè)建筑生命周期中以數(shù)字格式管理基本建筑設(shè)計(jì)和項(xiàng)目數(shù)據(jù)的方法,可提高建筑信息的交互性[3],將設(shè)備監(jiān)測數(shù)據(jù)與工程數(shù)據(jù)集成管理,為運(yùn)維過程中的分析和決策提供支持,充分發(fā)揮工程信息的價(jià)值[4]。BIM的重建可以從現(xiàn)有的設(shè)計(jì)圖紙中提取,設(shè)計(jì)圖紙中不僅包含圖形和結(jié)構(gòu)組成,還包含大量的文本和表格信息,這些信息成為后續(xù)信息化管理的重要來源。然而很多建筑目前僅有紙質(zhì)的圖紙資料,重建BIM是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。
伴隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測技術(shù)在各個(gè)領(lǐng)域得到廣泛應(yīng)用,通常可以分為兩大類別:單階段算法和雙階段算法。雙階段代表性算法為基于區(qū)域的更快卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Neural Network,F(xiàn)aster RCNN)[5],檢測精度高但速度慢。You Only Look Once(YOLO)系列算法[6-9]是典型的單階段目標(biāo)檢測算法,檢測速度較快,但檢測精度略低于雙階段算法。隨著YOLO算法的更新迭代,YOLOv5[10]、YOLOv6[11]、YOLOv7[12]的出現(xiàn),檢測精度也在逐漸升高,已經(jīng)不遜色雙階段算法。近年來研究人員也在嘗試?yán)媚繕?biāo)檢測技術(shù)從工程圖紙中識別信息,Zhao等[13]于2021年提出了一種從現(xiàn)有建筑物的2D結(jié)構(gòu)圖紙重建BIM的方法,利用Faster RCNN從圖紙中檢測柱和梁,同時(shí)利用py-tesseract工具提取圖紙中的標(biāo)注信息,生成工業(yè)基礎(chǔ)類(Industry Foundation Classes,IFC)格式的BIM結(jié)構(gòu)模型;楊墨逸等[14]2022年提出了一種改進(jìn)Cascade RCNN方法,從二維圖紙識別風(fēng)管設(shè)備,提取出風(fēng)管的類別和位置信息;周權(quán)等[15]2021年提出了一種利用Faster RCNN從二維圖紙識別建筑構(gòu)件信息,并py-tesseract工具提取文本信息的方法;潘灶林等[16]2022年通過Cascade Mask RCNN抽取供暖、通風(fēng)和空調(diào)圖紙中構(gòu)件語義和幾何信息;LU等[17]2017年提出了一種從二維圖紙中識別結(jié)構(gòu)構(gòu)件的方法,先識別二維圖紙中的特殊符號,然后利用光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù)從圖紙中提取構(gòu)件的位置。Zhao等[18]于2020年提出一種基于YOLO的方法,從掃描的2D圖紙中檢測建筑構(gòu)件。
當(dāng)前對工程圖紙的識別,大多是對圖紙中的構(gòu)件進(jìn)行檢測,并提取構(gòu)件相關(guān)文字信息,忽略了圖紙中的表格信息,而圖紙中會有很多重要信息以表格形式保存。盡管當(dāng)前有很多公開的表格數(shù)據(jù)集,如UNLV、ICDAR 2013、ICDAR 2019等,這些數(shù)據(jù)集來自雜志、電子書、網(wǎng)站等[19],但這些數(shù)據(jù)集中表格的寬高比與工程圖紙中的表格不同,在這些數(shù)據(jù)集上的訓(xùn)練的結(jié)果并不能直接應(yīng)用于工程圖紙中,而且目前沒有公開的針對工程圖紙的表格檢測數(shù)據(jù)集。
基于以上現(xiàn)狀,本文提出了一種橋梁設(shè)計(jì)圖紙中鋼筋數(shù)量信息的歸集方法?;诟倪M(jìn)的YOLOv7算法對橋梁設(shè)計(jì)圖紙的表格和圖簽欄進(jìn)行目標(biāo)檢測,再利用PP-StructureV2[20]提供的表格識別功能,對檢測到圖紙中的表格和圖簽欄進(jìn)行表格識別,最終生成包含所有鋼筋數(shù)量信息的Excel文檔。本文結(jié)合了深度學(xué)習(xí)、圖像處理和OCR技術(shù),對圖紙內(nèi)的鋼筋數(shù)量信息進(jìn)行讀取整合,方便設(shè)計(jì)人員在設(shè)計(jì)期間對已有橋梁項(xiàng)目參照,同時(shí)也方便了施工人員查閱圖紙,為現(xiàn)有建筑的BIM重建提供必要的數(shù)據(jù)支持。
1 資料與方法
本文提出一種從橋梁設(shè)計(jì)圖紙中歸集鋼筋數(shù)量的方法,分為3個(gè)階段:(1)基于改進(jìn)的YOLOv7算法從橋梁設(shè)計(jì)圖紙中檢測表格以及圖簽欄;(2)使用表格識別技術(shù)將從橋梁設(shè)計(jì)圖紙中檢測到的表格及圖簽欄生成可編輯的Excel文件;(3)將圖簽欄信息和表格信息進(jìn)行匹配,歸集橋梁設(shè)計(jì)圖紙中的所有鋼筋數(shù)量表,對識別出的鋼筋數(shù)量信息進(jìn)行計(jì)算驗(yàn)證。
1.1 數(shù)據(jù)集
為了從工程圖紙中檢測表格以及圖簽欄信息,需要大量帶有類別標(biāo)簽的圖像來訓(xùn)練和測試改進(jìn)的YOLOv7模型。然而到目前為止,還沒有公開的、通用的具有表格以及圖簽欄的圖像數(shù)據(jù)集。從安徽省交通規(guī)劃設(shè)計(jì)研究總院股份有限公司收集了以pdf格式保存的橋梁設(shè)計(jì)圖紙文件,使用pdf2image開源庫將pdf轉(zhuǎn)為jpg格式的圖片。因此本研究收集并建立了1 000張分辨率為2 381×1 684大小的橋梁設(shè)計(jì)圖紙組成的原始數(shù)據(jù)集,對原始數(shù)據(jù)集的所有圖像進(jìn)行加高斯噪聲處理,得到2 000張圖片組成的數(shù)據(jù)集,數(shù)據(jù)集里的圖像如圖1A所示,通常由表格、圖形、注釋以及圖簽欄構(gòu)成。使用labelimg標(biāo)注工具對數(shù)據(jù)集進(jìn)行標(biāo)注,將要檢測的表格和圖簽欄劃分并標(biāo)記為2個(gè)類別:Table、Information,標(biāo)注示例圖像如圖1B所示,其中紅色框?yàn)楸砀駞^(qū)域,藍(lán)色框?yàn)閳D簽欄區(qū)域,將標(biāo)注后的信息以YOLO格式輸出保存。
對數(shù)據(jù)集進(jìn)行劃分,80%用于訓(xùn)練集,剩余的20%用作驗(yàn)證集以評估表格檢測模型的性能。每個(gè)數(shù)據(jù)集中的訓(xùn)練和測試圖像的數(shù)量如表1所示。
1.2 表格的檢測
1.2.1 YOLOv7模型
YOLOv7的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,可看出YOLOv7網(wǎng)絡(luò)由3個(gè)部分組成:輸入(Input)、主干網(wǎng)絡(luò)(Backbone)和頭部結(jié)構(gòu)(Head),主干網(wǎng)絡(luò)由若干CBS層、ELAN層以及MP1層組成,其中CBS層由卷積層+BN層+SiLU激活函數(shù)組成;ELAN層也是由不同的卷積拼接而成,它通過控制最短和最長的梯度路徑,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更多的特征;MP1模塊有2個(gè)分支,作用是進(jìn)行下采樣。整個(gè)Head層通過SPPCSPC層、若干個(gè)CBS層、若干MP層、若干ELAN-H層以及3個(gè)REP層組成。輸入圖像后,先對輸入的圖片預(yù)處理,對齊成640×640大小的RGB圖片,輸入到Backbone網(wǎng)絡(luò)中,根據(jù)Backbone網(wǎng)絡(luò)中的三層輸出,在Head層繼續(xù)輸出3層不同尺寸大小的特征圖,經(jīng)過REP和Conv操作,對圖像進(jìn)行預(yù)測,輸出最后的結(jié)果。
1.2.2 CBAM注意力機(jī)制
在YOLOv7的骨干網(wǎng)絡(luò)中引入卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)注意力機(jī)制,CBAM注意力機(jī)制的結(jié)構(gòu)如圖3所示,主要包括2個(gè)模塊:通道注意力模塊和空間注意力模塊。通道注意力模塊可以使神經(jīng)網(wǎng)絡(luò)能夠更好地學(xué)習(xí)通道間的依賴關(guān)系,重點(diǎn)檢測目標(biāo)的內(nèi)容??臻g"" 注意力模塊通可以使神經(jīng)網(wǎng)絡(luò)更好的學(xué)習(xí)不同位置之間的關(guān)系,重點(diǎn)檢測目標(biāo)的位置。兩者結(jié)合可以使輸出信息更加聚焦在重點(diǎn)特征,達(dá)到提高模型檢測性能的目的。
本研究將CBAM注意力機(jī)制融入主干網(wǎng)絡(luò)的第二個(gè)和第三個(gè)ELAN模塊后,將最終生成的特征傳遞給Head層。
1.2.3 多分支RFB模塊
為進(jìn)一步提高有效特征的感受野,更好的在橋梁設(shè)計(jì)圖紙中檢測圖簽欄,在Head層引入多分支卷積(Receptive Field Block,RFB)模塊[21]。RFB模塊的提出靈感來源于人類視覺的感受野,其結(jié)構(gòu)如圖4所示,該模塊使用了3個(gè)不同尺寸(1×1、3×3、5×5)的卷積核構(gòu)成了多分枝結(jié)構(gòu)。首先通過1×1的卷積核進(jìn)行降維操作,接下來分別對降維后的特征圖使用1×1、3×3和5×5的卷積核進(jìn)行卷積操作,不同大小的卷積核對應(yīng)連接膨脹率為1、3、5的空洞卷積,可在擴(kuò)大感受野的同時(shí)不增加其計(jì)算量,再次使用1×1的卷積調(diào)整特征維度,隨后與shortcut執(zhí)行相加操作,經(jīng)過ReLU激活函數(shù)輸出特征。RFB模塊的引入可擴(kuò)大感受野,提升模型對小目標(biāo)的特征表達(dá)能力,提升網(wǎng)絡(luò)的檢測性能,改進(jìn)后的YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
1.2.4 待識別內(nèi)容的獲取
將待檢測的橋梁設(shè)計(jì)圖紙輸入改進(jìn)的YOLOv7檢測模型,若圖中存在表格目標(biāo)以及圖簽欄目標(biāo),則返回其在圖像里的相對位置;若圖中無目標(biāo),則返回結(jié)束。對于檢測后的橋梁設(shè)計(jì)圖紙的坐標(biāo)系統(tǒng),以圖像左上角為原點(diǎn),相對位置為表格外框線的左上頂點(diǎn)坐標(biāo)和右下頂點(diǎn)坐標(biāo),設(shè)定表格為目標(biāo)0,圖簽欄為目標(biāo)1,輸出目標(biāo)框的相對位置為txt文件,具體輸出結(jié)果格式為:
[目標(biāo)0,[左上角橫坐標(biāo),左上角縱坐標(biāo),右下角橫坐標(biāo),右下角縱坐標(biāo)]]。
[目標(biāo)1,[左上角橫坐標(biāo),左上角縱坐標(biāo),右下角橫坐標(biāo),右下角縱坐標(biāo)]]。
對于每個(gè)目標(biāo),根據(jù)其相對位置信息,在檢測后的橋梁設(shè)計(jì)圖紙中截取出橋梁設(shè)計(jì)圖紙中的表格和圖簽欄圖像。
1.3 表格的識別
1.3.1 PP-StructureV2
PP-StructureV2是一個(gè)開源的智能文檔分析系統(tǒng),能完成版面分析、表格識別等文檔理解相關(guān)任務(wù)。PP-StructureV2支持各個(gè)模塊獨(dú)立使用或靈活搭配,可單獨(dú)使用表格識別。表格識別主要包含3個(gè)模型:單行文本檢測、單行文本識別和結(jié)構(gòu)位置對齊網(wǎng)絡(luò)(Structure Location Alignment Network,SLANet)。流程如圖6所示,表格圖像首先經(jīng)過單行文本檢測模型,該模型檢測并獲取單行文字的坐標(biāo),然后將其傳遞給單行文本識別模型以獲取文字內(nèi)容的識別結(jié)果。同時(shí),該表格圖像也通過SLANet模型獲取表格的結(jié)構(gòu)和坐標(biāo)信息。接下來,將單行文字的坐標(biāo)以及識別結(jié)果和坐標(biāo)結(jié)合起來,生成單元格的識別結(jié)果。最后,將單元格的識別結(jié)果與表格結(jié)構(gòu)一起用于構(gòu)建表格,最終生成可編輯的Excel文件。
PP-StructureV2目前提供了中、英文2種語言的表格識別模型,針對橋梁設(shè)計(jì)圖紙,本研究采用中文語言表格識別模型用于識別截取下來的表格和圖簽欄目標(biāo)。
1.3.2 圖簽欄圖像的處理
在對圖簽欄圖像進(jìn)行表格識別時(shí),由于圖簽欄目標(biāo)過于細(xì)長,裁剪后的圖簽欄圖像的寬高比通常達(dá)到30∶1以上,可能會導(dǎo)致表格識別模型無法正確識別圖簽欄。因此需要對圖簽欄圖像的比例進(jìn)行調(diào)整,如圖7所示,在圖像的上下兩側(cè)添加320像素寬度的邊框來調(diào)整圖簽欄圖像的寬高比,以滿足后續(xù)表格識別要求。最后將調(diào)整后的圖簽欄圖像送入表格識別模型。
1.4 表格的歸集
一個(gè)橋梁設(shè)計(jì)項(xiàng)目中會有多個(gè)鋼筋數(shù)量表出現(xiàn),每一聯(lián)每一跨都有相應(yīng)的鋼筋數(shù)量表,直接歸集所有的鋼筋數(shù)量表會導(dǎo)致在Excel總表中很難區(qū)分這些鋼筋數(shù)量表,利用python腳本,將圖簽欄中的橋梁設(shè)計(jì)圖信息插入表格中即可在總表中區(qū)分。首先判斷信息插入的條件,若同一張橋梁設(shè)計(jì)圖紙下同時(shí)存在表格和圖簽欄,將識別出的圖簽欄Excel文檔的第一行第三列的文字插入識別的表格Excel文檔中最后一欄,用于區(qū)分不同位置下的表格。其次根據(jù)識別到所有表格目標(biāo)的標(biāo)題,對標(biāo)記為“鋼筋數(shù)量”的關(guān)鍵字進(jìn)行判斷統(tǒng)計(jì),將所有的鋼筋數(shù)量表匯總保存至一個(gè)新的Excel文檔內(nèi)。將鋼筋的單根長度與數(shù)量進(jìn)行相乘得到計(jì)算結(jié)果,利用計(jì)算結(jié)果與識別出的鋼筋總長進(jìn)行對比,判斷是否相等,相等則認(rèn)為識別到的單根長度、數(shù)量和鋼筋總長參數(shù)準(zhǔn)確,將準(zhǔn)確與否的結(jié)果寫入表格中,同時(shí)計(jì)算出準(zhǔn)確的占比,即識別率,以便后續(xù)進(jìn)行人工核驗(yàn)和數(shù)據(jù)修改。最后對鋼筋數(shù)量總表里的鋼筋數(shù)量信息進(jìn)行匯總,得到該項(xiàng)目下總的鋼筋數(shù)量信息。
2 結(jié)果與分析
2.1 實(shí)驗(yàn)環(huán)境配置
本次實(shí)驗(yàn)的硬件環(huán)境為Intel(R)Core(TM)7-13700H 2.40 GHz以及NVIDIA GeForce RTX 4060,CUDA(Compute Unified Device Architecture)版本為CUDA 11.7,Python版本為3.9.16,深度學(xué)習(xí)框架為Pytorch1.13.1。
實(shí)驗(yàn)參數(shù)設(shè)置如下:輸入圖像經(jīng)過resize處理后大小為640×640,迭代次數(shù)epoch為50,批量大小batch-size為8,將模型的初始學(xué)習(xí)率lr0設(shè)置為0.01,采用余弦退火算法降低學(xué)習(xí)率。
2.2 評估標(biāo)準(zhǔn)
為了定量評價(jià)表格檢測的性能,本研究采用了精確度(Precision,P)、召回率(Recall,R)、平均精度均值 (mean Average Precision,mAP)、F1 Score指標(biāo)。精確度和召回率分別代表了模型區(qū)分陰性樣本和識別陽性樣本的能力。F1 Score可以看作是精確率和召回率的加權(quán)平均值,在分類模型中兼顧了兩者。F1 Score的取值范圍為0~1,該值越高說明模型的檢測效果越好。精確度、召回率和F1 Score的定義如下:
P=TPTP+FP,(1)
R=TPTP+FN,(2)
F1 Score=2TP2TP+FN+FP.(3)
其中TP(True Positive)、FP(False Positive)和FN(False Negative)分別表示每一類對象的真陽性、假陽性和假陰性檢測的數(shù)量。例如,表格檢測中,TP指的是正確識別的表格的數(shù)量,F(xiàn)P是被誤識別為表格的其他類別的物體的數(shù)量,F(xiàn)N是被檢測為其他物體的表格的數(shù)量。因此,TP+FP表示被檢測為表格的所有對象的數(shù)量,TP+FN表示表格的實(shí)際數(shù)量。
精度均值(Average Precision,AP)為精確度在召回率上的積分。計(jì)算公式為:
AP=∫10p(r)dr.(4)
式(4)中,r表示召回率,p(r)為精確度對召回率的函數(shù)。mAP為所有類AP的均值。其公式為:
mAP=1N∑N1AP(i).(5)
式(5)中,N為類別數(shù)量;AP(i)為第i類目標(biāo)的AP值。用mAP@0.5和mAP@0.5∶0.9評價(jià)mAP指標(biāo),mAP@0.5表示IoU設(shè)為0.5時(shí)的mAP,mAP@0.5∶0.9表示在不同IoU閾值(從0.5到0.95,步長0.05)上的平均mAP。
2.3 對比實(shí)驗(yàn)
為了評估在相同配置條件下,在主干網(wǎng)絡(luò)的特定位置引入不同的注意力機(jī)制對模型效果的影響,分別添加了SE注意力機(jī)制[22]、CA注意力機(jī)制[23]和CBAM注意力機(jī)制,并進(jìn)行了對比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表2所示。引入SE注意力機(jī)制后,精確度和召回率沒有提升,反而有所下降,這是由于橋梁設(shè)計(jì)圖紙屬于灰度圖像的特性,顏色以黑色和白色為主,缺乏通道間的彩色語義信息,而SE注意力機(jī)制只考慮編碼通道間信息,因此導(dǎo)致檢測精度降低;CA注意力機(jī)制將位置信息嵌入到了通道注意力中,引入CA注意力機(jī)制后,其精確度、召回率和平均精度都有所提升;相比較引入CA注意力機(jī)制,引入CBAM注意力機(jī)制后模型的F1 Score相同,但平均精度更高,故選擇CBAM注意力機(jī)制添加到主干網(wǎng)絡(luò)中,以提高模型整體性能。
為了直觀地了解引入不同注意力機(jī)制后的模型對目標(biāo)的關(guān)注程度,并判斷網(wǎng)絡(luò)是否學(xué)習(xí)到正確的特征或信息,對特征圖作GradCAM[24](Gradient-weighted Class Activation Mapping)可視化處理。在可視化圖中,藍(lán)色表示低注意力,紅色表示高注意力,顏色越深,代表相關(guān)程度越大。以檢測圖紙中的表格目標(biāo)為例,結(jié)果如圖8所示,圖中有2個(gè)表格目標(biāo),觀察出加入CBAM注意力機(jī)制后的模型更能聚焦在想要檢測的2個(gè)表格目標(biāo)上,表格區(qū)域顏色較深,同時(shí)非表格區(qū)域的顏色較淺,說明模型能更關(guān)注表格區(qū)域,對表格特征區(qū)域的定位更加精準(zhǔn),驗(yàn)證了CBAM注意力機(jī)制在本數(shù)據(jù)集上的優(yōu)越性。
為了驗(yàn)證本文所使用的改進(jìn)YOLOv7算法對橋梁設(shè)計(jì)圖紙的表格和圖簽欄的檢測效果,選用現(xiàn)今較為流行的目標(biāo)檢測算法:單點(diǎn)多盒檢測器(Single Shotmultibox Detector,SSD)[25]、Faster RCNN、YOLOv3-tiny、YOLOv5s、YOLOv7在相同的數(shù)據(jù)集下進(jìn)行對照比較。具體實(shí)驗(yàn)結(jié)果如表3所示,其中,F(xiàn)aster RCNN的骨干網(wǎng)絡(luò)是ResNet50(Residual Network)[26],精確度在幾組實(shí)驗(yàn)中最低,為69.1%;SSD的骨干網(wǎng)絡(luò)是VGG16 (Visual Geometry Group)[27],其召回率在幾組實(shí)驗(yàn)中最低,僅為78.7%;YOLOv3-tiny的精確度僅高于Faster RCNN,其值為75.1%;YOLOv5s和YOLOv7模型在所有指標(biāo)上表現(xiàn)出色,精確度、召回率均達(dá)到了95%以上;但本文提出的改進(jìn)YOLOv7的各項(xiàng)評價(jià)指標(biāo)在幾組實(shí)驗(yàn)中均為最高值,由此說明,在網(wǎng)絡(luò)中引入RFB模塊的同時(shí)加入CBAM注意力機(jī)制能夠有效提升檢測效果。
將橋梁設(shè)計(jì)圖紙輸入各個(gè)訓(xùn)練好的模型中,并與改進(jìn)后YOLOv7算法的檢測結(jié)果進(jìn)行對比,具體結(jié)果如圖9所示。其中,SSD未能成功檢測出圖簽欄,F(xiàn)aster RCNN、YOLOv3-tiny與YOLOv5對圖簽欄區(qū)域檢測不全,盡管YOLOv7對圖簽欄的位置定位較準(zhǔn)確,但置信度為0.85,小于改進(jìn)后的YOLOv7,這表明改進(jìn)后的YOLOv7在處理橋梁設(shè)計(jì)圖紙時(shí)更能有效地檢測出圖簽欄,具備更高的準(zhǔn)確性和置信度。
2.4 消融實(shí)驗(yàn)
為了測試本文使用的改進(jìn)YOLOv7算法中各個(gè)組成部分的貢獻(xiàn)和影響,設(shè)計(jì)多個(gè)消融實(shí)驗(yàn)來評估效果,并將實(shí)驗(yàn)結(jié)果匯總?cè)绫?所示。
首先,僅引入RFB模塊,精確度和召回率都有提升,F(xiàn)1 Score較原始YOLOv7提高了0.25%,mAP@0.5和mAP@0.5∶0.9分別上升了0.5%和2.0%;其次,僅加入CBAM注意力機(jī)制的試驗(yàn)結(jié)果表明,召回率提升了0.6%,F(xiàn)1 Score提高了0.3%,mAP@0.5和mAP@0.5∶0.9分別上升了0.6%和2.8%;最后,同時(shí)引進(jìn)RFB模塊和CBAM注意力機(jī)制,和YOLOv7相比,精確度和召回率均有提升,F(xiàn)1 Score提高了0.86%,mAP@0.5提高了0.7%,mAP@0.5∶0.9提高了3.0%,這表明RFB模塊和CBAM注意力機(jī)制的聯(lián)合引入在各項(xiàng)性能指標(biāo)上均達(dá)到最優(yōu)效果。
2.5 實(shí)驗(yàn)結(jié)果
改進(jìn)的YOLOv7對表格和圖簽欄的檢測指標(biāo)如表5所示,模型檢測圖簽欄的F1 Score為99.0%,mAP@0.5為99.0%,mAP@0.5∶0.9為67.4%,檢測表格的F1 Score為97.64%、mAP@0.5為97.6% mAP@0.5∶0.9為82.7%。檢測結(jié)果表明改進(jìn)后的模型可以準(zhǔn)確檢測到橋梁設(shè)計(jì)圖紙中的表格和圖簽欄信息。
為了驗(yàn)證改進(jìn)YOLOv7的泛化能力,從公開表格檢測數(shù)據(jù)集ICDAR 2019中隨機(jī)抽取了20%的數(shù)據(jù)作為測試集,將其輸入至訓(xùn)練好的模型中進(jìn)行測試,實(shí)驗(yàn)結(jié)果顯示,精確度為88.9%,召回率為90.9%,F(xiàn)1 Score為89.89%,檢測結(jié)果如圖10所示。
可以觀察出圖10A和圖10B中的表格均能檢測出,這表明改進(jìn)的YOLOv7在其他的表格檢測數(shù)據(jù)集上能有效地泛化,具有較強(qiáng)的適應(yīng)能力。
將待檢測的橋梁設(shè)計(jì)圖紙送入改進(jìn)的YOLOv7模型,檢測結(jié)果如圖11A所示,可以觀察到定位框和分類結(jié)果都較為準(zhǔn)確,說明模型能準(zhǔn)確的從橋梁設(shè)計(jì)圖紙中檢測所需信息。隨后從橋梁設(shè)計(jì)圖紙中截取到的表格和圖簽欄目標(biāo)被送入表格識別模型,識別結(jié)果如圖11C所示,說明表格識別模型能有效地將圖像生成可編輯的Excel文件。
將表格識別模型所識別的所有鋼筋數(shù)量表匯總到一個(gè)Excel工作表中,已驗(yàn)證的一部分鋼筋數(shù)量表如圖12所示。
圖中歸集了第四聯(lián)現(xiàn)澆箱梁普通鋼筋構(gòu)造圖和第二聯(lián)現(xiàn)澆箱梁普通鋼筋構(gòu)造圖中的鋼筋數(shù)量表,同時(shí)對鋼筋的根數(shù)、總長、總重量分別進(jìn)行了匯總。表中相乘總長列的值是利用鋼筋數(shù)量表中的單根長和根數(shù)相乘得出,從驗(yàn)證后的結(jié)果可以看出,表格識別模型對當(dāng)前兩聯(lián)中的鋼筋參數(shù)識別結(jié)果的識別率為100%。
盡管最終識別出的鋼筋數(shù)量表已經(jīng)能滿足需求,大部分的字符能夠正確識別,然而從識別出的鋼筋數(shù)量表中可以觀察出,部分字符會被錯(cuò)誤識別,例如直徑列里的特殊符號,誤識別為文字“業(yè)”和符號“±”,原因是他們之間的形狀過于相似,而由PP-StructureV2提供的表格識別模型未對特殊符號進(jìn)行訓(xùn)練,導(dǎo)致了錯(cuò)誤識別的發(fā)生,但該問題不影響后續(xù)對鋼筋參數(shù)信息的參考??傮w來說,利用改進(jìn)后的YOLOv7模型和表格識別模型可以實(shí)現(xiàn)橋梁設(shè)計(jì)圖紙中鋼筋數(shù)量信息的歸集。
3 結(jié)論
本文提出了一種從橋梁設(shè)計(jì)圖紙中歸集鋼筋數(shù)量信息的方法,首先在YOLOv7的主干網(wǎng)絡(luò)中引入CBAM注意力機(jī)制,可更好的關(guān)注到要檢測的內(nèi)容,引入多分支RFB模塊,提升了模型對小目標(biāo)的特征提取能力。實(shí)驗(yàn)結(jié)果表明,采用本文提出的改進(jìn)YOLOv7算法,對橋梁設(shè)計(jì)圖紙中表格檢測的F1 Score可達(dá)到98.35%;利用PP-StructureV2提供的表格識別技術(shù),最終生成了含有圖簽欄信息的鋼筋數(shù)量表總表,并且對識別出的數(shù)據(jù)進(jìn)行了計(jì)算驗(yàn)證。這些數(shù)據(jù)既能在施工過程中方便施工人員查看,也為現(xiàn)有建筑的BIM生成提供了重要的數(shù)據(jù)支持。該方法不僅可以在橋梁設(shè)計(jì)圖紙中提取表格信息,同樣適用于其他領(lǐng)域的工程圖紙,可以提高工程設(shè)計(jì)和管理的效率。這一方法具有廣泛的應(yīng)用潛力,為各類工程提供了一種高效而準(zhǔn)確的信息提取方法。
參考文獻(xiàn)(References)
[1] 李智勇.探析道路橋梁設(shè)計(jì)中存在的隱患問題[J].低碳世界,2017(30):207-208.
LI Z Y. Exploring the hidden problems in the design of road bridges[J]. Low Carbon World, 2017(30):207-208.
[2] 屈鐵軍,徐榮桓,石云興.配筋率對鋼筋混凝土構(gòu)件彈性模量影響的試驗(yàn)研究[J].混凝土,2014(9):113-115,119.
QU T J,XU R H,SHI Y X. Experimental study on influence of ratio of reinforcement to modulus of elasticity of reinforced concrete com ponent[J]. Concrete, 2014(9):113-115,119.
[3] SUCCAR B. Building information modelling framework: a research and delivery foundation for industry stakeholders[J]. Automation in Construction,2009,18(3):357-375.
[4] 田佩龍.基于BIM與建筑自動化系統(tǒng)的設(shè)備運(yùn)維期監(jiān)控與管理[D].北京:清華大學(xué),2017.
[5] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// Proceeding of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press,2015,1: 91-99.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016:779-788.
[7] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2017:6517-6525.
[8] REDMON R, FARHIDI A. YOLOv3: an incremental improvement[EB/OL].(2018-04-08)[2023-08-20].http://arxiv.org/pdf/1804.02767.pdf.
[9] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2023-08-23].https://arxiv.org/pdf/2004.10934.pdf.
[10] Ultralytics. YOLOv5[EB/OL].[2023-06-23].https://github. com/ultralytics/yolov5.
[11] LI C Y, LI L L, JIANG H L, et al. YOLOv6: a single-stage object detection framework for industrial applications[EB/OL]. (2022-09- 07)[2023-08-23]. https://arxiv.org/pdf/2209.02976.pdf.
[12] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. (2022-07-06)[2023-08-23]. https:// arxiv.org/pdf/2207.02696.pdf.
[13] ZHAO Y,DENG X,LAI H. Reconstructing BIM from 2D structural drawings for existing buildings[J]. Automation in Construction, 2021, 128.
[14] 楊墨逸,趙云凡,鄧雪原.基于改進(jìn)Cascade RCNN的風(fēng)管平面二維圖紙識別[J].土木工程與管理學(xué)報(bào),2022,39(4):114-123.
YANG M Y,ZHAO Y F,DENG X Y. Recognition of 2D air duct drawing based on improved Cascade RCNN[J]. Journal of Civil Engineering and Management, 2022,39(4):114-123.
[15] 周權(quán),趙云凡,鄧雪原.基于改進(jìn)Faster R-CNN的二維圖紙中建筑構(gòu)件識別方法[J].土木工程與管理學(xué)報(bào),2021,38(5):110-117.
ZHOU Q,ZHAO Y F,DENG X Y. Recognition approach of building components in 2D drawings based on improved Faster R-CNN[J]. Journal of Civil Engineering and Management, 2021,38(5):110-117.
[16] 潘灶林,于言滔,胡振中. 基于二維圖紙的老舊建筑HVAC系統(tǒng)BIM信息自動抽取方法[C]//中國圖學(xué)學(xué)會建筑信息模型(BIM)專業(yè)委員會.第八屆全國BIM學(xué)術(shù)會議論文集.中國建筑工業(yè)出版社,2022:9-14.
[17] LU Q,CHEN L,LI S, et al. A semi-automatic approach to detect structural components from CAD drawings for constructing As-Is BIM Objects[C]//Computing in Civil Engineering 2017:Information Modeling and Data Analytics. Reston: American Society of Civil Engineers, 2017:84-91.
[18] ZHAO Y,DENG X,LAI H. A deep learning-based method to detect components from scanned structural drawings for reconstructing 3D models[J]. Applied Sciences,2020,10(6).
[19] 孔令軍,包云超,王茜雯,等.基于深度學(xué)習(xí)的表格檢測識別算法綜述[J].計(jì)算機(jī)與網(wǎng)絡(luò),2021,47(2):65-73.
KONG L J,BAO Y C,WANG Q W, et al. A summary of table detection and recognition algorithms based on deep learning[J]. Computer amp; Network, 2021,47(2):65-73.
[20] LI C X,GUO R Y,ZHOU J, et al. PP-StructureV2: a stronger document analysis system[EB/OL]. (2022-10-13)[2023-08-23].https: //arxiv.org/pdf/2210.05391.pdf.
[21] LIU S T, HUANG D, WANG Y H. Receptive field block net foraccurate and fast object detection[C]// ECCV 2018:15th European Conferenceon Computer Vision. Munich: Springer, 2018:404-419.
[22] JIE H, LI S, SAMUEL ALBANIE, et al. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[23] HOU Q,ZHOU D,F(xiàn)ENG J. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:13713-13722.
[24] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh and D. Batra, Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization[C]// ICCV 2017:2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017, pp. 618-626, doi: 10.1109.
[25] LIU W,ANGUELOV D,ERHAN D,et al. SSD:single shot multibox detector[C]// 2016 European Conference on Computer Vision,LNCS 9905. Cham:Springer,2016:21-37.
[26] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2016:770-778.
[27] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL].[2023-08-23].https://arxiv.org/pdf/1409.1556.pdf.
(責(zé)任編輯:編輯郭蕓婕)