文_黃士真(廣西機電職業(yè)技術(shù)學(xué)院藝術(shù)設(shè)計學(xué)院,講師,碩士)
耿 棟(通訊作者)(廣西壯族自治區(qū)自然資源遙感院,工程師,碩士)
建筑裝飾石材紋理自然優(yōu)美,品類多樣,長期被廣泛應(yīng)用于室內(nèi)外裝飾中,主要可分為天然石材和人造石材兩大類。天然石材根據(jù)巖石類型、成因及石材硬度高低不同,可分為花崗巖、大理石、砂巖、板巖和青石五類。人造石材根據(jù)生產(chǎn)材料和制造工藝不同,可分為聚酯型人造石材、水泥型人造石材、復(fù)合型人造石材、燒結(jié)型人造石材和微晶玻璃型人造石材等;根據(jù)骨料不同,又可分為人造花崗巖、人造大理石和人造文化石等。
傳統(tǒng)的建筑裝飾石材分類方法較多,依托于人工分類耗時且耗力。隨著計算機硬件水平的提高,卷積神經(jīng)網(wǎng)絡(luò)也取得了飛速發(fā)展,在圖像分類、語義分割、目標檢測等圖像識別任務(wù)中取得了巨大的成功,被廣泛應(yīng)用于各行各業(yè)。2012年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),在圖像分類任務(wù)中,AlexNet以壓倒性的結(jié)果橫空出世,極大地激發(fā)了全世界眾多研究者的熱情,更加成熟穩(wěn)定的網(wǎng)絡(luò)不斷被推出,一次次打破ILSVRC圖像分類任務(wù)的紀錄。早在2017年,卷積神經(jīng)網(wǎng)絡(luò)SE-Net就已經(jīng)達2.251%的Top5錯誤率,與此相比,人類的Top5錯誤率約為5.100%,卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域早就超越了人類。
近年來將人工智能應(yīng)用于室內(nèi)設(shè)計領(lǐng)域的研究越來越多。何金彬使用不同的機器學(xué)習(xí)方法對家具板材進行分類識別,最高正確率達90%以上。羅霞使用卷積神經(jīng)網(wǎng)絡(luò)對19類家具進行分類識別,識別正確率達96%。目前,國內(nèi)對石材智能分類識別的研究不多,2009年康利娟使用圖像顏色對石材進行分類研究,受限于傳統(tǒng)機器學(xué)習(xí)算法,整體效果仍存在提升空間。2019年彭偉航使用卷積神經(jīng)網(wǎng)絡(luò)InceptionV3模型對16類礦石分類,識別率達86%。
雖然裝飾石材類別眾多,花紋、顏色多種多樣,但基于卷積神經(jīng)網(wǎng)絡(luò)對裝飾石材識別的研究卻很少。筆者通過網(wǎng)絡(luò)收集、實地拍攝等手段收集整理867張大理石照片,制作了20類大理石分類數(shù)據(jù)集,將此數(shù)據(jù)集公開可以促進基于神經(jīng)網(wǎng)絡(luò)人工智能方法在建筑裝飾石材分類領(lǐng)域的研究。隨著卷積神經(jīng)網(wǎng)絡(luò)圖像識別技術(shù)的飛速發(fā)展,將該技術(shù)引入建筑裝飾石材識別中,并將成果與APP、小程序等新媒體相結(jié)合,對企業(yè)具有現(xiàn)實效益,且對推廣建筑裝飾石材的了解與認識具有重要意義。
基于上述研究,本文將卷積神經(jīng)網(wǎng)絡(luò)圖像識別技術(shù)應(yīng)用于建筑裝飾石材分類中,因建筑裝飾石材種類繁多,擬以天然大理石裝飾板材為例,通過訓(xùn)練及測試最終實現(xiàn)天然大理石裝飾板材的智能分類,并進一步證明擴展應(yīng)用于建筑裝飾石材分類的可能性及可行性。
天然大理石資源分布廣泛,易于加工成裝飾板材,具有較高的抗壓強度和良好的物理化學(xué)性能,吸水率低,耐久、耐磨。同時,天然大理石裝飾板材的花紋優(yōu)美自然、千變?nèi)f化,有山水型、云霧型、圖案型(螺紋、柳葉、文像、古生物等)、雪花型等,按顏色可分為白、黃、綠、灰、紅、咖啡、黑色七個系列,適合搭配各種室內(nèi)裝飾風(fēng)格。隨著經(jīng)濟的發(fā)展,大理石應(yīng)用范圍不斷擴大,銷量不斷增加,受眾多客戶青睞。隨著大理石開采規(guī)模擴大、工業(yè)化加工、國際性貿(mào)易,大理石裝飾板材大批量地進入建筑裝飾裝修業(yè)。
但同時,也正因天然大理石裝飾板材品類、花紋、顏色繁多,使得其分類難度較高。據(jù)不完全統(tǒng)計,僅國產(chǎn)大理石品種便多達400余種,在分類與識別過程中需要較高的專業(yè)知識,而企業(yè)在對大理石裝飾板材分類的過程中也耗時耗力。一方面,對于普通消費者而言,在選購大理石裝飾板材時眼花繚亂,對其品類的了解與認識大多依托于商家或網(wǎng)絡(luò)之言,識別的方法和途徑相對有限,難以快速、正確地對大理石裝飾板材進行識別,或是當(dāng)青睞于某款大理石裝飾板材時無法快速正確查詢出是何種品類,難免陷入困境。另一方面,對于裝飾行業(yè)從業(yè)者、環(huán)境藝術(shù)設(shè)計類專業(yè)的學(xué)生及石材愛好者而言,面對種類繁多的大理石裝飾板材,也亟須一個方便快捷的途徑幫助其快速認知。隨著技術(shù)的進步和信息化程度的提高,將智能分類方法應(yīng)用于大理石分類識別,在具備一定正確率的基礎(chǔ)上,將成果與APP、小程序等新媒體相結(jié)合,為商家、消費者、裝飾行業(yè)從業(yè)者、學(xué)生及愛好者提供便捷的大理石識別與分類服務(wù),可幫助用戶快速了解并識別大理石,甚至在生活中隨時隨地通過手機APP掃描大理石裝飾板材照片便可快速獲得相應(yīng)品類的知識,此舉具有一定的現(xiàn)實意義及科普價值,有利于促進天然大理石裝飾板材的推廣與應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)通過卷積核在特征圖上按步長滑動,提取不同空間位置上的特征,將非線性激活函數(shù)引入非線性,再通過池化層提取主要特征并進行特征降維。卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過不斷堆疊卷積——激活——池化結(jié)構(gòu),構(gòu)建深層網(wǎng)絡(luò)結(jié)構(gòu),通過層次化的計算,逐步提取圖片的主要特征。層次化的結(jié)構(gòu)也使卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性、旋轉(zhuǎn)不變性、尺度不變性等特點,能較好地解決圖像數(shù)據(jù)所具有的多視角、多尺度、目標物遮擋、光照條件差異、目標物類內(nèi)差異等問題,是圖像識別領(lǐng)域最主流的研究方法。
圖1較為直觀地展示了卷積神經(jīng)網(wǎng)絡(luò)的主體結(jié)構(gòu)及其運作方式。RGB三通道圖片即為卷積神經(jīng)網(wǎng)絡(luò)的輸入層,通過第一次卷積計算,初步提取原始輸入數(shù)據(jù)的特征,得到多通道的特征圖;所得多通道特征圖經(jīng)過非線性激活函數(shù)激活,獲得更多的非線性表征,然后傳入池化層;池化層接收經(jīng)激活函數(shù)激活后的特征圖,進一步進行池化操作提取主要特征,壓縮特征圖的緯度,所得到的特征圖在經(jīng)過下一輪的卷積激活池化,最后通過輸出層輸出結(jié)果。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
卷積核在輸入數(shù)據(jù)上按一定的步長滑動,每次提取卷積核相對應(yīng)位置的與卷積核尺寸相同大小的局部輸入數(shù)據(jù),提取出來的局部輸入數(shù)據(jù)與卷積核上相對應(yīng)位置的值計算乘積之和,得到該局部輸入數(shù)據(jù)經(jīng)卷積計算所輸出的特征,直到輸入數(shù)據(jù)中所有的值都被卷積計算,結(jié)束卷積操作,得到一張由卷積操作提取的特征圖,如圖2所示。
圖2 卷積操作示意圖
激活函數(shù)也是卷積神經(jīng)網(wǎng)絡(luò)不可缺少的重要組成部分。非線性激活函數(shù),將非線性特性引入到卷積神經(jīng)網(wǎng)絡(luò)之中,大大增強了卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,使得網(wǎng)絡(luò)能夠通過有效地學(xué)習(xí),擬合任意復(fù)雜的非線性函數(shù),解決復(fù)雜的現(xiàn)實問題。本文使用的激活函數(shù)為ReLU激活函數(shù)。
ReLU函數(shù)的全稱為Rectified linear units,中文名稱為線性修正單元,是如今應(yīng)用最為廣泛的激活函數(shù)。其數(shù)學(xué)公式為:
relu(x) =max(0,x)
其函數(shù)圖像、導(dǎo)數(shù)圖像如圖3、圖4所示。
圖3 ReLU函數(shù)示意圖
圖4 ReLU函數(shù)導(dǎo)數(shù)示意圖
池化層是卷積神經(jīng)網(wǎng)絡(luò)的一個重要組成部分,本質(zhì)上是一種降采樣操作,用以減少特征緯度,降低網(wǎng)絡(luò)的計算量。池化的實現(xiàn)和卷積相似,通過池化核(一般其尺寸為2×2)在輸入數(shù)據(jù)上按一定的步長(一般步長為2)滑動,提取特征圖的主要特征,減小特征圖的尺寸(長寬降為原特征圖的一半)。通過池化提取特征的方式主要有兩種:最大池化(max-pooling)和平均池化(average-pooling)。最大池化提取與池化核對應(yīng)的局部特征的最大值作為輸出,而平均池化的輸出為該區(qū)域特征值的均值。相較于平均池化,最大池化可以提取出輸入數(shù)據(jù)的紋理特征,是使用最多的池化方式。
卷積神經(jīng)網(wǎng)絡(luò)的計算可以分為兩大部分:前向傳播和反向傳播。前向傳播也被稱為前向計算,將經(jīng)過初始化的原始數(shù)據(jù)輸入?yún)?shù)初始化后的網(wǎng)絡(luò)中,卷積網(wǎng)絡(luò)通過卷積——激活——池化,逐步學(xué)習(xí)和提取輸入數(shù)據(jù)的主要特征,最后輸出層與原始標簽對比,通過損失函數(shù)計算損失。反向傳播也被稱為反向求導(dǎo),從后向前逐步計算神經(jīng)網(wǎng)絡(luò)各層的參數(shù)對損失函數(shù)的偏導(dǎo),進而更新參數(shù),減小損失。兩大部分交替進行,直到損失符合預(yù)設(shè)標,完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,訓(xùn)練完的卷積神經(jīng)網(wǎng)絡(luò)就可被用于圖像的智能識別。
由于目前缺少建筑裝飾石材分類的公開數(shù)據(jù),集本次實驗用到的大理石裝飾板材圖像數(shù)據(jù),均為筆者通過網(wǎng)絡(luò)收集、實地拍攝等手段所收集整理,共20類867張照片。將收集的大理石照片,分類存放入對應(yīng)的文件夾,隨機拆分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,使用675張大理石圖片訓(xùn)練、191張大理石圖片做測試驗證。數(shù)據(jù)集具體類別及數(shù)量,詳見表1。
表1 數(shù)據(jù)集中標注的大理石裝飾板材類別及數(shù)量
本文使用ResNet(殘差神經(jīng)網(wǎng)絡(luò))進行大理石識別。ResNet是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展史上的大里程碑,該網(wǎng)絡(luò)提出的identity shortcut connection(恒等快捷連接),將卷積神經(jīng)網(wǎng)絡(luò)推向史無前例的深度。
identity shortcut connection具體實現(xiàn)如圖5所示,通過恒等映射,將上層輸出直接跳過一個或幾個隱藏層,再將恒等映射的輸出和經(jīng)隱藏層變換的輸出逐元素相加,通過不斷的堆積該結(jié)構(gòu),構(gòu)成了ResNet網(wǎng)絡(luò)的主體。
圖5 恒等快捷鏈接結(jié)構(gòu)圖
本文使用ResNet-18網(wǎng)絡(luò)進行訓(xùn)練,所謂ResNet-18,即層數(shù)為18層的ResNet,結(jié)構(gòu)如圖6所示。每兩個identity shortcut connection組成一個Stage,共4個Stage組成網(wǎng)絡(luò)的主體結(jié)構(gòu);Input stem由一個7×7步長為2的卷積層和3×3步長為2的最大池化層組成;Output由自適應(yīng)平均池化層和全連接層組成。
圖6 ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)圖
分辨率為224×224的圖片輸入ResNet-18卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過Input stem獲得56×56×64的特征圖,經(jīng)過4個Stage,獲得7×7×512的特征圖,經(jīng)過自適應(yīng)平均池化層,獲得1×1×512的特征向量,經(jīng)過全連接層,獲得“1×1×種類數(shù)”的特征向量,再通過softmax激活函數(shù),將“1×1×種類數(shù)”的特征向量轉(zhuǎn)化為概率。在本次實驗中,最終獲得1×1×20的特征向量,通過softmax激活函數(shù),轉(zhuǎn)化為20類的概率,概率最大的即為預(yù)測種類。
本文使用的實驗平臺為win10系統(tǒng),處理器為英特爾I5-9400F,顯卡為Nvidia RTX2060,使用Pytorch深度學(xué)習(xí)框架進行網(wǎng)絡(luò)的編譯訓(xùn)練。輸入數(shù)據(jù)統(tǒng)一調(diào)整為224×224大小,使用隨機的水平和豎直翻轉(zhuǎn),0到30度的隨機旋轉(zhuǎn)進行數(shù)據(jù)增強,優(yōu)化方法為帶動量的SGD,初始學(xué)習(xí)率為0.001,總epoch為25,在第5和第15個epoch時學(xué)習(xí)率乘以0.1。評價準則為正確率,公式如下:
acc=right_num/all_num
其中,right_num為分類正確的圖片數(shù),all_num為全部圖片數(shù)。
由圖7可以看出,隨著訓(xùn)練的進行,ResNet-18訓(xùn)練集Loss持續(xù)降低,在第25個epoch時接近于0,而由圖8可以看出測試集Loss在前14個epoch持續(xù)降低,隨后在趨于穩(wěn)定,不再下降,繼續(xù)訓(xùn)練已沒有意義。由圖9可以看出隨著訓(xùn)練的進行,訓(xùn)練集正確率持續(xù)上升,正確率接近100%,而由圖10可以看出驗證集正確率在第14個epoch處趨于穩(wěn)定,最高正確率約為99.500%。
圖7 ResNet-18訓(xùn)練集Loss圖
圖8 ResNet-18測試集Loss圖
圖9 ResNet-18訓(xùn)練集正確率圖
圖10 ResNet-18測試集正確率圖
經(jīng)訓(xùn)練,得到對20類大理石裝飾板材進行分類識別的深度學(xué)習(xí)模型,在測試集上測試,測試集共包含191張大理石裝飾板材照片,其中,190張分類正確、1張分類錯誤,模型整體正確率約為99.5%。
對20類大理石裝飾板材照片分類別進行測試,正確率如表2所示。
表2 大理石裝飾板材分類別測試結(jié)果
20類大理石,除爵士白錯分類一張照片,其余19類全部正確分類,其中,誤分類為將爵士白分類為魚肚白。爵士白和魚肚白較為相似,受拍攝角度、光照等條件的影響,有些照片確實難以區(qū)分,將爵士白誤分類為魚肚白或魚肚白誤分類為爵士白是較難避免的。
基于神經(jīng)網(wǎng)絡(luò)的智能分類方法飛速發(fā)展,其開始在越來越多的領(lǐng)域發(fā)揮獨有的價值,但是目前對基于神經(jīng)網(wǎng)絡(luò)人工智能方法的建筑裝飾石材分類研究較少,主要原因是缺少建筑裝飾石材的公開數(shù)據(jù)集。裝飾石材類別眾多,花紋、顏色多種多樣,因光照拍攝角度等原因,導(dǎo)致人工識別困難,制作數(shù)據(jù)集需要較高的專業(yè)知識。本文收集了20類共867張常見大理石裝飾板材照片,制作了大理石裝飾板材分類數(shù)據(jù)集,并將此數(shù)據(jù)集公開以促進基于神經(jīng)網(wǎng)絡(luò)人工智能方法在建筑裝飾石材分類領(lǐng)域的研究,希望將深度學(xué)習(xí)方法應(yīng)用于大理石分類中,使室內(nèi)裝飾領(lǐng)域也能搭上人工智能這輛飛速發(fā)展的快車。實驗結(jié)果表明,CNN可識別圖片中存在的大理石,在20類大理石數(shù)據(jù)集上,識別準確率高達99.500%,具有較高的應(yīng)用價值。但是,此方法一張照片只能識別一個類別,不能適用于實際場景中同時使用多種大理石組成的復(fù)雜圖片。今后,將繼續(xù)使用目標檢測方法對大理石進行識別,使其具有更高的應(yīng)用價值。通過進一步擴充數(shù)據(jù)集,支持更多的建筑裝飾石材種類,還會將智能分類方法集成到小程序或APP,使用者通過拍照上傳,就能方便快速認識大理石,以達到借助新媒體擴大大理石在建筑裝飾領(lǐng)域使用面的目的。