劉海軍,單維鋒,張莉麗,陳新房
(防災(zāi)科技學(xué)院 智能信息處理研究所,河北 三河 065201)
我國是世界上最大的紡織品生產(chǎn)國和出口國,紡織品的質(zhì)量對(duì)紡織品的價(jià)格影響很大,研究表明:紡織品表面產(chǎn)生疵點(diǎn)會(huì)使其價(jià)格降低45%~65%[1],因此紡織品的疵點(diǎn)檢測對(duì)紡織品的質(zhì)量控制至關(guān)重要。本色布又稱坯布,作為紡織品的原材料,其質(zhì)量直接影響著紡織品的質(zhì)量。目前我國的本色布疵點(diǎn)檢測主要由人工來完成,但人工驗(yàn)布方法存在很多缺陷,一方面,驗(yàn)布工人全神貫注的工作時(shí)間最多能保持30 min,此后,注意力明顯下降,漏檢、誤檢率很高,無法保證紡織品的質(zhì)量;另一方面,驗(yàn)布車間高溫、噪聲、棉塵,對(duì)驗(yàn)布工人身體傷害極大,使得棉紡廠很難招到并留住合適的工人。
國內(nèi)外針對(duì)本色布疵點(diǎn)檢測方法的研究已有近30年的歷史,其中的研究成果大致分為4類:統(tǒng)計(jì)方法、頻域方法、模型方法及學(xué)習(xí)方法[2],其中基于機(jī)器學(xué)習(xí)的疵點(diǎn)檢測方法是近年來的研究熱點(diǎn),該檢測算法中,圖像的特征提取是關(guān)鍵環(huán)節(jié),往往決定著檢測效果,該類方法具有設(shè)計(jì)分辨性較強(qiáng)的特征。目前疵點(diǎn)檢測領(lǐng)域通常關(guān)注針對(duì)疵點(diǎn)特征提取技術(shù)的研究,常見的特征提取方法有HOG特征(Histogram of Oriented Gradient,HOG)[3-5]、LBP特征(Local Binary Pattern)[6]、灰度共生矩陣特征[7]。由于疵點(diǎn)種類繁多(根據(jù)國家本色布檢驗(yàn)標(biāo)準(zhǔn),一共有71類疵點(diǎn)),尋找一種萬能的特征提取方法識(shí)別所有類型的疵點(diǎn)極其困難,目前文獻(xiàn)中的特征提取方法,通常只檢測3~5種明顯疵點(diǎn),少有研究者研究正常本色布紋理特征。本文從分析本色布編織方法開始,分析正常本色布紋理視覺特點(diǎn),利用本色布紋理具有極強(qiáng)的自相關(guān)性特征,采用主成分分析技術(shù)(Principal Component Analysis,PCA)去除其相關(guān)性,得到紋理的主成分,進(jìn)而在主成分方向上對(duì)樣本圖像進(jìn)行壓縮,將壓縮的結(jié)果作為特征向量,采用最近鄰分類器進(jìn)行分類檢測。實(shí)驗(yàn)結(jié)果表明,本文基于PCA的方法,在含有457幅訓(xùn)練樣本,795幅測試樣本的平紋平色布數(shù)據(jù)集上,取得高達(dá)99.11%的分類準(zhǔn)確率。
本色布的紋理特征由紗線的材質(zhì)和成分、紗線支數(shù)、織物密度、編織方法等4個(gè)因素決定,其中,影響最大的是編織方法。織物的編織方法有平紋、斜紋、緞紋 3種。圖1示出了平紋、斜紋、緞紋經(jīng)緯線編織示意圖,同時(shí)示出了對(duì)應(yīng)的本色布圖像??梢钥闯觯幙椃椒ǘx了經(jīng)紗和緯紗的交錯(cuò)規(guī)律,這種規(guī)律使得坯布圖像視覺上具有極其規(guī)律的相似性,坯布圖像可以看作是由編織方法決定的紋理基元,沿著經(jīng)向和緯向整齊排列。這種由編織方法導(dǎo)致的規(guī)律性,使得坯布圖像局部之間存在著極大線性相關(guān)性,這種相關(guān)性增加了識(shí)別中的數(shù)據(jù)量與難度,因此可以對(duì)圖像進(jìn)行數(shù)學(xué)變換,去除其相關(guān)性,對(duì)圖像數(shù)據(jù)進(jìn)行壓縮。
圖1 坯布編織方法及效果示意圖
本色布疵點(diǎn)類型很多,同一種類型的疵點(diǎn)形態(tài)多樣,部分疵點(diǎn)圖像見圖2??梢钥闯?,疵點(diǎn)圖像彼此之間沒有明顯的共性,因此,從分析疵點(diǎn)的特征出發(fā),找到萬能的特征很難,但是疵點(diǎn)與正常紋理具有明顯的差異。疵點(diǎn)的出現(xiàn),破壞了坯布紋理基元的整齊排列,圖像局部之間的自相關(guān)性變?nèi)?,因此,將正常坯布圖像與疵點(diǎn)圖像均進(jìn)行去相關(guān)性處理,結(jié)果會(huì)有較大差異。
圖2 部分疵點(diǎn)圖像
通過前面的分析可知,坯布圖像中的相關(guān)性增加了識(shí)別的難度。因此,在盡量減少圖像中信息的同時(shí),對(duì)圖像進(jìn)行最大限度壓縮,去掉其相關(guān)性,有助于疵點(diǎn)識(shí)別,主成分分析法(PCA)恰好能解決該問題。
PCA是一種統(tǒng)計(jì)方法,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。PCA示意圖見圖3。其基本思想是最大方差理論,即沿著某個(gè)方向數(shù)據(jù)的方差越大,則該方向包含的信息越多,也就是所謂的主成分。假定數(shù)據(jù)只有二維,這些數(shù)據(jù)分布呈明顯的橢圓形分布,該橢圓有一個(gè)長軸u1和一個(gè)短軸u2。在u1方向上,數(shù)據(jù)的分布比較散,方差較大,而在u2的方向上,數(shù)據(jù)變化較少,數(shù)據(jù)方差較小。橢圓的長軸u1和短軸u2的比值越大,則數(shù)據(jù)的相關(guān)性越強(qiáng)。極端情況下,短軸退化成一點(diǎn),則一個(gè)方向u1即可描述數(shù)據(jù)了。圖3中的u1就是主成分方向。
圖3 PCA示意圖
主成分分析通過對(duì)維數(shù)據(jù)做KL變換,找到k個(gè)主成分方向,并將原始數(shù)據(jù)投影到主成分方向,變換之后的數(shù)據(jù)為k維,達(dá)到了特征降維的目的。
本色布圖像具有很強(qiáng)的線性相關(guān)性,因此采用PCA對(duì)圖像進(jìn)行降維處理,能極大地壓縮圖像的維度。圖像的PCA處理過程如下:
①圖像扁平化,構(gòu)成樣本矩陣。將每幅圖像拉直,作為一個(gè)行向量;多幅圖像的行向量縱向聯(lián)合,構(gòu)成樣本矩陣。假設(shè)有n幅圖像,每幅圖像含有p個(gè)像素,則構(gòu)成的樣本矩陣具有n行p列。其中,每一行代表一個(gè)樣本。然后對(duì)樣本矩陣做去中心化處理,最終的去中心化樣本矩陣為X=(X1,X2,…,Xp)n×p。
②求解協(xié)方差矩陣。樣本數(shù)據(jù)的協(xié)方差矩陣為∑=∑(sij)p×p,其中:
(1)
③利用奇異值分解,求解樣本數(shù)據(jù)協(xié)方差矩陣∑的特征值λi及特征向量αi。
④利用特征向量構(gòu)造投影矩陣對(duì)特征值λi進(jìn)行排序,選擇前k個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)成投影矩陣:
Y=(αm1,αm2,...,αmk)p×k
(2)
式中:αmk為排序第k為的特征值λk所對(duì)應(yīng)的特征向量;Y為投影矩陣。
⑤利用投影矩陣,對(duì)數(shù)據(jù)進(jìn)行降維,計(jì)算公式為:
F=XY
(3)
經(jīng)過變換后,F(xiàn)為PCA降維處理后的數(shù)據(jù),其尺寸為n行k列,原始數(shù)據(jù)從p維降低到k維。
實(shí)驗(yàn)選用平紋織物,圖像原始尺寸為256像素× 256像素。部分實(shí)驗(yàn)圖像見表1,實(shí)驗(yàn)樣本數(shù)量分布見表2。
將實(shí)驗(yàn)數(shù)據(jù)按照2.2算法進(jìn)行特征降維,采用最近鄰分類器進(jìn)行分類,距離函數(shù)為歐式距離。實(shí)驗(yàn)中,將所保留的主成分?jǐn)?shù)量n作為參數(shù),實(shí)驗(yàn)結(jié)果見圖4。
實(shí)驗(yàn)中n為最終保留的主成分個(gè)數(shù),也就是最終的數(shù)據(jù)維數(shù)。原始圖像尺寸為256像素×256像素=65 536像素,經(jīng)過PCA處理后,被壓縮成n維。
表1 部分實(shí)驗(yàn)圖像
表2 實(shí)驗(yàn)樣本數(shù)量分布
圖4 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中n取其取值從3變化到200。從圖4中可以看出,疵點(diǎn)分類的準(zhǔn)確率隨著k的取值呈現(xiàn)先增大再減小的趨勢。當(dāng)選擇的主成分個(gè)數(shù)k較h(小于5時(shí)),分類準(zhǔn)確率不足99%。原因在于原始圖像的尺寸為將65 536維數(shù)據(jù)壓縮成較小的n時(shí),數(shù)據(jù)損失過大,因此分辨性不強(qiáng),導(dǎo)致識(shí)別率低。隨著n的增加,壓縮帶來的數(shù)據(jù)損失越來越小,準(zhǔn)確率因此上升。但是由于本色布圖像中存在著大量的數(shù)據(jù)冗余,因此當(dāng)n增加到一定程度,所保留的數(shù)據(jù)不再線性無關(guān),使得問題趨于復(fù)雜,因此分類準(zhǔn)確率下降。而當(dāng)n取值達(dá)到60以后分類準(zhǔn)確率下降明顯,說明此時(shí),壓縮后的數(shù)據(jù)中開始出現(xiàn)線性相關(guān)性。實(shí)驗(yàn)中當(dāng)n=33時(shí),分類準(zhǔn)確率達(dá)到最大,為99.11%。此時(shí),數(shù)據(jù)壓縮比為65 536/33,大約為1 900∶1。由此可見,本色布圖像中數(shù)據(jù)冗余非常大。
將本文算法與梯度方向直方圖(HOG)算法進(jìn)行了對(duì)比實(shí)驗(yàn),PCA與HOG的分類準(zhǔn)確率分別為99.11%、94.70%。PCA算法明顯優(yōu)于HOG算法。
將PCA方法引入本色布疵點(diǎn)檢測,首先建立樣本矩陣并中心化,求樣本矩陣的協(xié)方差矩陣,并對(duì)其進(jìn)行奇異值分解,得到特征值和特征向量。然后將特征值從大到小排序,保留前k個(gè)特征值,并利用其對(duì)應(yīng)的特征向量構(gòu)造投影矩陣,最后將原始圖像在投影矩陣上 進(jìn)行投影,得到最終的壓縮結(jié)果。文中采用最近鄰分類器對(duì)壓縮后的樣本數(shù)據(jù)進(jìn)行分類,準(zhǔn)確率高達(dá)99.11%,比HOG方法提高了4.53%。研究表明:不需要對(duì)疵點(diǎn)進(jìn)行復(fù)雜的特征提取算法,只需要利用本色布圖像高度冗余的特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行去相關(guān)性壓縮,即可有效檢測出疵點(diǎn)。