唐維道
(上海郵電設(shè)計(jì)咨詢研究院有限公司,上海 200092)
國內(nèi)外專家對果實(shí)的識別的研究非常多,但是普遍存在果實(shí)識別率不高的情況,果實(shí)識別的主要方法有Sobel邊緣提取、Hough變換以及果萼特征識別等,這類方法主要通過判斷果實(shí)的顏色、形狀等特征對果實(shí)進(jìn)行識別,主要應(yīng)用在小范圍、單目標(biāo)的果實(shí)識別工作中,但是識別多目標(biāo)果實(shí)的效率較低[1]。利用K-means算法可以進(jìn)行多目標(biāo)識別,該方法的優(yōu)點(diǎn)較多,例如聚類簡單、運(yùn)算速度快等,如果出現(xiàn)大數(shù)據(jù)集,那么該方法不僅處理效率高,而且還可以伸縮。然而,該方法存在一個問題,在識別過程中,過于重視初始中心點(diǎn),因此會經(jīng)常出現(xiàn)局部最優(yōu)解,這樣就會降低果實(shí)的識別效率[2]。針對這個問題,該文提出了一種新的聚類果實(shí)識別方法,對K-means算法進(jìn)行改進(jìn),并且以獼猴桃為例對算法進(jìn)行驗(yàn)證,測試結(jié)果表明,該方法可以提高多目標(biāo)果實(shí)的識別率,很好地解決了局部最優(yōu)解的問題。
如果要準(zhǔn)確地進(jìn)行目標(biāo)分割,就必須有合適的顏色空間,普通的圖像大都屬于RGB顏色空間,該顏色空間主要由三基色組成,分別是紅色、綠色和藍(lán)色,因?yàn)?種顏色之間的相關(guān)性很強(qiáng),所以沒有辦法對3種顏色進(jìn)行獨(dú)立運(yùn)算,也就無法實(shí)現(xiàn)獨(dú)立的圖像分割和處理。Lab顏色空間是CIE(國際照明協(xié)會)確定的色彩標(biāo)準(zhǔn)模式,任何圖像的任何顏色都可以在Lab顏色空間中進(jìn)行表達(dá),Lab顏色空間也是最均勻的顏色空間,與設(shè)備沒有關(guān)系,非常適合接近自然光照的場合。因此,該文所提出的方法使用Lab顏色空間,并在該顏色空間下對獼猴桃目標(biāo)圖像進(jìn)行分割。Lab顏色空間的色域更寬闊、均勻,更接近自然光照,并且各個色域相對獨(dú)立,可以更好地對多目標(biāo)果實(shí)進(jìn)行分割、識別和定位[3]。
Lab顏色空間可以通過XYZ空間進(jìn)行轉(zhuǎn)換,主要由3個要素(L、a和b)構(gòu)成。其中,L表示亮度特征,a和b表示色彩分量,取值范圍為-128~+127。+127a代表紅色,-128a代表綠色,+127b代表黃色,-128b代表黃色。所有的顏色由這3 個值交互變化組成。RGB空間可以通過公式(1)轉(zhuǎn)換到XYZ顏色空間。
XYZ和Lab顏色空間的轉(zhuǎn)換如公式(2)、公式(3)所示。
式中:R為RGB顏色空間下的紅色分量,G為RGB顏色空間下的綠色分量,B為RGB顏色空間下的藍(lán)色分量;X、Y和Z為3個假想原色的分量;Xn、Yn和Zn為正常光照下的刺激值;f為校正變量;t為校正標(biāo)量。
將圖像轉(zhuǎn)換到Lab顏色空間后,就可以利用K-means聚類算法對顏色空間進(jìn)行聚類分割。
多果實(shí)獼猴桃圖像的Lab圖像空間轉(zhuǎn)換結(jié)果如圖1所示。
設(shè)樣本集為A={a(1),a(2),…,a(n)}, 每個a(n)∈R(m),R(m)是m維歐式空間。把這一類樣本聚集成K個族類,初始的K個聚類中心定義成{φ(1),φ(2),…,φ(k)},φ(k)∈R(m)。計(jì)算每個樣例屬于的類,如公式(4)所示。
式中:a(i)為樣本;φ(j)為類聚中心。
再計(jì)算每個類的聚集中心,如公式(5)所示。
式中:j為類聚中心的數(shù)量,j為整數(shù)。
重復(fù)上述過程直至聚類收斂。
初始類聚中心的選擇是改進(jìn)算法的關(guān)鍵,不變矩是表征區(qū)域特征重要的參數(shù),用f(x,y)表示流型圖像,r+s(r、s為整數(shù))階矩和中心矩的離散化如公式(6)、公式(7)所示。
式中:p為p數(shù)字圖像距和中心距離散化坐標(biāo)。
圖像比例的變化對圖像有較大的影響,為了避免這樣的影響,可以使用對中心矩進(jìn)行規(guī)格化的方法,如公式(9)所示。
式中:φrs為中心矩的離散化表達(dá)式;φ00為中心矩的坐標(biāo)。
當(dāng)r+s的值為2或者3時,就可以建立7 個不變矩,這樣就可以消除平移、縮放以及旋轉(zhuǎn)對圖像的影響。7個不變矩構(gòu)成一組特征量,具有旋轉(zhuǎn)、縮放和平移不變性,如公式(10)所示。
式中:I為不變矩。
d(i)的類聚中心如公式(11)所示。
式中:vi為d(i)的類聚中心。
重新計(jì)算類聚中心,如公式(12)所示。
公式(12)中的函數(shù)h的功能是判斷xi的類別是否屬于j類,如公式(13)所示。
為了提高多目標(biāo)果實(shí)的識別率,該文采用高斯模板進(jìn)行平滑處理,這樣就可以降低圖像的模糊程度[4],如公式(14)所示。
式中:G為高斯模板。
高斯模板種類多樣,無論哪一種模板都是由(2k+1)×(2k+1)的矩陣I組成,(i,j)位置的元素值由公式(15)決定。
式中:λ為標(biāo)準(zhǔn)差,λ=0.8;k為元素值,常數(shù)。
使用該方法可以使同類間像素距離最小,反之則間距離最大[5]。使用該方法對獼猴桃多果實(shí)進(jìn)行處理的結(jié)果如圖2所示。由圖2可知,通過該方法可以把圖像分為3類。
為了驗(yàn)證該文所提出的算法的正確性,隨機(jī)選取多幅圖像和其他識別算法進(jìn)行對比測試。算法基于MATLAB(version2018a8)實(shí)現(xiàn)。該文測試了10 幅圖像,選取其中3幅圖像的識別效率。
圖像拍攝裝置主要由機(jī)器視覺、輔助補(bǔ)光和電腦3個部分構(gòu)成,機(jī)器視覺裝置為微軟相機(jī),在拍攝過程中可以根據(jù)天氣狀況和拍攝時間選擇不同的輔助補(bǔ)光設(shè)備。另外,也可以根據(jù)光照選擇不同的補(bǔ)光設(shè)備。使用數(shù)據(jù)線將機(jī)器視覺拍攝的各種圖像傳輸給電腦。
機(jī)器視覺裝置的拍攝的圖像動態(tài)分辨率是2304×1728 dpi,最大幀頻是30 fps,使用自動對焦的方式拍攝各種獼猴桃的圖像,圖像格式為jpg格式,圖像的粉綠設(shè)置為640×360 pt,傳遞圖像信息的數(shù)據(jù)線為USB3.0接口。處理圖像的電腦為華為筆記本電腦MateBook14s 2022 英特爾Evo12代酷睿標(biāo)壓i5 16G 1T/14.2英寸90Hz觸控/高性能輕薄本。輔助光裝置為無級可調(diào)光LED影視平板燈,其參數(shù)為CM-LED 1200HS,最大照度為1 m 。
由圖3可知,Otsu閾值分割法噪聲大,識別率最低,R-G分割算法雖然識別率提高了,但是噪聲較大,該文所提出的算法的優(yōu)勢比較明顯,不但識別率進(jìn)一步提高,而且還很好地控制了噪聲。為了驗(yàn)證該文所提出的算法的優(yōu)越性,還對4種算法的識別率和算法執(zhí)行時間進(jìn)行了定量分析。
由表1可知,該文所提出的算法的正確平均識別率達(dá)到96.95%,比R-分割算法的正確平均識別率80.51%高16.44 %,比Otsu閾值分割算法的正確平均識別率5.39%高91.56 %,比傳統(tǒng)K聚類法的正確平均識別率89.65%高7.3 %。
表1 算法的識別率對比測試結(jié)果
該文提出的果實(shí)采摘機(jī)器人多目標(biāo)視覺識別方法將試驗(yàn)的獼猴桃多目標(biāo)果實(shí)從背景中分割出來,從而完成了識別果實(shí)的任務(wù),同時運(yùn)用高新模板和改進(jìn)K-means聚類算法,這樣就可以避免出現(xiàn)局部最優(yōu)解的情況。在進(jìn)行圖像處理前,對圖像進(jìn)行通道變換,充分利用高斯模板,在RGB 通道下對圖像進(jìn)行平滑處理,這樣就能保證可以正確識別果實(shí)。在 Lab通道下完成了 K-means 聚類,這樣就可以將圖像分為果實(shí)、樹葉及其他背景。
該文論述了一種果實(shí)采摘機(jī)器人多目標(biāo)視覺識別方法。首先,進(jìn)行色彩的空間轉(zhuǎn)換。其次,在傳統(tǒng)K-means多目標(biāo)識別方法的基礎(chǔ)上對算法進(jìn)行改進(jìn),解決了傳統(tǒng)K-means多目標(biāo)識別方法存在局部最優(yōu)解的問題。該文以獼猴桃為例對算法進(jìn)行驗(yàn)證,通過與其他算法測試結(jié)果進(jìn)行比較可知,該文所提出的算法在提高果實(shí)識別率的同時,還降低了噪聲,具有較大實(shí)用價(jià)值。