崔德建,柳洋洋,夏元天,賈偉娥,連正興,李 林*
1.中國農(nóng)業(yè)大學信息與電氣工程學院,北京 100083 2.中國農(nóng)業(yè)大學動物科學技術(shù)學院,北京 100083
種雞蛋的孵化周期大約為21 d,孵化過程的檢測會消耗大量的電力和人力;送入孵化場的雞蛋中部分是無精蛋,并且在孵化過程中由于種種原因會出現(xiàn)死精蛋,死精蛋會產(chǎn)生有害病菌并對健康種蛋造成影響。目前國內(nèi)種雞蛋的檢測方法主要是通過人工照蛋,通常是在孵化18和19 d時對種蛋進行批量照射后挑出無精蛋,該方法會消耗大量人力,并且由于檢測時間點為孵化后期,檢測出來的無精蛋也無法作為食用蛋進行出售,造成了資源浪費。若能夠通過無損檢測方法在早期將無精蛋和死精蛋準確、快速、批量檢測出來,則可以空出孵化位置孵化更多健康種雞蛋,提高孵化效率,并減少經(jīng)濟損失。
目前國內(nèi)外學者已經(jīng)從多個方向?qū)﹄u蛋無損檢測展開了研究,光譜技術(shù)、圖像技術(shù)以及生物電技術(shù)等已被成功應用到雞蛋品質(zhì)、受精、性別等檢測中。Suktanarak[1]等利用高光譜圖像技術(shù)對雞蛋內(nèi)部新鮮度進行無損檢測,結(jié)果表明近紅外高光譜成像可用于呈現(xiàn)與哈氏單位相關(guān)的雞蛋圖像,從而無損地評價雞蛋的新鮮度。Roberta Galli[2]等在不破壞蛋殼內(nèi)膜的情況下利用近紅外拉曼光譜對雞蛋的性別進行早期鑒定,準確率可達90%以上。Coronel-Reyes[3]等利用低成本近紅外光譜儀測定雞蛋在室溫下的存儲時間,擬合優(yōu)度可達84%,為進一步的工業(yè)化生產(chǎn)提供了理論基礎(chǔ)。日本京都大學[4]利用孵化種蛋的不透明值差異對孵化16~18 d的雞胚胎性別進行無損鑒別,得出雄雞胚不同明度要高于雌性雞胚的結(jié)論,鑒別準確率為84%。祝志慧[5]等利用機器視覺技術(shù)和深度置信網(wǎng)絡(luò)對早期雞胚進行性別無損鑒定,準確率可達83.3%。湯修映[6]等利用機器視覺技術(shù)識別孵化盤上多個鴨蛋的孵化性能,可以批量識別孵化第5 d的鴨蛋可育情況,準確率最高可達92.06%。張伏[7]等利用近紅外光譜分析技術(shù)對種蛋早期光譜數(shù)據(jù)的采集位置進行了研究,表明在雞蛋赤道側(cè)采集信息更加有效;本工作ROI的選擇參考了該論文的研究結(jié)果。有關(guān)研究表明,受精卵中約有229種蛋白質(zhì)與未受精的蛋白質(zhì)存在差異[8];且700~900 nm波段范圍的光穿透深度大約有4 mm[3],可以穿過蛋殼達到內(nèi)部,因此光譜漫反射技術(shù)可以通過照射樣品與雞蛋內(nèi)部物質(zhì)發(fā)生作用后攜帶有關(guān)信息,從而實現(xiàn)對樣本快速、無損和更加深入的分析,達到檢測雞蛋受精狀態(tài)的目的。
目前大多數(shù)雞蛋透射光譜檢測裝置只能進行單個檢測,并且建立的模型為二分類模型。為了提高模型的泛化性和魯棒性,并提高光譜的檢測效率,本研究利用高光譜漫反射對批量種蛋進行信息采集,并采用一種數(shù)據(jù)轉(zhuǎn)換方法將光譜數(shù)據(jù)與深度學習圖像識別相結(jié)合,探索對受精蛋、無精蛋、死精蛋三類雞蛋的無損檢測,為提高模型的實用性以及檢測的高效性提供科學參考。
實驗樣品為白來航雞蛋,共計119枚,其中受精蛋70枚,無精蛋19枚,死精蛋30枚;死精蛋為未正常孵化得到;受精蛋采用新潔爾滅溶液消毒編號后進行孵化,孵化溫度為37.8 ℃,濕度為60%,每隔2 h翻蛋一次。
高光譜儀器采用由卓立漢光公司提供位于中國農(nóng)業(yè)大學信電學院的GaiaSorter高光譜分選儀,其核心部件包括均勻光源、光譜相機、電機運動平臺,其參數(shù)設(shè)置如表1所示,通過小型傳送帶裝置,可實現(xiàn)小批量的連續(xù)測量。采集時種雞蛋放置方式為橫向放置。健康種雞蛋采集孵化3,5,7,9,11,13和15 d的漫反射光譜,采集裝置以及采集方式如圖1所示。光譜數(shù)據(jù)運用Matlab2016a、ENVI5.3、pycharm、jupyter軟件進行處理建模。
表1 高光譜儀器參數(shù)設(shè)置
圖1 光譜儀器以及拍攝方式
譜區(qū)選擇對后期光譜信息的分析和建模十分重要,選取區(qū)域過大或過小都會影響分析建模效果。運用ENVI5.3軟件對譜區(qū)進行選擇。由于孵化為橫向放置,血線等胚胎的主要物質(zhì)會漂浮至種蛋中心部位,所以選擇感興趣區(qū)域(region of interest,ROI)為種蛋中心部位,如圖2、圖3所示。
圖2 感興趣區(qū)域選擇
圖3 批量種蛋的感興趣區(qū)域選擇
由于光源強度在不同波段下不均勻、樣本不規(guī)則及成像光譜儀鏡頭中的暗電流影響,獲取的光譜圖像存在較大的噪聲和誤差。因此需要進行黑白校正。焦距調(diào)整后采集標準白色校正板的圖像W,再蓋住鏡頭采集全黑的圖像D,I為原始圖像,R為校正后的光譜圖像,校正方程如式(1)所示。
(1)
孵化6 d時,可通過人工照蛋判別種蛋的受精情況,受精蛋有明顯血絲出現(xiàn),無精蛋沒有血線出現(xiàn),蛋黃分布均勻,死精蛋由于存放問題以及孵化問題,蛋殼內(nèi)物質(zhì)發(fā)生變質(zhì),會出現(xiàn)黑斑點,紅色環(huán)狀物等,如圖4所示。
圖4 種蛋判別
采用連續(xù)投影算法[9]、競爭性自適應重加權(quán)采樣法[10]對高光譜數(shù)據(jù)進行波段篩選從而達到降維效果;采用隨機森林[11]、支持向量機[12]、AlexNet[13]、MobileNet[14]神經(jīng)網(wǎng)絡(luò)模型作為建模算法進行對比實驗。
1.5.1 數(shù)據(jù)降維算法
(1)連續(xù)投影算法(successive projections algorithm,SPA),是前向特征變量選擇方法。SPA利用向量的投影分析,通過將波長投影到其他波長,比較投影向量大小,以投影向量最大的波長為待選波長,然后基于校正模型選擇最終的特征波長,對不同的候選特征子集分別建立多元回歸模型。SPA選擇的是含有最少冗余信息及最小共線性的變量組合。
(2)競爭性自適應重加權(quán)采樣法(competitive adaptive reweighted sampling,CARS)通過加權(quán)采樣保留偏最小二乘回歸模型中回歸系數(shù)絕對值權(quán)重較大的作為變量子集,并且對該子集建立新的偏最小二乘回歸模型。最后經(jīng)過多次運算選擇RMSECV最小的變量子集作為新的變量。
1.5.2 雞蛋受精狀態(tài)檢測模型建模算法
(1)隨機森林(random forest,RF)是Bagging的一個擴展變體。它在以決策樹為基學習器構(gòu)建Bagging集成的基礎(chǔ)上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。具體來說,在RF中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。
(2)支持向量機(support vector machine, SVM)定義在特征空間上的間隔最大的分類器,它的學習策略就是間隔最大化,可以形式化一個求解凸二次規(guī)劃的問題,也等價于正則化的合頁損失函數(shù)的最小化問題。
(3)AlexNet神經(jīng)網(wǎng)絡(luò)是2012年ImageNet競賽冠軍獲得者Hinton和他的弟子Alex Krizhevsky合作設(shè)計的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);神經(jīng)網(wǎng)絡(luò)的一個比較嚴重的問題就是過擬合問題,AlexNet采用了Dropout的方法在全連接層中去掉了一些神經(jīng)節(jié)點,達到了防止過擬合的目的,并且可以使用多GPU進行訓練,提高了模型學習效率。
(4)MobileNet是一種構(gòu)造體量小、延時低的輕型網(wǎng)絡(luò)模型結(jié)構(gòu),它是基于深度可分離卷積而設(shè)計的,大大減少了參數(shù)的數(shù)量,有效提高了模型的運算速度。
原始光譜曲線如圖5、圖6所示,可以看出死精蛋的光譜曲線與受精蛋以及無精蛋在400~700 nm之間存在明顯差異,說明其內(nèi)部物質(zhì)已經(jīng)發(fā)生較大的變化,其中。孵化3和5 d的受精蛋與無精蛋的光譜差異較小,孵化7和9 d及更多的受精蛋光譜曲線明顯低于孵化3和5 d的,說明內(nèi)部胚胎發(fā)育變化程度較大,光譜的漫反射率降低,并且由于孵化7和9 d以及更多天數(shù)的無精蛋已經(jīng)不具備實用價值,不符合實際生產(chǎn)需要,所以只采用孵化3和5 d的光譜值進行模型建立。
圖5 原始光譜曲線圖
圖6 原始光譜均值曲線圖
2.2.1 樣本集劃分
數(shù)據(jù)集按照訓練集和測試集1∶1的比例隨機劃分,最終得到60條數(shù)據(jù)作為訓練集、59條數(shù)據(jù)作為測試集。
2.2.2 特征波長選擇
(1)SPA特征波長選擇,SPA算法運行過程如圖7、圖8、圖9、圖10所示,孵化第3和5 d降維后的波段數(shù)分別為13和11。
圖7 3 d變量組合的RMSE曲線圖
圖8 3 d最優(yōu)波長組合編號索引
圖9 5 d變量組合的RMSE曲線圖
圖10 5 d最優(yōu)波長組合編號索引
(2)CARS特征波長選擇,CARS算法運行過程如圖11和圖12所示,采樣次數(shù)均設(shè)置為50次,孵化3和5 d的雞蛋光譜經(jīng)過CARS篩選后的波段數(shù)量分別為11和18。
圖11 3 d種蛋光譜波段的CARS變量篩選過程
圖12 5 d種蛋光譜波段的CARS變量選擇
兩種算法計算后的波段組合如表2所示,通過SPA算法篩選后的波段,有50%分布在近紅外波段(780~1 000 nm),50%分布在可見光波段(380~780 nm)。由光譜曲線可以看出死精蛋與受精蛋和無精蛋在400~700 nm內(nèi)的光譜差異較大。通過CARS算法篩選后的波段也主要分布在該波段,說明該算法對于樣本之間差異性大的波段篩選效果較好,而對于差異性較小的近紅外區(qū)域的波段篩選效果較差。SPA算法不僅考慮了光譜的影響,更多考慮了種雞蛋內(nèi)部信息的影響,而該影響反映在近紅外光譜波段曲線上的差異較弱。SPA算法中的RMSECV是基于多元線性回歸(multiple linear regression,MLR)模型所計算出的,CARS算法中的RMSECV是基于偏最小二乘(partial least squares,PLS)模型所計算出的,相比于MLR,PLS可以較好地解決多重共線性問題,所以在選擇特征波長較少時,SPA算法相對較好,而當選擇的特征波長較多時,CARS算法相對較好。
表2 特征波長組合
2.2.3 光譜數(shù)據(jù)轉(zhuǎn)為圖像數(shù)據(jù)
深度學習是近十年來人工智能領(lǐng)域取得的重要突破,在計算機視覺等領(lǐng)域的應用取得了巨大的成功。將每一個樣本的全波段光譜數(shù)據(jù)以及通過CARS、SPA變量篩選后的波段數(shù)據(jù)首先通過Reshape方法將1×k的數(shù)據(jù)轉(zhuǎn)換為n×m矩陣形式的數(shù)據(jù),轉(zhuǎn)換過程如式(2)、式(3)和式(4),圖13所示,并將數(shù)據(jù)同時乘以255,如式(5)和式(6),目的是將位于區(qū)間[0, 1]的漫反射率值恒等映射到RGB通道[0,255]區(qū)間范圍,這樣既保留了原始的光譜數(shù)據(jù)又方便了模型訓練,并且能夠更直觀地展示了一維向量立體光譜數(shù)據(jù)的二維圖像形式。最后將該圖像作為AlexNet、MobileNet卷積神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù)進行模型學習與建立,為保證訓練數(shù)據(jù)的一致性,其生成的圖像數(shù)據(jù)也按照訓練集和測試集1∶1的比例隨機劃分。
圖13 數(shù)據(jù)轉(zhuǎn)換過程
original=[w1…wk]
(2)
k=n×m
(3)
(4)
(5)
Rij=wij×255
(6)
通過不同波段篩選方法選擇的光譜數(shù)據(jù)經(jīng)過數(shù)據(jù)轉(zhuǎn)換后的部分圖像如圖14光譜數(shù)據(jù)圖像可視化所示。通過圖像可以直觀看出死精蛋的光譜圖像數(shù)據(jù)與受精蛋和無精蛋的差別較大,而受精蛋與無精蛋的差距較小,與光譜曲線反映的信息相一致。
圖14 光譜數(shù)據(jù)圖像可視化
2.2.4 判別模型建立
將全波段數(shù)據(jù)、SPA和CARS降維后的數(shù)據(jù)以及轉(zhuǎn)換后的圖像數(shù)據(jù)進行建模分析。模型的判別結(jié)果如表3所示,結(jié)果表明孵化5 d的判別效果整體比孵化3 d的判別效果好,原因是受精種蛋中的物質(zhì)已經(jīng)發(fā)生了較大的變化,與未受精種蛋以及死精蛋的光譜存在了較為明顯的差異。判別結(jié)果中,經(jīng)過SPA變量篩選后的判別效果整體較好,表明SPA篩選的特征波長能有效反映三類雞蛋的光譜差異,并且減少了模型的輸入量,有效地降低了模型復雜度。在判別模型中,AlexNet-5dFull Wave Bands模型準確率最高可達到93.22%。整體結(jié)果表明基于高光譜漫反射與光譜信息轉(zhuǎn)換圖像的相結(jié)合為雞蛋受精狀態(tài)的判別提供了一種可行的方法。
表3 不同模型的判別結(jié)果
(1)以白來航種雞蛋為研究對象,確定高光譜儀器的參數(shù),批量采集種蛋孵化3,5,7,9,11,13,15 d,未受精蛋、死精蛋的高光譜漫反射數(shù)據(jù)。運用SPA、CARS變量篩選方法,構(gòu)建基于SVM、RandomForest、AlexNet、MobileNet神經(jīng)網(wǎng)絡(luò)的種蛋信息檢測模型。確定了在孵化3和5 d的光譜信息最適合用于種蛋信息的檢測。
(2)通過對降維后的光譜數(shù)據(jù)以及全波段數(shù)據(jù)分別建模后對比模型準確率發(fā)現(xiàn),AlexNet-5dFull Wave Bands的模型準確率最高,可達93.22%。經(jīng)過SPA降維后的數(shù)據(jù)進行建模的效果整體最好。表明SPA篩選的特征波長能有效反映三類雞蛋的光譜差異,并且減少了模型的輸入量,有效地降低了模型復雜度。
(3)利用GaiaSorter高光譜分選儀對雞蛋樣品進行高光譜漫反射值的批量信息采集,證明了應用高光譜漫反射批量檢測種蛋信息的可行性,并提出了一種將光譜數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù)的方法,為深度學習與光譜信息相結(jié)合以及種蛋其他信息如胚胎性別信息的檢測提供了思路。后續(xù)的研究可加大樣本量,從而提高模型的魯棒性和泛化性。