王志毅 王嘉佩 杜愛軍 劉麗霞 喻寶龍 王旭
(重慶市氣象臺,重慶 401147)
在為茶葉生產(chǎn)的氣象服務(wù)中,大部分茶葉生產(chǎn)企業(yè)沒有開展專門的茶葉物候期觀測,只有每年的開采日期的簡單記錄,因而無法形成全面的茶葉生長物候期與氣象要素相關(guān)聯(lián)的關(guān)鍵性資料,不便于建立茶葉生長物候期預(yù)測模型以進行物候期預(yù)測,也不便于探尋茶葉品質(zhì)與氣候條件的關(guān)系以進行茶葉品質(zhì)認(rèn)證。為了全面開展茶葉氣象服務(wù)以提高企業(yè)生產(chǎn)效益,進行茶葉物候期自動判別的研究就顯得非常有必要。
本研究的主要目的是利用多年來安吉白茶實景監(jiān)控資料,基于機器學(xué)習(xí),建立物候期自動判別模型,同時結(jié)合同期的氣象觀測數(shù)據(jù),建立白茶物候期預(yù)測模型,從而開展業(yè)務(wù)服務(wù)。此項研究可減少茶葉物候期觀測的人力成本及經(jīng)濟的投入,科學(xué)和智能地提高企業(yè)生產(chǎn)效益。
研究采用了監(jiān)督學(xué)習(xí)的方法來對白茶生育期識別問題進行建模,在模型的訓(xùn)練階段需要圖像、積溫以及其所屬的生長物候期作為標(biāo)注信息輸入模型訓(xùn)練參數(shù)。
yolov3-tiny模型是深度學(xué)習(xí)中計算機視覺領(lǐng)域應(yīng)用得比較廣泛的模型,適用于對圖像上的特定目標(biāo)進行檢測(例如:茶葉圖像中茶葉發(fā)芽區(qū)域的位置檢測),同時還可以進行分類,其對圖像分類的功能適用于茶樹生長期識別任務(wù)由于yolov3-tiny模型用于目標(biāo)檢測和分類,而本研究的目的只是進行分類,目標(biāo)檢測過程已經(jīng)由圖像預(yù)處理的裁剪過程代替,所以對yolov3-tiny模型進行了改變,同時將氣象數(shù)據(jù)和圖像特征進行融合,去掉了yolo層(目標(biāo)識別的模型名稱),而且對氣溫數(shù)據(jù)進行融合。
白茶茶園的監(jiān)控圖像來源于氣象部門的網(wǎng)站,選取2016—2019年白茶生長物候期內(nèi)每天3張的監(jiān)控圖像,即大約每年2月下旬—5月上旬,使用的原始圖像合計約500張。
茶樹生長的氣象環(huán)境數(shù)據(jù)主要是來源于區(qū)域自動氣象觀測站觀測的溫度數(shù)據(jù),數(shù)據(jù)的觀測日期與圖像生成日期一一對應(yīng)。
1)裁剪圖像
yolov3-tiny模型包含了卷積神經(jīng)網(wǎng)絡(luò)(CNN),在yolov3-tiny模型中CNN的各層參數(shù)設(shè)置是按模型的選擇來進行設(shè)定的,其輸入是416×416的圖像,通過CNN可以提取到很多用于分類的特征,而這些特征是傳統(tǒng)圖像特征提取方法難以提取,但又對圖像分類貢獻比較大的特征。此次模型選擇“深度學(xué)習(xí)法”作為提取圖像特征的方法,用卷積神經(jīng)網(wǎng)絡(luò)CNN來提取圖像的特征,選取的CNN網(wǎng)絡(luò)的輸入是416×416的圖像。
用于研究的原始圖像尺寸是1600×1200(寬×高),對于CNN的輸入而言,原始圖像的尺寸顯然較大,并且500張圖像的數(shù)量少,不宜直接輸入CNN網(wǎng)絡(luò)提取特征并訓(xùn)練。例如,任意選取一張原始圖像(圖1)。
圖1 監(jiān)控相機拍攝的茶樹圖像(1600×1200)Fig. 1 Tea tree image taken by surveillance camera(1600×1200)
圖1 中存在部分干擾識別的物體,如白色的圍欄。而對于白茶生育期識別分類的關(guān)鍵信息是發(fā)芽中心一定區(qū)域的圖像特征,基于以上思路,首先需要對原始圖像進行特定區(qū)域的裁剪。
根據(jù)圖像的實際情況(每年攝像機取景的遠近和角度不同),選擇了5~10個圖像中有白茶集中生長的區(qū)域,即在發(fā)芽點和附近一定范圍的區(qū)域進行裁剪。以此初步剔除一些對物候期判斷會產(chǎn)生干擾的圖像內(nèi)容,同時產(chǎn)生更多的圖像,在數(shù)量上保證網(wǎng)絡(luò)提取特征和訓(xùn)練學(xué)習(xí)的準(zhǔn)確度。裁剪的尺寸選擇的CNN接受輸入圖片的尺寸,即416×416。經(jīng)過這一步的處理,可以得到了約5000張圖像的數(shù)據(jù)集。經(jīng)裁剪處理后的圖像見圖2。
圖2 裁剪后的茶樹圖像(416×416)Fig. 2 Cropped tea tree image (416×416)
2)圖像生育期標(biāo)注
由專業(yè)人員對這些圖像進行生育期的標(biāo)記,從而進行有監(jiān)督的學(xué)習(xí)。使每一張圖像都對應(yīng)有時間信息(年月日)和生育期分類標(biāo)注信息(表1)。
表1 生育期標(biāo)注對應(yīng)關(guān)系Table 1 Corresponding relation of growth period labeling
在進行生育期標(biāo)注時,分別嘗試三分類(表2)和四分類(表3)2種方法。
表2 三分類方法的類別劃分Table 2 Categories of the three classification methods
表3 四分類方法的類別劃分Table 3 Categories of the four classification methods
3)氣象數(shù)據(jù)的融合
只利用從圖像提取的特征進行分類會出現(xiàn)錯分跨度比較大的問題,而白茶的生長和氣象因素關(guān)系密切,因此考慮在模型中融入氣象數(shù)據(jù)進行優(yōu)化。研究發(fā)現(xiàn),溫度是影響植物生長的關(guān)鍵因素,而溫度對植物的生長有一個累積的效應(yīng),所以研究對于溫度的處理采取積溫的方式,同時產(chǎn)生序列化的數(shù)據(jù),降低只由圖片特征進行分類帶來的錯誤率。因此,將白茶生長地的溫度數(shù)據(jù)進行累積處理和0-1標(biāo)準(zhǔn)化處理后再拼接到所對應(yīng)的圖像特征上。由于一天采集了3天圖像,并且對圖像進行了剪裁,所以圖像特征會拼接對應(yīng)當(dāng)天的積溫特征。
將圖像特征提取得到的向量特征通過兩次全連接后轉(zhuǎn)化為64×1的特征向量。然后將拍攝圖像當(dāng)天的積溫數(shù)據(jù)拼接到溫度數(shù)據(jù)之后,得到一個65×1的向量,表示圖像特征和氣象溫度特征融合之后的特征。
利用TensorFlow框架(此框架可以理解為編寫深度學(xué)習(xí)模型的實現(xiàn)代碼帶來便捷的一種工具,使用此框架可以更高效地實現(xiàn)模型,減少代碼量)。構(gòu)建CNN特征提取網(wǎng)絡(luò)和分類網(wǎng)絡(luò),根據(jù)白茶生長物候期的萌芽期、一芽一葉期、一芽多葉期、白茶轉(zhuǎn)綠期的分類,利用圖像數(shù)據(jù)得到三分類和四分類結(jié)果,同時對于是否融合氣象數(shù)據(jù)的實驗結(jié)果進行了對比,多次測試取平均值得到分類準(zhǔn)確率(表4)。
表4 分類方法的準(zhǔn)確率Table 4 Accuracy of classification method
沒有融合氣象數(shù)據(jù),沒有進行圖像增強的三分類準(zhǔn)確率為78%,融合氣象數(shù)據(jù)的四分類準(zhǔn)確率為83%,融合氣象數(shù)據(jù)和進行圖像增強的四分類結(jié)果為72%。 可見氣象數(shù)據(jù)的融合可以提高分類的準(zhǔn)確率,主要減少了跨度較大的誤分類的出現(xiàn)。但是在四分類的情形下,由于各個分類的數(shù)據(jù)量有不均衡的情況,以及植物生長的連續(xù)性造成的人工標(biāo)注的困難,其準(zhǔn)確率比三分類低。對比數(shù)據(jù)表明,加入氣象數(shù)據(jù)作為輔助特征比單一使用圖像特征的準(zhǔn)確率更高,減少了鄰近分類的誤分類的情況。
本研究通過利用深度學(xué)習(xí)的方法建立一個自動判別模型來識別白茶生長物候期,實驗通過深度學(xué)習(xí)的方法來將白茶的圖像作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)CNN來提取圖像特征,然后在此基礎(chǔ)上進行分類從而實現(xiàn)對圖像內(nèi)白茶生長物候期的識別,再融合氣象特征對識別效果進行優(yōu)化,從而得出了準(zhǔn)確率較高的識別模型。通過實驗,此模型能夠?qū)D像內(nèi)的白茶所處的生長物候期進行準(zhǔn)確的識別。
茶葉的生長除積溫外,還會受光照、空氣濕度、土壤含水量、日較差等其他氣象要素影響。在下一步研究中,可以在模型中融合進更多的氣象數(shù)據(jù)以完善“由白茶圖像自動判別生長物候期的模型”,進一步提高模型識別準(zhǔn)確率。
Advances in Meteorological Science and Technology2021年2期