劉繼展, 侯廣宇
(江蘇大學 農(nóng)業(yè)工程學院, 江蘇 鎮(zhèn)江 212013)
當前,人們已經(jīng)進入一個嶄新的智能時代,在農(nóng)業(yè)智能裝備上加入語音的研究是一個新亮點.農(nóng)業(yè)智能裝備作業(yè)時,安全性還比較低,出現(xiàn)問題不能及時控制,舒適感不夠,把語音的優(yōu)勢發(fā)揮到農(nóng)業(yè)智能裝備上,增加了農(nóng)業(yè)智能裝備作業(yè)的便捷性,可以輕松地獲取作業(yè)信息并及時控制,提高舒適性.
單愛軍[1]提出了基于語音合成芯片的智能語音播報系統(tǒng),為播種監(jiān)視器配備語音播報功能,試驗結(jié)果表明語音可以方便獲取工作信息,解決了傳統(tǒng)播種數(shù)量信息難以獲取的問題.李楨等[2]提出了基于關(guān)鍵詞語音識別的農(nóng)業(yè)信息語音服務(wù)系統(tǒng)的研究,將關(guān)鍵詞語音識別技術(shù)及語音合成技術(shù)應(yīng)用于語音服務(wù)系統(tǒng),解決語音服務(wù)系統(tǒng)按鍵繁瑣、交互性差等問題.高登峰等[3]通過在卷積神經(jīng)網(wǎng)絡(luò)中加入跳躍連接對語音進行了增強.趙忠華等[4]提出了建立快速獨立分析提取FASTICA語音盲源分離方法.劉雪燕等[5]基于語音識別設(shè)計了智能灌溉系統(tǒng),在土壤濕度不滿足植物生長需要時,通過語音命令對灌溉系統(tǒng)進行控制,系統(tǒng)運行穩(wěn)定,但是對灌溉情況信息獲取難度大,沒有把語音的優(yōu)勢發(fā)揮出來.
從產(chǎn)業(yè)到休閑是服務(wù)型農(nóng)業(yè)新業(yè)態(tài),休閑農(nóng)業(yè)是利用農(nóng)業(yè)景觀資源和農(nóng)業(yè)生產(chǎn)條件發(fā)展觀光、休閑、旅游的一種新型農(nóng)業(yè)生產(chǎn)經(jīng)營形態(tài)[6].休閑農(nóng)業(yè)在我國已呈全面發(fā)展態(tài)勢,產(chǎn)品日漸豐富,規(guī)模不斷擴大,隨著新業(yè)態(tài)的不斷發(fā)展,農(nóng)業(yè)裝備的作業(yè)方式面臨轉(zhuǎn)型升級,而語音提示、語音報警、視覺語音、語音控制4個語音技術(shù)在其中起著輔助支撐的重要作用.
語音作為人與人溝通最方便的方式,可以解放人們的雙手,有信息的豐富性,降低了空間的距離限制[7],當前語音便捷性的優(yōu)勢更多在家用服務(wù)中體現(xiàn).因老年人本身環(huán)境感知能力弱和記憶力消退,可以通過語音提示功能提示老年人或者殘疾人溫度信息和穿衣數(shù)量[8];通過語音識別對用戶情感做出判斷,實現(xiàn)智能掃地[9].語音在服務(wù)機器人領(lǐng)域已經(jīng)有較多的應(yīng)用,服務(wù)機器人多是室內(nèi)規(guī)則的空間環(huán)境,與服務(wù)機器人的應(yīng)用場景相比,農(nóng)業(yè)智能裝備工作環(huán)境多是開放空間,面對對象更復雜、更特殊,自主作業(yè)出現(xiàn)錯誤時沒有及時信息反饋,操作者察覺到再去遙控已來不及,應(yīng)急控制能力低.為提高農(nóng)業(yè)裝備作業(yè)質(zhì)量,語音在農(nóng)業(yè)上應(yīng)用極少,在農(nóng)業(yè)裝備上僅存在的語音應(yīng)用比較簡單,太過單一化,沒有整套的語音技術(shù)研究.
因此,針對農(nóng)業(yè)工作環(huán)境的復雜性、特殊性,用戶可以通過語音對農(nóng)業(yè)智能裝備進行實時控制,通過語音提示對工作信息實時獲取,給用戶輕松舒適感.面對休閑農(nóng)業(yè),語音是改變?nèi)藱C交互效率的辦法,未來語音技術(shù)在農(nóng)業(yè)智能裝備發(fā)展上潛力巨大,將為人機交互帶來巨大的改變.
語音提示指通過語音播報獲取農(nóng)業(yè)智能裝備作業(yè)情況信息,語音提示作用是通過語音播報的方式獲取作業(yè)信息情況.傳統(tǒng)作業(yè)信息獲取方式通過眼睛看,需要人高度集中,極大增加了工作量.而在農(nóng)業(yè)裝備上應(yīng)用語音提示功能,用戶只需要通過聽覺的方式接收語音信號,實時作業(yè)反饋信息就能輕松獲取,這能夠緩解其視覺勞累,從而避免因疲勞引發(fā)相關(guān)錯誤操作.語音提示應(yīng)用在秧苗檢測上[10],對弱苗與病苗檢測信息進行語音播報,就不用時刻去觀察,通過語音提示的方式獲取信息,省去視覺的疲勞.
語音報警指作業(yè)出現(xiàn)錯誤時自動播報對應(yīng)語音信息進行報警,用戶可以通過報警信息及時去調(diào)整,減少損失.傳統(tǒng)語音報警以一種尖鳴聲和光閃提示為主,沒有故障信息進行播報,太過單一化,如果語音報警中包括故障的信息,用戶可以針對性去調(diào)整作業(yè)方式,減少損失.語音報警應(yīng)用在無人農(nóng)機作業(yè)時[11],當旁人闖入無人農(nóng)機作業(yè)區(qū)域,機器本身傳感器會檢測到危險,進行語音報警提示,從而降低危險系數(shù),當機器本身出現(xiàn)故障開始冒煙時,傳感器會自動報警,用戶可以及時解決故障,減少損失.
語音控制指通過語音去控制農(nóng)業(yè)裝備的運動狀態(tài),語音控制讓用戶可以及時調(diào)整農(nóng)業(yè)裝備,增加便捷性.傳統(tǒng)農(nóng)業(yè)機器人需要預先編寫程序并載入控制系統(tǒng),通過面板屏幕或機械按鈕來交互控制,要求手眼緊密協(xié)作,使操作復雜繁瑣,控制人員容易疲勞[12].當在農(nóng)業(yè)裝備上應(yīng)用語音控制功能,不需要操作人員接觸農(nóng)業(yè)機械本體,通過語音就可在相對較大的空間范圍內(nèi)下達控制命令,解放人們的雙手,尤其對于老年人和不方便人士,語音提供了一種較好的控制方式,解決人機協(xié)同問題[13].當語音控制功能應(yīng)用在無人農(nóng)機作業(yè)時,出現(xiàn)作業(yè)錯誤機器無法自己調(diào)整,發(fā)出報警信息,人可以通過語音去控制無人農(nóng)機運動.
視覺語音指對作物信息實時識別并以語音問答的形式進行反饋.傳統(tǒng)人們需要根據(jù)多年經(jīng)驗去判斷作物信息,后來發(fā)展到基于深度學習對作物信息識別,只能單張圖片輸入進行識別卻不能實時信息反饋.而在農(nóng)業(yè)裝備上應(yīng)用語音交互功能,可以實時獲取農(nóng)作物信息,輕松估算出農(nóng)作物適宜獲取的時間信息,從而減少農(nóng)業(yè)損失與用工成本,當語音交互應(yīng)用在葡萄采摘機器人上時,可以一邊對葡萄進行采摘,一邊對葡萄成熟度信息進行識別,判斷出當前時間段是否為最佳采摘時間,相差時間間隔較大時,調(diào)整采摘時間,減少農(nóng)業(yè)損失[13].
針對農(nóng)業(yè)作業(yè)情況復雜和信息獲取難度大的問題,提出兩種實現(xiàn)語音提示和語音報警功能的方案,通過語音播報的形式提示人們作業(yè)信息.
1) 通過傳感器去識別判斷作業(yè)狀態(tài),把作業(yè)信息變化發(fā)給語音提示模塊,其中語音提示模塊中加載語音提示信息,當發(fā)生作業(yè)調(diào)整或者識別出故障信息時,語音提示模塊提示聲音會變大,從而實現(xiàn)語音提示與語音報警功能.
2) 通過使用語音提示模塊,當農(nóng)業(yè)裝備控制器發(fā)出控制指令時,控制指令會發(fā)送給執(zhí)行器,同時也會發(fā)送給語音提示模塊,實現(xiàn)語音提示功能,這種語音提示功能在離線情況下就可以使用.
針對農(nóng)業(yè)智能裝備作業(yè)難度大的問題,提出離線與在線情況下分別語音控制機器運動.
1) 離線情況下通過一種語音控制模塊去接收語音信息,將識別到的語音信息與控制關(guān)鍵詞匹配,匹配成功后發(fā)出對應(yīng)控制命令,從而實現(xiàn)語音控制.
2) 在線情況下在ROS系統(tǒng)下實現(xiàn)語音控制,ROS中使用了CMU Sphinx和Festival開源項目中的代碼,可以發(fā)布獨立的語音識別包,而且可以將識別出來的語音轉(zhuǎn)換成文字,發(fā)布到控制命令話題上,從而在ROS中實現(xiàn)語音控制,也可以利用科大訊飛或者百度AI語音識別SDK實現(xiàn)語音識別文字,從而發(fā)布到控制命令話題上,實現(xiàn)語音控制[14].
針對農(nóng)業(yè)智能裝備作物信息獲取難度大的問題,提出在離線與在線情況下實現(xiàn)不同視覺語音功能,對圖像識別后的信息進行語音播報.
1) 在線情況下通過相機對圖像信息進行采集,然后在深度學習框架下對圖像進行識別,把識別后的信息儲存于深度學習數(shù)據(jù)庫中,MIC去接收語音信號,當人沒問到圖像信息時,通過云端服務(wù)器進行回答,在python編譯語言環(huán)境下通過語音播報模塊進行播報,當問到圖像信息時,將深度學習數(shù)據(jù)庫中儲存好的信息取出在python編譯語言環(huán)境下進行語音播報[15].
2) 離線情況下,在python環(huán)境中,把圖像識別后的文字信息經(jīng)過python語音識別包進行離線文字轉(zhuǎn)語音,從而實現(xiàn)圖像識別信息語音播報[16].
語音是人類交流最自然的方式,語音技術(shù)可以解決用戶在復雜場合時,普遍感到困擾的一些關(guān)鍵問題.4個語音功能可以分別實現(xiàn)不同操作要求,基于語音技術(shù)的模塊化框架具有主流通用性,視覺語音可以對作物信息進行實時反饋,語音控制通過語音對農(nóng)業(yè)裝備進行控制調(diào)整,語音提示作業(yè)信息,隨著人工智能的不斷發(fā)展,各個裝備層級的應(yīng)用十分重要[17].一個典型的涵蓋上述各個層級的硬件框架應(yīng)該包括核心控制模塊、圖像信息采集模塊、多模態(tài)傳感器模塊(傳感器接收語傳感器信號處理)、語音播報模塊、網(wǎng)絡(luò)模塊、單個控制模塊、電源模塊、語音接收模塊,如圖1所示,同時運行不同的模塊組合,分別實現(xiàn)語音提示、語音報警、語音控制、視覺語音功能.
圖1 模塊化硬件系統(tǒng)
將成套控制軟件分為農(nóng)作物信息檢測單元、作業(yè)信息檢測單元、接收語音信號單元、作業(yè)命令控制單元、語音播報-報警單元,在ROS開發(fā)環(huán)境中,通過python編譯語言建立控制軟件系統(tǒng)框架[18-19],并對各功能單元進行模塊化編程實現(xiàn)整套系統(tǒng)的多功能同步協(xié)調(diào)運行,通過不同的單元組合實現(xiàn)不同的功能,如圖2所示.
圖2 模塊化軟件系統(tǒng)
提出作業(yè)信息檢測-語音提示雙激發(fā)控制策略,在農(nóng)業(yè)智能裝備上安裝多模態(tài)傳感器模塊,基于作業(yè)信息檢測單元的農(nóng)業(yè)裝備作業(yè)信息,由語音播報-報警單元驅(qū)動揚聲器裝置,實現(xiàn)農(nóng)業(yè)裝備作業(yè)信息語音提示,當多模態(tài)傳感器察覺到工作異常,立即進行語音報警.
語音提示與報警主要由多模態(tài)傳感器模塊、單個控制模塊和語音播報模塊組成,如圖3所示.農(nóng)業(yè)裝備正常工作情況下,控制器模塊處于掃描狀態(tài),持續(xù)掃描傳感器模塊動作情況[20].當農(nóng)業(yè)機械轉(zhuǎn)彎時,傳感器模塊動作,動作情況由I/O口輸入控制器模塊,控制器模塊向語音芯片發(fā)出放音指令,發(fā)出放音指令后,控制器立即恢復傳感器掃描模式.語音芯片接收到放音指令后,開始播放傳感器對應(yīng)的語音提示信息,播放過程中,若新傳感器動作,舊的語音播放停止,新的語音播放隨即開始.當農(nóng)業(yè)裝備開始不正常工作時,語音芯片發(fā)出報警命令.
提出特殊情況下語音控制農(nóng)業(yè)裝備策略,基于接收語音信號單元的作業(yè)控制信息,通過作業(yè)命令控制單元控制單個運動機構(gòu).
語音控制由語音接收模塊、單個控制模塊組成,如圖4所示.農(nóng)業(yè)裝備工作過程中,用戶的語音進入MIC后處理電路進行頻譜分析并與關(guān)鍵詞匹配識別,語音接收模塊將把處理過的數(shù)據(jù)傳到單個控制器模塊上,進而控制農(nóng)業(yè)裝備運動.
圖4 語音控制
提出農(nóng)作物信息檢測-語音播報策略,將農(nóng)作物信息檢測單元得到的農(nóng)作物信息與接收語音信號單元的語音問答信息進一步融合,完成田間作物品種與成熟度信息儲存和語音播報.視覺語音由核心控制模塊、圖像信息采集模塊、語音接收模塊、語音播報模塊、網(wǎng)絡(luò)模塊、電源模塊組成.
農(nóng)業(yè)裝備工作過程中,相機對圖像信息進行采集,然后在深度學習框架下對圖像進行識別,把識別后的信息儲存于深度學習數(shù)據(jù)庫中,MIC去接收語音信號,當人沒問到圖像信息時,通過云端服務(wù)器進行回答,在python編譯語言環(huán)境下通過語音播報模塊進行播報,當問到圖像信息時,將深度學習數(shù)據(jù)庫中儲存好的信息取出在python編譯語言環(huán)境下進行語音播報.
面對休閑農(nóng)業(yè),當葡萄采摘機器人作業(yè)時,導航系統(tǒng)給運動控制器一個命令時,多模態(tài)傳感器接收到信號,把信號發(fā)給語音模塊[17],對信息進行播報.多模態(tài)傳感器同時會自動檢測危險信息和是否正常作業(yè)信息并語音播報預警,聽到警告時,葡萄采摘機器人無法自動調(diào)整,可以通過語音控制調(diào)整,省去了用戶去控制的時間,降低危害風險,用戶可以輕松地獲得無人農(nóng)機作業(yè)信息并語音控制,提高葡萄采摘機器人作業(yè)效率.同時葡萄采摘機器人通過深度相機獲取農(nóng)作物圖像數(shù)據(jù),從訓練完成的深度學習模型中獲得農(nóng)作物的品種和成熟度信息,將信息存儲于建立好的深度學習數(shù)據(jù)庫中,被問農(nóng)作物品種和成熟度信息時,可以從深度學習數(shù)據(jù)庫中搜索相應(yīng)的信息并語音實時反饋,人們可以輕松估算出農(nóng)作物適宜獲取的時間信息,從而減少農(nóng)業(yè)損失,工作流程如圖5所示.
圖5 多模塊工作流程
1) 農(nóng)業(yè)智能裝備工作環(huán)境復雜,自主作業(yè)出現(xiàn)錯誤時沒有及時信息反饋,操作者察覺到再去遙控已來不及,應(yīng)急控制能力低,把語音的功能應(yīng)用到農(nóng)業(yè)智能裝備上可以解決這些問題.
2) 語音技術(shù)主要應(yīng)用在農(nóng)業(yè)智能裝備領(lǐng)域,具有很強的可移植性,面對都市農(nóng)業(yè)把語音提示、語音報警、語音交互、語音操控功能結(jié)合在一體,極大提高了農(nóng)業(yè)智能裝備的智能化、無人化的作業(yè)效果,應(yīng)用前景看好.
3) 語音是改變?nèi)藱C交互效率的辦法,未來語音技術(shù)在農(nóng)業(yè)智能裝備發(fā)展上潛力巨大,將為人機交互帶來巨大的改變,語音技術(shù)可以解決用戶在復雜場合時,普遍感到困擾的一些關(guān)鍵問題,語音在智慧農(nóng)業(yè)4.0模式等領(lǐng)域有著重要的應(yīng)用價值.