徐健 曹軍 張怡卓
(東北林業(yè)大學(xué),哈爾濱,150040)
松果是我國生產(chǎn)的主要干果之一,其中松子具有很高的營養(yǎng)價(jià)值,并且松皮也是復(fù)合材料的重要原料之一。目前,松果采摘的主要收獲方式仍為人工作業(yè)方式,但人工采摘方式缺點(diǎn)為工作危險(xiǎn)、效率低下和工作環(huán)境惡劣。為實(shí)現(xiàn)高效、危險(xiǎn)系數(shù)低的采摘目的,使用采摘裝置代替人工采摘方式。
松果采摘裝置中,因?yàn)楦鱾€(gè)關(guān)節(jié)的聯(lián)動(dòng)及擊打機(jī)械臂過長的問題,采摘裝置會(huì)產(chǎn)生不可控的殘余振動(dòng)[1]。由于殘余振動(dòng)的存在,一方面會(huì)使設(shè)備不能準(zhǔn)確定位到松果的位置,另一方面對于整個(gè)設(shè)備的健康情況及使用壽命產(chǎn)生嚴(yán)重的影響,故需要采用振動(dòng)抑制算法對采摘裝置進(jìn)行振動(dòng)抑制[2-4]。現(xiàn)如今的振動(dòng)抑制算法可主要分為開環(huán)和閉環(huán)兩類控制方法。閉環(huán)控制方法加入反饋環(huán)設(shè)計(jì),對系統(tǒng)參數(shù)的變化及外界干擾魯棒性較好;缺點(diǎn)是實(shí)現(xiàn)實(shí)時(shí)反饋與調(diào)節(jié),閉環(huán)控制需要引入更多傳感器和計(jì)算工作量[5-6],實(shí)現(xiàn)起來更為復(fù)雜且成本較高。而開環(huán)控制方法只需在原有控制系統(tǒng)中引入前饋環(huán)節(jié),并且通過模型計(jì)算后,只需要經(jīng)過短暫的時(shí)間間隔就可以達(dá)到穩(wěn)定,因此在實(shí)際應(yīng)用中更加簡單,能耗低[7]。輸入整形器為滿足不同的工程需求,主要分為如下幾類:①零振動(dòng)(ZV)輸入整形器,特點(diǎn)是適合系統(tǒng)參數(shù)已知且唯一的情況,在系統(tǒng)參數(shù)點(diǎn)處可以完全的消除振動(dòng)[8];②零振動(dòng)和微分(ZVD)輸入整形器,特點(diǎn)是適合系統(tǒng)參數(shù)已知且唯一的情況,在系統(tǒng)參數(shù)點(diǎn)附近可以完全的消除振動(dòng)[9];③SI輸入整形器,特點(diǎn)是適合系統(tǒng)參數(shù)不確定但知道系統(tǒng)參數(shù)范圍的情況,可以在任意范圍內(nèi),通過加入采樣點(diǎn)的方式,有效抑制該范圍內(nèi)的系統(tǒng)參數(shù)產(chǎn)生的振動(dòng)。
以上輸入整形器必須知道系統(tǒng)參數(shù)在特定范圍內(nèi),而實(shí)際應(yīng)用中采摘裝置的系統(tǒng)參數(shù)有不確定性,于是引入強(qiáng)化學(xué)習(xí)對輸入整形器進(jìn)行設(shè)計(jì)。強(qiáng)化學(xué)習(xí)主要是通過代理體與環(huán)境的交互方式使獎(jiǎng)勵(lì)函數(shù)最大,令代理體得到最優(yōu)控制策略的機(jī)器學(xué)習(xí)方法[10]。本研究針對采摘裝置系統(tǒng)參數(shù)不確定的情況,提出了一種基于強(qiáng)化學(xué)習(xí)優(yōu)化SI輸入整形參數(shù)的方法,通過將輸入整形的時(shí)間間隔和脈沖幅值分別離散化,將其輸入至代理體中。并在機(jī)械臂運(yùn)動(dòng)過程中用高速攝像頭對每個(gè)過程的速度進(jìn)行監(jiān)測,給予代理體獎(jiǎng)勵(lì)函數(shù),尋找生成的一系列參數(shù)的最大獎(jiǎng)勵(lì)函數(shù)即為所得的最優(yōu)參數(shù)。使用該算法可以實(shí)現(xiàn)攝像頭快速識別松果位置與對松果臨近枝干精準(zhǔn)打擊,可以提高采摘設(shè)備的效率[11-12]。首先搭建雙擺模型對強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器進(jìn)行試驗(yàn),觀察有參數(shù)模型消除振動(dòng)的效果;然后測試強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器在松果采摘裝置模型的振動(dòng)消除情況;最后對比機(jī)器學(xué)習(xí)優(yōu)化后的SI輸入整形器和傳統(tǒng)的SI輸入整形器[13]在松果采摘裝置模型中的振動(dòng)抑制效果。可知,強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器具有更快的調(diào)節(jié)時(shí)間、更低的振幅的特點(diǎn),可以提高采摘設(shè)備松果識別時(shí)間和擊打過程中的效率。
采用的擊打式松果采摘裝置是由多關(guān)節(jié)機(jī)械臂和控制器組成,其中多關(guān)節(jié)機(jī)械臂由連桿、行星減速器、聯(lián)軸器、步進(jìn)電機(jī)和基座組成[14-15];控制器由STM32控制器和步進(jìn)驅(qū)動(dòng)器兩部分組成。選用型號為PLF-20,減速比為1∶20的行星減速器和型號為DM860H的86型步進(jìn)電機(jī),并且機(jī)械臂還安裝有型號為JA-C8C-U的雙目攝像頭。擊打式松果采摘裝置的結(jié)構(gòu)示意如圖1所示。步進(jìn)電機(jī)1通過行星減速機(jī)驅(qū)動(dòng)連桿可以完成豎直方向運(yùn)動(dòng)[16],步進(jìn)電機(jī)2完成上揚(yáng)角度的運(yùn)動(dòng),步進(jìn)電機(jī)3完成水平方向運(yùn)動(dòng),步進(jìn)電機(jī)4完成松果擊打,移動(dòng)機(jī)械臂上安裝的攝像頭確定松果的實(shí)際位置和成熟程度。擊打式松果采摘裝置控制策略如圖2所示。
輸入整形是最常見的信號整形技術(shù)。輸入整形器的本質(zhì)是一組脈沖序列,目的是將零點(diǎn)放置到柔性系統(tǒng)的極點(diǎn)處或其附近區(qū)域。輸入整形器的實(shí)現(xiàn)方法是將這組脈沖序列與用戶期望的任何輸入信號進(jìn)行卷積運(yùn)算,使之變成一系列有時(shí)間間隔的脈沖序列。將處理后的脈沖序列輸入控制裝置,可達(dá)到抑制振動(dòng)的效果。
振動(dòng)的衡量標(biāo)準(zhǔn)為殘余振動(dòng)百分比,即n個(gè)脈沖序列在欠阻尼二階系統(tǒng)產(chǎn)生的振動(dòng)幅度除以初始信號產(chǎn)生的振動(dòng)幅度。用其反映輸入整形前后的振動(dòng)抑制情況:
(1)
(2)
(3)
式中:ω為系統(tǒng)的自然頻率;ωd為系統(tǒng)的阻尼頻率;ξ為阻尼比;VPR為系統(tǒng)的殘余振動(dòng)百分比;Ai和ti分別是輸入整形脈沖序列的幅度和時(shí)間。
輸入整形主要有ZV、ZVD、EI、SI4種典型輸入整形器。其中SI輸入整形器因其魯棒性好、可在特定范圍對振動(dòng)有較好抑制效果等特點(diǎn),有十分廣泛的實(shí)際應(yīng)用。
適用于不確定系統(tǒng)參數(shù),但可以確定系統(tǒng)參數(shù)所在范圍的情況。在設(shè)計(jì)輸入整形器中加入采樣點(diǎn)的方式,可在特定范圍內(nèi)對運(yùn)動(dòng)過程中產(chǎn)生的振動(dòng)有很好的抑制效果。
設(shè)計(jì)方法為指定所需的振動(dòng)容許值Vtol和設(shè)計(jì)出輸入整形器振動(dòng)抑制的具體頻率范圍[17]。因此,公式(1)被修改為公式(4):
(4)
本研究采用的松果采摘裝置具有多節(jié)聯(lián)動(dòng)的控制方式,令該裝置的系統(tǒng)參數(shù)具有不確定性,使SI輸入整形器也不能很好地抑制擊打機(jī)械臂的振動(dòng)效果。基于以上原因,設(shè)計(jì)了強(qiáng)化學(xué)習(xí)優(yōu)化SI輸入整形器參數(shù)的方法來解決裝置產(chǎn)生振動(dòng)的問題。
圖3所示強(qiáng)化學(xué)習(xí)方法是一種典型的離散型強(qiáng)化學(xué)習(xí)控制算法,在沒有任何預(yù)先存在的知識的條件下,通過代理體與動(dòng)態(tài)環(huán)境多次的交互式學(xué)習(xí),選擇不同策略,根據(jù)不同的狀態(tài)選擇合適的動(dòng)作得到不同的獎(jiǎng)勵(lì),最終得到最優(yōu)解[19-22]。
首先,根據(jù)SI整形器的設(shè)計(jì)方法作為參考,設(shè)計(jì)出一個(gè)具有綜合獎(jiǎng)勵(lì)功能的動(dòng)態(tài)環(huán)境,結(jié)合了輸入整形器設(shè)計(jì)需滿足的所有約束條件。然后,對傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法進(jìn)行一些新的改進(jìn),使得代理體可以更有效地解決設(shè)備的振動(dòng)問題。
2.3.1 具有綜合獎(jiǎng)勵(lì)功能的動(dòng)態(tài)環(huán)境設(shè)計(jì)
SI整形器的設(shè)計(jì)是滿足公式(4)約束下的多脈沖序列,需要解決多目標(biāo)強(qiáng)化學(xué)習(xí)問題。但因?yàn)樗心繕?biāo)問題都是非沖突和不相關(guān)的,因此可以首先建立單一策略強(qiáng)化學(xué)習(xí)的代理體來學(xué)習(xí)最佳行為。在其他大多數(shù)研究中,多目標(biāo)強(qiáng)化學(xué)習(xí)解決方案專注于設(shè)計(jì)多目標(biāo)學(xué)習(xí)代理體。通常需要查多個(gè)表,且每個(gè)表只適合單獨(dú)的目標(biāo)。然后分別進(jìn)行強(qiáng)化學(xué)習(xí)以分時(shí)方式驅(qū)動(dòng)代理體的行為,運(yùn)行過程如圖4所示。隨著每個(gè)時(shí)間步來更新多個(gè)表,但這個(gè)算法對維數(shù)有局限性,不適合處理高維運(yùn)算。
因此,本研究通過修改環(huán)境的方法解決了多目標(biāo)強(qiáng)化學(xué)習(xí)的計(jì)算問題。由于所有目標(biāo)在實(shí)現(xiàn)控制要求中同樣重要,因此設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù),這個(gè)獎(jiǎng)勵(lì)函數(shù)通過對各個(gè)目標(biāo)賦予權(quán)重的方式來描述所有目標(biāo)量對該控制的重要程度。該獎(jiǎng)勵(lì)函數(shù)被稱為合成獎(jiǎng)勵(lì)函數(shù),并且作為單目標(biāo)強(qiáng)化學(xué)習(xí)代理體的獎(jiǎng)勵(lì)。在每個(gè)時(shí)間步更新一個(gè)表,使用修改環(huán)境的方法可以明顯減少計(jì)算維度、問題的求解難度和實(shí)現(xiàn)所需的費(fèi)用,運(yùn)行過程如圖5所示。
2.3.2 強(qiáng)化學(xué)習(xí)的代理體設(shè)計(jì)
系統(tǒng)的殘余振動(dòng)取決于代理體的全部動(dòng)作而不是只與前一動(dòng)作有關(guān),因此為非馬爾科夫(MDP)環(huán)境,所以將使用非自舉強(qiáng)化學(xué)習(xí)方法。RL算法的主要目的是探索環(huán)境與代理體之間的平衡。現(xiàn)提出了許多不同的探索方法,通??梢苑譃閮深悾簾o向勘探方法和定向勘探方法。在簡單離散MDP模型下,定向探測技術(shù)在訓(xùn)練時(shí)間和政策最優(yōu)性方面均優(yōu)于無向探索技術(shù)。但是因?yàn)槠鋸?fù)雜性使得定向探索技術(shù)難以向多維擴(kuò)展。因此,對于跨越不同領(lǐng)域的多維空間不存在獨(dú)特的解決方案,調(diào)整無向探索技術(shù)的探索率仍然是當(dāng)今最流行的實(shí)踐方法。RL算法中的另一個(gè)問題是策略偏差問題,如果值函數(shù)十分明顯地偏離真實(shí)值,則得到最佳行為的概率可能會(huì)降低。并且類似于間接探索的傳統(tǒng)方法則是減少代理體的時(shí)間函數(shù),但這往往需要設(shè)計(jì)者進(jìn)行額外的調(diào)節(jié)。
為了解決上述問題,提出了一種簡單、直觀的算法。該算法如表1所示。
其中一種有效的探索技術(shù),稱為基于計(jì)數(shù)器的探索技術(shù),該技術(shù)的實(shí)現(xiàn)方法是通過計(jì)算每個(gè)狀態(tài)與動(dòng)作對的訪問次數(shù),并時(shí)刻觀察產(chǎn)生當(dāng)前最佳性能的狀態(tài)與動(dòng)作對來更為有效地探索環(huán)境。受這個(gè)想法的啟發(fā),本研究引入了一種密集搜索的簡單搜索算法。通過設(shè)置一個(gè)接近最優(yōu)獎(jiǎng)勵(lì)的閾值來實(shí)現(xiàn),該閾值在剛開始的小范圍內(nèi)進(jìn)行手動(dòng)調(diào)整設(shè)置初值。當(dāng)代理體的所得獎(jiǎng)勵(lì)值超過獎(jiǎng)勵(lì)閾值時(shí),代理體將遵循當(dāng)前狀態(tài)下的最優(yōu)策略,并在這些執(zhí)行動(dòng)作下探索不同的動(dòng)作,時(shí)刻觀察當(dāng)前最佳性能狀態(tài)與動(dòng)作對,且同時(shí)在本地搜索更好的結(jié)果。這個(gè)強(qiáng)化探索技術(shù)平衡了探索環(huán)境與代理體的平衡,其優(yōu)點(diǎn)是無需記住每個(gè)狀態(tài)與動(dòng)作對的訪問次數(shù),就可以實(shí)現(xiàn)強(qiáng)化探索功能。
表1 可更新的零獎(jiǎng)勵(lì)閾值代理體設(shè)計(jì)
2.3.3Q表學(xué)習(xí)優(yōu)化SI輸入整形器
設(shè)計(jì)的松果采摘裝置在多節(jié)機(jī)械臂的運(yùn)動(dòng)過程中會(huì)產(chǎn)生振動(dòng),并且振動(dòng)的系統(tǒng)參數(shù)具有不確定性[23]。在相同的控制狀態(tài)下,得到的振動(dòng)幅值與穩(wěn)定時(shí)間都不相同,直接用某一時(shí)刻的狀態(tài)計(jì)算系統(tǒng)參數(shù)會(huì)導(dǎo)致裝置的振動(dòng)抑制效果不佳。初始狀態(tài)下,建立5個(gè)Q表,每張表以機(jī)械臂擊打處坐標(biāo)為橫坐標(biāo),步進(jìn)電機(jī)速度為縱坐標(biāo),通過Boltzmann選取動(dòng)作[24],將計(jì)算的Q值存入表格。然后,在獎(jiǎng)勵(lì)函數(shù)中加入衰減系數(shù),令選取的動(dòng)作序列跳出局部最優(yōu)。最后,經(jīng)過多次訓(xùn)練后得到優(yōu)化后的SI輸入整形器參數(shù)。具體的設(shè)計(jì)流程如圖6所示。
其中:r為獎(jiǎng)勵(lì)函數(shù);ArgQ(s,a,θ)max為輸入最大狀態(tài)-動(dòng)作對;θ為衰減函數(shù);s′為下一狀態(tài)的動(dòng)作預(yù)測值。回放記憶序列的目的是為了弱化數(shù)據(jù)關(guān)聯(lián)性,增加數(shù)據(jù)的隨機(jī)性。
為了驗(yàn)證松果采摘機(jī)械臂的振動(dòng)抑制效果,共搭建兩個(gè)實(shí)驗(yàn)平臺(tái)分析本研究設(shè)計(jì)的振動(dòng)抑制系統(tǒng)有效性。首先在雙擺試驗(yàn)中,采用傳統(tǒng)的SI輸入整形器和強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器進(jìn)行了實(shí)驗(yàn)仿真。分析在已知系統(tǒng)參數(shù)范圍的條件下,對比強(qiáng)化學(xué)習(xí)優(yōu)化后SI輸入整形器的參數(shù)和經(jīng)過公式計(jì)算的傳統(tǒng)SI輸入整形器的參數(shù)對雙擺模型的振動(dòng)抑制效果。然后分別將傳統(tǒng)SI輸入整形器和強(qiáng)化學(xué)習(xí)優(yōu)化后SI輸入整形器加入到松果采摘設(shè)備中,分析在不確定系統(tǒng)參數(shù)范圍的情況下,傳統(tǒng)的SI輸入整形器和設(shè)計(jì)的強(qiáng)化學(xué)習(xí)優(yōu)化后SI輸入整形器對該設(shè)備的振動(dòng)抑制效果。
3.1.1 雙擺模型建立
采用SI輸入整形器對該雙擺模型進(jìn)行控制,最終達(dá)到抑制振動(dòng)的目的。雙擺模型示意圖如圖7所示,小車與其中重物mh通過長度為L1的繩子連接,重物mh與重物mp通過長度為L2的繩子相連。設(shè)在運(yùn)動(dòng)過程中繩子的長度沒有變化,則滿足的方程為
(5)
(6)
式中:θ1和θ2分別為兩個(gè)重物的擺角;R為重物mp與重物mh的比值;g為重力加速度。
雙擺系統(tǒng)有兩套系統(tǒng)參數(shù),由經(jīng)驗(yàn)法可知,兩個(gè)自然頻率分別為ω1∈(1,3)、ω2∈(5,8),則在這兩個(gè)范圍內(nèi)選取采樣點(diǎn),可以有效地消除振動(dòng)。
3.1.2 雙擺模型實(shí)驗(yàn)驗(yàn)證
因?yàn)橐阎駝?dòng)只與阻尼比和自然頻率有關(guān),雙擺模型有兩套阻尼比和系統(tǒng)參數(shù)。在已知系統(tǒng)參數(shù)范圍的情況下,將強(qiáng)化學(xué)習(xí)優(yōu)化后的輸入整形、傳統(tǒng)SI輸入整形器和未加入算法對比,分別得到這3種控制算法的最大振幅與調(diào)節(jié)時(shí)間,衡量強(qiáng)化學(xué)習(xí)優(yōu)化后是否比傳統(tǒng)算法更加高效、快速。
圖8顯示的是3種控制方法下雙擺模型的位置坐標(biāo)隨時(shí)間變化的曲線。其中藍(lán)線表示原始控制信號輸出,黑線表示傳統(tǒng)的SI輸入整形器輸出,紅線表示強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器輸出。可以看出原始控制信號的輸出的最大振幅偏差約為50%,并且在0.3 s后的偏差仍會(huì)達(dá)到20%,這對設(shè)備的控制精度和使用壽命有很大影響。傳統(tǒng)的SI輸入整形器輸出的最大振幅偏差約為15%,強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器輸出的最大振幅偏差約為3%;相比之下,強(qiáng)化學(xué)習(xí)優(yōu)化后SI輸入整形器的最大幅值更小,對設(shè)備的控制精度更好。
表2顯示的是3種控制方式下雙擺模型振動(dòng)消除所需的調(diào)節(jié)時(shí)間,共測試10組數(shù)據(jù),取其平均值作為衡量標(biāo)準(zhǔn)。其中,藍(lán)色條形圖表示原始控制信號消除振動(dòng)所需時(shí)間,消除振動(dòng)所需時(shí)間約為1.2 s;紅色條形圖表示傳統(tǒng)SI輸入整形器消除振動(dòng)所需時(shí)間,消除振動(dòng)所需時(shí)間約為0.4 s;黃色條形圖表示強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器消除振動(dòng)所需時(shí)間,消除振動(dòng)所需時(shí)間約為0.02 s??梢钥闯?,經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器的最大幅值與消除振動(dòng)所需的時(shí)間遠(yuǎn)小于其他兩種控制方式。
表2 雙擺模型3種算法下的消振時(shí)間
由于雙擺系統(tǒng)為復(fù)雜系統(tǒng),產(chǎn)生的振動(dòng)不容易完全消除,使用傳統(tǒng)SI整形器后抑制振動(dòng)所需的時(shí)間過長。但在采用強(qiáng)化學(xué)習(xí)的方法后,調(diào)節(jié)時(shí)間相對較快,可以達(dá)到各方面的要求。
多關(guān)節(jié)機(jī)械臂的運(yùn)動(dòng)靈活性高,并且在運(yùn)動(dòng)過程中,多節(jié)機(jī)械臂的各關(guān)節(jié)的運(yùn)動(dòng)方式也會(huì)影響擊打機(jī)械臂的振動(dòng)規(guī)律,采用傳統(tǒng)的SI輸入整形器不能完全消除擊打機(jī)械臂的振動(dòng)。采用強(qiáng)化學(xué)習(xí)的方法對傳統(tǒng)的SI輸入整形器的參數(shù)進(jìn)行優(yōu)化,觀察是否可以迅速抑制多節(jié)機(jī)械臂的振動(dòng)。
在實(shí)際環(huán)境中,有風(fēng)阻等實(shí)際因素來影響整個(gè)裝置的振動(dòng)規(guī)律。本實(shí)驗(yàn)平臺(tái)通過加入擾動(dòng)信號的方式模擬各種實(shí)際環(huán)境的干擾。該擾動(dòng)信號的實(shí)現(xiàn)方式為在裝置的控制信號端加入一連串的隨機(jī)函數(shù),模擬3種控制方法在實(shí)際環(huán)境且系統(tǒng)參數(shù)不定的情況下的最大幅值與振動(dòng)消除所需的調(diào)節(jié)時(shí)間。
圖9顯示的是3種控制方法下機(jī)械臂模型的正弦坐標(biāo)隨時(shí)間變化的曲線。其中黑線表示原始控制信號輸出,藍(lán)線表示傳統(tǒng)的SI輸入整形器輸出,紅線表示強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器輸出??梢钥闯鲈伎刂菩盘栞敵龅淖畲笳穹罴s為32%。傳統(tǒng)的SI輸入整形器輸出的最大振幅偏差約為10%,強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器輸出的最大振幅偏差約為1%;相比之下,強(qiáng)化學(xué)習(xí)優(yōu)化后SI輸入整形器的最大幅值更小,對設(shè)備的控制精度更好。
在參數(shù)不確定的情況下,更能體現(xiàn)出強(qiáng)化學(xué)習(xí)的方法對SI輸入整形的優(yōu)勢,使用該算法將SI輸入整形器的幅值與脈沖分別離散化,并根據(jù)多節(jié)機(jī)械臂的最終振動(dòng)作為觀測指標(biāo)進(jìn)行訓(xùn)練,得到最優(yōu)的幅值和脈沖數(shù)量。隨著最終觀測指標(biāo)的時(shí)刻改變,參數(shù)優(yōu)化后的SI輸入整形器的控制信號的幅值和脈沖數(shù)量也隨之變化。參數(shù)優(yōu)化后的SI輸入整形器算法可以很快地消除振動(dòng),并且振動(dòng)的殘余量很低。
表3顯示的是3種控制方式下機(jī)械臂模型振動(dòng)消除所需的調(diào)節(jié)時(shí)間,共測試10組數(shù)據(jù),取其平均值作為衡量標(biāo)準(zhǔn)。其中藍(lán)色條形圖表示原始控制信號消除振動(dòng)所需時(shí)間,消除振動(dòng)所需時(shí)間約為1.4 s;紅色條形圖表示傳統(tǒng)SI輸入整形器消除振動(dòng)所需時(shí)間,消除振動(dòng)所需時(shí)間約為0.6 s;黃色條形圖表示強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器消除振動(dòng)所需時(shí)間,消除振動(dòng)所需時(shí)間約為0.02 s??梢钥闯?,強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器在系統(tǒng)參數(shù)不確定的情況下,也有很好的振動(dòng)抑制效果。
表3 采摘裝置3種算法下的消振時(shí)間
本研究針對松果采摘裝置在運(yùn)動(dòng)過程中存在的振動(dòng)問題,從輸入整形器的基本理論出發(fā),先分析了各種輸入整形器的設(shè)計(jì)方法與優(yōu)缺點(diǎn),得出SI輸入整形器可以更好地達(dá)到目的要求;然后用強(qiáng)化學(xué)習(xí)的方法對傳統(tǒng)的SI輸入整形器進(jìn)行了改進(jìn),提出了一種基于強(qiáng)化學(xué)習(xí)的方法對SI輸入整形器進(jìn)行訓(xùn)練;最后通過大量訓(xùn)練得出最優(yōu)化的SI輸入整形器參數(shù)。結(jié)果表明,通過對比傳統(tǒng)SI輸入整形器和強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器的振動(dòng)抑制情況和時(shí)滯時(shí)間可以得出,本研究設(shè)計(jì)的強(qiáng)化學(xué)習(xí)優(yōu)化后的SI輸入整形器與傳統(tǒng)的SI輸入整形器相比,具有較強(qiáng)的魯棒性,并且在實(shí)際應(yīng)用中振動(dòng)抑制效果更為優(yōu)秀,可以快速、準(zhǔn)確地實(shí)現(xiàn)松果的識別與松果臨近枝干的精確打擊。