亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于強(qiáng)化學(xué)習(xí)的絞吸挖泥船施工參數(shù)智能自主尋優(yōu)方法研究

        2022-09-20 00:49:04魯嘉俊楊波徐婷
        中國港灣建設(shè) 2022年8期
        關(guān)鍵詞:產(chǎn)量智能方法

        魯嘉俊,楊波,徐婷

        (中交疏浚技術(shù)裝備國家工程研究中心有限公司,上海 201208)

        0 引言

        絞吸挖泥船是挖泥船中挖掘土質(zhì)最廣泛,排岸距離變化最大的一種吸揚(yáng)式挖泥船[1]。目前,我國絞吸挖泥船的疏浚作業(yè)基本還停留在手工操作模式,在疏浚作業(yè)過程中,作業(yè)參數(shù)主要由操作人員根據(jù)自己的經(jīng)驗(yàn)、試挖情況以及挖泥船的實(shí)際作業(yè)效果靈活確定[2]。為了降低人工成本并提升疏浚效率,丁樹友等[3]開發(fā)了絞吸挖泥船智能型無人操控自動挖泥控制系統(tǒng)軟件,軟件功能包含集成監(jiān)控功能與自動挖泥功能兩部分,實(shí)現(xiàn)了疏浚作業(yè)過程的無人操控,但缺乏疏浚參數(shù)的自主尋優(yōu)功能。Changyun Wei等提出了一種基于強(qiáng)化學(xué)習(xí)的絞吸式挖泥船智能優(yōu)化控制策略,利用神經(jīng)網(wǎng)絡(luò)的泛化能力建立橫移過程的動態(tài)模型,分別采用強(qiáng)化學(xué)習(xí)Sarsa算法[4]和Sarsa-Lambda算法[5]開發(fā)絞吸船擺動過程中的智能決策方法,并仿真驗(yàn)證了強(qiáng)化學(xué)習(xí)方法能成功模仿經(jīng)驗(yàn)豐富的人工操作員的疏浚行為。但Sarsa算法和Sarsa-Lambda算法均受限于緩慢的收斂速度,且對狀態(tài)空間要求必須是離散的且空間較小。相關(guān)的研究還有利用強(qiáng)化學(xué)習(xí)的智能體感知環(huán)境并經(jīng)過自學(xué)習(xí)選擇絞吸挖泥船橫移過程的最優(yōu)動作[6],基于深度強(qiáng)化學(xué)習(xí)的絞吸挖泥船橫移過程控制方法[7],橫移過程線性二次型產(chǎn)量最優(yōu)控制方法[8]等,但以上研究均只考慮了疏浚過程的橫移問題。

        本文利用強(qiáng)化學(xué)習(xí)policy gradient算法在連續(xù)動作空間中更高效、收斂速度快的優(yōu)勢,提出了一種基于強(qiáng)化學(xué)習(xí)的絞吸式挖泥船施工參數(shù)自主尋優(yōu)方法。利用機(jī)器學(xué)習(xí)的方法尋求疏浚過程的最佳作業(yè)參數(shù),實(shí)現(xiàn)疏浚過程的自主分析與決策,可為疏浚技術(shù)的智能化發(fā)展提供思路參考[9]。

        1 絞吸船強(qiáng)化學(xué)習(xí)模型設(shè)計(jì)

        1.1 絞吸挖泥船理論模型

        絞吸挖泥船是疏浚工程中使用數(shù)量最多的挖泥船,在疏浚施工中,瞬時產(chǎn)量是評價挖泥船性能最重要的指標(biāo)之一,其直接決定了疏浚工程的效益[10]。絞吸挖泥船的瞬時產(chǎn)量計(jì)算公式為:

        式中:W為瞬時產(chǎn)量;r為排泥管直徑;v為管道流速;Cw為泥漿濃度。其中管道流速在挖泥過程中變化較小,所以泥漿濃度可直接反映產(chǎn)量情況。在疏浚作業(yè)中,泥漿濃度由絞刀切削泥土的體積量決定。

        在挖掘過程中,實(shí)際切削的體積與縱向切泥厚度(由臺車推進(jìn)距離決定)、垂直切泥厚度(由斗橋位置決定)和橫移速度有關(guān):

        式中:Vc為單位時間泥沙體積量;Bc為切削寬度,又稱為縱向切泥厚度;Dc為切削深度,又稱為垂直方向切泥厚度;Vs為挖泥船的橫移速度,在傳感器采集數(shù)據(jù)中主要表現(xiàn)為左/右橫移絞車轉(zhuǎn)速或左/右橫移繩速。

        在正常疏浚情況下,單位時間內(nèi)絞刀切削泥沙體積按式(3)進(jìn)行換算:

        式中:K為絞刀挖掘系數(shù),取0.8~0.9[11];Vm為單位時間進(jìn)入管道的泥沙體積。在管道輸送中水下泵轉(zhuǎn)速和甲板泵或艙內(nèi)泵轉(zhuǎn)速也會對泥沙輸送流速產(chǎn)生一定的影響。

        通過式(1)~式(3)可知絞刀轉(zhuǎn)速、橫移速度、泥泵轉(zhuǎn)速、步進(jìn)距離、橋架下放深度等均對瞬時產(chǎn)量產(chǎn)生影響。但在實(shí)際施工過程中,現(xiàn)場作業(yè)環(huán)境多變,控制參數(shù)與實(shí)際操作下輸出量的關(guān)系不明確,難以用傳統(tǒng)的理論研究和數(shù)學(xué)物理方法搭建絞吸挖泥船的疏浚作業(yè)過程模型[12]。而通過強(qiáng)化學(xué)習(xí)的方法來開展相關(guān)研究并建立其仿真環(huán)境模型,然后利用強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)能力獲取知識,改進(jìn)行動方案并適應(yīng)環(huán)境,具備較強(qiáng)的優(yōu)勢。

        1.2 強(qiáng)化學(xué)習(xí)Policy Gradient算法

        Policy Gradient算法是一種基于策略的算法[13],相對于基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法通過引入動作價值函數(shù)Q(s,a),策略梯度(Policy Gradient,PG)采用回合更新的方式,通過不斷調(diào)整參數(shù)θ實(shí)現(xiàn)策略πθ(s,a)的優(yōu)化更新,收斂速度更快[14]。

        為了評估不同參數(shù)對策略πθ(s,a)的影響,引入目標(biāo)函數(shù),目標(biāo)函數(shù)的值越大,模型質(zhì)量越高。目標(biāo)函數(shù)主要有3種形式:使用初始狀態(tài)的期望為優(yōu)化目標(biāo)(式(4));對于連續(xù)性任務(wù),沒有明確的初始狀態(tài),優(yōu)化目標(biāo)是平均價值(式(5));將每一時間步的平均獎勵作為優(yōu)化目標(biāo)(式(6))。

        本次研究采用式(6)作為目標(biāo)函數(shù)。在策略函數(shù)πθ的設(shè)計(jì)上,采用連續(xù)動作空間的高斯策略(Gaussian Policy):

        J(θ)考慮單步的馬爾科夫過程,R(s,a)考慮獎勵函數(shù),對目標(biāo)函數(shù)求導(dǎo)得到式(8),即對目標(biāo)函數(shù)J(θ)求導(dǎo)最終轉(zhuǎn)化為對策略πθ求梯度。在Policy Gradient算法中,策略πθ按式(9)進(jìn)行參數(shù)更新:

        2 基于強(qiáng)化學(xué)習(xí)的絞吸挖泥船疏浚參數(shù)自主尋優(yōu)方法

        2.1 數(shù)據(jù)預(yù)處理

        1)kalman濾波

        絞吸挖泥船上的大部分信號采集裝置在信號產(chǎn)生、轉(zhuǎn)換、傳輸?shù)母鱾€環(huán)節(jié)中易受供電電源及現(xiàn)場施工條件干擾,導(dǎo)致這些信號點(diǎn)存儲的數(shù)據(jù)中包含噪聲和干擾信號,因此有必要對采集的實(shí)船數(shù)值進(jìn)行濾波。在濾波方法的選擇上,本次研究嘗試卡爾曼濾波、移動平均濾波、中值濾波、維納濾波等多種方法。對比發(fā)現(xiàn)卡爾曼相比其他濾波方法更為平穩(wěn),能夠剔除尖刺并反映樣本的整體趨勢。

        2)數(shù)據(jù)切割

        絞吸挖泥船在步進(jìn)和換樁過程中,瞬時產(chǎn)量是偏低的。為了更精確分析絞吸挖泥船的瞬時產(chǎn)量,篩選出橫移周期內(nèi)的有效數(shù)據(jù),本次研究采用自動搜索算法尋找絞刀至右邊線距離的所有谷/峰值,在圖1中用圓圈進(jìn)行標(biāo)記。然后用閾值過濾非正常的點(diǎn),即絞刀頭到邊線上距離小于5 m,或者大于85 m的時段,并取相鄰峰谷值之間的時間作為一個橫移周期。

        圖1 橫移周期選取Fig.1 Selection of traverse period

        2.2 瞬時產(chǎn)量時滯分析

        建立管道內(nèi)的流速分布函數(shù),根據(jù)管道長度及流速的動態(tài)變化分別計(jì)算出泥水混合物通過吸入管、連接管、豎直管的時間,得到瞬時產(chǎn)量的時間延遲為31 s。然后隨機(jī)選取500 s連續(xù)數(shù)據(jù),驗(yàn)證瞬時產(chǎn)量的延時時間,結(jié)果見圖2。其中瞬時產(chǎn)量值為時間往前拉31 s的產(chǎn)量值,圖中可見真空度與后31 s的瞬時產(chǎn)量相關(guān)性較高,且變化趨勢一致。

        圖2 瞬時產(chǎn)量時滯分析圖Fig.2 Time-delay analysis of instantaneous production

        2.3 強(qiáng)化學(xué)習(xí)環(huán)境模型構(gòu)建

        在疏浚施工過程中,影響絞吸挖泥船瞬時產(chǎn)量的因素眾多,本次研究將重點(diǎn)放在疏浚員能操縱的控制變量上,在瞬時產(chǎn)量影響因素的特征篩選中使用信息增益率的方法[15]對傳感器采集的數(shù)據(jù)樣本進(jìn)行降維。信息增益是指添加了信息之后能增加多少收益,也即增加信息之后能減少多少不確定性。信息增益率在信息增益的基礎(chǔ)上,除以一個分裂信息量,計(jì)算節(jié)點(diǎn)上樣本總的信息熵。信息增益率方法經(jīng)常被用來判斷變量的重要性,利用該方法篩選出和瞬時產(chǎn)量密切相關(guān)并可人工調(diào)控的參數(shù)為水下泵轉(zhuǎn)速、甲板泵或艙內(nèi)泵轉(zhuǎn)速、絞刀轉(zhuǎn)速、左橫移繩速和右橫移繩速。各控制變量的信息增益率見表1。

        表1 各控制變量信息增益率Table 1 Information gain rate of control variables

        篩選出控制變量后,定義動作區(qū)間action=[水下泵轉(zhuǎn)速,甲板泵或艙內(nèi)泵轉(zhuǎn)速,絞刀轉(zhuǎn)速,左橫移繩速,右橫移繩速],即強(qiáng)化學(xué)習(xí)中智能體可以控制的變量。同時,設(shè)置各控制參數(shù)的上下限區(qū)間。該動作區(qū)間為連續(xù)動作空間,可以滿足動作區(qū)間完備性、高效性、合法性的要求。

        強(qiáng)化學(xué)習(xí)智能體執(zhí)行當(dāng)前動作作用到環(huán)境,環(huán)境反饋對應(yīng)狀態(tài)值,并將其與獎勵值反饋智能體,與此同時環(huán)境轉(zhuǎn)移到下一個狀態(tài)。由此得到強(qiáng)化學(xué)習(xí)的行動狀態(tài)序列:

        獎懲函數(shù)的定義見式(11):

        式中:R表示智能體執(zhí)行動作所獲得的獎勵值,即對當(dāng)前動作好壞的評價;O代表絞吸船瞬時產(chǎn)量,瞬時產(chǎn)量越高學(xué)習(xí)系統(tǒng)得到的獎勵值相對也越高;D為該時刻的控制參數(shù)與上一時刻控制參數(shù)的歐氏距離偏差,加入此變量是為了限制兩次輸入信號之間的變化幅度,防止控制參數(shù)劇烈跳變;Dc為D的乘數(shù)項(xiàng)系數(shù),默認(rèn)值為100;Pf定義為懲罰函數(shù),若系統(tǒng)控制變量超限,則給予智能體懲罰值。

        2.4 強(qiáng)化學(xué)習(xí)仿真結(jié)果與分析

        本次學(xué)習(xí)共選取7萬個實(shí)船數(shù)據(jù)點(diǎn),設(shè)置訓(xùn)練回合數(shù)1000,折扣率γ=0.99。隨著訓(xùn)練進(jìn)行,好的動作被選取的概率逐漸增大,不好的動作慢慢淘汰,同時獎勵值漸漸上升,代表著智能體在自學(xué)習(xí)過程中逐步獲得最佳施工參數(shù)。

        機(jī)器學(xué)習(xí)中每回合獎勵值變化見圖3。

        圖3 獎勵值變化圖Fig.3 Reward value change chart

        訓(xùn)練結(jié)束后,通過控制仿真試驗(yàn)得到強(qiáng)化學(xué)習(xí)控制結(jié)果,與實(shí)際人工操作進(jìn)行對比,結(jié)果見圖4。1)瞬時產(chǎn)量對比圖4(a):采用強(qiáng)化學(xué)習(xí)最優(yōu)參數(shù)控制的瞬時產(chǎn)量比人工操作時高,且可將瞬時產(chǎn)量值維持在高點(diǎn),可以穩(wěn)定有效提高挖泥船的疏浚產(chǎn)量;2)水下泵轉(zhuǎn)速對比圖4(b):與人工操作相比,強(qiáng)化學(xué)習(xí)推薦的水下泵轉(zhuǎn)速波動更小,基本穩(wěn)定保持在228和232之間;3)甲板泵或艙內(nèi)泵轉(zhuǎn)速對比圖4(c):強(qiáng)化學(xué)習(xí)推薦的甲板泵或艙內(nèi)泵轉(zhuǎn)速普遍低于人工操作水平,能耗較小;4)絞刀轉(zhuǎn)速對比圖4(d):相比人工操作,強(qiáng)化學(xué)習(xí)推薦的絞刀轉(zhuǎn)速更加穩(wěn)定高效;5)左橫移繩速對比圖4(e):強(qiáng)化學(xué)習(xí)推薦的左橫移繩速無劇烈波動,從長期時間來看,左橫移繩速基本在[2,18]之間,而人工控制的左橫移繩速區(qū)間在[0,25],且時常出現(xiàn)跳變的情形;6)右橫移繩速對比圖4(f):同左橫移繩速。

        圖4 模型控制與人工操作結(jié)果對比圖Fig.4 Results comparison of model control and manual operation

        3 結(jié)語

        1)同種工況下,采用智能自主尋優(yōu)的疏浚參數(shù)可以使瞬時產(chǎn)量高于人工操作的平均水平,且泥泵、絞刀和橫移絞車的參數(shù)變化更加平緩,效率更優(yōu)。該智能自主尋優(yōu)方法可為絞吸挖泥船實(shí)現(xiàn)智能疏浚提供理論依據(jù)和技術(shù)參考。

        2)為了保障施工安全,設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境模型中控制參數(shù)的上下限區(qū)間,添加控制變量超限的懲罰函數(shù),由此使得強(qiáng)化學(xué)習(xí)推薦的最佳施工參數(shù)均位于安全區(qū)間。

        3)尋優(yōu)后的參數(shù)能快速響應(yīng)動態(tài)的環(huán)境變化,深層次原因是智能體能夠評估當(dāng)前狀態(tài),并尋找使得未來回報(bào)最大化的策略,從而靈活調(diào)整控制參數(shù),使得預(yù)期收益最大化。相比而言,操作員決策依賴于操作面板的數(shù)據(jù),缺少對未來的預(yù)測判斷。

        4)下一步計(jì)劃研究多船多工況下絞吸挖泥船的智能優(yōu)化控制方法,并在實(shí)船中應(yīng)用。

        猜你喜歡
        產(chǎn)量智能方法
        2022年11月份我國鋅產(chǎn)量同比增長2.9% 鉛產(chǎn)量同比增長5.6%
        今年前7個月北海道魚糜產(chǎn)量同比減少37%
        海水稻產(chǎn)量測評平均產(chǎn)量逐年遞增
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        2018上半年我國PVC產(chǎn)量數(shù)據(jù)
        聚氯乙烯(2018年9期)2018-02-18 01:11:34
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        婷婷综合五月| 成人国产一区二区三区| 国产乱了真实在线观看| 久久婷婷综合色丁香五月| 毛片一级精油按摩无码| 亚洲av手机在线观看| 亚洲av成人无码久久精品老人| 国产成人无码一区二区在线观看| 国精品无码一区二区三区在线看| 99久久精品国产一区色| 久久熟妇少妇亚洲精品| 国产精品免费精品自在线观看| 国内精品伊人久久久久av| 97自拍视频国产在线观看| 蜜桃视频在线免费观看| 亚洲综合自拍偷拍一区| 国产伦精品免编号公布| 国产精品18久久久久久麻辣| 亚洲国产精品一区二区第四页 | 射死你天天日| av狼人婷婷久久亚洲综合| 亚洲一区二区三区精品久久av| 狠狠摸狠狠澡| 欧美日本国产va高清cabal| 免费国产调教视频在线观看| 大屁股流白浆一区二区三区| 国产亚洲专区一区二区| 无套内谢老熟女| 国产成人精品一区二区视频| 男人深夜影院无码观看| 一二三四在线观看视频韩国| 正在播放强揉爆乳女教师| 欧美丰满熟妇bbbbbb百度| 激情五月婷婷六月俺也去| 日韩三级一区二区三区| 久久久久香蕉国产线看观看伊| 九九九影院| 懂色av一区二区三区网久久 | 国产无人区码一码二码三mba| 中文字幕一区二区三区四区在线| 青青草视频视频在线观看|