亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的有源中點(diǎn)鉗位逆變器效率優(yōu)化設(shè)計(jì)

        2023-10-17 01:15:20王佳寧楊仁海姚張浩謝綠偉
        電子與信息學(xué)報(bào) 2023年9期
        關(guān)鍵詞:效率優(yōu)化策略

        王佳寧 楊仁海 姚張浩 彭 強(qiáng) 謝綠偉

        (合肥工業(yè)大學(xué)電氣與自動化工程學(xué)院 合肥 230009)

        1 引言

        如何更快速、更好地設(shè)計(jì)電力電子變換器參數(shù)以提升變換器的整體性能一直是電力電子領(lǐng)域追求的目標(biāo)。傳統(tǒng)的電力電子變換器設(shè)計(jì)主要采用順序設(shè)計(jì)的階段優(yōu)化方法,但此類設(shè)計(jì)方法通常依賴于人工經(jīng)驗(yàn)。文獻(xiàn)[1]介紹了雙有源橋變換器效率-功率密度-成本的順序優(yōu)化設(shè)計(jì)方法,設(shè)計(jì)人員需要憑經(jīng)驗(yàn)預(yù)估相關(guān)數(shù)據(jù),或采用過設(shè)計(jì),這將無法從理論上保證裝置的整體性能達(dá)到最優(yōu)。文獻(xiàn)[2]提出了一種寬負(fù)載范圍下功率變換器效率的階段優(yōu)化方法,但該方法需要進(jìn)行繁瑣的數(shù)學(xué)公式推導(dǎo)過程和大量的人工試錯優(yōu)化過程,計(jì)算負(fù)擔(dān)重且耗時長。

        近年來,電力電子自動化設(shè)計(jì)可通過遺傳算法、粒子群算法、蟻群算法等元啟發(fā)式算法實(shí)現(xiàn)電力電子系統(tǒng)的優(yōu)化設(shè)計(jì)而受到了研究人員的廣泛關(guān)注[3–5],此類算法在一定范圍內(nèi)對設(shè)計(jì)變量進(jìn)行智能搜索,并計(jì)算優(yōu)化目標(biāo)值,最后得到非支配最優(yōu)設(shè)計(jì)目標(biāo)集供設(shè)計(jì)者選擇[6–8],降低了尋優(yōu)計(jì)算量。文獻(xiàn)[9]將人工神經(jīng)網(wǎng)絡(luò)和遺傳算法相結(jié)合對功率變換器的電路參數(shù)進(jìn)行設(shè)計(jì),避免了復(fù)雜繁瑣的建模過程,提高了設(shè)計(jì)速度。但如果變換器的設(shè)計(jì)需求發(fā)生改變,如功率等級、電壓等級等,該算法需要重新進(jìn)行整個優(yōu)化過程,耗時且不方便,這將會對實(shí)際的工業(yè)運(yùn)用造成障礙。

        為了克服元啟發(fā)式算法因設(shè)計(jì)需求改變帶來的尋優(yōu)耗時問題,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)因其能夠快速響應(yīng)環(huán)境狀態(tài)變化提供最優(yōu)決策得到了廣泛的應(yīng)用[10,11],但RL只能學(xué)習(xí)低維、離散的設(shè)計(jì)變量數(shù)據(jù)[11]。在深度學(xué)習(xí)的影響下,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法采用了基于人工神經(jīng)網(wǎng)絡(luò)的策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò),可以面向高維、連續(xù)的設(shè)計(jì)變量空間解決實(shí)際工業(yè)應(yīng)用中的各類優(yōu)化決策問題[12]。文獻(xiàn)[13]利用柔性行動器-評判器方法實(shí)現(xiàn)了電-氣綜合能源系統(tǒng)的優(yōu)化調(diào)度,文獻(xiàn)[14]和文獻(xiàn)[15]采用DDPG算法求解雙有源橋變換器三重移相控制策略的最優(yōu)移相控制角,實(shí)現(xiàn)了無功功率和效率的優(yōu)化。但上述研究主要是利用DRL求解能源與電力系統(tǒng)的最優(yōu)調(diào)度策略和從軟件層面優(yōu)化電力電子變換器的控制參數(shù),無法從硬件層面為變換器的系統(tǒng)設(shè)計(jì)提供思路,同時目前關(guān)于機(jī)器學(xué)習(xí)的電力電子變換器自動化設(shè)計(jì)鮮有研究。

        本文以三相三電平有源中點(diǎn)鉗位(Active Neutral Point Clamped, ANPC)逆變器為研究對象,提出了一種基于DRL的逆變器效率優(yōu)化設(shè)計(jì)方法。面向不同的設(shè)計(jì)需求,該方法均可以快速提供最大化效率的設(shè)計(jì)參數(shù),從系統(tǒng)硬件的角度為變換器的優(yōu)化設(shè)計(jì)提供了新的思路。本文首先介紹了基于DRL的逆變器效率優(yōu)化設(shè)計(jì)框架,然后對逆變器的效率進(jìn)行建模,并基于效率模型建立逆變器的環(huán)境模型,接著利用DDPG算法的智能體與環(huán)境模型不斷進(jìn)行交互和自學(xué)習(xí)以求解最小化損耗的決策策略,最后對DRL的優(yōu)化結(jié)果進(jìn)行性能評估,并搭建了ANPC逆變器的實(shí)驗(yàn)樣機(jī),實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性。

        2 基于DRL的逆變器效率優(yōu)化設(shè)計(jì)

        為了實(shí)現(xiàn)逆變器的效率優(yōu)化設(shè)計(jì),本文提出一種基于DRL的自學(xué)習(xí)優(yōu)化設(shè)計(jì)方法,利用DRL的DDPG算法建立靈活的優(yōu)化機(jī)制,該方法能夠快速響應(yīng)設(shè)計(jì)需求變化,提供最小化功率損耗的決策策略,其優(yōu)化設(shè)計(jì)框架如圖1所示。

        圖1 基于DRL的逆變器效率優(yōu)化設(shè)計(jì)框架

        首先,根據(jù)設(shè)計(jì)需求建立DDPG算法所要探索的逆變器環(huán)境模型,該環(huán)境模型主要包括效率建模,狀態(tài)Sen,動作Aen和獎勵Ren的設(shè)定。其中,狀態(tài)Sen代表逆變器的設(shè)計(jì)規(guī)格,如輸入電壓、功率等級等,動作Aen代表影響逆變器效率的設(shè)計(jì)變量,如開關(guān)頻率、器件參數(shù)等,獎勵Ren用于對施加在逆變器上的動作進(jìn)行打分,其主要與系統(tǒng)損耗有關(guān),然后利用DDPG算法的智能體與逆變器環(huán)境模型進(jìn)行交互學(xué)習(xí),不斷優(yōu)化動作,從而獲取最大化效率的優(yōu)化策略。

        在智能體與環(huán)境的交互過程中,效率優(yōu)化設(shè)計(jì)問題可表述為RL的馬爾可夫決策過程[16],即智能體在某一時刻的狀態(tài)(即設(shè)計(jì)規(guī)格)下采取動作(即設(shè)計(jì)變量)得到逆變器環(huán)境模型反饋的獎勵,并進(jìn)入下一狀態(tài)。智能體根據(jù)獎勵改進(jìn)下一時刻所要采取的動作,利用RL的優(yōu)化策略訓(xùn)練策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò),直到獲取的累計(jì)獎勵達(dá)到最大并收斂,從而可以根據(jù)策略網(wǎng)絡(luò)得到任意設(shè)計(jì)規(guī)格下的最優(yōu)設(shè)計(jì)變量實(shí)現(xiàn)效率最大化。

        3 三相三電平ANPC逆變器效率建模

        3.1 系統(tǒng)介紹

        根據(jù)第2節(jié)的逆變器效率優(yōu)化設(shè)計(jì)框架,本節(jié)將對三相三電平ANPC逆變器的效率進(jìn)行建模,其拓?fù)浣Y(jié)構(gòu)如圖2所示。其中,UDC為直流側(cè)輸入電壓,CDC為直流側(cè)支撐電容。以A相為例,Ta2和Ta3是高頻工作的SiC開關(guān)管,Ta1, Ta4, Ta5, Ta6是工頻工作的Si開關(guān)管,Da1~Da6是開關(guān)管的反并聯(lián)二極管,本文采用載波同相SPWM調(diào)制策略。LCL濾波器由濾波電感L1、濾波電感L2和濾波電容CAC組成,三相負(fù)載為電阻RL,ia, ib, ic分別是逆變器A相、B相、C相的輸出電流,且設(shè)其有效值為I,系統(tǒng)規(guī)格如表1所示。

        表1 三相三電平ANPC逆變器的系統(tǒng)規(guī)格

        圖2 三相三電平ANPC逆變器的拓?fù)浣Y(jié)構(gòu)

        由于直流側(cè)支撐電容和濾波電容產(chǎn)生的損耗在系統(tǒng)總損耗中所占的比例較小,故本文忽略兩者對系統(tǒng)總損耗的影響,將其作為固定參數(shù),同時將開關(guān)管的開關(guān)頻率fsw、濾波電感L1和濾波電感L2作為系統(tǒng)的設(shè)計(jì)參數(shù),其中L1和L2為非獨(dú)立的設(shè)計(jì)變量,濾波電感的設(shè)計(jì)與UDC, I, fsw和電流紋波系數(shù)有關(guān)[17]。

        3.2 損耗分析

        系統(tǒng)損耗由開關(guān)管損耗PT、電感損耗PL和其他損耗Pother組成。其中,其他損耗主要包括與溫度相關(guān)的SiC開關(guān)管通態(tài)損耗、直流側(cè)支撐電容損耗和濾波電容損耗,且由于其只占整體損耗很小的一部分,因此本文忽略其他損耗的影響,其他功率損耗分析如下所述。

        3.2.1 開關(guān)管損耗

        開關(guān)管損耗主要包括通態(tài)損耗Pcond、開關(guān)損耗Psw和驅(qū)動損耗Pg[18],具體的計(jì)算公式為

        其中,Rdson為開關(guān)管的通態(tài)電阻,Eon_nom和Eoff_nom分別為標(biāo)準(zhǔn)測試條件下系統(tǒng)中SiC開關(guān)管的開通損耗和關(guān)斷損耗,Qg為柵極電容電荷,Vgs為柵極驅(qū)動電壓。系統(tǒng)含有18個開關(guān)管,因此開關(guān)管損耗為

        3.2.2 電感損耗

        電感損耗由繞組銅損Pcop[19]和磁芯鐵損Pcore[20]組成。其中,由集膚效應(yīng)產(chǎn)生的交流繞組銅損忽略不計(jì),磁芯鐵損包括工頻電流和開關(guān)頻率次諧波電流產(chǎn)生的鐵損,可根據(jù)斯坦梅茨公式計(jì)算得到,計(jì)算公式為

        其中,Rcop為繞組的直流電阻,k, α, β為磁芯數(shù)據(jù)手冊中的斯坦梅茨參數(shù),Bm為磁通密度最大值,VL為單個濾波電感的體積。系統(tǒng)含有6個濾波電感,因此電感損耗為

        所以,整個三相三電平ANPC逆變器系統(tǒng)的總損耗Ptot為

        Ptot=PT+PL(5)

        綜上所述,系統(tǒng)效率η可通過系統(tǒng)總損耗Ptot和輸出功率Po計(jì)算得到,即

        4 基于DDPG算法的三相三電平ANPC逆變器效率優(yōu)化設(shè)計(jì)

        4.1 環(huán)境模型的關(guān)鍵變量

        由于逆變器輸入電壓、輸出電流和開關(guān)頻率對損耗有較大影響,且直流側(cè)輸入電壓和輸出電流有效值能夠反映逆變器的設(shè)計(jì)規(guī)格,所以環(huán)境模型的狀態(tài)和動作分別定義為

        為了給智能體交互過程中采取的動作進(jìn)行打分,需要根據(jù)采取動作后的逆變器損耗對智能體施加相應(yīng)的獎勵,而最大化獎勵可以轉(zhuǎn)化為最小化損耗,因此獎勵Ren為

        其中,?為獎勵系數(shù)且? > 0,它衡量對所采取動作的獎勵尺度。當(dāng)系統(tǒng)功率損耗逐漸降低時,獎勵將會逐漸增加,因此在DDPG算法中,智能體通過最大化獎勵實(shí)現(xiàn)效率的最大化。

        4.2 DDPG算法

        本文采用DDPG算法求解最小化損耗的開關(guān)頻率,利用智能體與環(huán)境交互學(xué)習(xí)獲取的經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練智能體,使其能夠在任意狀態(tài)下快速提供最優(yōu)動作實(shí)現(xiàn)效率最大化,整體的優(yōu)化設(shè)計(jì)框架如圖3所示。DDPG算法包括Actor策略網(wǎng)絡(luò)和Critic評價網(wǎng)絡(luò)兩部分,為了提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)穩(wěn)定性,每部分均包含在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),因此整個DDPG算法共涉及4個神經(jīng)網(wǎng)絡(luò):在線策略網(wǎng)絡(luò)μ、目標(biāo)策略網(wǎng)絡(luò)μ′、在線評價網(wǎng)絡(luò)Q和目標(biāo)評價網(wǎng)絡(luò)Q′[12]。首先,在t時刻的狀態(tài)st= (UDC, I)t下,通過策略網(wǎng)絡(luò)得到動作at= (fsw)t,將其輸入至逆變器環(huán)境模型中,得到此時的獎勵rt= (–φ·Ptot)t和下一狀態(tài)st+1,然后將狀態(tài)轉(zhuǎn)換序列(st, at, rt, st+1)存入經(jīng)驗(yàn)回放池,最后根據(jù)小批量采樣策略隨機(jī)抽取N組數(shù)據(jù)訓(xùn)練策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)。其中,動作at由式(10)計(jì)算得到

        圖3 基于DDPG算法的ANPC逆變器效率優(yōu)化設(shè)計(jì)框架

        其中,μ(st)為在線策略網(wǎng)絡(luò)μ輸出的動作,δt為標(biāo)準(zhǔn)正態(tài)分布噪聲,可以避免優(yōu)化過程陷入局部最優(yōu)。

        在線評價網(wǎng)絡(luò)Q和在線策略網(wǎng)絡(luò)μ分別通過誤差反向傳播算法和確定性策略梯度定理進(jìn)行參數(shù)更新,目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)評價網(wǎng)絡(luò)Q′通過滑動平均方法進(jìn)行參數(shù)更新[12],如式(11)、式(12)和式(13)所示

        其中,yi為由目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)評價網(wǎng)絡(luò)Q′產(chǎn)生的目標(biāo)評分值,L為損失函數(shù),基于誤差反向傳播算法可以得到L相對于θQ的梯度?θQL,從而對參數(shù)θQ進(jìn)行優(yōu)化更新。Q(s, a|θQ)為動作值函數(shù),μ(s|θμ) 為在線策略網(wǎng)絡(luò)μ輸 出的策略。和分別為更新后的目標(biāo)策略網(wǎng)絡(luò)μ′參數(shù)和目標(biāo)評價網(wǎng)絡(luò)Q′參數(shù),τ為滑動平均更新參數(shù),且通常取值為0.001。通過不斷采樣經(jīng)驗(yàn)回放池的狀態(tài)轉(zhuǎn)換序列數(shù)據(jù),利用誤差反向傳播算法和確定性策略梯度定理按照最大化獎勵的目標(biāo)迭代訓(xùn)練策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò),最終得到優(yōu)化的策略網(wǎng)絡(luò),輸入任意狀態(tài)便能立即輸出動作使得智能體獲得最大獎勵,從而實(shí)現(xiàn)效率優(yōu)化設(shè)計(jì)。

        4.3 DDPG算法的訓(xùn)練結(jié)果

        在正式訓(xùn)練之前,需要對DDPG算法的關(guān)鍵參數(shù)進(jìn)行設(shè)置,如表2所示。另外,策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)均包含1個隱藏層,隱藏層神經(jīng)元個數(shù)分別為6和3,最大訓(xùn)練回合數(shù)M為5 000,每個訓(xùn)練回合包含的步數(shù)T為20,詳細(xì)的算法訓(xùn)練流程可參考文獻(xiàn)[12]。

        表2 DDPG算法的關(guān)鍵參數(shù)

        通過大量的迭代訓(xùn)練,圖4(a)和圖4(b)分別為DDPG算法訓(xùn)練過程中平均累計(jì)獎勵和平均動作的變化情況,兩者均為每個訓(xùn)練回合內(nèi)20步的平均值。從圖4可以看出,在訓(xùn)練過程的前期階段,平均累計(jì)獎勵和平均動作均比較小,這是因?yàn)橹悄荏w在前期探索階段隨機(jī)執(zhí)行動作,與環(huán)境進(jìn)行交互并收集經(jīng)驗(yàn)數(shù)據(jù),策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)的參數(shù)暫未更新。當(dāng)經(jīng)驗(yàn)回放池里的數(shù)據(jù)達(dá)到最大容量后,網(wǎng)絡(luò)參數(shù)開始更新,智能體逐漸學(xué)習(xí)到最小化損耗的優(yōu)化策略,平均累計(jì)獎勵和平均動作逐漸增加并收斂。訓(xùn)練過程結(jié)束后,便得到優(yōu)化的策略網(wǎng)絡(luò),在狀態(tài)空間內(nèi)向策略網(wǎng)絡(luò)輸入任意狀態(tài),便能得到最優(yōu)的動作。

        圖4 DDPG算法訓(xùn)練過程中平均累計(jì)獎勵和平均動作的變化情況

        5 優(yōu)化效果評估

        根據(jù)DDPG算法訓(xùn)練完成的策略網(wǎng)絡(luò)能夠得到逆變器不同狀態(tài)下的開關(guān)頻率優(yōu)化結(jié)果。同時通過遍歷法能夠確定唯一的開關(guān)頻率使得系統(tǒng)總損耗最小,因此遍歷法的優(yōu)化結(jié)果可以被視為最優(yōu)值。選取逆變器的5個狀態(tài),將DRL的開關(guān)頻率優(yōu)化結(jié)果與遍歷法、遺傳算法和RL進(jìn)行對比,如表3所示,其中,遍歷法所選取的開關(guān)頻率步長為Δfsw=100 Hz,遺傳算法采用了NSGA-II算法,RL采用的算法是Q-learning算法[16]。根據(jù)表3的優(yōu)化結(jié)果計(jì)算得到5種狀態(tài)下的開關(guān)管損耗、電感損耗、總損耗和效率,如圖5所示。

        表3 不同狀態(tài)下的開關(guān)頻率優(yōu)化結(jié)果對比

        圖5 不同優(yōu)化方法之間的功率損耗和效率優(yōu)化結(jié)果對比

        由圖5(a)和圖5(b)可以發(fā)現(xiàn):5個狀態(tài)下DRL和遍歷法優(yōu)化后的開關(guān)管損耗均小于遺傳算法和RL,且遺傳算法優(yōu)化后的開關(guān)管損耗最大;而DRL和遍歷法的電感損耗曲線均高于遺傳算法和RL,這主要是因?yàn)檫z傳算法和RL優(yōu)化后的開關(guān)頻率均大于DRL和遍歷法。與遍歷法相比,5個狀態(tài)下DRL的開關(guān)管損耗和電感損耗的誤差百分比平均值分別為2.83%和9.63%,分別低于遺傳算法的10.52%和21.83%以及RL的5.84%和14.79%。同時通過圖5(c)可以看出DRL的總損耗曲線均低于遺傳算法和RL,3種方法相比于遍歷法的總損耗誤差百分比平均值依次為0.31%, 3.32%和1.26%。圖5(d)為5個狀態(tài)下4種優(yōu)化方法的效率優(yōu)化結(jié)果對比圖,可以看出DRL的效率曲線均高于遺傳算法和RL,且更接近于遍歷法的效率曲線,3種方法相比于遍歷法的效率誤差平均值依次為0.004%, 0.042%和0.016%。因此,相比于遺傳算法和RL, DRL的優(yōu)化結(jié)果更接近于遍歷法,且5個狀態(tài)下DRL優(yōu)化后的效率均大于遺傳算法和RL。

        改變DDPG算法的狀態(tài)空間范圍為400 V ≤ UDC≤600 V, 20 A ≤ I ≤ 60 A,然后重新進(jìn)行訓(xùn)練,并得到低功率等級下4種方法的開關(guān)頻率優(yōu)化結(jié)果。通過計(jì)算得到3種電壓等級、2種電流等級下詳細(xì)的功率損耗分布,如圖6所示,其中UDC分別取值為400 V, 500 V, 600 V,I分別取值為30 A, 50 A;功率損耗包括通態(tài)損耗Pcond、開關(guān)損耗Psw、驅(qū)動損耗Pg、繞組銅損Pcop和磁芯鐵損Pcore。

        圖6 不同優(yōu)化方法之間詳細(xì)的功率損耗對比

        以圖6(a)為例進(jìn)行分析,3種電壓等級下不同方法之間的通態(tài)損耗、驅(qū)動損耗和磁芯鐵損均相近。遺傳算法的開關(guān)損耗較大,繞組銅損較小,而RL的開關(guān)損耗較小,繞組銅損較大。通過對比,3種電壓等級下DRL的開關(guān)損耗和繞組銅損更接近于遍歷法。這主要是因?yàn)檫z傳算法優(yōu)化后的開關(guān)頻率較大,RL的開關(guān)頻率較小,而DRL的開關(guān)頻率更加接近于遍歷法。相比于遍歷法,遺傳算法、RL和DRL優(yōu)化后的各部分功率損耗如表4所示,3種電壓等級下DRL的損耗誤差百分比平均值分別為7.73%, 4.90%和4.29%,在大多數(shù)情況下均低于遺傳算法和RL??傮w而言,DRL優(yōu)化后的各部分損耗更接近于遍歷法的優(yōu)化結(jié)果。

        表4 I = 30 A時,相比于遍歷法,其他優(yōu)化方法的各部分功率損耗對比

        通過詳細(xì)對比不同方法優(yōu)化后的功率損耗和效率,DRL與遍歷法的優(yōu)化結(jié)果更相近,所以DRL具有更好的優(yōu)化性能,能夠最大化系統(tǒng)的效率,且DRL優(yōu)化后的效率大于遺傳算法和RL優(yōu)化后的效率。同時,在表2的參數(shù)設(shè)置下,DRL的整個訓(xùn)練過程耗時約40 min,優(yōu)化后的策略網(wǎng)絡(luò)可以面向狀態(tài)空間內(nèi)的任一狀態(tài)在3 s內(nèi)輸出優(yōu)化動作。當(dāng)采用遍歷法時,每個狀態(tài)的優(yōu)化過程耗時約110 s。RL的訓(xùn)練過程耗時約為53 min,每個狀態(tài)輸出動作的耗時約為3.5 s。對于遺傳算法,單個狀態(tài)的程序運(yùn)行時間約為5 926.3 s。另外,以上4種方法的程序代碼均運(yùn)行在Win 10操作系統(tǒng)上,CPU型號為AMD Ryzen 5 3600X @3.8 GHz。

        為了驗(yàn)證DRL優(yōu)化策略的快速性,根據(jù)表2的狀態(tài)空間取值范圍,以ΔUDC= 10 V和ΔI = 10 A為變量步長共選取40個設(shè)計(jì)規(guī)格,圖7為不同方法完成多個設(shè)計(jì)規(guī)格的逆變器優(yōu)化設(shè)計(jì)的優(yōu)化耗時對比。從圖7可以看出,任意設(shè)計(jì)規(guī)格數(shù)量下遺傳算法的優(yōu)化耗時均高于另外3種方法,通過局部放大圖可以發(fā)現(xiàn)RL的優(yōu)化耗時均高于DRL,當(dāng)設(shè)計(jì)規(guī)格數(shù)量小于或等于22時,DRL的優(yōu)化耗時高于遍歷法,但當(dāng)設(shè)計(jì)規(guī)格數(shù)量大于22時,DRL的優(yōu)化耗時逐漸低于遍歷法,且基本保持不變,即DRL不會因?yàn)樵O(shè)計(jì)規(guī)格數(shù)量的增加而大幅增加優(yōu)化耗時,同時DRL的優(yōu)化耗時遠(yuǎn)低于遺傳算法,因此DRL能夠快速響應(yīng)設(shè)計(jì)規(guī)格變化,輸出最優(yōu)的設(shè)計(jì)參數(shù)。

        圖7 不同方法之間的優(yōu)化耗時對比

        綜上所述,本文基于DRL的效率優(yōu)化設(shè)計(jì)方法既能最大化系統(tǒng)效率,又能快速響應(yīng)設(shè)計(jì)規(guī)格變化提供最優(yōu)設(shè)計(jì)變量,建立了靈活的效率優(yōu)化機(jī)制。

        6 實(shí)驗(yàn)驗(yàn)證

        為了驗(yàn)證DRL的有效性,本文搭建了額定功率為140 kW的三相三電平ANPC逆變器的實(shí)驗(yàn)樣機(jī),如圖8所示。其中LCL濾波器位于電磁兼容(Electro Magnetic Compatibility, EMC)板的下方,CDC位于直流源的下方。由于實(shí)驗(yàn)條件有限,本文將實(shí)驗(yàn)樣機(jī)運(yùn)行在4種低功率等級下,根據(jù)DRL、遍歷法、遺傳算法和RL得到相應(yīng)的開關(guān)頻率優(yōu)化結(jié)果,在此優(yōu)化結(jié)果的工作條件下,采用型號為WT3000E的功率分析儀實(shí)測樣機(jī)的效率,實(shí)驗(yàn)測試條件如表5所示,不同優(yōu)化方法的理論效率和實(shí)測效率對比結(jié)果如圖9所示。

        表5 實(shí)驗(yàn)樣機(jī)的測試條件

        圖8 三相三電平ANPC逆變器實(shí)驗(yàn)樣機(jī)

        圖9 不同優(yōu)化方法的理論效率與實(shí)測效率

        從圖9可以看出,隨著直流側(cè)輸入電壓UDC的增加,系統(tǒng)的效率逐漸增加,4種優(yōu)化方法的效率測量值及理論值的變化趨勢相同。由于開關(guān)頻率優(yōu)化結(jié)果存在誤差,DRL的效率理論值略小于遍歷法的效率理論值,4種電壓等級下兩者效率理論值的平均相對誤差為0.005%,同時DRL的理論效率曲線均高于遺傳算法和RL的理論效率曲線。高頻磁芯鐵損計(jì)算誤差的存在,以及未考慮的其他損耗的影響,使得遍歷法、遺傳算法、RL和DRL的效率測量值均小于其理論值,效率測量值與理論值之間的平均相對誤差依次約為0.145%, 0.168%, 0.165%和0.153%。另外,與遍歷法相比,4種電壓等級下DRL的效率測量值均較小,平均相對誤差約為0.013%;而相比于遺傳算法和RL, DRL的效率測量值均較大,平均相對誤差分別為0.025%和0.025%。

        根據(jù)上述分析,DRL的效率測量值和理論值均接近于遍歷法,且大于遺傳算法和RL的效率測量值和理論值。實(shí)驗(yàn)測量結(jié)果與理論計(jì)算結(jié)果基本吻合,兩者的誤差來源于忽略不計(jì)的其他損耗和計(jì)算誤差。因此,本文提出的DRL優(yōu)化設(shè)計(jì)方法能夠最大化系統(tǒng)的效率,同時可以快速提供任意設(shè)計(jì)規(guī)格下的最優(yōu)設(shè)計(jì)參數(shù),打破了傳統(tǒng)算法優(yōu)化設(shè)計(jì)過程耗時、計(jì)算量大以及無法快速響應(yīng)設(shè)計(jì)需求變化的局限性。

        7 結(jié)束語

        本文提出一種基于DRL的ANPC逆變器效率優(yōu)化設(shè)計(jì)方法。具體地說,通過DDPG算法與三相三電平ANPC逆變器環(huán)境模型進(jìn)行不斷交互,利用交互過程中獲得的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行自學(xué)習(xí),逐漸改進(jìn)智能體的動作決策以最小化功率損耗,從而獲得最大化效率的決策策略。首先,介紹了基于DRL的逆變器效率優(yōu)化設(shè)計(jì)框圖;其次對逆變器的效率進(jìn)行建模,并采用DDPG算法求解最小化功率損耗的開關(guān)頻率;然后將DRL的優(yōu)化結(jié)果與遍歷法、遺傳算法和RL進(jìn)行優(yōu)化性能對比;最后搭建了三相三電平ANPC逆變器的實(shí)驗(yàn)樣機(jī)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文基于DRL的優(yōu)化策略能夠最大化系統(tǒng)的效率。

        綜上所述,本文以三相三電平ANPC逆變器的效率為設(shè)計(jì)指標(biāo),利用DRL的DDPG算法建立了靈活、快速的優(yōu)化機(jī)制,且通過實(shí)驗(yàn)驗(yàn)證了優(yōu)化策略的有效性。相比于遺傳算法和RL,實(shí)測效率平均提高了0.025%和0.025%。面向不同的逆變器設(shè)計(jì)規(guī)格,該優(yōu)化策略均可以快速提供最優(yōu)的設(shè)計(jì)參數(shù)實(shí)現(xiàn)效率最大化,從系統(tǒng)硬件的角度為電力電子變換器的優(yōu)化設(shè)計(jì)提供了新的思路和方法,在電力電子變換器設(shè)計(jì)領(lǐng)域開展了有益的嘗試。

        猜你喜歡
        效率優(yōu)化策略
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        提升朗讀教學(xué)效率的幾點(diǎn)思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        跟蹤導(dǎo)練(一)2
        “錢”、“事”脫節(jié)效率低
        亚洲av无码国产精品色午夜字幕| 国产丝袜美腿诱惑在线观看| 福利视频黄| AV在线中出| 日本师生三片在线观看| 国产精品99精品久久免费| 国产无遮挡又黄又爽又色| 亚洲狼人社区av在线观看| 日本午夜a级理论片在线播放| 人人妻人人添人人爽欧美一区 | 精品综合久久久久久99| 中文字幕一区乱码在线观看| 亚洲av无码专区在线| 永久免费的av在线电影网无码| 欧美精品日韩一区二区三区| 中文字幕在线亚洲精品一区| 欧美牲交a欧美牲交aⅴ| 亚洲乱码日产精品bd在线观看| 免费大学生国产在线观看p| 日本在线观看一二三区| 东京道一本热中文字幕| 免费的毛片视频| 日韩在线精品视频免费| 蜜桃精品人妻一区二区三区| 中文日韩亚洲欧美制服| 91爱爱视频| 看一区二区日本视频免费| 免费无码一区二区三区a片百度| 国内精品久久久久久久影视麻豆| 少妇av免费在线播放| 日本免费在线一区二区三区| 五月综合激情婷婷六月色窝| 亚洲中文字幕无码二区在线| 在线观看视频国产一区二区三区| 国产精品女同久久久久电影院| 波多野吉衣av无码| 一区二区特别黄色大片| 黄色av亚洲在线观看| 国产麻豆精品久久一二三| 亚洲无码性爱视频在线观看| 亚洲在线精品一区二区三区|