收稿日期:2022-08-15
基金項(xiàng)目:電網(wǎng)輸變電設(shè)備防災(zāi)減災(zāi)國家重點(diǎn)實(shí)驗(yàn)室開放項(xiàng)目《國網(wǎng)湖南防災(zāi)減災(zāi)中心臺(tái)風(fēng)災(zāi)害下高比例海上風(fēng)電并網(wǎng)系統(tǒng)彈性管理》
通信作者:趙天陽(1989—),男,博士、副教授,主要從事彈性電網(wǎng)、運(yùn)籌學(xué)方面的研究。zhaoty@jnu.edu.cn
DOI:10.19912/j.0254-0096.tynxb.2022-1219 文章編號(hào):0254-0096(2023)12-0190-10
摘 要:維護(hù)與備件庫存管理是海上風(fēng)電運(yùn)維的兩個(gè)密不可分的關(guān)鍵環(huán)節(jié)。為提高海上風(fēng)電機(jī)組設(shè)計(jì)壽命周期內(nèi)的運(yùn)維經(jīng)濟(jì)性,構(gòu)建狀態(tài)維護(hù)與備件庫存聯(lián)合優(yōu)化策略。首先,將海上風(fēng)電機(jī)組構(gòu)建為由葉片、齒輪箱、電氣、偏航、輪轂、制動(dòng)、傳動(dòng)鏈、發(fā)電機(jī)8個(gè)子系統(tǒng)組成的系統(tǒng),然后將各子系統(tǒng)的劣化過程構(gòu)建為多狀態(tài)馬爾可夫隨機(jī)過程,建立維護(hù)與備件庫存的交互模型,其中包括被動(dòng)維護(hù)時(shí)間與隨機(jī)故障以及備件庫存的關(guān)系、備件庫存對(duì)維護(hù)活動(dòng)的影響等。隨后,設(shè)計(jì)子系統(tǒng)的劣化狀態(tài)與備件庫存狀態(tài)、狀態(tài)檢修動(dòng)作與備件訂購的表征方法,并以此形成深度強(qiáng)化學(xué)習(xí)Dueling DQN的框架,通過對(duì)深度網(wǎng)絡(luò)的迭代訓(xùn)練,求解海上風(fēng)電機(jī)組的最優(yōu)維護(hù)與備件訂購決策序列。最后,以某海上風(fēng)電場內(nèi)的風(fēng)電機(jī)組為例,驗(yàn)證所提聯(lián)合優(yōu)化方法的優(yōu)越性,并討論強(qiáng)化學(xué)習(xí)的探索率、風(fēng)電場的可達(dá)率對(duì)運(yùn)維成本的影響。
關(guān)鍵詞:海上風(fēng)電機(jī)組;狀態(tài)維護(hù);庫存控制;強(qiáng)化學(xué)習(xí);聯(lián)合優(yōu)化
中圖分類號(hào):TK83"""""""nbsp;""""""""""""""""""""""""" 文獻(xiàn)標(biāo)志碼:A
0 引 言
海上風(fēng)電機(jī)組因其所處的獨(dú)特環(huán)境,易遭受大風(fēng)、雷擊、海浪等惡劣環(huán)境的影響和沖擊,對(duì)機(jī)組的運(yùn)行維護(hù)提出了更高的要求。據(jù)國際能源署統(tǒng)計(jì),海上風(fēng)電場運(yùn)維成本約占總成本的30%,是制約海上風(fēng)電經(jīng)濟(jì)性的主要因素之一[1]。風(fēng)電機(jī)組的維護(hù)與備件庫存管理是海上風(fēng)電運(yùn)維的兩個(gè)核心環(huán)節(jié),將直接影響運(yùn)維經(jīng)濟(jì)性。常規(guī)海上風(fēng)電機(jī)組運(yùn)維策略中,未充分考慮設(shè)計(jì)周期內(nèi)設(shè)備劣化、維護(hù)策略及備件庫存之間的耦合關(guān)系,造成運(yùn)維成本偏高。因此,如何針對(duì)設(shè)備的劣化演化特征,優(yōu)化維護(hù)策略、協(xié)同備件庫存管理以降低運(yùn)維成本,是海上風(fēng)電領(lǐng)域的研究熱點(diǎn)之一[2]。
目前,風(fēng)電機(jī)組的維護(hù)策略可分為主動(dòng)維護(hù)與被動(dòng)維護(hù)兩種。其中,被動(dòng)維護(hù)也稱事后維護(hù),此類策略經(jīng)濟(jì)性較差,不能充分滿足海上風(fēng)電的運(yùn)維需求[3]。主動(dòng)維護(hù)策略也稱為預(yù)防性維護(hù),可進(jìn)一步分為計(jì)劃維護(hù)[4-6]和狀態(tài)維護(hù)[7-9]。其中,計(jì)劃維護(hù)是依據(jù)海上風(fēng)電機(jī)組的劣化演化規(guī)律,結(jié)合成本函數(shù)獲得使維護(hù)成本最小的最佳維護(hù)間隔。狀態(tài)維護(hù)是指在基于采集的海上風(fēng)電機(jī)組當(dāng)前運(yùn)行狀態(tài)數(shù)據(jù),評(píng)估設(shè)備狀態(tài)、故障風(fēng)險(xiǎn)和剩余壽命等性能指標(biāo),以確定機(jī)組的維護(hù)周期與維護(hù)內(nèi)容。狀態(tài)維護(hù)目前被認(rèn)為是最適用于風(fēng)電機(jī)組的一種運(yùn)維方式[10]。然而,文獻(xiàn)[4-9]的維護(hù)策略中只注重維修活動(dòng)本身,忽略了備件的可用性限制和備件管理的費(fèi)用。
顯然,備件過多則會(huì)增加運(yùn)維成本,過少則會(huì)使維護(hù)計(jì)劃延遲,降低風(fēng)電機(jī)組的可用率[11]。目前,在海上風(fēng)電領(lǐng)域,大多文獻(xiàn)的備件庫存策略是確定維護(hù)策略后再對(duì)備件庫存進(jìn)行優(yōu)化。文獻(xiàn)[12]依據(jù)部件的可靠度,通過預(yù)設(shè)預(yù)防性維護(hù)閾值、更換閾值,建立了風(fēng)電機(jī)組齒輪箱的備件需求預(yù)測模型;文獻(xiàn)[13]基于已知的維護(hù)策略,研究了不同再訂購點(diǎn)、訂貨量對(duì)備件需求服務(wù)水平的影響;文獻(xiàn)[14]考慮事后維護(hù)策略,基于(s,Q)(其中s為觸發(fā)備件訂購行為的庫存水平閾值,Q為備件訂購數(shù)量)訂購模型提出一種用于風(fēng)電場大部件的區(qū)域級(jí)備件庫存優(yōu)化控制策略;文獻(xiàn)[15]根據(jù)海上風(fēng)電機(jī)組劣化狀態(tài),考慮預(yù)防性維護(hù)、事后維護(hù)為海上運(yùn)維服務(wù)船建立最優(yōu)備件配置模型。然而,以上提到的關(guān)于備件管理的文獻(xiàn)均假設(shè)維護(hù)策略已知,所以其產(chǎn)生的維護(hù)需求也是已知的。這種確定維護(hù)策略后再對(duì)備件庫存進(jìn)行優(yōu)化的方式割裂了它們之間相互影響的關(guān)系,所得的備件策略并非最優(yōu)。
近年來,因狀態(tài)維護(hù)與備件庫存管理聯(lián)合優(yōu)化能綜合考慮設(shè)備劣化、維護(hù)決策、備件庫存管理三者之間的關(guān)系,國內(nèi)外有不少專家學(xué)者對(duì)其進(jìn)行了研究。在其他領(lǐng)域,文獻(xiàn)[16-18]先后研究了單部件、多部件串聯(lián)系統(tǒng)、[k/N]系統(tǒng)的狀態(tài)維護(hù)與備件庫存聯(lián)合優(yōu)化。文獻(xiàn)[19-20]將多部件系統(tǒng)的劣化狀態(tài)、庫存狀態(tài)、維護(hù)決策、備件訂購構(gòu)建為馬爾可夫決策過程(Markov decision process, MDP),聯(lián)合優(yōu)化了部件更換和備件訂購量決策。目前有關(guān)海上風(fēng)電維護(hù)策略與備件庫存管理聯(lián)合優(yōu)化領(lǐng)域的研究較少。本文借鑒其他領(lǐng)域的方法,將狀態(tài)維護(hù)與備件庫存管理聯(lián)合優(yōu)化的思想應(yīng)用到海上風(fēng)電運(yùn)維領(lǐng)域。以上有關(guān)聯(lián)合優(yōu)化的文獻(xiàn)的研究對(duì)象并非風(fēng)電機(jī)組,未考慮風(fēng)力機(jī)設(shè)備在不同劣化狀態(tài)下設(shè)備的隨機(jī)故障以及隨機(jī)故障對(duì)備件的消耗而導(dǎo)致庫存狀態(tài)的不確定。而在實(shí)際的風(fēng)電運(yùn)維中,一些風(fēng)電機(jī)組的故障被認(rèn)為是隨機(jī)的,無明確的趨勢和預(yù)報(bào)[2]。
針對(duì)上述問題,本文設(shè)計(jì)了海上風(fēng)電機(jī)組維護(hù)與備件庫存的交互模型,其中包括被動(dòng)維護(hù)時(shí)間與隨機(jī)故障以及備件庫存的關(guān)系,備件庫存對(duì)維護(hù)活動(dòng)的影響。然后,將周期性的狀態(tài)維護(hù)與備件庫存管理構(gòu)建為MDP模型,為解決風(fēng)電機(jī)組部件多而使得MDP中狀態(tài)-動(dòng)作空間過大的問題,使用深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)方法求解此MDP問題。有關(guān)強(qiáng)化學(xué)習(xí)在風(fēng)電領(lǐng)域的應(yīng)用研究多集中在風(fēng)電機(jī)組的運(yùn)行控制方面,如最大功率點(diǎn)跟蹤[21]、偏航控制[22]、多機(jī)組協(xié)同控制[23]等。強(qiáng)化學(xué)習(xí)在海上風(fēng)電維護(hù)與備件聯(lián)合管理領(lǐng)域的應(yīng)用,目前鮮見報(bào)道。
1 海上風(fēng)電機(jī)組劣化模型
1.1 海上風(fēng)電機(jī)組劣化及維護(hù)假設(shè)
1)海上風(fēng)電機(jī)組由8個(gè)子系統(tǒng)構(gòu)成,分別為電氣、偏航、葉片、輪轂、制動(dòng)、齒輪箱、傳動(dòng)鏈、發(fā)電機(jī)。
2)在預(yù)防性檢修之前,若子系統(tǒng)發(fā)生隨機(jī)故障,則采取最小維護(hù)措施,并消耗一個(gè)小修部件,最小維護(hù)僅恢復(fù)故障發(fā)生前的狀態(tài)。
1.2 考慮劣化的海上風(fēng)電機(jī)組子系統(tǒng)可靠性模型
假設(shè)各子系統(tǒng)有[L+1]個(gè)狀態(tài),由[ξ(t)∈{0, 1, 2, …, L}]代表系統(tǒng)在[t]時(shí)段的狀態(tài),0代表如新狀態(tài),[L]代表嚴(yán)重劣化,數(shù)字越大劣化越嚴(yán)重,且[ξ(t)]服從齊次的連續(xù)時(shí)間馬爾可夫過程(homogeneous continuous-time Markov process),給定[t≥0],[Δt≥0],[Pij(t, t+Δt)]表示子系統(tǒng)在[t]時(shí)段處于狀態(tài)[i]而[t+Δt]時(shí)段轉(zhuǎn)移到狀態(tài)[j]的概率:
[Pij(t,t+Δt)=Prξ(t+Δt)=j|ξ(t)=i]"""" (1)
[j=0LPij(t,t+Δt)=1,?i=0,1,…,L]""" (2)
根據(jù)Chapman-Kolmogorov公式,系統(tǒng)在[t]時(shí)段處于狀態(tài)[i]而[t+Δt]時(shí)段轉(zhuǎn)移到狀態(tài)[j]的概率可表示為:
[Pij(t,t+Δt)=k=0LPik(t)Pkj(Δt)] (3)
因?yàn)樵隈R爾可夫過程中,各子系統(tǒng)狀態(tài)的轉(zhuǎn)換時(shí)間服從參數(shù)為[λ]的指數(shù)分布。因此,通過求解Kolmogorov前置公式,如式(4)所示,可得到與時(shí)間相關(guān)的狀態(tài)轉(zhuǎn)移概率[24]。
[Pij(t)=k=0k≠jLλkjPik(t)+λjjPij(t)=k=0LλkjPik(t)]"""" (4)
為便于分析,式(4)可表述為以下矩陣形式:
[Pij(t)=P(t)i·A·j]""""" (5)
式中:[P(t)i]——矩陣[P(t)]的第[i]行;[A·j]——矩陣[A]的第[j]列,矩陣[A]也稱為狀態(tài)轉(zhuǎn)換率矩陣[24]。
需要說明的是,在轉(zhuǎn)換率矩陣[A]中,有以下關(guān)系:
[λii=-j≠iλi,j]"""" (6)
1.3 計(jì)及維護(hù)效果的海上風(fēng)電機(jī)組狀態(tài)轉(zhuǎn)移模型
假設(shè)一個(gè)周期性的預(yù)防性維護(hù)間隔為[τ(0lt;τlt;∞)],令[Yn=ξ(nτ-)]表示某個(gè)子系統(tǒng)在第[n]次預(yù)防性維護(hù)前的狀態(tài),采取某個(gè)維護(hù)動(dòng)作后使得狀態(tài)從[Yn]變?yōu)閇Zn],忽略維護(hù)所需的時(shí)間,即[Zn=ξ(nτ+)]。由[Yn]到[Zn]的轉(zhuǎn)換,可視為所實(shí)施動(dòng)作的維護(hù)效果。將維護(hù)后子系統(tǒng)轉(zhuǎn)移到[j]狀態(tài)的概率記為[Rij]:
[Rij=Pr(Zn=j|Yn=k)""?k,j∈0,…,L]""""" (7)
兩次預(yù)防性維護(hù)之間的狀態(tài)轉(zhuǎn)移過程如圖1所示??紤]第[n]個(gè)預(yù)防性維護(hù)周期,給定第[n-1]次預(yù)防性維護(hù)前系統(tǒng)狀態(tài)[Yn-1=j],維護(hù)后系統(tǒng)狀態(tài)為[Zn-1=i],則第[n]次維護(hù)前系統(tǒng)狀態(tài)[Yn=k]的概率為:
[Pr(Yn=k|Yn-1=j)"""""""" =i=0LPr(Yn=k|Zn-1=i,Yn-1=j)·Pr(Zn-1=i|Yn-1=j)"""""""" =i=0LPik·Rji=[RP]jk]" (8)
式中:[[·]jk]——矩陣的第[j]行第[k]列元素;[P]——無維護(hù)動(dòng)作介入的自然劣化狀態(tài)轉(zhuǎn)移矩陣;[R]——維護(hù)效果矩陣。
2 維護(hù)與備件庫存交互模型
海上風(fēng)電機(jī)組的備件消耗情況由運(yùn)維策略、部件的劣化狀態(tài)共同決定,同時(shí),備件的庫存也會(huì)影響維護(hù)計(jì)劃的實(shí)施。為此,本文構(gòu)建維護(hù)與備件庫存的交互模型。風(fēng)電機(jī)組的維護(hù)與備件訂購流程如圖2所示。
本文考慮的風(fēng)電機(jī)組運(yùn)維總成本由備件購買成本、備件持有成本以及停機(jī)損失3部分構(gòu)成,則目標(biāo)函數(shù)表示為:
[mint∈Tm∈?(xtm+htm)Cmim+ytmCmam+δtmCrem+""""""" omi,tmHmim+oma,tmHmam+(qtm+βtmTmim+ωtmTmam+δtmTrem)dloss]""" (9)
式中:[T={1, 2, …, T}]——預(yù)防性維護(hù)決策時(shí)段集合;[?={0, 1, …, 7}]——風(fēng)電機(jī)組子系統(tǒng)集合;[xtm]、[ytm]——時(shí)段[t]結(jié)束時(shí)購買用于子系統(tǒng)[m]小修、大修的備件數(shù)量;[htm]——時(shí)段[t]的隨機(jī)故障維護(hù)需求不被滿足時(shí)緊急訂購的小修備件數(shù)量;[omi,tm][、][oma,tm]——時(shí)段[t]集中巡檢后備件訂購前剩余的小修、大修備件數(shù)量;[qtm]——時(shí)段[t]內(nèi)因子系統(tǒng)[m]隨機(jī)故障導(dǎo)致的被動(dòng)停機(jī)時(shí)間;在每個(gè)時(shí)段的預(yù)防性檢修中,本文考慮4種維護(hù)動(dòng)作,分別為不維護(hù)、小修、大修、更換,4個(gè)動(dòng)作的標(biāo)識(shí)因子分別為[αtm、βtm、ωtm、δtm],它們的相互關(guān)系如式(21)所示;[Tmim、Tmam、Trem]——小修、大修、更換所需的停機(jī)時(shí)長;[Cmim、Cmam、Crem]——小修、大修、更換部件的購買單價(jià);[Hmim、Hmam、dloss]——小修部件單位時(shí)間持有成本、大修部件單位時(shí)間持有成本、單位時(shí)間停機(jī)損失。
在預(yù)防性檢修之前,子系統(tǒng)發(fā)生故障的次數(shù)是隨機(jī)的。因此,上一時(shí)段結(jié)束時(shí)的備件庫存將會(huì)影響當(dāng)前時(shí)段維護(hù)活動(dòng)的執(zhí)行。為衡量當(dāng)前時(shí)段[t]內(nèi)隨機(jī)故障產(chǎn)生的被動(dòng)維護(hù)需求能否被滿足,建立以下的約束關(guān)系:
[0≤utm-(zmi,t-1m-fξ,tm+0.5)/M≤1]"""""" (10)
[utm+vtm=1]" (11)
式中:[zmi,t-1m,fξ,tm∈Z+];[zmi,t-1m]——時(shí)段[t-1]結(jié)束時(shí)子系統(tǒng)[m]的小修部件庫存水平;[fξ,tm]——子系統(tǒng)[m]在時(shí)段[t]內(nèi)處于劣化狀態(tài) [ξ]下發(fā)生的累計(jì)隨機(jī)故障次數(shù);[utm,vtm∈{0, 1}];[utm=1]且[vtm=0]表示周期[t]內(nèi)的隨機(jī)故障維護(hù)需求能被滿足,[utm=0]且[vtm=0]則表示至少有一個(gè)隨機(jī)故障維護(hù)需求不能被滿足;[M]——一個(gè)很大的正數(shù)。式(10)為上一時(shí)段剩余的備件能否滿足當(dāng)前時(shí)段被動(dòng)維護(hù)需求的描述;式(11)為表達(dá)能否滿足的輔佐變量關(guān)系約束。
本文中,將每個(gè)時(shí)段中[T3]內(nèi)的隨機(jī)故障到達(dá)的次數(shù)[f]用泊松過程描述,并假設(shè)在機(jī)組的集中巡檢期間不會(huì)發(fā)生隨機(jī)故障。在第[t]個(gè)時(shí)段中子系統(tǒng)[m]的劣化狀態(tài)為[ξ],則該時(shí)段內(nèi)發(fā)生[fξ,tm=n]次隨機(jī)故障的概率質(zhì)量函數(shù)為:
[pfξ,tmn=σ(ξ)?τnne-σ(ξ)?τ]"" (12)
式中:[σ(ξ)]——隨機(jī)故障的事件強(qiáng)度,是關(guān)于劣化狀態(tài)的函數(shù)。
隨機(jī)故障的維護(hù)需求滿足與否,會(huì)影響停機(jī)時(shí)間的長短。為此,構(gòu)建子系統(tǒng)[m]在時(shí)段[t]內(nèi)的([t-1],[t-1+T3])的被動(dòng)維護(hù)停機(jī)時(shí)間[qtm]計(jì)算模型,如下:
[qtm≥zmi,t-1mTmim+htm(Tmim+Tlead)]" (13)
[qtm≥fξ,tmTmim]""""" (14)
[qtm≤zmi,t-1mTmim+htm(Tmim+Tlead)+M(1-utm)]"""""" (15)
[qtm≤fξ,tmTmim+M(1-vtm)]""" (16)
[htm≥fξ,tm-zmi,t-1m]"""""" (17)
[htm≤fξ,tm-zmi,t-1m+M(1-vtm)]"""" (18)
[htm≤M(1-utm)]"" (19)
式中:[qtm, htm∈R+];[Tlead]——備件不足時(shí)緊急訂購導(dǎo)致的額外停機(jī)時(shí)間。式(13)與式(15)約束隨機(jī)故障維護(hù)需求不被滿足時(shí)的停機(jī)時(shí)間;式(14)與式(16)約束隨機(jī)故障維護(hù)需求被滿足時(shí)的停機(jī)時(shí)間;式(17)~式(19)為對(duì)緊急訂購的備件數(shù)量約束。
計(jì)及可達(dá)性后的被動(dòng)停機(jī)時(shí)間:
[qtm=qtmAaccess]" (20)
式中:[Aaccess]——風(fēng)電場可達(dá)率。
在每個(gè)時(shí)段的預(yù)防性檢修中,4種維護(hù)動(dòng)作的關(guān)系約束如下:
[αtm+βtm+ωtm+δtm=1] (21)
式中:[αtm,βtm,ωtm,δtm∈{0, 1}],1代表選擇該動(dòng)作,0代表不選擇該動(dòng)作。式(21)表示至少有一種動(dòng)作被執(zhí)行。
子系統(tǒng)劣化狀態(tài)受預(yù)防性維護(hù)策略影響。例如,子系統(tǒng)[m]在時(shí)段[t-1]時(shí)劣化狀態(tài)為[j],采取小修后,在時(shí)段[t]劣化狀態(tài)為i的概率為:
[Pr(ξtm=i|ξt-1m=j,βt-1m=1)=[RmiPm]ji]
式中:[Rmi]——小修動(dòng)作的維護(hù)效果矩陣,另外3種維護(hù)動(dòng)作的維護(hù)效果矩陣詳見3.1.3小節(jié);[Pm]——子系統(tǒng)[m]無維護(hù)動(dòng)作接入的自然劣化矩陣。
預(yù)防性檢修時(shí)的維護(hù)動(dòng)作受隨機(jī)故障對(duì)備件庫存消耗程度影響,因此,預(yù)防性檢修動(dòng)作實(shí)施約束如下:
[βtm≤zmi,t-1m-fξ,tm+htm]"""" (22)
[ωtm≤zma,t-1m] (23)
式中:[zma,t-1m]——[t-1]時(shí)段結(jié)束時(shí)子系統(tǒng)[m]的大修備件庫存。式(22)為對(duì)小修動(dòng)作的約束;式(23)為對(duì)大修動(dòng)作的約束。
每個(gè)時(shí)段集中巡檢后備件訂購前(圖2中[t-T2]時(shí)段)的備件庫存更新如下:
[omi,tm=zmi,t-1m-fξ,tm-βtm+htm]" (24)
[oma,tm=zma,t-1m-ωtm]"""" (25)
式(24)為統(tǒng)計(jì)時(shí)段[t]小修部件的剩余量;式(25)為統(tǒng)計(jì)時(shí)段[t]大修部件的剩余量。
本文考慮小修和大修部件是常用的風(fēng)電場級(jí)的備件,而更換所需的大部件則是區(qū)域級(jí)備件,由區(qū)域級(jí)倉庫儲(chǔ)存,所以風(fēng)電場的備件庫存只包含小修部件和大修部件兩類[25]。當(dāng)有更換子系統(tǒng)需求時(shí),只能向制造商緊急訂購或由區(qū)域級(jí)倉庫調(diào)配。在集中巡檢結(jié)束后,進(jìn)行新一輪的備件訂購計(jì)劃,小修和大修備件的更新如下:
[zmi,tm=zmi,t-1m-fξ,tm-βtm+htm+xtm] (26)
[zma,tm=zma,t-1m-ωtm+ytm]"""" (27)
式(26)為時(shí)段[t]結(jié)束時(shí)小修部件的庫存更新;式(27)為時(shí)段[t]結(jié)束時(shí)大修部件的庫存更新。
3 基于深度強(qiáng)化學(xué)習(xí)的狀態(tài)維護(hù)與備件庫存聯(lián)合優(yōu)化策略
強(qiáng)化學(xué)習(xí)是一種通過與未知環(huán)境不斷進(jìn)行交互并學(xué)習(xí)以最大化獎(jiǎng)勵(lì)的機(jī)器學(xué)習(xí)算法[26],其數(shù)學(xué)模型基礎(chǔ)是MDP過程,具體形式可以描述為一個(gè)四元組lt; S, A, R, P gt;,S是指離散系統(tǒng)中的狀態(tài)集合,A是動(dòng)作集合,R為給定當(dāng)前狀態(tài)后采取某一動(dòng)作而轉(zhuǎn)移到下一狀態(tài)的過程的回報(bào),P為狀態(tài)集合中各個(gè)狀態(tài)之間的轉(zhuǎn)移概率集合。
Q學(xué)習(xí)(Q-learning)是經(jīng)典的強(qiáng)化學(xué)習(xí)算法之一,在Q學(xué)習(xí)中,利用表格記錄每一對(duì)狀態(tài)-動(dòng)作的[Q(s, a)],并通過貝爾曼方程(Bellman equation)不斷迭代更新直至表格收斂。[Q(s, a)]代表智能體在狀態(tài)[s]時(shí)采取動(dòng)作[a]后得到的累積獎(jiǎng)勵(lì)[Gt]的期望值,表達(dá)為:
[Qπ(s,"a)"=Eπ[Gt|st=s,"at=a]]""" (28)
[Gt=rt+γrt+1+…=k=0∞γkrt+k]"""""" (29)
式中:策略[π]為狀態(tài)到動(dòng)作的映射函數(shù),記為[π(a|s)]。[γ∈[0, 1]]為折扣率,當(dāng)[γ]越接近1,表示當(dāng)前動(dòng)作對(duì)后續(xù)的交互影響越大,越接近0則影響越小。
[Q(st, at)]更新表達(dá)式可表示為:
[Q(st, at)←Q(st,at)+αrt+""""""""""""""""γmaxaQ(st+1, a)-Q(st, at)]"""" (30)
式中:[α]——學(xué)習(xí)率。
3.1 Dueling DQN框架設(shè)計(jì)
Q學(xué)習(xí)的缺點(diǎn)是當(dāng)狀態(tài)-動(dòng)作空間過大時(shí),難以用表格形式記錄所有的[Q(s, a)]。得益于深度學(xué)習(xí)的發(fā)展,深度Q網(wǎng)絡(luò)(deep Q-network,DQN)以函數(shù)逼近的方式對(duì)[Q(s, a)]進(jìn)行估計(jì)。Dueling DQN是DQN的改進(jìn)算法,在DQN中,[Q(s, a)]表達(dá)的是在[s]狀態(tài)下動(dòng)作[a]的價(jià)值,而在Dueling DQN中,采用優(yōu)勢函數(shù)定義各個(gè)動(dòng)作在相同狀態(tài)下的相對(duì)好壞,優(yōu)勢函數(shù)定義為:
[Aπ(s,a)=Qπ(s,a)-Vπ(s)]" (31)
其中,值函數(shù)[Vπ(s)]:
[Vπ(s)=Ea~πQπ(s,a)]"" (32)
在Dueling DQN中,最后輸出的[Q(s, a)]來自兩個(gè)獨(dú)立的控制流,其中一個(gè)為值函數(shù)[V(s)]的估計(jì),另一個(gè)為對(duì)優(yōu)勢函數(shù)[A(s,a)]的估計(jì),[Q(s,a)]可由式(33)表示。
[Q(s,a)=V(s)+A(s,a)-1Aa'A(s,a′)]""nbsp;"" (33)
3.1.1 動(dòng)作編碼
智能體的動(dòng)作包括每個(gè)子系統(tǒng)的狀態(tài)檢修動(dòng)作,小修、大修備件的購買量,表達(dá)如下:
[at={gtm,xtm,ytm;m∈?}]" (34)
其中,[gtm]為4種檢修動(dòng)作的四進(jìn)制表達(dá),即[gtm∈{0,1,2,3}]:
[gti=0?αtm+1?βtm+2?ωtm+3?δtm] (35)
可以看到,隨著[xtm]和[ytm]的上限越大,動(dòng)作空間將呈指數(shù)增長。為了減小動(dòng)作空間并與檢修動(dòng)作[gtm]的維度統(tǒng)一,本文設(shè)置小修、大修備件的單次購買量上限為3個(gè)標(biāo)幺值(pu)。因此,智能體在其實(shí)施的動(dòng)作有4×4×4=64種可能。例如,[{1,2,2,? m∈?}]表示對(duì)所有子系統(tǒng)實(shí)施小修維護(hù),并在集中巡檢后購買小修部件2個(gè),大修部件2個(gè)。當(dāng)然,每個(gè)子系統(tǒng)的[gtm],[xtm]和[ytm]都由優(yōu)化后求得。對(duì)于整個(gè)風(fēng)電機(jī)組[|?|=8],動(dòng)作空間變?yōu)?×64種可能。
需要說明的是,檢修動(dòng)作[gtm]應(yīng)滿足式(22)和式(23)的約束,違反約束則強(qiáng)行設(shè)置[αtm=1(gtm=0)],即不采取任何維護(hù),并給予懲罰。
3.1.2 狀態(tài)編碼
智能體的觀測狀態(tài)包括風(fēng)電機(jī)組每個(gè)子系統(tǒng)的劣化狀態(tài)[xtm]、小修、大修備件的庫存水平([zmi,tm]和[zma,tm])和整個(gè)風(fēng)電機(jī)組的服役時(shí)間[τ]為:
[st={ξtm,zmi,tm,zma,tm,τ;m∈?}]""" (36)
本文將風(fēng)電機(jī)組子系統(tǒng)的狀態(tài)按照“浴盆曲線”劃分為5個(gè)不同的狀態(tài),0代表如新狀態(tài),4代表嚴(yán)重劣化,本文參考此思路,將每個(gè)子系統(tǒng)的狀態(tài)由0~4編號(hào),數(shù)字越大劣化越嚴(yán)重。[ξtm]由長度為5的one-hot編碼。本文設(shè)置風(fēng)力機(jī)的使用壽命為20 a,因集中檢修的時(shí)間間隔的經(jīng)驗(yàn)取值通常為半年[27],所以智能體有40個(gè)決策時(shí)段,對(duì)應(yīng)[|T|=40],那么[zmi,tm]和[zma,tm]上界為3×40=120 pu,為了包括備件庫存數(shù)量的上界,[zmi,tm]和[zma,tm]分別由7位二進(jìn)制編碼。除去服役時(shí)間[τ]外,可以用一個(gè)8×(5+7+7)=8×19的二維01矩陣表示風(fēng)電機(jī)組各個(gè)子系統(tǒng)的劣化狀態(tài)和備件庫存水平。為了表達(dá)方便,服役時(shí)間[τ]由8位二進(jìn)制編碼,作為列向量添加到8×19的二維矩陣右側(cè)構(gòu)成8×20的01矩陣,狀態(tài)空間為2160。
為了解決狀態(tài)-動(dòng)作組合空間過大的問題,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的方式提取風(fēng)電機(jī)組的狀態(tài)特征。首先將8×20的01矩陣看作成一張二維的二值圖像,該圖像的局部像素點(diǎn)具有一定的意義。然后將該二值圖像重構(gòu)為長寬相等的13×13×1(12×12小于8×20)的圖片,缺少部分用0填充。
3.1.3 狀態(tài)轉(zhuǎn)移
經(jīng)狀態(tài)檢修后的狀態(tài)轉(zhuǎn)移取決于維護(hù)效果。本文定義小修將退化狀態(tài)提升一個(gè)狀態(tài)。大修以一定的概率提升兩個(gè)狀態(tài),以一定的概率保持原來狀態(tài)。更換則恢復(fù)至全新狀態(tài)0。4種維護(hù)動(dòng)作的維護(hù)效果矩陣設(shè)置如式(37)所示。
[Rna=1000001000001000001000001,""""""""""""""""""""Rmi=1000010000010000010000010Rma=10000100000.9500.05000.85000.1500.650000.35,Rre=1000010000100001000010000]""""" (37)
由此,各個(gè)子系統(tǒng)的狀態(tài)轉(zhuǎn)移概率矩陣[P]可根據(jù)式(5)計(jì)算獲得。小修、大修備件的庫存更新公式如式(26)和式(27)所示。
3.1.4 獎(jiǎng)勵(lì)設(shè)計(jì)
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)直接影響算法的收斂性能。智能體的目標(biāo)是最小化運(yùn)維成本(式(9)),所以其單步獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
[rt=-m∈M(xtm+ntm)Cmim+ytmCmam+omi,tmHmi+oma,tmHma+δtmCre+""""""" """"""""""(qtm+βtmTmi+ωtmTma+δtmTre)dloss+μtm?]"""""""""""""""""""" (38)
式中:[μtm]——?jiǎng)幼髟较迾?biāo)識(shí)因子,[μtm=1]表示當(dāng)前動(dòng)作違反了檢修動(dòng)作約束,[μtm=0]表示未違反約束;[?]——?jiǎng)幼髟较迲土P。因?yàn)閺?qiáng)化學(xué)習(xí)的智能體的目標(biāo)是最大化累積獎(jiǎng)勵(lì),因此獎(jiǎng)勵(lì)設(shè)置為負(fù)數(shù)。除去懲罰項(xiàng)外,智能體每回合的累積獎(jiǎng)勵(lì)即為式(9)。
3.2 模型訓(xùn)練算法
Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,基于Dueling DQN的算法如表1所示。首先對(duì)經(jīng)驗(yàn)回放池[ F ]的容量[Nmem]、Q-network的參數(shù)[θ]、目標(biāo)Q-network的參數(shù)[θ-]、回合數(shù)[K]和決策周期次數(shù)[T]進(jìn)行初始化。每一回合的開始,將風(fēng)電機(jī)組狀態(tài)初始化;隨后,由計(jì)算機(jī)模擬生成一個(gè)隨機(jī)數(shù)[ζ∈0, 1,]并按照[ε]-greedy算法執(zhí)行所選動(dòng)作;若動(dòng)作違反約束,則調(diào)整相應(yīng)的動(dòng)作;隨后將動(dòng)作實(shí)施到對(duì)應(yīng)子系統(tǒng)中,再由式(37)計(jì)算當(dāng)前獎(jiǎng)勵(lì),并轉(zhuǎn)移到下一狀態(tài);將[(st, at, rt, st+1)]儲(chǔ)存到經(jīng)
驗(yàn)回放池中,若經(jīng)驗(yàn)回放池容量達(dá)到上限,則按照先進(jìn)先出原則刪除多余樣本;一個(gè)回合結(jié)束時(shí),從經(jīng)驗(yàn)池中抽取批量樣本對(duì)Q-network的參數(shù)[θ]進(jìn)行更新;每隔[K]個(gè)回合將參數(shù)[θ]復(fù)制到[θ-]。
4 算例分析
4.1 參數(shù)設(shè)置
風(fēng)電機(jī)組的維護(hù)[28]與更換費(fèi)用[29]參數(shù)如表2所示,小修部件費(fèi)用設(shè)為更換費(fèi)用的10%,大修部件費(fèi)用設(shè)為更換費(fèi)用的30%。如3.1.2所述,8個(gè)子系統(tǒng)的狀態(tài)根據(jù)浴盆曲線和生存指數(shù)將風(fēng)電機(jī)組子系統(tǒng)劃分為5個(gè)狀態(tài)[30],不同狀態(tài)下對(duì)應(yīng)不一樣的隨機(jī)失效率。8個(gè)子系統(tǒng)對(duì)應(yīng)的狀態(tài)轉(zhuǎn)換率如表3[30]所示。需要說明的是,各個(gè)子系統(tǒng)的狀態(tài)轉(zhuǎn)移率矩陣A中,除表3所列的值和對(duì)角線元素外,其余全為0,對(duì)角線元素按式(6)計(jì)算。由此可根據(jù)式(5)得到子系統(tǒng)的狀態(tài)轉(zhuǎn)移概率矩陣P。子系統(tǒng)在不同狀態(tài)下的隨機(jī)故障率如表4所示。表4中所有子系統(tǒng)狀態(tài)0的隨機(jī)故障率參考文獻(xiàn)[28],其他狀態(tài)的故障率按照“浴盆曲線”的趨勢設(shè)定。
風(fēng)電機(jī)組的設(shè)計(jì)壽命設(shè)為20 a,有40次決策時(shí)段。以某海上風(fēng)電場的單臺(tái)3 MW機(jī)組為例,單位時(shí)間的停機(jī)損失設(shè)為1200元/h。單個(gè)小修部件的持有成本設(shè)為850元/半年、單個(gè)大修部件持有成本設(shè)為1700元/半年。緊急訂購部件的時(shí)間為168 h??紤]出海條件的限制,風(fēng)電場的可達(dá)率設(shè)為0.6。
本文的Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,輸出層為一個(gè)8×64的矩陣,如3.1.1節(jié)所述;輸入層為13×13大小的二維01矩陣,如3.1.2節(jié)所述;折扣因子[γ]為0.95,學(xué)習(xí)率為0.001,經(jīng)驗(yàn)回放池容量為10000;式(34)單位為105元,動(dòng)作越限懲罰[?]設(shè)置為85萬元/次。
4.2 模型訓(xùn)練過程
訓(xùn)練過程總共進(jìn)行10000回合,每回合從[T=0]開始,每個(gè)子系統(tǒng)的小修部件初始庫存為7個(gè),大修部件初始庫存為0個(gè),以[T=40]為每回合的結(jié)束標(biāo)志。前100個(gè)回合作為初始樣本庫,此過程中智能體隨機(jī)選取動(dòng)作,即[ε=1],且不對(duì)所選動(dòng)作進(jìn)行學(xué)習(xí)。100回合后開始以[ε]-greedy算法選取動(dòng)作,[ε]從1逐漸線性下降至0.001后保持不變。訓(xùn)練曲線如圖4所示,可以看到,累積獎(jiǎng)勵(lì)從2000回合開始慢慢收斂至[-89.7]左右,即運(yùn)維費(fèi)用約為897萬元,Q網(wǎng)絡(luò)的損失值也快速下降至0左右,動(dòng)作越限懲罰穩(wěn)定在[-7.8],平均每回合累計(jì)0.92次越限。
需要說明的是,訓(xùn)練曲線仍有波動(dòng)的原因是:1)子系統(tǒng)的劣化狀態(tài)服從馬爾可夫隨機(jī)過程,且集中檢修時(shí)修復(fù)效果具有一定的不確定性,劣化演化和修復(fù)效果的雙重不確定性會(huì)導(dǎo)致費(fèi)用有一定的波動(dòng);2)智能體在整個(gè)訓(xùn)練過程都保持一定的探索率,即[ε]一直大于0,即使訓(xùn)練穩(wěn)定后智能體仍然有0.001的概率隨機(jī)選取動(dòng)作;3)在某個(gè)劣化狀態(tài)下,預(yù)防性檢修前發(fā)生的故障是隨機(jī)的,隨機(jī)故障發(fā)生的次數(shù)對(duì)于智能體來說也是未知的。
4.3 策略對(duì)比
為了對(duì)比DRL的聯(lián)合優(yōu)化策略作對(duì)比,設(shè)置以下3類基于經(jīng)驗(yàn)的狀態(tài)維護(hù)策略:
1) 維護(hù)策略:當(dāng)子系統(tǒng)的狀態(tài)大于狀態(tài)1,采用小修動(dòng)作;
2) 維護(hù)策略:當(dāng)子系統(tǒng)的狀態(tài)大于狀態(tài)2,采用小修動(dòng)作;
3) 維護(hù)策略:當(dāng)子系統(tǒng)的狀態(tài)大于狀態(tài)3,采用小修動(dòng)作;
3種維護(hù)策略的備件庫存策略采用混合整數(shù)線性規(guī)劃(mixed integer linear programming,MILP)方法建模。根據(jù)上述3類維護(hù)策略各隨機(jī)生成500條設(shè)計(jì)壽命內(nèi)的維護(hù)軌跡作為MILP的場景集合。隨后,采用成熟的開源庫Pyomo編寫程序并調(diào)用商業(yè)軟件Cplex求解,3種策略的備件訂購結(jié)果如圖5所示。值得注意的是,經(jīng)上述操作后,策略1~3中維護(hù)策略與備件訂購策略相割裂,均為已知維護(hù)策略后再優(yōu)化備件訂購策略,而非同時(shí)優(yōu)化。
由圖5、圖6和表5可知,3種維護(hù)策略所產(chǎn)生的備件庫存策略中策略1的訂購量最少(173 pu),策略2次之(295 pu),策略3最多(397 pu)。這是由于策略1的子系統(tǒng)大部分時(shí)間處于狀態(tài)0和狀態(tài)1兩個(gè)隨機(jī)故障率比較低的狀態(tài)中,維護(hù)需求較策略2和策略3少;而策略2和策略3則因?yàn)樘幱跔顟B(tài)2、3和4的比例更高,隨機(jī)故障率高,維護(hù)需求顯著增加。綜合比較策略1、2和3,策略1最優(yōu)。
圖7展現(xiàn)了策略1與所提DRL策略下的訂購量。圖中,DRL策略描繪的是500個(gè)決策序列在每個(gè)時(shí)段的備件平均購買量,決策序列由訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)隨機(jī)生成。由圖7和表5可知,DRL策略的備件購買量平均值為101.1 pu,相比策略1中維護(hù)與備件庫存策略相割裂的方法,基于DRL的聯(lián)合優(yōu)化策略的備件訂購量更少。
策略1在風(fēng)電機(jī)組設(shè)計(jì)壽命前期準(zhǔn)備較多的備件,在后期則相對(duì)較少,與DRL的后期訂購策略差別不大。結(jié)合圖8,相比策略1,盡管DRL的維護(hù)策略讓子系統(tǒng)處于更高故障率的狀態(tài)的時(shí)間更長,但DRL的策略仍可根據(jù)與環(huán)境交互得到的故障率信息做出備件庫存量更少、運(yùn)維費(fèi)用更低的決策,這體現(xiàn)了聯(lián)合決策的優(yōu)勢。
4.4 靈敏度分析
4.4.1 探索率
DRL的探索率[ε]是訓(xùn)練過程中權(quán)衡“探索-利用”的重要影響因子,會(huì)影響模型的最終的收斂性能。其他參數(shù)不變,當(dāng)探索率最終固定值發(fā)生變化后,對(duì)成本的訓(xùn)練穩(wěn)定均值、驗(yàn)證均值、驗(yàn)證標(biāo)準(zhǔn)差3項(xiàng)指標(biāo)的影響見表6。
表6中,[ε=0.01]作為基準(zhǔn)算例設(shè)置。當(dāng)探索率最終值升高到0.1時(shí),成本的訓(xùn)練穩(wěn)定均值上升了140.7%,驗(yàn)證均值上升了32.6%,驗(yàn)證標(biāo)準(zhǔn)差上升了48.7%,3項(xiàng)指標(biāo)均變差;當(dāng)探索率最終值下將到0.001時(shí),3項(xiàng)指標(biāo)分別改善了19.4%、12.1%、18.1%;而當(dāng)探索率最終值進(jìn)一步下將到0.0001時(shí),3項(xiàng)指標(biāo)改善程度均相比探索率為0.001時(shí)略有下降??梢娞剿髀蔥ε]的最終固定值并非越大/小越好,合理設(shè)置該值才能有良好的優(yōu)化結(jié)果。
4.4.2 可達(dá)率與單位時(shí)間停機(jī)損失
海上風(fēng)電場的維護(hù)活動(dòng)受可達(dá)率影響,單位時(shí)間的停機(jī)損失則反映風(fēng)資源豐富程度和風(fēng)電售價(jià)高低。運(yùn)維成本與維護(hù)時(shí)間隨風(fēng)電場可達(dá)率與單位時(shí)間停機(jī)損失的變化見表7,智能體探索率最終值取0.001,其他參數(shù)不變。
由表7可知,在單位時(shí)間停機(jī)損失保持在1200元/h時(shí),風(fēng)電機(jī)組被動(dòng)維護(hù)時(shí)間隨風(fēng)電場可達(dá)率升高而減少,在可達(dá)率為0.9時(shí),較可達(dá)率為0.6的被動(dòng)維護(hù)時(shí)間減少了34.4%,而主動(dòng)維護(hù)時(shí)間和運(yùn)維成本基本保持不變。當(dāng)單位時(shí)間停機(jī)損失升高到12000 h-1時(shí),風(fēng)電機(jī)組運(yùn)維成本和被動(dòng)維護(hù)時(shí)間隨風(fēng)電場可達(dá)率升高而減少,在可達(dá)率為0.9時(shí),較可達(dá)率為0.6的運(yùn)維成本減少了9%,主動(dòng)維護(hù)時(shí)間基本保持不變。相比單位時(shí)間停機(jī)損失為1200元/h時(shí)的情況,單位時(shí)間停機(jī)損失為12000元/h時(shí)被動(dòng)維護(hù)時(shí)間分別下降了33%、30.4%、32.7%、29.6%??梢姡C(jī)成本變高時(shí)DRL的維護(hù)策略會(huì)減少被動(dòng)停機(jī)時(shí)間。
表7仿真結(jié)果表明,主動(dòng)維護(hù)時(shí)間對(duì)可達(dá)率不敏感;運(yùn)維成本在單位時(shí)間停機(jī)損失較高時(shí)才受風(fēng)電場可達(dá)率影響。因此,在風(fēng)資源或風(fēng)電售價(jià)較低期間,可租用普通的運(yùn)維船;而在風(fēng)資源或風(fēng)電售價(jià)較高期間,應(yīng)租用更高級(jí)的運(yùn)維船,提高風(fēng)電場的進(jìn)入限制,以降低維護(hù)時(shí)間和運(yùn)維成本。
5 結(jié) 論
本文以海上風(fēng)電機(jī)組為研究對(duì)象,構(gòu)建基于強(qiáng)化學(xué)習(xí)的檢修與備件庫存管理聯(lián)合優(yōu)化模型?;陲L(fēng)電機(jī)組子系統(tǒng)的劣化過程和隨機(jī)故障的規(guī)律,建立維護(hù)與備件策略耦合模型,設(shè)計(jì)計(jì)及劣化和備件庫存的狀態(tài)空間表達(dá)方式、維護(hù)與訂購備件相結(jié)合的動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),模型的訓(xùn)練過程可快速收斂。通過算例分析,得到以下結(jié)論:
1)相比維護(hù)與備件庫存策略相割裂的運(yùn)維方式,維護(hù)與備件庫存策略聯(lián)合優(yōu)化能顯著縮短機(jī)組被動(dòng)停機(jī)時(shí)間,提高風(fēng)電機(jī)組可用率,降低運(yùn)維成本。
2)當(dāng)單位時(shí)間停機(jī)損失較小時(shí),因運(yùn)維成本對(duì)風(fēng)電場可達(dá)率不敏感,可配置普通運(yùn)維船;而在單位時(shí)間停機(jī)損失較大時(shí),應(yīng)配置更高級(jí)運(yùn)維船,提高風(fēng)電場可達(dá)率,以降低運(yùn)維成本。
本文設(shè)計(jì)的模型還不夠完善,在可靠性建模方面使用齊次的連續(xù)時(shí)間馬爾可夫模型,即假設(shè)兩狀態(tài)的轉(zhuǎn)移概率與時(shí)間點(diǎn)無關(guān),只與時(shí)間間隔有關(guān);在運(yùn)維費(fèi)用方面僅考慮了維護(hù)費(fèi)用、備件訂購費(fèi)用和停機(jī)損失,未考慮運(yùn)維船的租賃費(fèi)用、人員費(fèi)用和夜間不能作業(yè)等情況。
[參考文獻(xiàn)]
[1]"""" GWEC. Global offshore wind report[EB/OL]. https://gwec.net/wp-content/uploads/2021/09/GWEC-offshore-wind-2021-updated-1.pdf.
[2]"""" REN Z R, VERMA A S, LI Y, et al. Offshore wind turbine operations and maintenance: a state-of-the-art review[J]. Renewable and sustainable energy reviews, 2021, 144: 110886.
[3]"""" ALGERN J, PETERS L, MADLENER R. Economic evaluation of maintenance strategies for offshore wind turbines based on condition monitoring systems[EB/OL]. FCN working papers, 2017-7: https://EconPapers.repec.org/RePEc:ris:fcnwpa:2017_008.
[4]"""" 符楊, 許偉欣, 劉璐潔, 等. 考慮天氣因素的海上風(fēng)電機(jī)組預(yù)防性機(jī)會(huì)維護(hù)策略優(yōu)化方法[J]. 中國電機(jī)工程學(xué)報(bào), 2018, 38(20): 5947-5956.
FU Y, XU W X, LIU L J, et al. Optimization of preventive opportunistic maintenance strategy for offshore wind turbine considering weather conditions[J]. Proceedings of the CSEE, 2018, 38(20): 5947-5956.
[5]"""" LI M X, WANG M, KANG J C, et al. An opportunistic maintenance strategy for offshore wind turbine system considering optimal maintenance intervals of subsystems[J]. Ocean engineering, 2020, 216: 108067.
[6]"""" ZHU W J, CASTANIER B, BETTAYEB B. A dynamic programming-based maintenance model of offshore wind turbine considering logistic delay and weather condition[J]. Reliability engineering amp; system safety, 2019, 190: 106512.
[7]"""" TIAN Z G, JIN T D, WU B R, et al. Condition based maintenance optimization for wind power generation systems under continuous monitoring[J]. Renewable energy, 2011, 36(5): 1502-1509.
[8]"""" BYON E, DING Y. Season-dependent condition-based maintenance for a wind turbine using a partially observed Markov decision process[J]. IEEE transactions on power systems, 2010, 25: 1823-1834.
[9]"""" ZHOU P, YIN P T. An opportunistic condition-based maintenance strategy for offshore wind farm based on predictive analytics[J]. Renewable and sustainable energy reviews, 2019, 109: 1-9.
[10]""" 黃玲玲, 符楊, 任浩瀚, 等. 基于狀態(tài)信息的風(fēng)電機(jī)組維護(hù)研究綜述[J]. 中國電機(jī)工程學(xué)報(bào), 2020, 40(21): 7065-7078.
HUANG L L, FU Y, REN H H, et al. Review of wind turbine maintenance based on condition monitoring systems[J]. Proceedings of the CSEE, 2020, 40(21): 7065-7078.
[11]""" ZHU X Y, WANG J, COIT D W. Joint optimization of spare part supply and opportunistic condition-based maintenance for onshore wind farms considering maintenance route[J]. IEEE transactions on engineering management, 2022, 262(2): 479-498.
[12]""" 胡迪, 高慶水, 張楚, 等. 基于系統(tǒng)動(dòng)力學(xué)的風(fēng)力機(jī)備件需求預(yù)測研究[J]. 太陽能學(xué)報(bào), 2019, 40(3): 666-672.
HU D, GAO Q S, ZHANG C, et al. Research on demand forecast of spare parts of wind turbine based on system dynamics[J]. Acta energiae solaris sinica, 2019, 40(3): 666-672.
[13]""" 張?jiān)俜澹?張琛, 郭盛, 等. 基于周期性預(yù)防維修的風(fēng)電場備件成本分析[J]. 太陽能學(xué)報(bào), 2018, 39(5): 1434-1439.
ZHANG Z F, ZHANG C, GUO S, et al. Analysis of spare parts cost for wind farm based on periodic preventive maintenance[J]." Acta" energiae" solaris" sinica," 2018, 39(5): 1434-1439.
[14]""" 趙洪山, 劉宏楊, 宋鵬, 等. 風(fēng)電機(jī)組大部件的備品備件區(qū)域庫存優(yōu)化控制策略[J]. 可再生能源, 2018, 36(3): 422-428.
ZHAO H S, LIU H Y, SONG P, et al. Regional inventory optimization control strategy of spare parts for big parts of wind turbines[J]. Renewable energy resources, 2018, 36(3): 422-428.
[15]""" NEVES-MOREIRA F, VELDMAN J, TEUNTER R H. Service operation vessels for offshore wind farm maintenance:"" optimal" stock" levels[J]." Renewable"" and sustainable energy reviews, 2021, 146: 111158.
[16]""" 韓夢瑩, 楊建華. 考慮不完美檢測的兩階段點(diǎn)檢與備件訂購策略聯(lián)合優(yōu)化[J]. 運(yùn)籌與管理, 2021, 30(3): 27-34.
HAN M Y, YANG J H. Joint optimization of two-phase inspection and spare parts ordering policies considering imperfect"""" inspection[J]."""" Operations""" research"""" and management science, 2021, 30(3): 27-34.
[17]""" 王孟雅, 陳震, 潘爾順. 基于馬爾科夫決策的冷貯備串聯(lián)系統(tǒng)狀態(tài)維修與備件聯(lián)合優(yōu)化[J]. 工業(yè)工程與管理, 2022, 27(6): 14-23.
WANG M Y, CHEN Z, PAN E S. Joint optimization of condition-based maintenance and spare parts for cold standby" series" system" considering" Markov" decision[J]. Industrial engineering and management, 2022, 27(6): 14-23.
[18]""" 楊建華, 韓夢瑩. 視情維修條件下k/N(G)系統(tǒng)備件供需聯(lián)合優(yōu)化[J]. 系統(tǒng)工程與電子技術(shù), 2019, 41(9): 2148-2156.
YANG J H, HAN M Y. Joint optimization of spare parts supply-demand for k/N(G) system under condition-based maintenance[J]." Systems" engineering" and" electronics, 2019, 41(9): 2148-2156.
[19]""" ZHENG M M, YE H Q, WANG D, et al. Joint optimization of condition-based maintenance and spare parts orders for multi-unit systems with dual sourcing[J]. Reliability engineering amp; system safety, 2021, 210: 107512.
[20]""" ANG J, ZHU X Y. Joint optimization of condition-based maintenance and inventory control for a k-out-of-n:F system of multi-state degrading components[J]. European journal of operational research, 2021, 290(2): 514-529.
[21]""" KUSHWAHA A, GOPAL M, SINGH B. Q-learning based maximum power extraction for wind energy conversion system with variable wind speed[J]. IEEE transactions on energy conversion, 2020, 35(3): 1160-1170.
[22]""" LAMBERT N O, SCHINDLER C B, DREW D S, et al. Nonholonomic yaw control of an underactuated flying robot with model-based reinforcement learning[J]. IEEE robotics and automation letters, 2021, 6(2): 455-461.
[23]""" ZHAO H, ZHAO J H, QIU J, et al. Cooperative wind farm control with deep reinforcement learning and knowledge-assisted"" learning[J]." IEEE"" transactions"" on industrial informatics, 2020, 16(11): 6912-6921.
[24]""" RAUSAND M, BARROS A, HOYLAND A. System reliability theory: models, statistical methods, and applications[M]. Norway: John Wiley amp; Sons, 2003.
[25]""" 白愷, 宋鵬. 風(fēng)電機(jī)組檢修決策[M]. 北京: 中國電力出版社, 2021.
BAI K, SONG P. Maintenance decision of wind turbine[M]. Beijing: China Electric Power Press, 2021.
[26]""" SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. 2nd ed. London: MIT Press, 2018.
[27]""" LE B, ANDREWS J. Modelling wind turbine degradation and maintenance[J]. Wind energy, 2016, 19: 571-591.
[28]""" CARROLL J, MCDONALD A, MCMILLAN D. Failure rate, repair time and unscheduled Oamp;M cost analysis of offshore wind turbines[J]. Wind energy, 2016, 19(6): 1107-1119.
[29]""" BVGA. Wind farm costs[EB/OL]. https://guidetoanoffsh orewindfarm.com/wind-farm-costs.
[30]""" SSAI C I, BOSWELL B, DAVIES I J. A Markovian approach for modelling the effects of maintenance on downtime and failure risk of wind turbine components[J]. Renewable energy, 2016, 96(PA): 775-783.
JOINT OPTIMIZATION OF STATE MAINTENANCE AND SPARE PARTS
INVENTORY OF OFFSHORE WIND TURBINES BASED ON DEEP REINFORCEMENT LEARNING
Dong Wenkang1,Wu Yuxin2,Yao Qi1,Guo Jun3,Zhao Tianyang1
(1. Energy and Electricity Research Center, Jinan University, Zhuhai 519070, China;
2. College of Information Science and Technology, Jinan University, Guangzhou 510632, China;
3. State Key Laboratory of Disaster Prevention and Reduction for Power Grid Transmission and Distribution Equipment
(State Grid Hunan Electric Company Disaster Prevention and Reduction Center), Changsha 410007, China)
Abstract:Maintenance and spare parts inventory management are two fundamental sequential procedures in offshore wind farm operation and maintenance (OM). To improve the OM efficiency of offshore wind turbines (OWTs) in the design life cycle, a joint optimization strategy of condition-based maintenance and spare parts inventory control is proposed. Firstly, the OWT is constructed as a series system of subsystems including blades, gearbox, electrical, yaw,wheel hub, braking, transmission chain, generator, the deterioration process of each subsystem is modeled as a multi-state Markov process, and the coupling model of maintenance and spare parts inventory is established. Secondly, the representation and update method of subsystems deterioration, spare parts inventory are formulated as the framework of deep reinforcement learning. Through the iterative training of the deep networks, the optimal maintenance and spare parts ordering decision making are obtained. Finally, taking an OWT of a practical offshore wind farm as an example, the effectiveness of the proposed joint optimization method is verified. The impacts of the exploration rate and the accessibility of OWTs on the OM cost are further discussed.
Keywords:offshore wind turbines; state maintenance; inventory control; reinforcement learning; joint optimization