孫喜民 王明達(dá) 常江 陳昕 李海茹
摘 要:針對(duì)多種通信協(xié)議結(jié)合強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)一個(gè)通用的可智能解析的協(xié)議接口,加快協(xié)議間的模式匹配,降低數(shù)據(jù)傳輸?shù)难訒r(shí)性,提高工業(yè)物聯(lián)網(wǎng)的時(shí)效性。實(shí)現(xiàn)無縫切換不同的數(shù)據(jù)接口以適應(yīng)不同的網(wǎng)絡(luò)通信模式。同時(shí),如何通過強(qiáng)化學(xué)習(xí)使獲取的動(dòng)作策略確定一種統(tǒng)一的數(shù)據(jù)接口規(guī)范,可使得平臺(tái)接入體系對(duì)于多源異構(gòu)電工裝備的數(shù)據(jù)達(dá)到良好的兼容性,為電工裝備智慧物聯(lián)體系與應(yīng)用提供數(shù)據(jù)基礎(chǔ)。
關(guān)鍵詞:能源工業(yè)云網(wǎng) 強(qiáng)化學(xué)習(xí) 智能接入 邊緣數(shù)據(jù)處理
Abstract:A universal intelligently resolvable protocol interface is designed for multiple communication protocols combined with reinforcement learning algorithm to speed up pattern matching between protocols, reduce the delay of data transmission, and improve the timeliness of the Industrial Internet of Things so as to realize seamless switching between different data interfaces to adapt to different network communication modes. At the same time, how to determine a unified data interface specification for the acquired action strategy through reinforcement learning can make the platform access system achieve good compatibility with the data of multi-source heterogeneous electrical equipment, and provide data basis for the intelligent system and application of electrical equipment.
Key words:energy industry cloud network, reinforcement learning, intelligent access, edge data processing
1 引言
2020年國(guó)家電網(wǎng)“建設(shè)互聯(lián)共享能源工業(yè)云網(wǎng),賦能能源行業(yè)數(shù)字化轉(zhuǎn)型升級(jí)”成功入選國(guó)資委優(yōu)秀案例,作為國(guó)家電網(wǎng)公司打造的國(guó)內(nèi)能源行業(yè)首個(gè)全域工業(yè)互聯(lián)網(wǎng)賦能平臺(tái),能源工業(yè)云網(wǎng)以電為中心創(chuàng)新價(jià)值鏈,以數(shù)為要素貫通業(yè)務(wù)鏈,以智為要義升級(jí)產(chǎn)業(yè)鏈,打造設(shè)計(jì)制造協(xié)同、生產(chǎn)管理優(yōu)化、設(shè)備健康管理、產(chǎn)品增值服務(wù)、制造能力交易等解決方案,支撐能源互聯(lián)網(wǎng)各環(huán)節(jié)設(shè)備工業(yè)互聯(lián),提升全產(chǎn)業(yè)鏈資源要素配置效率和產(chǎn)品創(chuàng)新力。國(guó)網(wǎng)電商公司(國(guó)網(wǎng)金融科技集團(tuán))作為建設(shè)運(yùn)營(yíng)的主要支撐單位,已完成能源工業(yè)云網(wǎng)8大應(yīng)用中心建設(shè)落地,同時(shí)與眾多單位開展了深入合作,打造多個(gè)試點(diǎn)應(yīng)用,有效推動(dòng)智能制造、智慧交易、智能運(yùn)維等場(chǎng)景產(chǎn)業(yè)鏈協(xié)同,為“立足能源根本、堅(jiān)持開放合作、深耕垂直領(lǐng)域”的總體思路,重點(diǎn)聚焦能源生產(chǎn)、裝備制造和能源消費(fèi)三大領(lǐng)域,整合平臺(tái)能力、推動(dòng)業(yè)務(wù)集成、聚合客戶資源,支撐能源互聯(lián)網(wǎng) “源、網(wǎng)、儲(chǔ)、荷”各環(huán)節(jié)設(shè)備工業(yè)互聯(lián),構(gòu)建“互聯(lián)共享 全域賦能”的能源工業(yè)互聯(lián)網(wǎng)生態(tài)體系奠定了堅(jiān)實(shí)基礎(chǔ)。其實(shí)作為工業(yè)互聯(lián)網(wǎng)的能源工業(yè)云網(wǎng)中的設(shè)備接入的科研工作和技術(shù)發(fā)展已經(jīng)開展多年,但通過對(duì)較有影響的國(guó)際會(huì)議和期刊進(jìn)行跟蹤與分析,面向能源工業(yè)互聯(lián)網(wǎng)的設(shè)備數(shù)據(jù)標(biāo)準(zhǔn)與接入體系研究尚處于起步階段。
2 強(qiáng)化學(xué)習(xí)算法原理
強(qiáng)化學(xué)習(xí)是從控制理論、統(tǒng)計(jì)學(xué)、心理學(xué)等相關(guān)科學(xué)發(fā)展而來的一種機(jī)器學(xué)習(xí)方法,最早可以追溯到巴普洛夫的條件發(fā)射實(shí)驗(yàn),直到上世紀(jì)八、九十年代強(qiáng)化學(xué)習(xí)技術(shù)開始在人工智能、機(jī)器學(xué)習(xí)和自動(dòng)控制等領(lǐng)域中得到廣泛研究與應(yīng)用,很快被認(rèn)為是設(shè)計(jì)智能系統(tǒng)的核心技術(shù),尤其。人類或者智能體(統(tǒng)稱為智能體)很多時(shí)候需要與外界環(huán)境進(jìn)行交互與學(xué)習(xí),所謂強(qiáng)化學(xué)習(xí)是指人類或者智能體從環(huán)境狀態(tài)到行為映射的學(xué)習(xí),目的是使系統(tǒng)行為從環(huán)境中獲得的累積獎(jiǎng)勵(lì)值達(dá)到最大(其工作原理圖如圖1)。在強(qiáng)化學(xué)習(xí)過程中,通過所設(shè)計(jì)的算法把外界環(huán)境轉(zhuǎn)化為最大化獎(jiǎng)勵(lì)量。
其中強(qiáng)化學(xué)習(xí)Agent為自治智能體,也是學(xué)習(xí)的主體,其特點(diǎn)有三:
(1)Agent主動(dòng)對(duì)環(huán)境做出試探。
(2)環(huán)境對(duì)試探動(dòng)作必須做出評(píng)價(jià)性反饋(好或者壞)。
(3)在動(dòng)作-評(píng)價(jià)影響或者刺激過程中,環(huán)境要給出行動(dòng)改進(jìn)方案,直到達(dá)到既定目標(biāo)(滿足一定的目標(biāo)函數(shù))為止。
一般來講,強(qiáng)化學(xué)習(xí)算法包含的基本要素有:策略、值函數(shù)、回報(bào)函數(shù)及環(huán)境模型等四個(gè)要素,四者之間的關(guān)系如圖2所示。
其中策略給出Agent在給定時(shí)間內(nèi)的行為方式定義,因此,一個(gè)策略就是從環(huán)境感知的狀態(tài)到這些狀態(tài)中可采取動(dòng)作的一個(gè)映射,一般有確定性策略和隨機(jī)策略之分;值函數(shù)用于對(duì)第一個(gè)狀態(tài)起Agent所能積累的回報(bào)的匯總,在決策和評(píng)價(jià)過程中也是需要考慮最多的環(huán)節(jié);回報(bào)函數(shù)是強(qiáng)化學(xué)習(xí)算法執(zhí)行過程中的目標(biāo),它把環(huán)境中感知到的狀態(tài)映射為單獨(dú)的一個(gè)獎(jiǎng)賞(),而且它可以作為策略進(jìn)行變化或者改變的標(biāo)準(zhǔn);環(huán)境模型主要用于模擬環(huán)境行為,即:給定一個(gè)狀態(tài)和動(dòng)作,環(huán)境模型經(jīng)過計(jì)算可以預(yù)測(cè)必定導(dǎo)致的下一個(gè)狀態(tài)和下一個(gè)獎(jiǎng)勵(lì)。環(huán)境模型一般用于通過具體函數(shù)做出的規(guī)劃。
3 能源工業(yè)云網(wǎng)智能接入的體系架構(gòu)與特點(diǎn)
能源工業(yè)云網(wǎng)設(shè)備智能接入體系的研究包含設(shè)備通信協(xié)議智能解析和設(shè)備編碼統(tǒng)一規(guī)范。數(shù)據(jù)接入難度和成本是制約工業(yè)互聯(lián)網(wǎng)平臺(tái)應(yīng)用的核心痛點(diǎn)之一,能源工業(yè)云網(wǎng)正嘗試提供面向不同設(shè)備的綜合性接入技術(shù)方案,推動(dòng)平臺(tái)快速應(yīng)用落地。存量設(shè)備接入仍以邊緣協(xié)議解析為主要方式,逐步從個(gè)性方案發(fā)展成為平臺(tái)通用服務(wù)。具有較強(qiáng)工業(yè)協(xié)議積累的企業(yè)正在將接入方案轉(zhuǎn)化為平臺(tái)服務(wù),將解析能力下發(fā)至邊緣設(shè)備實(shí)現(xiàn)數(shù)據(jù)接入。未來,數(shù)據(jù)接入方案將內(nèi)嵌在新增設(shè)備中,直接連平臺(tái)有望成為重要趨勢(shì),SDK等數(shù)據(jù)接入方案在商業(yè)物聯(lián)領(lǐng)域已普遍應(yīng)用,正在加速向工業(yè)互聯(lián)領(lǐng)域延伸。
4 強(qiáng)化學(xué)習(xí)的設(shè)備多源異構(gòu)數(shù)據(jù)融合技術(shù)
該技術(shù)突破傳統(tǒng)了工業(yè)互聯(lián)網(wǎng)差異化數(shù)據(jù)融合的束縛,建立統(tǒng)一的數(shù)據(jù)接入標(biāo)準(zhǔn),為數(shù)據(jù)共享與交互提供底層保障?;趶?qiáng)化學(xué)習(xí)的數(shù)據(jù)壓縮融合、冗余去除及降噪處理技術(shù),主要體現(xiàn)在自主感知和異構(gòu)分析技術(shù)。能源工業(yè)云網(wǎng)智能接入體系框架如圖4所示。
結(jié)合強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)統(tǒng)一數(shù)據(jù)接口標(biāo)識(shí)規(guī)范。針對(duì)能源行業(yè)設(shè)備數(shù)據(jù)而言,編碼標(biāo)識(shí)種類繁多、不統(tǒng)一;與產(chǎn)業(yè)化結(jié)合形成多源異構(gòu)數(shù)據(jù)。按照“充分應(yīng)用物聯(lián)網(wǎng)、人工智能等現(xiàn)代信息技術(shù)和先進(jìn)通信技術(shù),實(shí)現(xiàn)能源行業(yè)各個(gè)環(huán)節(jié)萬物互聯(lián)、人機(jī)交互,打造狀態(tài)全面感知、信息高效處理的要求,實(shí)現(xiàn)跨專業(yè)、跨系統(tǒng)的數(shù)據(jù)共享理念,見圖5。
在數(shù)據(jù)接口規(guī)范生成模型構(gòu)建中,融合強(qiáng)化學(xué)習(xí)框架來進(jìn)行設(shè)計(jì),分別將數(shù)據(jù)規(guī)范樣本集、數(shù)據(jù)規(guī)范樣本、多源異構(gòu)數(shù)據(jù)編碼方案和規(guī)范編碼的信息有效性,與強(qiáng)化學(xué)習(xí)中的智能代理、動(dòng)作空間、環(huán)境獎(jiǎng)賞與環(huán)境狀態(tài)進(jìn)行功能映射,其具體的編碼標(biāo)識(shí)規(guī)范體系結(jié)構(gòu)如圖所示。將樣本生成策略映射為強(qiáng)化學(xué)習(xí)理論中的智能代理,在整個(gè)學(xué)習(xí)過程中,它會(huì)根據(jù)環(huán)境狀態(tài)St與獎(jiǎng)賞值Rt來生成作用于環(huán)境的動(dòng)作t,也就是規(guī)范樣本t。同時(shí),將現(xiàn)存的多源異構(gòu)設(shè)備數(shù)據(jù)編碼方案映射為體系架構(gòu)中的學(xué)習(xí)環(huán)境,常見的編碼方式有KKS電廠標(biāo)識(shí)系統(tǒng)、國(guó)網(wǎng)電力設(shè)備編碼、和ERP設(shè)備編碼。環(huán)境中的這些編碼方式,根據(jù)從動(dòng)作t中得到的數(shù)據(jù)編碼規(guī)范進(jìn)行規(guī)范化編碼。并在環(huán)境中分別對(duì)規(guī)范化編碼信息的廣泛兼容性、靈活擴(kuò)展性、和方便使用性進(jìn)行衡量,根據(jù)衡量結(jié)果生成當(dāng)前新的環(huán)境狀態(tài)St+1,并返回一個(gè)獎(jiǎng)賞值Rt+1。
通過這樣的模型設(shè)計(jì),可以充分利用強(qiáng)化學(xué)習(xí)理論來選擇累積回報(bào)最大的數(shù)據(jù)接口規(guī)范設(shè)計(jì)。在數(shù)據(jù)接口規(guī)范生成策略的學(xué)習(xí)過程中,我們可以明確任務(wù)所對(duì)應(yīng)的馬爾科夫決策過程四元組,也就是狀態(tài)空間、動(dòng)作空間、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)賞,這是一種模型已知的學(xué)習(xí)過程。因此在對(duì)策略進(jìn)行評(píng)估時(shí),將策略的累積獎(jiǎng)賞定義為公式(1)、(2)所示:
其中公式(1)表示“T步累積獎(jiǎng)賞”在有模型學(xué)習(xí)中的計(jì)算方式,公式(2)表示“γ折扣累積獎(jiǎng)賞”在有模型學(xué)習(xí)中的計(jì)算方式。表示從狀態(tài)x出發(fā),使用策略π所帶來的累積獎(jiǎng)賞。
以上技術(shù)可以突破傳統(tǒng)工業(yè)互聯(lián)網(wǎng)差異化數(shù)據(jù)融合的束縛,建立統(tǒng)一的數(shù)據(jù)接入標(biāo)準(zhǔn),為數(shù)據(jù)共享與交互提供底層保障。
參考文獻(xiàn):
[1]安實(shí),崔娜,李靜.基于多智能體博弈的路徑選擇策略仿真研究[J].交通信息與安全,2009,27(3):1-5.
[2] 杜威,丁世飛.多智能體強(qiáng)化學(xué)習(xí)綜述[J] . 計(jì)算機(jī)科學(xué),2019,46(8):1-7.
[3] 丁曉燕,席裕庚.基于博弈模型的多智能體覆蓋控制問題[J].計(jì)算機(jī)仿真,2009,26(10):148-152.
[4]杭飛.基于博弈論的多智能體協(xié)同控制算法[J].電腦與信息技術(shù),2014,22(2):14-17.