亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學(xué)習(xí)的分布式安全預(yù)警系統(tǒng)研究

        2024-01-23 01:54:44亓紅強錢本華
        儀表技術(shù)與傳感器 2023年12期
        關(guān)鍵詞:環(huán)境參數(shù)分布式危險

        亓紅強,錢本華

        (東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽 110819)

        0 引言

        在智能制造行業(yè)中,存在高溫、高壓的高危險環(huán)境,其中的化學(xué)品、危險物質(zhì)可能導(dǎo)致泄漏、爆炸、中毒或火災(zāi)等危險情況[1],對工人的健康和安全構(gòu)成威脅。隨著工廠管理自動化的逐步普及,依靠工作人員進(jìn)行危險預(yù)警需要耗費大量的人力資源,且容易因為監(jiān)管人員的疏忽導(dǎo)致數(shù)據(jù)異常被忽視,故需要建立危險預(yù)警系統(tǒng)進(jìn)行監(jiān)控管理[2]。

        目前的檢測系統(tǒng)是集中式的處理方式,傳感器將檢測的信息傳遞到中央處理器中處理[3-4],但是隨著檢測系統(tǒng)的不斷發(fā)展和系統(tǒng)規(guī)模的增大,集中式處理方法的弊端逐漸顯露出來,具有單點故障敏感性高、系統(tǒng)響應(yīng)時間長和穩(wěn)定性差等問題。分布式作為一種可行的方法,逐漸獲得研究人員的關(guān)注[5-6]。分布式系統(tǒng)的應(yīng)用可以減少對危險情況的響應(yīng)時間,當(dāng)檢測到危險時,不需要傳遞到中央處理器,直接在該分布式節(jié)點的邊緣控制器中就可以完成危險判斷,然后邊緣控制器通過分布式網(wǎng)絡(luò)將危險信號傳遞到其他邊緣控制器中。分布式網(wǎng)絡(luò)結(jié)構(gòu)可以有效避免集中式處理方式中單點線路故障導(dǎo)致的預(yù)警延遲。

        本系統(tǒng)選擇FPGA作為邊緣控制器[7-8],FPGA具有并行運算的特點,在處理多傳感器檢測的信息時,可以縮減計算時間,減少響應(yīng)時間。

        為了使系統(tǒng)的檢測數(shù)據(jù)更加準(zhǔn)確,在車間室內(nèi)設(shè)置多個傳感器陣列,每個傳感器陣列內(nèi)的傳感器數(shù)量和種類一樣,將同類傳感器檢測的信息融合,信息融合在信息處理中是一項非常重要的工作[9-10],對于增強結(jié)果的準(zhǔn)確性至關(guān)重要,融合計算是傳感器信息融合的關(guān)鍵,對于不同的應(yīng)用場合與應(yīng)用要求,信息融合算法不盡相同,融合計算過程需要對多傳感器的觀測結(jié)果進(jìn)行分析和取舍。本文提出的檢測系統(tǒng)采用計算支持度的方法,高效完成了信息融合,提高了系統(tǒng)的準(zhǔn)確性。

        經(jīng)過傳感器融合后的數(shù)據(jù)僅可以通過分類模型得到當(dāng)前的危險狀態(tài)。但在有危險隱患的工業(yè)現(xiàn)場,需要提前30 s甚至1 min以上對于危險進(jìn)行預(yù)警,從而給危險涉及范圍的人群安全撤離的時間,所以需要對環(huán)境參數(shù)序列進(jìn)行預(yù)測,結(jié)合預(yù)測結(jié)果進(jìn)行危險判斷。常見的預(yù)測方法主要有非線性的回歸模型[11],但其因為參數(shù)設(shè)置過于依賴經(jīng)驗以及精確模型的建立導(dǎo)致適用性較低。江典蔚等[12]提出一種結(jié)合多元線性回歸和粒子群優(yōu)化算法的方法對于RH終點溫度進(jìn)行預(yù)測,但其對數(shù)據(jù)屬性的簡化并沒有反饋機制來避免關(guān)鍵信息的丟失。長短期記憶神經(jīng)網(wǎng)絡(luò)一直以來被認(rèn)為是解決數(shù)據(jù)預(yù)測問題的高效方法。亓利[13]提出了一種基于雙視圖LSTM嵌入的變分自編碼器(TVAE),提高了故障檢測的檢測率,但應(yīng)用在危險環(huán)境海量的異構(gòu)數(shù)據(jù)以及瞬息萬變的工業(yè)現(xiàn)場下,計算任務(wù)繁重,模型適用性較低的問題難以得到解決,也導(dǎo)致了模型的不適用。

        本文設(shè)計分布式傳感器拓?fù)?選用FPGA作為邊緣端,連接傳感器陣列,實現(xiàn)準(zhǔn)確測量、高速運算。對于傳感器陣列實現(xiàn)數(shù)據(jù)融合后,選用基于模型的強化學(xué)習(xí)算法[14]進(jìn)行數(shù)據(jù)預(yù)測以及工業(yè)現(xiàn)場的危險預(yù)警,減輕計算任務(wù)的同時加深環(huán)境動力學(xué)的學(xué)習(xí),避免脫離實際的數(shù)據(jù)映射。

        1 分布式傳感器拓?fù)?/h2>

        集中式的控制方式具有單點故障敏感性高以及通信代價高的缺點,本文應(yīng)用的場景使得分布式方法成為了一種可行的解決方式。本系統(tǒng)采用FPGA作為邊緣控制器,FPGA具有并行高速運算的特點,當(dāng)有多組傳感器數(shù)據(jù)進(jìn)入邊緣控制器時,可以發(fā)揮其并行運算的特點,使其計算速度快并對危險進(jìn)行緊急反應(yīng);其次,FPGA通過引腳和其他微型處理器或者傳感器相連,這使得其外延性較強;有網(wǎng)口可以與其他 FPGA 板通過網(wǎng)線相連并進(jìn)行信息交換。

        在車間室內(nèi)環(huán)境下,FPGA通過引腳與多個RL78/G15相連,每個RL78/G15作為微型處理器,與傳感器陣列相連,每個傳感器陣列包含多種傳感器,本文主要對溫度、濕度、氣壓、CO濃度、SO2濃度、TVOC濃度、H2S濃度以及NH3濃度進(jìn)行測量。

        陣列中所有傳感器的檢測數(shù)據(jù)會傳遞到微型處理器中,進(jìn)行簡單處理后進(jìn)入邊緣控制器。邊緣控制器之間通過網(wǎng)線交換信息,構(gòu)成分布式通信網(wǎng)絡(luò),當(dāng)一個邊緣控制器檢測到危險發(fā)生時,會及時將危險信號傳遞到其他所有邊緣控制器,做到全工廠信息傳遞與危險預(yù)警。

        本文從響應(yīng)時間、偏差值和使用范圍3個方面對硬件進(jìn)行選型,具體結(jié)果如表1所示。

        本文擬采用分布式網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的集中式網(wǎng)絡(luò),拓?fù)淙鐖D1所示。

        本文采用的分布式通信網(wǎng)絡(luò)拓?fù)淇梢栽跍p少系統(tǒng)響應(yīng)時間的基礎(chǔ)上增加系統(tǒng)的穩(wěn)定性。當(dāng)單個節(jié)點檢測出事故時,可以直接告訴其他節(jié)點,節(jié)省了向中央處理器通信的時間。并且當(dāng)系統(tǒng)中單個通信線路故障時,網(wǎng)絡(luò)中的其他線路也可以將信息及時傳遞,在事故發(fā)生時保證工廠設(shè)備的生產(chǎn)安全。

        2 多傳感器數(shù)據(jù)融合

        在車間環(huán)境中,均勻分布傳感器陣列,多個傳感器陣列可以對環(huán)境進(jìn)行全面檢測,在精準(zhǔn)測量的前提下,快速對危險情況進(jìn)行反應(yīng)并且對危險發(fā)生的位置進(jìn)行定位。當(dāng)某個傳感器出現(xiàn)故障時,不會使系統(tǒng)對危險無響應(yīng)進(jìn)而造成更大損失,可以增加系統(tǒng)的穩(wěn)定性和魯棒性。但是在多傳感器系統(tǒng)中需要進(jìn)行數(shù)據(jù)融合,目的是去除冗余信息,保存大量有用信息。

        本文在數(shù)據(jù)融合過程中,要保證距離事故發(fā)生中心最近的傳感器所檢測到的信息權(quán)重最高,所以就要對傳感器采集的信息進(jìn)行處理。對于泄漏氣體的意外事故,在時間t′內(nèi)濃度檢測最高的傳感器設(shè)為參考節(jié)點a;對于溫度、濕度和氣壓在時間t′內(nèi)惡性變化最大的傳感器為參考節(jié)點a。基于以上需求,可以采用基于支持度的權(quán)重劃分。除了參考節(jié)點,將其他節(jié)點與參考節(jié)點數(shù)值間的支持度的大小作為傳感器與泄漏源的距離。假設(shè)有m個傳感器陣列。

        首先在時間t′內(nèi)每個傳感器采集一組數(shù)據(jù)φ1,φ2,…,φn,每個傳感器對該組數(shù)據(jù)求均值,然后對這組數(shù)據(jù)進(jìn)行排序,獲得γ1,γ2,…,γm,根據(jù)要求選擇出參考節(jié)點[15]。為了避免支持度出現(xiàn)0或者1的極端情況出現(xiàn),使支持度的范圍為[0,1],本文采用指數(shù)衰減函數(shù)來度量傳感器之間支持度。t時刻傳感器對參考節(jié)點間支持度的計算公式為

        sia(t)=e-[di(t)-da(t)]2

        (1)

        式中di(t)為t時刻傳感器i檢測結(jié)果。

        考慮到會出現(xiàn)某個傳感器在時間段t′內(nèi)對參考節(jié)點的支持度變化過大,選擇在時間段t′內(nèi)支持度變化小并且均值大的傳感器。所以設(shè)計每個傳感器在時間t′內(nèi)對與參考節(jié)點α的支持度表示為

        (2)

        (3)

        方差的計算公式為

        (4)

        在時間t′內(nèi),可以獲得所有節(jié)點與參考節(jié)點的支持度Sia,并對Sia進(jìn)行排序,選擇前o個傳感器作為進(jìn)行數(shù)據(jù)融合的傳感器。選擇出來的支持度集合為

        U0={u1,u2,…,uo}

        (5)

        集合的傳感器在時間t′內(nèi)權(quán)重表示為

        (6)

        由此得出最后數(shù)據(jù)融合的結(jié)果為

        (7)

        多傳感器數(shù)據(jù)融合得到最終環(huán)境觀測值,數(shù)據(jù)融合算法流程圖如圖2所示。

        圖2 數(shù)據(jù)融合算法流程圖

        3 危險預(yù)警

        為了實現(xiàn)動態(tài)預(yù)警和危險預(yù)測,本文將環(huán)境參數(shù)預(yù)測與危險判定轉(zhuǎn)化為基于模型的強化學(xué)習(xí)任務(wù)。為解決貝葉斯長短期記憶神經(jīng)網(wǎng)絡(luò)以及自回歸擬合等深度學(xué)習(xí)模型出現(xiàn)的計算復(fù)雜度高、可解釋性弱,計算任務(wù)過重的問題,本文采用強化學(xué)習(xí)模型,同時進(jìn)行環(huán)境參數(shù)的預(yù)測以及危險預(yù)警的判斷。

        3.1 強化學(xué)習(xí)任務(wù)轉(zhuǎn)化

        由上述分析可得,本文研究的預(yù)警預(yù)測問題符合馬爾科夫決策過程,可對其進(jìn)行強化學(xué)習(xí)的任務(wù)轉(zhuǎn)化,首先需要分別對狀態(tài)空間、動作空間以及獎勵值函數(shù)進(jìn)行設(shè)計,完成基于模型的強化學(xué)習(xí)任務(wù)轉(zhuǎn)化,研究環(huán)境參數(shù)動態(tài)變換規(guī)律以及危險判定的內(nèi)在機理。

        3.1.1 狀態(tài)空間

        為完成上述要求,本文設(shè)置t時刻狀態(tài)空間為

        (8)

        3.1.2 動作空間

        結(jié)合狀態(tài)空間定義,t時刻的動作空間為

        (9)

        式中:前8個參數(shù)分別表示對環(huán)境參數(shù)的預(yù)測值;Ft為對t時刻的危險判定結(jié)果,值為布爾類型(0表示不危險,1表示發(fā)生危險)。

        3.1.3 獎勵值函數(shù)

        為完成環(huán)境參數(shù)預(yù)測和危險判定,分別對于預(yù)測準(zhǔn)確性和判定正確性進(jìn)行獎勵值函數(shù)設(shè)計。

        對于預(yù)測準(zhǔn)確性設(shè)計獎勵值函數(shù)為

        (10)

        對于判定準(zhǔn)確性設(shè)計獎勵值函數(shù)為

        (11)

        系統(tǒng)總獎勵值函數(shù)為

        (12)

        式中:α、β為平衡系數(shù),為了保證危險判定的高度優(yōu)先級,通常設(shè)置β>>α。

        3.2 基于模型的算法結(jié)構(gòu)

        本文參照Schrittwieser等[16]提出的基于離散動作空間的Muzero算法框架,結(jié)合蒙特卡洛樹搜索(MCTs)以及深度強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),進(jìn)行最優(yōu)策略的制定以及環(huán)境動力學(xué)的學(xué)習(xí)。

        其中通過MCTs作為最優(yōu)策略得到的大量游戲數(shù)據(jù)將被用于后續(xù)訓(xùn)練。本文搭建了4個神經(jīng)網(wǎng)絡(luò)聯(lián)合訓(xùn)練模型,主要流程如圖3所示。其中包含4個神經(jīng)網(wǎng)絡(luò)模型,分別為表示模型、預(yù)測模型、離散模型、動態(tài)模型。

        圖3 強化學(xué)習(xí)算法訓(xùn)練模型

        3.2.1 表示模型

        為解決輸入狀態(tài)值過大使計算任務(wù)過重的問題,在表示模型設(shè)計中,將輸入的狀態(tài)數(shù)值序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)內(nèi)部的隱藏狀態(tài),在維度和長度上進(jìn)行縮減,主要通過編碼器實現(xiàn):

        s0=hθ(ot)

        (13)

        式中s0為經(jīng)過神經(jīng)網(wǎng)絡(luò)編碼的隱藏狀態(tài)。

        3.2.2 預(yù)測模型

        預(yù)測模型包含策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò),主要基于表示網(wǎng)絡(luò)得到的當(dāng)前時刻隱藏狀態(tài),進(jìn)行最優(yōu)策略和平均價值預(yù)測:

        pk,vk=f?(sk,xk)

        (14)

        式中:pk為第k步的最優(yōu)策略;vk為第k步的預(yù)期價值;xk為離散后的動作空間,具體的離散方式將由后續(xù)離散模型部分得到;sk為第k步的隱藏狀態(tài)。

        3.2.3 離散模型

        因MCTs最優(yōu)搜索策略僅限于離散動作空間問題,而本文需要解決的是連續(xù)動作空間的問題,大量的訓(xùn)練數(shù)據(jù)來自MCTs離散空間的數(shù)據(jù),故設(shè)計離散模型進(jìn)行離散化。主要通過訓(xùn)練均值μ和方差σ進(jìn)行高斯分布離散化:

        xk=dη(ak)

        (15)

        3.2.4 動態(tài)模型

        動態(tài)模型主要學(xué)習(xí)環(huán)境動力學(xué)及環(huán)境變換的內(nèi)在機理,通過前一時刻的隱藏狀態(tài)和當(dāng)前時刻的動作計算當(dāng)前時刻的隱藏狀態(tài)以及對應(yīng)的獎勵值:

        rk,sk=gρ(sk-1,xk)

        (16)

        式中rk代表第k步后的預(yù)期獎勵;sk-1為下一步的隱藏狀態(tài)。

        最終通過式(17)進(jìn)行參數(shù)的更新:

        (17)

        4 仿真實驗結(jié)果

        4.1 模型訓(xùn)練結(jié)果

        針對3.2節(jié)中設(shè)計的4個神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練后,得到各網(wǎng)絡(luò)損失值,如圖4~圖7所示。

        圖4 獎勵網(wǎng)絡(luò)損失值

        圖5 價值網(wǎng)絡(luò)損失值

        圖6 策略網(wǎng)絡(luò)損失值

        圖7 離散網(wǎng)絡(luò)損失值

        根據(jù)圖4~圖7可見,4個神經(jīng)網(wǎng)絡(luò)模型在經(jīng)過約1800步的訓(xùn)練后都實現(xiàn)了損失值的收斂且趨近于0的效果,證明了本文將研究目標(biāo)轉(zhuǎn)變?yōu)閺娀瘜W(xué)習(xí)任務(wù)是可行的。且經(jīng)過訓(xùn)練,基于模型的強化學(xué)習(xí)算法已經(jīng)學(xué)習(xí)到了環(huán)境動力學(xué)以及最優(yōu)策略的決策方法。

        4.2 算法測試結(jié)果

        將訓(xùn)練得到的模型與已知在數(shù)據(jù)預(yù)測方面有突出效果的算法進(jìn)行比較,結(jié)果如表2所示,其中定義“預(yù)測準(zhǔn)確”為預(yù)測值和實際值在千分位之前保持相同,并以此來計算預(yù)測準(zhǔn)確率。

        表2 算法測試結(jié)果

        由表2算法測試結(jié)果可知,CNN-LSTM、Cnv-LSTM、自擬合算法的預(yù)測準(zhǔn)確率在86%以上,精度在0.1%內(nèi)則視為預(yù)測準(zhǔn)確。經(jīng)分析,強化學(xué)習(xí)相較于CNN-LSTM、Conv-LSTM等深度學(xué)習(xí)模型在準(zhǔn)確率無明顯下降的情況下,通過設(shè)計表示網(wǎng)絡(luò)顯著提升了計算速度,減輕了計算任務(wù);而相較于自擬合等傳統(tǒng)數(shù)據(jù)分析算法,通過動態(tài)網(wǎng)絡(luò)學(xué)習(xí)內(nèi)在機理有效分析了環(huán)境參數(shù)的變化趨勢以及危險判斷的標(biāo)準(zhǔn)。

        5 結(jié)束語

        本文通過建立分布式傳感器陣列拓?fù)?將集中式的環(huán)境參數(shù)變化分析以及危險預(yù)警分散化,增強了系統(tǒng)的魯棒性和抗干擾性。并選擇FPGA作為邊緣端連接高速響應(yīng)的傳感器陣列實現(xiàn)快速并行運算。

        通過支持度計算融合多傳感器數(shù)據(jù),將環(huán)境參數(shù)預(yù)測以及危險預(yù)警轉(zhuǎn)化為強化學(xué)習(xí)任務(wù)。引入基于模型的強化學(xué)習(xí)算法框架,在進(jìn)行最優(yōu)策略決策方法學(xué)習(xí)的同時,加深環(huán)境動力學(xué)的理解,并大幅減輕了計算任務(wù)。在軟件測試中,與其余算法比較具有優(yōu)勢,可應(yīng)用于工廠車間等危險環(huán)境的預(yù)測以及危險預(yù)警中。

        猜你喜歡
        環(huán)境參數(shù)分布式危險
        基于云平臺的智能家居環(huán)境參數(shù)協(xié)同監(jiān)控系統(tǒng)設(shè)計
        列車動力學(xué)模型時變環(huán)境參數(shù)自適應(yīng)辨識
        一種食用菌大棚環(huán)境參數(shù)測控系統(tǒng)設(shè)計
        電子制作(2019年7期)2019-04-25 13:17:10
        喝水也會有危險
        基于小型固定翼移動平臺的區(qū)域大氣環(huán)境參數(shù)采集系統(tǒng)設(shè)計
        電子測試(2018年4期)2018-05-09 07:27:32
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        基于DDS的分布式三維協(xié)同仿真研究
        擁擠的危險(三)
        新少年(2015年6期)2015-06-16 10:28:21
        西門子 分布式I/O Simatic ET 200AL
        久久精品这里只有精品| 日本a在线看| 五月丁香六月综合缴清无码 | 91超精品碰国产在线观看| 亚洲一区日本一区二区| 亚洲综合网在线观看首页| 亚洲欧美乱综合图片区小说区| 亚洲成年国产一区二区| 中文字幕在线一区乱码| 亚洲狠狠网站色噜噜| 成人美女黄网站色大免费的| 亚洲av日韩一区二区| 国产视频一区二区三区免费| 正在播放淫亚洲| 日韩精品中文字幕无码一区| 亚洲av综合色区| av在线免费观看大全| 精品国产一区二区三区毛片| 国产福利片无码区在线观看| 国产一女三男3p免费视频| 亚洲αv在线精品糸列| 国产av一区二区三区在线| 521色香蕉网站在线观看| 亚洲精品无码久久久久| 亚洲国产精品无码中文字| 国产伦一区二区三区色一情| 国产网友自拍视频在线观看| 久久久久久久综合日本| 国内少妇人妻丰满av| 国产精一品亚洲二区在线播放| 99国产精品99久久久久久| 中文字幕一区二区三区乱码人妻| av天堂手机在线免费| 国产目拍亚洲精品一区二区| 国产成人免费a在线视频| 亚洲国产一区二区a毛片| 日韩人妻ol丝袜av一二区 | 亚洲夜夜骑| 亚洲中文字幕无码久久2020| 国产午夜精品一区二区三区| 99久久精品免费看国产|