亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于加權決策樹算法的調度指令風險評估方法

        2022-09-02 06:24:52黃穎祺胡亞榮張建國
        電子設計工程 2022年16期
        關鍵詞:指令特征

        鄧 彬,林 宏,黃穎祺,胡亞榮,張建國,孟 琦

        (1.深圳供電局有限公司,廣東 深圳 518000;2.西安交通大學信息與通信工程學院,陜西西安 710049;3.興唐通信科技有限公司,北京 100191)

        電網(wǎng)規(guī)模的擴大[1]和清潔能源的利用[2]使電力數(shù)據(jù)量迅速增加,調度人員從中獲取決策關鍵信息變得困難[3]。

        現(xiàn)有的調度指令安全性研究,主要根據(jù)設備故障概率[4]、負荷削減[5]、天氣及人員[6]等因素建模并制定風險指標[7-9],但所用指標基于經(jīng)驗,且結果未與風險嚴重程度對應,難以供調度員參考。電力調度過程涉及眾多復雜特征和規(guī)則,符合機器學習的應用場景,但現(xiàn)有的包括故障辨識、負荷預測和輔助決策的研究[10-13]還未涉及調度指令層面。

        針對上述問題,文中提出一種基于加權決策樹的調度指令風險評估方法,利用機器學習技術找到符合電網(wǎng)運行規(guī)律的風險評估規(guī)則,并解決了樣本不平衡問題。

        1 調度指令風險評估方法

        調度指令是電網(wǎng)調度操作執(zhí)行的依據(jù),根據(jù)電網(wǎng)相關安全規(guī)程和運行準則給出[4]。調度指令分為單項令、逐項令和綜合令,單項令的操作內容一般是針對某個具體設備給出的,而逐項令和綜合令都可視為是由單項令組成的,所以該文只對單項令進行分析。根據(jù)《南方電網(wǎng)運行安全風險量化評估技術規(guī)范》和電力領域專家的建議,該文將調度指令的風險分為3 個等級:安全、風險和危險。其定義和系統(tǒng)應對措施如表1 所示。

        表1 調度指令安全風險等級劃分

        電力設備一般有運行、檢修、冷備用和熱備用4種狀態(tài)。當設備處于檢修或冷備用狀態(tài)的時候,對設備的任何操作都無法影響電網(wǎng)整體狀態(tài)。所以,該文主要考慮處于運行或熱備用狀態(tài)的電力設備調度指令的風險評估,如果調度指令的對象處于檢修或冷備用狀態(tài),則對該調度指令的風險評估結果為“安全”。

        調度操作能夠改變電力設備的運行狀態(tài),進而對整個電網(wǎng)產生影響,因此與其相關聯(lián)的安全影響因素很多。選擇可靠的關聯(lián)影響因素并構建關聯(lián)影響模型,才能以此找到基于調度指令的電力系統(tǒng)平穩(wěn)運行規(guī)則,從而對調度指令進行有效的風險評估。該節(jié)介紹的調度指令風險評估方法利用特征工程構建多維度指令畫像,建立調度指令專家知識庫,再以此為基礎使用機器學習方法尋找風險評估規(guī)則。算法框圖如圖1 所示。

        圖1 調度指令風險評估算法框圖

        1.1 多維指令畫像

        利用機器學習技術對海量電力數(shù)據(jù)進行處理,第一步是特征工程。廣泛采集與調度指令相關聯(lián)的海量電力數(shù)據(jù),對其進行數(shù)據(jù)清洗、特征選擇和進一步的預處理,在多個維度對調度指令進行描述和表征,以形成指令畫像。

        1)數(shù)據(jù)清洗。對電力系統(tǒng)中的結構化數(shù)據(jù)(電氣量測量、設備整定值等)和非結構化數(shù)據(jù)(日志、視頻等)分別采用不同方式進行處理,并清洗冗余的報警信號、事件順序記錄(Sequence of Events,SOE)及無用信息。

        2)特征選擇。一般調度指令都包含時間、廠站、操作信息和狀態(tài)4 個部分,可以從中提取包括廠站名、操作設備、電壓等級等信息,從電力能量管理系統(tǒng)中可以獲取設備運行狀態(tài)、保護設備狀態(tài)、設備整定值及安全限值等相關信息,刪除設備編號等不適合作為特征的信息。除此之外,利用PAS 系統(tǒng)對調度指令執(zhí)行前的斷面數(shù)據(jù)進行潮流計算,得到調度指令執(zhí)行后的線路、變壓器、發(fā)電機、母線的越限和重載信息,從調度指令的執(zhí)行后果層面構建特征來反映其安全狀態(tài)。綜合以上信息對調度指令進行多維度畫像,全方位地反映調度指令的安全風險。

        3)標準化處理。選取完特征并提取出相應數(shù)據(jù)之后,需對數(shù)據(jù)做進一步處理。首先是缺失值處理,有些信息可能因為設備故障或通信故障等原因缺失,又或是某些特征本就不適應于某些情況,比如變電站沒有發(fā)電機這種設備,該廠站關于發(fā)電機的相關信息就為缺失值,可對這些缺失值置零處理。機器學習中一般使用數(shù)值數(shù)據(jù)訓練模型,所以需要將文本類數(shù)據(jù)單獨分離并編碼,該文采用獨熱編碼(One-hot Encoding)對文本數(shù)據(jù)編碼,將具有m個可能值的特征編碼為m個二元特征。這樣做有利于分類器處理屬性數(shù)據(jù),也起到了擴充特征的作用。

        1.2 調度指令專家知識庫

        按照上述流程對調度指令完成多維畫像之后,就將調度指令與多個電力安全要素聯(lián)系起來,在專家及電力調度人員指導下對這些數(shù)據(jù)添加標簽,可以將其進一步與電力系統(tǒng)的安全狀態(tài)關聯(lián)起來,構建蘊含電力系統(tǒng)運行規(guī)律的調度指令專家知識庫,并以此為基礎對機器學習模型進行訓練,找到調度指令的風險評估規(guī)則。

        1.3 模型訓練

        1.3.1 決策樹

        決策樹是機器學習分類算法中的一類,它的可解釋性強,易于理解也易于實現(xiàn),作為一種非參數(shù)分類方法,不需要擔心離群點和數(shù)據(jù)是否線性可分的問題,適合處理上述文本與數(shù)值數(shù)據(jù)交叉的原始數(shù)據(jù)。

        最著名的決策樹算法ID3 算法由J.R.Quinlan 于1986年提出,其核心是在決策樹的各個節(jié)點上應用信息增益準則進行特征選擇。信息增益表示的是已知特征X的信息而使得類別Y的信息不確定性減少的程度,某個特征的信息增益越大,就表示該特征對結果的影響越大,特征A對數(shù)據(jù)集D的信息增益可表示為:

        其中,H(D)表示數(shù)據(jù)集D的經(jīng)驗熵,定義為:

        其中,|D|為樣本容量,|Ck|為D中類別Ck的樣本個數(shù),K為總類別數(shù)。

        H(D|A)為給定特征為A的情況下數(shù)據(jù)集D的經(jīng)驗條件熵,定義為:

        其中,n表示特征A的不同取值數(shù)量,根據(jù)特征A可將數(shù)據(jù)集D劃分為n個子集Di,|Di|為子集Di的樣本個數(shù),Dik為子集Di中屬于類別Ck的樣本集合,|Dik|為其樣本個數(shù)。

        對于待劃分的數(shù)據(jù)集,計算每個特征劃分數(shù)據(jù)集的信息增益,信息增益越大說明使用該特征劃分得到的子集不確定性越?。兌仍礁撸虼丝偸沁x擇信息增益最大的特征來劃分當前數(shù)據(jù)集。

        除了ID3 算法外,還有利用基尼指數(shù)進行特征選擇的CART 算法,基尼指數(shù)(又稱基尼不純度)表示一個隨機選中的樣本在子集中被分錯的可能性。當一個節(jié)點中所有樣本都是一個類時,基尼指數(shù)為零。分類問題中,假設有K個類別,樣本點屬于第k類的概率為pk,則概率分布的基尼指數(shù)定義為:

        基于特征A劃分樣本集合D之后的基尼指數(shù)定義如下:

        因其表示樣本被分錯的概率,所以總是選擇基尼指數(shù)最小的特征來建立決策樹。

        在建立決策樹時,如果樹的深度過深,葉子節(jié)點數(shù)量過大,就會導致過擬合問題,即該決策樹在訓練集上表現(xiàn)很好,但在測試集上表現(xiàn)很差,為了避免這種問題,可以對決策樹采取先剪枝的方法,提前設定閾值,當信息增益減小到某一閾值的時候就停止創(chuàng)建分支,并限定樹的最大深度及最大葉子節(jié)點數(shù)量。

        在按照前述方法對數(shù)據(jù)進行預處理并建立數(shù)據(jù)集后,就可以利用決策樹算法按照如下步驟進行訓練,以建立一棵決策樹:

        1)從根節(jié)點開始,對節(jié)點計算所有可能特征的信息增益,選擇信息增益最大或基尼指數(shù)最小的特征作為結點的特征,并由該特征的不同取值構建子節(jié)點,該文采用二叉樹構建方法;

        2)對子節(jié)點遞歸地調用以上方法,構建決策樹;

        3)直到所有特征的信息增益減小到某一閾值或基尼指數(shù)大于某一閾值或樹的深度達到閾值時為止。

        1.3.2 隨機森林

        隨機森林(Random Forest,RF)是Leo Breiman 在決策樹的基礎上提出的算法[14],它的基本構成單元是決策樹,通過建立多棵決策樹提高分類準確性,最后利用投票完成對新樣本的分類,其算法流程如下:

        1)確定決策樹的生成參數(shù)以及樹的數(shù)量n;

        2)利用自助法(bootstrap),給每棵決策樹有放回地隨機選擇N條訓練樣本;

        3)在每個節(jié)點處隨機選擇特征,根據(jù)所選決策樹生成算法比較選擇最佳特征以劃分數(shù)據(jù)集并生成子節(jié)點;

        4)遞歸生成n棵決策樹,對于測試集中的未知數(shù)據(jù),采用多數(shù)投票法確定分類結果。

        由于隨機森林引入的隨機性及決策樹數(shù)量的增加,使其具有很強的抗干擾和抗過擬合能力,存在分類不平衡的情況時,可以平衡誤差,提高訓練效果。

        該文將對基于ID3 算法和基于CART 算法建立的隨機森林進行比較。

        1.4 不平衡樣本處理

        在現(xiàn)實生活中,樣本不平衡的現(xiàn)象十分常見,在電力系統(tǒng)中也很常見,因為電力安全直接影響國計民生,要盡量避免發(fā)生事故,所以電力歷史數(shù)據(jù)中的負樣本極少,這是典型的樣本不平衡現(xiàn)象。對于樣本不平衡的情況,將無法單純使用準確率衡量訓練效果。比如1 000 條樣本中,正樣本為995 條,負樣本有5 條,若是正樣本全部分類正確而負樣本全部分類錯誤,則其準確率將高達99.5%,但卻沒有任何意義。

        該文根據(jù)表1 的內容將樣本分為三類,但是對于電力系統(tǒng)來說,這三類樣本被模型錯分的代價明顯不同。如果“危險”的調度指令被錯分為“安全”或“風險”,將可能導致嚴重的電力事故,所以應該最大程度地降低“危險”樣本的錯分概率。

        對于這種情況,該文將采用代價敏感(Cost-Sensitive)的學習方法[15]降低不平衡樣本的影響。代價敏感方法也就是針對不同類別的樣本施加錯分懲罰(也可叫權重),使得模型在訓練過程中更傾向于規(guī)模小的類別樣本,提高小樣本分類正確率。對于決策樹算法來說,其權重根據(jù)式(6)計算:

        其中,weight 為對應樣本權重,n_sample 為總樣本數(shù),n_classed 為類別數(shù),class_sample 為該類別樣本總數(shù)。

        較大的權重被分配給小樣本,較小的權重被分配給大樣本。在建立決策樹進行節(jié)點的分裂時,需要計算特征的信息增益及基尼指數(shù),此時將引入樣本權重,少數(shù)類樣本劃分正確的特征將得到更高的信息增益或更小的基尼指數(shù),而由于多數(shù)類樣本權重小,即使被錯分對信息增益或基尼指數(shù)的影響也不大,可以更好地保證少數(shù)類被分類正確,這樣的決策樹被稱為加權決策樹[16]。

        1.5 評價指標

        對于分類問題可以使用如下幾個指標來評價模型的效果:

        1)準確率表示分類正確的樣本數(shù)量占總樣本數(shù)量的比例,如式(7)所示:

        其中,F(xiàn)P表示實際為負但被預測為正的樣本數(shù)量,TN表示實際為負被預測為負的樣本的數(shù)量,TP表示實際為正被預測為正的樣本數(shù)量,F(xiàn)N表示實際為正但被預測為負的樣本的數(shù)量。

        2)精確率表示預測為正的樣本中實際也為正的樣本占被預測為正的樣本的比例,如式(8)所示:

        3)召回率表示實際為正的樣本中被預測為正的樣本所占實際為正的樣本的比例,如式(9)所示:

        4)混淆矩陣是用于表示分類精確度的常用指標,由N行N列的矩陣構成,其中每列表示所預測的類別,每行表示樣本的真實類別,列數(shù)據(jù)總數(shù)表示預測為該類別的樣本數(shù)目,行數(shù)據(jù)總數(shù)表示實際為該類別的樣本數(shù)目。

        綜上,基于加權決策樹的調度指令風險評估方法流程圖如圖2 所示。

        圖2 調度指令風險評估方法流程圖

        2 實驗與仿真

        2.1 數(shù)據(jù)準備

        該實驗的數(shù)據(jù)來源為南方電網(wǎng)深圳供電局OPEN3000 電力監(jiān)控系統(tǒng)數(shù)據(jù)庫中的大量電力數(shù)據(jù)。在對數(shù)據(jù)進行初步清理后,按1.1 節(jié)的方法選擇了包括“操作類型”、“電壓等級”、“設備類型”、“設備(線路、變壓器、發(fā)電機)負載率”、“設備越限”等14個特征來構建數(shù)據(jù)集,并邀請了5 位專家及調度工作人員根據(jù)當?shù)仉娋W(wǎng)的拓撲結構及整體安全態(tài)勢添加風險評估標簽,以符合真實電網(wǎng)的安全風險狀態(tài)。由于真實的電網(wǎng)一般都處于正常運行狀態(tài),極少發(fā)生危險事故,所以數(shù)據(jù)中幾乎沒有負樣本,用于訓練時,雖然正確率極高但卻因負樣本的缺乏而無法將危險情況較好地分辨出來,所以需要在真實數(shù)據(jù)的基礎上構造符合實際情況的負樣本。為了模擬真實情況并測試不平衡樣本訓練效果,最終構造的數(shù)據(jù)集中“安全”樣本和“危險”樣本的占比差距較大,約為14∶1。

        2.2 結果分析

        該實驗共構造了1 000 條數(shù)據(jù),將其隨機劃分為訓練集和測試集,其中80%作為訓練集,20%作為測試集,且訓練集與測試集各類樣本占比基本一致。測試集里“安全”樣本為159 個,“風險”樣本為29 個,“危險”樣本為12 個,為不平衡樣本。

        分別使用ID3 算法及CART 算法構造決策樹。首先利用十折交叉驗證和網(wǎng)格搜索對“max_depth”(樹的最大深度)、“min_samples_split”(分割節(jié)點所需的最小樣本數(shù))、“min_samples_leaf”(葉子節(jié)點所需的最小樣本數(shù))、“max_leaf_nodes”(最大葉子節(jié)點數(shù))4 個參數(shù)基于訓練集準確率進行調優(yōu),得到最優(yōu)參數(shù)后用于訓練決策樹,并將加權決策樹(由“W-”表示)與一般決策樹的訓練效果進行比較。對于隨機森林算法來說,還需要對參數(shù)“n_estimators”(生成樹的數(shù)量)進行訓練,并將基于一般決策樹和加權決策樹的隨機森林進行了對比,訓練結果如表2 和表3所示。

        表2 模型準確率

        表3 測試集其他指標

        圖3 為使用ID3 算法構造的決策樹,使用CART算法構造的決策樹限于篇幅不做展示,圖4 為兩個算法在測試集上分類結果的混淆矩陣。

        圖3 調度指令風險評估決策樹(ID3算法)

        圖4 調度指令風險評估混淆矩陣

        從以上的評估指標可以看出,兩種算法訓練出的決策樹在測試集上表現(xiàn)良好,對于一般決策樹,基于CART 算法的決策樹性能優(yōu)于基于ID3 算法的決策樹,而隨機森林算法的性能又優(yōu)于上面兩者,這主要體現(xiàn)在“風險”類別樣本的召回率上,其余指標的提升相對較小,而該指標由65.5%(ID3)提升至72.4%(CART),然后繼續(xù)提升至82.8%(ID3-RF),但CART-RF 模型的該指標有所下降,這說明在隨機挑選特征生成決策樹的情況下,ID3 算法的魯棒性較好。CART 算法優(yōu)于ID3 算法的原因是,根據(jù)式(1)-(3),其信息增益明顯傾向于取值較多的特征,而CART 算法則沒有這個問題;隨機森林算法由于采用了多棵決策樹的集成算法,其精度要大于單棵決策樹,且由于隨機性的引入,加強了它的抗過擬合能力和抗噪聲能力。

        對于加權決策樹,明顯可以看出“危險”樣本的召回率都為100%,也就是說所有的“危險”樣本都被分類正確。從圖4 所示的調度指令風險評估混淆矩陣可以看出,通過1.4 節(jié)所述的代價敏感方法,加權決策樹以將一個“風險”樣本誤分為“危險”樣本為代價,保證了“危險”樣本全部被正確分類。這也是希望的結果,因為一旦將“危險”操作判定為“風險”或“安全”,將可能因誤操作導致嚴重后果。

        3 結論

        該文提出了基于加權決策樹算法的調度指令風險評估方法,利用真實系統(tǒng)中的海量電力數(shù)據(jù),進行數(shù)據(jù)清洗、特征選擇和標準化處理,對調度指令進行多維指令畫像,并構建了調度指令專家知識庫,通過訓練加權決策樹模型尋找合適的調度指令風險評估規(guī)則,實現(xiàn)了良好的分類評估準確率,可以為調度人員提供高效可靠的輔助決策信息。與文獻[5-9]所使用的方法相比,該文利用機器學習技術從電力數(shù)據(jù)中自動尋找調度指令風險評估規(guī)則,省去了場景建模和指標建立的過程,克服了對海量電力數(shù)據(jù)的特征工程、訓練模型的選擇和參數(shù)優(yōu)化等難點,并針對真實電力系統(tǒng)中樣本不平衡的情況進行了優(yōu)化,降低了高危樣本被錯分的概率。

        但從實驗結果來看,其分類準確率還有提升的空間,這與數(shù)據(jù)處理和模型選擇都存在一定關系,而且該文對于電網(wǎng)拓撲結構改變需要重新訓練模型這一問題尚未解決,后續(xù)研究將通過優(yōu)化指令畫像方法和使用增量學習技術,以解決上述問題。

        猜你喜歡
        指令特征
        抓住特征巧觀察
        聽我指令:大催眠術
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        ARINC661顯控指令快速驗證方法
        測控技術(2018年5期)2018-12-09 09:04:26
        LED照明產品歐盟ErP指令要求解讀
        電子測試(2018年18期)2018-11-14 02:30:34
        抓住特征巧觀察
        殺毒軟件中指令虛擬機的脆弱性分析
        電信科學(2016年10期)2016-11-23 05:11:56
        一種基于滑窗的余度指令判別算法
        久久无人码人妻一区二区三区| 亚洲日韩精品欧美一区二区| 亚洲免费观看| 日韩精品免费在线视频| 一区二区三区日韩精品视频| 国内女人喷潮完整视频| 久久99精品国产99久久| 国产盗摄XXXX视频XXXX| 91精品国产综合久久精品密臀| 国产美女精品视频线免费播放软件| 每天更新的免费av片在线观看| 亚洲精品AⅤ无码精品丝袜无码| 亚洲永久免费中文字幕| 久久久久亚洲av成人片| 亚洲爆乳少妇无码激情| 亚洲AV无码一区二区三区少妇av| 亚洲成av人片极品少妇| 少妇中文字幕乱码亚洲影视| 男女超爽视频免费播放| 日韩狼人精品在线观看| 福利视频一区二区三区| 无码一区二区三区在线 | 亚洲av成人永久网站一区| 热re99久久精品国99热| 久久夜色撩人精品国产小说| 日本精品极品视频在线| 日本一区二区不卡精品| 老熟妇仑乱视频一区二区 | 亚洲午夜福利在线观看| 国产亚洲精品性爱视频| 免费一区二区在线观看视频在线 | 精品久久久噜噜噜久久久| 国产精品久久久久久久y| 精华国产一区二区三区| 亚洲精品久久久久久久久久吃药| 国产精品第1页在线观看| 国产伦一区二区三区久久| 在线观看老湿视频福利| 欧美色aⅴ欧美综合色| 精品国产一品二品三品| 亚洲人成在线播放网站|