趙 越, 徐博涵, 王 聰, 高 鋒, 宋 潔
(1.北京大學(xué) 工學(xué)院,北京 100871;2.首都經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100070;3.北京大學(xué) 光華管理學(xué)院,北京 100871)
在國(guó)際上對(duì)節(jié)能減排日益重視的形勢(shì)下,風(fēng)力發(fā)電作為一種新能源發(fā)電技術(shù),因其資源豐富、污染小等特點(diǎn)備受矚目[1]。為了促進(jìn)風(fēng)電產(chǎn)業(yè)持續(xù)健康發(fā)展,國(guó)家能源局于2016年11月印發(fā)了《風(fēng)電發(fā)展“十三五”規(guī)劃》,在規(guī)劃中提到,隨著世界各國(guó)對(duì)能源安全問(wèn)題日益重視,加快發(fā)展風(fēng)電已成為國(guó)際社會(huì)推動(dòng)能源轉(zhuǎn)型發(fā)展、應(yīng)對(duì)全球氣候變化的普遍共識(shí)和一致行動(dòng)。
電力系統(tǒng)數(shù)據(jù)量龐大,是數(shù)據(jù)分析與應(yīng)用的重要場(chǎng)景。風(fēng)電相關(guān)數(shù)據(jù)常以時(shí)間序列的形式存在,通常將風(fēng)速或風(fēng)電的歷史數(shù)據(jù)與地理位置、氣象數(shù)據(jù)、機(jī)組參數(shù)整合分析。在風(fēng)能資源評(píng)估場(chǎng)景中,有研究基于不同時(shí)刻風(fēng)速數(shù)據(jù),通過(guò)數(shù)值模擬降低保真度較低數(shù)據(jù)帶來(lái)的影響[2,3],分析南海風(fēng)能資源時(shí)空分布特征。在機(jī)組參數(shù)優(yōu)化場(chǎng)景中,研究通過(guò)影響因子法篩選對(duì)參數(shù)影響較大的模態(tài)[4],確定參數(shù)優(yōu)選范圍。在風(fēng)電預(yù)測(cè)場(chǎng)景中,研究使用K-means、DBSCAN等聚類(lèi)方法檢測(cè)異常值、清洗數(shù)據(jù)[5]。上述研究都剔除了數(shù)據(jù)離群值,減少異常值對(duì)模型效果的影響,得到了顯著成效。由此看來(lái),數(shù)據(jù)質(zhì)量(價(jià)值)的提升是在應(yīng)用中所需要的,針對(duì)數(shù)據(jù)價(jià)值的研究對(duì)模型效果的提升有著重要意義。但上述工作沒(méi)有把數(shù)據(jù)價(jià)值估算作為一種常態(tài)化機(jī)制,未從數(shù)據(jù)點(diǎn)的貢獻(xiàn)角度審視數(shù)據(jù),存在遺漏重要數(shù)據(jù)點(diǎn)的可能性。并且海量數(shù)據(jù)中存在大量數(shù)據(jù)質(zhì)量較低的部分,評(píng)估數(shù)據(jù)價(jià)值,根據(jù)數(shù)據(jù)重要程度高效選取數(shù)據(jù)有助于提高計(jì)算效率與預(yù)測(cè)精度。
為研究風(fēng)電系統(tǒng)中數(shù)據(jù)價(jià)值,利用數(shù)據(jù)實(shí)現(xiàn)更精準(zhǔn)的分析,本文以風(fēng)電功率預(yù)測(cè)這一場(chǎng)景為例??紤]到電力的實(shí)時(shí)供需平衡和避免浪費(fèi)等要求,預(yù)判能源的供應(yīng)成為了必不可少的環(huán)節(jié),準(zhǔn)確預(yù)測(cè)風(fēng)電功率能夠保證電網(wǎng)各個(gè)方面安全平穩(wěn)的運(yùn)行,改善風(fēng)電企業(yè)的經(jīng)濟(jì)效益。由于風(fēng)電系統(tǒng)受風(fēng)速、地形、氣壓、風(fēng)機(jī)運(yùn)行狀況等諸多不確定因素的影響,風(fēng)電功率通常呈現(xiàn)非平穩(wěn)性和隨機(jī)性[6]?,F(xiàn)有的時(shí)間序列、機(jī)器學(xué)習(xí),深度學(xué)習(xí)方法還無(wú)法實(shí)現(xiàn)對(duì)風(fēng)力發(fā)電預(yù)測(cè)的精準(zhǔn)預(yù)測(cè)。例如,Nfaoui等[7]利用ARMA對(duì)實(shí)際風(fēng)電場(chǎng)出力預(yù)測(cè)的平均誤差為21.5%。丁志勇等[8]通過(guò)聚類(lèi)和SVM模型進(jìn)行預(yù)測(cè),預(yù)測(cè)精度為83.96%。Zang等[9]利用遺傳算法優(yōu)化長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)參數(shù),準(zhǔn)確率最高為87%。
電力系統(tǒng)數(shù)據(jù)資源極為豐富,蘊(yùn)含著巨大的商業(yè)價(jià)值和支持科學(xué)決策的信息[10,11],對(duì)數(shù)據(jù)價(jià)值的評(píng)估也尤為重要。數(shù)據(jù)交易與數(shù)據(jù)資產(chǎn)流通機(jī)制的建立,為綜合利用多方數(shù)據(jù)進(jìn)行更為細(xì)粒度的預(yù)測(cè)提供了便捷條件[12]。然而,數(shù)據(jù)較于傳統(tǒng)要素具有非排他、非競(jìng)爭(zhēng)等特性,導(dǎo)致目前數(shù)據(jù)價(jià)值評(píng)估尚沒(méi)有形成統(tǒng)一范式[13]。目前經(jīng)濟(jì)學(xué)中的數(shù)據(jù)價(jià)值評(píng)估方法主要有成本法、市場(chǎng)法、收入法[14]。成本法通常低估數(shù)據(jù)價(jià)值[15];而數(shù)據(jù)市場(chǎng)建設(shè)尚不完善為市場(chǎng)法評(píng)估帶來(lái)了困難,一些學(xué)者通過(guò)設(shè)計(jì)數(shù)據(jù)交易市場(chǎng)框架,探索數(shù)據(jù)市場(chǎng)中的均衡價(jià)格對(duì)數(shù)據(jù)定價(jià)[16,17],這一類(lèi)方法多會(huì)忽視數(shù)據(jù)本身的信息屬性。
收入視角是數(shù)據(jù)價(jià)值評(píng)估的重要思路:即加總?cè)渴找嬷袛?shù)據(jù)資產(chǎn)貢獻(xiàn)的現(xiàn)金流。由于從實(shí)際場(chǎng)景中拆分?jǐn)?shù)據(jù)的回報(bào)較為困難,眾多學(xué)者選擇從數(shù)據(jù)挖掘角度,拆分?jǐn)?shù)據(jù)的作用。例如,在供應(yīng)鏈場(chǎng)景下,評(píng)估有無(wú)數(shù)據(jù)對(duì)報(bào)童模型優(yōu)化結(jié)果的影響,量化數(shù)據(jù)的貢獻(xiàn)[18,19];在醫(yī)療場(chǎng)景中,利用貝葉斯框架計(jì)算數(shù)據(jù)為決策目標(biāo)減少的不確定性,如完全信息價(jià)值(expectedvaluewithperfectinformation,EVPPI)等指標(biāo),據(jù)此平衡數(shù)據(jù)獲取的成本與收益輔助決策[20,21]。能源系統(tǒng)數(shù)據(jù)資源豐富,獲取成本低,更重要的是探索系統(tǒng)內(nèi)哪些數(shù)據(jù)在任務(wù)中更加重要。沙普利值(Shapleyvalue)是由諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主勞埃德·沙普利[22]提出,是合作博弈論中經(jīng)典的收益分配方法,其滿(mǎn)足了現(xiàn)實(shí)收益分配場(chǎng)景中一系列公平性原則,被用于評(píng)估平臺(tái)為多個(gè)利益相關(guān)者分配數(shù)據(jù)價(jià)值的應(yīng)用[23]。有些學(xué)者指出在機(jī)器學(xué)習(xí)模型中,沙普利值的計(jì)算需要指數(shù)級(jí)別的時(shí)間[24]。為了應(yīng)對(duì)計(jì)算復(fù)雜度過(guò)大的挑戰(zhàn),一些學(xué)者提出了近似計(jì)算沙普利值的算法,例如k-近鄰近似沙普利值、蒙特卡洛近似沙普利值[25,26]。在機(jī)器學(xué)習(xí)的基礎(chǔ)上,一些學(xué)者提出使用強(qiáng)化學(xué)習(xí)(DVRL)進(jìn)行數(shù)據(jù)評(píng)估,使用數(shù)據(jù)值估計(jì)器(DVE)計(jì)算數(shù)據(jù)點(diǎn)在模型訓(xùn)練中使用的可能性,與預(yù)測(cè)器模型一起自適應(yīng)地學(xué)習(xí)數(shù)據(jù)值[27]。然而,數(shù)據(jù)價(jià)值研究多基于理論與算法設(shè)計(jì),與實(shí)際場(chǎng)景結(jié)合較少,在風(fēng)電預(yù)測(cè)領(lǐng)域尚缺乏與數(shù)據(jù)實(shí)際價(jià)值結(jié)合的有效預(yù)測(cè)方法。
現(xiàn)有電力預(yù)測(cè)研究對(duì)數(shù)據(jù)的價(jià)值挖掘較少,沒(méi)有通過(guò)數(shù)據(jù)對(duì)預(yù)測(cè)工作帶來(lái)的經(jīng)濟(jì)效益進(jìn)行量化研究。本文基于數(shù)據(jù)—預(yù)測(cè)—決策—收益的框架,將系統(tǒng)中的實(shí)際收益與模型預(yù)測(cè)精度掛鉤,從而對(duì)數(shù)據(jù)的貢獻(xiàn)——其價(jià)值有更準(zhǔn)確的估計(jì)。具體而言,首先,本文構(gòu)建了考慮多種數(shù)據(jù)的風(fēng)電功率預(yù)測(cè)模型,然后使用沙普利值對(duì)發(fā)電功率預(yù)測(cè)場(chǎng)景下的數(shù)據(jù)價(jià)值進(jìn)行評(píng)估。其次,本文將從特征與樣本點(diǎn)兩個(gè)維度分析風(fēng)電歷史數(shù)據(jù)的價(jià)值,并根據(jù)高/低價(jià)值數(shù)據(jù)分析各自數(shù)據(jù)特點(diǎn),為事前的數(shù)據(jù)價(jià)值提供參考。進(jìn)一步,本文使用數(shù)值實(shí)驗(yàn)分析去除和添加不同價(jià)值數(shù)據(jù)對(duì)模型的影響,提出一種基于價(jià)值函數(shù)計(jì)算數(shù)據(jù)價(jià)值的框架,作為一項(xiàng)啟發(fā)性研究,本文可以為電力系統(tǒng)中的數(shù)據(jù)收集與動(dòng)態(tài)管理提供策略參考。
風(fēng)電場(chǎng)的經(jīng)濟(jì)收益與調(diào)度計(jì)劃息息相關(guān),調(diào)度計(jì)劃取決于對(duì)次日發(fā)電功率預(yù)測(cè)的準(zhǔn)確率和誤差,影響當(dāng)天電力市場(chǎng)的出清。因此,本文對(duì)日前功率預(yù)測(cè)與接下來(lái)的經(jīng)濟(jì)收益建立模型,表1展示了本文使用的變量列表。具體地,設(shè)t∈{0,1,…}為日期,h∈{0,1,2,…,23}為小時(shí),電力系統(tǒng)在t日h時(shí)的風(fēng)力發(fā)電功率為Pt,h。電力系統(tǒng)在第t天預(yù)測(cè)t+1天各小時(shí)風(fēng)力發(fā)電功率,設(shè)預(yù)測(cè)值為P^t+1,h,h=0,1,…,23。假設(shè)需求相對(duì)穩(wěn)定,若預(yù)測(cè)發(fā)電功率大于實(shí)際,即電力供給不足,需要通過(guò)額外調(diào)度風(fēng)電和火力發(fā)電保證電量供給。設(shè)火電發(fā)電每千瓦成本為w,針對(duì)額外調(diào)度的情況設(shè)定懲罰系數(shù)k,則預(yù)測(cè)不足情況下總成本可表示為(1+k)w。若預(yù)測(cè)發(fā)電功率小于實(shí)際:該時(shí)刻風(fēng)電處于過(guò)剩狀態(tài),此時(shí)火力發(fā)電機(jī)組根據(jù)預(yù)測(cè)值進(jìn)行了額外發(fā)電,其成本為w。假設(shè)風(fēng)電場(chǎng)每單位供電能獲得的收益為r,本文給出風(fēng)電場(chǎng)每日的收益為
表1 參數(shù)說(shuō)明
本文構(gòu)建以長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)為主體的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)短期風(fēng)電輸出。該網(wǎng)絡(luò)由多個(gè)記憶存儲(chǔ)單元連接而成,其對(duì)時(shí)間序列數(shù)據(jù)的處理過(guò)程如(2)~(7)式所示。LSTM 的主存儲(chǔ)單元基于輸入的風(fēng)電序列[Pt-7,h,Pt-3,h,Pt-2,h,Pt-1,h]、上一單元的隱藏層輸出Ht-1、輸入權(quán)重w,以及偏置b。通過(guò)輸入門(mén)it了解當(dāng)前網(wǎng)絡(luò)狀態(tài),通過(guò)遺忘門(mén)ft記憶序列的重要信息,最終利用輸出門(mén)oi更新單元中的信息,得到當(dāng)天風(fēng)電預(yù)測(cè)數(shù)據(jù)
在建立多輸入—多輸出模型時(shí),選取LSTM 作為主體,在此基礎(chǔ)上將氣象數(shù)據(jù)與風(fēng)電數(shù)據(jù)輸入不同的結(jié)構(gòu)中進(jìn)行處理,模型結(jié)構(gòu)如圖1所示。首先將歷史風(fēng)電功率(歷史3天數(shù)據(jù)與一周前數(shù)據(jù))輸入LSTM 層,抽取時(shí)間序列數(shù)據(jù)特征,再將LSTM層的輸出與氣象數(shù)據(jù)一起輸入全連接層,經(jīng)過(guò)計(jì)算輸出未來(lái)24小時(shí)的預(yù)測(cè)結(jié)果。
圖1 改進(jìn)的LSTM模型
沙普利值為了解決公平分配合作博弈得到的收益的理論[26]。沙普利值計(jì)算每位參與者的邊際收益均值決定各個(gè)參與者的合作貢獻(xiàn)
其中S為全集,n=|S|,i∈S,v是合作博弈的效用函數(shù),代表合作的收益,φz(v)表示元素z在效用函數(shù)v定義下的貢獻(xiàn),也就是元素z的沙普利值。在數(shù)據(jù)挖掘場(chǎng)景中,v一般為模型目標(biāo)函數(shù)或準(zhǔn)確率,φz(v)則為每個(gè)數(shù)據(jù)點(diǎn)對(duì)挖掘任務(wù)的貢獻(xiàn)。沙普利值具備完備、公平、可加性等特性,適合在數(shù)據(jù)—模型—價(jià)值鏈條中拆分各個(gè)數(shù)據(jù)或特征的貢獻(xiàn)。
針對(duì)風(fēng)電場(chǎng)預(yù)測(cè)場(chǎng)景,電力系統(tǒng)的收益與預(yù)測(cè)誤差高度相關(guān),本文選取Rt-R*t作為效用函數(shù)v,即
數(shù)據(jù)沙普利值的計(jì)算復(fù)雜度較高,并且算例中數(shù)據(jù)集規(guī)模較大,每一次計(jì)算“邊際效用”v(D)-v(D/{i})都需重新訓(xùn)練模型,精確計(jì)算需要消耗大量計(jì)算資源。因此,本文采取沙普利值近似算法:截?cái)嗝商乜迳称绽捣ǎ╰runcatedmonte carloShapley,TMC-Shapley)估計(jì)價(jià)值[24]。該算法利用隨機(jī)排序抽樣估算每個(gè)數(shù)據(jù)點(diǎn)的邊際貢獻(xiàn),當(dāng)部分?jǐn)?shù)據(jù)集的效用函數(shù)接近完整模型時(shí),就停止該序列的邊際貢獻(xiàn)計(jì)算,進(jìn)入下一次序列循環(huán),從而節(jié)約計(jì)算成本。
本節(jié)使用2017—2018年風(fēng)電場(chǎng)發(fā)電功率數(shù)據(jù)建立功率預(yù)測(cè)模型,并使用沙普利值方法分別評(píng)估該場(chǎng)景下的數(shù)據(jù)樣本與特征的價(jià)值,進(jìn)一步利用數(shù)值實(shí)驗(yàn)驗(yàn)證本文所選取數(shù)據(jù)價(jià)值評(píng)估方法的合理性,然后結(jié)合電力系統(tǒng)實(shí)際提出一個(gè)數(shù)據(jù)管理框架,以改善數(shù)據(jù)使用效率。
本文數(shù)據(jù)包括來(lái)自歐洲的哥白尼氣候數(shù)據(jù)庫(kù)(ERA5),為無(wú)線(xiàn)電探測(cè)的氣象現(xiàn)場(chǎng)數(shù)據(jù),采樣間隔為12小時(shí),以及2017年與2018年中國(guó)各省風(fēng)電發(fā)電量數(shù)據(jù),共17520個(gè)數(shù)據(jù)點(diǎn),采樣間隔為1小時(shí)。風(fēng)速等氣象數(shù)據(jù)是影響風(fēng)力發(fā)電的主要因素,因此本文將星期、歷史氣象數(shù)據(jù)(氣壓、溫度、風(fēng)向、風(fēng)速、風(fēng)速南北方向分量)、前3天和一周前的歷史發(fā)電功率,總計(jì)共103個(gè)特征作為模型輸入,未來(lái)24小時(shí)的風(fēng)電功率作為模型輸出。為了防止不同量綱對(duì)預(yù)測(cè)精度的影響,本文對(duì)數(shù)據(jù)進(jìn)行歸一化處理。按照8∶2的比例劃分訓(xùn)練集和測(cè)試集。
為了評(píng)估所提模型性能,本文將該模型與普通的LSTM模型、隨機(jī)森林(RF)和極限梯度提升樹(shù)(XGB)進(jìn)行比較。同時(shí)采用均方誤差(MSE)、平均絕對(duì)誤差(MAE)分析模型的誤差,采用相關(guān)系數(shù)(cor)、擬合優(yōu)度(R2)分析模型的精確度。各評(píng)價(jià)指標(biāo)的計(jì)算公式如下
其中M表示樣本數(shù)量,表示第t天h小時(shí)的預(yù)測(cè)值,Pt,h表示第t天h小時(shí)的真實(shí)值。本文對(duì)數(shù)據(jù)集中的10個(gè)省份進(jìn)行預(yù)測(cè)。為保證模型結(jié)果的魯棒性,本文選取40個(gè)隨機(jī)種子進(jìn)行重復(fù)實(shí)驗(yàn),比較各模型在所有數(shù)據(jù)集上的表現(xiàn),計(jì)算每個(gè)模型評(píng)價(jià)指標(biāo)的均值等統(tǒng)計(jì)量。如表2所示,本文提出的改進(jìn)的LSTM模型擬合優(yōu)度和相關(guān)系數(shù)最高,MSE和MAE最小,說(shuō)明本文所構(gòu)建的模型具有較好的預(yù)測(cè)效果和穩(wěn)健性。
表2 各省模型預(yù)測(cè)效果
為證明結(jié)果具備統(tǒng)計(jì)意義的顯著性,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行弗里德曼(Friedman)檢驗(yàn)。設(shè)立原假設(shè)為不同模型的效果無(wú)顯著差異,顯著性水平α=0.05,對(duì)四種模型和各項(xiàng)平均值進(jìn)行檢驗(yàn),得到χ2值和p值,如表2最后兩列所示。對(duì)于每一個(gè)評(píng)價(jià)指標(biāo),四種模型呈現(xiàn)出顯著性(p<0.01),因此拒絕原假設(shè),意味著模型效果之間呈現(xiàn)統(tǒng)計(jì)意義上的差異,說(shuō)明改進(jìn)的LSTM模型結(jié)果在統(tǒng)計(jì)意義上是較優(yōu)的。
所有省份中,遼寧、吉林、新疆、云南四個(gè)地區(qū)效果最好,其擬合優(yōu)度、相關(guān)性都處于0.90以上,預(yù)測(cè)誤差都處于0.1以下。湖北、江西、內(nèi)蒙古、山西四個(gè)地區(qū)的擬合優(yōu)度和相關(guān)性集中在[0.76,0.90]區(qū)間內(nèi),預(yù)測(cè)誤差在[0.1,0.5]范圍內(nèi)。陜西的預(yù)測(cè)準(zhǔn)確率最低僅達(dá)到0.58。西藏與其他地區(qū)相反,隨機(jī)森林和XGBoost模型取得了較好的結(jié)果,LSTM模型的準(zhǔn)確率較低。
進(jìn)一步,本文針對(duì)預(yù)測(cè)誤差與收益進(jìn)行分析。根據(jù)公式(1),結(jié)合實(shí)際情況計(jì)算每日的誤差和收益。根據(jù)當(dāng)年風(fēng)電上網(wǎng)價(jià)格與成本確定收益r為367.08元/千瓦,火力發(fā)電運(yùn)行成本w為287.30元/千瓦,懲罰系數(shù)k為0.1。
以2018年新疆為例,比較絕對(duì)誤差與收益的關(guān)系。如圖2展示了部分?jǐn)?shù)據(jù)點(diǎn),預(yù)測(cè)誤差與收益和成本的變化情況,發(fā)現(xiàn)隨著|ΔPt+1,h|的減小,收益總體呈上升趨勢(shì),成本逐漸減小。證明了預(yù)測(cè)誤差小、精確度高的日前預(yù)測(cè),能夠增加風(fēng)電場(chǎng)的收益,對(duì)其運(yùn)營(yíng)調(diào)度產(chǎn)生積極作用。
圖2 預(yù)測(cè)誤差與電力系統(tǒng)成本與收益
本文希望打通數(shù)據(jù)—模型—價(jià)值這一鏈條,對(duì)不同數(shù)據(jù)的價(jià)值進(jìn)行評(píng)估,從而得出在數(shù)據(jù)中重要的樣本或特征。由于各省數(shù)據(jù)分布、預(yù)測(cè)模型均不同,需要分別進(jìn)行評(píng)估。本文選取新疆與遼寧兩省作為實(shí)例評(píng)估數(shù)據(jù)價(jià)值,兩個(gè)省份模型表現(xiàn)較好,且新疆作為風(fēng)電大省代表西部的內(nèi)陸城市,遼寧作為東部省份的代表。由于精確計(jì)算沙普利值復(fù)雜度非常高,本文采用TMC-Shapley方法[26],使用隨機(jī)重抽樣的方式估算各點(diǎn)沙普利值。
本部分將使用沙普利值量化電力系統(tǒng)的數(shù)據(jù)價(jià)值,評(píng)估在預(yù)測(cè)任務(wù)中重要性較高的特征。同時(shí)本文選取信息熵(香農(nóng)熵)這一經(jīng)典統(tǒng)計(jì)量作為數(shù)據(jù)價(jià)值衡量的另一個(gè)角度,與沙普利值進(jìn)行對(duì)比。在實(shí)驗(yàn)中計(jì)算不同特征的沙普利值和Kozachenko和Leonenko[28]提出的估算連續(xù)特征信息熵。為了結(jié)果的真實(shí)性,每個(gè)特征至少隨機(jī)抽樣3000次,并將計(jì)算結(jié)果分別Z-score標(biāo)準(zhǔn)化以便于對(duì)比。遼寧和新疆兩省數(shù)據(jù)的計(jì)算結(jié)果如圖3所示。
圖3 不同數(shù)據(jù)特征的價(jià)值評(píng)估
圖3 中分別列出兩個(gè)數(shù)據(jù)集中不同衡量特征價(jià)值的方法比較。橫軸為預(yù)測(cè)模型使用的特征從左到右可分為5個(gè)部分:天氣特征(weather)、一周前發(fā)電功率數(shù)據(jù)(day-6)、近3天發(fā)電功率數(shù)據(jù)(day-2,1,0),縱軸為數(shù)據(jù)特征價(jià)值。如圖所示,信息熵反映出數(shù)據(jù)一定的周期性,約為24小時(shí),發(fā)電功率的波動(dòng)具有相似性,且天氣數(shù)據(jù)的價(jià)值比較低;而使用沙普利值衡量的結(jié)果中,接近預(yù)測(cè)時(shí)間節(jié)點(diǎn)的歷史數(shù)據(jù)價(jià)值較高,較為久遠(yuǎn)的歷史數(shù)據(jù)價(jià)值在0附近波動(dòng),天氣特征的數(shù)據(jù)價(jià)值同樣偏低。本文認(rèn)為一方面是單一天氣站的數(shù)據(jù)較為片面,難以體現(xiàn)全省風(fēng)力狀況,且天氣采樣時(shí)間粒度為12小時(shí),對(duì)小時(shí)級(jí)的預(yù)測(cè)任務(wù)貢獻(xiàn)不足。
進(jìn)一步,本文根據(jù)特征數(shù)據(jù)價(jià)值從高到低的順序逐步向模型中加入特征,觀(guān)察模型效果變化。如圖4所示,縱軸為電力系統(tǒng)收益損失R*t-Rt,橫軸為按順序加入模型的特征個(gè)數(shù)??梢钥闯龈鶕?jù)沙普利值(shap)順序加入特征的模型表現(xiàn)強(qiáng)于隨機(jī)(random)、熵值(entropy)順序。對(duì)比沙普利值與信息熵兩種方法,沙普利值根據(jù)效用函數(shù)的邊際貢獻(xiàn)計(jì)算,受模型影響較大,其高價(jià)值特征表現(xiàn)更好。在實(shí)踐中,沙普利計(jì)算復(fù)雜度較高,但能有效提升數(shù)據(jù)挖掘任務(wù)效果,更適用于目的明確的數(shù)據(jù)特征選擇;而信息熵計(jì)算便捷,適合在事前描述數(shù)據(jù)特征的分散程度,輔助任務(wù)不明確的數(shù)據(jù)評(píng)估。
圖4 依次加入特征模型的效果比較
對(duì)特征維度的數(shù)據(jù)價(jià)值進(jìn)行分析后,本部分重點(diǎn)考察數(shù)據(jù)點(diǎn)的沙普利值。在風(fēng)電預(yù)測(cè)場(chǎng)景下,本文使用TMC-Shapley算法給出參與訓(xùn)練模型樣本點(diǎn)的數(shù)據(jù)價(jià)值,采取與特征價(jià)值相同的方法估算沙普利值,并使用Z-score方法進(jìn)行標(biāo)準(zhǔn)化。
為了能直觀(guān)地展示“低價(jià)值”與“高價(jià)值”數(shù)據(jù)的特點(diǎn),便于“事前”(規(guī)避訓(xùn)練模型)篩選出高/低價(jià)值數(shù)據(jù),方便電力系統(tǒng)的管理。圖5展示了數(shù)據(jù)價(jià)值處于分布兩極的數(shù)據(jù)點(diǎn),左圖為低價(jià)值數(shù)據(jù),右圖為高價(jià)值數(shù)據(jù)。發(fā)現(xiàn)低價(jià)值數(shù)據(jù)在待預(yù)測(cè)時(shí)間點(diǎn)前存在比較突然的趨勢(shì)轉(zhuǎn)折,而這一趨勢(shì)轉(zhuǎn)折很可能是LSTM模型無(wú)法捕捉的部分,但這部分?jǐn)?shù)據(jù)所體現(xiàn)的特征并不典型,即無(wú)法反應(yīng)數(shù)據(jù)上風(fēng)電場(chǎng)功率大部分時(shí)間內(nèi)的變化特點(diǎn),對(duì)模型造成了干擾,這也是其價(jià)值較低的原因。而高價(jià)值數(shù)據(jù)則較為“平緩”,能夠?qū)δP皖A(yù)測(cè)起到積極作用,幫助模型學(xué)習(xí)相對(duì)可預(yù)測(cè)的未來(lái)趨勢(shì)。
圖5 高/低價(jià)值時(shí)間序列數(shù)據(jù)比較
類(lèi)似特征,利用這一順序,本文同樣選取新疆與遼寧的數(shù)據(jù),將低價(jià)值數(shù)據(jù)從數(shù)據(jù)集中按順序去除,觀(guān)察模型的表現(xiàn)變化,實(shí)驗(yàn)結(jié)果如圖6所示,其中橫軸為模型已經(jīng)移除數(shù)據(jù)的比例,縱軸為模型預(yù)測(cè)導(dǎo)致的電力系統(tǒng)收益損失R*t-Rt。
圖6 依次去除低價(jià)值數(shù)據(jù)點(diǎn)的模型效果比較
對(duì)于三種不同的數(shù)據(jù)去除順序,在依照沙普利值去除低價(jià)值數(shù)據(jù)后,模型的效果反而能夠得到提升。與之相反,信息熵順序在這一實(shí)驗(yàn)中的表現(xiàn)較差,原因可能為信息熵衡量的是“單一數(shù)據(jù)的信息量”,雖然數(shù)據(jù)的信息量大,但其信息可能與最終的預(yù)測(cè)任務(wù)不相關(guān),因此不能對(duì)最后的預(yù)測(cè)任務(wù)做出正面貢獻(xiàn)。
為驗(yàn)證沙普利值的有效性,利用遼寧、新疆?dāng)?shù)據(jù)的訓(xùn)練集驗(yàn)證沙普利值的噪聲數(shù)據(jù)檢測(cè)效果。通過(guò)隨機(jī)挑選20%數(shù)據(jù),對(duì)y施加服從標(biāo)準(zhǔn)正態(tài)的白噪聲計(jì)算沙普利值識(shí)別噪聲數(shù)據(jù),如圖7所示,根據(jù)計(jì)算出的沙普利值由低到高去除數(shù)據(jù),在去除數(shù)據(jù)的比例中,噪聲數(shù)據(jù)比例顯著高于隨機(jī)順序的數(shù)據(jù),由此說(shuō)明沙普利值方法的有效性。
圖7 利用沙普利值識(shí)別噪聲數(shù)據(jù)
利用沙普利值的上述性質(zhì),電力系統(tǒng)可以對(duì)數(shù)據(jù)在使用之前進(jìn)行初步“篩選”,保留“高價(jià)值”數(shù)據(jù)集,從而達(dá)到更高計(jì)算效率與精度。此外,沙普利值中的低價(jià)值數(shù)據(jù)可視作數(shù)據(jù)集中含有“噪聲”的數(shù)據(jù),該噪聲并非人為添加,而是系統(tǒng)實(shí)際運(yùn)行中的離群點(diǎn),在數(shù)據(jù)挖掘中應(yīng)將其去除。
在電力系統(tǒng)中數(shù)據(jù)積累迅速,但數(shù)據(jù)的使用并非多多益善,從上文算例可以看出,部分低效數(shù)據(jù)會(huì)對(duì)模型造成負(fù)面影響。因此,有效管理系統(tǒng)內(nèi)數(shù)據(jù)能夠提升數(shù)字化驅(qū)動(dòng)模式的運(yùn)行效率,更高效釋放數(shù)據(jù)中的價(jià)值。而具體到電力系統(tǒng),結(jié)合數(shù)據(jù)價(jià)值與數(shù)據(jù)實(shí)時(shí)更新的特點(diǎn),本文給出如圖8所示的高價(jià)值數(shù)據(jù)管理框架。
圖8 電力系統(tǒng)高價(jià)值數(shù)據(jù)管理框架
該框架可以使電力系統(tǒng)維護(hù)一個(gè)數(shù)據(jù)量較少的高價(jià)值數(shù)據(jù)集,該數(shù)據(jù)集以提高系統(tǒng)中的數(shù)據(jù)驅(qū)動(dòng)任務(wù)為目標(biāo),并能保證數(shù)據(jù)的實(shí)效性,避免使用全量數(shù)據(jù),降低數(shù)據(jù)計(jì)算成本。如上述流程圖所示,該框架考量離散時(shí)間下的數(shù)據(jù)更新,下面所屬期限以天為周期,具體步驟如下:
在T期時(shí):
(1)系統(tǒng)擁有上一期留存的高價(jià)值數(shù)據(jù)集合(T期高價(jià)值數(shù)據(jù)),若為初始階段,無(wú)高價(jià)值數(shù)據(jù)積累,可以視為空集。
(2)系統(tǒng)根據(jù)上述高價(jià)值數(shù)據(jù)進(jìn)行電力系統(tǒng)所需要的數(shù)據(jù)挖掘與分析,比如在本文中,使用高價(jià)值數(shù)據(jù)建立功率預(yù)測(cè)模型,預(yù)測(cè)T期風(fēng)電場(chǎng)發(fā)電功率,降低平衡供需所付出的額外成本。
(3)系統(tǒng)根據(jù)事前功率預(yù)測(cè)結(jié)果完成T期供電與調(diào)度任務(wù),獲得系統(tǒng)第T期的數(shù)據(jù)。
(4)將T期數(shù)據(jù)與上一期留存高價(jià)值數(shù)據(jù)混合。評(píng)估混合數(shù)據(jù)的價(jià)值,確定效用函數(shù),利用數(shù)據(jù)沙普利值算法或其他方法評(píng)估價(jià)值,截取價(jià)值較高數(shù)據(jù)點(diǎn)積累本期高價(jià)值數(shù)據(jù)。
在步驟(4)中,并未說(shuō)明保留數(shù)據(jù)的最優(yōu)比例,實(shí)踐中可采取如圖6所示數(shù)值實(shí)驗(yàn)確定最優(yōu)數(shù)據(jù)保留比例。根據(jù)沙普利值順序依次去除低價(jià)值數(shù)據(jù)使效用損失先降低后增加,可以根據(jù)曲線(xiàn)中的最低點(diǎn)選擇高價(jià)值數(shù)據(jù)集的大小。此外,價(jià)值評(píng)估模塊中使用的方法并不局限于沙普利值,價(jià)值函數(shù)與模型預(yù)測(cè)也可針對(duì)不同場(chǎng)景進(jìn)行遷移,能夠適應(yīng)不同的應(yīng)用場(chǎng)景。沙普利值在實(shí)際使用時(shí),需要重復(fù)計(jì)算模型、且高度依賴(lài)當(dāng)前數(shù)據(jù)集分布、無(wú)法泛化到不同的數(shù)據(jù)集。針對(duì)這一不足,本文提出幾點(diǎn)改進(jìn)思路:
(1)分析算法使用模型結(jié)構(gòu),嘗試使用不需要計(jì)算模型的函數(shù)近似原有的效用函數(shù)V,降低計(jì)算復(fù)雜度[29]。
(2)建立數(shù)據(jù)與其沙普利值的機(jī)器學(xué)習(xí)模型,使沙普利值本身具有泛化能力[30]。
(3)在(2)的基礎(chǔ)上,考慮數(shù)據(jù)分布的差異,采用遷移學(xué)習(xí)的思想,將沙普利值泛化到不同分布的數(shù)據(jù)集中[31]。
電力系統(tǒng)作為重要的數(shù)據(jù)提供者與應(yīng)用者,有效評(píng)估系統(tǒng)中的數(shù)據(jù)價(jià)值有助于數(shù)據(jù)的高效利用與數(shù)據(jù)融通。本文基于各個(gè)省份的風(fēng)力發(fā)電功率歷史數(shù)據(jù)建立各省的24小時(shí)風(fēng)電場(chǎng)發(fā)電功率多輸入—多輸出預(yù)測(cè)模型,取得了良好的預(yù)測(cè)效果。進(jìn)一步,結(jié)合電力系統(tǒng)背景,建立數(shù)據(jù)—模型—收益的鏈路聯(lián)系;使用TMC沙普利值方法評(píng)估電力系統(tǒng)的特征與數(shù)據(jù)價(jià)值,并通過(guò)實(shí)驗(yàn)證明其有效性,提出了一種能夠在預(yù)測(cè)場(chǎng)景中確定數(shù)據(jù)價(jià)值的理論框架,且該框架能夠遷移到其他場(chǎng)景下。在電力系統(tǒng)預(yù)測(cè)場(chǎng)景下的實(shí)驗(yàn)表明該框架能夠剔除低價(jià)值數(shù)據(jù)/特征有助于提升模型表現(xiàn),降低計(jì)算成本。
隨著全球數(shù)字化轉(zhuǎn)型不斷推進(jìn),數(shù)據(jù)在推動(dòng)經(jīng)濟(jì)增長(zhǎng)中起到的作用也將愈發(fā)明顯。電力系統(tǒng)擁有海量數(shù)據(jù),數(shù)據(jù)管理是其關(guān)心的重要問(wèn)題,本文在電力系統(tǒng)中對(duì)數(shù)據(jù)價(jià)值進(jìn)行了有效評(píng)估,使數(shù)據(jù)價(jià)值評(píng)估方式的具體應(yīng)用落地。本文通過(guò)數(shù)值實(shí)驗(yàn)發(fā)現(xiàn)在功率預(yù)測(cè)場(chǎng)景下,將數(shù)據(jù)估值方式應(yīng)用到場(chǎng)景中,適當(dāng)對(duì)數(shù)據(jù)進(jìn)行動(dòng)態(tài)篩選和更新,能令電力系統(tǒng)維護(hù)一個(gè)較為高價(jià)值的“數(shù)據(jù)集”,節(jié)約數(shù)據(jù)的儲(chǔ)存、管理、計(jì)算成本,提升數(shù)據(jù)使用效率。此外,高/低價(jià)值數(shù)據(jù)雖仍屬于事后價(jià)值評(píng)價(jià)方法,但能從評(píng)估結(jié)果中提煉高/低價(jià)值數(shù)據(jù)的特點(diǎn),對(duì)事前數(shù)據(jù)價(jià)值評(píng)估進(jìn)行指導(dǎo)。在算例研究中,“平緩”可能為數(shù)據(jù)高價(jià)值的因素。在其他情況下,不同的數(shù)據(jù)類(lèi)型與任務(wù)可能使數(shù)據(jù)的“高價(jià)值”特征不同,比如:回歸任務(wù)中因變量與自變量相關(guān)性更強(qiáng)的數(shù)據(jù);圖片識(shí)別場(chǎng)景下更清晰的圖片;分類(lèi)任務(wù)中更接近分類(lèi)超平面的數(shù)據(jù)??傮w而言,高價(jià)值數(shù)據(jù)點(diǎn)通常更能體現(xiàn)模型挖掘的知識(shí)。而且,通過(guò)建立數(shù)據(jù)點(diǎn)與其價(jià)值的預(yù)測(cè)模型也能進(jìn)一步尋找數(shù)據(jù)的價(jià)值規(guī)律,有助于將評(píng)估事前價(jià)值、數(shù)據(jù)價(jià)值評(píng)估泛化。本文在3.5節(jié)中給出數(shù)據(jù)價(jià)值評(píng)估驅(qū)動(dòng)下的電力系統(tǒng)數(shù)據(jù)管理機(jī)制設(shè)計(jì),將數(shù)據(jù)估值與挖掘進(jìn)行有機(jī)結(jié)合,為電力系統(tǒng)中的數(shù)據(jù)治理提供了新的思路。