延 菲,張瑞祥,孫耀杰,3,康 巍,張 健,孫 潔,李琦芬
(1. 復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433; 2. 復(fù)旦大學(xué) 六次產(chǎn)業(yè)研究院,上海 200433; 3. 上海綜合能源 系統(tǒng)人工智能工程技術(shù)研究中心,上海 200433; 4. 中國(guó)質(zhì)量認(rèn)證中心 新能源風(fēng)電部,北京 100070;5. 上海明華電力科技有限公司,上海 200090; 6. 陜西省能源局,陜西 西安 710006;7. 上海電力大學(xué) 能源與機(jī)械工程學(xué)院,上海 200090)
非侵入式負(fù)荷監(jiān)測(cè)通過(guò)數(shù)據(jù)分析技術(shù)將用戶總能耗分解到每一個(gè)用電設(shè)備,從而獲得設(shè)備級(jí)的用電詳情.詳細(xì)的能耗清單不僅可以引導(dǎo)用戶改善用電習(xí)慣,減少用電費(fèi)用,還有助于電力公司分析用戶負(fù)荷的組成[1],對(duì)于需求側(cè)精細(xì)化管理和實(shí)施需求響應(yīng)具有重要意義.
目前對(duì)于負(fù)荷識(shí)別的研究主要集中于提升識(shí)別精度,但是促進(jìn)非侵入式負(fù)荷監(jiān)測(cè)技術(shù)在居民用戶側(cè)的推廣除需提升精度外,負(fù)荷識(shí)別算法的實(shí)現(xiàn)成本和實(shí)時(shí)性也是需要考慮的因素.本文以改進(jìn)k最近鄰(k-Nearest Neighbor, kNN)算法為負(fù)荷識(shí)別模型,研究了輸入側(cè)數(shù)據(jù)與負(fù)荷識(shí)別效果間的關(guān)系.首先通過(guò)實(shí)驗(yàn)尋找能夠獲得最佳識(shí)別精度的負(fù)荷特征組合,然后研究了數(shù)據(jù)采樣頻率及V-I軌跡分辨率對(duì)識(shí)別效果的影響,找出識(shí)別結(jié)果不再發(fā)生顯著變化的頻率和分辨率的臨界點(diǎn),有助于降低降低硬件成本、提升負(fù)荷識(shí)別算法的實(shí)時(shí)性.
1) 形狀特征
電壓-電流(V-I)軌跡是指取用電設(shè)備穩(wěn)定運(yùn)行過(guò)程中一個(gè)周期的電壓和電流數(shù)據(jù),以電壓為橫坐標(biāo),電流為縱坐標(biāo)繪制而成的軌跡.根據(jù)前端電路拓?fù)浣Y(jié)構(gòu)的不同,用電設(shè)備可分為7個(gè)類別[2],每個(gè)類別內(nèi)用電設(shè)備的V-I軌跡具有相似的形狀[3],因此根據(jù)這一特征,可基本完成用電設(shè)備大類的劃分,然后再利用其他特征在7個(gè)類別內(nèi)部進(jìn)行二次分類.軌跡可用不對(duì)稱性、循環(huán)方向、面積、平均線曲率、自交叉、中段坡度、左段和右段面積等特征來(lái)描述[4],通過(guò)數(shù)學(xué)計(jì)算可量化以上特征[5],但是數(shù)學(xué)量化方法在提取特征時(shí)需要多次遍歷數(shù)據(jù)點(diǎn),運(yùn)算量大且容易受噪聲和異常值的影響,因此本文采用計(jì)算復(fù)雜度低且魯棒性更好的映射方法[3]將原始V-I軌跡轉(zhuǎn)化為指定維度的二值矩陣,把軌跡經(jīng)過(guò)的位置設(shè)置為黑色,標(biāo)記為0,其他位置設(shè)置為白色,標(biāo)記為1.
雖然二值V-I軌跡是一種可高效區(qū)分用電設(shè)備大類的特征[6],但是由于在電流中,有功電流的比例大于無(wú)功電流,導(dǎo)致V-I軌跡的形狀取決于有功電流[7].為了增加更多細(xì)節(jié)信息,電壓-無(wú)功電流(V-If)軌跡[8]開(kāi)始應(yīng)用于負(fù)荷識(shí)別.根據(jù)Fryze的功率理論[9],電流波形可分解為有功電流和無(wú)功電流,即:
i(t)=ia(t)+if(t).
(1)
其中:ia(t)為有功電流,定義為負(fù)荷電流在電壓方向上的正交投影,有功功率為交流電路中一個(gè)周期(T)內(nèi)瞬時(shí)功率的平均值,分別為
(2)
(3)
式中:Pactive為有功功率;Vrms為電壓u(t)的有效值,rms指均方根;i(t)為電流,無(wú)功電流為
(4)
2) 幅值特征
幅值特征包括基波有功功率P,基波無(wú)功功率Q,基波電流幅值和3、5、7次諧波電流幅值.
采用加權(quán)改進(jìn)型kNN算法[10]作為負(fù)荷識(shí)別模型,由于采用單一特征和組合特征時(shí),計(jì)算相似度的方法有所不同,以下對(duì)兩種情形下的負(fù)荷識(shí)別的流程做簡(jiǎn)要敘述.
1.2.1 單一特征的負(fù)荷識(shí)別方法
當(dāng)選取的負(fù)荷特征為單一特征(以功率、電流作為特征或以軌跡形狀作為特征)時(shí),負(fù)荷識(shí)別的過(guò)程如下:
1) 對(duì)于待測(cè)樣本a,計(jì)算a與所有訓(xùn)練樣本的相似度,取相似度最大的K個(gè)訓(xùn)練樣本作為a的K最近鄰;
2) 分別計(jì)算a與K個(gè)最近鄰中各類別的相似度之和,與a的總相似度最大的類被認(rèn)定為樣本a的類別,如樣本a與類別C的總相似度
(5)
式中:Tj表示待測(cè)樣本a的第j個(gè)K最近鄰,若Tj屬于類別C,則a與C的總相似度增加;weight(Tj)為訓(xùn)練樣本Tj的權(quán)重,且
weight(Tj)=1/size(CTj).
(6)
式中:size(CTj)表示Tj所屬類別包含的訓(xùn)練樣本的數(shù)目.
1.2.2 組合特征的負(fù)荷識(shí)別方法
當(dāng)選取的負(fù)荷特征為組合特征(形狀特征與幅值特征的組合)時(shí),負(fù)荷識(shí)別的過(guò)程如下:
1) 計(jì)算待測(cè)樣本a與所有訓(xùn)練樣本的形狀相似度和幅值特征相似度,分別記為Sim1和Sim2;
2) 取Sim1最大的K個(gè)訓(xùn)練樣本作為當(dāng)前測(cè)試樣本的K最近鄰;
3) 計(jì)算當(dāng)前測(cè)試樣本與K最近鄰Tj(j=1,2,…,K)的軌跡特征和幅值特征的綜合相似度
Sim(a,Tj)=Sim1(a,Tj)×weight(Tj)+Sim2(a,Tj);
(7)
4) 計(jì)算待測(cè)樣本與K個(gè)最近鄰中各類的總綜合相似度,取總綜合相似度最大的類作為預(yù)測(cè)結(jié)果.
利用PLAID數(shù)據(jù)集[11]進(jìn)行實(shí)驗(yàn)研究.PLAID數(shù)據(jù)集包含56個(gè)家庭11類常用電器的電流和電壓數(shù)據(jù),共有235個(gè)設(shè)備的1 094組數(shù)據(jù),采樣頻率為30 kHz.按照4∶1劃分訓(xùn)練集和測(cè)試集,進(jìn)行5次測(cè)試,評(píng)價(jià)指標(biāo)取5次測(cè)試結(jié)果的平均值.
使用macro_F1作為負(fù)荷識(shí)別效果的評(píng)價(jià)指標(biāo),計(jì)算公式[12]如下:
(8)
(9)
式中:n為分類問(wèn)題中類別的數(shù)目;Pm和Rm分別為類別m的精確率(Precision)和召回率(Recall).
本節(jié)實(shí)驗(yàn)將特征提取環(huán)節(jié)獲得的形狀特征和幅值特征組合為6組負(fù)荷特征,分別以這6組特征為輸入,以改進(jìn)kNN算法為負(fù)荷識(shí)別模型,對(duì)PLAID數(shù)據(jù)集中的11類用電設(shè)備進(jìn)行分類.6組特征的詳情如下:
① 基波有功-無(wú)功(PQ)特征;② 幅值特征;③V-I軌跡;④V-If軌跡;⑤V-I軌跡與幅值特征的組合;⑥V-If軌跡與幅值特征的組合.其中兩種軌跡的分辨率均為28×28,即映射過(guò)程中設(shè)置N=14.以上6組特征中: ①~④為單一特征,識(shí)別流程如1.2.1節(jié)所述;⑤~⑥為組合特征,識(shí)別流程如1.2.2節(jié)所述.圖1為加權(quán)kNN算法對(duì)6組負(fù)荷特征的識(shí)別效果,其中兩種軌跡與幅值特征的組合識(shí)別效果最好,macro_F1隨K值增大沒(méi)有出現(xiàn)明顯下降,較為穩(wěn)定.由于無(wú)功電流的提取需要對(duì)有功電流進(jìn)行計(jì)算,因此本文實(shí)驗(yàn)中,最佳負(fù)荷特征為V-I軌跡和幅值特征的組合.
圖1 不同特征組合下負(fù)荷識(shí)別算法的macro_F1值Fig.1 macro_F1 of load identification algorithm under different feature combinations
上文通過(guò)實(shí)驗(yàn)篩選出唯一性較強(qiáng)的負(fù)荷特征為V-I軌跡與幅值特征的組合,當(dāng)3≤K≤24時(shí),macro_F1>93%.為進(jìn)一步優(yōu)化負(fù)荷識(shí)別算法,在保持高macro_F1的前提下降低硬件成本、提升負(fù)荷識(shí)別的實(shí)時(shí)性,下面探究數(shù)據(jù)采集頻率和V-I軌跡分辨率對(duì)負(fù)荷識(shí)別算法的影響.
將原始的30 kHz的數(shù)據(jù)通過(guò)重采樣降至24.0、18.0、12.0、6.0、4.8、2.4和1.2 kHz,然后提取V-I軌跡特征和幅值特征,執(zhí)行1.2.2節(jié)所述的負(fù)荷識(shí)別方法,圖2(見(jiàn)第814頁(yè))為實(shí)驗(yàn)結(jié)果.采樣頻率為1.2 kHz時(shí),macro_F1位于最下方,最高宏平均F1值不足80%,原因在于采樣率為1.2 kHz時(shí),一個(gè)周期僅有20個(gè)采樣點(diǎn),二值V-I軌跡出現(xiàn)明顯的離散現(xiàn)象,采樣頻率大于等于6.0 kHz后,二值V-I軌跡連續(xù),macro_F1隨著采樣頻率的增加不再方法顯著變化.
圖2 不同采樣頻率下負(fù)荷識(shí)別算法的macro_F1值Fig.2 macro_F1 of load identification algorithm at different sampling frequency
kNN算法的時(shí)間復(fù)雜度為:
O(T×D).
(10)
式中:T為訓(xùn)練樣本數(shù)目;D為樣本特征的維度,包括二值V-I軌跡的維度和幅值特征的維度,其中二值V-I軌跡的維度為2N×2N(當(dāng)N=14時(shí),軌跡維度為28×28=784),而幅值特征的維度僅為6維,相較于分辨率,幅值特征可忽略不計(jì),因此減少負(fù)荷識(shí)別階段時(shí)間復(fù)雜度的方法主要考慮降低V-I軌跡的分辨率,圖3為不同分辨率下負(fù)荷識(shí)別算法的macro_F1值.
由圖3(a)可知,各分辨率下macro_F1隨著K值的增大都較為穩(wěn)定,圖3(b)觀察了K=15剖面macro_F1的變化趨勢(shì),當(dāng)N=12時(shí)macro_F1=94.15%,且隨著N值的增大不再發(fā)生明顯變化.
對(duì)不同N值下單樣本的識(shí)別時(shí)間進(jìn)行統(tǒng)計(jì),結(jié)果如表1所示.當(dāng)N=12時(shí),識(shí)別一個(gè)樣本用時(shí)16.00 ms,相較于N=14時(shí),識(shí)別節(jié)省了18%的時(shí)間.
表1 不同N值下單樣本的識(shí)別時(shí)間Tab.1 Identification time of single sample with different N values
數(shù)據(jù)采集頻率、負(fù)荷特征的唯一性和維度是影響硬件成本、識(shí)別精度和實(shí)時(shí)性的重要因素,本文采用改進(jìn)kNN算法為負(fù)荷識(shí)別模型,以負(fù)荷特征、采樣頻率和V-I軌跡分辨率為自變量,通過(guò)實(shí)驗(yàn)研究了三者對(duì)負(fù)荷識(shí)別效果的影響,得出以下結(jié)論:
1) 軌跡特征與幅值特征的組合相較于單一特征唯一性較強(qiáng),且隨著K值增大,macro_F1保持在93%附近,識(shí)別效果穩(wěn)定;
2) 采樣頻率和分辨率臨界點(diǎn)分別為:f采樣=6.0 kHz和N=12,在這一臨界點(diǎn)之上進(jìn)行的基于kNN算法的負(fù)荷識(shí)別方法可以獲得較好的結(jié)果.