孟令奎,段紅偉,黃長青,孫 琤
(1.武漢大學 遙感信息工程學院,湖北 武漢 430079;2.中兵勘察設計研究院,北京 100053)
典型日對于電力負荷特性的研究具有重要的意義,通過典型日負荷曲線可以分析地區(qū)用電特點和影響因素,預估負荷特性變化趨勢。目前,典型日負荷曲線的選取方法沒有統(tǒng)一的規(guī)定,主要是從簡單實用的角度出發(fā)或選取某一特定日,或基于簡單的加權(quán)平均,在時段代表性和區(qū)域通用性上效果不太理想[1]。有學者利用數(shù)據(jù)挖掘和人工智能技術(shù)來解決上述不足,文獻 [2]基于最短距離聚類與關(guān)聯(lián)度分析來優(yōu)化典型日負荷曲線的選取,文獻 [3]利用K均值聚類算法,在相關(guān)指數(shù)基礎上提取日負荷特征曲線。還有學者[4~6]采用了其他魯棒性更好的算法來提高聚類的精度,進而優(yōu)化典型日負荷曲線的提取。由于在時段和區(qū)域關(guān)聯(lián)分析上缺少潛在性語義分析,上述方法在時段和區(qū)域的通用性上靈活性不夠。
概率潛在語義分析模型 (Probabilistic Latent Semantic Analysis,PLSA)是一種自然語言處理(NLP)技術(shù),最初用于提取文檔的語義信息來實現(xiàn)文檔主題提取和分類,目前已經(jīng)廣泛用于圖像聚類[7~9]、場景標注和分類[10]等方面。
本文將典型日負荷曲線的選取問題轉(zhuǎn)化為基于統(tǒng)計學習的多元分類問題,利用PLSA模型將其他典型日負荷曲線提取結(jié)果作為初始特征輸入,然后對電力負荷數(shù)據(jù)進行語義潛在分析,通過概率學習來優(yōu)化典型日負荷曲線的選取。
PLSA模型[11]由 Hofmann提出,最早用于統(tǒng)計文本分析。PLSA通過分析由文檔和詞匯形成的共生矩陣,利用期望最大化算法 (Expectation Maximization,EM)來訓練隱含類,從而獲取文檔與詞匯的語義信息。
PLSA概率生成模型如圖1所示,其中方框表示隨機變量的重復,字母N和M表示有N個目標,每個目標可以用M個特征來描述。假定M個特征組成一組特征集 W={w1,w2,…,wm},其描述的N個目標形成一個目標集為 D={d1,d2,… ,dn},D和W形成一個 N×M的共生矩陣 T=(t(wi,dj))ij,其中 t(wi,dj) 表示特征 wi在目標 dj中出現(xiàn)的頻率。共生矩陣T中,每一對觀測數(shù)據(jù)(wi,dj) 與一組潛在語義主題 Z={z1,z2,…,zk}相關(guān),其中k為人為指定的一個常數(shù)。
PLSA在上述描述基礎上建立了一個生成式模型 (generative model),每對 (wi,dj)都由下述過程產(chǎn)生。
(1)首先根據(jù)目標dj在目標集D中出現(xiàn)的分布概率P(dj)從D中隨機抽樣選擇一個目標dj;
(2)選定 dj后,根據(jù) dj的主題 zk分布概率P(zk|dj)抽樣選擇dj的語義主題zk;
(3)選定語義主題zk后,根據(jù)P(wi|zk)選擇 dj的特征詞 wi。
上述過程中每組觀測數(shù)據(jù) (wi,dj)條件概率可以采用聯(lián)合概率模型來描述其概率分布,具體公式如式 (1)和式 (2)所示。
圖1 PLSA概率生成模型圖Fig.1 The chart of PLSA probabilistic generative model
P(w|z)和P(z|d)通過極大似然函數(shù)求解,函數(shù)定義如式 (3)[12]所示。
似然函數(shù)L的最大化需要采用期望極大化(EM)算法進行多次迭代,當滿足收斂條件時停止迭代,獲得文檔與詞匯的語義信息。
EM算法在兩個步驟交替,即 E-Step和 MStep。E-Step利用當前估計的參數(shù)值計算潛在主題zk的后驗概率 P(zk|wi,dj),如式(4)所示;M-Step基于所給后驗概率更新參數(shù)值P(wi|zk)和P(zk|dj)。
同其它數(shù)據(jù)挖掘和人工智能方法相比,PLSA模型的優(yōu)勢在于可以將這些方法的結(jié)果作為初始輸入,通過概率分析找到潛在的類別信息,從而進一步優(yōu)化目標識別和分類,并能建立識別和分類模型。
圖2為基于PLSA的典型日選取方法流程圖。如圖2所示,將PLSA模型應用于典型日負荷曲線選取時包括以下幾個步驟。
(1)構(gòu)建特征詞-目標矩陣
首先利用適當?shù)牟呗?,如特殊日法、加?quán)平均法、智能算法或綜合方法生成一組典型日。然后綜合考慮聚多種因素,將典型日進行初始選取,選取結(jié)果形成一個觀測特征詞集合。根據(jù)電力負荷曲線結(jié)合的時間特性,對其進行時段劃分,形成目標文檔。最后將目標文檔中的各電力負荷曲線同觀測特征值進行閾值計算,統(tǒng)計各文檔中觀測特征值的頻數(shù),獲取特征詞-目標共生矩陣。
(2)計算文檔中特征詞的主題
PLSA模型計算主題時,首先需要確定主題(即聚類的類別)的數(shù)目,通過采用最優(yōu)指標算法來求解最佳主題數(shù),從而形成最優(yōu)的聚類結(jié)果。然后根據(jù)主題數(shù)目和特征詞-目標共生矩陣計算PLSA模型參數(shù)P(wi|zk),P(zk|dj)和P(zk|wi,dj),P(zk|wi,dj) 是一個 3 維矩陣,從中可以獲得每個目標文檔中特征詞的潛在主題。
(3)獲取各電力負荷曲線的主題
在 (1)中,電力負荷曲線同特征詞的對應關(guān)系可以通過哈希表進行記錄,通過兩者的對應關(guān)系,可以從P(zk|wi,dj)中獲得各電力負荷曲線的潛在主題,從而可以對日負荷曲線進行新的類別劃分,形成新的聚類。
(4)基于策略獲取典型日簇
在求得的電力負荷曲線類別簇中,根據(jù)實際情況可以采用不同的典型日選取策略,從而建立進而獲得各類別簇的典型日。這些典型日形成典型日簇,能夠代表時段內(nèi)不同時期的典型電力負荷。
圖2 基于PLSA的典型日選取方法流程圖Fig.2 Typical day load selection flow chart based on PLSA
本文實驗所用數(shù)據(jù)為某地區(qū)2007全年統(tǒng)調(diào)負荷曲線,每日負荷曲線為96個采樣點,即采樣間隔15 min。初始的典型日采用K均值法聚類方法對上述數(shù)據(jù)計算求得。
原始數(shù)據(jù)由EMS(Energy Manage System)系統(tǒng)自動采集獲取,可能出現(xiàn)個別采樣點缺失、激變性壞數(shù)據(jù),因此在使用數(shù)據(jù)前需進行數(shù)據(jù)預處理。圖3為經(jīng)過通過臨近負荷曲線分析,通過內(nèi)插得到的預處理結(jié)果。
圖3 預處理后日負荷曲線簇Fig.3 preprocessing Typical Day Load Curves
為了建立特征詞-目標文檔矩陣,本文首先基于K均值聚類方法,以聚類數(shù)為25得到25條聚類負荷曲線,每個聚類負荷曲線作為一個特征詞;然后將2007年全年負荷曲線按照季度劃分,從而建立4個觀測目標文檔;最后計算各特征詞在目標文檔中出現(xiàn)的頻數(shù),從而建立特征詞-目標文檔共生矩陣。
表1為建立4×25的目標 -特征詞共生矩陣,矩陣單元代表了特征詞在目標中出現(xiàn)的頻數(shù)。
表1 4×25目標文檔-特征詞共生矩陣Tab.1 4 × 25 target document-characteristic words co-occurrence matrix
PLSA模型計算中主題數(shù)目直接影響聚類結(jié)果。為了得到最佳的聚類結(jié)果,本文采用Davies-Bouldin(DB)[13]對聚類主題進行分析。DB是關(guān)于聚類內(nèi)部緊致性和聚類之間分離度的有效性函數(shù),其函數(shù)表達式如下式所示。
式中:k表示聚類個數(shù);Si獲取聚類內(nèi)部的緊致性;Bij獲得聚類之間分離度;DB值最小的k值表示最優(yōu)化主題數(shù)目。
圖4為不同聚類主題數(shù)同DB指標關(guān)系圖,從圖中可以看出,聚類主題數(shù)取2時,DB指標最高,代表聚類效果差。當聚類主題數(shù)大于3時,指標下降并基本趨于穩(wěn)定。根據(jù)實際工作分析,本文選取聚類主題數(shù)k=5作為PLSA模型的主題數(shù)。
圖4 聚類主題數(shù)同DB指標關(guān)系Fig.4 The relationship between cluster number and DB Index
PLSA通過 EM迭代計算,其中 E-Step迭代計算潛在主題 zk的后驗概率P(zk|wi,dj),M-Step基于P(zk|wi,dj)更新參數(shù)值P(wi|zk)和P(zk|dj)。在迭代過程中,利用上述參數(shù)計算 Log似然度,當滿足收斂條件時停止迭代。
(1)收斂條件設定
為了設定收斂條件,假設PLSA第i(i>1)次迭代計算的 Log似然度 L(i),dL(i)為 L(i)和L(i-1)的差值。當dL(i)小于設定的閾值時則迭代結(jié)束。
圖5為閾值設定為0.01時,dL的變化趨勢。當?shù)螖?shù)為34時,dL小于閾值,迭代結(jié)束。由于迭代計算中,各計算概率首先基于隨機參數(shù),所以在迭代初期,dL的數(shù)值和變化較大,隨著跌代數(shù)的增加,其數(shù)值和變化越來越小。
圖5 dL迭代變化圖Fig.5 dL iteration chang chart
(2)Log似然度
Log似然度計算是PLSA模型計算的重要步驟,它不僅用于計算P(w|z)和P(z|d)概率參數(shù),同時也關(guān)系到迭代計算的收斂。
圖6為Log似然度隨迭代變化圖,其中橫坐標代表代表迭代次數(shù),縱坐標代表Log似然度。為了描述方便,本文將Log似然度進行歸一化處理。
圖6 Log似然度迭代變化圖Fig.6 Log-Likelihood iteration change chart
可以看出,從第1次到第13次迭代,Log似然度收斂很快,而當?shù)螖?shù)大于等于30的時候,Log似然度變化很小,基本上不再變化。表2為30至34迭代的歸一化Log似然度同dl的對照表。
表2 30~34迭代的歸一化Log似然度同dl的對照表Tab.2 30 ~ 34 iteration comparison chart of Normalized Log-Likelihood and dl values
通過PLSA模型計算,可以獲得最終的概率參 數(shù), 包 括 P(zk|wi,dj),P(wi|zk) 和P(zk|dj)。而P(zk|wi,dj)為 4×25×5的三維矩陣,記錄了每個目標文檔中特征詞的潛在主題的概率。由于初始聚類時,各電力負荷曲線同特征詞之間具有對應關(guān)系,因此可以通過對應關(guān)系獲得各電力負荷曲線的潛在主題,形成新的聚類,進而在各聚類中選取典型日。
在各聚類中選取典型日,需根據(jù)實際工作情況,通過一定的選取策略獲得典型日負荷。這些策略一般基于最大負荷日,或者基于固定工作日,或者依據(jù)選擇一定天數(shù)的日負荷曲線進行加權(quán)計算獲得,或者利用人工智能算法來獲取典型日,由于人工智能算法能夠減少隨機因素和主觀因素的影響,本文基于距聚類中心的平方差最小的選取方法來提取出最具代表性的負荷曲線。圖7為歸一化后的選取結(jié)果,5條典型日負荷曲線分別為2007年的2月23日、3月11日、5月30日、9月8日、11月5日。
圖7 歸一化后的典型日負荷曲線Fig.7 Normalized Typical Day Load Curve
在分析2007年氣候和節(jié)假日狀況后發(fā)現(xiàn),2月22日處于春節(jié)長假期間,而其他4條日負荷曲線則反映2007年的春、夏、秋、冬4個季節(jié)的電力負荷特征??梢钥闯霰疚姆椒ㄕ_有效,能夠較好的反映節(jié)假日、氣候等要素對電力負荷的影響,同時由于采用了概率分析的方法,減少了主觀和隨機因素,對時間和區(qū)域的適應性較好。
本文將典型日負荷曲線的選取問題轉(zhuǎn)化為基于統(tǒng)計學習的多元分類問題,并將PLSA引入到問題求解過程中,在 K均值聚類算法和 Davies-Bouldin指標的基礎上,利用PLSA模型對電力負荷數(shù)據(jù)進行語義潛在分析,從而優(yōu)化典型日負荷曲線的選取。實驗表明,本文方法選取的典型日合理,能夠較好的反映節(jié)假日、氣候等要素對電力負荷的影響,適應于任意時段電力負荷曲線的選取。
然而同圖像、文本聚類相比,目前電力負荷曲線的聚類效果沒有具體的量化指標,而且典型日選擇時需要綜合考慮各種情況,帶有一定的預測性質(zhì),因此給出電力負荷曲線聚類質(zhì)量的量化指標較為困難,也是進一步研究的內(nèi)容。
[1]牛東曉,曹樹華,盧建昌,等.電力負荷預測技術(shù)及其應用 (第二版) [M].北京:中國電力出版社,2009.
[2]蔡國偉,王大亮,王燕濤,等.一種基于最短距離聚類與關(guān)聯(lián)度分析的典型日選取新方法 [J].中國電力,2008,41(04):15-18.
[3]劉莉,王剛,翟登輝.k-means聚類算法在負荷曲線分類中的應用 [J].電力系統(tǒng)保護與控制,2011,39(23):65-73.
[4]黎祚,周步祥,林楠.基于模糊聚類與改進BP算法的日負荷特性曲線分類與短期負荷預測 [J].電力系統(tǒng)保護與控制,2012,40(3),56-60.
[5]李智勇,吳晶瑩,吳為麟,等.基于自組織映射神經(jīng)網(wǎng)絡的電力用戶負荷曲線聚類 [J].電力系統(tǒng)自動化,2008,32(15):70-74.
[6]蔡佳宏,劉俊勇.超短期負荷預測中相似日的選擇方法 [J].華北電力大學學報 (自然科學版),2006,33(1):38-41.
[7]Yi W B,Tang H,Chen Y H.An object-oriented semantic clustering algorithm for High-resolution remote sensing images using the aspect model[J].IEEE Geoscience ang Remote Sensing Letters,2011,8(03):522-526.
[8]陶超,譚毅華,彭碧發(fā),等.一種基于概率潛在語義模型的高分辨率遙感影像分類方法 [J].測繪學報,2011,40(2):156-162.
[9]劉夢玲,何楚,蘇鑫,等.基于 pLSA和 Topo-MRF模型的SAR圖像分類算法研究 [J].武漢大學學報 (信息科學版),2011,36(1):122-125.
[10]江悅,潤生.基于多特征擴展 PLSA模型的場景圖像分類 [J].信號處理,2010,26(4):539-544.
[11]Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(2):177-196.
[12]鄭肇葆,鄭宏.利用PLSA技術(shù)進行圖像分割 [J].武漢大學學報 (信息科學版),2012,37(2):132-135.
[13]白素琴,吳小俊.基于模糊聚類算法的有效性指標[J].江南大學學報 (自然科學版),2007,6(6):878-882.