摘 要:
在電力企業(yè)同業(yè)對標管理中,K-means聚類算法作為一種無監(jiān)督分類算法,無需任何先驗知識就能夠?qū)崿F(xiàn)對企業(yè)的分類功能,確立標桿企業(yè)。但是,K-means算法的聚類數(shù)目k和初始聚類中心都需要人為事先給出。為了解決這些不足,提出了一種對K-means聚類改進算法:先分別通過兩階聚類法和最大距離法確定聚類數(shù)目和初始聚類中心,然后再使用K-means算法完成聚類。通過實例表明此算法可以選出優(yōu)秀企業(yè),并能發(fā)現(xiàn)其他企業(yè)與標桿企業(yè)之間的差距。
關(guān)鍵詞:
同業(yè)對標;兩階段聚類;最大距離法;K-means
中圖分類號:F27
文獻標識碼:A
文章編號:16723198(2015)16006903
1 引言
同業(yè)對標管理作為電力企業(yè)管理模式的創(chuàng)新應用,通過選定最強競爭性的標桿企業(yè),使得其他企業(yè)發(fā)現(xiàn)自身管理上的優(yōu)勢和劣勢,從而加強電力企業(yè)的供電服務,提高電力企業(yè)運行管理水平。在眾多電力企業(yè)中如何選擇標桿企業(yè)在同業(yè)對標管理中是至關(guān)重要的。因此,許多學者對此提出了各種模型與方法。
Borge Hess,Astrid Cullmann將非參數(shù)的數(shù)據(jù)包絡分析(DEA)和參數(shù)的隨機前沿分析(SFA)方法應用于同業(yè)對標中,對比分析了德國東部電力公司和西部電力公司的輸電效率指標,結(jié)果證實了兩家電力公司在技術(shù)差異上的穩(wěn)健性;楊大晟、馮瑞明和吳大軍等運用灰色局勢決策模型對所轄某縣供電公司12個供電所對標數(shù)據(jù)進行了分析計算,詳解了標桿單位選擇方法,較好地解決了供電所標桿單位選取問題,是電力企業(yè)開展同業(yè)對標管理的有益探索和實踐;薛萬磊,劉曉立和李雪亮等提出鑒于K-means的聚類算法在電力企業(yè)同業(yè)對標中的應用,以供電質(zhì)量為指標對各省電力公司進行企業(yè)分類,確定標桿企業(yè),并尋求與行業(yè)標桿企業(yè)之間的差距;劉曉立提出引力搜索和K-means算法相結(jié)合的混合聚類算法在電力企業(yè)同業(yè)對標中的應用,并通過實際電力公司的對標驗證該算法的有效性和可行性。
K-means聚類算法雖然簡單高效,但是聚類結(jié)果對初始聚類中心十分敏感,并且用戶必須事先給出聚類數(shù)目和初始聚類中心,而人為確定初始聚類中心往往使得聚類結(jié)果產(chǎn)生誤差。因此,為了解決這些缺點,提出了一種基于改進的K-means算法,先通過使用兩階聚類法確定聚類數(shù)目,然后利用最大距離法選定初始聚類中心,最后運用K-means算法根據(jù)各省供電質(zhì)量指標數(shù)據(jù)對這13個省電力公司進行聚類,優(yōu)選出專業(yè)標桿,并找出其他電力公司與專業(yè)標桿之間的不足和差距,有助于電力公司提高工作效率和企業(yè)的管理建設。
2 原K-means算法
2.1 算法基本思想
K-means屬于一種無監(jiān)督學習算法,適合處理大樣本數(shù)據(jù)。需要事先制定分類數(shù)k,并選擇k個初始聚類中心,根據(jù)數(shù)據(jù)點到初始聚類中心距離最小的原則將其他數(shù)據(jù)分配到這k個類中。然后計算每一個類中數(shù)據(jù)點距離初始聚類中心點的平均值,從而得到新的k個聚類中心。若新的聚類中心與上一次迭代的聚類中心的準則函數(shù)沒有明顯變化,則聚類結(jié)束。否則,就進入下一個迭代,再次計算此聚類中心之外的每個數(shù)據(jù)點與它的距離,并將不同對象歸到與自身距離最近的類中。算法的計算結(jié)果依賴于初始聚類中心的選擇,準確地選取初始中心將大大縮減迭代步驟。
2.2 算法基本步驟
3 改進的K-means算法
3.1 算法思想
因為兩階段聚類算法是通過構(gòu)造聚類特征樹和貝葉斯信息判別式自動確定最優(yōu)聚類數(shù),且最大距離法是利用取盡可能離得遠的對象作為聚類中心的思想提高劃分初始數(shù)據(jù)集的效率,因此改進的K-means算法通過兩階段聚類算法和最大距離法客觀確定最優(yōu)聚類數(shù)和初始聚類中心。
該算法的主要思想是:通過兩階段聚類算法和計算BIC自動確定最優(yōu)聚類數(shù),根據(jù)最大距離法確定初始聚類中心,最后通過K-means將電力企業(yè)根據(jù)指標數(shù)據(jù)聚類,選出標桿企業(yè)。
3.2 算法基本步驟
由于改進的K-means算法只是增加了確定聚類數(shù)目和初始聚類個數(shù)的算法,聚類步驟與原K-means算法相似,因此聚類步驟在此不再贅述。
改進的K-means算法具體步驟如下:
設d維樣本集X=[x1,x2,…,xN]T為輸入樣本。
(1)采用Birch算法對所有樣本點預聚類,生成CF樹。
(2)根據(jù)預聚類的CF-tree進行凝聚的層次聚類。
(3)計算聚類方案的BIC,BIC的變化率和距離測度的變化率。BIC值相對較小且BIC的變化率和距離測度的變化率相對較大所對應的聚類數(shù)目為最優(yōu)聚類數(shù)目k。
(4)利用原K-means算法進行聚類。
4 算例分析
算例是以13個省電力公司2014年度指標數(shù)據(jù)為基礎(chǔ)進行的。由于電力企業(yè)指標體系涉及電力企業(yè)的各個方面,具有多層次和多角度的特點,且關(guān)系錯綜復雜。所以,為了方便闡述,以營銷管理方面的指標為例,利用改進的K-means算法對電力對標企業(yè)進行分類。營銷管理方面的指標有省級供電服務中心集約化業(yè)務執(zhí)行規(guī)范度、營業(yè)工作管理規(guī)范度、計量監(jiān)督管理規(guī)范度等若干指標,現(xiàn)列舉出指標值差距較大的指標。13個省電力公司2014年標準化后的營銷管理相關(guān)指標數(shù)據(jù)見表1。
首先,利用SPSS軟件使用兩階段聚類法確定聚類數(shù)目k。自動聚類表見表2。確定一個好的聚類數(shù)不僅要考慮BIC值,還應該考慮BIC變化率和距離度量的比率。只有聚類數(shù)的BIC值相對較小,且BIC變化率和距離度量的比率相對較大才是好的聚類數(shù)。由此原則可知,聚類數(shù)為2是最好的選擇。
(1)變化是相對于表中先前的聚類個數(shù)而言;(2)變化的比率與兩個聚類解的變化相關(guān);(3)距離度量的比率以當前聚類的個數(shù)為基礎(chǔ)而不是先前的聚類個數(shù)為基礎(chǔ);(4)在當前聚類個數(shù)下距離為零。
確定了聚類數(shù)目k之后,再根據(jù)最大距離法利用MATLAB軟件確定2個初始聚類中心。第1個初始中心是:第2個點,第2個初始中心是:第12個點
確定了初始聚類中心后,利用SPSS軟件和K-means算法對企業(yè)進行聚類。聚類結(jié)果如表3所示。最終聚類中心如表4所示。
從表3和表4可以看出,改進的K-means算法將這13個省電力公司按照供電質(zhì)量指標數(shù)據(jù)分成了兩類。由于這些指標都是極大型指標,所以從最終聚類中心可以看出,第1類的企業(yè)在這9項指標上的表現(xiàn)都很優(yōu)秀,綜合水平最高,有5家省電力公司以(08205,0.8002,0.9807,0.9825,0.8921,0.9722,09977,0.7609,0.9683)為聚類中心屬于第1類;第2類企業(yè)整體表現(xiàn)不如第1類企業(yè),尤其是在營業(yè)工作管理規(guī)范度和計量監(jiān)督管理規(guī)范度這兩個方面明顯落后于第1類企業(yè)。有8家企業(yè)以(0.3001,0.7864,09789,0.9602,0.9136,0.9660,0.9955,0.7580,09715)為聚類中心歸為第2類。
綜上所述,屬于第1類的優(yōu)秀企業(yè)應繼續(xù)保持,總結(jié)經(jīng)驗,更加完善營銷管理水平和管理能力。而對于第2類的企業(yè)應該重視營業(yè)工作管理規(guī)范度和計量監(jiān)督管理規(guī)范度這兩個指標的考核,分析弱項指標落后的原因,對于第1類企業(yè)的先進發(fā)展管理經(jīng)驗要以總結(jié)提煉與引進吸收為主。
5 結(jié)論
因為K-means自身存在聚類數(shù)目k和初始聚類中心需要人為設定的缺點,所以提出了一種可以解決以上兩個問題的改進的K-means算法,消除了人為設定所導致的聚類結(jié)果誤差。并通過給13個省電力企業(yè)聚類的例子表明改進后的K-means仍然可以聚類,并賦予每一類的意義,選出了專業(yè)標桿企業(yè),并找出了其他企業(yè)與專業(yè)標桿企業(yè)之間的差距。
通過利用改進的K-means算法在電力企業(yè)同業(yè)對標中的應用表明該算法具有一定的可行性。但是,由于該算法只是用于聚類,對于建立完整的電力企業(yè)同業(yè)對標評價模型上仍有欠缺。今后還需結(jié)合電力企業(yè)實際發(fā)展情況,研究出其他更加可行高效的同業(yè)對標分析模型,為電力企業(yè)對標管理提供新的思路。
參考文獻
[1]Borge Hess,Astrid Cullmann.Efficiency analysis of East and West German electricity distribution companiesDo the “Ossis” really beat the “Wessis”?[J].Utilities Policy,2007,15(03):206214.
[2]楊大晟,馮瑞明,吳大軍等.灰色局勢決策模型在供電所同業(yè)對標中的應用[J].農(nóng)電管理,2014,(08):5759.
[3]薛萬磊,劉曉立,李雪亮等.Kmeans算法在電力企業(yè)同業(yè)對標中的應用[J].水電能源科學,2013,(06):240242+13.
[4]劉曉立.基于數(shù)據(jù)挖掘的電網(wǎng)企業(yè)同業(yè)對標研究[D].北京:華北電力大學,2014.
[5]黃鷺虹.論加強同業(yè)對標指標的分析管理工作[J].現(xiàn)代商貿(mào)工業(yè),2007,(10):6465.
[6]王宏,崔勇.電力企業(yè)同業(yè)對標管理的研究[J].價值工程,2014,(02):172173.
[7]周雄,董威.信息挖掘技術(shù)在電力企業(yè)同業(yè)對標管理中的應用[J].電力建設,2007,(04):8789.