亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means聚類算法的數(shù)據(jù)分析模型應用研究

        2017-04-13 01:34:42泓,劉
        軟件導刊 2017年3期
        關(guān)鍵詞:損率臺區(qū)線性

        沈 泓,劉 順

        (1.國網(wǎng)江蘇省電力公司常州供電公司 電力調(diào)度控制中心,江蘇 常州 213001;2.江蘇瑞中數(shù)據(jù)股份有限公司,江蘇 南京 210012)

        基于K-means聚類算法的數(shù)據(jù)分析模型應用研究

        沈 泓1,劉 順2

        (1.國網(wǎng)江蘇省電力公司常州供電公司 電力調(diào)度控制中心,江蘇 常州 213001;2.江蘇瑞中數(shù)據(jù)股份有限公司,江蘇 南京 210012)

        闡述了如何使用數(shù)據(jù)分析模型進行數(shù)據(jù)收集分析和處理,以及如何通過K-means聚類算法及線性回歸模型建立合理預估模型。電能在從發(fā)電廠傳輸?shù)接脩舻倪^程中,在輸電、變電、配電以及營銷管理的各環(huán)節(jié)中會產(chǎn)生電能損耗,如果線路損耗較高,則會對電網(wǎng)運行的安全性與經(jīng)濟性造成直接影響,同時也會加快線路老化或損壞速度。合理分析預估模型,可以找出差異性較大的臺區(qū)著重進行管理與監(jiān)測,并于用戶操作區(qū)的Web端進行展示,進而有效預測出哪些臺區(qū)可能存在偷竊電行為或其它影響正常供電的不合理行為,為供電工作提供有效輔助。

        回歸模型;K-means聚類算法;分析模型;預估;顯著性

        0 引言

        電網(wǎng)數(shù)據(jù)作為一種對供電公司規(guī)劃設計、生產(chǎn)運行、經(jīng)營管理水平的綜合反映與直觀展示,是供電公司日常管理工作中關(guān)注的重要內(nèi)容。合理分析處理與利用海量的電網(wǎng)數(shù)據(jù),能夠帶來可觀的經(jīng)濟與社會效益。以分析預測線損為例,臺區(qū)線損管理通過比較理論線損與實際線損的差值,對不合理線損進行分析和預測,可提供較為科學有效的降損措施,有利于提升電力部門的管理水平與經(jīng)濟效益,加強電網(wǎng)建設與改造的科學性。傳統(tǒng)的臺區(qū)線損管理中尚存在一些問題:①采取一刀切方式,人為設置合理線損率范圍,而缺乏理論依據(jù)和數(shù)據(jù)支撐,離精益化管理目標相差甚遠;②臺區(qū)理論線損的計算主要基于潮流的計算方法,但是由于低壓臺區(qū)下分支線路復雜、元件多樣、設備臺賬數(shù)據(jù)不全,理論線損計算難度很大;③供電公司管轄范圍內(nèi)臺區(qū)數(shù)量巨大,彼此之間差別較大,無法采用統(tǒng)一模式進行管理。因此,如何進一步提高臺區(qū)線損管理的精益化水平,給出每個臺區(qū)可參照的合理線損范圍,并科學合理地對臺區(qū)線損進行監(jiān)視,及時發(fā)現(xiàn)異常臺區(qū),分析原因并及時解決問題,成為電力營銷工作迫切需要解決的問題。

        鑒于此,本文以預測臺區(qū)線損率為例,依據(jù)供電公司轄區(qū)內(nèi)各臺區(qū)的基礎數(shù)據(jù),并應用基于K-means算法的數(shù)據(jù)分析模型,研究一種可以對電網(wǎng)關(guān)鍵數(shù)據(jù)進行預測分析的技術(shù),以期為電網(wǎng)管理優(yōu)化提供參考。

        1 整體設計

        基于K-means算法的數(shù)據(jù)預估模型的建立包含K-means聚類與線性回歸兩部分。首先通過K-means聚類算法,依據(jù)與臺區(qū)線損率相關(guān)的基本特征屬性將臺區(qū)分為K類,然后給每一類數(shù)據(jù)分別建立各自的線性回歸模型,最后將不同分類的臺區(qū)特征數(shù)據(jù)引入對應的線性回歸模型,得出合理的數(shù)據(jù)預測值,并將此值定義為合理預測。合理預測與實際值之差即為預測誤差。具體步驟如下:①通過K-means聚類方法按照臺區(qū)特征對供電公司的海量臺區(qū)數(shù)據(jù)進行分類,將供電公司轄區(qū)內(nèi)的臺區(qū)分為特征不同的類群;②將每一類典型臺區(qū)的基礎數(shù)據(jù)與預測值相關(guān)聯(lián),通過線性回歸的方式建立數(shù)學預測模型;③將需要預測的數(shù)據(jù)輸入模型,得到輸出,從而得出每一類臺區(qū)的合理預測值。整個模型建立的流程如圖1所示。

        數(shù)據(jù)分析過程的主要活動由識別信息需求、收集數(shù)據(jù)、分析處理數(shù)據(jù)、數(shù)據(jù)分析模型的建立組成。

        2 關(guān)鍵技術(shù)

        2.1 K-means聚類算法

        K-means算法是一種基于樣本間相似性度量的間接聚類方法,屬于非監(jiān)督學習方法。此算法以k為參數(shù),將n個對象分為k個簇,使簇內(nèi)具有較高相似度,而且簇間的相似度較低。K-means算法是一種較典型的逐點修改迭代的動態(tài)聚類算法,其要點是以誤差平方和為準則函數(shù)[1-2]。該算法的優(yōu)點是可以處理大量數(shù)據(jù)集,具有很好的可伸縮性,且簡單快速,故合理數(shù)據(jù)預估模型的分類采用了K均值聚類算法。

        圖1 模型建立流程

        K-means算法的基本步驟如下:①從數(shù)據(jù)集中隨機取k個元素,作為k個簇各自的中心;②分別計算剩下元素到k個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇;③根據(jù)聚類結(jié)果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自維度的算術(shù)平均數(shù);④將數(shù)據(jù)集中全部元素按照新的中心重新聚類;⑤重復第4步,直到聚類結(jié)果不再變化;⑥輸出結(jié)果。

        2.2 線性回歸建模方法

        線性回歸建模的思路是根據(jù)K-means聚類結(jié)果數(shù)據(jù),將不同分類的臺區(qū)數(shù)據(jù)分別作為線性回歸的輸入,以線損率作為輸出,建立線性回歸模型,并對結(jié)果作相應分析,得出兩種分類對應的回歸方程[3]。

        線性回歸建模的原理如下:在線性關(guān)系相關(guān)性條件下,兩個或兩個以上自變量對一個因變量,為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學公式,稱為多元線性回歸模型。多元線性樣本回歸方程為:

        (1)

        其中β0,β1,β2,…,βk是k+1個未知參數(shù),β0稱為回歸常數(shù),β1,β2,…,βk稱為回歸系數(shù),y稱為被解釋變量。x1,x2,…,xk是k個可以精確控制的一般變量,稱為解釋變量。

        多元線性回歸方程中回歸系數(shù)的估計同樣可以采用最小二乘法,計算殘差平方和:

        (2)

        根據(jù)微積分中求極小值的原理,可知殘差平方和SSE存在極小值。欲使SSE達到最小,SSE對β0,β1,β2,…,βk的偏導數(shù)必須為零。

        將SSE對β0,β1,β2,…,βk求偏導數(shù),并令其等于零,加以整理后可得到k+1個方程式如下:

        (3)

        (4)

        3 應用案例

        3.1 原始樣本數(shù)據(jù)收集分析及處理

        首先應該進行識別信息需求的工作。識別信息需求是確保數(shù)據(jù)分析過程有效性的首要條件,可為收集、分析數(shù)據(jù)提供清晰的目標。有目的的收集數(shù)據(jù),是確保數(shù)據(jù)分析過程有效性的基礎。組織需要對收集數(shù)據(jù)的內(nèi)容、渠道、方法進行策劃。策劃時應考慮:①將識別的需求轉(zhuǎn)化為具體要求,如評價供方時,需要收集的數(shù)據(jù)可能包括其過程能力、測量系統(tǒng)不確定度等相關(guān)數(shù)據(jù);②明確由誰在何時何處、通過何種渠道和方法收集數(shù)據(jù);③記錄表應便于使用;④采取有效措施,防止數(shù)據(jù)丟失和虛假數(shù)據(jù)對系統(tǒng)的干擾。

        本次建模收集的數(shù)據(jù)包括臺區(qū)基礎信息表、線路線損率分月報表、臺區(qū)線損率分月報表、生產(chǎn)經(jīng)營報表(按月分)、竊電用戶統(tǒng)計報表。建模數(shù)據(jù)收集涉及的部門包括發(fā)展策劃部、電力營銷部、運維檢修部。數(shù)據(jù)范圍包括供電公司轄區(qū)內(nèi)各線路下的臺區(qū),分別為:220KV線路、110KV線路、35KV線路、10KV線路、10KV以下線路以及1KV以下線路等臺區(qū)。經(jīng)過ETL數(shù)據(jù)工具的處理以及對數(shù)據(jù)報表的整合,最終收集到的報表數(shù)據(jù)如圖2所示。包含的字段有:臺區(qū)名稱、臺區(qū)居民戶數(shù)、臺區(qū)非居民戶數(shù)、居民容量、非居民容量、居民戶均容量、非居民戶均容量、居民容量占比、非居民容量占比、臺區(qū)總?cè)萘?、臺區(qū)竊電量、功率因數(shù)平均水平、最大負荷、最大負載率以及以臺區(qū)統(tǒng)計線損率。

        下面進行分析處理數(shù)據(jù)的工作,將收集的數(shù)據(jù)通過加工、整理和分析,使其轉(zhuǎn)化為信息,通常采用的方法有:①傳統(tǒng)的7種工具,即排列圖、因果圖[4]、分層法、調(diào)查表、散步圖、直方圖、控制圖;②新的7種工具,即關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖[5]、KJ法、計劃評審技術(shù)、PDPC法矩陣數(shù)據(jù)圖。

        按照K-means算法的基本步驟代入分析所得的初始數(shù)據(jù)。具體如下:

        輸入:k,data[n]。

        (1)選擇k個初始中心點,例如c[0]=data[0],…,c[k-1]=data[k-1]。

        (2)對于data[0],…,data[n],分別與c[0],…,c[k-1]比較,假定與c[i]差值最少,則標記為i。

        (3)對于所有標記為i的點,重新計算c[i]等于所有標記為i的data[j]之和,除以標記為i的個數(shù)。

        (4)重復(2)、(3),直到所有c[i]值的變化小于給定閾值。

        圖3為將k值設為3時,K-means聚類算法的詳細示意圖,圖中(+)符號表示每次聚類選取的中心。

        圖2 樣本數(shù)據(jù)

        圖3 K-means聚類示意圖(k=3)

        3.2 利用K-means聚類算法對臺區(qū)分類

        以供電公司轄區(qū)下的臺區(qū)數(shù)據(jù)作為樣本數(shù)據(jù)(共630個),作為K-means算法的輸入。聚類樣本特征輸入量包括:臺區(qū)名稱、居民戶數(shù)、非居民戶數(shù)、居民容量、非居民容量、居民容量、居民戶均容量、居民容量占比、非居民容量占比、臺區(qū)總?cè)萘?、臺區(qū)竊電量、功率因數(shù)平均水平、臺區(qū)最大負荷、最大負載率、實際線損率。在K-means聚類算法中,初始聚類數(shù)設定2~12為合理范圍,通過嘗試設定不同的初始聚類數(shù),計算不同聚類數(shù)時的輪廓系數(shù)值(輪廓系數(shù)值越接近1,表明聚類數(shù)越合理)。不同K值聚類的輪廓系數(shù)如表1所示。

        通過不同K值輪廓系數(shù)的對比,可以看出聚類數(shù)為2時,輪廓系數(shù)值為0.5,在所有的輪廓系數(shù)中最接近1,表明聚類數(shù)為2時,K-means聚類質(zhì)量最好,輸入13對應的聚類結(jié)果如下:

        最小聚類大小為:95(15.1%)

        最大聚類大小為:535(84.9%)

        大小比率(最大聚類比最小聚類):5.63

        K-means聚類算法中各變量對于聚類的重要性不同,如圖4所示??梢钥闯?,居民容量占比、非居民容量占比、非居民容量、非居民戶均容量在聚類中對聚類結(jié)果影響比較明顯。

        表1 K-means輪廓系數(shù)

        聚類數(shù)為2時,各變量在聚類-1與聚類-2中的均值如表2所示,各變量按照在聚類算法中體現(xiàn)出的重要性從上到下依次排序。可以看出,居民容量占比與非居民容量占比對聚類的影響最大,是臺區(qū)分類過程中的主要依據(jù)。其它變量在聚類中對聚類結(jié)果有影響,但不是主要影響因素。

        圖4 K-means聚類中變量重要性

        表2 聚類數(shù)為2時聚類模型各變量均值

        從表2中可以看出,聚類1中居民容量占比為0.92,可以認為此類為居民用戶類;聚類2中非居民容量占比為0.59,可以認為此類為非居民用戶類。故通過K-means聚類算法將臺區(qū)分為居民用戶類臺區(qū)、非居民用戶類臺區(qū)。

        3.3 通過線性回歸模型建立合理線損數(shù)據(jù)分析預測模型

        將上述K-means聚類得出的兩類數(shù)據(jù)作為線性回歸模型的輸入(見表3),包括:聚類-1、聚類-2。建模特征參數(shù)包括:臺區(qū)居民戶數(shù)、臺區(qū)非居民戶數(shù)、居民容量、非居民容量、居民戶均容量、非居民戶均容量、居民容量占比、非居民容量占比、臺區(qū)總?cè)萘俊⑴_區(qū)竊電量、功率因數(shù)[6]平均水平、最大負荷、最大負載率[7]。輸出參數(shù)為:臺區(qū)線損率。

        現(xiàn)對上述K-means聚類得出的聚類-1與聚類-2分別建立線性回歸模型,并對模型進行分析。依據(jù)調(diào)整后的R平方值、F檢驗系數(shù)、T檢驗系數(shù)、sig值檢驗系數(shù)等對模型進行評估,從而判斷出合理線損預測模型的擬合程度。

        T檢驗是對單個變量進行顯著性檢驗,檢驗該變量獨自對被解釋變量的影響。

        F檢驗是檢驗回歸模型的顯著意義,即所有解釋變量聯(lián)合起來對被解釋變量的影響。對方程聯(lián)合顯著性檢驗的F檢驗,實際上也是對可決系數(shù)的顯著性檢驗。

        R的平方值系數(shù)實際反映樣本數(shù)據(jù)與預測數(shù)據(jù)間的相關(guān)程度。越接近1,回歸平面擬合程度越高;反之,越接近0,擬合程度越低。

        sig值的含義是顯著性。一般將該sig值與0.05相比較,如果大于0.05,說明差異不顯著,從而認為兩組數(shù)據(jù)之間的平均值相等;如果小于0.05,說明差異顯著,認為兩組數(shù)據(jù)之間的平均值不相等。

        3.3.1 聚類-1線性回歸模型分析

        調(diào)整后的R平方值為0.824,擬合優(yōu)度較高,不被解釋的變量較少,即表示輸入變量中82.4%的自變量對因變量線損值有影響。依據(jù)此系數(shù)可知,樣本數(shù)據(jù)與預測數(shù)據(jù)間的相關(guān)程度與模型模擬程度較高,模型具有可用性。

        回歸方程顯著性檢驗(sig值)的概率為0,小于顯著性水平0.05,則認為系數(shù)不同時為0,被解釋變量與解釋變量全體的線性關(guān)系是顯著的,說明生成的模型具有明顯的統(tǒng)計學意義。

        如圖5所示,給出了回歸方程的系數(shù)值,即常量為1.930,居民容量為0.010,居民戶均容量為1.068,臺區(qū)竊電電量為0.013,居民戶數(shù)為0.012,最大負載率為0.920。

        所以線性回歸方程為[8]:

        線損率=1.930+0.01*居民容量+1.068*居民戶均容量+0.012*居民戶數(shù)+0.013*臺區(qū)竊電量+0.92*最大負載率

        將臺區(qū)樣本數(shù)據(jù)代入線性回歸方程可得出臺區(qū)線損率預測值,并將臺區(qū)預測線損率與臺區(qū)實際線損率通過折線圖作比較,如圖6所示??芍蟛糠峙_區(qū)的實際線損率與預測線損率較為接近,但存在少數(shù)臺區(qū)的線損率實際值遠大于預測值的情況。出現(xiàn)這一現(xiàn)象的可能原因如下:①臺區(qū)的實際線損率在日常統(tǒng)計工作中有較大誤差,導致預測結(jié)果不合理;②該部分臺區(qū)的線損率有異常,可能存在用戶偷竊電行為,需加強管理與核實。

        圖5 聚類-1的線性回歸模型系數(shù)

        圖6 聚類-1臺區(qū)實際線損率和預測線損率誤差值

        3.3.2 聚類-2線性回歸模型分析

        調(diào)整后的R2值為0.612,擬合優(yōu)度較高,不被解釋的變量較少,即表示輸入變量中61.2%的自變量對因變量線損值有影響。依據(jù)此系數(shù)可知,樣本數(shù)據(jù)與預測數(shù)據(jù)間的相關(guān)程度較高,模型模擬程度較高,模型具有可用性。 回歸方程顯著性檢驗的概率為0,小于顯著性水平0.05,則認為系數(shù)不同時為0,被解釋變量與解釋變量全體的線性關(guān)系是顯著的,表明生成的模型具有明顯的統(tǒng)計學意義。

        如圖7所示,給出了回歸方程的系數(shù)值,即常量為5.681,非居民戶均容量為0.045,臺區(qū)總?cè)萘?.005,最大負載率為2.952,臺區(qū)竊電電量為0.015,所以線性回歸方程為:

        線損率=5.681+0.045*非居民戶均容量+0.005*臺區(qū)總?cè)萘?2.952*最大負載率+0.015*臺區(qū)竊電總量

        同樣,將聚類-2中的臺區(qū)樣本數(shù)據(jù)代入線性回歸方程可得出臺區(qū)預測線損率,并將臺區(qū)預測線損率與臺區(qū)實際線損率通過折線圖作比較,如圖8所示??芍蟛糠峙_區(qū)的實際線損率與預測線損率較為接近,存在少數(shù)臺區(qū)的線損率實際值遠大于或遠小于線損預測值的情況。出現(xiàn)這一現(xiàn)象的可能原因如下:①臺區(qū)的實際線損率在日常統(tǒng)計工作中有較大誤差,導致預測結(jié)果不合理;②該部分臺區(qū)的線損率有異常,可能存在用戶偷竊電行為,需加強管理與核實。

        圖7 聚類-2的線性回歸模型系數(shù)

        圖8 聚類-2臺區(qū)實際線損率與預測線損率誤差值

        4 結(jié)語

        在企業(yè)的供電管理中,應加大對線損數(shù)據(jù)的分析預測,這是降低電網(wǎng)線損率的有益舉措,同時也是提高企業(yè)供電管理水平的有效手段。使用合理的數(shù)據(jù)分析模型有以下3方面優(yōu)勢:①可以找出線損管理工作的不足與降損方向。針對線損較高或居高不下的情況,可以找出電網(wǎng)結(jié)構(gòu)的薄弱環(huán)節(jié),以及管理方面存在的問題,確定改善電網(wǎng)結(jié)構(gòu)工作的重點,加強管理,降低線損;②可及時查找出線損升降原因,特別是上升原因,準確掌握每條線路在不同用電季節(jié)、各種用電負荷情況下所引起的線損變化規(guī)律及特點,以確定降損的主攻方向,以便有針對性地采取降損措施,使電網(wǎng)的線損率降到合理范圍,提高企業(yè)的經(jīng)濟效益和社會效益;③可以找出電網(wǎng)運行存在的問題,確定最佳運行方案。

        在實際應用中,需要不斷加強該數(shù)據(jù)分析模型技術(shù)應用于電網(wǎng)數(shù)據(jù)的管理,提高計量遠程采集管理水平。通過此技術(shù)預測各電網(wǎng)指標的運行狀態(tài)及偏差值,并及時作出指導建議,為供電工作提供有效的輔助。

        [1] 周愛武,于亞飛.K-Means聚類算法的研究[J].計算機技術(shù)與發(fā)展,2011,21(2):62-65.

        [2] 馮能山,林志華,等.一種K-means聚類的改進算法與實現(xiàn)[J].軟件導刊,2012,11(3):66-70.

        [3] 李芳.DE算法在多元線性回歸模型參數(shù)估計中的應用[J].軟件導刊,2012,11(6):46-48.

        [4] 蕭萍.基于因果圖的測試用例設計及應用[J].軟件導刊,2016,15(4):44-46.

        [5] 周天祥.通俗易懂的QCC——矩陣圖法[J].中國質(zhì)量,2003(12):59.

        [6] 顧軍,王清靈,等.基于SVG的電網(wǎng)功率因數(shù)控制系統(tǒng)[J].電力自動化設備,2011(2):40-43,47.

        [7] 于群,曹娜,等.負載率對電力系統(tǒng)自組織臨界狀態(tài)的影響分析[J].電力系統(tǒng)自動化,2012(1):24-27,37.

        [8] 周紅艷.配電網(wǎng)理論線損率的分析與預測[D].蕪湖:安徽工程大學,2015.

        (責任編輯:黃 健)

        沈泓(1970-),女,江蘇常州人,國網(wǎng)江蘇省電力公司常州供電公司電力調(diào)度控制中心高級工程師,研究方向為電網(wǎng)調(diào)度自動化技術(shù);劉順(1990-),男,江蘇南京人,江蘇瑞中數(shù)據(jù)股份有限公司工程師,研究方向為智能分析技術(shù)在電網(wǎng)領域的挖掘。

        10.11907/rjdk.162534

        TP319

        A

        1672-7800(2017)003-0103-05

        猜你喜歡
        損率臺區(qū)線性
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        我國水庫淤損情勢分析
        水利學報(2022年3期)2022-06-07 05:26:02
        線性回歸方程的求解與應用
        二階線性微分方程的解法
        降低臺區(qū)實時線損整治工作方法
        電子制作(2017年2期)2017-05-17 03:55:22
        無功補償極限線損率分析及降損措施探究
        電子制作(2017年2期)2017-05-17 03:55:17
        供電企業(yè)月度實際線損率定量計算方法
        電子制作(2016年1期)2016-11-07 08:42:53
        三合一集中器作為臺區(qū)線損考核表計的探討
        多功能低壓臺區(qū)識別設備的研制
        提升臺區(qū)線損正確可算率的措施與實踐
        午夜少妇高潮在线观看| 日韩精品一区二区三区中文9| 国产av乳头久久一区| 亚洲国产一区一区毛片a | 亚洲天天综合色制服丝袜在线| 91在线观看国产自拍| 国产一级一区二区三区在线播放| 中文字幕无码成人片| 人妻丰满熟妇av无码区不卡| 亚洲国产精品久久久久久久| 亚洲熟妇夜夜一区二区三区 | 97人人模人人爽人人喊网| 国产精品老熟女露脸视频 | 日本强伦姧人妻一区二区| 久久精品人妻无码一区二区三区| 国产精品麻花传媒二三区别| 国产亚洲高清在线精品不卡| 99久久婷婷国产精品综合网站| 性高朝久久久久久久3小时| 亚洲av无码久久精品蜜桃| 国产亚洲精品成人无码精品网站| 国产小视频一区二区三区| 中文字幕乱码亚洲三区| 国产三级精品三级| 国产又色又爽无遮挡免费| 男人天堂AV在线麻豆| 日本一区二区三区在线视频播放| 亚洲av无码国产精品色午夜软件 | 免费a级毛片无码a| 欧美在线Aⅴ性色| 亚洲精品国产亚洲av| 在线播放真实国产乱子伦| 国模少妇一区二区三区| 国产美女精品AⅤ在线老女人| av成人综合在线资源站| 国产午夜精品无码| 色一情一乱一伦一区二区三区| 人妻少妇精品视中文字幕国语| 午夜蜜桃视频在线观看| 永久亚洲成a人片777777| 男人边吃奶边做好爽免费视频|