亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進K-Means++分時電量聚類與行業(yè)用電行為分析

        2021-10-14 14:12:10軍,航,濤,
        科學技術與工程 2021年27期
        關鍵詞:用戶

        蔡 軍, 謝 航, 謝 濤, 段 盼

        (重慶郵電大學復雜系統(tǒng)實驗室, 重慶 400065)

        隨著電力系統(tǒng)智能化的持續(xù)發(fā)展,電力數據海量性、多元類型等特點日益明顯,一些與電力數據密切相關的電力傳統(tǒng)問題呈現(xiàn)出新的問題特征[1]。如何利用大數據對電力用戶進行分析[2-4],這關系到供電部門掌控用電群體構成及用電特性,實現(xiàn)客戶精細化管理,提供優(yōu)質的用電服務[5],進而引導用戶自發(fā)進行用電管理,以保證配電網的運行安全。供電側根據各個時段不同的供需平衡情況制定分時電價政策優(yōu)化需求側用電方式,需求側根據分時電價政策來優(yōu)化自身的用電行為[6],分時電價政策成為需求側電力消費行為的一個重要驅動機制,不但直接影響著用戶的電費支出,而且在協(xié)調供需雙方平衡中起著重要的促進作用,可以看出各個時段不同電量,即分時電量與分時電價有著密切的關系。此外隨著經濟的發(fā)展,行業(yè)用電量波動加劇[7],各行業(yè)分時電量需求表現(xiàn)有所差別,所以基于分時電量的行業(yè)用電行為研究具有重要的理論和實際意義。

        對于用戶行為分析常利用K-Means聚類模型[8],但是K-Means在相似性的度量、初始質心選擇、聚類數方面的確定存在缺陷。文獻[8]考慮用電曲線空間與形態(tài)的相似性,采用歐式距離與費雷歇距離的復合距離,提高了聚類的準確性。文獻[9]根據在數據區(qū)域中,數據密度越大,數據點的聚合程度越高,采用基于密度的方法選擇初始質心,獲得更好的局部最優(yōu)解。文獻[10]通過計算評價準則函數即KL(Kullback-Leibler)指數,以其最大值對應的聚類數目作為最佳聚類數,并通過計算數據密度參數選取初始聚類質心,能準確實現(xiàn)不同用戶類型的分類識別功能。文獻[11]通過對判斷矩陣對應的鄰接圖進行迭代切分確定合適的聚類數目,避免人為設定聚類數不恰當導致單一聚類結果偏大。以上算法一定程度上提高了某方面的準確性,具有良好的魯棒性,但是若分時電量數據的平均用電占比差距較小時,需考慮距離與形態(tài)上的相似性,并且聚類的結果影響著典型用戶篩選,使行業(yè)的用電行為呈現(xiàn)一定規(guī)律。

        針對以上問題,提出基于改進K-Means++的分時電量聚類算法:①模擬退火算法(simulated annealing,SA)與中位數閾值分割,自動確定初始質心與聚類數;②弗雷歇與歐式距離的加權復合作為聚類算法的相似性度量,權值由信息熵與層次分析法(analytic hierarchy process,AHP)確定。通過改進算法對分時電量進行聚類,從聚類結果中根據典型用戶篩選模型篩選典型用戶,得到不同類別用戶的用電類型,進一步分析不同行業(yè)用電行為,有助于供電側初步掌控行業(yè)用電群體的用電行為,為精細有序的用電管理做準備。

        1 基于改進K-Means++算法的分時電量聚類方法

        1.1 K-Means++聚類算法原理

        K-Means++聚類算法的原理如下:利用歐式距離作為相似性度量來衡量所有數據之間的關系,將距離比較近的數據劃分到一個集合中。隨機選取一個樣本為初始質心,輪盤賭選擇方法確定k個初始質心,k是人為確定。計算每個樣本與初始質心的歐式距離,樣本距離小的歸為一類,最后利用每類的均值作為新的質心,直到新的質心不再發(fā)生變化。

        1.2 基于改進K-Means++算法聚類原理

        由1.1節(jié)中K-Means++的算法可知:聚類數目需要人為指定,初始質心隨機選取,會帶來一定的不確定性?;谝陨蟽牲c進行改進,利用SA、中位數閾值分割,自動確定聚類數與初始質心。

        確定聚類數與初始質心的原理:利用SA確定數據集最優(yōu)的第一個中心,然后計算數據集與該中心的加權歐式距離,以所有距離的中位數作為閾值將數據集進行分割,將小于閾值的數據集以均值作為初始質心,大于閾值的數據集繼續(xù)進行分割,直到閾值變化率變化平緩時,停止分割。

        選取閾值分割的理由:分割樣本集的中心距離越近,數據集中的樣本分布越集中,距離變化越小,同時閾值變化越小。而隨著閾值分割的次數增加,不小于閾值的樣本會越來越少,閾值變化會增大,整體閾值的變化是波動的,但仍然會在某次分割后閾值變化平緩。

        算法步驟如下。

        (1)SA初始化參數:目標函數F,隨機函數,加權擾動函數,其中F是樣本的加權歐式距離。確定近似全局最優(yōu)的點s。

        (2)計算所有樣本與s的加權歐式距離,得到距離s最小的樣本cj(j=1,2,3,…)。

        (3)計算所有樣本與cj的加權歐式距離,從所有距離中選出中位數m。以m為閾值將樣本分割成兩個樣本集Uj、Uj+1,分割次數為i(i=1,2,3,…),其中Uj是距離值小于m的樣本集,Uj+1是距離值不小于m的樣本集。

        (4)分別計算樣本集Uj、Uj+1距離cj最小距離的中心cj、cj+1。

        (5)第一次分割完成,i自動加1。將大于閾值m的樣本集Uj+1進行第i次分割,重復步驟(3)、步驟(4)。

        (6)當i不小于3時,判斷樣本集Uj、Uj+1(j=1,2,…,i-1)的閾值mj變化率是否大于1,樣本集Uj+1、Uj+2(j=1,2,…,i-1)的閾值mj+1變化率是否小于1,若同時滿足以上2個條件,則輸出i+1個中心Ck=(c1,c2,…,ci+1),否則執(zhí)行步驟(5)。

        閾值變化率的公式為

        (1)

        式(1)中:Rate為集閾值變化率;mj為第j個樣本集對應的中位數閾值m。

        (7)以步驟(6)輸出的Ck作為初始質心,k為聚類數。

        (8)計算所有樣本與Ck的加權復合距離。將樣本劃分至距離中心Ck最近的k類簇中。

        (9)遍歷所有樣本,對于屬于同一類的樣本,采用均值更新中心,得到新的聚類質心Ck。

        (10)判斷跟新后的質心是否變化,若未變化,分時電量聚類完成,否則繼續(xù)執(zhí)行步驟(8)、步驟(9)。

        1.3 聚類相似性度量

        在分時電量聚類中,既要衡量距離上的相近又要兼顧曲線形態(tài)的相似,采用加權歐式距離和弗雷歇的復合距離作為聚類相似性度量。

        1.3.1 權值確定

        總體樣本(Xij)m×n,其中Xij表示第i行第j列。權值確定的思想是計算n列特征的信息熵,根據信息熵比值與重要性標度方法構造AHP中的判斷矩陣,判斷矩陣的最大特征對應特征向量就是權值。在信息熵比值與重要性標度方法對應無誤的條件下,一致性比率一定小于0.1,所以采用信息熵確定AHP[12]中的權值不用進行一致性檢驗。具體步驟如下。

        (1)計算n列信息熵。信息熵的公式為

        (2)

        (3)

        式中:ej為j列特征的信息熵;pij為第i行第j列值占j總體值的概率。

        (2)確定信息熵比值。每次以最小信息熵為基準,每確定一次基準信息熵,排除一次,即第二次分析,該值不放在其中分析,總分析n-1次。信息熵比值越大,表示相比于基準信息熵越重要。

        信息熵比值公式為

        Ejk=ej/emk

        (4)

        式(4)中:emk為第k次信息熵最小值,k為比較的次數;j為列數。

        (3)根據Ejk的信息熵比值構造判矩陣(wij)n×n,其中wij為指標i與指標j的重要系數,取值為1~9[9]。

        (4)計算步驟(3)最大特征值λ對應的特征向量α,輸出權值,即特征向量α。

        1.3.2 加權復合距離

        加權歐式距離和弗雷歇的復合距離作為聚類相似性度量,公式為

        (5)

        (6)

        B[β(t)]})

        (7)

        1.4 手肘法驗證聚類數原理

        為了使聚類數目的確定更加具有說服力,采用手肘法對確定的聚類數進行驗證。以下是手肘法原理。

        手肘法用于聚類數的確定,每個簇的質點與簇內樣本點的平方距離誤差和稱為畸變程度。對于一個簇,它的畸變程度越小,代表簇內樣本越緊密,畸變程度越大,代表簇內結構越松散?;兂潭葧S著類別的增加而降低,在達到某個臨界點時畸變程度會得到極大改善,之后緩慢下降,這個臨界點就為聚類性能較好的點。對于不同的聚類數,選擇最小距離的和,得到不同聚類數的最優(yōu)畸變程度。

        最優(yōu)畸變程度公式為

        (8)

        式(8)中:Xi為第i類的樣本集;n表示所有的樣本集總數;Pi為第i類樣本的聚類中心;k為聚類數。

        1.5 聚類性能評價指標

        一般常用聚類性能評價指標有DBI(Davies-Bouldin index)、SSE(sum of squared error)、CHI(Calinski-Harabasz index)等[13-14]。采DBI指標來評價聚類結果,DBI越小,表示簇內距離越小,簇間距離越大,聚類效果越好。

        DBI計算公式為

        (9)

        式(9)中:Xi、Xj為任意兩簇內的距離平方和。

        2 算例分析

        2.1 數據預處理

        采集重慶市某地區(qū)10月份694個用戶的電量數據,分別記錄每天尖峰平谷各個時段的總用電量,然后將一個月各個時段的用電量均攤到每天,以各個時段的平均用電占比,即日平均用電占比為特征,進行聚類。

        日平均用電占比公式為

        (10)

        式(10)中:XTl表示尖峰平谷時段中第T個時段的l時長的日平均占比,反映不同時段電量平均分布;Hl表示尖峰平谷時期對應的小時數;QTl表示平均每天第T個段的總電量,kW·h;PTl表示每天記錄各個時段的電量,kW·h。

        2.2 聚類過程

        2.2.1 樣本分布

        將694個用戶按照國民經濟行業(yè)分類,分成了11個行業(yè)。其分布如表1所示。

        表1 樣本分布

        2.2.2 距離權值的確定

        (1)據式(2)得出信息熵如表2所示。

        表2 各個特征的信息熵

        (2)表2可以看出,信息熵最小的特征是高峰熵,尖峰熵與高峰熵比值接近1,平期熵與高峰熵略大于1,谷期熵與高峰熵略大于1。根據信息熵比值越大,重要性越強,對應的重要系數就越大。因為尖峰與高峰熵相近,平期與谷期熵相近且均略大于高峰熵,所以設置的判斷矩陣W為

        (3)求出判斷矩陣W最大的特征值λ=4。

        (4)最大特征值對應的特征向量γ為

        γ=[0.125 0.125 0.375 0.375]。

        2.2.3 聚類數有效驗證

        聚類是一種無監(jiān)督的分類,由于沒有預先定義的分類或標簽來表明數據集中哪種期望的關系是有效的,用一種客觀公正的質量評價方法來評判聚類結果的有效性是一個困難而復雜的問題,但大多通過有效度的量度指標確定聚類數[15-17]。根據1.2節(jié)改進算法確定最佳聚類數,運行的環(huán)境是python3,然后采用手肘法進行聚類數驗證。

        在第10次分割時,第10個中心與第11個中心相同,因此樣本集的分割在第10次已經停止,閾值變化率過程如圖1所示。分割i次產生i+1個樣本集中心,i個閾值,i-1個閾值變化率。圖1中橫坐標表示閾值分割次數,縱坐標表示閾值變化率,變化率在第2次分割大于1,第3次分割小于1,且4、5、6次變化率平穩(wěn),所以最佳分割次數i=3,聚類數k=i+1=4。

        圖1 閾值變化率Fig.1 Threshold change rate

        為了使自動選取的k值更加具有說服力,采用加權復合距離的K-Means++算法進行手肘法判斷最佳k值,如圖2所示。由1.4節(jié)中的手肘法原理可知,畸變程度值開始變緩時的臨界點,對應最佳聚類數。圖2中畸變程度值開始變緩時,對應最佳聚類數為4,與改進K-Means++中的自動確定k值相符合。

        圖2 手肘法Fig.2 The elbow method

        2.2.4 聚類算法對比

        在最佳聚類數k=4時,比較改進K-Means++距聚類算法,加權K-Means++算法,K-Means++算法,模糊C均值算法的DBI指標,如表3所示。

        表3 聚類結果

        由表3可知,改進K-Means++距聚類算法的DBI指標最小,聚類效果最好。

        2.2.5 聚類結果分布

        聚類結果為4類,如圖3所示,分別為A、B、C、D類。透明度為0.3的兩個特征是尖峰時期的平均用電占比與高峰時期的平均用電占比,而無透明度的兩個特征是平期與谷期的平均用占比。聚類分布不能得出精確的用電類型,但可以得到各類用戶初步用電分布。

        圖3 聚類結果Fig.3 Clustering results

        由圖3可以看出,A類有280個用戶,其中268個用戶平期平均用電占比30%~40%,其他時段大部分平均用電占比20%~30%。

        B類有198個用戶,其中155個用戶谷期平均用電占比最大,43個用戶平期平均用電占比略大于谷期平均用電占比。整體呈現(xiàn)谷期平均用電占比最大。

        C類有170個用戶,其中132個用戶平期平均用電占比在40%~50%,38個用戶平期平均用電占比35%~39%。谷期平均用電占比在10%~20%。與A類相比,谷期平均用電占比低于A類。

        D類有46個用戶,其中平期平均用電占比均大于50%,大部分谷期平均用電占比小于10%,高峰期平均用電占比20%~30%,尖峰期平均用電占比在10%~20%。平期平均用電占比最大。

        3 行業(yè)用電行為分析

        聚類結果得到各個類別用戶總分布情況,不能精確分析用電類型,需要通過典型用戶篩選出每個類別代表用戶,得到各個類別的用電類型,然后對行業(yè)所屬的用電類型分析,有助于供電部門了解該地區(qū)目前行業(yè)用電類型,為用戶制定個性化的營銷方案,同時加深了用戶對自身用電行為的認識。

        3.1 典型用戶篩選

        對于典型用戶的篩選,文獻[18]采用Canopy++K-means聚類算法,選取聚類質心對應的負荷曲線作為代表曲線,文獻[19]采用模糊C均值聚類,對每類簇利用加權重心的思想求出每類用戶重心,再從年用電量不小于該類平均重量的用戶中,搜索出離用戶重心最近的一個用戶作為典型用戶,文獻[20]通過計算評價對象與正理想解和負理想解間的歐式距離獲得降序排列的用戶得分,進而以靠前得分用戶為典型用戶。從以上研究可以看出,存在以下3個方面的不足:①以聚類質心作為典型用戶,不是實際的用戶,而是多個用戶的平均;②加權重心是超參數難調;③歐式距離相近,不代表各個維度的變化一致,需要兼顧各個維度的形態(tài)一致。所以本文選取每個類別中離聚類質心加權復合距離最近的用戶為典型用戶,根據典型用戶篩選模型得到每類典型用戶分布,如表4所示。

        表4 典型用戶Table 4 Typical user

        典型用戶篩選模型為

        F[dis(A2,B2)]min=fmin[ED?(Xk,ck)+

        (11)

        式(11)中:Xk為第k類的樣本集;ck為第k類別的聚類中心。

        由表4可以看出,D類型的用戶平期用電量大于50%,稱為高負荷型,C類型的用戶平期用電量大于40%,稱為較高負荷型,D、C類用電類型統(tǒng)稱負荷型,B類用戶的谷期用電量占比大于30%,且是四個時期最大的,稱為避峰型,A類用戶平期用電占比介于負荷型與避峰型之間,稱為過渡型。

        3.2 行業(yè)用電類別分析

        3.2.1 行業(yè)用電類別占比分析

        根據歸一化統(tǒng)計公式對各類別行業(yè)樣本數占比統(tǒng)計,將各類別信息熵由大到小排列,如表5所示。

        表5 行業(yè)類別占比

        歸一化統(tǒng)計公式為

        (12)

        由表5可以看出,大部分制造業(yè)所屬的負荷型與過渡型用電類型占比較多,所以本文研究的制造業(yè)用電類型更加偏向于負荷型與過渡型,而服務行業(yè)用電類型更加偏向于過渡型與避峰型。這種用電類型與實際相符合,因為制造業(yè)存在負荷型大規(guī)模的生產,服務業(yè)相比于制造業(yè),很少進行負荷型大規(guī)模的生產。

        3.2.2 相同用電行為的行業(yè)挖掘

        為了挖掘不同行業(yè)相同用電行為,從主要用電類型與用電類型轉變兩個角度對行業(yè)用電行為進行研究,主要用電類型與用電類型轉變的定義如下。

        主要用電類型定義:在3種用電類型中,占比最大的為主要用電類型。

        用電類型轉變定義:制造業(yè)中各用電類型占比不小于20%,則各用電類型之間存在轉變。從供給側鼓勵用戶側將高負荷型或者較高負荷型生產轉移至谷期進行生產的角度,用電類型存在負荷型向過渡型和過渡型向避峰型的轉變。

        根據3.2.1節(jié)中制造業(yè)存在負荷型生產,而服務業(yè)很少進行負荷型生產,所以對制造業(yè)主要從用電類型與用電類型轉變分析,服務業(yè)僅分析用電類型轉變。由表5行業(yè)類別占比得到行業(yè)用電行為如表6所示。

        表6 行業(yè)用電行為

        由表6可以看出,根據相同的用電行為可以將7大制造業(yè)可以分成4種行業(yè),分別是汽車制造與鐵路船舶航天制造,電子設備制造,房屋工程建筑,土木工程建筑、通用設備制造和金屬制品。4大服務業(yè)可分成3種行業(yè),分別是住宿業(yè)和信息傳輸軟件服務、交通運輸倉儲郵政、電力熱力燃氣供應。供電部門根據行業(yè)的劃分可以快速掌握某地區(qū)行業(yè)用電的特點,為后續(xù)精細化制定營銷方案和分時電價提供依據。

        4 結論

        基于改進K-Means++算法對分時電量聚類與行業(yè)用電行為分析得到以下結論。

        (1)改進K-Means++算法具有以下優(yōu)點:通過SA與閾值分割解決了K-Means++初始質心與聚類數不確定問題,聚類算法精度優(yōu)于傳統(tǒng)K-Means++、模糊C均值。

        (2)對行業(yè)用電行分析得出以下結論。

        ①重慶市某地區(qū)的11個行業(yè)目前存在3種用電類型,分別是負荷型、過渡型、避峰型。其中制造業(yè)用電類型更加偏向于負荷型與過渡型,而服務行業(yè)用電類型更加偏向于過渡型與避峰型。

        ②不同行業(yè)存在相同的用電行為,制造業(yè)中的汽車制造與鐵路船舶航天制造主要用電類型為負荷型,土木工程建筑、通用設備制造和金屬制品主要用電類型為過渡型。服務業(yè)住宿業(yè)和信息傳輸軟件服務主要用電類型為過渡型,電力熱力燃氣供應主要用電類型為避峰型。

        對不同行業(yè)的相同用電行為挖掘,有助于供電側快速掌握行業(yè)用電行為,為制定分時電價和引導用戶側合理用電做準備。

        猜你喜歡
        用戶
        雅閣國內用戶交付突破300萬輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛,請稍后再哭
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應用
        Camera360:拍出5億用戶
        100萬用戶
        免费看美女被靠的网站| 丰满爆乳一区二区三区| 欧美色图中文字幕| 久久久国产精品粉嫩av| 水蜜桃男女视频在线观看网站| 国产精品无码一区二区三区电影| 波多野结衣一区二区三区高清| 日本理论片一区二区三区| av国产免费在线播放| 免费不卡无码av在线观看| 特黄a级毛片免费视频| 亚洲中文字幕av天堂| 亚洲一区中文字幕一区| 亚洲日韩精品无码专区网址| 国产精品卡一卡二卡三| 97无码人妻一区二区三区蜜臀| 国产高清视频在线不卡一区| 亚洲av无码国产精品永久一区| 日韩欧美亚洲综合久久影院d3| 日本啪啪一区二区三区| 国产女主播一区二区三区| 中文字幕+乱码+中文字幕一区| 国产91在线免费| 9l国产自产一区二区三区| 大陆国产乱人伦| 中文字幕人妻中文av不卡专区| 亚洲AV秘 无码一区二区在线 | 在线看亚洲十八禁网站| 久久精品熟女亚洲av香蕉| 99久久超碰中文字幕伊人| 日韩区在线| 国产精品亚洲av无人区二区| 给你免费播放的视频| 无遮挡边吃摸边吃奶边做| 久久91精品国产91久久麻豆 | 97色人阁俺也去人人人人人| 中文字幕日韩有码在线| 欧美艳星nikki激情办公室| 婷婷激情六月| 尤物精品国产亚洲亚洲av麻豆| 丰满少妇呻吟高潮经历|