黃公躍 林思遠(yuǎn) 董佩純 付婷婷 薛冰
(深圳供電局有限公司客戶服務(wù)中心,廣東深圳 518000)
電力企業(yè)的用戶計費檔案不僅包括的信息內(nèi)容繁多,且隨著不同區(qū)域的用電需求不斷變化,用戶計費檔案不僅數(shù)量上與日俱增,其中的信息也不斷出現(xiàn)新的管理重點[1]。為檔案管理工作帶來了新的挑戰(zhàn),如何實現(xiàn)對檔案的準(zhǔn)確分類,為后續(xù)的應(yīng)用和檔案提取提供更加快速的定位條件成為現(xiàn)階段電力企業(yè)用戶計費檔案管理工作中的重點[2]。由于電力企業(yè)一般以區(qū)域范圍為經(jīng)營活動開展的基礎(chǔ),需要通過對整體用電數(shù)據(jù)進(jìn)行分析,為之后的發(fā)展決策提供參考,因此大多采用集中核算的模式對數(shù)據(jù)進(jìn)行動態(tài)分析,這種核算模式的效率與用戶計費檔案資源管理的可靠性直接相關(guān),由此可以看出,加強(qiáng)電力企業(yè)的用戶計費檔案管理具有十分重要的現(xiàn)實意義[3]。不少專家學(xué)者也就用戶計費檔案管理這一問題進(jìn)行了相關(guān)研究,其中,文獻(xiàn)[4]提出了以信息內(nèi)部之間邏輯關(guān)系為基礎(chǔ)的檔案管理方法,為檔案管理提供了一種新的思路,但其邏輯開發(fā)階段的時間成本較高,因此對于部分檔案規(guī)模較大的單位并不適用;文獻(xiàn)[5]借助大數(shù)據(jù)在信息計算中的優(yōu)勢,對檔案信息進(jìn)行分類,但在實際檔案管理中,數(shù)據(jù)是多樣化的,需要對其管理目標(biāo)進(jìn)一步優(yōu)化。
基于此,本文提出集中核算模式下電力企業(yè)用戶計費檔案管理研究,利用集中核算的信息結(jié)果,實現(xiàn)對信息的融合處理,以此為基礎(chǔ),實現(xiàn)對檔案的準(zhǔn)確分類,并通過實驗驗證了所提方法在用戶計費檔案管理方面的優(yōu)越性能。
在對檔案進(jìn)行管理之前,考慮到集中核算產(chǎn)生的數(shù)據(jù)結(jié)果較多,且規(guī)模較大,導(dǎo)致用戶計費檔案中的信息具有多樣化的特征,在表現(xiàn)形式和信息類型上不具有統(tǒng)一性,因此,本文采用主成分分析法(Principal Component Analysis,PCA),對集中檔案中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,其主要是將具有相關(guān)性的不同維度數(shù)據(jù)投射到同一數(shù)據(jù)維度中,為后續(xù)的用戶計費檔案管理提供保障。
假設(shè)集中核算得到的待管理檔案的信息維度為a×b,檔案數(shù)量為n,首先需要計算出檔案信息的協(xié)方差矩陣,將n檔案分別表示為[D1,D2,…,Dn],那么檔案信息的平均維度可以表示為:
其中,λn表示檔案信息的維度,γ表示信息維度的最大差值。通過式(1)將用戶計費檔案信息歸一化,并按照極端得到的λn值的大小,將用戶計費檔案劃分到不同的聚類空間中,γ即為距聚類的最大中心距離。
需要注意的是,實際的用戶計費檔案資源聚類中心制定標(biāo)準(zhǔn)是不唯一的,可以根據(jù)電力企業(yè)的管理需求,以不同的指標(biāo)作為中心。這樣就為用戶計費檔案的個性化管理提供了良好基礎(chǔ)。
實現(xiàn)對待分類檔案的歸一化處理后,需要對用戶計費檔案特征進(jìn)行提取,并將其作為用戶計費檔案分類管理的依據(jù)。為此,本文采用關(guān)聯(lián)規(guī)則特征分布式挖掘方法,通過計算用戶計費檔案對目標(biāo)特征的適應(yīng)度,判斷其聚類結(jié)果。
首先,建立了用戶計費檔案信息特征統(tǒng)計分析模型,其表示為:
其中,T(*)表示用戶計費檔案信息特征統(tǒng)計模型,k表示目標(biāo)特征參數(shù),t表示用戶計費檔案生成時間。利用計算得到的結(jié)果將用戶計費檔案信息以目標(biāo)特征值大小為標(biāo)準(zhǔn)進(jìn)行重構(gòu),為了確保管理結(jié)果最大限度保留檔案之間的關(guān)聯(lián)性,對用戶計費檔案計算得到的所有特征值結(jié)果進(jìn)行主成分劃分處理,其表示為:
其中,p為待管理的用戶計費檔案特征占比,對于用戶計費檔案中存在的難以準(zhǔn)確提取的模糊特征分量,將其作為單獨個體獨立管理。當(dāng)使用管理用戶計費檔案時,首先以特征為基礎(chǔ)在聚類中查找目標(biāo)用戶計費檔案,如果無法匹配出對應(yīng)的資料信息時,則在該聚類中匹配目標(biāo)用戶計費檔案,并根據(jù)匹配結(jié)果完成對用戶計費檔案的聚類劃分,以此實現(xiàn)對集中核算中全部用戶計費檔案的特征提取工作。
在確定用戶計費檔案的特征提取之后,就可以按照提取結(jié)果對其進(jìn)行分類管理。需要注意的是,由于不同電力企業(yè)的規(guī)模以及運營成本不同,因此對用戶計費檔案管理的要求也不同。為此,本文在對用戶計費檔案進(jìn)行分類時,以動態(tài)的分類尺度標(biāo)準(zhǔn)進(jìn)行,通過調(diào)整聚類用戶計費檔案特征值距離聚類中心的距離,提高管理靈活性。
假設(shè)企業(yè)對于用戶計費檔案管理要求的類別劃分為x,那在滿足該條件下,將特征提取結(jié)果中主成分因素前三的特征作為分類指標(biāo),此時聚類允許的最大距離可以表示為:
在此標(biāo)準(zhǔn)下,可以實現(xiàn)對大多數(shù)用戶計費檔案的分類,但也會存在部分用戶計費檔案到3個中心的距離均滿足要求,此時本文將用戶計費檔案的目標(biāo)特征占比作為劃分標(biāo)準(zhǔn),將最大占比特征作為分類結(jié)果;部分用戶計費檔案也會存在與3個聚類中心的距離都不滿足聚類要求的情況,此時本文將該類用戶計費檔案的特征與3個中心的關(guān)聯(lián)程度作為劃分標(biāo)準(zhǔn),將關(guān)聯(lián)性最高的特征作為分類結(jié)果。
通過這樣的方式,實現(xiàn)對用戶計費檔案的有效管理,提高對用戶計費檔案的分類精度。
為了對本文提出的用戶計費檔案管理方法的應(yīng)用性能進(jìn)行測試,以某電力企業(yè)的用戶計費檔案為實驗數(shù)據(jù),開展了測試,并將文獻(xiàn)[4]和文獻(xiàn)[5]提出的方法作為測試的對照組,通過對比3種方法的管理結(jié)果,提高對本文方法性能評價的客觀性。
測試使用的方案數(shù)據(jù)共包括5類,分別是用電時長、用電類別、密級、電壓等級以及所屬線路,每類數(shù)據(jù)1000份,要求分類的最大距離為0.6。以此為標(biāo)準(zhǔn),分別采用3種方法對用戶計費檔案進(jìn)行分類管理。
為了量化分類結(jié)果,將用戶計費檔案分類精度作為評價指標(biāo),其計算方式為
其中,Q為分類精度,Nr為分類結(jié)果中符合分類要求的檔案數(shù)量,N為待分類檔案的總量,在測試中,該數(shù)值為1000。以此為基礎(chǔ),對3種方法的用戶計費檔案管理結(jié)果進(jìn)行比較和評價。
在上述基礎(chǔ)上,分別對比了3種方法的對實驗數(shù)據(jù)的管理結(jié)果,具體如表1所示。
表1 不同方法的檔案分類精度
從表1中可以看出,在3種管理方法中,文獻(xiàn)[4]和文獻(xiàn)[5]對于用戶計費檔案的管理精度雖然表現(xiàn)良好,但與本文管理方法相比,對于用戶計費檔案的分類精度仍存在提升空間,特別是對于用電時長的檔案,由于其存在形式較多,文獻(xiàn)[4]和文獻(xiàn)[5]的分類結(jié)果均在0.9以下,并不理想。對于類型繁多,種類最為繁雜的用電時長,本文方法通過歸一化處理降低了特征提取的誤差,因此分類精度仍可達(dá)到0.939,對另外兩種檔案的分類精度均在0.950左右,表明本文提出的管理方法具有一定的研究價值。
電力企業(yè)用戶計費檔案資源的數(shù)量會隨著經(jīng)營時間的推移而逐漸增加,檔案的多樣化程度也會不斷提高,在此背景下,提高對用戶計費檔案的管理精度十分必要。本文提出集中核算模式下電力企業(yè)用戶計費檔案的管理研究,實現(xiàn)了對不同類型檔案的高精度分類,提高了檔案管理工作的效果,以期為電力企業(yè)的資源管理工作提供有價值的參考。