摘 要:針對電力企業(yè)營銷異常數(shù)據(jù)自動(dòng)校核的效率問題,本文提出一種基于改進(jìn)K-means算法的設(shè)計(jì)方案。通過優(yōu)化K-means算法,采用自然最近鄰搜索和相對密度度量,解決了低密度區(qū)域簇識(shí)別難題,對異常數(shù)據(jù)進(jìn)行精確聚類。同時(shí),本設(shè)計(jì)方案關(guān)注數(shù)據(jù)的一致性、唯一性和完整性,保證了數(shù)據(jù)質(zhì)量。試驗(yàn)結(jié)果表明,與傳統(tǒng)K-means自動(dòng)校核方法相比,本方案顯著縮短了校核時(shí)間,提高了自動(dòng)校核效率。以Flame、Pathbased等多個(gè)數(shù)據(jù)集為例,校核時(shí)間最多縮短了近一半,有效提高了電力企業(yè)營銷異常數(shù)據(jù)自動(dòng)校核的實(shí)時(shí)性和準(zhǔn)確性,為電力企業(yè)提供了更高效、可靠的自動(dòng)校核支持。
關(guān)鍵詞:K-means;異常數(shù)據(jù);自動(dòng)校核" " "中圖分類號(hào):TP 39" 文獻(xiàn)標(biāo)志碼:A
在電力企業(yè)的營銷過程中,及時(shí)發(fā)現(xiàn)和處理異常數(shù)據(jù)對保證企業(yè)的經(jīng)營效益至關(guān)重要[1]。然而,傳統(tǒng)的手動(dòng)校核方法存在效率低和延遲的問題。為了解決這個(gè)問題,本文提出了一種基于改進(jìn)K-means算法的自動(dòng)校核方法。通過優(yōu)化聚類算法的計(jì)算過程,縮短校核時(shí)間,提高自動(dòng)校核的效率,更及時(shí)地發(fā)現(xiàn)和處理異常數(shù)據(jù)。
1 基于改進(jìn)K-means的電力企業(yè)營銷異常數(shù)據(jù)自動(dòng)校核方法設(shè)計(jì)
1.1 采集電力企業(yè)營銷異常數(shù)據(jù)
對銷售量的監(jiān)測進(jìn)行分析,可以發(fā)現(xiàn)銷售量異常的情況。例如,某個(gè)時(shí)期銷售量突然大幅增加或減少,與歷史數(shù)據(jù)相比存在明顯的差異;對銷售額進(jìn)行監(jiān)測和分析,發(fā)現(xiàn)銷售額異常的情況。電力企業(yè)的用戶分為工業(yè)用戶、商業(yè)用戶、居民用戶等不同類型。如果某個(gè)類型的用戶的銷售量或銷售額出現(xiàn)異常,與該類型用戶的歷史數(shù)據(jù)存在明顯的差異,就判斷用戶類型異常[2]。可以對用戶的用電行為進(jìn)行監(jiān)測和分析,以此發(fā)現(xiàn)用電行為異常的情況。例如,某個(gè)用戶的用電模式突然發(fā)生變化,與歷史數(shù)據(jù)相比有明顯差異。除了上述特征,還可以結(jié)合具體的營銷數(shù)據(jù)對其進(jìn)行分析,例如分析電力用戶的地理分布、用電時(shí)間段分布、不同用戶類型的用電特點(diǎn)等。當(dāng)分析電力營銷異常數(shù)據(jù)特征時(shí),需要注意數(shù)據(jù)的一致性[3],即采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別應(yīng)該保持一致。如果新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別不一致,就需要進(jìn)一步檢查數(shù)據(jù)采集的準(zhǔn)確性和完整性,保證分析結(jié)果的準(zhǔn)確性和可靠性,其特征的計(jì)算過程如公式(1)所示。
式中:n為異常數(shù)據(jù)的總數(shù);avg(Rm+n)為歷史平滑度指數(shù)的均值;而avg(Rm+n-i)為去除第i條異常數(shù)據(jù)后的平滑度指數(shù)的均值。
電力營銷異常數(shù)據(jù)的一致性特征是指采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)之間的一致性程度。具體來說,它衡量了新采集的異常數(shù)據(jù)是否與歷史異常數(shù)據(jù)的類別一致。如果新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別一致,那么I1值就會(huì)較高,表示數(shù)據(jù)的一致性較好。相反,如果新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別不一致,那么I1值就會(huì)較低,表示數(shù)據(jù)的一致性較差,其特征的計(jì)算過程如公式(2)所示。
式中:I2為電力企業(yè)營銷異常數(shù)據(jù)的唯一性特征。根據(jù)兩個(gè)變量計(jì)算這個(gè)特征,其中,U為電力異常數(shù)據(jù)的唯一數(shù)據(jù)條數(shù);而N為全部異常數(shù)據(jù)的數(shù)量。電力營銷異常數(shù)據(jù)的唯一性特征是指采集的異常數(shù)據(jù)中是否存在相同的數(shù)據(jù)條目[4]。具體來說,它衡量了在所有異常數(shù)據(jù)中有多少條數(shù)據(jù)是唯一的。如果電力異常數(shù)據(jù)中存在大量的唯一數(shù)據(jù)條目,那么I2值就會(huì)較高,表示數(shù)據(jù)的唯一性較好。相反,如果存在較少的唯一數(shù)據(jù)條目,那么I2值就會(huì)較低,表示數(shù)據(jù)的唯一性較差。另外,電力營銷異常數(shù)據(jù)還具有完整性特征。這個(gè)特征的衡量標(biāo)準(zhǔn)是采集的異常數(shù)據(jù)是否完整。完整性特征考察的是采集的數(shù)據(jù)是否包括了所有的異常情況。如果采集的異常數(shù)據(jù)是完整的,那么電力營銷異常數(shù)據(jù)的完整性特征就較好。反之,如果存在缺失或遺漏的異常情況,那么完整性特征就較差,其特征的計(jì)算過程如公式(3)所示。
式中:I3為電力營銷異常數(shù)據(jù)的完整性特征,利用變量C計(jì)算這個(gè)特征的。
其中,C為電力企業(yè)營銷的完整數(shù)據(jù)。電力營銷異常數(shù)據(jù)的完整性特征是指采集的異常數(shù)據(jù)是否完整,是否包括所有的異常情況,其特征的計(jì)算過程如公式(4)所示。
式中:I4為電力企業(yè)營銷異常數(shù)據(jù)采集點(diǎn)在相鄰時(shí)刻的波動(dòng)特征。根據(jù)一些變量計(jì)算這個(gè)特征,包括S(xi)、avg(xi)和xi。
電力企業(yè)營銷異常數(shù)據(jù)的波動(dòng)特征是指在相鄰時(shí)刻采集的異常數(shù)據(jù)的波動(dòng)情況。具體來說,它衡量了異常數(shù)據(jù)在時(shí)間上的變化幅度。波動(dòng)特征的計(jì)算涉及兩個(gè)方面:相鄰采集點(diǎn)的數(shù)值標(biāo)準(zhǔn)差S(xi)和相鄰采集點(diǎn)的異常數(shù)據(jù)均值avg(xi)。數(shù)值標(biāo)準(zhǔn)差反映了數(shù)據(jù)的離散程度,而異常數(shù)據(jù)均值表示異常數(shù)據(jù)的中心位置。
1.2 基于密度聚類算法選取自動(dòng)校核參數(shù)
為了解決低密度區(qū)域的簇不被歸為噪聲的問題,利用自然最近鄰搜索方法找到每個(gè)采集點(diǎn)的自然最近鄰個(gè)數(shù)。自然最近鄰是指在數(shù)據(jù)空間中距離最近的鄰居點(diǎn),而不是事先定義的固定數(shù)量。通過找到自然最近鄰,可以確定每個(gè)采集點(diǎn)所在的簇。在高密度的簇邊界區(qū)域,使用一個(gè)相對密度來替代原來的密度度量[5]。相對密度是指一個(gè)點(diǎn)周圍的鄰居點(diǎn)的數(shù)量與整個(gè)數(shù)據(jù)集的平均密度之比。使用相對密度來衡量高密度簇邊界區(qū)域的密度,可以更好地捕捉這些邊界區(qū)域的特征,如公式(5)所示。
式中:nb(i)為在自然最近鄰搜索中,當(dāng)鄰居采集點(diǎn)為0的數(shù)據(jù)不再變化時(shí),異常數(shù)據(jù)xi的最近鄰個(gè)數(shù)。這個(gè)值反映了在搜索過程中,異常數(shù)據(jù)xi的鄰居點(diǎn)數(shù)量的變化情況。當(dāng)鄰居采集點(diǎn)為0時(shí),表示異常數(shù)據(jù)周圍沒有其他采集點(diǎn),即它是一個(gè)孤立的點(diǎn)。當(dāng)nb(i)較大時(shí),表示異常數(shù)據(jù)xi周圍有較多的鄰居點(diǎn),即它所在的區(qū)域密度較高;nk(i)表示自然最近鄰搜索達(dá)到穩(wěn)定狀態(tài)時(shí),異常數(shù)據(jù)xi的最近鄰個(gè)數(shù)。這個(gè)值反映了在搜索過程中,異常數(shù)據(jù)xi的鄰居點(diǎn)數(shù)量的穩(wěn)定狀態(tài)。當(dāng)搜索達(dá)到穩(wěn)定狀態(tài)時(shí),說明異常數(shù)據(jù)xi的鄰居點(diǎn)數(shù)量不再發(fā)生變化,即找到了它的自然最近鄰。當(dāng)nk(i)較大時(shí),表示異常數(shù)據(jù)xi周圍有較多的鄰居點(diǎn),即它所在的區(qū)域密度較高。
2 試驗(yàn)過程
2.1 實(shí)現(xiàn)多類型保護(hù)的定值自動(dòng)校核
在電力企業(yè)營銷中,對線路保護(hù)類型的真實(shí)數(shù)據(jù)進(jìn)行記錄是非常重要的。這些真實(shí)數(shù)據(jù)與不同的保護(hù)型號(hào)(例如RCS941、RCS974、RsC978、RsC923等)一一對應(yīng)。將真實(shí)數(shù)據(jù)作為觀測量,在真實(shí)數(shù)據(jù)變?yōu)楫惓?shù)據(jù)的瞬間,快速找出對應(yīng)的保護(hù)型號(hào)和類型,縮短自動(dòng)校核的時(shí)間。記錄電力企業(yè)營銷的線路保護(hù)類型的真實(shí)數(shù)據(jù)是為了建立一個(gè)基準(zhǔn),便于后續(xù)校核和比對。這些真實(shí)數(shù)據(jù)包括線路的電流、電壓、功率等參數(shù)以及相關(guān)的故障和異常情況。通過記錄這些數(shù)據(jù),建立一個(gè)全面而準(zhǔn)確的線路保護(hù)類型數(shù)據(jù)庫。電力企業(yè)營銷類型見表1。
2.2 試驗(yàn)步驟
2.2.1 數(shù)據(jù)采集與預(yù)處理
使用Python語言對ECMC數(shù)據(jù)集進(jìn)行預(yù)處理和特征提取。通過數(shù)據(jù)清洗、缺失值處理、特征選擇等步驟,將原始數(shù)據(jù)轉(zhuǎn)化為適合聚類分析的形式。具體步驟如下。①數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)和異常值,保證數(shù)據(jù)的整潔性。②缺失值處理:對缺失值進(jìn)行插補(bǔ)或刪除,保證數(shù)據(jù)的完整性。③特征選擇:選擇與電力企業(yè)營銷相關(guān)的特征,包括銷售量、銷售額、用戶類型、用電行為等。在數(shù)據(jù)采集階段,對銷售量和銷售額進(jìn)行監(jiān)測,發(fā)現(xiàn)異常情況。例如,某個(gè)時(shí)期銷售量或銷售額突然大幅增加或減少,與歷史數(shù)據(jù)相比存在明顯差異。此外,還對用戶的用電行為進(jìn)行監(jiān)測,發(fā)現(xiàn)用電模式的異常變化。這些特征分析需要保證數(shù)據(jù)的一致性,將采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)的類別保持一致??梢杂霉剑?)衡量異常數(shù)據(jù)的一致性特征。
2.2.2 特征提取與一致性分析
在電力企業(yè)營銷異常數(shù)據(jù)的分析過程中,特征提取是至關(guān)重要的一步。特征提取不僅能幫助理解數(shù)據(jù)的基本特征,還能為后續(xù)的聚類分析和異常檢測提供有價(jià)值的信息。在這個(gè)階段,主要關(guān)注3個(gè)方面的特征:一致性特征、唯一性特征和完整性特征。一致性特征是指新采集的異常數(shù)據(jù)與歷史異常數(shù)據(jù)之間的相似程度。這個(gè)特征反映了異常數(shù)據(jù)是否與已有的數(shù)據(jù)模式相符。為了量化這個(gè)特征,使用公式(2)來衡量一致性程度。如果一致性程度接近1,說明新數(shù)據(jù)與歷史數(shù)據(jù)在類別上高度一致,反之則表明二者存在顯著差異。在實(shí)際操作中,通過以下步驟來評(píng)估一致性特征。①數(shù)據(jù)分類:對新采集的異常數(shù)據(jù)和歷史異常數(shù)據(jù)進(jìn)行分類,保證能夠清晰地識(shí)別各自的類別。②類別比較:對比新舊數(shù)據(jù)的類別分布,計(jì)算一致性程度,并分析不一致的原因,例如數(shù)據(jù)采集錯(cuò)誤、用戶行為變化等。唯一性特征則關(guān)注的是異常數(shù)據(jù)的獨(dú)特性,主要體現(xiàn)在數(shù)據(jù)條目的獨(dú)特性和多樣性。通過評(píng)估異常數(shù)據(jù)中獨(dú)特條目的數(shù)量,判斷異常情況是否為偶發(fā)事件或普遍現(xiàn)象。用公式(3)計(jì)算唯一性特征,比率越高,表明異常數(shù)據(jù)的獨(dú)特性越強(qiáng),說明需要重視潛在的異常事件。分析唯一性有以下步驟。①數(shù)據(jù)去重:對異常數(shù)據(jù)進(jìn)行去重處理,識(shí)別唯一的數(shù)據(jù)條目。②統(tǒng)計(jì)分析:計(jì)算唯一數(shù)據(jù)條目占總異常數(shù)據(jù)的比例,并進(jìn)一步分析這些唯一條目表示的異常現(xiàn)象性質(zhì)。完整性特征則關(guān)注數(shù)據(jù)的完整性和可用性,保證在分析過程中不會(huì)因?yàn)槿笔?shù)據(jù)而導(dǎo)致誤判。檢查異常數(shù)據(jù)中是否存在缺失值,評(píng)估缺失值的數(shù)量和類型。使用公式(4)計(jì)算完整性特征,完整性特征值越接近1,說明數(shù)據(jù)的完整性越高,分析結(jié)果的可靠性也越強(qiáng)。
2.2.3 聚類分析
在數(shù)據(jù)預(yù)處理完成后,利用Paddle平臺(tái)提供的聚類算法,對處理后的數(shù)據(jù)進(jìn)行聚類分析。為了解決低密度區(qū)域的簇不被歸為噪聲的問題,采用自然最近鄰搜索方法找到每個(gè)采集點(diǎn)的自然最近鄰個(gè)數(shù)。用公式(5)衡量異常數(shù)據(jù)的相對密度。通過找到自然最近鄰,可以更準(zhǔn)確地確定每個(gè)采集點(diǎn)所在的簇。在聚類分析過程中,嘗試不同的聚類算法和參數(shù)設(shè)置,獲得不同的聚類效果,尤其關(guān)注聚類結(jié)果的準(zhǔn)確性、穩(wěn)定性和可解釋性以及對異常數(shù)據(jù)子集的識(shí)別能力。
2.2.4 自動(dòng)校核應(yīng)用
根據(jù)不同的聚類結(jié)果,將自動(dòng)校核應(yīng)用于電力企業(yè)營銷異常數(shù)據(jù)子集。對比自動(dòng)校核結(jié)果與真實(shí)異常情況的對應(yīng)關(guān)系,評(píng)估聚類效果對自動(dòng)校核的影響,驗(yàn)證聚類效果對自動(dòng)校核的重要性,并為電力企業(yè)提供更準(zhǔn)確和可靠的自動(dòng)校核支持。在試驗(yàn)中,使用以下測試數(shù)據(jù)集驗(yàn)證聚類算法的有效性。①Flame數(shù)據(jù)集:測試算法處理凸形和凹形數(shù)據(jù)時(shí)的效果。②Pathbased數(shù)據(jù)集:評(píng)估算法處理橢圓形密度簇時(shí)的性能。③Compound數(shù)據(jù)集:測試算法處理復(fù)雜密度簇時(shí)的魯棒性。④Rl5數(shù)據(jù)集:評(píng)估算法處理放射狀密度簇時(shí)的能力。⑤Agregation數(shù)據(jù)集:測試算法處理密度均勻但形狀不同的密度簇時(shí)的效果。⑥D(zhuǎn)31數(shù)據(jù)集:評(píng)估算法處理均勻密度簇時(shí)的性能。⑦t4.8k數(shù)據(jù)集:測試算法處理正弦函數(shù)分布的密度簇時(shí)的效果。⑧UserO18數(shù)據(jù)集:評(píng)估不同聚類效果對自動(dòng)校核的影響,提供更準(zhǔn)確和可靠的自動(dòng)校核支持。試驗(yàn)數(shù)據(jù)集的參數(shù)見表2。
2.3 試驗(yàn)結(jié)果
對數(shù)據(jù)集Flame來說,常規(guī)K-means自動(dòng)校核方法的校核時(shí)間為8'26\",而本文設(shè)計(jì)的自動(dòng)校核方法的校核時(shí)間為3'01\"。可以看出,在該數(shù)據(jù)集上,本文設(shè)計(jì)的自動(dòng)校核方法比常規(guī)K-means方法校核時(shí)間更短。對數(shù)據(jù)集Pathbased來說,常規(guī)K-means自動(dòng)校核方法的校核時(shí)間為16'45\",而本文設(shè)計(jì)的自動(dòng)校核方法的校核時(shí)間為6'12\"。本文設(shè)計(jì)的自動(dòng)校核方法在該數(shù)據(jù)集上校核時(shí)間更短。對數(shù)據(jù)集Compound、Rl5、Agregation、D31、t4.8k和UserO18來說,本文設(shè)計(jì)的自動(dòng)校核方法校核時(shí)間均更短,兩種方法的校核時(shí)間見表3。
由于K-means算法需要迭代計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與聚類中心的距離,因此當(dāng)數(shù)據(jù)集較大時(shí),算法的計(jì)算復(fù)雜度增加,導(dǎo)致校核時(shí)間較長。這種延遲會(huì)導(dǎo)致在校核過程中忽略或延誤異常數(shù)據(jù),從而不能及時(shí)發(fā)現(xiàn)和處理電力企業(yè)營銷的異常情況。為了解決這個(gè)問題,本研究設(shè)計(jì)了一種自動(dòng)校核方法,旨在縮短校核時(shí)間并提高自動(dòng)校核效率。通過優(yōu)化K-means算法的計(jì)算過程,采用更高效的聚類算法或算法優(yōu)化技術(shù),大幅度減少校核時(shí)間。試驗(yàn)結(jié)果表明,本研究設(shè)計(jì)的自動(dòng)校核方法的校核時(shí)間可以縮短為常規(guī)K-means自動(dòng)校核方法的一半以上,提高了自動(dòng)校核的效率。
3 結(jié)語
本文設(shè)計(jì)了一種基于改進(jìn)K-means算法的自動(dòng)校核方法,旨在解決電力企業(yè)營銷中的異常數(shù)據(jù)自動(dòng)校核問題。通過優(yōu)化聚類算法的計(jì)算過程,成功地縮短了校核時(shí)間,并提高了自動(dòng)校核的效率。試驗(yàn)結(jié)果表明,該方法能夠更及時(shí)地檢測和識(shí)別異常數(shù)據(jù),為電力企業(yè)的營銷決策提供了支持。
參考文獻(xiàn)
[1] 陶永輝,王勇.基于改進(jìn)的K-means風(fēng)電機(jī)異常數(shù)據(jù)檢測[J].國外電子測量技術(shù), 2023, 42(4):141-148.
[2] 王彬彬.基于K-means聚類的軟件定義網(wǎng)絡(luò)異常流量分類研究[J].齊齊哈爾大學(xué)學(xué)報(bào):自然科學(xué)版, 2022(2):50-55,90.
[3] 胡豪杰,陳輝,穆婷婷,等.基于外點(diǎn)檢測的加權(quán)k-means算法[J].南京師范大學(xué)學(xué)報(bào):工程技術(shù)版, 2022, 22(1):6.
[4] 張園園,朵琳,韋貴香.基于異常值檢測矩陣分解的服務(wù)質(zhì)量預(yù)測[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023, 46(2):255.
[5] 徐胤博,于洋.基于K-means聚類的艦船通信網(wǎng)絡(luò)異常數(shù)據(jù)檢測[J].艦船科學(xué)技術(shù), 2023, 45(16):169-172.