亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于IK-MD-SA 聚類算法的電力數(shù)據(jù)審計(jì)疑點(diǎn)研究

        2022-01-04 12:01:52陳蓉CHENRong
        價(jià)值工程 2022年1期

        陳蓉CHEN Rong

        (成都興通電研電力科技有限公司,成都 610041)

        0 引言

        電力企業(yè)是關(guān)系國計(jì)民生、國家經(jīng)濟(jì)和社會發(fā)展的支柱性行業(yè),隨著科學(xué)技術(shù)的不斷發(fā)展,電網(wǎng)規(guī)模逐漸擴(kuò)大,海量非結(jié)構(gòu)數(shù)據(jù)日益增加,加大了傳統(tǒng)基于人工經(jīng)驗(yàn)審計(jì)工作的監(jiān)督巡查難度,嚴(yán)重威脅了電力信息系統(tǒng)的安全性。若電力數(shù)據(jù)庫遭到破壞,將直接影響電力行業(yè)發(fā)展的健康穩(wěn)定性,甚至?xí)o國家和社會造成不可估計(jì)的損失。因此,科學(xué)調(diào)整電力審計(jì)方式、促進(jìn)電力審計(jì)信息化發(fā)展,從而提升審計(jì)工作效率和準(zhǔn)確度的改革迫在眉睫。人工智能、互聯(lián)網(wǎng)大數(shù)據(jù)等新興技術(shù)的層出不窮,為計(jì)算機(jī)輔助電力審計(jì)巡查疑點(diǎn)數(shù)據(jù)、揭露審計(jì)風(fēng)險(xiǎn)的工作方式提供了新契機(jī),也迎來了挑戰(zhàn),研究如何充分發(fā)揮審計(jì)這個“免疫系統(tǒng)”,實(shí)現(xiàn)審計(jì)全覆蓋電力大數(shù)據(jù),并高效精確的發(fā)現(xiàn)疑點(diǎn)數(shù)據(jù)具有重要意義。

        目前,國內(nèi)外普遍關(guān)注電力審計(jì)智能化研究,運(yùn)用數(shù)據(jù)挖掘[1-2]、模型構(gòu)建[3-5]等研究熱點(diǎn)進(jìn)行內(nèi)部審計(jì)工作的轉(zhuǎn)型,但現(xiàn)階段仍處于初步階段,理論和實(shí)踐都尚未成熟。大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的審計(jì)工作疑點(diǎn)數(shù)據(jù)分析相似于“離群點(diǎn)”檢測,是從大量隨機(jī)數(shù)據(jù)中尋找數(shù)據(jù)間隱藏規(guī)律性特征的過程[6]。聚類分析算法作為一種無監(jiān)督數(shù)據(jù)挖掘技術(shù),可以在不給定先驗(yàn)知識的條件下尋找出數(shù)據(jù)間內(nèi)在關(guān)系并完成分類。聚類審計(jì)業(yè)務(wù)中,實(shí)例較少的“小簇”和較多實(shí)例的“大簇”由于存在較大的特征屬性差異,將被視為潛在疑點(diǎn)。大數(shù)據(jù)聚類分析能夠?qū)⒄急壤賲s有更大疑點(diǎn)的數(shù)據(jù)聚類為可疑數(shù)據(jù)“小簇”,配合審計(jì)經(jīng)驗(yàn)既可以實(shí)現(xiàn)海量數(shù)據(jù)總體分析又可以配合審計(jì)人員發(fā)現(xiàn)審計(jì)疑點(diǎn)并迅速精確定位。王丙參等[6]根據(jù)不同的場合通過運(yùn)用不同的測量方法對函數(shù)型數(shù)據(jù)聚類方法進(jìn)行了比較和評價(jià)。王金會等[7]針對政府云計(jì)算下大數(shù)據(jù)泄露、濫用、侵襲等風(fēng)險(xiǎn),構(gòu)建指標(biāo)運(yùn)用熵權(quán)法對安全風(fēng)險(xiǎn)進(jìn)行了評估分析。王海洪[8]通過分析近7 年來大數(shù)據(jù)審計(jì)的相關(guān)文獻(xiàn)指出目前審計(jì)評估已由假設(shè)驗(yàn)證模式轉(zhuǎn)化為運(yùn)用網(wǎng)絡(luò)爬蟲、聚類分析和機(jī)器學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘模型。文獻(xiàn)[6-8]的研究均停留在理論層面,并未進(jìn)行實(shí)例分析。

        綜上所述,本文在已有研究的基礎(chǔ)上,構(gòu)建了一種無需基于訓(xùn)練集構(gòu)建訓(xùn)練模型的無監(jiān)督蜂群迭代K-means聚類模型進(jìn)行審計(jì)電力數(shù)據(jù)??紤]K-means 聚類算法選擇初始聚類中敏感性、易陷入局部最優(yōu)解導(dǎo)致聚類結(jié)果不穩(wěn)定的不足,運(yùn)用相異性度量法對初始聚類中心點(diǎn)的選取進(jìn)行改進(jìn),然后利用改進(jìn)的蜂群算法對聚類中心結(jié)果和聚類結(jié)果進(jìn)行優(yōu)化,以保證電力大數(shù)據(jù)聚類結(jié)果的準(zhǔn)確性。最后通過離散型電力數(shù)據(jù)進(jìn)行識別潛在疑點(diǎn)試驗(yàn),驗(yàn)證了所提算法的可行性和有效性。

        1 基于IK-MD 聚類的審計(jì)疑點(diǎn)發(fā)現(xiàn)算法

        傳統(tǒng)K-means 聚類算法存在初始聚類中心敏感性極易陷入局部最優(yōu)解,電力審計(jì)時潛在疑點(diǎn)簇依靠審計(jì)經(jīng)驗(yàn)確定聚類中的問題[9]。本文運(yùn)用相異性度量法,通過定義均值和總體相異性的度量方式,確定電力數(shù)據(jù)的初始聚類中心進(jìn)行改進(jìn)。只輸入聚類數(shù)便能獲取聚類中心,且多次運(yùn)算結(jié)果一致,充分保證了聚類結(jié)果的穩(wěn)定性?;贗K-MD的聚類算法利用啟發(fā)式算法能夠使每次自動選取的聚類中心一致,具有處理大型數(shù)據(jù)、不同簇類的能力,且在進(jìn)行離群點(diǎn)處理時能夠?qū)㈦x群點(diǎn)排除在候選聚類中心點(diǎn)之外,排除異常值對聚類結(jié)果的影響,具有很好的魯棒性和收斂性。

        1.1 相異性度量法確定初始聚類中心

        聚類算法是通過“物以類聚”的原則將相似度高的數(shù)據(jù)聚為一類,以最大化減少簇間數(shù)據(jù)的相似度。近年來,傳統(tǒng)聚類算法受離群點(diǎn)和隨機(jī)性因素的影響,存在初始聚類中心敏感、聚類結(jié)果穩(wěn)定性差等問題。相關(guān)研究者針對存在的問題進(jìn)行了改進(jìn),典型的改進(jìn)方法是運(yùn)用最小化平方誤差和尋找局部最優(yōu)解,以簇中距離最小點(diǎn)為聚類中心,解決離群點(diǎn)對聚類結(jié)果的影響,但仍存在初始聚類中心影響聚類結(jié)果穩(wěn)定性的現(xiàn)象。之后,離群因子和最大最小算法優(yōu)化[10]、平均差異度[11]、Pearson 相關(guān)系數(shù)[12]等改進(jìn)方法相繼出現(xiàn),改進(jìn)的算法也不能同時解決隨機(jī)選取初始聚類中心和離群點(diǎn)等問題。相異性度量法是一種通過數(shù)據(jù)間不同處構(gòu)造相異性矩陣,從而準(zhǔn)確確定初始聚類中心點(diǎn)的方法,其以中位數(shù)代替各簇中數(shù)據(jù)點(diǎn)的均值迭代后續(xù)聚類中心的方式可以消除離群點(diǎn)對聚類準(zhǔn)確率的影響,能夠同時避免傳統(tǒng)聚類算法中離群點(diǎn)和初始聚類中心隨機(jī)性問題。相異性度量法的具體操作步驟為:

        首先通過歐式距離計(jì)算數(shù)據(jù)點(diǎn)間的相異性dis;然后用兩兩數(shù)據(jù)間的臨近度構(gòu)造相異性對稱矩陣disM;其次計(jì)算數(shù)據(jù)點(diǎn)與簇中其他數(shù)據(jù)的距離平均值作為數(shù)據(jù)的均值相異性Adis(xi);最后以最大的Adis(xi)作為初始聚類中心,計(jì)算并比較數(shù)據(jù)集的總體相異性Tdis 和各數(shù)據(jù)與聚類中心的相異性Dydis(xi),若Dydis(xi)大于Tdis,則該數(shù)據(jù)樣本集作為第2 聚類中心,否則選取次大均值相異性數(shù)據(jù)集進(jìn)行判斷,依次循環(huán)類推,直至選出所有聚類中心為止,相關(guān)計(jì)算公式如下。通過選取均值聚類中心大的數(shù)據(jù)點(diǎn)為初始聚類中心,不僅可以避免初始聚類中心過于集中化,還能減少迭代次數(shù)。

        式中:xi表示實(shí)例,所有實(shí)例構(gòu)成數(shù)據(jù)集;n 表示數(shù)據(jù)樣本數(shù);m 表示數(shù)據(jù)維度。

        1.2 基于多次迭代的IK-MD 聚類分析

        聚類分析是通過某種標(biāo)準(zhǔn)將數(shù)據(jù)集內(nèi)具有相似性的數(shù)據(jù)劃分成同一簇的過程[13]。在聚類分析中,含有數(shù)據(jù)較少的簇稱為小簇,將小簇中的數(shù)據(jù)與其他多數(shù)數(shù)據(jù)進(jìn)行比較,若存在較大的差異性,則被視為審計(jì)疑點(diǎn)。單次聚類分析中,可疑度高的疑點(diǎn)會掩蓋可疑度底的疑點(diǎn),導(dǎo)致聚類精度低,疑點(diǎn)發(fā)現(xiàn)審計(jì)結(jié)果差[14-15]。因此,本文采用多次迭代的IK-MD 聚類算法對電力數(shù)據(jù)進(jìn)行疑點(diǎn)審計(jì),先確定數(shù)據(jù)集,劃分聚類簇?cái)?shù),相異性度量法確定初始聚類中心,并將數(shù)據(jù)集中的數(shù)據(jù)按照就近原則進(jìn)行歸簇,在用中位數(shù)代替均值重新計(jì)算選擇聚類中心,具體步驟如下:

        ①輸入數(shù)據(jù)集X 和聚類簇?cái)?shù)K;

        ②根據(jù)公式(1)分別計(jì)算數(shù)據(jù)點(diǎn)的相異性、均值相異性和總體相異性,取K=1;

        ③按照1.1 的介紹選取初始聚類中心;

        ④判斷聚類中心的個數(shù)與簇?cái)?shù)是否相等,若相等,確定聚類中心點(diǎn)集{u1,u2,…,uK},否則轉(zhuǎn)到步驟③;

        ⑤根據(jù)就近原則劃分?jǐn)?shù)據(jù)集到各簇,并標(biāo)記Ci;

        ⑥用中位數(shù)代替均值相異性重新計(jì)算聚類中心,公式為:

        ⑧在聚類結(jié)果中將簇中數(shù)據(jù)占總數(shù)據(jù)比≤5%、簇?cái)?shù)據(jù)與最多數(shù)據(jù)的簇相比<0.1 的簇定為小簇,視為電力數(shù)據(jù)審計(jì)疑點(diǎn);

        ⑨重復(fù)步驟②-⑧,直到?jīng)]有發(fā)現(xiàn)小簇條件是終止迭代;

        ⑩輸出審計(jì)疑點(diǎn)數(shù)據(jù)。

        2 基于IK-MD 聚類的審計(jì)疑點(diǎn)發(fā)現(xiàn)算法求解

        蜂群算法是用蜜源表示數(shù)據(jù)潛在聚類中心的一種群體智能搜索方法[16]。相異性度量法確定初始聚類中心解決了傳統(tǒng)K-means 算法初始聚類中心敏感性高的問題,但其結(jié)果的準(zhǔn)確性仍有待提高。因此,本文運(yùn)用蜂群算法結(jié)合K-means 聚類算法對上述聚類結(jié)果進(jìn)行優(yōu)化,以進(jìn)一步提高聚類結(jié)果的精確度。蜂群優(yōu)化IK-MD 聚類算法通過蜜源的適應(yīng)度值來獲得聚類簇的質(zhì)量如何,適應(yīng)度值越大、目標(biāo)函數(shù)值越小代表具有良好的聚類結(jié)果,其適應(yīng)度函數(shù)表達(dá)式為:

        式中:T 表示聚類質(zhì)量的目標(biāo)函數(shù)。

        蜂群優(yōu)化IK-MD 聚類算法將相異性度量法的初始聚類中心作為初始值,通過蜜源位置優(yōu)化各個聚類中心,計(jì)算式如公式(4),運(yùn)用K-means 算法對優(yōu)化結(jié)果再聚類,以聚類結(jié)果為中心更新蜂群,多次迭代直到滿足條件是終止,其具體流程如圖1 所示。

        圖1 蜂群優(yōu)化IK-MD 聚類算法流程圖

        3 算例分析

        為驗(yàn)證本文所提聚類算法的合理性和有效性,采用仿真和真實(shí)數(shù)據(jù)進(jìn)行測試本文所提方法的有效性。本文選取某地市幾家縣電力公司財(cái)報(bào)數(shù)據(jù)進(jìn)行驗(yàn)證,設(shè)置算法最大迭代次數(shù)為100 次,最小改進(jìn)因子為1e-05。

        本文從樣本公司營業(yè)收入增長率、營業(yè)利潤增長率、利潤總額增長率以及凈利潤增長率四個方面進(jìn)行聚類分析驗(yàn)證。如圖2 所示,將樣本數(shù)據(jù)分為四簇,每一簇都設(shè)置一個簇心,通過分析數(shù)據(jù)關(guān)于簇心的隸屬度確定審計(jì)可疑點(diǎn),由圖可以看出,本文所提的迭代IK-MD-SA 聚類電力大數(shù)據(jù)審計(jì)疑點(diǎn)算法具有較好的效果。

        圖2 迭代IK-MD-SA 聚類電力數(shù)據(jù)審計(jì)疑點(diǎn)算法聚類圖

        根據(jù)圖2 聚類分析實(shí)驗(yàn)結(jié)果,統(tǒng)計(jì)得出樣本電力公司中有27 處的審計(jì)數(shù)據(jù)存在于疑點(diǎn)數(shù)據(jù)聚類中,表現(xiàn)異常,對可以審計(jì)數(shù)據(jù)逐個分析核實(shí)情況,確定了相關(guān)可疑審計(jì)數(shù)據(jù)有23 處存在錯誤,驗(yàn)證本文所提算法的有效性。

        4 結(jié)論

        本文在已有研究的基礎(chǔ)上,構(gòu)建了一種無需基于訓(xùn)練集構(gòu)建訓(xùn)練模型的無監(jiān)督蜂群迭代K-means 聚類模型進(jìn)行審計(jì)電力數(shù)據(jù)。利用改進(jìn)的蜂群算法對聚類結(jié)果進(jìn)行優(yōu)化,使其保證高運(yùn)行效率的前提下聚類結(jié)果仍具有較高準(zhǔn)確性。最后,通過離散性電力數(shù)據(jù)進(jìn)行識別潛在疑點(diǎn)試驗(yàn),驗(yàn)證了所提算法的可行性和有效性。

        国产一级内射视频在线观看| 91久久国产综合精品| 久久精品国产视频在热| 日本一区二区三区光视频| 久久久久亚洲精品无码蜜桃| 国产精品一区二区 尿失禁| 亚洲精品美女久久久久99| 丝袜av乱码字幕三级人妻| 疯狂做受xxxx国产| 99久久免费看少妇高潮a片特黄| 大陆啪啪福利视频| av天堂免费在线播放| 蜜臀av午夜一区二区三区| 人人妻人人澡人人爽人人精品电影| 国产一区二区在线观看我不卡| 国产精品亚洲av高清二区| 激情综合丁香五月| 国产三级精品三级国产| 日韩人妻免费一区二区三区| 日本无遮挡真人祼交视频| 中文字幕日韩精品无码内射| 精品国产一区二区三区久久女人| av在线一区二区精品| 国产成人a∨激情视频厨房| 精品无码一区二区三区爱欲九九 | 天堂aⅴ无码一区二区三区 | 丰满熟妇人妻无码区| 亚洲综合视频一区二区| 亚洲精品无码久久久| 国产午夜精品一区二区三区视频| 亚洲av午夜福利一区二区国产| 欧美性xxxxx极品老少| 欧美亚洲精品一区二区| 亚洲24小时在线免费视频网站| 丝袜美腿亚洲第一免费| 国产在线精品一区二区在线看| 国产情侣一区在线| 日本午夜艺术一区二区| 一本色道久久综合无码人妻| 亚洲精品一二区| 久久精品国产在热亚洲不卡|