亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類分析優(yōu)化算法的數(shù)據(jù)快速挖掘與智能篩選

        2024-05-08 00:00:00陳子健
        粘接 2024年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        摘 要:為進(jìn)一步提高數(shù)據(jù)挖掘算法的處理速度和計(jì)算精確度,提出一種基于電力信息數(shù)據(jù)聚類分析的數(shù)據(jù)挖掘算法設(shè)計(jì)。該算法依據(jù)聚類分析原理,采用基于密度的聚類方法和相異度矩陣對(duì)數(shù)據(jù)和數(shù)據(jù)類型進(jìn)行篩選和相異度計(jì)算,并基于聚類分析框架設(shè)計(jì)數(shù)據(jù)挖掘算法流程。在數(shù)據(jù)挖掘算法基本策略下對(duì)輸入的數(shù)據(jù)采用SLIO算法處理離散字段,輸出需要的數(shù)據(jù)結(jié)果。仿真結(jié)果表明,相比其他配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法,所設(shè)計(jì)算法在數(shù)據(jù)挖掘速度和準(zhǔn)確度上均體現(xiàn)出較好的優(yōu)勢(shì),具有良好的可信度。

        關(guān)鍵詞:聚類分析法;相異度矩陣;數(shù)據(jù)挖掘;算法設(shè)計(jì)

        中圖分類號(hào):

        TP311.13

        文獻(xiàn)標(biāo)志碼:

        A文章編號(hào):

        1001-5922(2024)01-0189-04

        Data fast mining and intelligent screening based on clustering analysis optimization algorithm

        CHEN Zijian

        (Foshan Power Supply Bureau of Guangdong Power Grid Co.,Ltd.,F(xiàn)oshan 528000,Guangdong Chian)

        Abstract:In order to further improve the processing speed and calculation accuracy of data mining algorithm,a data mining algorithm design based on power information data clustering analysis was proposed.Based on the principle of clustering analysis,the algorithm used density-based clustering method and dissimilarity matrix to filter and calculate the dissimilarity of data and data types,and designed the data mining algorithm process based on the framework of clustering analysis.Under the basic strategy of data mining algorithm,the input data was processed by SLIO algorithm to deal with discrete fields,and the required data results were output.The simulation results showed that compared with other data mining algorithms of distribution network automation system,the designed algorithm had better advantages in data mining speed and accuracy,and had good credibility.

        Key words:cluster analysis;dissimilarity matrix;data mining;algorithm design

        大量的關(guān)聯(lián)大量電力用戶信息與用電行為業(yè)務(wù)數(shù)據(jù),需要通過(guò)對(duì)數(shù)據(jù)進(jìn)行有效的聚類和分類分析,可以提取有價(jià)值的用戶群體和用戶用電特征,為后續(xù)的電銷策略提供支持。按數(shù)據(jù)來(lái)源劃分,用電系統(tǒng)數(shù)據(jù)主要包括終端數(shù)據(jù)的實(shí)時(shí)采集和調(diào)度中心的中央數(shù)據(jù)匯總,該數(shù)據(jù)具有狀態(tài)多樣化、變量類型復(fù)雜的特點(diǎn),不利于統(tǒng)計(jì)分析。而采用聚類分析法可對(duì)其進(jìn)行簡(jiǎn)約化處理[1-3],針對(duì)在不同運(yùn)行狀態(tài)下用電系統(tǒng)的數(shù)據(jù)挖掘和分析,提取有效數(shù)據(jù)及其之間的關(guān)聯(lián)性,作為系統(tǒng)隱患檢測(cè)的數(shù)據(jù)參考。因此,研究文章通過(guò)對(duì)聚類分析的數(shù)據(jù)篩選和數(shù)據(jù)類型的相異度計(jì)算,設(shè)計(jì)一種基于聚類分析的數(shù)據(jù)挖掘優(yōu)化算法。

        1 基于聚類分析的數(shù)據(jù)智能篩選

        常用的聚類方法主要包括基于模型的聚類方法、基于網(wǎng)格的聚類方法和基于密度的聚類方法。基于密度聚類方法的原理是根據(jù)各數(shù)據(jù)點(diǎn)之間的密度相對(duì)情況進(jìn)行聚類,通過(guò)設(shè)定核心點(diǎn)與密度參數(shù)的方式,對(duì)核心店鄰域范圍內(nèi)的數(shù)據(jù)點(diǎn)進(jìn)行迭代查找,連接所有密度可達(dá)的核心點(diǎn)完成全部數(shù)據(jù)的聚類。將基于密度的聚類方法應(yīng)用于電銷數(shù)據(jù)的挖掘,可以提高挖掘的精度。

        設(shè)計(jì)在電銷聚類分析的數(shù)據(jù)挖掘算法中采用基于密度的聚類方法篩選數(shù)據(jù)[4-5]:設(shè)低密度區(qū)域?yàn)閚d,用以分割聚類空間中的數(shù)據(jù)類;分割后的數(shù)據(jù)類高密度區(qū)域設(shè)為ng,其屬性值為p。nd和ng表達(dá)式如下:

        nd=(v-b1)nr,ng=(v-a1)nr(1)

        式中:v為所屬空間數(shù)目;b1為低密度對(duì)象子區(qū)域數(shù)目;nr為當(dāng)前節(jié)點(diǎn)屬性的值域;a1為高密度對(duì)象子區(qū)域數(shù)目。

        結(jié)合式(1),對(duì)聚類分析數(shù)據(jù)進(jìn)行篩選,可表示為:

        ni=p(nd+ng)×i(2)

        式中:p為分割得到的子區(qū)域數(shù)目;i為屬性值的樣本密度,也就是聚類分析數(shù)據(jù)篩選的數(shù)據(jù)對(duì)象,即篩選出屬性值中出現(xiàn)頻率最高(樣本密度也最高)的樣本密度。

        2 基于聚類分析數(shù)據(jù)類型的相異度計(jì)算

        依據(jù)聚類分析原理對(duì)用電數(shù)據(jù)對(duì)象進(jìn)行聚類,并通過(guò)數(shù)據(jù)結(jié)構(gòu)和相異度矩陣獲得數(shù)據(jù)間的相異度;數(shù)據(jù)相異度矩陣如下:

        x11,…,x1f,…,x1pxi1,…,xif,…,xipxn1,…,xnf,…,xnp

        聚類分析數(shù)據(jù)相異度矩陣用來(lái)存放n個(gè)數(shù)據(jù)對(duì)象兩兩之間形成的差異[6]。

        式中:n表示數(shù)據(jù)矩陣對(duì)象,其間的差異值用i和f表示;p表示屬性。當(dāng)差異值取正數(shù)時(shí),f和i越接近于0,屬性值p越大,則表示f和i不相似;否則,若f和i的取值小于0,p數(shù)值就會(huì)越小,說(shuō)明f和i的相似程度較高。

        在上述矩陣基礎(chǔ)上采用聚類算法計(jì)算數(shù)據(jù)類型相異度[7],即將變量值度量化并進(jìn)行標(biāo)準(zhǔn)化處理,如式(3):

        sf=1ni(|x1f-mf|+|x2f-mf|)(3)

        式中:sf表示變量值的絕對(duì)偏差值;mf表示f的絕對(duì)平均值。

        基于式(3)計(jì)算數(shù)據(jù)類型相異度,如式(4):

        d(i,j)=|xi1-xji|2+|xif-xj2|2(4)

        式中:d(i,j)是對(duì)象i和對(duì)象j之間相異性的量化表示,且該相異性值通常是一個(gè)非負(fù)的數(shù)值,當(dāng)對(duì)象i和j越相似時(shí),相異性值就越接近于0;反之,值越大,且d(i,j)= d(j,i),d(i,j)=0?;陔娏I(yíng)銷聚類分析的數(shù)據(jù)類型相異性計(jì)算如式(5):

        W=d(i,j)×kl(5)

        式中:kl為聚類分析數(shù)據(jù)量。到此為止,完成了聚類分析數(shù)據(jù)類型相異度計(jì)算,接下來(lái)需要設(shè)計(jì)聚類分析數(shù)據(jù)挖掘算法的流程。

        3 基于聚類分析的數(shù)據(jù)快速挖掘

        聚類分析數(shù)據(jù)挖掘算法是大數(shù)據(jù)和數(shù)據(jù)挖掘最常用的經(jīng)典算法之一,也是數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。通過(guò)聚類分析算法可將物理或抽象對(duì)象的集合按照相似性進(jìn)行分組,然后在相似的基礎(chǔ)上,根據(jù)數(shù)據(jù)類型相異度挖掘出數(shù)據(jù)蘊(yùn)含的潛在信息并進(jìn)行數(shù)據(jù)分類。其算法流程如圖1所示。

        基于聚類分析數(shù)據(jù)挖掘算法流程完成聚類分析的框架設(shè)計(jì),如圖2所示。

        對(duì)輸入的樣本向量定義為(v1,v2,…,vi,c),該向量由字段值vi和類型c組成,對(duì)應(yīng)的數(shù)據(jù)記錄結(jié)構(gòu)也是類型標(biāo)簽+數(shù)值的訓(xùn)練集。其中,該標(biāo)簽也可作為輸入的經(jīng)驗(yàn)數(shù)據(jù)[12]。完成分類后,可引入決策樹(shù)算法進(jìn)行數(shù)據(jù)挖掘,預(yù)測(cè)準(zhǔn)確度:首先,從數(shù)據(jù)中獲取知識(shí);然后,利用生成的決策樹(shù)分類輸入數(shù)據(jù)。對(duì)數(shù)據(jù)屬性值進(jìn)行依次測(cè)試并記錄,直到找到記錄所在的類,挖掘出數(shù)據(jù)蘊(yùn)含的潛在信息[13]。

        數(shù)據(jù)挖掘算法的基本策略設(shè)計(jì)如圖3所示。

        基于SLIO算法的修剪樹(shù)表達(dá)式:

        COST(M,D)=COST(DM)+BCOST(M)(6)

        式中:COST(DM)為編碼成本;BCOST(M)為所有的分類錯(cuò)誤數(shù)。

        通過(guò)式(6)構(gòu)建的修剪樹(shù)對(duì)數(shù)據(jù)進(jìn)行修剪處理后,計(jì)算電力數(shù)據(jù)中聚類挖掘的決策中心概率值:

        xk+1=COST(M,D)·sinaxk+x-(7)

        式中:a表示決策中心調(diào)度參數(shù);xk表示動(dòng)態(tài)慣性權(quán)重;x-表示有效信息類別。

        根據(jù)中心概率的計(jì)算,挖掘出數(shù)據(jù)中的有效信息:

        x″i=xi‖xi‖+xk+1 (8)

        上述過(guò)程從理論層面對(duì)挖掘算法進(jìn)行了研究,接下來(lái)設(shè)計(jì)仿真實(shí)驗(yàn)對(duì)算法的性能進(jìn)行驗(yàn)證。

        4 算法實(shí)例

        設(shè)計(jì)仿真實(shí)驗(yàn),通過(guò)算法實(shí)例對(duì)基于聚類分析的數(shù)據(jù)挖掘算法進(jìn)行可行性和有效性驗(yàn)證。電力業(yè)務(wù)場(chǎng)景較為豐富,互聯(lián)網(wǎng)背景下的業(yè)務(wù)場(chǎng)景主要包括運(yùn)營(yíng)調(diào)控平臺(tái)、互動(dòng)網(wǎng)站、業(yè)務(wù)支撐平臺(tái)以及AI能力平臺(tái),電力業(yè)務(wù)場(chǎng)景結(jié)構(gòu)如圖4所示。

        電力業(yè)務(wù)數(shù)據(jù)的特點(diǎn)主要包括:數(shù)據(jù)體量大、數(shù)據(jù)類型多、價(jià)值密度低以及處理速度快的特點(diǎn)。實(shí)例中所用到的數(shù)據(jù)來(lái)自數(shù)據(jù)挖掘網(wǎng)站,不同類型的電力業(yè)務(wù)數(shù)據(jù)量如表1所示。

        樣本數(shù)據(jù)中的關(guān)鍵數(shù)據(jù)主要為聚類數(shù)目和權(quán)重指數(shù),其中,聚類數(shù)目用于與聚類樣本的總數(shù)量比較,用以判斷數(shù)據(jù)挖掘是否有意義。即,當(dāng)聚類數(shù)目大于聚類樣本的總數(shù)量時(shí),數(shù)據(jù)挖掘才有意義。權(quán)重指數(shù)用來(lái)體現(xiàn)數(shù)據(jù)挖掘算法效果,指數(shù)越小,說(shuō)明算法對(duì)數(shù)據(jù)挖掘效果越好;指數(shù)越大,說(shuō)明數(shù)據(jù)挖掘效果越差?;跀?shù)據(jù)有意義挖掘需求,給出電力業(yè)務(wù)聚類數(shù)據(jù)相應(yīng)的值,包括聚類數(shù)(JLN)、類間距(LJJ)、類內(nèi)距(LNJ)和準(zhǔn)則(ZZ),如表2所示。

        算法實(shí)現(xiàn)過(guò)程分為6步:(1)根據(jù)問(wèn)題定義,完成數(shù)據(jù)中的空值填補(bǔ)和一致性優(yōu)化,做好數(shù)據(jù)準(zhǔn)備;(2)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)用以將多個(gè)數(shù)據(jù)源集合起來(lái),形成目標(biāo)數(shù)據(jù)并存放在數(shù)據(jù)庫(kù),作為下一步的數(shù)據(jù)應(yīng)用準(zhǔn)備;(3)為提高挖掘效率,將數(shù)值轉(zhuǎn)換為數(shù)據(jù)集壓縮形式;(4)根據(jù)實(shí)際需求,制定數(shù)據(jù)任務(wù)并使用SLIO算法挖掘數(shù)據(jù);(5)通過(guò)與需求標(biāo)準(zhǔn)對(duì)比,篩選相關(guān)模式和有價(jià)值的信息;(6)基于決策樹(shù)對(duì)最終數(shù)據(jù)進(jìn)行轉(zhuǎn)化,以便于理解的語(yǔ)言描述或展開(kāi)形式呈現(xiàn)給用戶。到此,完成基于聚類分析的數(shù)據(jù)挖掘算法過(guò)程。

        分別使用設(shè)計(jì)算法和文獻(xiàn)[3]提出的基于支持度-置信度-提升度的配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法、基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,重復(fù)實(shí)驗(yàn)10次,得出實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,如表3所示。

        由表3可知,3種算法中只有所設(shè)計(jì)算法的挖掘速度更快,計(jì)算時(shí)間全都在1.0 s以內(nèi);基于支持度-置信度-提升度的配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法和基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法所用時(shí)間基本上為1.35 s~1.84 s,挖掘速度相對(duì)較慢。因此,在數(shù)據(jù)挖掘效率上,所設(shè)計(jì)算法具有良好的可行性。

        對(duì)本文算法與其他2種算法進(jìn)行數(shù)據(jù)挖掘精確度測(cè)試以驗(yàn)證本文算法的應(yīng)用效果,計(jì)算公式:

        A=1m∑(w-w′)×100%(9)

        式中:m為參與挖掘的項(xiàng)目數(shù)量;w為算法的實(shí)際挖掘數(shù)量;w′為預(yù)測(cè)挖掘數(shù)量。利用式(9)對(duì)上述3種數(shù)據(jù)挖掘算法的精準(zhǔn)度進(jìn)行計(jì)算并對(duì)比,結(jié)果如圖5所示。

        由圖5可知,基于聚類分析的數(shù)據(jù)挖掘算法在引入決策樹(shù)算法后,其計(jì)算精準(zhǔn)度要遠(yuǎn)高于其他2種算法。隨著數(shù)據(jù)挖掘數(shù)量的增加,所設(shè)計(jì)算法的精準(zhǔn)度也越來(lái)越高,接近93%左右,其他2種算法的最高精準(zhǔn)度均在85%以下。

        5 結(jié)語(yǔ)

        聚類分析在電力行業(yè)數(shù)據(jù)挖掘中的應(yīng)用,可通過(guò)制定合理的決策幫助提升電力企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。而傳統(tǒng)的電力業(yè)務(wù)聚類算法挖掘速度慢,精準(zhǔn)度低,因此設(shè)計(jì)提出的基于聚類分析優(yōu)化算法的數(shù)據(jù)快速挖掘算法,通過(guò)對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行合理的分析,可有效提升聚類數(shù)據(jù)類型的聚類性。結(jié)合算法流程設(shè)計(jì)中所用到的基本策略,可快速、精準(zhǔn)地完成目標(biāo)數(shù)據(jù)的提取。設(shè)計(jì)的數(shù)據(jù)挖掘算法創(chuàng)新點(diǎn)主要體現(xiàn)在兩方面,一是依據(jù)聚類分析原理,實(shí)現(xiàn)對(duì)電力業(yè)務(wù)系統(tǒng)數(shù)據(jù)的篩選。二是通過(guò)求取聚類數(shù)據(jù)距離完成對(duì)數(shù)據(jù)對(duì)象的聚類分析,計(jì)算各個(gè)數(shù)據(jù)對(duì)象之間距離的相異度。通過(guò)相關(guān)實(shí)驗(yàn)測(cè)試,設(shè)計(jì)的算法在挖掘速度上基本在1.0 s以內(nèi),比其他算法提速了40%左右;在數(shù)據(jù)挖掘精確度上也平均高出了20%~40%。由此證明了基于聚類分析優(yōu)化算法的數(shù)據(jù)挖掘算法具有很好的可行性和有效性。通過(guò)實(shí)驗(yàn)證明了所設(shè)計(jì)算法可以對(duì)多特征類型的電力業(yè)務(wù)數(shù)據(jù)進(jìn)行有效地聚類,為電決策提供有力的數(shù)據(jù)支持,因此該算法具有較高的實(shí)際應(yīng)用價(jià)值。

        【參考文獻(xiàn)】

        [1] 許統(tǒng)德,趙志俊,高俊文.多層級(jí)聯(lián)式少數(shù)類聚類高精度數(shù)據(jù)挖掘算法[J].控制工程,2018,25(5):829-834.

        [2] 黃博韜,朱邦賢.基于復(fù)雜系統(tǒng)論的中藥藥對(duì)數(shù)據(jù)挖掘研究進(jìn)展[J].中華中醫(yī)藥雜志,2018,33(6):2485-2487.

        [3] 張磐,丁泠允,姜寧,等.基于支持度-置信度-提升度的配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法及應(yīng)用[J].電測(cè)與儀表,2019,56(10):62-68.

        [4] JU F X,ZHONG T G.Research on data mining algorithm based on neural network and particles warm optimization[J].Journal of Intelligent amp; Fuzzy Systems,2018,35(3):2921-2926.

        [5] 文靜,曹妍,張琳,等.基于雙重遺傳的聚類分析算法研究[J].計(jì)算機(jī)工程與科學(xué),2017,39(12):2320-2325.

        [6] 李君衛(wèi),湯亞芳,郝正航,等.聚類分析及其在電力系統(tǒng)中的應(yīng)用綜述[J].現(xiàn)代電力,2019,36(3):1-10.

        [7] 李天華,袁永博,張明媛.基于可變模糊聚類的地震作用下電網(wǎng)節(jié)點(diǎn)脆弱性分析[J].科學(xué)技術(shù)與工程,2018,18(18):126-130.

        [8] 林君豪,張焰,祝錦舟,等.基于宏微觀特征分層聚類的配電網(wǎng)拓?fù)湎嗨菩苑治龇椒ǎ跩].電力系統(tǒng)自動(dòng)化,2019,43(13):84-97.

        [9] 趙書(shū)強(qiáng),張婷婷,李志偉,等.基于數(shù)值特性聚類的日前光伏出力預(yù)測(cè)誤差分布模型[J].電力系統(tǒng)自動(dòng)化,2019,43(13):36-48.

        [10] 張江林,張亞超,洪居華,等.基于離散小波變換和模糊K-modes的負(fù)荷聚類算法[J].電力自動(dòng)化設(shè)備,2019,39(2):100-106.

        [11] 劉炳含,付忠廣,王永智,等.基于并行計(jì)算的大數(shù)據(jù)挖掘技術(shù)及其在電站鍋爐性能優(yōu)化中的應(yīng)用[J].動(dòng)力工程學(xué)報(bào),2018,38(6):431-439.

        [12] 郝艷妮,吳素萍,田維麗.數(shù)據(jù)挖掘算法在葡萄酒信息數(shù)據(jù)分析系統(tǒng)中的研究[J].計(jì)算機(jī)科學(xué),2017,44(S1):491-494.

        [13] 顏磊,祁冰.基于Android平臺(tái)的移動(dòng)學(xué)習(xí)系統(tǒng)大數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2017,40(19):142-144.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
        偷拍自拍一区二区三区| 欧洲精品免费一区二区三区| 国产精品.xx视频.xxtv| 亚洲性69影视| 中文字幕高清视频婷婷| 国产亚洲精品美女久久久m| 女人色毛片女人色毛片18| 国产成年无码久久久免费| 日韩精品午夜视频在线| 精品亚洲成a人在线观看 | 国产成人无码一区二区在线播放| 国产污污视频| 亚洲最大的av在线观看| 99噜噜噜在线播放| 国产农村乱子伦精品视频| 男女好痛好深好爽视频一区| 在线观看国产激情免费视频| 天天躁夜夜躁av天天爽| 婷婷成人基地| 久久无码高潮喷水抽搐| 三上悠亚亚洲精品一区| 国产午夜福利在线观看红一片| 午夜无码大尺度福利视频| 一区二区三区在线蜜桃| 久久综合精品人妻一区二区三区| 骚片av蜜桃精品一区| 亚洲偷自拍另类图片二区| 亚洲一区二区三区自拍麻豆| 午夜精品久久久久久久99老熟妇| 亚洲欧美日韩综合久久久| 亚洲无码观看a| 激情五月我也去也色婷婷| 欧美黑人群一交| 国模无码视频专区一区| 亚洲一区二区三区18| 久久午夜羞羞影院免费观看| 国产女人18毛片水真多| 日本免费一区精品推荐| 久久精品国产亚洲夜色av网站| 日本又黄又爽gif动态图| 欧美亚洲另类国产18p|