亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進DBS CAN算法的異常數據處理

        2020-06-19 08:45:58黃靜官易楠
        軟件導刊 2020年4期
        關鍵詞:聚類算法智慧農業(yè)

        黃靜 官易楠

        摘要:隨著智慧農業(yè)的發(fā)展,農業(yè)生產中海量數據不斷涌現。在海量數據中難免存在噪聲數據,這些數據不僅難以提供有效價值,還會影響信息挖掘。針對該問題,采用基于密度的DBSCAN聚類算法進行異常數據處理。鑒于DBSCAN算法對參數敏感,結合數據集本身特性與統(tǒng)計學思想以繪制各點之間的距離升序曲線,預估出DBSCAN的Eps參數。仿真實驗結果表明,改進算法平均準確率達到99.6%,較傳統(tǒng)算法提高了1.7個百分點,并且在10次檢測中,改進算法只有3個數據判定錯誤,證明該參數設置方法對異常數據處理準確率更高,穩(wěn)定性也更好。

        關鍵詞:智慧農業(yè);聚類算法;DBSCAN;異常數據

        DOI: 10. 11907/rjdk.191763

        開放科學(資源服務)標識碼(OSID):

        中圖分類號:TP39

        文獻標識碼:A

        文章編號:1672-7800(2020)004-0219-05

        0 引言

        在現代農業(yè)發(fā)展過程中,智慧農業(yè)越來越受到重視,其突出表現是人們通過數據采集設備獲取農作物生長信息,從而更實時精確地了解農作物生長狀況,較好地擺脫了傳統(tǒng)僅依靠經驗種植的不足[1]。但是在采集到的海量數據中,由于外界干擾或者設備異常等原因會存在噪聲數據。這些數據不僅不能反映農作物真實情況,可能還會影響農作物生長狀況分析,導致分析結果出現偏差甚至錯誤[2]。

        針對異常數據處理,依據異常數據在數據集中數量較少且離散分布的特點[3],在統(tǒng)計學中有標準差法和t一檢驗法等異常數據檢驗方法[4]。這些方法通過分析數據分布情況,判斷數據點在數據集中出現的概率,當數據出現概率特別低時,判定該數據為異常數據。此類方法在一定程度上可識別出異常數據,但不能較好地對數據進行處理[5]。

        數據挖掘中常用聚類工具可以對異常數據進行檢測和處理。通過對數據集進行聚類分析,將相似數據點歸為一個聚類簇,出現單個數據為一類或者極少數數據為一類的數據點可以判定為異常數據。聚類算法有許多種類,其中基于密度的聚類算法[6]可以通過聚類密度劃分聚類簇,分析聚類密度,密度較為密集的被認定為一個簇,密度特別稀疏的可以被認定為噪聲數據。基于密度的噪聲應用空間聚類(Densitv-Based Spatial Clustering of Applicationswith Noise,DBSCAN)[7]是其中具有代表性的一種算法。DBSCAN算法在異常數據處理中得到了廣泛應用。馬世欣等[8]利用DBSCAN算法能夠對異常數據進行篩選的特點,對局部背景像元中的雜亂點進行過濾,以降低異常數據點對協(xié)同探測算法結果的干擾;潘淵洋等[9]利用DBSCAN算法進行傳感器網絡測量數據的異常檢測,提出通過提取環(huán)境數據的特征集,根據特征集進行異常數據監(jiān)測,達到對測量數據實時監(jiān)測的效果。

        DBSCAN算法雖然能夠識別并處理異常數據,但是由于算法對參數比較敏感,不同的參數對結果影響較大。針對此問題,宋金玉等[10]提出了Eps和MinPts兩個參數的配置方法,通過將數據集本身統(tǒng)計特性與圖表可視化展示相結合,為算法確定合適的參數;夏魯寧等[11]通過對數據集進行統(tǒng)計分析自動確定Eps和MinPts參數,從而避免了聚類過程的人工干預,實現聚類過程的全自動化,提高算法的準確率和穩(wěn)定性。

        以上方法都能夠在一定程度上實現對異常數據的檢測和處理,但是大多數方法檢測出異常數據后都是將數據直接刪除,這樣會造成信息丟失。因此,在處理異常數據時,將噪聲數據與其距離較近的聚類簇中心值進行替換[12]。本文依據以往研究成果,提出將DBSCAN算法與統(tǒng)計學思想相結合,通過對數據集中對象的距離值進行統(tǒng)計分析,預估出Eps參數。由于傳感器采集數據變化較為平緩,在以往研究中MinPts的值一般較為固定,因而MinPts采用經驗進行確定。本文采用統(tǒng)計思想與經驗判斷相結合的參數設置方式,在提高異常數據檢測準確率的同時,還減少了計算量和時間,同時采用聚類簇中心值替換噪聲數據的異常數據處理方式,一定程度上保留了數據信息。

        1 DNSCAN算法

        1.1 算法原理

        DBSCAN算法是一種通過數據對象密度進行查找相似屬性的聚類算法[13]。該算法不需要提前確定聚類簇的數量,不僅能夠對任意數據進行聚類,還能識別數據中的噪聲點,因而可以用來對異常數據進行處理[14]。其中DB-SCAN算法關鍵定義如下:

        (7)簇。所有密度相連的點組成的集合。

        在一個數據集中,并不是所有數據對象都是核心對象,還有邊緣對象和噪聲對象。邊緣對象表示數據對象不是核心對象,但是存在于某個核心對象的8-鄰域中;噪聲對象表示該數據對象不是核心對象,也不存在于任何核心對象的ε-鄰域中。

        1.2 算法流程

        通過以上定義可知,DBSCAN算法的核心在于參數Eps和MinPts,通過這兩個參數確定每個點的鄰域和核心對象,繼而通過核心對象尋找密度可達點,從而實現數據對象聚類。

        DBSCAN算法流程如下:

        Stepl:輸入的數據集D={x1,x2,…,xn},ε為半徑參數,MinPts為最小對象參數,將數據集D中所有對象標記為未讀。

        Step2:從數據集D中取包含任意個數據對象p的數據集Di,其中Di∈D,i=1,2,3-,并將Di標記為已讀。

        Step3:通過ε和MinPts參數對p進行判斷,如果p為核心對象,找出p的所有密度可達數據對象,并標記為已讀。若p不是核心對象,且沒有哪個對象對p密度可達,將p標記為噪聲數據。

        Step4:在滿足Di∩ Di=1.∈⑦的條件下,重復Step2和Step3,直至所有數據都標記為已讀。

        Step5:將其中一個核心對象作為種子,將該對象的所有密度可達點都歸為一類,形成一個較大范圍的數據對象集合,也稱為聚類簇。

        Step6:不斷循環(huán)Step5直至所有核心對象都遍歷完,剩下沒有歸為一類的數據便為噪聲點。

        DBSCAN算法流程如圖1所示。

        DBSCAN算法有眾多優(yōu)點,比如:算法可以聚類任意形狀的集群,能夠較好地發(fā)現噪聲點[15]。但是DBSCAN參數Eps不同,對聚類效果會產生很大影響[16],當Eps選擇過小時,會使得很多點被定義為噪聲點,影響數據信息;當Eps選取過大時,會把幾個聚類簇合在一起,并且有許多噪聲點將無法很好地被識別出來[17]。針對DBSCAN中另一個參數MinPts,由于農業(yè)數據變化較為平緩,因而通常在算法執(zhí)行過程中該值較為固定,可以依據經驗進行判定[18]。

        2 DBSCAN算法改進

        針對DBSCAN中參數Eps值對結果影響較大的問題,對數據集中各點之間的距離進行計算,得出各點之間的距離值。由于噪聲點具有數量少且離散分布的特點,利用統(tǒng)計學思想,尋找一個Eps值,能夠將大量正常分布的數據和少部分離群分布的數據分割出來[19-20],較好地提高算法異常數據尋找準確率。

        按照式(2)取參數p=2的歐式距離公式,計算每個點之間的距離用并用d(i,j)表示,并將所有d(i,j)構造成一個Dist n×n矩陣,表示如式(3)所示。

        Distn×n=(d(i ,j)|1≤i≤n,1

        (3)

        矩陣Dist n×n中,每一行表示某個點到所有其它點的距離。將Dist n×n矩陣每一行中的值按升序進行排列,排列之后矩陣第i列表示距離每個點第i近的點。每一行矩陣表示每個點到其它點的距離由小到大排列,由此可通過數值統(tǒng)計方法得出每一行數據的距離升序曲線如圖2所示,通過判斷圖中陡峭點位置,確定參數Eps最優(yōu)值范圍。其中,數據集采用之后實驗使用的含噪聲原始數據。

        圖2是由7條按距離升序排列繪制的圖形,且最下面的那條曲線為距離參考點最近的距離升序圖,最上面的那條曲線為距離參考點最遠的距離升序圖。由圖2可知,圖像在前中期比較均勻,趨勢也較平緩,當圖形到達接近距離為0.35-0.45時,在圖中箭頭標注的位置出現較為密集的陡峭點,因此可以預計DBSCAN的最優(yōu)Eps參數在0.35-0.45。依據經驗MinPts的值選取6,通過觀察圖2可以發(fā)現從下往上第6條曲線的陡峭點接近0.4,可以將最優(yōu)的Eps設置為0.4。

        其原理為:針對異常數據量少并且分散的特點,當曲線比較平緩時,說明此時在該距離范圍內,數據量的數量仍然較多。當出現陡峭點時,之后距離范圍內所含的數據量較少。因此,可以利用該陡峭點對應的距離大小較好地區(qū)分出異常數據,且將極大減少正常數據誤判幾率[21]。

        3 實驗驗證

        3.1 實驗設計

        為了驗證設置參數的有效性,選取縉云縣某處茶園空氣溫度傳感器在某一時間段采集到的140組茶園空氣溫度數據,并向其中隨機添加25組離散點,以此數據作為實驗數據。由于傳感器采集數據屬于一維數據,進行聚類時效果不好,在聚類之前首先將一維數據轉化為二維??梢詫⑾噜彽膬蓚€值一個歸為X坐標值,另一個歸為Y坐標值,即將數據變?yōu)槎S。比如數據D={ d1,d2,d3,…,dn}轉化為D={ (d1,d2),(d3,d4),…,(dn-1,dn)},140組一維數據可以轉化為70組二維數據。對數據使用DBSCAN算法進行處理,尋找核心對象及其密度可達的每個對象點作為一個類。另外一些密度不夠且不為任何核心對象點的密度可達的點,被判定為噪聲,將由距離較近聚類中所有核心對象均值替代。通過統(tǒng)計分析可知,Eps參數最優(yōu)值為0.4,再取Eps參數分別為0.35、0.38、0.4、0.45,MinPts參數為6進行實驗分析,通過識別出的異常點個數、誤判的異常點個數和去除異常數據后數據變化情況判斷異常數據處理效果。

        3.2 實驗結果與分析

        分別將Eps參數設定為0.45,0.4,0.38,0.35,MinPts設定為6,采用DBSCAN進行聚類,得到聚類簇,并求出各聚類簇中心點的值,將各噪聲點采用距離最近簇的中心值進行替代,得出去除噪聲數據的濾波效果圖,通過Matlab進行仿真實驗,實驗結果如圖3所示(彩圖掃描OSID碼可見,下文同)。

        圖3-圖6為取不同Eps參數的聚類效果和濾波效果。其中,聚類效果圖中黑色圓圈為算法識別出的噪聲數據,其余顏色為聚類簇;濾波效果圖中粉紅色為原始實驗數據,藍色為濾波后的數據。

        通過以上實驗可知,各參數識別出的噪聲點情況如表1所示。

        由表1可知,當Eps參數設為0.4時,將噪聲點全部識別出來,且與0.4較為接近的參數0.38,其準確率達到98.57%,比距離0.4較遠的參數0.35和0.45準確率高,證明采用此方法進行參數預估效果可行。且從實驗結果中的濾波效果看,通過采用聚類簇中心值代替噪聲點數據的方式,較好地降低了數據偏離程度,從而可以減少異常數據對于結果分析的影響。

        為了避免實驗的偶然性,隨機選取茶園10個時間段的140組空氣溫度數據進行測試,并向每組數據中隨機加入25個噪聲點。按照以上方法進行仿真實驗,在10次檢測中,有3個數據判斷錯誤,準確率達到99.6%。按照傳統(tǒng)方法,由于不能確定哪個Eps參數較優(yōu),通常選取之前某個Eps作為固定值,此處選取0.4作為10次固定的Eps值,在10次檢測中,有15個數據判斷錯誤,準確率為97.9%??梢钥闯?,改進算法提升了異常數據識別準確率與穩(wěn)定性。

        4 結語

        本文為解決農業(yè)傳感器采集數據中異常數據處理問題,采用基于密度的DNSCAB算法進行異常數據檢測與處理。針對DBSCAN算法參數敏感的特點,采用統(tǒng)計學中的圖表對數據集中各點相互距離進行統(tǒng)計分析,預估出參數Eps的值。實驗驗證表明,該方法獲取的參數識別異常數據準確率較高。同時,針對直接將噪聲數據刪除導致信息丟失的問題,采用聚類簇中心點對噪聲數據進行替代,通過此方法可以減少離散點偏移。

        目前,雖然采用該方法對數據集中各點相互距離值統(tǒng)計分析可確定參數的一個范圍,但參數值的具體取值仍需人為估計,導致參數并不是十分精確,需作進一步研究。

        參考文獻:

        [1]劉亞東.物聯(lián)網與智慧農業(yè)[J].農業(yè)工程,2012,2(1):1-7.

        [2] 張永峰.對數據采集器等受雷擊情況的分析及對策[J].電子科技,2004(7):58-60.

        [3]劉云,袁浩恒,數據挖掘中并行離散化數據準備優(yōu)化[J].四川大學學報(自然科學版),2018,55(5):103-109.

        [4] 康團結.多傳感器數據處理的列車環(huán)境監(jiān)測系統(tǒng)[D].成都:西南交通大學,2018.

        [5]毛李帆,姚建剛,金永順,等.中長期負荷預測的異常數據辨識與缺失數據處理[J].電網技術,2010,34,(7):148-153.

        [6] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1):48-61.

        [7]ESTER M. KRIECEL H P,XU X.A density-based algorithm for dis-covering clusters a density-based algorithm for discovering clusters inlarge spatial datahases with noise [Cl. International Conference onKnowledge Discovery& Data Mining, 1996.

        [8]馬世欣,劉春桐,李洪才,等.基于空譜聯(lián)合聚類的改進核協(xié)同高光譜異常檢測[J].光子學報,2019,48(1):0110003.

        [9]潘淵洋,李光輝,徐勇軍.基于DBSCAN的環(huán)境傳感器網絡異常數據檢測方法[J].計算機應用與軟件,2012( 11):69-72.

        [10] 宋金玉,郭一平,王斌.DBSCAN聚類算法的參數配置方法研究[J].計算機技術與發(fā)展,2019(5):1-8.

        [11] 夏魯寧,荊繼武.SA-DBSCAN:-種自適應基于密度聚類算法[J].中國科學院大學學報,2009,26(4):530-538.

        [12] 朱振國,馮應柱.基于數據場的類簇中心選取及其聚類[J].計算機工程與應用,2018.54(8):131-136.

        [13] 針對非均勻密度環(huán)境的DBSCAN自適應聚類算法的研究[D].重慶:重慶大學,2015.

        [14] 多密度聚類算法研究[D].無錫:江南大學,2018.

        [15]吳偉民,黃煥坤.基于差分隱私保護的DP-DBScan聚類算法研究[J].計算機工程與科學,2015,37(4):830-834.

        [16]SHAH G H.An improved DBSCAN.a density based clustering algo-rithm with parameter selection for high dimensional data sets [C].Nirma University International Conference on Engineering, 2013.

        [17]SUN X, ZHENCH,HUI LI,et aI.Bad data identification for leakagereactance parameters of transformer based on improved DBSCAN Al-gorithm [Jl. Automation of Electric Power Systems, 2017, 41(9):96-101。

        [18] 石鴻雁,馬曉娟.改進的DBSCAN聚類和LAOF兩階段混合數據離群點檢測方法[J].小型微型計算機系統(tǒng),2018,39(1):74-77.

        [19] 侯雄文.淺析DBSCAN算法中參數設置問題的研究[J].科教導刊(電子版),2017( 30):266-266.

        [20]王兆豐,單甘霖,一種基于k-均值的DBSCAN算法參數動態(tài)選擇方法[J].計算機工程與應用,2017,53(3):80-86.

        [21] 曹科研.不確定數據的聚類分析與異常點檢測算法[D].沈陽:東北大學,2014.

        (責任編輯:孫娟)

        作者簡介:黃靜(1965-),女,博士,浙江理工大學信息學院教授、碩士生導師,研究方向為嵌入式系統(tǒng)、專用測試設備、電子功能材料計算設計及獨立分析軟件設計;官易楠(1993-),男,浙江理工大學信息學院碩士研究生,研究方向為農業(yè)數據挖掘與計算機應用,本文通訊作者:黃靜。

        猜你喜歡
        聚類算法智慧農業(yè)
        數據挖掘算法性能優(yōu)化的研究與應用
        K—Means聚類算法在MapReduce框架下的實現
        軟件導刊(2016年12期)2017-01-21 14:51:17
        基于K?均值與AGNES聚類算法的校園網行為分析系統(tǒng)研究
        北斗衛(wèi)星對智慧農業(yè)的作用與應用探討
        延邊地區(qū)“互聯(lián)網+農業(yè)”發(fā)展研究
        基于改進的K_means算法在圖像分割中的應用
        大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        金華市智慧農業(yè)發(fā)展現狀、存在問題與對策
        基于物聯(lián)網技術的智慧農業(yè)實施方案分析
        智能手機在智慧農業(yè)中的應用研究
        最新国产一区二区三区| 中文字幕无码家庭乱欲| 手机看片福利盒子久久青| 黑人免费一区二区三区| 精品国产一区二区三区av免费| 午夜性色一区二区三区不卡视频| 夜夜爽一区二区三区精品| 中文亚洲AV片在线观看无码| 婷婷开心五月亚洲综合| 亚洲av无码无限在线观看| 特级毛片a级毛片免费播放| 成人国产精品免费网站| 成人性生交大片免费看l| 欧美最猛黑人xxxx黑人猛交| 免费人成再在线观看网站| 亚洲大尺度动作在线观看一区| 色和尚色视频在线看网站 | 亚洲精品成人av在线| 国产又爽又黄的激情精品视频| 亚洲av激情久久精品人| 熟女一区二区中文字幕| 人人妻人人爽人人澡欧美一区| 亚洲国产一区二区三区网| 亚洲一区二区三区一区| 女人无遮挡裸交性做爰| 欧美成人一区二区三区| 国产在线h视频| 中文国产乱码在线人妻一区二区| 国产精品亚洲综合色区| 国产成人精选在线不卡| 国产99久久久国产精品免费| 欧美精品欧美人与动人物牲交| 三上悠亚久久精品| 午夜在线观看有码无码| 亚洲中文字幕乱码第一页| 久久www免费人成—看片| 麻豆变态另类视频在线观看| 亚洲精品中文字幕一二三| 亚洲精品国产一区二区| 久久免费视频国产| 少妇激情一区二区三区|