亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種自動聚類的離群點(diǎn)識別方法研究

        2023-06-25 15:07:14黃強(qiáng)葉青聶斌朱彥陳郭永坤
        現(xiàn)代信息科技 2023年7期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        黃強(qiáng) 葉青 聶斌 朱彥陳 郭永坤

        摘? 要:針對傳統(tǒng)離群點(diǎn)識別方法對數(shù)據(jù)的分布形狀和密度有特定要求,需設(shè)定參數(shù)的問題,提出了一種自動聚類的離群點(diǎn)識別方法。該方法通過引入相互K近鄰數(shù)來表示數(shù)據(jù)對象的離群度,對數(shù)據(jù)的分布形狀、分布密度無要求,可以輸出全局離群點(diǎn)、局部離群點(diǎn)和離群簇;通過k次迭代來實(shí)現(xiàn)自動聚類,無需人為設(shè)定參數(shù)。通過合成數(shù)據(jù)以及UCI數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了該方法的有效性、普適性。

        關(guān)鍵詞:局部離群點(diǎn);離群點(diǎn)識別;離群簇;自動聚類;數(shù)據(jù)挖掘

        中圖分類號:TP301? ? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)07-0006-05

        Abstract: Aiming at the problem that traditional outlier recognition methods have specific requirements for the distribution shape and distribution density of data and need to set parameters, an automatic clustering outlier recognition method is proposed. This method represents the outlier degree of data objects by introducing the mutual K-nearest neighbor number, with no requiring for the distribution shape and distribution density of the data, and can output global outliers, local outliers, and outlier cluster; Automatic clustering is achieved through k iterations, no need to manually set parameters. The effectiveness and universality of this method are verified through synthetic data and UCI data experiments.

        Keywords: local outlier; outlier recognition; outlier cluster; automatic clustering; data mining

        0? 引? 言

        隨著信息技術(shù)和數(shù)據(jù)密集型科學(xué)的發(fā)展,離群點(diǎn)識別在很多領(lǐng)域得到研究和應(yīng)用,比如醫(yī)療領(lǐng)域、污水站點(diǎn)監(jiān)測、圖像異常檢測、網(wǎng)絡(luò)入侵檢測等[1-4]。

        離群點(diǎn)是指與數(shù)據(jù)集中其他數(shù)據(jù)對象顯著偏離,像是產(chǎn)生于不同機(jī)制的數(shù)據(jù)對象[5]。離群點(diǎn)的類型有全局離群點(diǎn)、局部離群點(diǎn)和集體離群點(diǎn),離群點(diǎn)識別方法可以大致分為基于統(tǒng)計(jì)的、基于距離的、基于密度的、基于聚類的四大類[6]。

        基于統(tǒng)計(jì)的方法[7]假設(shè)數(shù)據(jù)服從某一分布,將不符合該分布特征的數(shù)據(jù)視為離群點(diǎn)。此類方法常用于數(shù)據(jù)分布已知的數(shù)據(jù)集[8],但實(shí)際中的數(shù)據(jù)分布難以預(yù)知,也并非由單一分布組成?;诰嚯x的離群點(diǎn)定義最早是由Knorr和Ng[9]提出的,由于算法思想簡單易懂、識別效果較好被廣泛地研究和應(yīng)用?;诰嚯x的方法中的參數(shù)是基于全局的參數(shù),沒有考慮到數(shù)據(jù)對象局部情況的不同,導(dǎo)致不能識別出局部離群點(diǎn);且識別效果對參數(shù)敏感,不同的參數(shù)會有不同的識別效果。基于密度的方法[10-12]使用密度描述數(shù)據(jù)對象鄰域的疏密,能很好地識別出局部離群點(diǎn),缺點(diǎn)是識別效果對算法參數(shù)敏感。

        以上方法考慮了只存在單個(gè)離群點(diǎn)的情況,不適用于存在離群簇(集體離群點(diǎn))的數(shù)據(jù)。基于聚類的方法[13-16]可以識別出數(shù)據(jù)中的離群簇,該類方法的思想是對數(shù)據(jù)進(jìn)行聚類,不屬于任何類別的數(shù)據(jù)對象以及小類別內(nèi)的所有數(shù)據(jù)對象被劃分為離群數(shù)據(jù)。如何區(qū)分大類和小類是一個(gè)問題,此外部分基于聚類的識別方法對參數(shù)敏感。

        基于此,本文提出了一種自動聚類的離群點(diǎn)識別方法(Outlier Recognition Method Using Automatic Clustering, ORMUAC),該方法通過聚類自動的輸出離群點(diǎn)和離群簇,對數(shù)據(jù)對象的分布形狀和密度無要求,無需人為設(shè)定參數(shù)。ORMUAC使用相互K近鄰數(shù)衡量數(shù)據(jù)對象的離群度,數(shù)據(jù)對象的相互K近鄰數(shù)越少就越可能是離群點(diǎn)。相互K近鄰是一個(gè)非全局的參數(shù),因此也可用于識別局部離群點(diǎn)。

        1? 自動聚類的離群點(diǎn)識別方法

        傳統(tǒng)離群點(diǎn)識別方法大都缺乏普適性,有些方法對數(shù)據(jù)的分布形狀或者密度分布有特定要求,無法識別出離群簇或者局部離群點(diǎn);有些方法需要人為設(shè)定參數(shù),增加了算法的使用難度?;诖?,本文提出了具有普適性的ORMUAC方法,該方法對數(shù)據(jù)的分布形狀和密度無要求,無需人為設(shè)定參數(shù)。在詳細(xì)介紹該算法前先闡述一些相關(guān)理論概念。

        1.1? 相關(guān)概念

        K近鄰:數(shù)據(jù)集d中,距離數(shù)據(jù)對象o最近的k個(gè)數(shù)據(jù)對象組成的集合稱為數(shù)據(jù)對象o的K近鄰,表示為:

        Nk={ p|d(o, p)≤dk(o),p≠o}? ? ? ? ? ? ? ? ?(1)

        其中,d(o, p)表示數(shù)據(jù)對象o和p之間的距離,dk(o)表示距離數(shù)據(jù)對象o第k近鄰的數(shù)據(jù)對象與數(shù)據(jù)對象o之間的距離。

        相互K近鄰:當(dāng)數(shù)據(jù)對象p屬于數(shù)據(jù)對象o的K近鄰,同時(shí)數(shù)據(jù)對象o屬于數(shù)據(jù)對象p的K近鄰時(shí),數(shù)據(jù)對象p和數(shù)據(jù)對象o是相互K近鄰。表示為:

        MN(o)={ p| p∈Nk (o),o∈Nk( p)}? ? ? ? ? ? ? ? (2)

        近鄰鏈接點(diǎn):如果數(shù)據(jù)對象o的相互K近鄰個(gè)數(shù)不為零,那么數(shù)據(jù)對象o就稱作近鄰鏈接點(diǎn)。

        基于相互K近鄰的離群點(diǎn):如果數(shù)據(jù)對象o的相互K近鄰的個(gè)數(shù)為零,那么數(shù)據(jù)對象o被稱為基于相互K近鄰的離群點(diǎn)。

        α離群簇:在數(shù)據(jù)完成聚類后,如果類內(nèi)數(shù)據(jù)對象的個(gè)數(shù)小于閾值α,則組成該類的全部數(shù)據(jù)對象被稱為α離群簇。

        文獻(xiàn)[17]中提到一個(gè)六度分離理論,該理論闡述為:任何兩個(gè)陌生人之間只要通過6個(gè)人就可以相互認(rèn)識。在Facebook的一篇報(bào)告[18]中這個(gè)數(shù)字變成了4.74(數(shù)據(jù)范圍為全球),當(dāng)把范圍縮小到一個(gè)國家時(shí),人們之間的間隔度只有3度。這表明個(gè)體間存在一個(gè)間隔度值,當(dāng)人能直接或間接認(rèn)識到的人數(shù)小于這個(gè)值就無法認(rèn)識更多的人,從而被隔離成為小眾。類比聚類,當(dāng)某一數(shù)據(jù)對象的相互K近鄰個(gè)數(shù)小于閾值α?xí)r,這些數(shù)據(jù)對象就不能被劃到大類,變成離群簇。閾值α不是固定的,不同的數(shù)據(jù)環(huán)境有著不同的α值。

        α值的確定:當(dāng)自動聚類完成后,輸出的K值就是判別某一類是否為α離群簇的閾值α,如果類的數(shù)據(jù)對象個(gè)數(shù)小于α,將該類輸出為α離群簇。

        當(dāng)數(shù)據(jù)聚類的類別不再發(fā)生變化時(shí),所有的數(shù)據(jù)對象都被正確歸類,數(shù)據(jù)聚類達(dá)到穩(wěn)定狀態(tài);這時(shí)對應(yīng)的k值就是該數(shù)據(jù)集的間隔度α。

        1.2? 算法原理與步驟

        ORMUAC是通過近鄰鏈接點(diǎn)將相似的數(shù)據(jù)歸為一類,在所有數(shù)據(jù)被歸類之后,單獨(dú)成一類的數(shù)據(jù)對象被輸出為離群點(diǎn),類內(nèi)數(shù)據(jù)個(gè)數(shù)小于閾值α的小類則被輸出為α離群簇。ORMUAC算法流程分為兩部分,第一部分是自動聚類和輸出離群點(diǎn),第二部分是輸出為α離群簇。

        第一部分:從數(shù)據(jù)集D中隨機(jī)選擇一個(gè)數(shù)據(jù)對象o,判斷該數(shù)據(jù)對象是否為近鄰鏈接點(diǎn)。若不是,標(biāo)記為離群點(diǎn);否則,將數(shù)據(jù)對象o及其相互K近鄰標(biāo)記為一類。接著遍歷數(shù)據(jù)對象o的相互K近鄰,如果數(shù)據(jù)對象o的相互K近鄰也為近鄰鏈接點(diǎn),繼續(xù)遞歸訪問該近鄰鏈接點(diǎn)的相互K近

        鄰;循環(huán)這一步驟,直到遍歷完所有近鄰鏈接點(diǎn)及其相互K近鄰,完成一次歸類。以同樣的方式繼續(xù)訪問數(shù)據(jù)集D中的下個(gè)未被訪問的數(shù)據(jù)對象,直至遍歷完數(shù)據(jù)集D中所有數(shù)據(jù)。

        該如何給出合適相互K近鄰值。通過實(shí)驗(yàn)發(fā)現(xiàn)小樣本數(shù)據(jù)集的k值一般低于25,本文采用迭代的方式找到合適的k值。k值從2到25迭代(實(shí)驗(yàn)結(jié)果表明實(shí)際迭代次數(shù)平均約為12次,遠(yuǎn)低于25次),當(dāng)相鄰兩次的聚類輸出類別數(shù)相等時(shí)停止迭代,此時(shí)k值為最佳K近鄰值。迭代時(shí)會頻繁地計(jì)算數(shù)據(jù)對象的相互K近鄰,為減少開銷采用KD樹來存儲相互K近鄰。聚類前先掃描一遍數(shù)據(jù)集,建立25—近鄰KD樹,后續(xù)迭代時(shí)直接查找KD樹即可找出數(shù)據(jù)對象的任意K近鄰。自動聚類的步驟見算法1。

        算法1:Auto-Clustering(D)

        輸入:數(shù)據(jù)集D

        輸出:聚類結(jié)果C=(C1,C2,…,Cn),k

        1)初始化:I0=0,k=2,n=0。

        2)掃描數(shù)據(jù)集D,將每個(gè)數(shù)據(jù)的25-近鄰數(shù)存儲到KD樹。

        3)從數(shù)據(jù)集D中選取一個(gè)未被訪問的數(shù)據(jù)對象O。

        4)通過查找KD樹,判斷O是否為近鄰鏈接點(diǎn);若是,n=n+1,Cn=Cn∪MN(O)∪O,visited(O)=true,否則,輸出為離群點(diǎn)。

        5)如果?P∈Cn并且visited(P)≠true,Cn=Cn∪MN(P),visited(P)=true,直到遍歷完Cn中所有未被訪問數(shù)據(jù)。

        6)如果數(shù)據(jù)集D還有未被訪問的數(shù)據(jù),跳到步驟3)。

        7)當(dāng)數(shù)據(jù)集D中數(shù)據(jù)全部遍歷完畢,將類別個(gè)數(shù)n賦值給Ik。

        8)如果Ik≠Ik-1,k=k+1,將數(shù)據(jù)集D中數(shù)據(jù)的visited值設(shè)為false,跳到步驟3),否則,結(jié)束程序。

        9)End。

        第二部分:聚類完成之后,數(shù)據(jù)都被全部歸類,數(shù)據(jù)對象的間隔度α隨之確定,根據(jù)最終聚類結(jié)果確定并輸出α離群簇。ORMUAC具體步驟見算法2。

        算法2:ORMUAC(D)

        輸入:數(shù)據(jù)集D

        輸出:離群點(diǎn),離群簇

        1)執(zhí)行Auto-Clustering(D),輸出聚類結(jié)果C=C=(C1,

        C2,…,Cn)、近鄰值k、離群點(diǎn)。

        2)令α=k,如果|Ci|≤α,(i=1,2,…,n),將Ci輸出為離群簇。

        3)End。

        ORMUAC識別過程如圖1所示,相互K近鄰的k從2開始迭代聚類,k=2時(shí)聚類輸出類別數(shù)為8,k=3時(shí)輸出類別數(shù)為5,與k為4時(shí)的輸出類別數(shù)一致;此時(shí)聚類數(shù)目不再隨k增加而變化,即聚類達(dá)到穩(wěn)定狀態(tài)。這意味著相互K近鄰k=3時(shí)的聚類結(jié)果為最佳輸出,將此時(shí)k值(k=3)賦予α,由于A類數(shù)據(jù)樣本數(shù)小于α,簇A被輸出為α離群簇,點(diǎn)p單獨(dú)成一類被輸出為離群點(diǎn)。

        1.3? 算法復(fù)雜度分析

        Auto-clustering算法通過KD樹來尋找數(shù)據(jù)對象的K近鄰,時(shí)間復(fù)雜度為O(N logN),遍歷數(shù)據(jù)集的時(shí)間復(fù)雜度為O(N),Auto-clustering的時(shí)間復(fù)雜度為O(N logN)+O(N);ORMUAC在尋找最佳k值時(shí)需要迭代Auto-clustering算法k次,因此ORMUAC的時(shí)間復(fù)雜度為O(N logN)。

        KD樹的空間復(fù)雜度為O(N),用于存儲類標(biāo)記的數(shù)組長度為N,存儲相互K近鄰所占的空間長度小于KN,所以O(shè)RMUAC算法的空間復(fù)雜度為O(N)。

        2? 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)部分將根據(jù)合成數(shù)據(jù)、真實(shí)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果來評估ORMUAC算法的性能,同時(shí)將K-means[13]和DBSCAN[14]兩種經(jīng)典算法作為對照算法。采用召回率(R)、精確率(P)以及精確率和召回率的調(diào)和均值(F)作為衡量指標(biāo)。評價(jià)指標(biāo)R、P以及F的值域?yàn)閇0,1],數(shù)值越大實(shí)驗(yàn)效果越好。

        2.1? K值與樣本量關(guān)系實(shí)驗(yàn)

        根據(jù)UCI數(shù)據(jù)的k值實(shí)驗(yàn)結(jié)果,圖2繪制了相互K近鄰值與數(shù)據(jù)集樣本量的關(guān)系圖。從圖中可以看出二者關(guān)系是非線性的,相互近鄰數(shù)k值隨著數(shù)據(jù)樣本量波動增加,k在樣本量為6 000時(shí)達(dá)到最大值24,隨后再減少。

        雖然ORMUAC采用迭代方式來給出最佳k值,但迭代次數(shù)k較??;實(shí)驗(yàn)結(jié)果表明當(dāng)樣本量較小時(shí),實(shí)際迭代次數(shù)平均約為12次,遠(yuǎn)低于25次,不會造成算法時(shí)間復(fù)雜度的突增。另外,實(shí)際操作時(shí)k不用從2開始迭代,可根據(jù)樣本量設(shè)置合適初始k值以減少迭代次數(shù)。

        2.2? 合成數(shù)據(jù)實(shí)驗(yàn)

        為驗(yàn)證ORMUAC可行性和有效性,采用合成數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn)。3個(gè)數(shù)據(jù)集均為二維數(shù)據(jù)集,D1有4個(gè)類別,共118個(gè)數(shù)據(jù),包含9個(gè)離群數(shù)據(jù);D2只有一個(gè)類別,共有108個(gè)數(shù)據(jù),其中含有8個(gè)離群數(shù)據(jù);D3共有3個(gè)類別,共有357個(gè)數(shù)據(jù),其中包含10個(gè)離群點(diǎn),數(shù)據(jù)信息如表1所示。

        為模擬真實(shí)數(shù)據(jù)情況和保證實(shí)驗(yàn)的科學(xué)性,三種合成數(shù)據(jù)集的密度分布有均勻和不均勻的,形狀分布有球狀和非球狀的,數(shù)據(jù)類別有單類別和多類別的;各自都包含局部離群點(diǎn)、全局離群點(diǎn)以及離群簇。數(shù)據(jù)分布情況如圖3所示,空心點(diǎn)為離群數(shù)據(jù),實(shí)心點(diǎn)為正常數(shù)據(jù)。

        實(shí)驗(yàn)過程中,K-means需要給定類別個(gè)數(shù)k、距離閾值d兩個(gè)參數(shù),DBSCAN算法中需要給定距離閾值d和最少數(shù)據(jù)個(gè)數(shù)P兩個(gè)參數(shù)。實(shí)驗(yàn)中設(shè)定的參數(shù)值均為使得兩種對比算法識別效果達(dá)到最佳時(shí)的參數(shù)值。

        表2、表3和表4記錄了三種算法的合成數(shù)據(jù)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,從合成數(shù)據(jù)實(shí)驗(yàn)結(jié)果可以知道:

        1)D1數(shù)據(jù)集實(shí)驗(yàn)中,DBSCAN識別效果較好,F(xiàn)值為0.941略低于ORMUAC;D1數(shù)據(jù)集中多數(shù)離群數(shù)據(jù)分布在中心位置導(dǎo)致K-means的識別結(jié)果最差,雖然p值為1,但F值卻低至0.5;ORMUAC表現(xiàn)最好,各項(xiàng)指標(biāo)均為最高。

        2)在單類別、多密度和包含環(huán)內(nèi)離群點(diǎn)的D2數(shù)據(jù)集實(shí)驗(yàn)中,因環(huán)形數(shù)據(jù)和分布中間數(shù)據(jù)的密度不同,導(dǎo)致DBSCAN的F值稍有降低為0.941。K-means根據(jù)數(shù)據(jù)對象距離質(zhì)心的遠(yuǎn)近來判斷數(shù)據(jù)是否為離群點(diǎn),因而其在環(huán)形分布的D2中效果很不理想,F(xiàn)值僅為0.667;ORMUAC表現(xiàn)依舊最好。

        3)對于分布非球狀、密度不均勻的D3數(shù)據(jù)集,DBSCAN的識別效果不佳,調(diào)和均值F僅為0.886;K-means雖然p值很高但調(diào)和均值僅為0.181,召回率R值低至0.1,意味其遺漏了大部分的離群點(diǎn)。RORMUAC則依然識別出了數(shù)據(jù)集中全部離群數(shù)據(jù)。

        合成數(shù)據(jù)實(shí)驗(yàn)表明:相較于對比算法ORMUAC能有效應(yīng)用于分布多樣、密度不均的數(shù)據(jù)集,具有更好的普適性。

        2.3? 真實(shí)數(shù)據(jù)實(shí)驗(yàn)

        為進(jìn)一步驗(yàn)證ORMUAC的有效性,選取來自UCI數(shù)據(jù)庫[19]的三組真實(shí)數(shù)據(jù)集,Iris、banknote authentication和Breast Cancer Wisconsin數(shù)據(jù)集的wdbc數(shù)據(jù)進(jìn)行進(jìn)一步對比實(shí)驗(yàn),數(shù)據(jù)信息詳如表5所示。

        為更好地完成實(shí)驗(yàn),參照文獻(xiàn)[20,21]對數(shù)據(jù)集做了以下處理:Iris有三個(gè)類別,每類50個(gè)數(shù)據(jù)樣本;將其中一類全部50個(gè)數(shù)據(jù)對象作為正常點(diǎn),從剩下兩類中各取5個(gè)數(shù)據(jù)對象作為離群點(diǎn),構(gòu)成第一組實(shí)驗(yàn)數(shù)據(jù)(Iris)。banknote authentication有兩個(gè)類別,各自包含762和610個(gè)樣本;大類作為正常類別,再從小類中隨機(jī)取20個(gè)數(shù)據(jù)對象作為離群點(diǎn),組成第二組實(shí)驗(yàn)數(shù)據(jù)(Banknote)。wdbc有B和M兩個(gè)類別,各自包含357和212個(gè)數(shù)據(jù)樣本;將B類當(dāng)作正常類別,再從M類中隨機(jī)取10個(gè)數(shù)據(jù)對象作為離群點(diǎn),以此作為第三組實(shí)驗(yàn)數(shù)據(jù)(wdbc)。

        實(shí)驗(yàn)結(jié)果如表6、7、8和圖4所示,實(shí)驗(yàn)分析具體為:

        1)Iris數(shù)據(jù)集實(shí)驗(yàn)中,三種算法識別效果都還不錯,ORMUAC和DBSCAN表現(xiàn)一致,二者綜合指標(biāo)F值均為0.953,K-means表現(xiàn)其次,綜合指標(biāo)F值為0.909。

        2)ORMUAC在Banknote數(shù)據(jù)實(shí)驗(yàn)表現(xiàn)要優(yōu)于另外兩種算法,其中P和R兩者指標(biāo)值都要高于另外兩種算法,并且F值相對最高為0.869。

        3)高維數(shù)據(jù)wdbc對比實(shí)驗(yàn)中,K-means和DBSCAN的識別效果一致,指標(biāo)P、R、F值分別為0.700、0.636和0.667,ORMUAC的表現(xiàn)依舊最好,P值、R值和F值為0.800、0.667、0.761均高于兩種對比算法。

        真實(shí)數(shù)據(jù)實(shí)驗(yàn)證明:相較對比算法ORMUAC識別準(zhǔn)確率高有更好的識別效果,能夠更有效地應(yīng)用于真實(shí)數(shù)據(jù)集。

        為驗(yàn)證ORMUAC的普適性和有效性,采用合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集做了驗(yàn)證實(shí)驗(yàn)。合成數(shù)據(jù)實(shí)驗(yàn)中,ORMUAC能夠很好地適應(yīng)分布形狀不規(guī)則、密度分布不均勻的數(shù)據(jù),驗(yàn)證了ORMUAC的普適性。真實(shí)數(shù)據(jù)實(shí)驗(yàn)中ORMUAC的表現(xiàn)最佳,P、R和F值均為三種算法之中最高,進(jìn)一步證明了ORMUAC的普適性和有效性。

        圖4? 真實(shí)數(shù)據(jù)實(shí)驗(yàn)結(jié)果

        3? 結(jié)? 論

        本文提出了一種自動聚類的離群點(diǎn)識別方法,該方法可自動識別出數(shù)據(jù)集中的全局離群點(diǎn)、局部離群點(diǎn)以及離群簇,且對數(shù)據(jù)的分布形狀、密度無要求,有著較強(qiáng)的普適性。理論分析與對比實(shí)驗(yàn)證明了新方法能更有效應(yīng)用于分布復(fù)雜且離群類型多樣的數(shù)據(jù)集。

        接下來的研究可從優(yōu)化新算法在高維、大數(shù)據(jù)集中的效率方面著手。

        參考文獻(xiàn):

        [1] BRZEZI?SKA A N,HORY? C. Outliers in Covid 19 data based on Rule representation-the analysis of LOF algorithm [J].Procedia Computer Science,2021,192:3010-3019.

        [2] 呂承侃,沈飛,張正濤,等.圖像異常檢測研究現(xiàn)狀綜述 [J].自動化學(xué)報(bào),2022,48(6):1402-1428.

        [3] MOHAMMADPOUR L,LING T C,LIEW C S,et al. A Survey of CNN-Based Network Intrusion Detection [J].Applied Sciences,2022,12(16):8162-8162.

        [4] 黃彥斌,駱德漢,蔡高琰.基于電力數(shù)據(jù)分析的污水站點(diǎn)監(jiān)測方法研究 [J].現(xiàn)代信息科技,2021,5(21):121-125.

        [5] HAWKINS D. Identification of outliers [M].London:Chapman and Hall,1980.

        [6] 周玉,朱文豪,房倩,等.基于聚類的離群點(diǎn)檢測方法研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(12):37-45.

        [7] 黃旺華,王欽若.基于距離統(tǒng)計(jì)的有序紋理點(diǎn)云離群點(diǎn)檢測 [J].計(jì)算技術(shù)與自動化,2019,38(1):139-144.

        [8] 梅林,張鳳荔,高強(qiáng).離群點(diǎn)檢測技術(shù)綜述 [J].計(jì)算機(jī)應(yīng)用研究,2020,37(12):3521-3527.

        [9] KNORR E M,NG R T. Algorithms for Mining Distance-Based Outliers in Large Datasets [C]//Proceedings of the 24rd International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,1998:392-403.

        [10] BREUNIG M M,KRIEGEL H P,NG R T,et al. LOF:Identifying Density-Based Local Outliers [EB/OL].[2022-10-28].https://www.docin.com/p-291134797.html.

        [11] HA J,SEOK S,LEE J S. Robust outlier detection using the instability factor [J].Knowledge-Based Systems,2014,63:15-23.

        [12] SHAO M L,QI D Y,XUE H L. Big data outlier detection model based on improved density peak algorithm [J].Journal of Intelligent & Fuzzy Systems,2021,40(4):6185-6194.

        [13] 楊俊闖,趙超.K-Means聚類算法研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2019,55(23):7-14+63.

        [14] ESTER M,KRIEGEL H P,SANDER J,et al. A density-based algorithm for discovering clusters in large spatial data bases with noise [C]//Proceedings of the 2nd International Conference on Knowledge Discovering in Databases and Data Mining (KDD-96).Massachusetts:AAAI Press,1996,226-232.

        [15] GAN G J,NG M K P. K-means clustering with outlier removal [J].Pattern Recognition Letters,2017,90:8-14.

        [16] HUANG J L,ZHU Q S,YANG L J,et al. A Novel Outlier Cluster Detection Algorithm without Top-n Parameter [J].Knowledge-Based Systems,2017,121:32-40.

        [17] KERBY M,KERBY M. Six degrees of separation [J].AOPA pilot,2012,55(2),68-68.

        [18] BACKSTROM L,BOLDI P,ROSA M,et al. Four Degrees of Separation [EB/OL].[2022-10-28].http://snap.stanford.edu/class/cs224w-readings/backstrom12four.pdf.

        [19] DUA D,GRAFF C. UCI Machine Learning Repository [EB/OL].[2022-10-28].http://archive.ics.uci.edu/ml.

        [20] HAWKIN S,HE H X,WILLIAMS G J,et al.Outlier Detection Using Replicator Neural NetworKs [C]//2000:Data Warehousing and Knowledge Discovery.France:Springer,2002:4-6.

        [21] ZHU Q S,F(xiàn)AN X G,F(xiàn)ENG J. Outlier detection based on K_Neighborhood MST [C]//2014 IEEE 15th International Conferenceon Information Reuse and Integration.Redwood City:IEEE,2014,718-724.

        作者簡介:黃強(qiáng)(1993—),男,漢族,江西上饒人,助教,碩士,主要研究方向:數(shù)據(jù)挖掘、中醫(yī)信息學(xué)研究。

        猜你喜歡
        數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
        河南科技(2014年19期)2014-02-27 14:15:26
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
        黑人玩弄人妻中文在线 | 日韩中文字幕久久久老色批| 日本污ww视频网站| 亚洲av第一页国产精品| 精品囯产成人国产在线观看| 国产一区二区三区免费小视频| 91色老久久偷偷精品蜜臀懂色| 免费网站看av片| 亚洲国产成人久久综合一区77| 中文字幕五月久久婷热| 精品久久综合日本久久综合网| 成人av鲁丝片一区二区免费| 亚洲欧美日韩精品高清| 美女露屁股无内裤视频| 国产自拍视频在线观看免费 | 国产一区二区三区爆白浆| 亚洲视频在线免费观看一区二区| 嫩草伊人久久精品少妇av| 乱人伦中文无码视频| 美女污污网站| 日本免费一区二区精品| 在厨房被c到高潮a毛片奶水| 97久久天天综合色天天综合色hd| 国产精品国产午夜免费福利看| 少妇被啪出水在线视频| 男人女人做爽爽18禁网站| 欧美性猛交xxxx黑人| 亚洲国产av剧一区二区三区| 刚出嫁新婚少妇很紧很爽| 国产成人亚洲精品| 亚洲伊人久久成人综合网| 日本顶级片一区二区三区| 久久久久久自慰出白浆| 少妇人妻偷人精品一区二区| 麻豆国产VA免费精品高清在线| 最新国产女主播在线观看| 插b内射18免费视频| 女人体免费一区二区| 少妇人妻av一区二区三区| 在办公室被c到呻吟的动态图 | 亚洲精品日本|