亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MARS和概率規(guī)劃的離群值檢測(cè)算法

        2023-10-12 01:27:58王瑞豪童英華馮忠?guī)X
        關(guān)鍵詞:檢測(cè)模型

        王瑞豪,童英華,2+,馮忠?guī)X

        (1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.青海師范大學(xué) 省部共建藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3.青海師范大學(xué) 物理與電子信息學(xué)院,青海 西寧 810008)

        0 引 言

        物聯(lián)網(wǎng)(internet of things,IoT)是將分散在世界各地的數(shù)百萬(wàn)個(gè)對(duì)象、傳感器節(jié)點(diǎn)進(jìn)行連接、通信和數(shù)據(jù)交換,并使用其傳感器生成大量數(shù)據(jù)的網(wǎng)絡(luò)[1]。IoT已經(jīng)影響人們?nèi)粘I钪械脑S多領(lǐng)域,如城市、家庭、健康部門等[2],并將對(duì)社會(huì)產(chǎn)生重大影響。此外,隨著技術(shù)的進(jìn)步,嵌入式傳感器設(shè)備的數(shù)據(jù)收集能力也逐步提高,從而增加了來(lái)自物理世界的數(shù)據(jù)和更多連續(xù)的數(shù)據(jù)流。數(shù)據(jù)代表了連接網(wǎng)絡(luò)世界和物理世界的橋梁[3]。物理世界到數(shù)字世界的數(shù)據(jù)流動(dòng)將擴(kuò)展計(jì)算機(jī)對(duì)周圍環(huán)境的認(rèn)識(shí),從而人類將獲得無(wú)處不在的服務(wù)。新產(chǎn)品和服務(wù)的質(zhì)量很大程度上依賴于物聯(lián)網(wǎng)設(shè)備所收集的數(shù)據(jù)質(zhì)量。

        文獻(xiàn)[4-6]表明了數(shù)據(jù)質(zhì)量(data quality,DQ)對(duì)數(shù)據(jù)挖掘過(guò)程的重要性,以及低DQ對(duì)這些過(guò)程結(jié)果有效性的影響,從而得出應(yīng)確保DQ和準(zhǔn)確性的結(jié)論。文獻(xiàn)[7,8]提出了物聯(lián)網(wǎng)的許多因素包括部署規(guī)模、資源有限和連接中斷正在危及生產(chǎn)數(shù)據(jù)的質(zhì)量。DQ中這些偏差的一個(gè)主要表現(xiàn)是數(shù)據(jù)離群值[9-11]。為了避免低DQ所帶來(lái)的后果,需要對(duì)數(shù)據(jù)離群值進(jìn)行處理,以提高數(shù)據(jù)的質(zhì)量。

        本文提出了一種結(jié)合多元回歸MARS模型和概率規(guī)劃的多元離群點(diǎn)檢測(cè)方法。本方法使用一個(gè)多變量自適應(yīng)回歸樣條曲線MARS模型來(lái)擬合具有單一因變量的多個(gè)預(yù)測(cè)因子變量,然后MARS模型的殘差被用作可推廣的、完全貝葉斯概率模型的輸入,以檢測(cè)離群值。最后,將該算法成功應(yīng)用于物聯(lián)網(wǎng)數(shù)據(jù)的離群值分析。

        1 相關(guān)工作

        基于回歸模型與離群值檢測(cè)已經(jīng)有很多研究,主要集中在如何檢測(cè)和處理離群值。文獻(xiàn)[12]提出了一種貝葉斯方法,使用回歸模型中的殘差來(lái)檢測(cè)離群值,利用線性回歸模型中的標(biāo)準(zhǔn)化殘差評(píng)估離群值,并利用離群值概率的后驗(yàn)分布假設(shè)非先驗(yàn)信息。這些后驗(yàn)概率被建模為學(xué)生t分布,以便更好地捕捉分布尾部的外圍值。文獻(xiàn)[13-16]使用離群值檢測(cè)方法改進(jìn)線性回歸模型。本文關(guān)注的不是離群值如何影響回歸模型,而是如何基于回歸模型的輸出來(lái)檢測(cè)離群值。學(xué)生化殘差和馬氏距離等技術(shù)可用于評(píng)估回歸模型數(shù)據(jù)輸出中可能的離群值。文獻(xiàn)[17]使用幾種常用技術(shù),如學(xué)習(xí)殘差來(lái)檢測(cè)離群值以改進(jìn)回歸模型,文章采用檢測(cè)方法自動(dòng)發(fā)現(xiàn)儀器浮標(biāo)記錄中可能存在的離群值,如颶風(fēng),以保護(hù)分析結(jié)果不受這些罕見(jiàn)事件的影響,即刪除或記錄這些事件,以創(chuàng)建干凈的基線數(shù)據(jù)集進(jìn)行分析。結(jié)果表明,貝葉斯方法與其它方法如標(biāo)準(zhǔn)化殘差和預(yù)測(cè)不一致性診斷的結(jié)果相似。

        2 多元變量離群值檢測(cè)方法

        離群值是位于主要數(shù)據(jù)分組之外的某個(gè)值,或者不適合某個(gè)正常模型的數(shù)據(jù)點(diǎn)[12],其中模型可以基于距離、密度、回歸等。檢測(cè)和標(biāo)記離群值的一種簡(jiǎn)單方法是提供一個(gè)上限或下限閾值,但前提是要了解整個(gè)數(shù)據(jù)集。

        在許多情況下,例如檢測(cè)欺詐,使用多個(gè)變量可以在檢測(cè)和調(diào)查可能的離群值時(shí)提供有價(jià)值的信息。與單變量方法相比,使用多變量輸入數(shù)據(jù)檢測(cè)離群值的技術(shù)研究較少。研究多元離群值、回歸模型和單變量的一個(gè)原因是,在多元回歸的背景下,單變量離群值可能不是極端的,并且在雙變量或單變量分析中,多元離群值可能無(wú)法檢測(cè)到。在本節(jié)中將簡(jiǎn)要討論兩種常用的多變量離群值檢測(cè)方法,用于發(fā)現(xiàn)潛在的外圍數(shù)據(jù)點(diǎn)。

        2.1 馬氏距離

        馬氏距離(Mahalanobis distance)考慮了多元分布的數(shù)據(jù)規(guī)模,這些分布表示觀察的概率。馬氏距離與歐幾里德距離相似,只是它沿著不相關(guān)的方向標(biāo)準(zhǔn)化了數(shù)據(jù)[18]。馬氏距離給出了從一個(gè)錯(cuò)誤值到預(yù)測(cè)變量(自變量)所有觀測(cè)值的質(zhì)心的距離。一個(gè)大的距離表示一個(gè)觀測(cè)值是由預(yù)測(cè)值定義的空間中的一個(gè)離群值。式(1)定義了馬氏距離

        (1)

        2.2 K-均值聚類

        數(shù)據(jù)空間的劃分有不同的方法,其中一種方法是K-均值聚類[19]。K-均值聚類的目標(biāo)是最小化數(shù)據(jù)點(diǎn)到聚類的距離,或者減少聚類內(nèi)的方差,通過(guò)最小化平方誤差函數(shù)來(lái)實(shí)現(xiàn),如式(2)所示

        (2)

        式中:J是目標(biāo)函數(shù),k是簇的數(shù)目,n是觀測(cè)數(shù)據(jù)點(diǎn)的數(shù)目,xi是i的觀測(cè),cj是簇j的質(zhì)心。因?yàn)镵-均值聚類試圖最小化簇內(nèi)平方和,所以它總是給較大的簇賦予更多的權(quán)重。此外,K-均值聚類對(duì)數(shù)據(jù)進(jìn)行了一些假設(shè),包括以下內(nèi)容:每個(gè)變量分布的方差都是球形的,或者聚類的分布是相似的,每個(gè)星團(tuán)的觀測(cè)數(shù)量大致相等。如果這些假設(shè)中的任何一個(gè)不成立,K-均值聚類將不會(huì)按預(yù)期運(yùn)行,產(chǎn)生誤導(dǎo)性或不正確的結(jié)果。

        總之,在上述各種研究離群點(diǎn)檢測(cè)方法時(shí)都有規(guī)范性假設(shè),另一個(gè)重要因素是數(shù)據(jù)分布的形狀。一般來(lái)說(shuō),大多數(shù)常見(jiàn)的離群點(diǎn)檢測(cè)技術(shù)在正態(tài)分布數(shù)據(jù)上都有很好的表現(xiàn)。鉸鏈函數(shù)同樣對(duì)數(shù)據(jù)應(yīng)用變換函數(shù)有助于創(chuàng)建多元正態(tài)分布,但變換并不總是有效的,任何結(jié)果都必須轉(zhuǎn)換回原始空間。這些方法的這一弱點(diǎn)可能導(dǎo)致檢測(cè)出不正確的離群值,特別是在非正態(tài)分布的數(shù)據(jù)集中。

        3 基于MARS回歸模型和概率規(guī)劃的多元離群點(diǎn)檢測(cè)算法

        本節(jié)詳細(xì)介紹提出的基于MARS回歸模型和概率規(guī)劃的多元離群點(diǎn)檢測(cè)方法的兩個(gè)必要組成部分,即MARS回歸模型和概率模型。3.1節(jié)利用MARS模型計(jì)算出學(xué)生化殘差,以便概率模型使用這些殘差來(lái)檢測(cè)離群值;3.2節(jié)通過(guò)貝葉斯推理得出概率規(guī)劃的可信區(qū)間;3.3節(jié)概率模型的實(shí)現(xiàn)。

        3.1 MARS回歸模型

        MARS是一個(gè)非參數(shù)回歸模型,它解釋了變量之間的非線性及其相互作用[20]。MARS利用鉸鏈函數(shù)作為分段線性函數(shù)(擬合數(shù)據(jù)),并通過(guò)組合鉸鏈函數(shù)的變量關(guān)系而形成的非線性函數(shù)。MARS的優(yōu)點(diǎn)是有利于創(chuàng)建多變量模型,包括鉸鏈函數(shù)能夠自動(dòng)劃分輸入數(shù)據(jù),在某種程度上包含輸入數(shù)據(jù)中離群值的影響和快速預(yù)測(cè)。此外,自動(dòng)特征選擇選出最相關(guān)的特征,從而在使用模型檢測(cè)具有多個(gè)變量的離群值時(shí)減少噪聲和可能的離群值。MARS執(zhí)行自動(dòng)變量選擇,適用于大型數(shù)據(jù)集,比傳統(tǒng)線性模型更靈活。式(3)描述了使用MARS構(gòu)建的模型

        (3)

        式中:ci為常數(shù)系數(shù),基函數(shù)Bi(x) 可取值為1,也可取值為鉸鏈函數(shù)max(0,x-ci) 或max(0,ci-x)。

        H=X(XTX)-1XT

        (4)

        (5)

        (6)

        其中,H是hat矩陣,它是設(shè)計(jì)矩陣X在列空間上的正交投影,ε是絕對(duì)殘差,σ2是殘差的方差,hii是hat矩陣對(duì)角線上的值,t是學(xué)生化殘差。本模型利用多變量MARS模型殘差結(jié)果來(lái)實(shí)現(xiàn)數(shù)據(jù)可能存在的離群值概率。

        3.2 概率規(guī)劃與貝葉斯推理

        概率規(guī)劃利用高級(jí)語(yǔ)言來(lái)創(chuàng)建概率模型并自動(dòng)求解,本模型結(jié)合了概率規(guī)劃,用于檢測(cè)物聯(lián)網(wǎng)數(shù)據(jù)中的離群值,并實(shí)現(xiàn)完整的貝葉斯推理。貝葉斯推理提供了一種將新的證據(jù)與先前的信念或假設(shè)相結(jié)合的方法,通過(guò)應(yīng)用貝葉斯規(guī)則來(lái)實(shí)現(xiàn),貝葉斯公式如式(7)所示

        (7)

        在貝葉斯規(guī)則中,P(A) 是事件A的先驗(yàn)概率,P(X) 是X的先驗(yàn)概率,P(X|A) 是給定事件A的X的相似性,P(A|X) 是后驗(yàn)概率。

        概率規(guī)劃作為一種通用的推理技術(shù),能夠建立某一事件或特征的模型,如異常點(diǎn)的檢測(cè),并對(duì)預(yù)測(cè)進(jìn)行概率推理,從過(guò)去的事件中推斷原因,從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)以改進(jìn)預(yù)測(cè)。概率規(guī)劃的核心是概率推理,概率模型是用編程語(yǔ)言來(lái)實(shí)現(xiàn)的。這在一定程度上是因?yàn)楦怕食绦虮唤忉尀橐环N分布,人們可以從中使用工具來(lái)詢問(wèn)有關(guān)分布的問(wèn)題。此外,這些建模語(yǔ)言將隨機(jī)事件作為原語(yǔ)合并,如前所述,它們是基于運(yùn)行環(huán)境處理推理。還有其它可用的表示類型語(yǔ)言,如貝葉斯信念網(wǎng)絡(luò)和隱馬爾可夫模型。然而,這些方法只是簡(jiǎn)單的模擬,而不是機(jī)器學(xué)習(xí)。概率程序類似于可以運(yùn)行和分析的模擬。

        貝葉斯技術(shù)為本模型中的不同參數(shù)提供了可信區(qū)間??尚艆^(qū)間表明,某個(gè)值或參數(shù)在區(qū)間帶內(nèi)的概率為80%或95%。這比傳統(tǒng)的置信區(qū)間更容易解釋,因?yàn)閭鹘y(tǒng)的置信區(qū)間表明,如果一個(gè)實(shí)驗(yàn)重復(fù)多次,那么80%或95%的時(shí)間值都在這個(gè)區(qū)間內(nèi)。此外,與其它評(píng)估結(jié)果可信度的方法一樣,如果模型是真實(shí)的,那么結(jié)果周圍的可信區(qū)間是可靠的。

        3.3 概率模型

        為了創(chuàng)建離群點(diǎn)檢測(cè)概率模型,從MARS回歸模型殘差中檢測(cè)離群值,作為雙重方法的一部分,本文使用了Stan概率編程語(yǔ)言[21]。在Stan上,后驗(yàn)分布是每個(gè)未知參數(shù)的充分條件。這是用Hamiltonian Monte Carlo(HMC)和No-U-Turn采樣器(NUTS)完成的,這兩個(gè)采樣器都是在Stan中實(shí)現(xiàn)的,用于執(zhí)行統(tǒng)計(jì)推斷。模型擬合是通過(guò)指定全似然函數(shù)和所有未知參數(shù)的先驗(yàn)分布來(lái)完成的。下面將詳細(xì)介紹所提出的概率模型算法。

        算法:概率模型算法

        輸入:長(zhǎng)度為N的向量y

        輸出:最終離群值概率

        (1)intN1;

        vector[N1] y;

        IntN2;

        vector[N2]y2; //數(shù)據(jù)的輸入

        (2)real mu;

        realsigma; 平均分布

        realnu;//模型所需要的參數(shù), 模型的設(shè)計(jì)參數(shù)的輸入

        (3)mu~normal(100,100)//mu平均分布

        (4)sigma~normal(100,100)//sigma 標(biāo)準(zhǔn)差分布

        (5)nu~cauchy(7,5);

        for(i in 1:N1){

        y[i]~student_t(nu, mu, sigma);

        }//離群值的學(xué)生t分布

        (6)vector[N2] cdf_prob;//概率累計(jì)的數(shù)據(jù)

        (7)vector[N2] ccdf_prob;//數(shù)據(jù)的逆

        (8)vector[N2] prob;

        for(i in 1:N2){

        cdf_prob[i] = student_t_cdf(y2[i], nu, mu, sigma);

        ccdf_prob[i] = 1 - cdf_prob[i];

        prob[i] = 2*(cdf_prob[i]*ccdf_prob[i]);

        }//生成最終的離群值概率

        首先聲明了3個(gè)與實(shí)際輸入相對(duì)應(yīng)的輸入變量,包括用于評(píng)估離群值的總體(或樣本)向量、用于查找離群值的檢查值以及每個(gè)向量的長(zhǎng)度。Stan要估計(jì)的未知模型參數(shù)是樣本空間與要檢查的輸入值(從中檢測(cè)離群值)的平均值和標(biāo)準(zhǔn)偏差,以及學(xué)生t分布的自由度。對(duì)于離群值的檢測(cè),假設(shè)學(xué)生t分布的概率,使用均值、標(biāo)準(zhǔn)差和式(8)中定義的自由度,式(8)顯示概率密度函數(shù)

        (8)

        t分布是對(duì)稱的鐘形分布[22],類似于正態(tài)分布,峰值為零。不同的是,數(shù)據(jù)的擴(kuò)散比標(biāo)準(zhǔn)正態(tài)分布的擴(kuò)散要大。因此,t分布可以更好地捕捉數(shù)據(jù)集中更寬的尾部,以便更好地描述離群值分布。

        在使用Stan概率編程語(yǔ)言時(shí),概率語(yǔ)句用標(biāo)準(zhǔn)符號(hào)表示,如y~Normal(μ,σ)。 這意味著變量y模型數(shù)據(jù)被聲明為具有給定均值和標(biāo)準(zhǔn)差的正態(tài)分布,用這個(gè)符號(hào)來(lái)表示本文的概率模型。

        對(duì)于最終結(jié)果,本文計(jì)算了相對(duì)于大多數(shù)觀測(cè)值,觀測(cè)到更極端值的概率,該概率存儲(chǔ)在離群值概率模型變量prob中,離群值概率的閾值與數(shù)據(jù)有關(guān)。

        4 實(shí)驗(yàn)設(shè)計(jì)與分析

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        本文提出的方法包含兩部分,以檢測(cè)離群值和可能的異常行為。MARS模型和相應(yīng)的殘差是物聯(lián)網(wǎng)數(shù)據(jù)中離群值處理的第一步,它解決了數(shù)據(jù)集的多變量性質(zhì)。在為每個(gè)專業(yè)創(chuàng)建了多元回歸模型后,第二步就涉及到使用生成的學(xué)生t分布模型殘差來(lái)檢測(cè)離群值。模型是通過(guò)物聯(lián)網(wǎng)數(shù)據(jù)集和特定的數(shù)據(jù)種類來(lái)建立的。

        本研究使用R編程語(yǔ)言和MARS的earth包實(shí)現(xiàn)來(lái)創(chuàng)建和驗(yàn)證每個(gè)模型。分類和回歸訓(xùn)練CARET包用于創(chuàng)建最終的MARS模型,并選擇10倍交叉驗(yàn)證來(lái)減少訓(xùn)練模型的過(guò)度擬合。在進(jìn)行10倍交叉驗(yàn)證中,將90%的數(shù)據(jù)集用于模型訓(xùn)練,10%用于測(cè)試,從而能夠使用所有的可用數(shù)據(jù)來(lái)密切估計(jì)最終模型的預(yù)測(cè)性能。為了創(chuàng)建完全貝葉斯異常檢測(cè)概率模型,本文使用了Stan概率編程語(yǔ)言的rstan。

        4.2 實(shí)驗(yàn)結(jié)果及討論

        本文提出了完整的多變量離群值檢測(cè)方法,在本節(jié)中將該方法與馬氏距離、K-均值聚類方法進(jìn)行比較。實(shí)驗(yàn)數(shù)據(jù)選擇了基于物聯(lián)網(wǎng)的霧霾部分?jǐn)?shù)據(jù)進(jìn)行離群值檢測(cè)。該實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某地區(qū)區(qū)委大樓2016年5月3日0點(diǎn)到5月7日下午5點(diǎn)空氣中PM2.5的觀測(cè)值,以小時(shí)為單位,共計(jì)114條數(shù)據(jù)。

        在運(yùn)行Mahalanobis 距離時(shí),需要確定閾值或距離,將超過(guò)閾值或距離的值視為離群值。在比較中,采用降序?qū)?shù)據(jù)值相隔距離進(jìn)行排序。此外,距離的確定是根據(jù)數(shù)據(jù)的種類而確定的,在某種程度上是任意的。計(jì)算出的距離在本質(zhì)上,并不能決定大于該距離的值一定為離群值??梢酝ㄟ^(guò)幾種不同的方式使用Mahalanobis距離檢測(cè)離群值。其中一種方法使用平均馬氏距離的1.5或3.0倍的值來(lái)創(chuàng)建閾值與每個(gè)距離進(jìn)行比較,高于閾值的值被視為離群值。

        對(duì)于K-均值聚類,關(guān)鍵因素是決定數(shù)據(jù)值聚類的數(shù)量。在本文的分析中,使用了肘部方法,它能直觀地描繪集群內(nèi)方差與集群數(shù)量的關(guān)系。當(dāng)方差達(dá)到穩(wěn)定點(diǎn)時(shí),選擇最佳聚類數(shù)。

        4.2.1 MARS模型分析

        圖1給出了MARS模型選出離群值的分析過(guò)程。在圖1中,首先通過(guò)模型選擇器對(duì)數(shù)據(jù)量進(jìn)行量化分析,然后計(jì)算出數(shù)據(jù)的累積分布率,通過(guò)累積分布率得到了數(shù)據(jù)值的集群分布圖。經(jīng)過(guò)MARS回歸模型的演算,被標(biāo)記為27、34、41的數(shù)據(jù)可能為離群值。MARS模型通過(guò)計(jì)算出的殘差去檢測(cè)離群值,而本文提出的算法可以通過(guò)MARS模型計(jì)算出的殘差得出數(shù)據(jù)為離群值的概率。

        圖1 MARS模型的分析過(guò)程

        4.2.2 多變量離群值檢測(cè)方法比較

        下面將本文提出的概率模型與Mahalanobis距離、K-均值聚類的離群值檢測(cè)效果進(jìn)行比較,結(jié)果如圖2所示。

        圖2 多變量離群值檢測(cè)效果

        由圖2可知,K-均值聚類選出的離群值過(guò)多并且分散,主要是由于數(shù)據(jù)值并不是過(guò)于的聚集,導(dǎo)致選出的離群值過(guò)多,可能存在誤判。本文提出的算法選出的全部離群值與Mahalanobis 距離選出的部分離群值重疊,而K-均值聚類和Mahalanobis 距離選出的離群值只有3個(gè)重疊。主要是由于本方法首先通過(guò)MARS模型計(jì)算出數(shù)據(jù)的殘差,然后將殘差作為輸入,進(jìn)而得出數(shù)據(jù)異常的概率,因此能更準(zhǔn)確選出離群值。

        4.2.3 可信區(qū)間分析

        圖3顯示了基于物聯(lián)網(wǎng)的霧霾實(shí)驗(yàn)數(shù)據(jù)中PM2.5的可信區(qū)間,在該圖中,黑點(diǎn)表示平均概率,較粗的水平線是80%區(qū)間的可信水平,細(xì)水平線是95%區(qū)間的外部水平。數(shù)據(jù)的平均概率表明有多大的概率觀察到比該數(shù)據(jù)值更極端的數(shù)據(jù)值,概率越低表明很小的概率觀察到比該值更極端的值,則該數(shù)據(jù)可能為離群值,概率越高,則表示很大概率觀察到比該值更極端的值,更極端的值過(guò)多,表明該值也有可能為離群值。所以概率為40%到60%的數(shù)據(jù)值,處于鐘形分布的中間部分,不太可能為離群值。可信區(qū)間的這種分布有助于確定某個(gè)值是否為離群值。

        圖3 物聯(lián)網(wǎng)霧霾數(shù)據(jù)中PM2.5可信區(qū)間

        由圖3可知,當(dāng)間隔位于1%概率閾值左側(cè)或右側(cè)的值可以被明確地標(biāo)記為正常值;如果區(qū)間超過(guò)1%閾值,則該點(diǎn)可視為離群值,反之亦然。例如,被標(biāo)記為27的數(shù)據(jù),該數(shù)據(jù)與前后數(shù)據(jù)的間隔過(guò)大,超過(guò)了1%,并且該數(shù)據(jù)的較粗水平線過(guò)小,可信區(qū)間小,所以該值為離群值。具體取決于平均概率與閾值的關(guān)系。該信息捕獲了固有的不確定性,可用于幫助創(chuàng)建更好的指標(biāo),以了解在給定更多可變數(shù)據(jù)集的情況下標(biāo)記離群值,或者相反,在使用可變性較小的數(shù)據(jù)集標(biāo)記離群值時(shí)設(shè)定更嚴(yán)格的界限。

        5 結(jié)束語(yǔ)

        提出了一種基于MARS模型和概率規(guī)劃的離群值檢測(cè)方法,并將該方法應(yīng)用于物聯(lián)網(wǎng)數(shù)據(jù)的離群值檢測(cè)。與其它多變量離群值檢測(cè)方法Mahalanobis距離和K-均值聚類相比,本模型返回值是數(shù)據(jù)為離群值的概率分布,能更準(zhǔn)確選出離群值。因此,在給定某些特定數(shù)據(jù)集時(shí),作為離群值的平均概率可用于確定離群值所需的適當(dāng)概率閾值。同時(shí),本方法不依賴于設(shè)置的距離值閾值,也不需要參數(shù)來(lái)指定鄰居或集群的數(shù)量。此外,本算法對(duì)數(shù)據(jù)分布的影響更加穩(wěn)健。

        猜你喜歡
        檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        三级4级全黄60分钟| 日本不卡的一区二区三区中文字幕| 国产av91在线播放| 中文字幕久区久久中文字幕| 亚洲激情综合中文字幕| 亚洲日韩中文字幕无码一区| 国产精品久久婷婷六月丁香| 亚洲精品一区网站在线观看| 被驯服人妻中文字幕日本| 最新中文字幕亚洲一区| 特级精品毛片免费观看| 18禁美女裸体网站无遮挡| 中文字幕无码人妻丝袜| 中文在线最新版天堂av| 国产亚洲精品av久久| 最近免费mv在线观看动漫| 亚洲国产麻豆综合一区| 日韩中文字幕一区在线| 国产无套中出学生姝| 日日噜狠狠噜天天噜av| 精品亚洲少妇一区二区三区| 蜜桃视频一区视频二区| 国产在线精品一区二区三区| 国产成人aaaaa级毛片| 中文字幕久久久久人妻无码| 亚洲一区视频中文字幕| 久久久久成人精品免费播放动漫 | 国精产品一区一区三区有限公司杨 | 男人扒开添女人下部免费视频| 66lu国产在线观看| 亚洲天堂免费av在线观看| 自拍偷自拍亚洲一区二区| 国产免费av片在线观看| 国产最新一区二区三区天堂| 国产黄色一区二区三区,| 日韩精品专区av无码| 亚洲国产欧美在线成人| av最新版天堂在资源在线| 国产亚洲一区二区在线观看| 少妇放荡的呻吟干柴烈火动漫| 久久综合给合久久狠狠狠9|