亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘中離群點(diǎn)檢測(cè)的非參數(shù)方法研究

        2013-09-18 10:30:56李志云
        微型電腦應(yīng)用 2013年8期
        關(guān)鍵詞:離群事務(wù)直方圖

        李志云

        0 引言

        離群點(diǎn)檢測(cè)(又稱為異常檢測(cè))是找出其行為很不同于預(yù)期對(duì)象的過程。這種對(duì)象稱為離群點(diǎn)或異常。除欺詐檢測(cè)外,離群點(diǎn)檢測(cè)在許多應(yīng)用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損毀檢測(cè)、圖像處理、傳感器/視頻網(wǎng)絡(luò)監(jiān)視和入侵檢測(cè)。

        離群點(diǎn)檢測(cè)和聚類分析是兩項(xiàng)高度相關(guān)的任務(wù)。聚類發(fā)現(xiàn)數(shù)據(jù)集中的多數(shù)模式并據(jù)此組織數(shù)據(jù),而離群點(diǎn)檢測(cè)則試圖捕獲那些顯著偏離多數(shù)模式的異常情況。離群點(diǎn)檢測(cè)和聚類服務(wù)于不同的目的。

        1 離群點(diǎn)

        假定使用一個(gè)給定的統(tǒng)計(jì)過程來產(chǎn)生數(shù)據(jù)對(duì)象集。離群點(diǎn)(outlier)是一個(gè)數(shù)據(jù)對(duì)象,它顯著不同于其他數(shù)據(jù)對(duì)象,好像它是被不同的機(jī)制產(chǎn)生的一樣,如圖1所示:

        圖1 區(qū)域R中的對(duì)象是離群點(diǎn)

        大部分對(duì)象都粗略地服從高斯分布。然而,區(qū)域 R中的對(duì)象顯著不同。它不太可能與數(shù)據(jù)集中的其他對(duì)象服從相同的分布。因此,在該數(shù)據(jù)集中,R中的對(duì)象是離群點(diǎn)。

        離群點(diǎn)不同于噪聲數(shù)據(jù)。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點(diǎn)分析)中不是令人感興趣的。離群點(diǎn)是有趣的,因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制。因此,在離群點(diǎn)檢測(cè)時(shí),重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種機(jī)制產(chǎn)生。通常這樣做,在其余數(shù)據(jù)上做各種假設(shè),并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)。離群點(diǎn)通常可以分成3類:全局離群點(diǎn)、情境(或條件)離群點(diǎn)和集體離群點(diǎn)。離群點(diǎn)檢測(cè)方法可以分為兩類:一類是根據(jù)用于分析的數(shù)據(jù)樣本是否具有領(lǐng)域?qū)<姨峁┑?、可以用來?gòu)建離群點(diǎn)檢測(cè)模型的標(biāo)號(hào),對(duì)離群點(diǎn)檢測(cè)方法進(jìn)行分類;一類是根據(jù)各方法關(guān)于正常對(duì)象和離群點(diǎn)的假定,對(duì)各方法分組。如果可以得到專家標(biāo)記的正常和離群點(diǎn)對(duì)象實(shí)例,則可以使用它們建立離群點(diǎn)檢測(cè)模型,所使用的方法可以劃分成監(jiān)督方法、半監(jiān)督和無監(jiān)督方法。如果對(duì)離群點(diǎn)檢測(cè)方法對(duì)離群點(diǎn)與其余數(shù)據(jù)做出假定,根據(jù)所做的假定,可以把離群點(diǎn)檢測(cè)方法分為3類:統(tǒng)計(jì)學(xué)方法、基于鄰近性的方法和基于聚類的方法。本文就統(tǒng)計(jì)學(xué)方法提出一種非參數(shù)方法檢測(cè)離群點(diǎn)。

        2 離群點(diǎn)檢測(cè)的非參數(shù)方法

        非參數(shù)方法并不假定先驗(yàn)統(tǒng)計(jì)模型,而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個(gè)數(shù)和性質(zhì)都是靈活的,不預(yù)先確定。

        可以使用直方圖作為非參數(shù)統(tǒng)計(jì)模型來捕獲離群點(diǎn)。使用直方圖表示了每個(gè)顧客事務(wù)的購買金額,圖中60%事務(wù)的購買金額為0~1000美元。按直方圖所示,一個(gè)購買金額為7500美元的事務(wù)可能被視為離群點(diǎn),因?yàn)橹挥?1-(60%+20%+10%+6.7%+3.1%)=0.2%事務(wù)的購買量超過5000美元。另一方面,購買量為385美元的事務(wù)可以看做正常的,因?yàn)樗淙氚?0%事務(wù)的箱中,如圖2所示:

        圖2 每個(gè)事務(wù)購買量的直方圖

        使用直方圖檢測(cè)離群點(diǎn)的步驟如下:

        第一步:構(gòu)造直方圖。使用輸入數(shù)據(jù)構(gòu)造一個(gè)直方圖,該直方圖可以是一元的,也可以是多元的。

        第二步:檢測(cè)離群點(diǎn)。為了確定一個(gè)對(duì)象o是否是離群點(diǎn),可以對(duì)照直方圖檢查它。在最簡(jiǎn)單的方法中,如果該對(duì)象落入直方圖的一個(gè)箱中,則該對(duì)象被看做正常的,否則被認(rèn)為是離群點(diǎn)。

        使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是,很難選擇一個(gè)合適的箱尺寸。一方面,如果箱尺寸太小,則許多正常對(duì)象都會(huì)落入空的或稀疏箱,因而被誤識(shí)別為離群點(diǎn)。這將導(dǎo)致很高的假正例率和低精度。另一方面,如果箱尺寸太大,則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中,因而“假扮”成正常的。這將導(dǎo)致很高的假負(fù)例率和低召回率。

        為了解決這些問題,可以采用核密度估計(jì)數(shù)據(jù)的概率密度分布。把每個(gè)觀測(cè)對(duì)象看做一個(gè)周圍區(qū)域中的高概率密度指示子。一個(gè)點(diǎn)上的概率密度依賴于該點(diǎn)到觀測(cè)對(duì)象的距離。使用核函數(shù)對(duì)樣本點(diǎn)對(duì)其鄰域內(nèi)的影響建模。核函數(shù)K()是一個(gè)非負(fù)實(shí)數(shù)值可積函數(shù),滿足如下兩個(gè)條件,如公式(1)、公式(2)

        一個(gè)頻繁使用的核函數(shù)是均值為0,方差為1的標(biāo)準(zhǔn)高斯函數(shù):

        設(shè)x1,…,xn是隨機(jī)變量f的獨(dú)立的、同分布的樣本。該概率密度函數(shù)的核函數(shù)近似為:

        其中,K()是核函數(shù);h是帶寬,充當(dāng)光滑參數(shù)。

        一旦通過核密度估計(jì)近似數(shù)據(jù)集的概率密度函數(shù),就可以使用估計(jì)的密度函數(shù) f來檢測(cè)離群點(diǎn)。對(duì)于對(duì)象 o,f(o)給出該對(duì)象被隨機(jī)過程產(chǎn)生的估計(jì)概率。如果f(o)大,則該對(duì)象可能是正常的;否則,o可能是離群點(diǎn)。這一步通常與參數(shù)方法的對(duì)應(yīng)步驟類似。

        4 總結(jié)

        離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法由數(shù)據(jù)學(xué)習(xí)模型,以區(qū)別正常的數(shù)據(jù)對(duì)象和離群點(diǎn)。使用統(tǒng)計(jì)學(xué)方法的一個(gè)優(yōu)點(diǎn)是,離群點(diǎn)檢測(cè)可以是統(tǒng)計(jì)上無可非議的。當(dāng)然,僅當(dāng)對(duì)數(shù)據(jù)所做的統(tǒng)計(jì)假定滿足實(shí)際約束時(shí)才為真。通常,非參數(shù)方法對(duì)數(shù)據(jù)做較少的假定,因而在更多情況下都可以使用。

        [1]Jiawei Han,Micheline Kamber等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2012

        [2]潘章明,陳尹立. 基于共享反K近鄰的局部離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)仿真.2013(2)269-271

        [3]劉耀宗,張宏等. 基于小波密度估計(jì)的數(shù)據(jù)流離群點(diǎn)檢測(cè)[J]. 計(jì)算機(jī)工程.2013(2)178-179

        [4]古平,劉海波等. 一種基于多重聚類的離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用研究.2013(3)751-753

        [5]趙潔. 統(tǒng)計(jì)模型中幾種異常點(diǎn)檢測(cè)方法簡(jiǎn)介[J].吉林教育. 2013(14)10-12

        [6]李龍姣,程國(guó)達(dá). 基于直方圖和 FP增長(zhǎng)的高維空間離群點(diǎn)挖掘[J].計(jì)算機(jī)與現(xiàn)代化.2013(1)47-49

        [7]王玉琳,薛安榮. 基于橢球模型的無線傳感器網(wǎng)絡(luò)的局部離群點(diǎn)檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究.2013(2)547-549

        猜你喜歡
        離群事務(wù)直方圖
        統(tǒng)計(jì)頻率分布直方圖的備考全攻略
        “事物”與“事務(wù)”
        基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
        河湖事務(wù)
        用直方圖控制畫面影調(diào)
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
        離群的小雞
        應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
        国产91成人精品高潮综合久久| 欧美视频久久久| 99国产精品无码专区| 国产精品老女人亚洲av无| 久久中文字幕人妻淑女| 色偷偷偷久久伊人大杳蕉| 国产av影片麻豆精品传媒| 亚洲国产日韩精品综合| 白白色发布会在线观看免费| 国产成人无码精品久久二区三区| 亚洲 都市 校园 激情 另类| 日本视频精品一区二区| 日本二区在线视频观看| 日韩人妻一区二区三区蜜桃视频| 国产精品黄网站免费观看| 中文字幕成人乱码亚洲| 亚洲高清三区二区一区| 国产无遮挡又黄又爽免费网站| 亚洲AV永久无码制服河南实里| 日本一区二区三区专区| 亚洲精品视频中文字幕| 超清精品丝袜国产自在线拍| 日韩AV无码一区二区三| 全程国语对白资源在线观看 | 亚洲va中文字幕欧美不卡| 中文字幕一区二区三区四区| 国产精品久久久久乳精品爆| 国产精品开放小视频| 日本a一区二区三区在线| 久久熟妇少妇亚洲精品| 免费无码又爽又刺激聊天app| 全免费a级毛片免费看| 亚洲一区二区三区色偷偷| 狠狠的干性视频| 亚洲欧美日韩高清专区一区| 亚洲黄色一插一抽动态图在线看 | 操国产丝袜露脸在线播放| 欧美乱大交xxxxx潮喷| 亚洲产国偷v产偷v自拍色戒| 少妇激情一区二区三区久久大香香| 人人妻人人澡人人爽精品日本|