亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Clementine軟件功能缺陷分析

        2015-08-09 02:06:54張鈺莎蔣盛益
        關(guān)鍵詞:離群特征選擇集上

        張鈺莎,蔣盛益

        (1.廣東外語外貿(mào)大學(xué) 南國商學(xué)院,廣東 廣州 510545;2.華南師范大學(xué) 計算機學(xué)院,廣東 廣州 510631;3.廣東外語外貿(mào)大學(xué) 思科信息學(xué)院,廣東 廣州 510420)

        0 引言

        Clementine是一個可視化程度高、使用簡便的數(shù)據(jù)挖掘平臺,其操作與數(shù)據(jù)分析的一般流程相吻合[1].數(shù)據(jù)分析通常經(jīng)過數(shù)據(jù)加載、數(shù)據(jù)展示和預(yù)處理、模型建立、模型評價等環(huán)節(jié).Clementine形象地將這些環(huán)節(jié)中的功能表示成若干節(jié)點,將數(shù)據(jù)分析過程看成數(shù)據(jù)在各個節(jié)點之間的流動過程,并通過一個可視化的“數(shù)據(jù)流”直觀地表示整個數(shù)據(jù)分析過程.Clementine的操作目的就是要建立一條或多條數(shù)據(jù)流,通過不斷修改和調(diào)整流中的節(jié)點及參數(shù),執(zhí)行數(shù)據(jù)流,進而完成整個數(shù)據(jù)分析任務(wù).由于Clementine操作簡單易懂,沒有編程的要求,使得管理人員、銷售人員等非技術(shù)人員都能進行數(shù)據(jù)分析,在實際領(lǐng)域中的應(yīng)用越來越廣泛.但是,在使用過程中,我們發(fā)現(xiàn)部分節(jié)點預(yù)測性能不佳,甚至存在嚴重不足,本文通過實例分析離群點檢測、特征選擇及抽樣等節(jié)點存在的缺陷.

        1 離群點檢測

        聚類、分類、關(guān)聯(lián)分析等數(shù)據(jù)挖掘方法重點在發(fā)現(xiàn)適用于大部分數(shù)據(jù)的常規(guī)模式,應(yīng)用這些方法時,離群點(Outlier)通常作為噪音而被忽略以降低或消除離群數(shù)據(jù)的影響.但在安全管理、風(fēng)險控制等應(yīng)用領(lǐng)域,識別離群數(shù)據(jù)的模式比正常數(shù)據(jù)的模式更有價值.離群點檢測被廣泛用來發(fā)現(xiàn)稀有模式,或數(shù)據(jù)集中顯著不同于其他數(shù)據(jù)的對象[2-3].通過對離群數(shù)據(jù)的分析可以迅速、準確地甄別異常事件,如電信、保險、銀行、電子商務(wù)的欺詐檢測、災(zāi)害氣象預(yù)報、商業(yè)營銷中極高或極低的客戶識別,醫(yī)學(xué)診斷研究中發(fā)現(xiàn)新的疾病對醫(yī)療方案或藥品所產(chǎn)生的異常反應(yīng),網(wǎng)絡(luò)安全中的入侵檢測、海關(guān)報關(guān)中的價格隱瞞、過程控制中的故障檢測與診斷等.

        Clementine提供了一個離群點檢測節(jié)點Anomaly,在兩步聚類的基礎(chǔ)上實現(xiàn)離群點檢測.首先應(yīng)用兩步聚類算法對數(shù)據(jù)集進行聚類,將數(shù)據(jù)集劃分為若干個簇(即對等組),然后對每個樣本,計算與其最近的簇間距離,并根據(jù)距離的大小計算其“離群指數(shù)”,來度量這個樣本到底有多么“離群”.可以通過設(shè)定離群指數(shù)的閾值,將那些大于閾值的樣本作為離群點樣本.Anomaly節(jié)點完成兩個任務(wù):一是從數(shù)據(jù)集中確定哪些是離群樣本;二是對每個離群樣本,分析是哪些屬性導(dǎo)致該樣本成為離群樣本.

        但兩步聚類算法是以k-means算法為基礎(chǔ)的,對離群數(shù)據(jù)較敏感,存在離群數(shù)據(jù)時聚類效果不太好,這導(dǎo)致Anomaly節(jié)點性能理論上存在缺陷.而一趟聚類算法[5]不易受離群數(shù)據(jù)的影響,因此基于一趟聚類算法的離群點檢測算法性能較Anomaly節(jié)點更佳[4-5].下面通過UCI[6]中幾個實例數(shù)據(jù)集加以驗證說明.

        1.1 離群點檢測在淋巴系造影術(shù)中的應(yīng)用

        淋巴系造影術(shù)(Lymphography)數(shù)據(jù)集包含148 條記錄,每條記錄由18個離散屬性來描述,所有記錄被標識為1-4 的4個類別,類1與類4總計包括6條記錄,占整個記錄數(shù)的4.05%,利用離群點檢測方法來識別這些稀有記錄.使用一趟聚類算法和Clementine的兩步聚類方法將數(shù)據(jù)集劃分為8個簇后,各個簇包含的記錄類別分布如表1所示.從表1的類別分布數(shù)據(jù)可以算出兩種聚類方法得到的聚類熵分別為0、0.051.可見,一趟聚類算法較兩步聚類方法的聚類效果要好.

        表1 劃分為8個簇后的類別分布

        使用基于一趟聚類的離群點檢測方法[4],檢測到離群指數(shù)大的前5條記錄均為稀有記錄,第10條記錄為稀有記錄.而對應(yīng)于Clementine的Anomaly節(jié)點,離群指數(shù)大的前7條記錄能檢測出5 條稀有記錄,前31 條記錄才能檢測出全部6條稀有記錄.在該數(shù)據(jù)集上,文獻[4]中方法性能明顯優(yōu)于Anomaly節(jié)點檢測方法.

        1.2 離群點檢測在癌癥診斷中的應(yīng)用

        乳腺癌數(shù)據(jù)集(Wisconsin breast cancer data set)包含483條記錄,其中惡性記錄39條,良性記錄444條,每條記錄由9個數(shù)值屬性來描述.惡性記錄占比8%,我們的目的是利用離群點檢測方法將惡性記錄從測試數(shù)據(jù)中識別出來.使用一趟聚類算法和Clementine的兩步聚類方法將數(shù)據(jù)集劃分為4個簇后,各個簇包含的記錄類別分布如表2所示.利用表2的結(jié)果可以求出兩種聚類方法得到的聚類熵分別為0.095、0.085;兩種聚類方法在該數(shù)據(jù)集上的聚類效果差異不大.

        表2 劃分為4個簇后的類別分布

        進一步,使用基于一趟聚類的離群點檢測方法[4],檢測到離群指數(shù)大的前27條記錄全部是惡性記錄,前44條記錄中包含38條惡性記錄,前59條記錄中包含全部39條惡性記錄.而Clementine的Anomaly節(jié)點檢測方法離群指數(shù)大的前51 條記錄全部是良性記錄,前100條記錄只包含8條惡性記錄,前242條記錄中才能包含全部39條惡性記錄.在該數(shù)據(jù)集上,文獻[4]中方法性能顯著優(yōu)于Anomaly節(jié)點檢測方法的性能.

        1.3 離群點檢測在網(wǎng)絡(luò)入侵檢測中的應(yīng)用

        KDDCUP99包含了約49萬條網(wǎng)絡(luò)訪問記錄,每條記錄由9個離散特征和32個數(shù)值特征來刻畫,并且包含一個標志位(正常記錄或攻擊記錄);因整個數(shù)據(jù)集太大,從中隨機抽取一個包含19 799條記錄的子集P,其中正常記錄數(shù)19 542條,攻擊記錄數(shù)257條,攻擊記錄占1.3%,可以看成離群點.使用一趟聚類算法和Clementine的兩步聚類方法將數(shù)據(jù)集P劃分為12個簇后,類別分布如表3所示.進一步可以算得,兩種聚類方法得到的聚類熵分別為0.003、0.013,一趟聚類算法的聚類結(jié)果較兩步聚類的結(jié)果好.

        表3 劃分為12個簇后的類別分布

        采用基于一趟聚類的離群點檢測方法[4]在數(shù)據(jù)集P上進行檢測,檢測結(jié)果如下:離群指數(shù)大的前58條記錄中包含1條正常記錄和57條攻擊記錄;前656條記錄中包含419條正常記錄和237條攻擊記錄.而Clementine的Anomaly節(jié)點對應(yīng)離群指數(shù)大的前985條記錄中全部是正常記錄.在該數(shù)據(jù)集上,文獻[4]中方法性能顯著優(yōu)于Anomaly節(jié)點檢測方法性能.

        2 特征選擇

        在原始數(shù)據(jù)中通常包含無關(guān)的或冗余的特征,這使得許多分類和聚類等學(xué)習(xí)算法的效果并不理想.不相關(guān)或冗余特征的增加會減慢數(shù)據(jù)挖掘進程,從而需要花費大量的時間和精力來檢查模型究竟應(yīng)該包含哪些字段或變量,也就是確定哪些特征來參與模型建立.那些和要預(yù)測的特征并沒有什么關(guān)系或者關(guān)系不大的特征就沒有必要參與建模過程,比如作為主鍵的“樣本號”字段.降低特征維度帶來的好處主要有兩點:一方面使許多數(shù)據(jù)挖掘算法效果更好、效率更高;另一方面使產(chǎn)生的模型更容易理解.特征選擇是減少維度最常用的方法,其目標是找出最小特征子集,使得數(shù)據(jù)類別的概率分布盡可能地接近使用所有特征得到的原分布[7-8].通過特征選擇,一些和任務(wù)無關(guān)或者是冗余的特征被刪除,從而提高后續(xù)數(shù)據(jù)挖掘的效率,簡化學(xué)習(xí)模型.Clementine軟件提供了一個特征選擇方法.

        從UCI數(shù)據(jù)集中選取了9個數(shù)據(jù)集進行測試,數(shù)據(jù)集的說明如表4.將Clementine中特征選擇方法與文獻[8]中的方法CBFS進行性能對比.為說明問題,對每個數(shù)據(jù)集在全部特征集合和選取的特征集合上使用Clementine軟件中的C5.0分類算法進行對比測試,以比較對應(yīng)性能的變化.

        表4 實驗數(shù)據(jù)集參數(shù)匯總

        在每個數(shù)據(jù)集上,首先進行特征選擇,得到特征選擇后的特征子集,然后在各特征選擇算法處理后的訓(xùn)練數(shù)據(jù)集上訓(xùn)練得到C5.0決策樹分類器,接著得到C5.0分類器在測試集上的分類準確率并記錄下來.如表5所示給出了在這些選取的數(shù)據(jù)集上CBFS及Clementine的特征選擇算法得到的特征子集.表6列出了C5.0在特征選擇算法處理后的分類準確率.為便于比較,表的第一列給出了分類器在原始數(shù)據(jù)集上的分類錯誤率.對數(shù)據(jù)集采用隨機選取的2/3 的數(shù)據(jù)作為訓(xùn)練集,余下的作為測試集的策略劃分數(shù)據(jù)集,同時在每個數(shù)據(jù)集上測試10次,以10次的平均指標作為評估的結(jié)果.

        表5 所選數(shù)據(jù)集在各特征選擇算法得到的特征子集

        表6 C5.0 在全部特征和選擇的特征子集上的分類準確率對比

        從實驗測試結(jié)果可見,文獻[8]中CBFS與Clementine中特征選擇方法在9個數(shù)據(jù)集上對特征規(guī)約的強度分別為57.14%和47.21%.特別地,Clementine在Breast和Iris數(shù)據(jù)集上不能識別不同特征的重要程度.在余下的7個數(shù)據(jù)集中,CBFS得到的特征子集上的分類準確率總體更好.由此可見,CBFS較Clementine的特征選擇方法無論在特征規(guī)約強度還是規(guī)約的質(zhì)量方面都要好,Clementine的特征選擇方法的性能有待改善.

        3 記錄的隨機選擇問題

        抽樣節(jié)點、分區(qū)節(jié)點、平衡節(jié)點等幾個節(jié)點涉及對記錄的隨機選擇.按照通常的理解,隨機選擇的記錄,其結(jié)果是不確定的,但隨機選擇的數(shù)據(jù)規(guī)模應(yīng)該隨用戶的指定而確定,但這些相關(guān)節(jié)點存在很多不確定性.

        抽樣節(jié)點的隨機性問題:抽取p%的記錄,其記錄數(shù)不確定.如對于pima數(shù)據(jù)集,其有768條記錄,隨機選擇50%的記錄,應(yīng)該是384條記錄,但其選取的結(jié)果子集大小不確定,可能是:374、383、387、393、398、370、368、361、402等.

        由于分區(qū)節(jié)點是將數(shù)據(jù)集隨機劃分為2個(訓(xùn)練集、測試集)或3個子集(訓(xùn)練集、測試集、檢驗集),因此也存在類似的問題,劃分子集的大小不是隨劃分比例而固定.這進一步導(dǎo)致,基于分區(qū)的建模和檢驗,其分類準確率等結(jié)果也有一些不確定性.

        平衡節(jié)點是對符合條件的記錄按一定比例隨機選取對象,因此也存在類似的問題.在平衡因子確定的情況下,得到的數(shù)據(jù)集大小也是不確定的.如對于mushroom數(shù)據(jù)集,其中類別為“p.”的有3916條記錄,類別為“e.”的有4208條記錄,將類別為“p.”的平衡因子設(shè)為0.1,得到的數(shù)據(jù)集大小應(yīng)該是4599,但實際得到的大小可能是4564、4590、4618、4609、4611.

        4 結(jié)論

        Clementine軟件因其功能強大、可視化程度高、操作簡便等特點深受用戶青睞,得到了廣泛的應(yīng)用.本文指出了其部分功能節(jié)點存在的不足,期待高的版本能改善這些問題.

        猜你喜歡
        離群特征選擇集上
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        復(fù)扇形指標集上的分布混沌
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        聯(lián)合互信息水下目標特征選擇算法
        離群的小雞
        應(yīng)用相似度測量的圖離群點檢測方法
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        一種基于核空間局部離群因子的離群點挖掘方法
        аⅴ天堂一区视频在线观看| 亚洲AV无码一区二区三区天堂网| 中文字幕日韩高清| 天堂av一区二区在线观看| 精品少妇一区二区三区四区| 国产精品女主播在线播放| 91国产自拍视频在线| 亚洲av成人波多野一区二区| 老熟女富婆激情刺激对白| 无套内谢老熟女| 婷婷中文字幕综合在线| 熟妇人妻AV中文字幕老熟妇 | 亚洲乱码少妇中文字幕| 国产偷闻女邻居av在线观看| 人妻少妇被粗大爽.9797pw| 曰本无码人妻丰满熟妇啪啪| 亚洲av永久无码一区| 天天插视频| 久久无人码人妻一区二区三区| 日本视频一区二区三区在线观看| 中国少妇×xxxx性裸交| 久久综合九色综合欧美狠狠| 欧美一级欧美一级在线播放| 国产欧美亚洲精品第二区首页| 亚洲一区亚洲二区中文字幕| 中文字幕亚洲一区二区不下| 亚洲精品一品区二品区三品区| 国产99久久亚洲综合精品| 国产精品视频一区日韩丝袜| 国产激情视频高清在线免费观看| 性色视频加勒比在线观看| 国产白嫩护士被弄高潮| 亚洲暴爽av天天爽日日碰| 亚洲先锋影院一区二区| 久久免费看视频少妇高潮| 放荡的美妇在线播放| 特级毛片a级毛片免费播放| 午夜福利不卡无码视频| 视频一区视频二区自拍偷拍 | 国产一区二区亚洲一区| 亚洲黄色天堂网站在线观看禁18|