亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談可視化數(shù)據(jù)挖掘方法與技術(shù)

        2014-04-29 00:00:00米娜瓦爾?努拉合買提

        摘 要:數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,能幫助用戶更換的挖掘數(shù)據(jù)庫(kù)中隱藏的豐富知識(shí),而受挖掘技術(shù)復(fù)雜性影響,一些用戶很難挖掘完整的數(shù)據(jù),對(duì)數(shù)據(jù)的理解和掌握也比較吃力。采用圖形和圖像的形式,能幫助用戶理解和掌握數(shù)據(jù)挖掘的結(jié)果,可視化數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。

        關(guān)鍵詞:可視化數(shù)據(jù)挖掘技術(shù);可視化技術(shù);數(shù)據(jù)挖掘;方法

        中圖分類號(hào):TP311.13

        在數(shù)字信息時(shí)代下,網(wǎng)絡(luò)信息技術(shù)和現(xiàn)代化的電子通信設(shè)備使得數(shù)據(jù)量逐步增長(zhǎng),數(shù)據(jù)結(jié)構(gòu)不斷復(fù)雜化,需要科學(xué)的技術(shù)展示這些數(shù)據(jù)。可視化數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)可視化的結(jié)合,能利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)挖掘源的數(shù)據(jù)、數(shù)據(jù)挖掘過(guò)程和數(shù)據(jù)挖掘的結(jié)果直觀的表現(xiàn)出來(lái),并進(jìn)行交互處理。設(shè)計(jì)科學(xué)的可視化數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)源的可視化、數(shù)據(jù)挖掘過(guò)程和數(shù)據(jù)挖掘結(jié)果的可視化入手。

        1 數(shù)據(jù)挖掘過(guò)程中的可視化技術(shù)

        1.1 數(shù)據(jù)源的可視化技術(shù)

        數(shù)據(jù)源的可視化應(yīng)該在數(shù)據(jù)挖掘過(guò)程算法之前進(jìn)行,主要作用是展示數(shù)據(jù)源是如何分布的[1]。如可以用三維立方體或者曲線來(lái)表現(xiàn)其中數(shù)據(jù)分布的情況,用可視化技術(shù)來(lái)描述數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)和數(shù)據(jù)庫(kù)中不同的抽象級(jí)別和粒度。

        1.2 數(shù)據(jù)挖掘預(yù)處理階段的可視化技術(shù)

        預(yù)處理階段是數(shù)據(jù)挖掘工作的一個(gè)重要階段,對(duì)選定的數(shù)據(jù)集進(jìn)行抽取、集成、清洗、轉(zhuǎn)換和規(guī)約。在整個(gè)數(shù)據(jù)預(yù)處理階段,用戶需要先了解所需要處理數(shù)據(jù)格式、數(shù)據(jù)列的屬性、數(shù)據(jù)分布的信息等,結(jié)合數(shù)據(jù)挖掘的目標(biāo)對(duì)可能對(duì)使用的數(shù)據(jù)挖掘算法精準(zhǔn)度有影響的數(shù)據(jù)進(jìn)行估算,并進(jìn)行一定的處理。值得注意的是,在數(shù)據(jù)的預(yù)處理過(guò)程中會(huì)涉及大量復(fù)雜的數(shù)據(jù)操作,這就需要可視化技術(shù)進(jìn)行處理,總的來(lái)看,在數(shù)據(jù)預(yù)處理階段的可視化技術(shù)設(shè)計(jì)可以采用結(jié)合傳統(tǒng)的可視化圖表形式和界面菜單操作的形式進(jìn)行,具體設(shè)計(jì)如下。

        (1)數(shù)據(jù)的選擇。數(shù)據(jù)的選擇對(duì)象主要是文本文件形式的數(shù)據(jù)和關(guān)系數(shù)據(jù)庫(kù)文件形式的數(shù)據(jù),數(shù)據(jù)選擇的過(guò)程是根據(jù)數(shù)據(jù)質(zhì)量的要求和數(shù)據(jù)挖掘的目標(biāo),連接并訪問數(shù)據(jù)源,進(jìn)而選擇出合適的數(shù)據(jù),主要方式為選擇數(shù)據(jù)表、選擇屬性、記錄選擇。在數(shù)據(jù)選擇的過(guò)程中,用戶可以通過(guò)界面連接自己需要的關(guān)系型數(shù)據(jù)庫(kù),也可以直接從文本文件導(dǎo)入數(shù)據(jù)。而對(duì)那些已經(jīng)選定完畢的數(shù)據(jù)集,用戶可以采取制定數(shù)據(jù)列、樣本采集等方式選擇數(shù)據(jù);(2)數(shù)據(jù)集成。數(shù)據(jù)集成是在選擇好的數(shù)據(jù)源和數(shù)據(jù)庫(kù)中將數(shù)據(jù)搜集并整合到統(tǒng)一的存儲(chǔ)中,在數(shù)據(jù)集成的過(guò)程中,會(huì)出現(xiàn)一些冗余數(shù)據(jù)。為了幫助用戶清楚的識(shí)別冗余數(shù)據(jù),要將數(shù)據(jù)表中冗余數(shù)據(jù)的記錄進(jìn)行高亮顯示[2];(3)數(shù)據(jù)清洗。數(shù)據(jù)清洗主要是針對(duì)在數(shù)據(jù)預(yù)處理過(guò)程中出現(xiàn)的識(shí)別或刪除孤立點(diǎn)、空缺值和數(shù)據(jù)不一致等問題。通過(guò)對(duì)各個(gè)列值的數(shù)據(jù)屬性條形圖顯示,用戶能有效查看各個(gè)列值的分布情況和屬性,進(jìn)而針對(duì)不同的數(shù)據(jù)類型,給予相應(yīng)的處理操作。通過(guò)可編輯數(shù)據(jù)的表格方式來(lái)幫助用戶觀察和分析數(shù)據(jù)集中的連續(xù)字段,進(jìn)一步查找出空缺值,然后再通過(guò)界面提供的人工填寫空缺值處理和補(bǔ)全空缺值;(4)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)的轉(zhuǎn)換包含對(duì)數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)拼接的轉(zhuǎn)換、數(shù)據(jù)匯總計(jì)算的轉(zhuǎn)換和數(shù)據(jù)類型的轉(zhuǎn)換;(5)數(shù)據(jù)規(guī)約。數(shù)據(jù)規(guī)約是在數(shù)據(jù)挖掘結(jié)果有所保障的基礎(chǔ)上,通過(guò)采用壓縮數(shù)據(jù)集的方法來(lái)提高數(shù)據(jù)挖掘過(guò)程的速度。在數(shù)據(jù)規(guī)約過(guò)程中,可以采用的技術(shù)有數(shù)據(jù)壓縮、數(shù)值規(guī)約、維規(guī)約、數(shù)據(jù)立方體聚集、概念和離散會(huì)分層等[3]。數(shù)據(jù)規(guī)約的可視化是通過(guò)采用層次樹和直方圖的形式進(jìn)行的。

        1.3 數(shù)據(jù)挖掘算法的可視化技術(shù)

        數(shù)據(jù)挖掘過(guò)程中的交互式可視化是用可視化的形式來(lái)描述挖掘的過(guò)程,在整個(gè)挖掘過(guò)程中,設(shè)計(jì)合適的數(shù)據(jù)挖掘算法是極為關(guān)鍵的步驟,也是數(shù)據(jù)挖掘的難點(diǎn)。算法可視化是利用計(jì)算機(jī)圖形學(xué)的方法,將算法程序執(zhí)行和數(shù)據(jù)演變中動(dòng)動(dòng)態(tài)圖形的方式表示出來(lái)。當(dāng)前算法可視化主要應(yīng)用于教學(xué)演示、算法的分析與設(shè)計(jì)、科研、計(jì)算集合、程序調(diào)試等領(lǐng)域中,主要包括了三個(gè)功能部件,見圖1。

        1.3.1 算法初始化及相關(guān)參數(shù)設(shè)定部件。數(shù)據(jù)挖掘算法的初始條件包括了使用參數(shù)的默認(rèn)值、經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)集等,在這個(gè)過(guò)程,用戶可以根據(jù)界面設(shè)定的數(shù)據(jù)集來(lái)挖掘,其中參數(shù)值的變化也會(huì)影響挖掘結(jié)果的變化。為了保障挖掘結(jié)果的精準(zhǔn)度,用戶可以通過(guò)多次實(shí)踐來(lái)挖掘出科考的參數(shù)值和數(shù)據(jù)。

        1.3.2 中間結(jié)果的顯示部件。不同的數(shù)據(jù)挖掘算法,要有相應(yīng)的數(shù)據(jù)類型來(lái)存儲(chǔ)數(shù)據(jù)挖掘算法中的中間結(jié)果,然后利用一個(gè)通用的數(shù)據(jù)接口提供給計(jì)算機(jī)界面做可視化處理。整個(gè)過(guò)程是動(dòng)態(tài)的,把數(shù)據(jù)挖掘算法生產(chǎn)的步驟在計(jì)算機(jī)界面上呈現(xiàn)出不同的描述。

        1.3.3 算法與界面的映射層。不同的數(shù)據(jù)挖掘算法舌部不同的數(shù)據(jù)類型,該步驟的數(shù)據(jù)算法設(shè)計(jì)時(shí)要利用數(shù)據(jù)挖掘擴(kuò)展語(yǔ)言DMX來(lái)完成不同數(shù)據(jù)挖掘算法,不同數(shù)據(jù)挖掘算法能夠提供不同類型的參數(shù)選項(xiàng),以插件的形式讓DMX調(diào)用。

        2 數(shù)據(jù)挖掘結(jié)果模型的可視化技術(shù)分析

        本文采用的是通用預(yù)測(cè)建模標(biāo)準(zhǔn)語(yǔ)言PMML4.0來(lái)表示各種數(shù)據(jù)挖掘結(jié)果模型,見圖2。

        此數(shù)據(jù)挖掘結(jié)果模型的可視化結(jié)果主要是為了幫助用戶能更好的理解所挖掘出來(lái)的數(shù)據(jù)結(jié)果,并且需要進(jìn)行有效的評(píng)估和反饋。數(shù)據(jù)挖掘的結(jié)果模型各有各的特色,也較為繁雜,不同的數(shù)據(jù)挖掘模型,要通過(guò)不同的可視化方法來(lái)展示出來(lái)。(1)可視化圖庫(kù)表。因不同的數(shù)據(jù)挖掘結(jié)果模型需要不同要求和標(biāo)準(zhǔn)的可視化圖形,需要提供不同的可視化圖表庫(kù)接口,以PMML標(biāo)準(zhǔn)格式儲(chǔ)存的數(shù)據(jù)挖掘結(jié)果模型展示可視化圖形;(2)圖像的縮放部件。數(shù)據(jù)挖掘結(jié)果模型進(jìn)行可視化之后,可能會(huì)因?yàn)閮?nèi)容過(guò)多,無(wú)法在界面上顯示,這就需要設(shè)計(jì)科學(xué)的圖像縮放部件,圖像的縮放功能是可視化技術(shù)的一個(gè)重要功能。用戶能通過(guò)對(duì)數(shù)據(jù)挖掘結(jié)果模型的圖形進(jìn)行縮放,切合整體視圖與細(xì)節(jié)視圖;(3)多視圖顯示部件。同一個(gè)數(shù)據(jù)挖掘結(jié)果模型,能提供包括統(tǒng)計(jì)信息視圖、可視化圖表視圖等在內(nèi)的多個(gè)視圖。而不同的視圖可以采用不斷的選項(xiàng)卡進(jìn)行展示,以便用戶能通過(guò)單擊不同選項(xiàng)卡來(lái)觀察不同的視圖;(4)過(guò)濾部件。數(shù)據(jù)挖掘結(jié)果模型的信息量大,用戶為了能快速找出所感興趣的知識(shí)點(diǎn),可以設(shè)計(jì)過(guò)濾部件,將設(shè)計(jì)好的過(guò)濾部件與之相符的信息從可視化圖表中隱藏。數(shù)據(jù)挖掘結(jié)果模型的過(guò)濾部件只能在界面上隱藏當(dāng)前可視化圖表中符合過(guò)濾條件的顯示部分,而不能改變模型的具體內(nèi)容。

        3 結(jié)束語(yǔ)

        總之,可視化挖掘是一種新型的大數(shù)據(jù)集挖掘方法,在數(shù)據(jù)和信息量不斷增加和復(fù)雜化的背景下,用戶對(duì)所挖掘出來(lái)的數(shù)據(jù)結(jié)果更難以捉摸。而將挖掘出來(lái)的數(shù)據(jù)結(jié)果在數(shù)據(jù)挖掘的過(guò)程和數(shù)據(jù)結(jié)果模型的展示上,利用可視化的圖形、圖像和圖表等直觀的方式表現(xiàn)出來(lái),就能有效提高用戶對(duì)數(shù)據(jù)挖掘結(jié)果的理解和利用。

        參考文獻(xiàn):

        [1]陳霞,陳桂芬.基于可視化的時(shí)空數(shù)據(jù)挖掘研究與應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2012(17):11-12.

        [2]路燕梅.基于平行坐標(biāo)的可視化多維數(shù)據(jù)挖掘的研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2011(25):04-05.

        [3]張敏輝,賴麟.可視化數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用,2012(11):19-20.

        作者簡(jiǎn)介:米娜瓦爾·努拉合買提(1970-),女,新疆烏魯木齊人,副教授,本科,研究方向:面向?qū)ο蟪绦蛟O(shè)計(jì)、數(shù)據(jù)挖掘可視化。

        作者單位:新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,烏魯木齊 830052

        搡老女人老妇女老熟妇69| 国产精品人人做人人爽人人添| 99热这里只有精品久久6| 精品国产一区二区三区亚洲人| 国产精品狼人久久久影院| 国产亚洲av夜间福利在线观看| 国产精品自拍视频在线| 北条麻妃在线中文字幕| 51国产偷自视频区视频| 国产精品亚洲αv天堂无码| 女人让男人桶爽30分钟| 亚洲精品字幕| 午夜一区欧美二区高清三区| a亚洲va欧美va国产综合| 国产一区二区三区韩国| 中文字幕一区二区三区喷水| 国产一区二区三区色哟哟| 亚洲精品久久久久久久蜜桃| 女厕厕露p撒尿八个少妇| 中文天堂在线www| 亚洲中文av一区二区三区| 国产一区二区三区av免费观看| 亚洲熟女av在线观看| 国产精品久久精品第一页| 永久免费观看国产裸体美女| 91精品国产91久久久久久青草 | 双腿张开被9个男人调教| 无码精品一区二区免费AV| 蜜桃视频中文字幕一区二区三区 | 亚洲黄色电影| 香蕉视频免费在线| 九月色婷婷免费| 精品国产色哟av一区二区三区| 日本孕妇潮喷高潮视频| 国产av无码专区亚洲awww| 91热久久免费精品99| 色佬易精品视频免费在线观看| 婷婷开心五月亚洲综合| 97久久国产亚洲精品超碰热| 麻豆一区二区99久久久久| 国产成人福利在线视频不卡|