亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于色差法的高維數(shù)據(jù)展示方法初探

        2011-11-01 08:49:10吳翌琳林寅陳昊
        統(tǒng)計與決策 2011年7期
        關鍵詞:可視化水平方法

        吳翌琳,林寅,陳昊

        (中國人民大學統(tǒng)計學院,北京100872)

        基于色差法的高維數(shù)據(jù)展示方法初探

        吳翌琳,林寅,陳昊

        (中國人民大學統(tǒng)計學院,北京100872)

        隨著計算機技術的普及,我們面向的數(shù)據(jù)越來越趨于高維化,而從理論上說直觀描述高維數(shù)據(jù)是一件比較困難的事情。文章通過對幾種高維數(shù)據(jù)展示方法的總結和創(chuàng)新,成功構造了一種全新的描述高維數(shù)據(jù)的方法即色差法(MCD)。

        高維數(shù)據(jù);色差;色階;RGB

        0 引言

        隨著計算機技術的高速發(fā)展及其在統(tǒng)計應用領域的普及,目前統(tǒng)計學者面對的數(shù)據(jù),無論是經(jīng)濟領域、商業(yè)管理領域、工程領域,還是教育心理領域等,都是高維度的數(shù)據(jù)矩陣。對這些數(shù)據(jù)的分析,入手點落在對高維度數(shù)據(jù)的一個直觀描述上面。

        多維數(shù)據(jù)比二維和三維數(shù)據(jù)在展示上存在著諸多困難。傳統(tǒng)的笛卡爾坐標系在展示二維三維數(shù)據(jù)上存在著優(yōu)勢,但是在三維以上就無能為力。然而目前幾乎所有科學、工程和商業(yè)領域的數(shù)據(jù)都是高維的,即數(shù)據(jù)集通常都包含多于三維的變量。高維數(shù)據(jù)的產(chǎn)生,迫切需要開發(fā)處理這些數(shù)據(jù)的工具和方法。可視化是高維數(shù)據(jù)分析的重要且必不可少的工具,它可以觀測到數(shù)據(jù)的復雜結構和模式。許多數(shù)據(jù)處理方法實質上是基于可視化的,如散點圖和直方圖,但多數(shù)可視化方法只能同時表示兩個變量,這些傳統(tǒng)方法的弱點也給其他學科的研究帶來了諸多的不便。

        我們以一個經(jīng)濟學上的例子來闡述高維數(shù)據(jù)可視化的意義。我們知道一個地區(qū)的經(jīng)濟發(fā)展的快慢會由很多的諸如GDP、失業(yè)率等指標來反應。如果我們僅選取一個或者兩個因素,尚可通過散點圖、直方圖等來比較經(jīng)濟的發(fā)展水平。但是如果選擇了3個指標或者更多的指標,就很難畫出高維的散點圖來比較了,所以這個時候就不得不使用一些高維數(shù)據(jù)的可視化方法來幫助比較。

        因此,本文旨在對已有的高維數(shù)據(jù)直接描述方法進行比較分析,同時提出利用計算機色階和色差來展示高維數(shù)據(jù)的方法,以期為高維數(shù)據(jù)的模型研究提供前期較為直觀的數(shù)據(jù)展示。

        1 色差法的基本概念及操作原理

        1.1 色差法基本原理

        色差法的基本原理為:每個樣本按照維度分段,然后在每段色帶上根據(jù)樣本的數(shù)值分布來體現(xiàn)為不同的顏色。從而,一個樣本就是一個橫向的色帶,所有的樣本組成一個色板。

        色差法可以根據(jù)需要進行分段長度以及樣本寬度的調(diào)整,考慮到人眼對顏色的識別效應我們建議最小的可識別色塊面積應該大于10×10像素。由于形狀對于色差法沒有數(shù)據(jù)上的意義,所以我們建議使用色差法的研究學者可以采取放大的方法來觀察局部差異,也采取縮小的方法來觀察整體差異。這就是色差法優(yōu)于臉譜法和安德魯曲線方法之處。

        1.2 色階

        從理論上說,色階是顏色亮度的指數(shù)指標,從白到黑一種是256種亮度。目前表示顏色有著多種方法,像最常見的RGB示色法,HSL示色法以及CMYK四色印刷表示法等。一方面為了讓色階的變化能夠保存連續(xù)性,另一方面根據(jù)理論研究表示在黑白兩色的相近色方面人類肉眼的判讀力比在尋常色譜圖上的判讀力小。此外,為了避開色階的循環(huán)性,我們采取RGB的標示法,以紫色表示數(shù)據(jù)中的最大值,紅色表示數(shù)據(jù)中的最小值,結合人們對顏色以及熱度的差別,從暖色開始到冷色就是極小值到極大值的過程。

        由于顏色的表示方法取決于各種不同的系統(tǒng)環(huán)境(包括數(shù)值范圍),我們采用的是被廣泛使用的RGB坐標表示方法,每一種原色的強度依照8比特的最高值分為256個值。實際上我們采用RGB方法忽略了部分的顏色。正常來講RGB方法能夠表示1670萬種顏色,不過人眼只能識別其中100萬種。而本文的色差法選擇的顏色范圍基本滿足HSL方法中的色相變化規(guī)律,不過由于HSL編碼在不同的設備上可能會對飽和度等的定義存在差異,類似的方法還有HSV顏色編碼方法,而實際上本文采用色差法的RGB色階就是HSL定義的純色階(不包含白色以及黑色以及灰色等與飽和度亮度有關的數(shù)值),這是肉眼能夠清晰辨別級別的基礎。所以說色差法并不僅僅是把數(shù)值映射到顏色板上,還考慮了人眼的識別效率,從而能夠更好展示數(shù)據(jù)特點,達到滿足高維數(shù)據(jù)展示的要求。

        從RGB表示方法來看,紫色是R:255,G:0,B:255,然后從R開始遞減,最后的紅色是R255G0B0。根據(jù)色譜的分界點我們做出了如表1的表格。

        從色階變化來看,我們發(fā)現(xiàn)盡管RGB是連續(xù)的一個色階,但是RGB的變化并不是一味增長,但是為了數(shù)據(jù)表示的方便我們還必須進行單一的連續(xù)化,所以我們定義了如表2的轉化關系。

        2 色差法的應用

        根據(jù)研究對象和目的的不同,色差法有兩種使用方式,精細使用以及粗糙使用,雖然使用的方式不同,但是其原理都是相同的。

        2.1 精細使用

        精細使用就是先確定某個具體維度的最大值和最小值,然后轉化為0到1275的一個位置參數(shù),總共1276個位置,最小值賦值1,最大值賦值1275,允許中間有空值。精細使用的方法中顏色對應的是數(shù)據(jù)的水平。以此類推,每一組數(shù)據(jù)都按照此法來進行轉化,從數(shù)據(jù)變?yōu)閷念伾?,畫成一個色帶。那么N組數(shù)據(jù)就對應有N條色帶,組成一個色板。該使用方法適用于數(shù)據(jù)跨度比較大的定距變量。

        2.2 粗糙使用

        粗糙使用則是把單維度的所有數(shù)據(jù)排序,然后再根據(jù)位置映射到0至1275之間,粗糙使用的方法中顏色對應的是數(shù)據(jù)的相對位置。其他的均與精細使用相同。這種使用方法主要關心的是數(shù)據(jù)的秩,適用于排名數(shù)據(jù)或者一些非參數(shù)模型的數(shù)據(jù)展示。

        2.3 兩種使用方法的差異

        (1)當數(shù)據(jù)比較“稀疏”的時候,采用精細方法對于數(shù)據(jù)的水平很敏感,如果有差異能夠很快看出來;當數(shù)據(jù)比較“密集”的時候,采用粗糙的方法對于數(shù)據(jù)的相對位置很敏感,如果有差異能夠很快看出來。

        (2)粗糙使用對于樣本量比較小的數(shù)據(jù),由于采用相對位置,能夠擴大顏色的跨度,從而相對來說差異會顯得更“明顯”,尤其是對于相鄰的數(shù)據(jù),這時候可能會對數(shù)據(jù)的差異程度產(chǎn)生誤判(從顏色角度看)。

        (3)精細和粗糙僅僅是針對數(shù)據(jù)度量的兩個尺度,即實際水平和相對水平來談的,跟最后的結果并無直接關系。

        3 色差法實證分析

        為了能更加清楚地闡述色差法的作用,我們使用的數(shù)據(jù)是一個隨機模擬的6維數(shù)據(jù),樣本數(shù)為12。數(shù)據(jù)表1。我們用臉譜法、平行坐標軸法、安德魯斯曲線法、色差法這四種方法分別描述此高維數(shù)據(jù)如表3。

        表1 數(shù)據(jù)分位點與顏色表示

        表2 數(shù)值與顏色轉化表

        表3 模擬生成的數(shù)據(jù)

        3.1 臉譜圖、平行坐標軸法、安德魯斯曲線法展示

        臉譜圖、平行坐標軸法、安德魯斯曲線法分別見圖1、2、3。對比這三種方法,我們不難發(fā)現(xiàn)每一種方法都各有其優(yōu)點,比如臉譜圖發(fā)容易發(fā)現(xiàn)異常樣本點,平行坐標法直觀展示同一樣本在不同維度上的變化,安德魯斯曲線法利用巧妙的降維體現(xiàn)樣本之間的近似程度??傮w而言,雖然以上每一種的方法都能有效的描述出高維數(shù)據(jù),但是通過圖形是難以對于數(shù)據(jù)的分布有個大體的判斷。而我們所提出的色差法則可以通過顏色的不同,對于總體數(shù)據(jù)的分布有個初步的認識。

        3.2 色差法(MCD)

        3.2.1 相對水平

        首先對數(shù)據(jù)使用色差法進行相對水平的展示。根據(jù)每個維度數(shù)據(jù)特征,按照自身維度內(nèi)部的大小,進行0~1標準化,這樣表示出來的分布特征是每個維度內(nèi)部的特征。其圖像特點是每一列都會有最小值(紅色)和最大值(紫色)。這樣,單列抽出來分析的時候,能夠看清楚每個維度分布。相對水平的主要缺點就是不同列之間不能夠直接的比較。

        為了以防讀者遺忘,我們把色帶的顏色所包含的意義再次闡述一下。依照下圖:隨著顏色由紅色向紫色過渡,數(shù)據(jù)從大到小過渡,紅色代表最小的數(shù),紫色代表最大的數(shù)。則相對水平色板如圖4。

        相對水平色板展示的是樣本在不同維度下的相對位置,為樣本整體水平的相對位置和均衡度給出相應的判斷,比如這個色板展示的結果看來,樣本1在第4、5、6個維度上顯示出較弱水平,而前面第1、2、3維度也沒有表示較高位置的冷色系出現(xiàn),因此可以斷定樣本1在這12個樣本的比較中相對水平較低。而再看看樣本3,其六個維度的數(shù)據(jù)分布在兩端,可見該樣本的均衡度較差,數(shù)據(jù)較為極端化。總體而言,相對水平色板類似于平行坐標法,但比之更為直觀易懂。

        從應用角度看來,相對水平的色板適用于展示經(jīng)濟方面競爭力評價或者指標體系評價的高維數(shù)據(jù),以顏色漸變直觀看出比較對象間的競爭關系,水平差異以及發(fā)展結構,為進一步指標選取和模型構建打下基礎。

        3.2.2 絕對水平

        另一種常用的色板是絕對水平的色板,其構建方法如下:首先按照每個維度計算出標準差,然后數(shù)據(jù)除以標準差以便去除量綱,不需要進行中心化。從而所有的數(shù)據(jù)現(xiàn)在呈現(xiàn)于同一個“度量范圍”。然后進行0~1化后再映射到0~1276。其圖像特點是整個色板只有一個最小值(紅色)和最大值(紫色),其應用特點是全部數(shù)據(jù)可比,可以看出每一列的最值與其他值的區(qū)別(看出偏離程度),此外還可以看出不同的列之間數(shù)據(jù)水平的差異。絕對水平的缺點主要是削弱了每一列內(nèi)部的分布色彩差異,數(shù)據(jù)量擴大導致了相鄰的數(shù)據(jù)色階差異程度縮小。絕對水平色板如圖5。

        我們可以看出來,這12樣本6維度的數(shù)據(jù)中,最大值為第2行第2列的數(shù),最小值為第2行第6列的數(shù),整個色板淺藍和綠色為主,說明中間的數(shù)據(jù)較多,數(shù)據(jù)分布相對均衡。絕對水平色板適用于進行維度方向的比較,比如從第一維度和第二維度的比較看來,第二維度的水平要顯著的高于第一維度,如果維度表示的是時間序列,則通過色板可以看出第二年比第一年有顯著的增長。

        從應用角度看來,絕對水平色板適應于對樣本在不同維度上的變化趨勢做分析,因此,尤其適用于時間序列數(shù)據(jù),每個維度即為一個時間點,從上圖可以顯著看出,假設這批數(shù)據(jù)為時間序列數(shù)據(jù)的話,第2期是一個峰值,第4和第6期分別為兩個低谷,可以看出樣本數(shù)據(jù)的波動性。同時,該色板也適用于分析同一口徑的高維數(shù)據(jù),比如說心里研究的量表或者問卷調(diào)查的分類數(shù)據(jù)等,看出不同指標間的水平差異。

        4 色差法的缺陷

        雖然色差法克服了多個維度之間的展示問題,但是本身卻有著一個嚴峻的缺陷,那就是因素水平。每一個維度,色差法最多能夠提供的水平位置數(shù)目是1275,再多的水平已經(jīng)超過了人眼的識別范圍。而且,如果考慮人眼的識別效率,當一組數(shù)據(jù)的個數(shù)大于500個的時候,人眼可能很難分辨出顏色的細微差異。這一點可能是制約色差法推廣使用的最大弱點。因為我們知道,多元統(tǒng)計分析常常要與超高維數(shù)據(jù),超大量數(shù)據(jù)打交道,僅僅500個可識別水平可能很難滿足研究學者的需要。

        不過,由于現(xiàn)在精密儀器的推廣與使用,我們可以借助儀器的判斷來辨別出實際顏色的差異,因而在實際的使用中,我們可以處理的水平數(shù)是可以達到色差法理論允許的最大值的,即1275個水平。這個承受水平對于一般的研究來說應該是可以滿足的。

        5 結論

        面對規(guī)模宏大,結構復雜的數(shù)據(jù)海洋,如何能夠在不損失數(shù)據(jù)信息的前提下刻畫數(shù)據(jù)系統(tǒng)特征的變化,是統(tǒng)計學者面臨的一個重要課題。高維數(shù)據(jù)的可視化表示具有形象直觀的特點,易于學者發(fā)現(xiàn)隱含于高維數(shù)據(jù)中的模式。

        該方法可以廣泛應用于經(jīng)濟數(shù)據(jù)、教育心理數(shù)據(jù)、商業(yè)行為數(shù)據(jù)等不同研究主題的分析,也適用于展示時間維度、區(qū)域維度、多指標維度的數(shù)據(jù)信息,能夠更好地協(xié)助系統(tǒng)分析人員的思維和判斷,及時發(fā)現(xiàn)大規(guī)模數(shù)據(jù)中隱含的普遍規(guī)律與特殊現(xiàn)象,提高數(shù)據(jù)分析的效率。

        本文提出了基于色差法來展示高維數(shù)據(jù)的方法,并且給出了色差法的理論基礎,應用背景以及使用說明,最后還給了一個基于其他三種成熟方法和色差法的實證分析。通過小規(guī)模的實證分析,我們可以清楚地看出色差法的使用價值,進一步開發(fā)可以使之成為高維數(shù)據(jù)可視化的一個新方法。

        [1](美)斯滕伯格(Sternberg,R.J.).認知心理學[M].北京:中國輕工業(yè)出版社,2006.

        [2]賈俊平.統(tǒng)計學(第二版)[M].北京:清華大學出版社,2007.

        [3]約翰遜(Johnson,R.A.).威克恩(Wichern,D.W.).實用多元統(tǒng)計分析(第6版)[M].北京:清華大學出版社,2008.

        [4]余肖生.高維數(shù)據(jù)可視化方法研究[J].情報科學,2007,(1).

        [5]彭紅毅.一種改進的高維數(shù)據(jù)可視化模型[J].計算機科學,2007,(4).

        [6]王家亮.基于局部適應性的高動態(tài)范圍圖像顯示方法[J].計算機應用,2007,(4).

        [7]王德青.高維數(shù)據(jù)可視化在統(tǒng)計分析中的作用[J].數(shù)據(jù),2009,(7).

        [8]孟輝.基于徑向坐標可視化的高維數(shù)據(jù)分析方法[J].軟件技術與數(shù)據(jù)庫,2010,(1).

        [9]Richard A,Johnson,Dean W,Wichern.Applied Multivariate Statistical Analysis(5thEdition)[M].Oxford:Oxford Press,2005.

        [10]Wolfgang Hardle,Leopold Simar.Applied Multivariate Statistical Analysis(2ndEdition)[M].New York:Springer,2007.

        F064.1

        A

        1002-6487(2011)07-0035-03

        吳翌琳(1983-),女,廣東潮州人,博士研究生,研究方向:經(jīng)濟統(tǒng)計分析。

        (責任編輯/亦民)

        猜你喜歡
        可視化水平方法
        基于CiteSpace的足三里穴研究可視化分析
        張水平作品
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        加強上下聯(lián)動 提升人大履職水平
        人大建設(2019年12期)2019-05-21 02:55:32
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        AV教师一区高清| 国产精品 无码专区| 亚洲色成人www永久在线观看| 女人大荫蒂毛茸茸视频| 国产成年无码久久久免费 | 久久理论片午夜琪琪电影网| 在线观看午夜亚洲一区| 亚洲国产精品午夜电影| 美利坚亚洲天堂日韩精品| 亚洲码欧美码一区二区三区| 午夜无码国产理论在线| 国产成人国产在线观看| 国产精品一区一区三区| 国产情侣一区二区三区| 亚洲精品久久中文字幕| 熟女人妻丰满熟妇啪啪| 午夜桃色视频在线观看| 日日躁夜夜躁狠狠躁| 国产麻无矿码直接观看| 亚洲国产成人久久综合三区| 少妇太爽了在线观看免费| 狠狠色噜噜狠狠狠777米奇小说| 精品日韩国产欧美在线观看| 国产在线观看不卡网址| 一区二区视频在线观看地址| 人妻丝袜av中文系列先锋影音| 欧美国产亚洲精品成人a v | 日本一区二区三区光视频| 蜜臀色欲av在线播放国产日韩 | 中文人妻av大区中文不卡| 经典三级免费看片天堂| 免费a级作爱片免费观看美国| 亚洲AV秘 片一区二区三| 伊人久久亚洲综合av影院| 成 人片 黄 色 大 片| 无码专区久久综合久中文字幕 | 人妻被公上司喝醉在线中文字幕| 国产成人a∨激情视频厨房| 国产亚洲日韩欧美一区二区三区| 丰满少妇高潮在线观看| 一区二区三区四区国产99|