亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代傳統(tǒng)相關(guān)分析的局限與拓展

        2015-02-18 06:29:34石洪波
        統(tǒng)計與決策 2015年5期
        關(guān)鍵詞:測量法分析方法變量

        程 鑫,石洪波

        (山西財經(jīng)大學(xué)a.統(tǒng)計學(xué)院;b.信息管理學(xué)院,山西 太原 030031)

        0 引言

        大數(shù)據(jù)時代的到來,給統(tǒng)計分析方法帶來了翻天覆地的沖擊,之前統(tǒng)計學(xué)是以樣本為基礎(chǔ)對總體進行推斷,并用假設(shè)檢驗來驗證對總體描述的正確性。當(dāng)能夠被數(shù)據(jù)化的東西越來越多,并且存儲能力無限擴大時,我們就可以獲得一個整體的數(shù)據(jù),不再需要通過樣本來進行推斷,更多的時候數(shù)據(jù)量會大到經(jīng)典的統(tǒng)計方法無法處理。雖然大數(shù)據(jù)時代我們研究的重點發(fā)生了變化,但是統(tǒng)計學(xué)的思維顯得更加重要。在數(shù)據(jù)量足夠大了之后,我們會發(fā)現(xiàn)一切社會現(xiàn)象都有一定的統(tǒng)計規(guī)律,看似沒有關(guān)系的事物之間其實也是有普遍聯(lián)系的,這其實就是相關(guān)分析的思維。

        越來越多的人認(rèn)識到,我們開始研究大數(shù)據(jù)集的一個途徑就是尋找屬性間的相關(guān)關(guān)系。我們現(xiàn)在需要運用統(tǒng)計思維來把握萬物之間可能存在的聯(lián)系,而不是像以前一樣通過樣本分析來推斷總體,追求準(zhǔn)確的預(yù)測結(jié)果。

        雖然,我們?nèi)匀恍枰揽拷y(tǒng)計學(xué)思維來發(fā)現(xiàn)總體的特征、規(guī)律并進行總結(jié)和概率推斷,也需要運用統(tǒng)計學(xué)來對大數(shù)據(jù)進行清洗,選出有用的信息,但是傳統(tǒng)統(tǒng)計方法中的局限性也日益顯現(xiàn)。當(dāng)數(shù)據(jù)量足夠大時,我們期望捕捉到大量有趣的聯(lián)系,而這些聯(lián)系不會局限于傳統(tǒng)統(tǒng)計分析中常用的特殊函數(shù)模式(如線性關(guān)系、指數(shù)關(guān)系、周期性關(guān)系等)。而且傳統(tǒng)意義上我們只關(guān)注快變量,當(dāng)數(shù)據(jù)量足夠大時我們還需要關(guān)注慢變量,就是看起來沒有聯(lián)系,但是實際上卻隱含著深刻影響力的那些變量。如何更好的測度相關(guān)性,如何能準(zhǔn)確的發(fā)現(xiàn)屬性間隱含的聯(lián)系就成為了大數(shù)據(jù)時代我們急需解決的重要問題。

        1 傳統(tǒng)相關(guān)分析方法及其局限

        在統(tǒng)計學(xué)中,相關(guān)是指一個變量的數(shù)值與另一個變量的數(shù)值有連帶性,即一個變量的值隨著另一個變量的值的變化而變化。用一個統(tǒng)計值表示變量與變量之間的關(guān)系,稱之為相關(guān)測量法。大多數(shù)的相關(guān)系數(shù)以絕對值為0代表不相關(guān),以1代表完全相關(guān),介于0和1之間的數(shù)值越大則相關(guān)程度越強。對于定距變量和定比變量,還可以通過一個變量數(shù)值增加時,另一個變量的數(shù)值是否也增加來確定相關(guān)方向,同時增加即為正相關(guān);隨著一個變量數(shù)值的增加另一個變量數(shù)值減少,則為負(fù)相關(guān)。

        統(tǒng)計計量有不同的層次,測量變量間的相關(guān)關(guān)系,首先要遵守測量層次準(zhǔn)則,其次是對稱或不對稱準(zhǔn)則。層次準(zhǔn)則,就是度量不同層次變量的相關(guān)性,在統(tǒng)計學(xué)中要采取不同的測量方法,高層次的測量具有低層次測量的所有性質(zhì),高層次測量可以作為低層的測量處理,詳見表1。

        表1 分尺度的數(shù)學(xué)特性、集中趨勢離散趨勢

        表1中的各種相關(guān)測量法是統(tǒng)計學(xué)中常用的,依據(jù)消減誤差比例(PRE)原理,運用各類尺度的集中趨勢與離散趨勢來構(gòu)建的。分析兩個變量之間的關(guān)系時,我們首先會考慮強弱和方向這兩個性質(zhì),此外,還有因果關(guān)系。通常因果關(guān)系又稱為不對稱關(guān)系,要求我們事先分清變量間的原因和結(jié)果,如果變量之間不存在因果關(guān)系,則稱其存在對稱關(guān)系,各種測量方法的對稱性見表2。

        表2 各相關(guān)測量方法的對稱性

        上文總結(jié)了傳統(tǒng)統(tǒng)計學(xué)中幾種常用的相關(guān)測量方法,當(dāng)樣本量相對較小、分析的問題較簡單時,可以用傳統(tǒng)的相關(guān)測量法進行變量間簡單的線性關(guān)系測量。但是,大數(shù)據(jù)時代我們所能獲得的數(shù)據(jù)越來越多,變量之間的關(guān)系也不會僅僅局限在線性或者可以用函數(shù)表示的幾種關(guān)系上,在處理海量數(shù)據(jù)時傳統(tǒng)相關(guān)分析方法存在的局限開始凸顯:

        第一,不具有通用性。傳統(tǒng)統(tǒng)計中常用的這幾種相關(guān)分析方法都只能對變量之間可以用函數(shù)來表示的相關(guān)關(guān)系進行分析,并且對變量之間的線性相關(guān)關(guān)系最為敏感,而對于其他非線性相關(guān)關(guān)系或者非函數(shù)相關(guān)關(guān)系不能進行準(zhǔn)確的測算,不具有通用性。在實際數(shù)據(jù)中,相關(guān)性可以是任何形式的相關(guān),如何識別多種類別的相關(guān)性是大數(shù)據(jù)時代傳統(tǒng)相關(guān)分析所需要解決的第一個問題。

        第二,不具有均等性。如果給不同相關(guān)形式的數(shù)據(jù)都加上類似水平的噪聲,用傳統(tǒng)相關(guān)分析方法進行測量結(jié)果會差別很大。但是,通常我們認(rèn)為噪聲水平越大說明變量間相互聯(lián)系的緊密性越小,相同噪聲水平的數(shù)據(jù)相關(guān)分析結(jié)果應(yīng)該大致在同一水平。傳統(tǒng)相關(guān)測量法更容易受相關(guān)形式的影響卻不能準(zhǔn)確區(qū)分變量之間聯(lián)系的緊密性,說明不具有均等性。

        例如,皮爾遜相關(guān)系數(shù)表示的是變量間的線性關(guān)系,它的大小說明不了相關(guān)程度,如果變量的關(guān)系不具有直線的性質(zhì),皮爾遜相關(guān)系數(shù)雖然等于0,但不能否認(rèn)其存在非線性相關(guān)關(guān)系的可能性。采用傳統(tǒng)的統(tǒng)計相關(guān)分析方法往往會忽視很多變量間隱含的邏輯關(guān)系,這些局限性也限制了傳統(tǒng)相關(guān)測量法在處理大數(shù)據(jù)問題時的應(yīng)用范圍。

        2 大數(shù)據(jù)時代的相關(guān)分析

        大數(shù)據(jù)時代的到來使得相關(guān)分析需要達到的要求更高,針對傳統(tǒng)統(tǒng)計分析中的相關(guān)測量法存在的缺陷,大數(shù)據(jù)時代的相關(guān)分析首先滿足“通用性”和“均等性”兩個準(zhǔn)則,相關(guān)分析的結(jié)果應(yīng)該只與變量之間連動性的緊密程度有關(guān),而不應(yīng)受變量間相關(guān)形式的影響。近些年,國外已經(jīng)有很多學(xué)者開始注意到大數(shù)據(jù)時代相關(guān)分析方法的重要性,對如何改進相關(guān)分析方法進行了研究。Reshef等學(xué)者(2011)基于信息論中關(guān)于兩個事件集合的相關(guān)性信息度量提出了一種關(guān)于相關(guān)性分析的改進方法--最大信息系數(shù)(Maximal Information Coefficient,MIC)的,可以對變量間的非函數(shù)相關(guān)關(guān)系進行有效的識別。David Lopea-Paz等學(xué)者(2013)運用Copula轉(zhuǎn)換提出了隨機相關(guān)系數(shù)(Randomized Dependence Coefficient,RDC),并與MIC方法進行了對比,證明前者的時間復(fù)雜度更低。Hoang V.Nguyen等學(xué)者(2014)根據(jù)MIC方法,提出了更一般化的相關(guān)分析方法--最大相關(guān)分析(Maximal Correlation Analysis,MAC),擴展了MIC方法的運用范圍,可以對兩組變量之間的非函數(shù)相關(guān)關(guān)系進行準(zhǔn)確的測量。

        以上這些方法的改進無一不在強調(diào)大數(shù)據(jù)時代我們進行相關(guān)分析時對非線性、甚至是非函數(shù)相關(guān)關(guān)系的識是很重要的,單純的線性相關(guān)與否不再能說明變量間復(fù)雜的相關(guān)關(guān)系。這些改進除了運用傳統(tǒng)統(tǒng)計相關(guān)分析的思維,更重要的是將信息論、粗糙集理論、人工智能等領(lǐng)域的方法與傳統(tǒng)統(tǒng)計相關(guān)分析進行了結(jié)合。所以,在大數(shù)據(jù)背景下,如何運用其他領(lǐng)域的知識,對傳統(tǒng)相關(guān)分析進行改進,使其能更加準(zhǔn)確、快速地識別變量之間的各種相關(guān)關(guān)系是傳統(tǒng)相關(guān)分析面臨的最大挑戰(zhàn)。

        新興的相關(guān)分析方法在最近幾年涌現(xiàn),一方面是由于國內(nèi)外學(xué)者看到了大數(shù)據(jù)分析中傳統(tǒng)統(tǒng)計相關(guān)分析存在的缺陷,運用傳統(tǒng)統(tǒng)計方法已經(jīng)無法滿足大數(shù)據(jù)時代數(shù)據(jù)分析的需求;更重要的在于,國內(nèi)外學(xué)者們都看到了大數(shù)據(jù)時代相關(guān)分析思維的重要性,看到了相關(guān)分析在特征選擇、變量依賴關(guān)系識別中的實用性。特征選擇幾乎在所有研究中都會用到,也是很多研究中模型構(gòu)建的第一步。例如,構(gòu)建指標(biāo)體系時我們需要分析兩兩變量間是否存在反映重復(fù)信息的問題,需要運用相關(guān)分析進行冗余信息的刪減,這樣即簡化了指標(biāo)體系又避免了有效信息丟失;文本圖像數(shù)據(jù)分析中我們可以運用相關(guān)分析進行特征的選取,使得文本圖像識別更準(zhǔn)確、快速。除此之外,運用相關(guān)分析可以進行變量依賴關(guān)系的識別,在實際問題的研究中具有很重要的作用,例如,企業(yè)目標(biāo)客戶的屬性依賴關(guān)系識別、超市商品銷售量的關(guān)聯(lián)性度量等都離不開相關(guān)分析。上文中提到:建立在相關(guān)分析法基礎(chǔ)上的預(yù)測才是大數(shù)據(jù)的核心。大數(shù)據(jù)時代,相關(guān)分析的運用范圍之廣、重要性之大是我們不能忽略的,也是傳統(tǒng)相關(guān)分析所面臨的巨大機遇。如何以相關(guān)分析思路為起點探究新的分析方法,使統(tǒng)計相關(guān)分析方法能夠更順應(yīng)時代的變化,體現(xiàn)出傳統(tǒng)統(tǒng)計思維的經(jīng)典與先進,在大數(shù)據(jù)下能夠發(fā)揮作用,即是傳統(tǒng)相關(guān)分析面臨的挑戰(zhàn)也是機遇。

        3 總結(jié)

        當(dāng)前,隨著數(shù)據(jù)處理能力和存儲能力的不斷提高,通過統(tǒng)計學(xué)方法來探索事物內(nèi)在的統(tǒng)計相關(guān)規(guī)律并進行篩選總結(jié)是所有研究的第一步。統(tǒng)計相關(guān)分析的思想已經(jīng)滲透到了其他的學(xué)科,相關(guān)分析的思維在大數(shù)據(jù)時代越發(fā)顯得重要。但是,現(xiàn)有的傳統(tǒng)統(tǒng)計相關(guān)分析方法由于假定條件太多,不具有通用性、均等性,很多在大數(shù)據(jù)環(huán)境里都失去了原有的價值。在今后的研究中,還需要將統(tǒng)計思維與數(shù)據(jù)挖掘技術(shù)、粗糙集思想以及信息論等相結(jié)合,借鑒其他學(xué)科中的包含有相關(guān)分析思想的方法,對傳統(tǒng)的統(tǒng)計方法進行調(diào)整,這樣傳統(tǒng)相關(guān)分析才能更好的應(yīng)對大數(shù)據(jù)時代帶來的機遇與挑戰(zhàn)。

        [1]陸運清.用Pearson’s卡方統(tǒng)計量進行統(tǒng)計檢驗時應(yīng)注意的問題[J].統(tǒng)計與決策,2009,(15).

        [2]姚寶璽.兩變量相關(guān)關(guān)系的度量[J].統(tǒng)計與決策,2007,(1).

        [3]李沛良.社會研究的統(tǒng)計應(yīng)用[M].北京:社會科學(xué)文獻出版社,2002.

        [4]吳喜之.統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論[M].北京:中國統(tǒng)計出版社,2004.

        [5]張堯庭.我們應(yīng)該選用什么樣的相關(guān)性指標(biāo)[J].統(tǒng)計研究.2002,(9).

        [6]Breiman L,F(xiàn)riedman J.Estimating Optimal Transformations for Multiple Regression and Correlation[J].Journal of the American Statistical Association.1985,391.

        [7]Benjamini Y.Yekutieli D.The Control of the False Discovery Rate in Multiple Testing Under Dependency[J].The Annals of Statistics,2001,(4).

        [8]Reshef D N,et al.Detecting Novel Associations in Large Data Sets[J].Science,2011,334.

        [9]Delicado P,Smrekar M.Measuring Non-linear Dependence for Two Random Variables Distributed Along a Curve[J].Statistics and Computing,2009,(3).

        [10]Staff S.Challenges and opportunities[J].Science,2011,331.

        [11]涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社,2012.

        猜你喜歡
        測量法分析方法變量
        基于EMD的MEMS陀螺儀隨機漂移分析方法
        抓住不變量解題
        也談分離變量
        一種角接觸球軸承靜特性分析方法
        重型機械(2020年2期)2020-07-24 08:16:16
        中國設(shè)立PSSA的可行性及其分析方法
        中國航海(2019年2期)2019-07-24 08:26:40
        基于比較測量法的冷卻循環(huán)水系統(tǒng)電導(dǎo)率檢測儀研究
        垂直面內(nèi)建立基線的特殊點位高程測量法
        航空攝影測量法在農(nóng)村土地確權(quán)登記發(fā)證工作中的應(yīng)用分析
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        環(huán)繞測量法
        国产视频免费一区二区| 亚洲国产区男人本色| 人妻丰满av无码中文字幕| 女同性恋一区二区三区四区| 偷拍一区二区三区四区| 手机看片久久国产免费| 国产国产人精品视频69| 少妇被日到高潮的视频| 91精品国产在热久久| 97人人模人人爽人人少妇 | 美日韩毛片| 亚洲成人黄色av在线观看| 国产青青草在线观看视频| 亚洲精品suv精品一区二区| 狠狠久久精品中文字幕无码| 亚洲全国最大的人成网站| 亚洲中文字幕人妻av在线| 无码人妻av一区二区三区蜜臀| 国产福利片无码区在线观看 | 精品国产亚欧无码久久久| 一本到亚洲av日韩av在线天堂 | …日韩人妻无码精品一专区| 亚洲AV永久无码制服河南实里 | 日本熟妇视频在线中出| 好吊妞视频这里有精品| 国产在线不卡一区二区三区| 国产成人aa在线观看视频| 国产成人亚洲精品91专区高清 | 国产在线一区二区三精品乱码| 99久久婷婷国产综合精品电影| 一级一级毛片无码免费视频| 国产成人高清视频在线观看免费| 亚洲国产精品无码久久一区二区| 台湾佬娱乐中文22vvvv| 亚洲AV手机专区久久精品| 亚洲女同恋av中文一区二区| 蜜桃视频无码区在线观看| 亚洲欧洲久久久精品| 天堂网av在线免费看| 2020无码专区人妻系列日韩| 无码国产精品一区二区免|