亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述*

        2015-12-26 01:46:15錢(qián)宇華成紅紅梁新彥王建新
        數(shù)據(jù)采集與處理 2015年6期
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)模態(tài)

        錢(qián)宇華 成紅紅梁新彥王建新

        (1.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原,030006; 2.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原,030006)

        ?

        大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述*

        錢(qián)宇華1,2成紅紅1,2梁新彥1,2王建新1,2

        (1.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原,030006; 2.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原,030006)

        大數(shù)據(jù)關(guān)聯(lián)性分析是大數(shù)據(jù)挖掘的基礎(chǔ),一個(gè)好的關(guān)聯(lián)性度量是實(shí)施關(guān)聯(lián)分析的關(guān)鍵。本文首先指出大數(shù)據(jù)時(shí)代關(guān)聯(lián)度量面臨的挑戰(zhàn)和研究現(xiàn)狀,從關(guān)聯(lián)關(guān)系度量的構(gòu)造角度出發(fā),對(duì)現(xiàn)有的關(guān)聯(lián)關(guān)系度量進(jìn)行整理,歸納總結(jié)了這些關(guān)聯(lián)關(guān)系的性質(zhì)和適用條件。在回顧關(guān)聯(lián)度量發(fā)展歷程的基礎(chǔ)上,結(jié)合大數(shù)據(jù)時(shí)代關(guān)聯(lián)關(guān)系的特點(diǎn),提出構(gòu)造關(guān)聯(lián)度量可能滿足的條件。最后針對(duì)多模態(tài)數(shù)據(jù)關(guān)聯(lián)關(guān)系度量的若干問(wèn)題進(jìn)行探討和梳理,從3個(gè)角度出發(fā),提出應(yīng)對(duì)多模態(tài)數(shù)據(jù)空間轉(zhuǎn)換的挑戰(zhàn),以引起對(duì)該領(lǐng)域更深入的思考與研究工作,從而促進(jìn)大數(shù)據(jù)挖掘工作的進(jìn)展。

        大數(shù)據(jù);關(guān)聯(lián)性分析;關(guān)聯(lián)度量;多模態(tài)數(shù)據(jù)

        引 言

        信息技術(shù)的飛速發(fā)展,尤其是社交網(wǎng)絡(luò)、云計(jì)算和物聯(lián)網(wǎng)等信息獲取技術(shù)的進(jìn)步,全球數(shù)據(jù)量以每?jī)赡攴兜乃俣仍鲩L(zhǎng)和積累,大數(shù)據(jù)愈來(lái)愈得到人們的關(guān)注,已是具有國(guó)家戰(zhàn)略意義的新興產(chǎn)業(yè)[1]。從各種各樣巨量數(shù)據(jù)中快速提取有價(jià)值的信息和獲得潛在的事物規(guī)律是大數(shù)據(jù)挖掘的主要任務(wù)之一[2]。正如美國(guó)加州大學(xué)伯克利分校Speed 教授在《Science》雜志上發(fā)表論文所述,從龐大數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間潛在的重要有趣的關(guān)系變得十分重要,21世紀(jì)將是關(guān)聯(lián)性學(xué)習(xí)的時(shí)代[3]。所謂關(guān)聯(lián)性學(xué)習(xí)就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)關(guān)系或相關(guān)關(guān)系,從而描述一個(gè)事物中某些屬性同現(xiàn)的規(guī)律和模式。這種同現(xiàn)關(guān)系可能表現(xiàn)為具有嚴(yán)格確定性的函數(shù)顯示表達(dá)形式,也可能是客觀對(duì)象之間確實(shí)存在,但在數(shù)量上不是嚴(yán)格對(duì)應(yīng)的依存關(guān)系,也可能是完全不存在內(nèi)在聯(lián)系的虛假相關(guān)關(guān)系[4]。關(guān)聯(lián)分析滲透到機(jī)器學(xué)習(xí)、生物信息學(xué)、神經(jīng)科學(xué)、經(jīng)濟(jì)與金融、社會(huì)網(wǎng)絡(luò)、多媒體以及大氣學(xué)數(shù)據(jù)挖掘等科學(xué)研究的各個(gè)領(lǐng)域[5-7]。在網(wǎng)絡(luò)查詢(xún)中,搜索引擎根據(jù)用戶(hù)搜索內(nèi)容與互聯(lián)網(wǎng)中內(nèi)容的相關(guān)性進(jìn)行推薦[6];在遺傳學(xué)中,研究物種與物種之間有相關(guān)性的基因、功能及其變異、傳遞和表達(dá)規(guī)律[8];在氣象學(xué)中,通過(guò)分析場(chǎng)與場(chǎng)之間的相關(guān)性短期預(yù)測(cè)未來(lái)氣候[9]。但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量的大量積累使得數(shù)據(jù)關(guān)聯(lián)形式多種多樣,不同領(lǐng)域需要挖掘更重要和更符合實(shí)際的關(guān)聯(lián)關(guān)系形式,因此清晰刻畫(huà)所研究對(duì)象的關(guān)聯(lián)關(guān)系及關(guān)聯(lián)強(qiáng)度是大數(shù)據(jù)挖掘和應(yīng)用的重要研究方向之一[10]。

        數(shù)據(jù)的大量產(chǎn)生為數(shù)據(jù)挖掘提供了豐富的資源,尤其是給描述對(duì)象提供了新的見(jiàn)解。如何從TB級(jí)及以上的數(shù)據(jù)集中成功探索數(shù)據(jù)的意義是大數(shù)據(jù)時(shí)代中重要的問(wèn)題。要探索大型數(shù)據(jù)集中的科學(xué)問(wèn)題,為解釋新問(wèn)題和給出建議方式,必須找到意想不到的模式和解釋證據(jù)。大數(shù)據(jù)表現(xiàn)出的大規(guī)模性、多模態(tài)性和混雜性等特征是大數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)面臨的主要挑戰(zhàn)。Liang和Qian等提出用粒計(jì)算的理論和方法解決大數(shù)據(jù)挖掘所面臨的問(wèn)題,并指出多粒度模式發(fā)現(xiàn)和融合是處理大數(shù)據(jù)大規(guī)模性、多模態(tài)性、混合性特征的自然要求,局部數(shù)據(jù)粒上的模式發(fā)現(xiàn)和多粒度關(guān)系發(fā)現(xiàn)是支撐大數(shù)據(jù)應(yīng)用的重要方面之一,也即信息的合理粒化將是實(shí)現(xiàn)這一目標(biāo)的重要手段,而關(guān)聯(lián)分析是實(shí)施這一手段的首要基礎(chǔ)[11]。聚類(lèi)分析是數(shù)據(jù)挖掘中重要的技術(shù)手段之一,用于探測(cè)數(shù)據(jù)的抱團(tuán)性。聚類(lèi)的核心是找到刻畫(huà)數(shù)據(jù)對(duì)象(可以看作向量)之間遠(yuǎn)近的距離,構(gòu)造相似性矩陣。聚類(lèi)分析是一種啟發(fā)式的探索數(shù)據(jù)結(jié)構(gòu)的方法,因此相似關(guān)系可以通過(guò)關(guān)聯(lián)關(guān)系的度量來(lái)刻畫(huà),信息?;瘜?shí)施的核心也是對(duì)象間關(guān)聯(lián)關(guān)系的度量[12]。分類(lèi)也是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中重要的學(xué)習(xí)問(wèn)題,發(fā)現(xiàn)特征空間與決策空間的依賴(lài)性是關(guān)鍵。在特征選擇、特征約簡(jiǎn)與多標(biāo)簽學(xué)習(xí)等研究中,通常需要找到合理的判斷冗余性和相關(guān)性的指標(biāo),這些指標(biāo)也可以通過(guò)關(guān)聯(lián)關(guān)系的度量來(lái)刻畫(huà)[13]。關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)是支撐大數(shù)據(jù)應(yīng)用的重要方面之一。在大數(shù)據(jù)關(guān)聯(lián)關(guān)系挖掘中,關(guān)聯(lián)關(guān)系不再僅限于線性關(guān)系和常用的特殊函數(shù)形式,還有可能是特征間不確定性、分布相似性、或者是特征某些取值的同現(xiàn)性[11]。例如在基因表達(dá)中蛋白質(zhì)的形成受多個(gè)基因控制形成,希望找到這些基因之間的聯(lián)合作用關(guān)系,但預(yù)先不知道數(shù)據(jù)分布的先驗(yàn)分布需要采用探測(cè)性的分析方法,需要先找到一種刻畫(huà)這些關(guān)系的度量,根據(jù)這個(gè)度量取值的大小判斷關(guān)系的重要性進(jìn)行下一步研究。

        因此在大數(shù)據(jù)挖掘中,關(guān)聯(lián)關(guān)系的度量經(jīng)常是各個(gè)研究的基礎(chǔ)。大數(shù)據(jù)中多種復(fù)雜關(guān)系并存,而且非線性關(guān)系與線性關(guān)系同等重要,傳統(tǒng)的偏向識(shí)別線性關(guān)系的Pearson相關(guān)系數(shù)、偏向識(shí)別單調(diào)函數(shù)的Spearman相關(guān)系數(shù)和Kendall相關(guān)系數(shù)已經(jīng)不能很好地適用于大數(shù)據(jù)時(shí)代關(guān)聯(lián)分析的研究[14-15]。因而從大規(guī)模數(shù)據(jù)中探索復(fù)雜關(guān)系變成熱點(diǎn)研究課題,關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)和關(guān)聯(lián)關(guān)系測(cè)度的刻畫(huà)及選擇顯得尤為重要,新的適應(yīng)于大數(shù)據(jù)要求的關(guān)聯(lián)關(guān)系度量新范式亟待提出。本文首先梳理了大數(shù)據(jù)關(guān)聯(lián)分析面臨的挑戰(zhàn)及研究現(xiàn)狀,再回顧已有相關(guān)關(guān)系的構(gòu)造方法和適用條件,以期對(duì)大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量新范式提供啟示,并指明應(yīng)對(duì)大數(shù)據(jù)變量間關(guān)聯(lián)度量挑戰(zhàn),度量新范式可能滿足的條件。最后進(jìn)行總結(jié)與展望。

        1 大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量的挑戰(zhàn)與現(xiàn)狀

        1.1 大規(guī)模性

        數(shù)據(jù)規(guī)模的急劇膨脹給數(shù)據(jù)挖掘尤其是互聯(lián)網(wǎng)數(shù)據(jù)挖掘帶來(lái)巨大的挑戰(zhàn)。大數(shù)據(jù)時(shí)代獲得的數(shù)據(jù)量呈現(xiàn)大規(guī)模性,大規(guī)模性不僅表現(xiàn)在樣本量大,還表現(xiàn)在數(shù)據(jù)的維度高,變量間的關(guān)聯(lián)模式也會(huì)增多從而表現(xiàn)出關(guān)聯(lián)關(guān)系多樣性。除了傳統(tǒng)的線性關(guān)系,常見(jiàn)的單調(diào)變化函數(shù)之外,需要刻畫(huà)層出不窮的數(shù)據(jù)關(guān)聯(lián)形式。在經(jīng)濟(jì)金融研究中,時(shí)間序列數(shù)據(jù)的分布相比正態(tài)分布往往呈現(xiàn)厚尾尖峰現(xiàn)象,這種分布形式的數(shù)據(jù)關(guān)聯(lián)用傳統(tǒng)的Pearson相關(guān)系數(shù)已不適用[16];在信號(hào)處理系統(tǒng)中,脈沖信號(hào)呈現(xiàn)正弦波或余弦波,甚至是混合波形式,這種非線性關(guān)聯(lián)關(guān)系的刻畫(huà)使得傳統(tǒng)相關(guān)系無(wú)能為力[17]。而在大數(shù)據(jù)集中,多種關(guān)聯(lián)關(guān)系經(jīng)常會(huì)同時(shí)出現(xiàn),需要關(guān)心的是從眾多關(guān)聯(lián)關(guān)系中挖掘出具有強(qiáng)關(guān)聯(lián)的變量對(duì),從而在該關(guān)聯(lián)度量下選擇排序靠前變量對(duì)進(jìn)行分析。因此,如何準(zhǔn)確刻畫(huà)不同形式的關(guān)聯(lián)關(guān)系,并從多種復(fù)雜關(guān)聯(lián)中選取關(guān)聯(lián)強(qiáng)度大的變量對(duì)研究變得至關(guān)重要[10]?;陔S機(jī)變量特征函數(shù)的性質(zhì),Székely于2007年提出用距離相關(guān)系數(shù)(Distance correlation,dCor)考察兩個(gè)任意維隨機(jī)向量之間的關(guān)聯(lián)系數(shù),且能有效識(shí)別各種關(guān)聯(lián)模式[18-19];Lopez-Paz等對(duì)數(shù)據(jù)進(jìn)行非線性映射然后再求最大典型相關(guān)系數(shù),不僅能識(shí)別線性關(guān)系還能識(shí)別非線性關(guān)系[20];因?yàn)橹行臉O限定理中多個(gè)獨(dú)立變量的和具有高斯性所以提出基于非高斯性的依賴(lài)性度量以能識(shí)別數(shù)據(jù)中多種關(guān)聯(lián)形式[21]。

        1.2 多模態(tài)性

        通過(guò)不同的方法或角度描述同一個(gè)事物,將這個(gè)方法或視覺(jué)稱(chēng)為一個(gè)模態(tài)。如視頻數(shù)據(jù)挖掘中,視頻可以分成字幕、音頻和圖像,它們從不同視覺(jué)描述了視頻所要表達(dá)的信息。大數(shù)據(jù)往往由大量源頭產(chǎn)生,而且常包含圖像、視頻、音頻、數(shù)據(jù)流、文本和網(wǎng)頁(yè)等不同的數(shù)據(jù)格式,因此其模態(tài)是多種多樣的,每個(gè)模態(tài)都為別的模態(tài)提供一定的信息,模態(tài)之間具有一定的相關(guān)性,利用模態(tài)之間的共有信息探求它們之間的潛在規(guī)律是多模態(tài)數(shù)據(jù)挖掘的關(guān)鍵。已經(jīng)有關(guān)于定矩變量、定序變量和定類(lèi)變量等同模態(tài)變量之間的相關(guān)性度量公式,也有基于小樣本情況下在混合變量之間的相關(guān)性度量研究[22],但是在大數(shù)據(jù)背景下不同模態(tài)變量間關(guān)聯(lián)性分析仍是個(gè)值得研究的問(wèn)題。不同模態(tài)之間的信息互為差異、互相補(bǔ)充。典型相關(guān)分析(Canonical correlation analysis, CCA)是傳統(tǒng)分析多元變量組間線性相關(guān)關(guān)系的方法,為了探索變量組間的非線性關(guān)聯(lián)關(guān)系,文獻(xiàn)[23]將變量數(shù)據(jù)進(jìn)行核變換之后再利用線性分析方法度量變量組間的相關(guān)關(guān)系(Kernel canonical correlation analysis, KCCA)。2011年,Reshef等在《Science》提出了挖掘大數(shù)據(jù)新穎關(guān)聯(lián)的方法,認(rèn)為如果兩個(gè)變量之間存在關(guān)聯(lián),則在變量的散點(diǎn)圖上施加一個(gè)網(wǎng)格可以將關(guān)聯(lián)關(guān)系壓縮出來(lái),并稱(chēng)該度量具有普適性和均衡性,而且適用于混合數(shù)據(jù)分布[10]。

        1.3 動(dòng)態(tài)性

        大數(shù)據(jù)的另一顯著的特點(diǎn)就是數(shù)據(jù)隨著時(shí)間快速積累,迅速增長(zhǎng),變量間關(guān)聯(lián)關(guān)系表現(xiàn)出一定的動(dòng)態(tài)性。比如在社會(huì)網(wǎng)絡(luò)中,大量節(jié)點(diǎn)上的狀態(tài)不斷發(fā)生變化,節(jié)點(diǎn)之間的鏈接情況不斷發(fā)生變化,節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系也隨時(shí)間發(fā)生關(guān)系,給面向社會(huì)網(wǎng)絡(luò)數(shù)據(jù)挖掘的實(shí)時(shí)性要求帶來(lái)挑戰(zhàn)[6]。在股票交易市場(chǎng)中,數(shù)據(jù)在交易期內(nèi)每一秒都在發(fā)生變換,如何及時(shí)有效地做出組合優(yōu)化決策降低投資風(fēng)險(xiǎn)至關(guān)重要[24]。Bandt提出一種分析大數(shù)據(jù)時(shí)間序列的自相關(guān)函數(shù)形式,能夠識(shí)別關(guān)系變化中的噪聲從而進(jìn)行有效預(yù)測(cè)[25]。

        1.4 價(jià)值密度低

        張鈸院士說(shuō):大數(shù)據(jù)是礦石,需要經(jīng)過(guò)提煉才能使用[26]。巨大的變量不一定都要使用,以視頻數(shù)據(jù)為例,連續(xù)不斷監(jiān)控過(guò)程中,有用的數(shù)據(jù)可能只有一兩秒。如何從大量的數(shù)據(jù)中選擇有價(jià)值的數(shù)據(jù)成為重中之重。因此變量約簡(jiǎn)或選取有價(jià)值變量變得尤為重要,變量間關(guān)聯(lián)度量是實(shí)施這一目標(biāo)的核心。

        數(shù)據(jù)的價(jià)值密度低也表現(xiàn)在數(shù)據(jù)的噪聲量多,噪聲的產(chǎn)生可能與產(chǎn)生數(shù)據(jù)的主體有關(guān),也可能與數(shù)據(jù)采集手段和存儲(chǔ)方式有關(guān)。噪聲量積累過(guò)多,噪聲關(guān)系可能掩蓋真實(shí)變量的關(guān)系。如果噪聲呈現(xiàn)一定的規(guī)律,會(huì)導(dǎo)致變量間存在偽相關(guān)關(guān)系,如果噪聲比較混亂,原本關(guān)聯(lián)性較強(qiáng)的變量可能會(huì)被噪聲抵沖。前者就像在一個(gè)大城市里,有兩個(gè)長(zhǎng)得特別像的人但他們實(shí)際沒(méi)有基因關(guān)系;后者就像在偌大的城市里遇到了一個(gè)熟人[4]。因此,大數(shù)據(jù)挖掘中構(gòu)造的關(guān)聯(lián)強(qiáng)度度量還需對(duì)噪聲有一定的識(shí)別作用。Reshef等提出最大信息系數(shù)(Maximal information coefficient, MIC)的同時(shí)指出關(guān)聯(lián)度量應(yīng)該具有均衡性。均衡性的提出“可謂一石激起千層浪”。Kinney和Atwal 給出了Reshef文章中提到的R2均衡性的嚴(yán)格數(shù)學(xué)定義,進(jìn)一步提出自均衡性定義,稱(chēng)MIC不滿足自均衡定義,基于信息論的基本互信息度量滿足自均衡性[27]。Ding 等認(rèn)為基于互信息的關(guān)聯(lián)度量都不滿足均衡性,因?yàn)榛バ畔⒉荒軠?zhǔn)確估計(jì),認(rèn)為一個(gè)均衡性的關(guān)聯(lián)度量應(yīng)該反映背景噪聲中由數(shù)據(jù)決定的信號(hào)強(qiáng)度,利用copula連接函數(shù)的性質(zhì)并從數(shù)學(xué)上給出混合copula均衡性的定義,據(jù)此提出能夠深入挖掘變量間關(guān)聯(lián)信息的copula相關(guān)系數(shù)[28]。

        綜合上述分析可知,大數(shù)據(jù)大規(guī)模性、多模態(tài)性、動(dòng)態(tài)性和價(jià)值密度低等特性給大數(shù)據(jù)變量間關(guān)聯(lián)關(guān)系的度量帶來(lái)的挑戰(zhàn)是多方面、多層次的。這些挑戰(zhàn)需要在已有的研究基礎(chǔ)上,以全新的視角發(fā)展大數(shù)據(jù)的關(guān)聯(lián)關(guān)系度量,推動(dòng)大數(shù)據(jù)學(xué)科的發(fā)展和應(yīng)用。

        2 現(xiàn)有關(guān)聯(lián)關(guān)系度量的構(gòu)造及適用條件

        關(guān)聯(lián)和相關(guān)是解釋兩個(gè)統(tǒng)計(jì)變量之間關(guān)系的方法,都是相對(duì)于獨(dú)立性而言的。關(guān)聯(lián)關(guān)系是一個(gè)更通用的術(shù)語(yǔ),相關(guān)可以看作是關(guān)聯(lián)的一種特殊情況,主要度量實(shí)際上是線性關(guān)系的變量對(duì)。本文討論包括線性關(guān)系的所有關(guān)聯(lián)關(guān)系度量系數(shù),因此全文統(tǒng)稱(chēng)關(guān)聯(lián)關(guān)系度量。本節(jié)回顧關(guān)聯(lián)關(guān)系度量的構(gòu)造思路,一種是基于消減誤差比例(Proportional reduction of error, PRE)原理:運(yùn)用變量的集中趨勢(shì)和離散趨勢(shì)構(gòu)造;另一種是基于獨(dú)立性檢驗(yàn)構(gòu)造。前者趨向去發(fā)現(xiàn)變量間的線性關(guān)系,后者旨在識(shí)別除獨(dú)立之外的其他關(guān)系。

        2.1 基于PRE原理的關(guān)聯(lián)關(guān)系度量

        19世紀(jì)80年代,Galton在研究人類(lèi)身高遺傳問(wèn)題時(shí)首次提出了相關(guān)的概念[29],1990年Karl Pearson在Galton的相關(guān)研究基礎(chǔ)上提出Pearson相關(guān)系數(shù),它是最簡(jiǎn)單的線性相關(guān)系數(shù),用于衡量定矩變量間線性相關(guān)程度。此后經(jīng)過(guò)一個(gè)多世紀(jì)的發(fā)展,相關(guān)系數(shù)有了較為完整的理論基礎(chǔ)和廣泛的應(yīng)用領(lǐng)域[30]。協(xié)方差是衡量?jī)蓚€(gè)變量間線性關(guān)聯(lián)程度的特征數(shù),為了消除量綱的影響,對(duì)協(xié)方差除以相同量綱的量就得到了相關(guān)系數(shù),也稱(chēng)Pearson積矩相關(guān)關(guān)系。

        (1)對(duì)稱(chēng)性:ρ(X,Y)=ρ(Y,X),r(x,y)=r(y,x)。

        (2)正仿射不變性:ρ(X,Y)=ρ(aX+b,cY+d),其中a,b>0,a,b,c,d∈R。即兩個(gè)變量分別經(jīng)過(guò)位移和尺度的變化,相關(guān)系數(shù)保持不變。

        但是Pearson相關(guān)系數(shù)的準(zhǔn)確度量易受奇異值的影響,為了剔除影響數(shù)據(jù)整體關(guān)系的干擾因素,將主體相關(guān)性比較客觀地計(jì)算出來(lái),心理學(xué)家Spearman提出的Spearman秩序相關(guān)系數(shù)[15]??捎糜谠u(píng)估兩個(gè)連續(xù)變量或次序變量之間的單調(diào)關(guān)系。在單調(diào)關(guān)系中,變量變化具有同步性,但是不一定按不變的比率變化。Spearman相關(guān)系數(shù)與Pearson相關(guān)系數(shù)不同,是基于每個(gè)變量對(duì)的秩序值而非原始數(shù)據(jù)。

        (1)對(duì)稱(chēng)性:rS(x,y)=rS(y,x),τ(x,y)=τ(y,x)。

        (2)單調(diào)增變換不變性:數(shù)據(jù)點(diǎn)在進(jìn)行增變化時(shí),不管是線性的還是非線性增變化,只要滿足數(shù)據(jù)點(diǎn)的相對(duì)秩不變,相關(guān)系數(shù)就不變。單調(diào)減變換不會(huì)改變關(guān)聯(lián)強(qiáng)度但會(huì)改變關(guān)聯(lián)的方向。

        (3)穩(wěn)健性:異常數(shù)據(jù)點(diǎn)對(duì)線性相關(guān)系數(shù)的影響比較大,而秩相關(guān)系數(shù)的抗干擾能力較強(qiáng)。當(dāng)樣本中存在輕微單調(diào)非線性畸變或存在嚴(yán)重的單調(diào)非線性畸變時(shí),秩相關(guān)系數(shù)比較合適。

        在Pearson 相關(guān)系數(shù)的基礎(chǔ)上,發(fā)展了多變量間的相關(guān)系數(shù)度量:復(fù)相關(guān)系數(shù)(全相關(guān)系數(shù))用于衡量一個(gè)隨機(jī)變量Y與多個(gè)變量X1,…,Xn之間的相關(guān)系數(shù);偏相關(guān)系數(shù)用于衡量一組隨機(jī)變量X1,…,Xn中兩個(gè)變量(Xi,Xj)之間的相關(guān)程度;典型相關(guān)系數(shù)衡量?jī)山M變量X1,…,Xn和Y1,…,Ym之間的相關(guān)程度,將變量在一定的約束條件下進(jìn)行線性變換,獲得具有代表性的兩個(gè)綜合變量,再根據(jù)綜合變量之間的相關(guān)系數(shù)反映兩組指標(biāo)之間的整體相關(guān)性。關(guān)于兩變量組之間的線性關(guān)聯(lián)系數(shù)的研究,通常有很多不同的策略。本節(jié)主要介紹兩種經(jīng)典的方法。

        2.1.1 典型相關(guān)系數(shù)

        歷史上第一個(gè)變量組間的關(guān)聯(lián)系數(shù)是由Hotelling于1936年提出的典型相關(guān)分析(Canonical correlation analysis,CCA)中得到的典型相關(guān)系數(shù)(Canonical correlation coefficient,CCC)[31]。它尋找第一個(gè)變量組的線性組合使得與第二個(gè)變量組的線性組合關(guān)聯(lián)性最大,由此獲得的關(guān)聯(lián)系數(shù)稱(chēng)為是典型的,線性組合稱(chēng)為是典型變量。其余的典型變量也可以遞歸地找到,但是變量與之前找到的典型變量對(duì)正交。

        CCA提供了一系列的典型相關(guān)系數(shù),因此由典型相關(guān)系數(shù)刻畫(huà)的兩個(gè)變量組之間的關(guān)聯(lián)不是一個(gè)全局度量。因?yàn)殛P(guān)系的強(qiáng)度是由部分變量組成的。CCA的發(fā)展中也有基于全局變量的相關(guān)系數(shù)但核心依賴(lài)于典型相關(guān)系數(shù)[23]。典型相關(guān)系數(shù)是帶約束的Pearson相關(guān)系數(shù),具有Pearson相關(guān)系數(shù)的性質(zhì)。將CCA與別的統(tǒng)計(jì)方法結(jié)合也取得一些很好的效果[32]。

        2.1.2 RV系數(shù)

        若將隨機(jī)向量X和Y看作兩個(gè)變量簇,可以通過(guò)比較兩個(gè)點(diǎn)簇間協(xié)方差結(jié)構(gòu)的相似性確定兩個(gè)隨機(jī)向量間的關(guān)聯(lián)系數(shù)。因此,RV系數(shù)(RV coefficient)提供了一個(gè)變量對(duì)間樣本關(guān)聯(lián)系數(shù)的全局度量[33]。

        (1)

        RV系數(shù)的性質(zhì):

        (1)當(dāng)p=q=1,時(shí),RV=r2,r2是樣本相關(guān)系數(shù)的平方。

        (2)0≤RV≤1,RV=0表明隨機(jī)向量X和Y之間不相關(guān),X′Y=0;RV=1表面由兩個(gè)數(shù)據(jù)集誘導(dǎo)的結(jié)構(gòu)相似。如果Y=XB+1C,其中B是p×q的矩陣,1∈Rn×1是取值為1的向量,C是1×q的常數(shù)向量,則RV=1。

        2.1.3 最大相關(guān)系數(shù)

        2.2 基于獨(dú)立性檢驗(yàn)的關(guān)聯(lián)關(guān)系度量

        獨(dú)立性分析是概率論與統(tǒng)計(jì)學(xué)中重要的研究?jī)?nèi)容。比如在假設(shè)檢驗(yàn)中,構(gòu)造一個(gè)統(tǒng)計(jì)度量γ,如果γ(X,Y)=0,則稱(chēng)隨機(jī)變量X和Y在γ度量下是統(tǒng)計(jì)獨(dú)立。如果γ(X,Y)≠0,稱(chēng)隨機(jī)變量X和Y在γ度量下是統(tǒng)計(jì)不獨(dú)立的。在實(shí)際應(yīng)用中更感興趣的是如果兩隨機(jī)變量不獨(dú)立,它們之間存在什么依賴(lài)關(guān)系。

        2.2.1 基于分布函數(shù)的關(guān)聯(lián)度量

        由Sklar定理知,存在一個(gè)d維連接函數(shù)C對(duì)所有(x1,x2,…,xd)∈Rd,使得聯(lián)合分布函數(shù)與邊際分布函數(shù)存在關(guān)系:F(x1,x2,…,xd)=C(F1(x1),F2(x2),…,Fd(xd))[35]。在此基礎(chǔ)上,Schweizer Wolff等人研究了關(guān)于Lp距離的相關(guān)系數(shù),分別得到L1,L2,L∞范數(shù)的關(guān)聯(lián)度量系數(shù)Wolf′sσ,Hoeffding′sΦ2和Wolf′s κ,即

        (2)

        (3)

        (4)

        式中:(u,v)∈I2=[0,1]×[0,1],C(u,v)為I2上的概率分布函數(shù),∏(u,v)=uv為I2上的獨(dú)立copula函數(shù)[36]。

        copula函數(shù)具有只需研究隨機(jī)向量X和Y之間的依賴(lài)程度而不關(guān)心X和Y內(nèi)部的依賴(lài)等一些良好的性質(zhì),因此受到廣泛關(guān)注,Nelsen建立了copula函數(shù)與傳統(tǒng)相關(guān)系數(shù)之間的關(guān)系[37],Ding等提出不同維隨機(jī)向量之間的關(guān)聯(lián)系數(shù),該度量不僅能刻畫(huà)變量之間的線性關(guān)系,還能發(fā)現(xiàn)非線性關(guān)系,對(duì)噪聲具有魯棒性[28]。

        2.2.2 基于概率密度函數(shù)的關(guān)聯(lián)度量

        2.2.3 基于特征函數(shù)的關(guān)聯(lián)度量

        (5)

        (6)

        式中:ν2(X,X)=ν2(X),ν2(X,Y)=ν2(Y)為距離方差。

        (2)如果隨機(jī)向量X和Y是一維標(biāo)準(zhǔn)正態(tài)分布,則R2(X,Y)是ρ(X,Y)的非減函數(shù),并且有

        (7)

        (3)具有線性仿射不變性:對(duì)向量X和Y進(jìn)行如下變換X→a1+b1C1X,Y→a2+b2C2Y,其中a1,a2是任意向量,b1,b2是任意非零實(shí)數(shù);C1,C2是任意正交矩陣;則變換后的距離相關(guān)系數(shù)不變。

        (4)由ν2(X,Y)的表達(dá)式可知dCor是基于加權(quán)L2距離構(gòu)造的,改變權(quán)重函數(shù)ω和距離范式Lp都可以得到不同的距離度量公式。

        (8)

        (9)

        對(duì)變量間歐式距離進(jìn)行核變化,給小距離變量對(duì)更多的重要性,使得變換后的距離能更好地抓住函數(shù)關(guān)系的局部性質(zhì),相比歐式距離能更好地捕捉各種關(guān)聯(lián)關(guān)系。該系數(shù)與RV系數(shù)的構(gòu)造思想相同,只是樣本矩陣進(jìn)行了三次中心化處理,最大相似系數(shù)的最大值依賴(lài)于參數(shù),但是不局限于識(shí)別線性關(guān)系。

        關(guān)于關(guān)聯(lián)關(guān)系的度量方法還有很多,本文不做贅述,只從經(jīng)典關(guān)聯(lián)系數(shù)的基本構(gòu)造角度出發(fā)進(jìn)行總結(jié),以期對(duì)大數(shù)據(jù)關(guān)聯(lián)關(guān)系新范式的構(gòu)造提供啟發(fā)。

        3 大數(shù)據(jù)變量間關(guān)聯(lián)關(guān)系度量可能滿足的條件

        大數(shù)據(jù)的特征使得變量間關(guān)聯(lián)關(guān)系測(cè)度比傳統(tǒng)相關(guān)關(guān)系度量的要求更高。面對(duì)大數(shù)據(jù)時(shí)代關(guān)聯(lián)關(guān)系度量帶來(lái)的挑戰(zhàn),構(gòu)造新的能夠刻畫(huà)這些挑戰(zhàn)的關(guān)聯(lián)度量勢(shì)在必行。本文結(jié)合文獻(xiàn)[28,34,36]給出的度量公理化標(biāo)準(zhǔn)與大數(shù)據(jù)表現(xiàn)出的特點(diǎn),試給出大數(shù)據(jù)關(guān)聯(lián)度量可能需滿足的一些性質(zhì),δ(X,Y)表示兩隨機(jī)變量之間的關(guān)聯(lián)度量。

        (1)δ(X,Y)可以度量任意兩個(gè)隨機(jī)變量(向量)X和Y,只要X和Y不處處為常數(shù);要求δ不僅能分別識(shí)別連續(xù)型和離散型隨機(jī)變量,還能識(shí)別混合型變量形式。

        (2)δ(X,Y)=δ(Y,X)。要求δ具有對(duì)稱(chēng)性,隨機(jī)變量X和Y在度量中的位置不影響度量值的大小。

        (3)0≤δ(X,Y)≤1。這個(gè)實(shí)數(shù)值僅僅為了比較,它的范圍可以是任意的。把范圍控制在[0,1]之間也便于不同方法之間的比較,1表示嚴(yán)格的依賴(lài)關(guān)系,0表示相互獨(dú)立。

        (4)δ(X,Y)=0當(dāng)且僅當(dāng)X和Y統(tǒng)計(jì)獨(dú)立。獨(dú)立一定不相關(guān)(線性),不相關(guān)(線性)不一定獨(dú)立(正態(tài)分布除外)。例如隨機(jī)變量X~N(0,1),Y=X2,變量X和Y之間有很強(qiáng)的關(guān)聯(lián)關(guān)系(二次函數(shù)形式),但是E(X-EX)(Y-EY)=E(XY)-(EX)(EY)=EX3-(EX)(EX2)=0,因?yàn)闃?biāo)準(zhǔn)正態(tài)分布的任何奇數(shù)階矩都是零。因此ρX,Y=0不能說(shuō)明變量X和Y是獨(dú)立的,即皮爾遜相關(guān)系數(shù)ρX,Y不能識(shí)別非線性關(guān)系,因此要求度量δ具有普適性,能檢測(cè)到任何關(guān)聯(lián)形式。

        (5)δ(X,Y)=1當(dāng)隨機(jī)向量X和Y滿足X=f(Y)或Y=g(X),其中f,g是Borel可測(cè)函數(shù)。所謂Borel可測(cè)函數(shù)就是Borel集(可測(cè)集E[δ>a],?a∈R稱(chēng)為Borel集)上的實(shí)函數(shù),f,g不一定是嚴(yán)格單調(diào)連續(xù)函數(shù)。

        (6)如果Borel可測(cè)函數(shù)f(x),g(y)與Range(x),Range(y)一一映射,則δ(f(X),g(Y))=δ(X,Y)即隨機(jī)變量經(jīng)過(guò)一些單調(diào)或可逆變換,變量間關(guān)聯(lián)強(qiáng)度保持不變,Range(·)是變量的定義域。

        (7)如果X和Y的聯(lián)合分布正態(tài)分布,則δ(X,Y)=f(|ρ(X,Y)|),其中ρ(X,Y)是X和Y的Pearson相關(guān)系數(shù)。在正態(tài)分布情況下,δ是ρ的嚴(yán)格增函數(shù)。

        (8)若隨機(jī)變量Y=f(X)+η,Z=g(X)+η,η為噪聲項(xiàng)且噪聲量相同,則δ(Y,X)=δ(Z,X)。即度量δ不受噪聲影響,只與變量的關(guān)聯(lián)強(qiáng)度有關(guān),具有一定的魯棒性。關(guān)聯(lián)度量的主要目的是用來(lái)排序變量對(duì)的關(guān)聯(lián)強(qiáng)度得分,因此度量δ與具體關(guān)聯(lián)形式無(wú)關(guān)。度量δ能夠正確地反映隱藏在噪聲背后的判別關(guān)系(線性或者非線性)強(qiáng)度。

        由于大數(shù)據(jù)中關(guān)聯(lián)關(guān)系的多樣性、多模態(tài)性以及價(jià)值密度低等特性,新的度量需具有普適性,對(duì)任何關(guān)聯(lián)形式?jīng)]有偏向。由于數(shù)據(jù)噪聲的影響,希望關(guān)聯(lián)關(guān)系能夠識(shí)別噪聲背后真正的關(guān)聯(lián)關(guān)系,防止出現(xiàn)偽相關(guān)或者忽略了一些重要的變量關(guān)聯(lián)關(guān)系,因此一個(gè)穩(wěn)健的關(guān)聯(lián)關(guān)系度量在大數(shù)據(jù)時(shí)代十分重要。

        4 多模態(tài)數(shù)據(jù)中的關(guān)聯(lián)關(guān)系度量展望

        多模態(tài)是大數(shù)據(jù)時(shí)代數(shù)據(jù)的顯著特點(diǎn)之一,關(guān)于多模態(tài)數(shù)據(jù)的研究已引起廣泛關(guān)注[45-48]。在多模態(tài)數(shù)據(jù)中,每個(gè)模態(tài)之間的信息互為差異,又互為補(bǔ)充,每個(gè)模態(tài)之間有一定的關(guān)聯(lián)性,挖掘不同模態(tài)之間潛在關(guān)系是十分值得研究的問(wèn)題?,F(xiàn)有的多模態(tài)數(shù)據(jù)分析主要采用分治融合的思想,主要有3種融合方式:基于數(shù)據(jù)融合、基于特征融合和基于決策融合[49]?;跀?shù)據(jù)的融合是直接在原始數(shù)據(jù)上處理,信息損失少,將融合后的數(shù)據(jù)看作同一特征空間的數(shù)據(jù),可以采用現(xiàn)有的關(guān)聯(lián)度量方法分析?;谔卣鞯娜诤鲜窍仍诿總€(gè)特征空間下進(jìn)行數(shù)據(jù)壓縮,再將特征合并到一個(gè)大空間中,然后在大的特征空間下進(jìn)行數(shù)據(jù)挖掘與分析?;跊Q策級(jí)的融合是最高級(jí)的數(shù)據(jù)融合,先從各傳感器中獲得特征向量,對(duì)此空間下的特征進(jìn)行決策,然后將各個(gè)傳感器中的決策進(jìn)行融合得到最終想要的結(jié)果。它們的共同之處在于這些特征分析都基于先驗(yàn)知識(shí),結(jié)果的有效性難以推廣到先驗(yàn)知識(shí)匱乏的前言探索領(lǐng)域。

        多模態(tài)數(shù)據(jù)多是非結(jié)構(gòu)性的數(shù)據(jù),同一模態(tài)中的數(shù)據(jù)表現(xiàn)出高度非線性性,可以改進(jìn)現(xiàn)有方法進(jìn)行研究[50-52]。不同模態(tài)間結(jié)構(gòu)關(guān)聯(lián)關(guān)系研究鮮有報(bào)道,不同模態(tài)間潛在的特征關(guān)聯(lián)性度量是大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量的重要問(wèn)題。傳統(tǒng)的方法根據(jù)先驗(yàn)事先標(biāo)注多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,但是人為標(biāo)注復(fù)雜關(guān)聯(lián)關(guān)系幾乎不可能?;蛘咴诓煌B(tài)特征上學(xué)習(xí)一組權(quán)重進(jìn)行融合,但是變量之間在語(yǔ)義上可能不一致。本文的觀點(diǎn)是把不同模態(tài)的數(shù)據(jù)在同一語(yǔ)義空間下進(jìn)行重新表示。觀察一個(gè)多模態(tài)數(shù)據(jù)集,變量不在同一個(gè)語(yǔ)義空間,很難確定對(duì)象的準(zhǔn)確空間位置,但是可以學(xué)習(xí)到每個(gè)變量的概率分布,那么是否可以將變量映射到一個(gè)概率空間來(lái)學(xué)習(xí);如果可以學(xué)習(xí)到每個(gè)變量下的鄰域或整個(gè)特征集上的鄰域,是否可以將變量映射到一個(gè)鄰域空間學(xué)習(xí);對(duì)象間的差異性不好度量,可以用其他對(duì)象作為參照物來(lái)刻畫(huà),那么是否可以將變量映射到一個(gè)由參照物構(gòu)造的空間中學(xué)習(xí)。本文嘗試?yán)寐?lián)合概率解決異構(gòu)變量造成的挑戰(zhàn),將異構(gòu)變量組成的屬性集轉(zhuǎn)換到同一概率空間下,在新的空間中進(jìn)行數(shù)據(jù)挖掘工作并取得良好的效果[53]。同時(shí),如果找到一個(gè)度量能夠刻畫(huà)不同模態(tài)間的關(guān)聯(lián)關(guān)系,但是度量得分高不一定就說(shuō)明模態(tài)間關(guān)聯(lián)關(guān)系密切,如何設(shè)計(jì)統(tǒng)計(jì)檢驗(yàn)方法檢驗(yàn)度量的合理性也是值得注意的問(wèn)題。

        5 結(jié)束語(yǔ)

        本文從推動(dòng)大數(shù)據(jù)挖掘角度出發(fā),結(jié)合粒計(jì)算的思想,認(rèn)為關(guān)聯(lián)分析是應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的基礎(chǔ)。針對(duì)大數(shù)據(jù)大規(guī)模性導(dǎo)致關(guān)聯(lián)關(guān)系多樣性、多模態(tài)性導(dǎo)致異構(gòu)變量關(guān)聯(lián)關(guān)系難刻畫(huà)、混合性導(dǎo)致噪聲量影響關(guān)聯(lián)關(guān)系度量的魯棒性等特點(diǎn),從構(gòu)造關(guān)聯(lián)關(guān)系度量新范式的角度出發(fā),指出新范式應(yīng)該具有普適性、均衡性和魯棒性等特點(diǎn)。大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量的研究還很年輕,尚有諸多問(wèn)題亟待解決,本文僅對(duì)大數(shù)據(jù)背景下關(guān)聯(lián)關(guān)系度量遇到的挑戰(zhàn)進(jìn)行了一些思考,希望能起到拋磚引玉的作用,促進(jìn)大數(shù)據(jù)挖掘工作的進(jìn)展。

        [1] Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition and productivity[R]. USA, Mckinsey Global Institute, 2011.

        [2] 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,27(6): 647-657.

        Li Guojie, Chen Xueqi.Big data research:The future of science and technology,economic and social development of major strategic areas: Research status and scientific thinking of big data[J]. Bulletin of Chinese Academy of Sciences, 2012, 27(6): 647-657.

        [3] Speed T. A correlation for the 21st century[J]. Science, 2011, 334:1502-1503.

        [4] Fan J, Han F, Liu H. Challenges of big data analysis [J]. National Science Review, 2013, 1:293-314.

        [5] 李國(guó)杰. 大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9):8-15.

        Li Guojie. Scientific value of big data research[J]. Communications of the CCF, 2012, 8(9):8-15.

        [6] 王元卓, 靳小龍, 程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 35(6): 1125-1138.

        Wang Yuanzhuo, Jin Xiaolong, Cheng Xueqi. Network big data: Present and future[J]. Chinese Journal of Computers, 2013, 35(6): 1125-1138.

        [7] 孟小峰, 李勇, 祝建華. 社會(huì)計(jì)算: 大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(12):2483-2491.

        Meng Xiaofeng, Li Yong, Zhu Jianhua. Social computing in the era of big data: Opportunities and challenges[J]. Journal of Computer Research and Development, 2013, 50(12):2483-2491.

        [8] Davis J M, Searles Quick V B, Sikela J M. Replicated linear association between DUF1220 copy number and severity of social impairment in autism[J]. Hum Genet, 2015, 134:569-575.

        [9] 周志華, 王玨. 機(jī)器學(xué)習(xí)及其應(yīng)用[M]. 北京:清華大學(xué)出版社, 2007.

        Zhou Zhihua, Wang Jue. Machine learning and application[M]. Beijing: Tsinghua University Press, 2007.

        [10]Reshef D N, Reshef Y A, Hilary K F, et al. Detecting novel associations in large data sets [J]. Science, 2011, 334:1518-1524.

        [11]梁吉業(yè),錢(qián)宇華,李德玉,等.大數(shù)據(jù)挖掘的粒計(jì)算理論與方法[J].中國(guó)科學(xué):信息科學(xué),2015,45(11):1355-1369.

        LiangJiye,QianYuhua,Li Deyu,et al.Theory and method of granular computing for big data mining[J].Scientia Sinica: Informationis,2015,45(11):1355-1369.

        [12]Duran B S, Odell P L. Cluster analysis: A survey [M]. Berlin Heidelgerg: Springer-Verlag, 2013.

        [13]Mi Huaiyu, Anushya M, John T C, et al. Large-scale gene function analysis with the panther classification system[J]. Nature Protocols, 2013, 8(8): 1551-1566.

        [14]Puth M T, Neuhauser M, Ruxton G D. Effective use of pearson's producte moment correlation coefficient[J]. Animal Behaviour, 2014, 93:183-189.

        [15]Puth M T, Neuhauser M, Ruxton G D. Effective use of Spearman's and Kendall's correlation coefficients for association between two measured traits[J]. Animal Behaviour, 2015, 102: 77-84.

        [16]孫祿杰, 柏滿迎. 相關(guān)系數(shù)與連接函數(shù)[J].統(tǒng)計(jì)與決策, 2006(16):4-6.

        Sun Lujie, Bai Manying. The correlation coefficient and copula function[J]. Statistics and Decision, 2006(16):4-6.

        [17]Alessandro V, Maja P, Dirk H, et al. Bridging the gap between social animal and unsocial machine: A survey of social signal processing[J]. IEEE Transactions on Affective Computing, 2012, 3(1):69-87.

        [18]Székely G J, Rizzo M L, Bakirov N K. Measuring and testing independence by correlation of distances[J]. The Annals of Applied Statistics, 2007, 35: 2769-2794.

        [19]Székely G J, Rizzo M L. Brownian distance covariance[J].The Annals of Applied Statistics, 2009, 3(4): 1236-1265.

        [20]David L P, Philipp H, Bernhard S. The randomized dependence coefficient[C]∥Neural Information Pracessing Systems Foundation. Montreal, Ganada:[s.n.], 2013:1-9.

        [21]Gardoso J F. Dependence, correlation and gaussianity in independent component analysis[J]. Journal of Machine Learning Research, 2003, 4:177-1203.

        [22]Goodmam L A, Kruskal W H. Measure of association for cross classification,Ⅱ:further discussion and reference[J]. Journal of the American Statistical Association, 1959, 54(285): 123-163.

        [23]Bach F R, Jordan M I. Kernel independent component analysis[J]. JMLR, 2002, 3:1-48.

        [24]George G, Hass M, Pentland A S. Big data and management[J]. Academy of Manage-ment Journal, 2014, 57( 2) : 321-326.

        [25]Christoph B. Autocorrelation type functions for big and dirty data series [EB/OL]. http:∥arXiv.org/pdf/1411.3904v2.pdf,2014-11-14.

        [26]張鈸. 用人工智能讀懂大數(shù)據(jù)[N]. 中國(guó)信息化周報(bào), 2015-06-15.

        Zhang Bo. Understanding big data with artificial intelligence [N]. China Information Weekly, 2015-06-15.

        [27]Kinney, J B, Atwal G S. Equitability, mutual information, and the maximal information coefficient [J]. Proceedings of the National Academy of Sciences, 2014, 111: 3354-3359.

        [28]Ding A A, Yi Li. Copula correlation: An equitable dependence measure and extension of pearson's correlation [EB/OL]. http:∥arXiv.org/pdf/1312.7214v4.pdf,2013-12-27.

        [29]Galton F. Co-relations and their measurement, chiefly from anthropometric data [J]. Proceedings of the Royal Society of London, 1888, 45: 135-145.

        [30]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J]. 統(tǒng)計(jì)研究, 2014, 31(1):5-9.

        Geng Zhi. Opportunities and challenges in the age of big data for statistics [J]. Statistical Research, 2014, 31(1):5-9.

        [31]Hotelling H. Relations between two sets of variates [J]. Biometrika, 1936, 28(3/4): 321-377.

        [32]卞金洪, 王吉林, 余威風(fēng), 等. 基于核主分量分析和典型相關(guān)分析的語(yǔ)音情感識(shí)別[J]. 數(shù)據(jù)采集與處理,2014,29(2):222-226.

        Bian Jinhong, Wang Jilin, Yu Weifeng, et al. Speech emotion recognition based on KPCA and CCA[J]. Journal of Data Acquisition and Processing, 2014, 29(2):222-226.

        [33]Josse J, Pagès J, Husson F. Testing the significance of the RV coefficient[J]. Computational Statistics and Data Analysis, 2008, 53: 82-91.

        [34]Renyi A. On measures of dependence[J]. Acta Mathematica Academiae Scientiarum Hungaricae, 1959, 10:441-451.

        [35]Piotr J, Fabrizio D, Wolfgang H, et al. Copula theory and its applications[M]. New York: Springer,2009.

        [36]Schweizer B, Wolff E F. On nonparametric measures of dependence for random variables[J]. The Annals of Statistics, 1981, 9: 879-885.

        [37]Nelsen R B. An introduction to copulas (Springer series in statistics)[M]. New York, NJ, USA:Springer-Verlag, 2006.

        [38]Shannona C E. A mathematical theory of communication[J]. The Bell System Technical Journal, 1984, 27: 379-423, 623-656.

        [39]Lejla B, Benedikt G, Emmanuel P, et al. Mutual information analysis: A comprehensive study[J]. J Cryptol, 2011, 24: 269-291.

        [40]Moon Y, Rajagopalan B, Lall U. Estimation of mutual information using kernel density estimators[J]. Physical Review E, 1995, 52(3): 2318-2321.

        [41]Kraskov A, Stogbauer H, Grassberger P. Estimating mutual information[J]. Physical Review E, 2004, 69(2):1-16.

        [42]Joe H. Relative entropy measures of multivariate dependence [J]. Journal of the American Statistical Association,1989, 84: 157-164.

        [43]Linfoot E H. An informational measure of correlation [J]. Information and Control, 1957, 1(1):85-89.

        [44]Roberto D, Pascual-Marqui D L, Kieko K, et al. A measure of association between vectors based on "similarity covariance"[EB/OL]. http:∥arXiv.org/ftp/arXiv/papers/1301/1301.4291.pdf, 2013-1-18.

        [45]Friston K J. Modalities, modes, and models in functional neuroimaging [J]. Science, 2009, 326(5951):399-403.

        [46]Zhang Daoqiang, Shen Dinggang. Multi-modal multi-task learning for joint prediction of multiple regression and classification variables in Alzheimer′s disease [J]. NeuroImage, 2012, 59 (2): 895-907.

        [47]Zeng Zhihong, Pantic M, Roisman G I, et al. A survey of affect recognition methods: Audio, visual, and spontaneous expressions [J]. IEEE Transactions on Pattern Recognition and Machine Intelligence, 2009, 31(1):39-58.

        [48]Guo Z, Zhang Z F, Xing E. Enhanced max margin learning on multimodal data mining in a multimedia database[C]∥Proceeding of 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.[S.l.]:IEEE, 2007, 340-349.

        [49]John W f, Willam T, Darrell T, et al. Learning joint statistical models for audio-visual fusion and segregation[C]∥Advance in Neural Information Processing Systems. Danver: MIT Press, 2000, 772-778.

        [50]Bucak S, Jin R, Jain A K. Multiple kernel learning for visual object recognition: A review [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014,36(7):1354-1369.

        [51]Yang Meng, Zhang Lei, Zhang David, et al. Relaxed collaborative representation for pattern classification [C]∥Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference. [S.l.]:IEEE,2012: 2224-2231.

        [52]Wu Pengcheng, Hoi Steven C H. Xia Xiao, et al. Online multi-model deep similarity learning with application to image retrieval[C]∥Proceedings of the 21st ACM International Conference on Multimedia (MM2013). [S.l.]:ACM, 2013: 153-162.

        [53]Qian Yuhua, Li Feijiang, Liang Jiye, et al. Space structure and clustering of categorical data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015,99:113.

        Review for Variable Association Measures in Big Data

        Qian Yuhua1,2, Cheng Honghong1,2, Liang Xinyan1,2, Wang Jianxin1,2

        (1.Key Laboratory for Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan, 030006, China; 2.School of Computer and Information Technology, Shanxi University, Taiyuan, 030006, China)

        Association analysis implemented with fantastic association measures is a basis of big data mining, so finding a reasonable measure is a key step for assocization analysis. Firstly, the challenge and research status of association measures are pointed out in the era of big data. From the perspective of the structure of the correlation measure, the exiting measures are systemized, and the properties and applicable corditions are summarized, respectively. Secondly,based on the development of correlation measures and the challanges of big data era, some conditions for meeting association measure are put forward to respond to meetting association measure challeges. Finally, some correlation measures in multi-modal data analysis are discussed and combed, and some ideas are provided to deal with the space conversion from three different angles, which attract more in-depth thinking and research, therefore promoting the progress on big data mining.

        big data; association analysis; association measure; multi-modal data

        國(guó)家優(yōu)秀青年科學(xué)基金(61322211)資助項(xiàng)目;教育部新世紀(jì)人才支持計(jì)劃(NCET-12-1031)資助項(xiàng)目;教育部博士點(diǎn)專(zhuān)項(xiàng)科研基金(20121401110013)資助項(xiàng)目;山西省青年學(xué)術(shù)帶頭人基金(20120301)資助項(xiàng)目。

        2015-10-10;

        2015-11-05

        TP181

        A

        王建新(1990-),男,碩士研究生,研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。

        成紅紅(1986-),女,博士研究生,研究方向:大數(shù)據(jù)關(guān)聯(lián)分析、特征選擇、多模態(tài)數(shù)據(jù)關(guān)聯(lián)。

        梁新彥(1989-),男,碩士研究生,研究方向:粗糙集與多模態(tài)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)。

        錢(qián)宇華(1976-),男,教授,研究方向:粒計(jì)算、人工智能碩士,研究方向:粗糙集與多模態(tài)數(shù)據(jù)的知識(shí)發(fā)現(xiàn),E-mail:jinchenggyh@126.com。

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)模態(tài)
        “苦”的關(guān)聯(lián)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        奇趣搭配
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        久久久精品国产视频在线| 中文字幕被公侵犯的漂亮人妻| 久久精品女人天堂av| 国产一区二区激情对白在线| 玩弄极品少妇被弄到高潮| 日韩在线视精品在亚洲| 亚洲精品乱码久久麻豆| 亚洲国产精品不卡av在线| 香蕉人人超人人超碰超国产 | av中文字幕一区不卡| 国产中文字幕乱人伦在线观看| AV有码在线免费看| 日韩精品不卡一区二区三区| 国产精品福利高清在线| 一本久久伊人热热精品中文字幕| 亚洲欧美精品91| 国产三级av在线播放| 色吧噜噜一区二区三区| 人妻少妇精品无码专区二区| 亚洲精品中国国产嫩草影院美女| 激情视频在线播放一区二区三区| 久草青青91在线播放| 国产激情内射在线影院| 久久国产成人午夜av影院| 精品人妻日韩中文字幕| 777精品出轨人妻国产| 九九久久精品国产| 精品黑人一区二区三区| 青青草小视频在线播放| 亚洲va无码手机在线电影| 亚洲Va中文字幕久久无码一区| 久久久噜噜噜噜久久熟女m| 亚洲av永久无码精品一福利| 最近免费中文字幕| 国产成人AⅤ| 大香焦av一区二区三区| 亚洲性啪啪无码av天堂| 亚洲熟妇大图综合色区| 侵犯了美丽丰满人妻中文字幕| 无码人妻aⅴ一区二区三区| 伊人色综合视频一区二区三区|