亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)的若干基礎研究方向

        2017-04-21 08:06:40朱揚勇熊贇
        大數(shù)據(jù) 2017年2期
        關鍵詞:基礎方法研究

        朱揚勇,熊贇

        1. 復旦大學計算機科學技術學院,上海 200433;2. 上海市數(shù)據(jù)科學重點實驗室,上海 200433

        大數(shù)據(jù)的若干基礎研究方向

        朱揚勇1,2,熊贇1,2

        1. 復旦大學計算機科學技術學院,上海 200433;2. 上海市數(shù)據(jù)科學重點實驗室,上海 200433

        大數(shù)據(jù)問題的關鍵技術挑戰(zhàn)在于:找到隱含在低價值密度數(shù)據(jù)中的價值;在希望的時間內完成。指出前者需要將領域知識和數(shù)據(jù)技術結合,這種結合的理論和新型算法構成大數(shù)據(jù)的分析基礎和應用基礎;后者需要設計新的計算機、集群體系、計算框架、存儲體系和數(shù)據(jù)管理方法,這些構成大數(shù)據(jù)的計算基礎和數(shù)據(jù)基礎。另外,這兩個挑戰(zhàn)都涉及數(shù)學理論,這是大數(shù)據(jù)的數(shù)學基礎。系統(tǒng)地分析了大數(shù)據(jù)的數(shù)學基礎、計算基礎、數(shù)據(jù)基礎、分析基礎和應用基礎等基礎研究方向。

        大數(shù)據(jù);數(shù)據(jù)科學;大數(shù)據(jù)基礎;數(shù)據(jù)資源

        1 引言

        數(shù)據(jù)資源開發(fā)利用的目的是實現(xiàn)大數(shù)據(jù)價值。大數(shù)據(jù)是指為決策問題提供服務的大數(shù)據(jù)集、大數(shù)據(jù)技術和大數(shù)據(jù)應用的總稱[1];大數(shù)據(jù)問題是指不能用當前技術在決策希望的時間內處理分析的數(shù)據(jù)資源開發(fā)利用問題[1]。就當下而言,現(xiàn)有技術難以處理PB級別以上的數(shù)據(jù)。PB級別的數(shù)據(jù)規(guī)模已經(jīng)超過了大部分企業(yè)和機構自身積累的業(yè)務數(shù)據(jù)規(guī)模,這說明PB級別數(shù)據(jù)規(guī)模的應用涉及了企業(yè)和機構外部的數(shù)據(jù),這是質的轉變。在PB級別數(shù)據(jù)規(guī)模下,企業(yè)和機構可以用歷史數(shù)據(jù)、跨界數(shù)據(jù)等足夠多的數(shù)據(jù)來做決策。這將對科學研究、政府治理、民生改善、產(chǎn)業(yè)發(fā)展發(fā)揮革命性的作用。PB級別數(shù)據(jù)規(guī)模帶來的技術挑戰(zhàn)也是非常明顯的,即“大數(shù)據(jù)問題”。從技術角度看,PB級別的數(shù)據(jù)量給計算機的硬件和軟件都帶來了挑戰(zhàn):機械硬盤、盤陣、體系結構、計算框架、數(shù)據(jù)移動、多地計算/異地計算、數(shù)據(jù)管理、數(shù)據(jù)分析等。隨著計算技術的進步,這些技術問題是否就會得到解決?回答是否定的。摩爾定律(Moore’s Law)不能解決大數(shù)據(jù)問題,摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來的[2]。其內容為:當價格不變時,集成電路上可容納的元器件的數(shù)目,每隔18~24個月便會增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18~24個月翻一倍以上。這一定律揭示了信息技術進步的速度。自從PC時代以來,每次技術進步生產(chǎn)的計算機以億萬臺計,每臺計算機都在生產(chǎn)數(shù)據(jù)。現(xiàn)在想將很多臺計算機生產(chǎn)的數(shù)據(jù)集中起來處理和分析,顯然是現(xiàn)有技術不能實現(xiàn)的。這就是大數(shù)據(jù)問題產(chǎn)生的根源。大數(shù)據(jù)問題的關鍵技術挑戰(zhàn)在于:找到隱含在低價值密度數(shù)據(jù)資源中的價值;在希望的時間內完成所有的任務。前者需要領域業(yè)務知識和數(shù)據(jù)技術相結合,這種結合的理論和新型算法構成了大數(shù)據(jù)的分析基礎和應用基礎;后者需要設計新的計算機、集群體系、計算框架、存儲體系和數(shù)據(jù)管理方法,這些構成了大數(shù)據(jù)的計算基礎和數(shù)據(jù)基礎。另外,這兩個挑戰(zhàn)都涉及了一些抽象的數(shù)學理論,這是大數(shù)據(jù)的數(shù)學基礎。面對大數(shù)據(jù)問題的挑戰(zhàn),需要研究如何發(fā)展大數(shù)據(jù),如何從實踐總結經(jīng)驗,抓住核心問題重點突破,實現(xiàn)原始創(chuàng)新,從基礎做起,掌握核心技術,探索大數(shù)據(jù)的基礎理論,為解決大數(shù)據(jù)如何用、如何管、如何算等關鍵問題提供理論指導。

        2 大數(shù)據(jù)的基礎

        信息化和大數(shù)據(jù)二者的關系是“不混淆、不沖突”。

        ● 不混淆是指信息化和大數(shù)據(jù)是不同的,不能混為一談,信息化是生產(chǎn)數(shù)據(jù)的,大數(shù)據(jù)是開發(fā)數(shù)據(jù)的。從技術角度來看,信息化是技術進步促進數(shù)據(jù)增長;大數(shù)據(jù)是數(shù)據(jù)增長促進技術進步。

        ● 不沖突是指大數(shù)據(jù)不取代信息化,信息化不包含大數(shù)據(jù)。這樣,信息化工作照樣做,并且信息化仍然將快速發(fā)展。但大數(shù)據(jù)已經(jīng)從信息化工作中獨立出來,如果說信息化對應的技術叫信息技術(information technology,IT),那么大數(shù)據(jù)對應的技術可以叫數(shù)據(jù)技術(data technology,DT)。

        核心點是數(shù)據(jù)增長促進技術進步。例如,當前10 PB規(guī)模的數(shù)據(jù)無論是從上海到北京,或者是從一個數(shù)據(jù)中心到另外一個數(shù)據(jù)中心,甚至從一個存儲集群到另一個存儲集群,都是困難的、難以忍受的。既然數(shù)據(jù)大到難以移動,那么如何集成多個數(shù)據(jù)資源進行計算,如何設計數(shù)據(jù)不移動、軟件移動的計算模型,實現(xiàn)多地計算、異地計算。又如,如何開發(fā)利用數(shù)據(jù)資源,如何確保數(shù)據(jù)安全和數(shù)據(jù)主權,這些都是數(shù)據(jù)量增長對技術進步的要求。

        信息化的技術和大數(shù)據(jù)的技術是不同的,參考文獻[1]給出了二者技術的對比。這樣,信息化的基礎研究和大數(shù)據(jù)的基礎研究也是不一樣的。大數(shù)據(jù)的基礎包括:應用基礎、分析基礎、數(shù)據(jù)基礎、計算基礎和數(shù)學基礎5個方面。

        圖1 大數(shù)據(jù)基礎邏輯關系

        圖2 2012—2016年國家自然科學基金資助的以“大數(shù)據(jù)”為主題詞的項目數(shù)

        大數(shù)據(jù)的應用基礎包括各學科、各領域的基于數(shù)據(jù)的新方法、新范式、新理論等,用于支撐基于大數(shù)據(jù)的科學研究方法、社會發(fā)展方式、經(jīng)濟建設模式和國防安全手段。大數(shù)據(jù)的應用基礎是建立在大數(shù)據(jù)技術、產(chǎn)品、工具和解決方案之上的,而這些產(chǎn)品和工具的開發(fā)需要大數(shù)據(jù)的分析基礎。大數(shù)據(jù)的分析基礎包括大數(shù)據(jù)分析理論與框架、大數(shù)據(jù)分析方法和算法、業(yè)務驅動的分析理論和方法等,大數(shù)據(jù)分析方法和算法的實現(xiàn)和實施需要大數(shù)據(jù)的數(shù)據(jù)基礎、計算基礎和數(shù)學基礎。大數(shù)據(jù)的數(shù)據(jù)基礎包括大數(shù)據(jù)的治理和管理、存儲理論和模型、可視化等;大數(shù)據(jù)的計算基礎包括多地計算/異地計算、計算框架、硬件設備、網(wǎng)絡設備等;大數(shù)據(jù)的數(shù)學基礎包括數(shù)據(jù)的數(shù)學結構、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性等。圖1給出了大數(shù)據(jù)基礎的邏輯關系。

        自2012年起,國家自然科學基金委員會對大數(shù)據(jù)研究開始立項,總體資助情況分布如圖2可以看出,在這5年期間,大數(shù)圖2所示。

        從據(jù)相關項目資助數(shù)持續(xù)增長,尤其是在2014年,相對于2013年有較大幅度的增長。2012年,大數(shù)據(jù)概念剛剛興起,國家自然科學基金項目申請時間點已過,所以2012年幾乎沒有什么項目。2013年,各學部開始支持大數(shù)據(jù)項目,全社會掀起大數(shù)據(jù)熱,各行各業(yè)都在討論大數(shù)據(jù)。于是,到2014年,大數(shù)據(jù)項目大幅度增長,主要是應用基礎的研究項目大幅度增長,幾乎每個學部都支持了大數(shù)據(jù)的研究項目(如圖3所示)。受資助的大數(shù)據(jù)相關項目在應用基礎、分析基礎、數(shù)據(jù)基礎、計算基礎和數(shù)學基礎各方面的項目資助占比情況如圖4所示??傮w來看,科研項目關注最多的是對各個領域大數(shù)據(jù)應用問題的研究(應用基礎占62%),其次主要集中在大數(shù)據(jù)挖掘方法研究(即分析基礎占18%),其他依次為:數(shù)據(jù)基礎(占11%)、計算基礎(占7%)和數(shù)學基礎(占2%)。

        圖3 2012—2016年國家自然科學基金委員會各學部資助項目數(shù)分布

        從2012—2016年每年的占比情況來看(如圖5所示),應用基礎有明顯的上升趨勢;分析基礎在2013年有明顯的上升,隨后占比較為平穩(wěn);數(shù)據(jù)基礎歷年占比都較為平穩(wěn),且所占比重也并不大;計算基礎所占比例呈現(xiàn)出逐年下降的趨勢(2016年稍有回升);數(shù)學基礎被關注的比例歷年很低,并維持穩(wěn)定(低比例)。

        圖4 2012—2016年在五大基礎方面的項目數(shù)總占比

        圖5 2012—2016年在五大基礎方面的項目數(shù)年度占比

        從圖5可以看出,在2012年大數(shù)據(jù)發(fā)展初期,計算框架和計算能力是推動大數(shù)據(jù)發(fā)展最急需的基礎,而之后隨著開源計算框架的出現(xiàn),計算基礎的比例又開始下降。然而,2016年,數(shù)據(jù)開放共享成為趨勢和重點,數(shù)據(jù)遷移、異地交換的需求又促進研究者探索新的計算框架。并且,分析基礎在2013年的突增也說明當時對大數(shù)據(jù)方法需求的增長,隨后相對穩(wěn)定。在計算基礎下降的過程中,應用基礎占比逐漸上升,這說明越來越多的領域參與到大數(shù)據(jù)的研究中來。

        圖6為2012—2016年國家自然科學基金項目在五大基礎方面的項目數(shù)的變化情況??梢钥闯觯髷?shù)據(jù)研究過程中數(shù)學基礎方面還需要更多的研究者參與和關注。在應用基礎研究方面目前已經(jīng)涉及眾多領域,應該總結共性技術和理論,減少重復研究。數(shù)據(jù)的資源性迫切需要開放共享,數(shù)據(jù)基礎的新問題、新技術、新理論的研究應該建立起來。

        圖6 2012—2016年在五大基礎方面的項目數(shù)年度變化情況

        3 大數(shù)據(jù)的應用基礎

        大數(shù)據(jù)的應用滲透到越來越多的領域,各領域大數(shù)據(jù)理論和方法的研究將為創(chuàng)新大數(shù)據(jù)應用、提升大數(shù)據(jù)價值奠定基礎,創(chuàng)造出基于大數(shù)據(jù)的新型科學研究、管理決策、社會發(fā)展、經(jīng)濟建設方法和模式等。大數(shù)據(jù)的應用基礎主要表現(xiàn)在各個學科基于大數(shù)據(jù)的創(chuàng)新,以科學研究的第四范式為代表[3],包括對人文社會科學的研究、管理決策新方法、外部事件驅動的管理決策方法、基于微觀數(shù)據(jù)的宏觀經(jīng)濟學等。

        GRAY J指出[3]:幾千年前,科學研究是用實驗解釋自然現(xiàn)象的;幾百年前,科學研究用理論模型探索科學規(guī)律,用實驗驗證理論;幾十年前,科學研究用計算機模擬復雜現(xiàn)象,探索其中的奧秘;現(xiàn)在,科學研究是基于對數(shù)據(jù)的探索。科學的目的是認識宇宙、認識物質、認識生命、認識社會。

        ● 在認識宇宙方面:人們用了很多方法,早期科學家用肉眼觀測天空,后來用望遠鏡,現(xiàn)在用射電望遠鏡。這些望遠鏡得到的結果是各種各樣的宇宙圖像,天文學家通過分析這些圖像來研究宇宙。

        ● 在認識物質方面:人類還在研究物質的構成,為此于2008年建成并運行了歐洲強子對撞機裝置。每一次正負電子的對撞,都產(chǎn)生了巨量的數(shù)據(jù)??茖W家們經(jīng)過不懈的努力,用了150個計算站點對200 PB數(shù)據(jù)用了3年時間分析,繼而科學家發(fā)現(xiàn)上帝粒子[4]。

        ● 在認識生命方面:自從DNA被發(fā)現(xiàn),人類對生命的認識進入了全新的階段,人類似乎找到生命的本質、遺傳的本質。DNA可以用A(腺嘌呤)、C(胞嘧啶)、G(鳥嘌呤)、T(胸腺嘧啶)4個字母的字符串表示,于是DNA變成了可以用計算機計算的數(shù)據(jù),生命科學研究就出現(xiàn)計算生物學的分支,并且迅速發(fā)展。生命科學家開始分析數(shù)據(jù),或者通過分析數(shù)據(jù)來研究生命。

        ● 在認識社會方面:信息化極大地推動了社會的發(fā)展和進步,社會的抽樣調查、問卷之類的研究方法將被淘汰,國家統(tǒng)計局已經(jīng)和百度、阿里巴巴等數(shù)十家互聯(lián)網(wǎng)公司合作進行數(shù)據(jù)收集和統(tǒng)計工作,共同推進大數(shù)據(jù)在政府統(tǒng)計中的應用,不斷增強政府統(tǒng)計的科學性和及時性。

        從上述分析可知,不論是自然科學還是社會科學,先進的研究方法是在數(shù)據(jù)上開展研究,這也說明,認識數(shù)據(jù)先于認識宇宙、認識物質、認識生命和認識社會。

        大數(shù)據(jù)應用基礎的主要研究方向如下。

        ● 各學科基于大數(shù)據(jù)的新方法、新范式、新理論等,包括生命科學、物理、化學、天文、歷史、社會、管理、經(jīng)濟等學科的大數(shù)據(jù)方法和模型研究與探索。

        ● 各領域基于數(shù)據(jù)的新方法、新范式、新理論等,包括醫(yī)療、金融、交通、環(huán)保、商業(yè)等領域的大數(shù)據(jù)創(chuàng)新模式、智能決策方法和模型研究與探索。

        ● 用于支撐基于大數(shù)據(jù)的科學研究方法、社會發(fā)展方式、經(jīng)濟建設模式和國防安全手段。

        國家自然科學基金委員會也已對上述各個研究方向開展資助,例如在生命科學的大數(shù)據(jù)方法研究項目有:“利用大數(shù)據(jù)信息挖掘和基因進化方法研究禽流感病毒的跨地域傳播”“基于大數(shù)據(jù)整合挖掘的腎細胞癌分子進化機制研究”等;商業(yè)、交通、環(huán)保等領域的大數(shù)據(jù)方法研究項目有:“大數(shù)據(jù)背景下的商業(yè)模式創(chuàng)新機制研究”“大數(shù)據(jù)驅動的產(chǎn)品精確設計理論、方法及其應用研究”“大數(shù)據(jù)環(huán)境下的復雜城市交通系統(tǒng)預測與控制”“數(shù)據(jù)驅動的我國PM2.5污染規(guī)律模型智能構建方法研究”“大數(shù)據(jù)驅動的我國典型重點流域水污染防控決策研究”以及“數(shù)據(jù)驅動的軍事復雜系統(tǒng)風險決策分析方法及其應用研究”“面向軍事情報的多媒體大數(shù)據(jù)分析與展示”等項目。

        4 大數(shù)據(jù)的分析基礎

        開發(fā)數(shù)據(jù)的核心是數(shù)據(jù)分析,也就是說大數(shù)據(jù)技術的核心是數(shù)據(jù)分析技術。目前,大數(shù)據(jù)分析技術主要在傳統(tǒng)方法上延伸拓展,還沒有從本質上解決大數(shù)據(jù)利用面臨的挑戰(zhàn)。這需要探索大數(shù)據(jù)分析技術的共性問題,主要研究方向如下。

        (1)傳統(tǒng)數(shù)據(jù)分析算法的改進原理

        現(xiàn)有的大數(shù)據(jù)分析理論與方法大多從傳統(tǒng)的統(tǒng)計分析、數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)融合等領域派生出來,例如K-means++[5]、K-meansⅡ[6]等聚類算法對經(jīng)典K-means算法進行了改進,實現(xiàn)了大規(guī)模數(shù)據(jù)高效聚類。大數(shù)據(jù)的特點使現(xiàn)有方法超出了其使用條件和范圍。因此,如何在拓展原有方法的基礎上,研究適用于大數(shù)據(jù)特征的數(shù)據(jù)分析方法成為大數(shù)據(jù)時代的挑戰(zhàn),包括研究擴展傳統(tǒng)的數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)融合算法的原理。

        (2)新型數(shù)據(jù)挖掘算法

        大數(shù)據(jù)挖掘是從大數(shù)據(jù)中尋找其規(guī)律的技術[7]。大數(shù)據(jù)具有高價值、低密度的特性,“尋找”變得更具挑戰(zhàn)性。分類分析需要有標簽的訓練集指導建模,但是大數(shù)據(jù)集中大多是沒有經(jīng)過專家打好標簽的數(shù)據(jù),需探索新的分類方法,以利用較少的有標簽樣本和較多的無標簽樣本進行學習。此外,面向高價值低密度的大數(shù)據(jù)集,存在這樣一類數(shù)據(jù)挖掘需求:發(fā)現(xiàn)給定大數(shù)據(jù)集里面少數(shù)相似的數(shù)據(jù)對象組成的、表現(xiàn)出相異于大多數(shù)數(shù)據(jù)對象而形成異常的群組,被稱為特異群組挖掘[8-10]。新的大數(shù)據(jù)挖掘方法研究包括特異群組挖掘方法、面向海量數(shù)據(jù)查詢的相似性計算方法、大規(guī)模帶時序可信知識圖譜自動構建方法、動態(tài)大圖分析方法等。

        (3)高維數(shù)據(jù)分析方法

        通過對大數(shù)據(jù)本身的壓縮來適應有限存儲和計算資源,除了研發(fā)計算能力更強、存儲量更大的計算機之外,維規(guī)約技術(包括選維、降維、維度子空間等)是一類有效的方法,但也具備技術挑戰(zhàn)。需要面向不同類型的數(shù)據(jù)研究語義保持下的大數(shù)據(jù)維規(guī)約技術(包括特征分析、特征選擇、降維、子空間等),形成新的高維大數(shù)據(jù)分析方法和理論。

        (4)深度學習方法

        深度學習[11]已成為機器學習研究中的一個熱點領域,通過構建具有多隱層的學習模型和大量訓練數(shù)據(jù)學習特征。對深度學習的研究不僅僅聚集在視覺、圖像、語音、文本等分析研究中,也需要拓展到時間序列、復雜網(wǎng)絡等數(shù)據(jù)集上。深度學習模型優(yōu)化、計算能力等方面仍然是當前深度學習的難點,需要形成理論體系。

        國家自然科學基金委員會在大數(shù)據(jù)分析基礎方面資助的項目有:“大數(shù)據(jù)機器學習分布式算法的可行性理論”“基于知識指導和模糊信息?;臅r序大數(shù)據(jù)分析和挖掘”“RADIUS K-means算法及其拓展問題的研究”“基于多源異構不確定數(shù)據(jù)的高效用信息挖掘的研究”“面向圖像序列的深度學習理論與方法”“面向大數(shù)據(jù)的快速關聯(lián)分析關鍵技術研究”“面向大數(shù)據(jù)分析的自學習網(wǎng)絡關鍵技術研究”“基于認知計算的大數(shù)據(jù)挖掘理論與技術”項目等。

        5 大數(shù)據(jù)的數(shù)據(jù)基礎

        數(shù)據(jù)是基礎資源和戰(zhàn)略資源,對資源競爭就會產(chǎn)生很多問題。國家之間的競爭涉及數(shù)據(jù)主權和數(shù)據(jù)安全,還有全球數(shù)據(jù)治理;一個國家內部涉及政府和公共數(shù)據(jù)資源的開放共享、交易流通,涉及數(shù)據(jù)權屬和隱私安全保障,還涉及數(shù)據(jù)管理、數(shù)據(jù)質量、可視化等數(shù)據(jù)可用性問題。大數(shù)據(jù)研究需要有各種各樣的數(shù)據(jù)環(huán)境,數(shù)據(jù)環(huán)境要與來源多樣、類型多樣的數(shù)據(jù)結合,并且數(shù)據(jù)規(guī)模要足夠大。需要從數(shù)據(jù)質量保障、數(shù)據(jù)存儲和數(shù)據(jù)索引等方面,研究大數(shù)據(jù)管理和治理的基礎方法,包括以下幾個方面。

        (1)大數(shù)據(jù)治理

        確保數(shù)據(jù)稀缺性不喪失和隱私不泄露是推動和實現(xiàn)數(shù)據(jù)開放共享的關鍵,有必要探索數(shù)據(jù)隱私保護機制及模型、大數(shù)據(jù)權屬認定與保障理論及體系、區(qū)塊鏈技術,構建數(shù)據(jù)自治開放理論體系,推動大數(shù)據(jù)交易。

        (2)外部數(shù)據(jù)的質量保障機制

        大數(shù)據(jù)來源廣泛,也導致了數(shù)據(jù)的可靠性下降,如果不經(jīng)過處理而將非確定的大數(shù)據(jù)用在后續(xù)分析中,必然會導致最終結果的不確定或不準確。因而要研究數(shù)據(jù)清潔的收益和代價計算,高效量化出單個數(shù)據(jù)清洗對全局結果判決質量的提升以及清洗單個數(shù)據(jù)耗費的開銷,從而選擇最高性價比的數(shù)據(jù)進行清洗。研究多數(shù)據(jù)源融合的清洗問題,梳理融合中多數(shù)據(jù)源之間的依賴關系,確定數(shù)據(jù)清洗的時機與策略,達到最優(yōu)的清洗性價比。研究大數(shù)據(jù)可用性的定義與表達、大數(shù)據(jù)的錯誤傳播與可用性相關模型,大數(shù)據(jù)可用性中的可計算與計算復雜性度量模型,基于群智計算的迭代數(shù)據(jù)清洗機制等基礎理論和框架。

        (3)大數(shù)據(jù)建模

        關系模型、面向對象模型在以前的數(shù)據(jù)管理技術中發(fā)揮了核心作用。但原有的數(shù)學模型多是針對一種類型的數(shù)據(jù),而大數(shù)據(jù)中包含結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),因此需要研究相應的建模方法,將不同類型的數(shù)據(jù)從語義上關聯(lián)在一起,以復雜關聯(lián)網(wǎng)絡等技術為基礎研究連接各種不同類型數(shù)據(jù)的數(shù)據(jù)描述機制,支撐對大數(shù)據(jù)的管理。

        (4)大數(shù)據(jù)索引

        傳統(tǒng)索引結構常用于結構化數(shù)據(jù)庫系統(tǒng),能夠提高小規(guī)模數(shù)據(jù)檢索速度和查詢表連接效率。然而,大數(shù)據(jù)環(huán)境下,傳統(tǒng)索引結構存在冗余、存儲空間過大、更新困難以及不適用于分布式存儲環(huán)境等缺陷,這需要針對大數(shù)據(jù)的存儲與數(shù)據(jù)特性研究大數(shù)據(jù)索引,包括非結構化數(shù)據(jù)索引結構、基于分布式存儲的數(shù)據(jù)索引結構、高維與多目標需求下的數(shù)據(jù)索引結構等多種索引模型和索引性能評估模型。

        (5)大數(shù)據(jù)可視化機理和方法

        可視化是刻畫數(shù)據(jù)之間關聯(lián)性的有效手段,可視化分析貫穿于大數(shù)據(jù)全過程,如何實現(xiàn)可視化方法協(xié)助分析大規(guī)模、高維度、多來源、動態(tài)演化的數(shù)據(jù),是當前可視化面臨的挑戰(zhàn)。因此,需要探索大數(shù)據(jù)全局視圖可視化機理、時空相關的交互可視化機理、超大規(guī)模節(jié)點的高速數(shù)據(jù)渲染方法。

        (6)知識圖譜

        知識圖譜用于刻畫實體或概念及其之間的關系,在大數(shù)據(jù)環(huán)境下,知識圖譜更新和復雜性都急劇增加,為構建高質量知識圖譜和實現(xiàn)有效推理,需要研究復雜知識圖譜的語義描述方法、不確定知識圖譜的構建與管理、基于知識圖譜的多種類型數(shù)據(jù)表示模型、跨結構數(shù)據(jù)的存取機制和語義表示等。

        國家自然科學基金委員會對數(shù)據(jù)基礎研究方向的資助項目有:“大數(shù)據(jù)協(xié)同計算及查詢服務的隱私保護”“大數(shù)據(jù)環(huán)境下的首席數(shù)據(jù)官、數(shù)據(jù)治理及組織績效關系研究”“高質量大數(shù)據(jù)集成關鍵技術的研究”“大數(shù)據(jù)一致性錯誤管理理論與關鍵技術”“大數(shù)據(jù)集背景下概念格的多粒度構造和存儲研究”“分布式不確定數(shù)據(jù)查詢處理關鍵技術研究”“面向大數(shù)據(jù)的信息可視化設計方法研究”“高維大數(shù)據(jù)可視化的散度模型、算法及評價”“基于外存的海量知識圖譜數(shù)據(jù)的查詢處理”等。

        6 大數(shù)據(jù)的計算基礎

        大數(shù)據(jù)通常需要有能夠分析處理這些數(shù)據(jù)的軟硬件環(huán)境,即需要具有足夠計算能力的計算環(huán)境。以深度學習為例,Hinton G E于2006年在《Science》上發(fā)表的論文《Reducing the dimensionality of data with neural networks》[11]提出了數(shù)據(jù)降維方法—— deep autoencoder,這成為深度學習開創(chuàng)性標志算法之一。然而,卻并沒有作為被廣泛關注和使用的方法,而是隨著數(shù)年后計算條件和計算能力的提升,深度學習方法才開始發(fā)揮更為重要的應用價值。這意味著需要探索新型高效能系統(tǒng)結構、性能導向的大數(shù)據(jù)計算框架和多地計算/異地計算理論與方法。

        (1)新型高效能系統(tǒng)結構

        當前,計算機系統(tǒng)的計算部件、存儲部件、通信部件的功能和性能已朝著高速、高容量、高帶寬的方向發(fā)展,并具有可編程、可定制等特點。如何利用這些部件構建新型高效能計算機系統(tǒng)滿足大數(shù)據(jù)處理需求,是一個迫切需要解決的問題。這需要探索可重構、高度可配置的新型高效能系統(tǒng)結構;研究計算、存儲和通信部件的有機結合、按需配置、彈性伸縮的方法;研究可變結構、軟硬件結合的擬態(tài)計算機系統(tǒng)結構;研究高效能分布式存儲系統(tǒng)的構建原理。

        (2)性能導向的大數(shù)據(jù)計算框架

        大數(shù)據(jù)的規(guī)模、計算時效性以及異構數(shù)據(jù)分布存儲的特征,對計算機系統(tǒng)的高通量、高時效和高并行提出了挑戰(zhàn)。性能導向的并行計算框架是應對大數(shù)據(jù)挑戰(zhàn)的關鍵和基礎。這需要研究分析大數(shù)據(jù)應用的計算特征、通信特征和存儲特征;研究并行計算系統(tǒng)的高通量、高時效計算技術,包括實時分布式內存系統(tǒng)、內存計算系統(tǒng)、異構多核平臺的性能加速技術等;研究性能可預測的并行計算模型。

        (3)多地計算/異地計算理論與方法

        數(shù)據(jù)大的難以移動、數(shù)據(jù)重要的不愿移動,在此背景下,如何求解一個全局問題是一大挑戰(zhàn)。通常在大數(shù)據(jù)所屬地計算局部解,即大數(shù)據(jù)應用具有數(shù)據(jù)存儲的分布性問題,在數(shù)據(jù)所在地進行計算,產(chǎn)生的部分計算結果可能出現(xiàn)不一致、相互背離等現(xiàn)象,需要通過不同方式的計算進行驗證,這給求解全局問題帶來挑戰(zhàn)。因此,需要研究大數(shù)據(jù)多地計算/異地計算基礎問題,包括異地計算行為建模;研究局部解的局限性評估機制、局部解發(fā)送接收的身份驗證機制、局部解的優(yōu)化融合策略;研究全局解的最優(yōu)性評估機制、提高全局解最優(yōu)率的異地選取策略等。

        國家自然科學基金委員會對上述各個研究方向開展資助的項目有:“云計算環(huán)境下大數(shù)據(jù)本地化技術研究”“結合邏輯與物理I/O訪問信息的存儲系統(tǒng)優(yōu)化策略的研究”“互聯(lián)云環(huán)境下面向數(shù)據(jù)中心的服務資源分配與調度機制研究”“面向大數(shù)據(jù)的高時效并行計算機系統(tǒng)結構與技術”“大數(shù)據(jù)高效能存儲與管理方法研究”“面向大數(shù)據(jù)的計算與存儲融合CPU體系結構研究”“分布式計算與系統(tǒng)”“面向大數(shù)據(jù)內存計算的計算機體系結構”“大數(shù)據(jù)環(huán)境下增量式迭代計算框架的研究與優(yōu)化”“云計算環(huán)境下面向大數(shù)據(jù)的在線聚集并行優(yōu)化機制研究”等。

        7 大數(shù)據(jù)的數(shù)學基礎

        現(xiàn)有的大數(shù)據(jù)研究大多關注將傳統(tǒng)方法應用于大數(shù)據(jù)的實際場景,而沒有從大數(shù)據(jù)的內在結構、本質特征出發(fā),這制約了大數(shù)據(jù)研究的深度發(fā)展,使得大數(shù)據(jù)技術面臨瓶頸。因此,研究大數(shù)據(jù)需要從數(shù)據(jù)本身出發(fā),這離不開數(shù)學方法的支持。大數(shù)據(jù)的表示和度量是大數(shù)據(jù)研究的關鍵和基礎,相應地,與之密切相關的大數(shù)據(jù)代數(shù)系統(tǒng)、大數(shù)據(jù)內在數(shù)學結構和大數(shù)據(jù)相似性度量成為大數(shù)據(jù)的數(shù)學基礎的重要內容。

        (1)大數(shù)據(jù)的代數(shù)系統(tǒng)

        關系代數(shù)為關系型計算提供理論依據(jù)。然而,高擴展性是大數(shù)據(jù)分析的重要需求,傳統(tǒng)的關系數(shù)據(jù)模型難以勝任當前存在的非結構化數(shù)據(jù)(如文本數(shù)據(jù)、序列數(shù)據(jù)、流式數(shù)據(jù)等)的處理。近年來,已出現(xiàn)一些非關系型數(shù)據(jù)庫(如HBase、MongoDB等),在非結構化數(shù)據(jù)上的復雜數(shù)據(jù)分析能力有所提高,并得到廣泛應用。但是,目前缺少對非關系型數(shù)據(jù)庫的數(shù)據(jù)代數(shù)的研究。對于非關系型數(shù)據(jù),定義由數(shù)據(jù)集構成的集合上的度量方法和運算,形成一定論域上的數(shù)據(jù)代數(shù)等,這些都將在數(shù)學基礎上對非關系型數(shù)據(jù)提供理論支持,有望突破現(xiàn)有技術瓶頸。

        (2)大數(shù)據(jù)內在數(shù)學結構

        數(shù)據(jù)有復雜的拓撲、網(wǎng)絡等不同結構,在大數(shù)據(jù)問題中,數(shù)據(jù)本身往往具有更為復雜的內在數(shù)學結構,例如,高維數(shù)據(jù)空間中因為具有一定的約束條件而具有流形的數(shù)據(jù)結構;又如,在圖像等非結構化數(shù)據(jù)中,先天性地具有低秩的數(shù)學性質。在深刻理解和挖掘內在相應結構的基礎上,才能有效建立分析模型。針對大數(shù)據(jù)集的流形或復形等復雜數(shù)學結構和稀疏、低秩等數(shù)學性質,設計合理描述的數(shù)據(jù)結構,構建相應的度量,選取多尺度自適應的基底表示,為構建分析模型、形成反映內在結構參數(shù)的分析算法提供理論支撐,并通過數(shù)學結構的性質,保證算法的適用性。

        (3)大數(shù)據(jù)的相似性度量

        相似性是數(shù)據(jù)挖掘分析任務的核心。簡單數(shù)據(jù)類型的相似性度量支撐傳統(tǒng)數(shù)據(jù)分析模型,然而,針對復雜數(shù)據(jù)類型,這些相似性度量難以真實反映數(shù)據(jù)之間的關系。針對大數(shù)據(jù)復雜性特征,定義空間非剛性結構的相似性度量和超高維、多類型的大數(shù)據(jù)相似性度量,發(fā)展非線性降維方法、核理論以及相應的高效算法和穩(wěn)定性分析。

        如前所述,大數(shù)據(jù)研究過程中數(shù)學基礎方面還需要更多的研究者參與和關注,目前,國家自然科學基金用在大數(shù)據(jù)的數(shù)學基礎方面的相對較少,但也有對上述研究方向的涉及,例如:“大數(shù)據(jù)環(huán)境下服務的存儲范式理論及操作代數(shù)研究”“大數(shù)據(jù)中的廣義稀疏幾何結構學習方法研究”“適應大數(shù)據(jù)處理的概率相似度學習研究”等。

        8 結束語

        數(shù)據(jù)作為一種基礎性資源已經(jīng)得到廣泛認可,大數(shù)據(jù)開始在各行各業(yè)發(fā)揮作用,同時也遇到了很多難題,例如數(shù)據(jù)質量、數(shù)據(jù)權屬、數(shù)據(jù)開放共享、數(shù)據(jù)快速分析、異地數(shù)據(jù)計算等,這些問題可以統(tǒng)稱為大數(shù)據(jù)問題。由于大數(shù)據(jù)的廣泛性,大數(shù)據(jù)問題是多層次、多樣的,需要各領域的科學家共同努力。本文將大數(shù)據(jù)的基礎問題歸類為應用基礎、分析基礎、數(shù)據(jù)基礎、計算基礎和數(shù)學基礎五大類別。特別地,將各學科基于大數(shù)據(jù)的創(chuàng)新研究也歸類為大數(shù)據(jù)的應用基礎。這是因為科學研究進入了所謂的第四范式,第四范式的科學研究需要先行積累數(shù)據(jù)、研究數(shù)據(jù)、分析數(shù)據(jù)、觀察數(shù)據(jù),然后才進行業(yè)務研究,或者說,認識宇宙、認識物質、認識生命、認識社會,需要先行認識相應的數(shù)據(jù),即認識數(shù)據(jù)先于認識宇宙、物質、生命和社會。建議國家層面研究基金全面部署,探究大數(shù)據(jù)各層面的基礎問題,實現(xiàn)大數(shù)據(jù)原始創(chuàng)新,推動數(shù)據(jù)科學發(fā)展,有利于形成大數(shù)據(jù)的核心競爭力。

        [1]朱揚勇, 熊贇. 大數(shù)據(jù)是數(shù)據(jù)、技術,還是應用[J]. 大數(shù)據(jù), 2015007. ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.

        [2]MOORE G E. The microprocessor:engine of the technology revolution[J]. Communications of the ACM, 1997, 40(2): 112.

        [3]HEY T, STEWART T, KRISTIN T. The forth paradigm: data-intensive scientific discovery[M]. Beijing: Microsoft Research, 2009.

        [4]CARMI D, FALKOWSKI A, KUFLIK E, et al. Higgs after the discovery: a status report[J]. Journal of High Energy Physics, 2012, arXiv:1207.1718.

        [5]BAHMANI B, MOSELEY B, VATTANI A, et al. Scalable k-means++[J]. Proceedings of the VLDB Endowment, 2012,5(7): 622-633.

        [6]A R T H U R D, VA S S I LV I T S K I I S. K-means++: the advantages of careful seeding[C]// 18th ACM-SIAM Symposium on Discrete Algorithms, January 7 - 9, 2007, New Orleans, Louisiana, USA. New York: ACM Press, 2007: 1027-1035.

        [7]熊贇, 朱揚勇, 陳志淵. 大數(shù)據(jù)挖掘[M]. 上海: 上??茖W技術出版社, 2016.

        XIONG Y, ZHU Y Y, CHEN Z Y. Big datamining[M]. Shanghai: Shanghai Scientific & Technical Publishers, 2016.

        [8]熊贇, 朱揚勇. 特異群組挖掘:框架與應用[J].大數(shù)據(jù), 2015020.

        XIONG Y, ZHU Y Y. Abnormal group mining: framework and applications[J]. Big Data Research, 2015020.

        [9]XIONG Y, ZHU Y Y, YU P S, et al. Towards cohesive anomaly mining[C]// 27th AAAI Conference on Artificial Intelligence (AAAI), July 14 - 18, 2013, Bellevue, Washington, USA. San Francisco: AAAI Press, 2013:984-990.

        [10]XIONG Y, ZHU Y Y. Mining peculiarity groups in day-by-day behavioral datasets[C]//IEEE International Conference on Data Mining (ICDM), December 6 - 9, 2009, Miami, Florida, USA. New Jersey:IEEE Press, 2009: 578-587.

        [11]HINTON G E, SALAKHUDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

        Foundation issues for big data research

        ZHU Yangyong1,2, XIONG Yun1,2
        1. School of Computer Science, Fudan University, Shanghai 200433, China
        2. Shanghai Key Lab of Data Science, Shanghai 200433, China

        The key technical challenges for big data lie in how to discover the value of the low-value-density data and how to complete the task in the desired time. The ways to take up these challenges from three aspects were discussed. First is that the former challenge requires the combination of domain knowledge and data technology. This combination of theory and new algorithms forms the basis of application and analysis of big data. Second is that the latter challenge needs to design new types of computer, cluster system, computing framework, storage system and data management method, which forms the basis of computing and data of big data. Thirdly, both challenges relate to mathematical theory, which is the basis of mathematics of big data. In conclusion, several foundation issues for big data research including the basis of mathematics, computing, data, analysis and application of big data were analyzed.

        big data, data science, foundation of big data, data resource

        TP311

        A

        10.11959/j.issn.2096-0271.2017023

        朱揚勇(1963-),男,博士,復旦大學計算機科學技術學院教授、學術委員會主任,上海市數(shù)據(jù)科學重點實驗室主任。1989年起從事數(shù)據(jù)領域研究,2008年提出數(shù)據(jù)資源保護和利用,2009年發(fā)表了數(shù)據(jù)科學論文《Data explosion, data nature and dataology》,并出版專著《數(shù)據(jù)學》,對數(shù)據(jù)科學進行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。擔任第462次香山科學會議“數(shù)據(jù)科學與大數(shù)據(jù)的理論問題探索”的執(zhí)行主席、《大數(shù)據(jù)技術與應用叢書》主編。主要研究方向為數(shù)據(jù)科學、大數(shù)據(jù)。

        熊贇(1980-),女,博士,復旦大學計算機科學技術學院教授。2004年起從事數(shù)據(jù)領域方面的研究工作,作為項目負責人主持國家自然科學基金、上海市科委發(fā)展基金以及企業(yè)合作項目。相關研究成果在本領域國際權威期刊或會議發(fā)表論文40余篇,出版著作3本。主要研究方向為數(shù)據(jù)科學、大數(shù)據(jù)。

        2017-01-06

        國家自然科學基金資助項目(No. 91546105);上海市科技發(fā)展基金資助項目(No. 16JC1400801)

        Foundation Items: The National Natural Science Foundation of China (No. 91546105), Shanghai Science and Technology Development Fund (No. 16JC1400801)

        猜你喜歡
        基礎方法研究
        “不等式”基礎鞏固
        FMS與YBT相關性的實證研究
        “整式”基礎鞏固
        遼代千人邑研究述論
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        “防”“治”并舉 筑牢基礎
        勞動保護(2018年5期)2018-06-05 02:12:02
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        大又黄又粗又爽少妇毛片| 极品少妇被黑人白浆直流| 白白发在线视频免费观看2| av网站在线观看入口| 国产女厕偷窥系列在线视频| 四川少妇大战4黑人| 亚洲精品自产拍在线观看| 亚洲人成人网毛片在线播放| 91久久精品人妻一区二区| 日本一区二区午夜视频| 日本黄色影院一区二区免费看| 国产日产久久高清ww| 亚洲性色av一区二区三区| 品色堂永远免费| 99久久久精品免费观看国产| 精选麻豆国产AV| 久久av少妇亚洲精品| 偷拍视频网址一区二区| 天天躁夜夜躁狠狠是什么心态| 日本xxxx色视频在线播放| 亚洲视频在线看| 神马不卡一区二区三级| 国产人成在线免费视频| 丰满巨臀人妻中文字幕| 美女在线一区二区三区视频| 日本在线 | 中文| 免费少妇a级毛片人成网| 激情欧美日韩一区二区| 亚洲AⅤ乱码一区二区三区| 视频一区二区三区国产| 亚洲国产精品久久久久秋霞小说| 无码熟妇人妻av在线影片| 亚洲国产字幕| 日本精品av中文字幕| 日本人妻免费一区二区三区| 人人摸人人操| 亚洲AV无码未成人网站久久精品 | 人人妻人人澡人人爽欧美一区九九| 久久久久久久久888| 中文亚洲爆乳av无码专区| 午夜麻豆视频在线观看|