亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        為科學服務(wù)的大數(shù)據(jù)*

        2016-10-18 02:03:50郭毅可于思淼王世才倫敦帝國理工學院數(shù)據(jù)科學研究所倫敦SW72AZ英國
        中國科學院院刊 2016年6期
        關(guān)鍵詞:可視化科學模型

        郭毅可 潘 為 于思淼 吳 超 王世才倫敦帝國理工學院數(shù)據(jù)科學研究所 倫敦 SW7 2AZ, 英國

        為科學服務(wù)的大數(shù)據(jù)*

        郭毅可潘為于思淼吳超王世才
        倫敦帝國理工學院數(shù)據(jù)科學研究所倫敦SW7 2AZ, 英國

        數(shù)據(jù)驅(qū)動的科研活動已蔚為大觀,然而厘清關(guān)于數(shù)據(jù)研究的基本問題仍是數(shù)據(jù)科學的首要任務(wù)。文章根據(jù)倫敦帝國理工學院建設(shè)數(shù)據(jù)科學研究院的經(jīng)驗,將數(shù)據(jù)科學聚焦于交叉研究上,討論從數(shù)據(jù)整合與理解,到數(shù)據(jù)感知與交互,再到數(shù)據(jù)學習與認知,最后到數(shù)據(jù)交換與經(jīng)濟的完整鏈條,并結(jié)合開展的科研實踐工作,分析了其中的基本研究問題。

        大數(shù)據(jù),數(shù)據(jù)科學,數(shù)據(jù)驅(qū)動的科學研究

        1 研究背景

        微軟研究院以 Jim Gray 曾經(jīng)對科學研究方法的歷史作了一個精辟的總結(jié)[1]:幾百年前,科學研究是完全通過實驗來觀察自然、理解自然;到了近代數(shù)百年,科學才開始注重理論研究,通過建模和抽象來總結(jié)揭示自然的規(guī)律;近幾十年來,計算機的廣泛使用,使得計算模擬成了科學研究的一個重要手段。到了今天,計算技術(shù)已經(jīng)完全普適化??茖W儀器已經(jīng)成為高通量數(shù)據(jù)采集的工具,由模擬和儀器采集的數(shù)據(jù)經(jīng)過計算機的處理分析形成信息和知識。數(shù)據(jù)驅(qū)動已成為今天科學研究的新的方法。

        如今,海量數(shù)據(jù)源源不斷地被產(chǎn)生出來??茖W家和工程師通過對數(shù)據(jù)的觀察、整合、分析和解釋,不斷創(chuàng)造知識,推動著科學技術(shù)的進步和社會的發(fā)展。在這種背景下,在中國乃至世界各地,各類以數(shù)據(jù)為驅(qū)動或以數(shù)據(jù)科學為目標的研究單位如雨后春筍般涌現(xiàn),在可預見的未來,數(shù)據(jù)驅(qū)動的科學研究必將得到蓬勃發(fā)展,蔚為大觀。然而,在目前的探索階段,厘清關(guān)于數(shù)據(jù)科學的基本問題仍然是首要任務(wù),例如數(shù)據(jù)科學應該研究什么?它與傳統(tǒng)計算機研究和統(tǒng)計分析到底有什么區(qū)別?它在學科交叉中應該扮演什么角色?本文根據(jù)倫敦帝國理工學院建設(shè)數(shù)據(jù)研究院(Data Science Institute)的實際經(jīng)驗,提出對如何建設(shè)一個支持以數(shù)據(jù)作為驅(qū)動為己任的數(shù)據(jù)研究院的見解,試圖從我們的研究脈絡(luò)中尋找共性問題,拋磚引玉,希望能在更廣大范圍內(nèi)引起對這些基本問題的思考和討論。

        倫敦帝國理工學院是一所專注于科學技術(shù)、醫(yī)學和商學的世界頂級名校。從事的科學研究和數(shù)據(jù)緊密相關(guān):從個人醫(yī)療數(shù)據(jù)到科學實驗數(shù)據(jù),從公共數(shù)據(jù)到商業(yè)數(shù)據(jù)。這樣一個大學必須有一個數(shù)據(jù)研究所作為支撐學校數(shù)據(jù)驅(qū)動研究的科研機構(gòu)。于 2014 年 4 月成立,其建所宗旨是:“研究先進的大數(shù)據(jù)管理和分析技術(shù),并以此來促進數(shù)據(jù)驅(qū)動的科學研究及技術(shù)發(fā)展,造福人類社會。”它把自己的任務(wù)定義為:(1)作為學校交叉學科發(fā)展的樞紐,組織并推進以大數(shù)據(jù)為基礎(chǔ)的多學科合作;(2)培養(yǎng)新一代有創(chuàng)新能力的數(shù)據(jù)科學家;(3)為學校的數(shù)據(jù)驅(qū)動的科學研究提供技術(shù)與設(shè)施的支持;(4)作為學校對外合作的窗口,與全世界工業(yè)界及學術(shù)界廣泛開展大數(shù)據(jù)科研合作;(5)向政府、公共管理機構(gòu)及全社會提供有關(guān)大數(shù)據(jù)的政策與技術(shù)咨詢。

        研究所自成立以來,秉承其宗旨,在上述 5 個方向上做出了許多努力,取得了令人矚目的成果,得到了學界和社會的廣泛關(guān)注和肯定,很多研究成果產(chǎn)生了國際影響力。因此,習近平主席 2015 年對英國進行國事訪問期間專門參觀了數(shù)據(jù)科學研究所,聽取了一些研究成果匯報,包括:和浙江大學合作的對中國人口遷移的分析;和維也納國際應用系統(tǒng)分析研究所、美國大氣研究中心和上海大學合作有關(guān)“一帶一路”戰(zhàn)略國際影響力分析;和英國國家基因組計劃、歐盟創(chuàng)新制藥計劃合作的有關(guān)精準醫(yī)學的合作研究;以及和上海地鐵在交通監(jiān)測和預測方面的合作。習近平主席認為用大數(shù)據(jù)做交叉學科研究很有意義,和實際應用相結(jié)合是個好方向。習近平主席對我們的這些工作表示贊賞,肯定了研究所對大數(shù)據(jù)研究方向的思考和策略,使研究所倍受鼓舞。

        2 數(shù)據(jù)驅(qū)動的交叉科學研究

        科學技術(shù)的偉大進步往往需要多學科的交叉融合,數(shù)據(jù)科學的交叉同樣會驅(qū)動產(chǎn)生重大的科學發(fā)現(xiàn)。而且我們認為數(shù)據(jù)科學無法作為獨立學科存在,必須和特定領(lǐng)域結(jié)合在一起;如不對交叉學科的領(lǐng)域知識有深入的理解,而設(shè)計脫離實際的數(shù)據(jù)分析方法是很難有發(fā)展前途的。

        以目前熱門的“精準醫(yī)療”為例,其涉及到生理學、分子生物學、藥理學、化學、營養(yǎng)學、環(huán)境學、生物物理學等眾多學科,很多學科在各自的領(lǐng)域?qū)ο嚓P(guān)問題已經(jīng)有了很長的研究歷史,然而只有當交叉出現(xiàn),特別是針對生物醫(yī)學的大數(shù)據(jù)分析方法和工具出現(xiàn)之后,結(jié)合患者生活環(huán)境、生物信息、臨床和藥物等各種數(shù)據(jù),實現(xiàn)精準醫(yī)療才有可能。

        由此可見,數(shù)據(jù)科學是一個組合體,它在明確的應用目標下,驅(qū)動和連接各種學科,形成有機統(tǒng)一。把數(shù)據(jù)科學作為統(tǒng)計學和計算機科學的分支應用,把機器學習和大數(shù)據(jù)管理技術(shù)等數(shù)據(jù)科學的具體技術(shù)作為數(shù)據(jù)科學的主要內(nèi)涵的思路與做法,未免是太狹隘了。

        進而言之, 數(shù)據(jù)科學的許多方法也來自于不同領(lǐng)域的科學研究,以今天非常流行的深度學習技術(shù)為例,它的許多進步是基于神經(jīng)生物學和信號處理技術(shù)的研究。從數(shù)據(jù)驅(qū)動的領(lǐng)域科學研究中獲取養(yǎng)料和動力,是數(shù)據(jù)科學研究的一個重要途徑。

        數(shù)據(jù)科學有自己的學科內(nèi)涵,即基于數(shù)據(jù)的獲取,清理、建模、分析等方法,從這個角度說,數(shù)據(jù)科學與數(shù)學及計算機科學一脈相承;它也有自己的外延,即面向各種應用問題,從這個角度說,數(shù)據(jù)科學又是各個交叉科學的載體。在后文中,我們將結(jié)合數(shù)據(jù)科學的內(nèi)涵,即其研究問題,以及外延,即其應用領(lǐng)域,談?wù)勎覀兊睦斫狻?/p>

        3 倫敦帝國理工學院數(shù)據(jù)科學研究所研究方向

        數(shù)據(jù)科學研究是一條完整的鏈條,由 4 個關(guān)鍵的環(huán)節(jié)串聯(lián)在一起。我們將這 4 個環(huán)節(jié)定義為數(shù)據(jù)整合與理解(Data Integration and Understanding)、數(shù)據(jù)感知與交互(Data Sensing and Interaction)、數(shù)據(jù)學習與認知(Data Learning and Cognition)、數(shù)據(jù)交換與經(jīng)濟(Data Exchange and Economy)。倫敦帝國理工學院數(shù)據(jù)科學研究所在這 4 個方面同時開展研究,并且將幾方面的研究緊密地整合到一起。下面具體地闡釋每部分的研究內(nèi)容。

        3.1 數(shù)據(jù)整合與理解

        一份數(shù)據(jù),從采集到分析,需要經(jīng)歷一系列的處理、理解和整合,這部分的工作,毫不夸張地說,可以占到整個數(shù)據(jù)研究工作量的80%。

        (1)在數(shù)據(jù)整合與理解方面,數(shù)據(jù)集成是大數(shù)據(jù)研究的關(guān)鍵。眾所周知,數(shù)據(jù)的多樣性和復雜性往往使得無法將所有數(shù)據(jù)進行整合,并為領(lǐng)域內(nèi)的所有研究人員所共同使用。很多擁有相同實驗目的的結(jié)果數(shù)據(jù)無法相互兼容。例如,在生命科學領(lǐng)域,在利用mRNA分析基因表達的過程中,基因芯片產(chǎn)生的表達程度數(shù)據(jù)通常用CEL格式存取,而如果使用mRNA測序技術(shù)則會產(chǎn)生大量基因序列的原始片段。兩種數(shù)據(jù)都可以通過各自的計算方法得到基因表達的程度,但數(shù)據(jù)的格式天差地別,專業(yè)的分析人員也需要借助多種不同的技術(shù)分析匯總其中的結(jié)果,讓計算機對此做出統(tǒng)一正確的理解可以說是困難重重。隨著信息需求不斷發(fā)展和增長,數(shù)據(jù)一體化的需求也不斷增長。適當?shù)臉藴驶椒梢杂行椭鷶?shù)據(jù)的集成,標準化方法往往取決于數(shù)據(jù)集和特定領(lǐng)域的慣例,標準分數(shù)和T-統(tǒng)計量是轉(zhuǎn)換醫(yī)學研究中常用的標準化方法。

        (2)現(xiàn)有的數(shù)據(jù)集成技術(shù), 如本體論,語義W eb 可以起到關(guān)鍵的作用。這些現(xiàn)有語義框架和技術(shù)可以被用來建立各種數(shù)據(jù)之間的聯(lián)系,并通過已有的映射關(guān)系拓展并建立新的聯(lián)系。例如,對于醫(yī)療數(shù)據(jù),可以通過預定義的、映射一致的本體森林模型來為臨床數(shù)據(jù)和分子分析數(shù)據(jù)提供一個更加統(tǒng)一的數(shù)據(jù)表示,每一棵子樹都表示一個研究項目,通過拓展子樹節(jié)點之間的語義關(guān)系建立聯(lián)系,獲得新的語義知識。新的知識可以是擁有相同或相似病理特征的人的集合,或是治愈某種疾病的治療方法的集合。

        (3)對數(shù)據(jù)標注,整理和ETL( Extract,Transform,Load)自動化的研究是大數(shù)據(jù)研究的重要課題。

        ETL,用來描述將數(shù)據(jù)從來源端經(jīng)過提?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,也是對數(shù)據(jù)集成各個過程的集成和自動化過程[2]。ETL 通過提取和轉(zhuǎn)換完成數(shù)據(jù)清洗、標準化和語義建模的過程,使原始數(shù)據(jù)轉(zhuǎn)換成人、機都能理解的有效信息。ETL 的核心在于減少繁復的數(shù)據(jù)預處理中的人工干預,自動化完成數(shù)據(jù)整合的各個步驟。其難點在于通過人工智能的方法對原始數(shù)據(jù)進行自動化標注,并利用語義分析的方法將被標注的對象加入語義網(wǎng)絡(luò)。

        (4)對于數(shù)據(jù)的標準化和統(tǒng)一化,質(zhì)量控制是關(guān)鍵技術(shù)。在標準化的過程中,需要特別重視數(shù)據(jù)質(zhì)量控制。仍以 mRNA 分析基因表達為例,相對于基因芯片產(chǎn)生的少量高質(zhì)量數(shù)據(jù),mRNA 測序技術(shù)產(chǎn)生基因序列數(shù)據(jù)量較大,但可靠性較差。通常的基因表達分析結(jié)果中都需要加注每個基因序列片段分析結(jié)果的質(zhì)量,對于質(zhì)量較差的片段,通常的分析中一般不予采用。

        我們主持的“歐洲轉(zhuǎn)化醫(yī)學信息與知識管理服務(wù)”(European Translational Information & Know ledge Managem ent Services,eTRIKS)項目就是以數(shù)據(jù)標準化和質(zhì)量控制為目標的一個典型的數(shù)據(jù)質(zhì)量工程。eTRIKS是由歐洲創(chuàng)新藥物計劃(Innovative M edicines Initiative)發(fā)起的 5 年科研總經(jīng)費達 2 300 萬歐元的研發(fā)項目,由世界 12 大制藥廠參與,旨在建設(shè)基于云計算的全歐洲范圍內(nèi)的醫(yī)學研究標準大數(shù)據(jù)平臺,成為歐盟醫(yī)學臨床研究的大數(shù)據(jù)標準。由全球性非盈利性組織 tranSMART 基金會主導開發(fā)的知識管理平臺是 eTRIKS 平臺的核心系統(tǒng)。它以系統(tǒng)級的方法來解決數(shù)據(jù)集成和理解的問題,其具體架構(gòu)如圖 1 所示。

        圖1 歐洲轉(zhuǎn)化醫(yī)學信息與知識管理服務(wù)(eTRIKS)項目技術(shù)框架圖

        此平臺上的研究主要包括生物信息數(shù)據(jù)聯(lián)邦、高效數(shù)據(jù)存儲架構(gòu)設(shè)計以及相關(guān)數(shù)據(jù)索引技術(shù)。生物信息數(shù)據(jù)聯(lián)邦主要用于解決生物信息的多元化帶來的異構(gòu)信息抽象和整合等問題,使得各種數(shù)據(jù)源可以依據(jù)其自身特點,以各自特有的模式進行低成本、高效率存儲和處理。例如,基因芯片所產(chǎn)生的數(shù)據(jù)主要存儲在 CEL 格式的元信息矩陣和數(shù)據(jù)信息矩陣中,高通量測序數(shù)據(jù)結(jié)果多存儲在 FASTA 或 FASTQ 文件中,而單核苷酸多態(tài)性統(tǒng)計數(shù)據(jù)多以關(guān)系型數(shù)據(jù)庫模型存儲。一個復雜的病理研究通常需要綜合多種來源的各種信息共同計算,而數(shù)據(jù)聯(lián)邦通過抽象和整合這些多元數(shù)據(jù),使得這種基于混合數(shù)據(jù)結(jié)構(gòu)的高效海量數(shù)據(jù)計算成為可能。

        在考慮多種信息集中處理的同時,我們也關(guān)注于對各類數(shù)據(jù)存儲結(jié)構(gòu)的優(yōu)化[3,4],通過引入先進的存儲技術(shù)提高數(shù)據(jù)的存取效率。例如,數(shù)據(jù)科學中心設(shè)計實現(xiàn)的 CGC 索引(Collaborating Global Clustering Index)是針對遺傳信息的高效數(shù)據(jù)存儲和檢索方法。

        3.2 數(shù)據(jù)感知與交互

        隨著傳感器技術(shù)及其產(chǎn)業(yè)的發(fā)展,傳感網(wǎng)絡(luò)大規(guī)模地被應用于收集不同領(lǐng)域的數(shù)據(jù)[5],其進一步所帶來的普適感測促進了物聯(lián)網(wǎng)這個新興領(lǐng)域的發(fā)展[6],帶來了廣闊的未來潛在應用,包括產(chǎn)品追蹤、智慧環(huán)境、社會感知、智能設(shè)備、災害預測等等[7]。 面對感知大數(shù)據(jù),如何構(gòu)建針對物聯(lián)網(wǎng)的通用高性能數(shù)據(jù)處理平臺,及研究針對物聯(lián)網(wǎng)和大數(shù)據(jù)感測的高性能數(shù)據(jù)管理方法成為關(guān)鍵。

        在這方面,數(shù)據(jù)科學研究所提出了“認知感知”的方法論,認為感知數(shù)據(jù)的作用在于建立、驗證和糾正模型。一旦一個目標感知對象被建模之后,其模型預測將與感知數(shù)據(jù)進行比對,如果模型正確,則無需進一步數(shù)據(jù)采集和模型修正;如果模型失效,說明目標對象出現(xiàn)新的行為或原模型粗糙,這時才需要進一步采集數(shù)據(jù)并修正模型。這種方法被叫做“認知感知”是因為它契合智能生物感知世界的方法,智能生物包括人類能在有限認知計算資源的限制下實現(xiàn)與動態(tài)環(huán)境的均衡,其目標可以說是優(yōu)化自由能量(Free energy)或最小化驚奇(M inimize surprise)[8]。基于這種認識,我們在感知系統(tǒng)中,將認知定義為優(yōu)化主觀認知分布和客觀分布之間 KL 距離的建模行為,而感知行為被看做是減小此 KL 距離與實際 KL 距離的措施。為了實現(xiàn)這種感知和認知,我們解決了兩方面的問題:如何調(diào)整模型和模型空間來適應感知對象的變化;如何減少感知維度。

        感知之后的數(shù)據(jù)除了分析建模之外,一個重要的研究方法是數(shù)據(jù)可視化。數(shù)據(jù)可視化是研究如何將數(shù)據(jù)以形象化的方式展現(xiàn)出來的一門科學。它主要專注于分析,以連貫和簡短的形式把大量的信息展現(xiàn)出來,而抽取何種數(shù)據(jù)進行形象化的抽象,本身就蘊含了對數(shù)據(jù)如何應用的科學思維。在大數(shù)據(jù)背景下,大規(guī)模的多維的數(shù)據(jù)正在被快速地產(chǎn)生和積累。如何更有效地探索數(shù)據(jù)、理解數(shù)據(jù)以及表達數(shù)據(jù)成為一項重要的研究課題。

        通過圖形化地表達數(shù)據(jù),人可以利用自身復雜的視覺系統(tǒng)直接參與到數(shù)據(jù)探索和交流的過程中。這使得很多復雜的數(shù)據(jù)可以更有效地被分析和理解。數(shù)據(jù)可視化成為數(shù)據(jù)科學的重要組成部分的主要原因有兩個:第一,由于人類視覺系統(tǒng)十分擅長模式識別,通過圖形可視化數(shù)據(jù)以及相關(guān)的分析結(jié)果,可以更容易更準確地理解數(shù)據(jù)中的有效信息。第二,數(shù)據(jù)可視化技術(shù)可以很大程度地幫助人們交流和傳播大數(shù)據(jù)所蘊含的有效信息和重要發(fā)現(xiàn)。

        由此可見,可視化不是數(shù)據(jù)分析的結(jié)果,而是數(shù)據(jù)分析的過程。如何建立一個能支持發(fā)現(xiàn)科學直觀的可視化環(huán)境是非常重要的,在這方面我們做了大量的工作,建立了全球最大的數(shù)據(jù)可視化設(shè)施“全球數(shù)據(jù)觀察站”(圖 2),幾十個電腦屏幕組成的動態(tài)數(shù)據(jù)圖像準確銜接,其背后蘊含的是并行運算、多項目管理、編程,以及對數(shù)據(jù)的深刻理解。在數(shù)據(jù)觀察站中實現(xiàn)了各種實時交互的可視化應用,比如全球比特幣交易的實時數(shù)據(jù)可視化,個性化醫(yī)療系統(tǒng)可視化,上海地鐵運行分析的數(shù)據(jù)可視化等,實時處理和展示隨時間變化的各種類型的數(shù)據(jù)。

        圖2 數(shù)據(jù)可視化平臺及應用

        我們所處理的數(shù)據(jù)源不再是靜態(tài)的,它會隨著數(shù)據(jù)的實時變化進行即時接受、處理并更新可視化數(shù)據(jù)。這種方式的數(shù)據(jù)可視化可以幫助人們觀察到最新的即時數(shù)據(jù)并理解其對舊數(shù)據(jù)產(chǎn)生的影響??山换サ臄?shù)據(jù)可視化分析可以讓人利用可視化信息與系統(tǒng)進行交互,并在此過程中進一步得到相關(guān)信息提取和挖掘的結(jié)果。在這個交互過程中,人可以在充分理解數(shù)據(jù)可視化信息的基礎(chǔ)上,根據(jù)不同的目的主動探索和發(fā)現(xiàn)所需要的數(shù)據(jù)結(jié)果。這可以極大地提升數(shù)據(jù)探索和挖掘的效率。

        與此同時,人在與數(shù)據(jù)可視化進行交互的過程中也可以產(chǎn)生新的數(shù)據(jù)。這些數(shù)據(jù)可以被收集和分析,以學習人與系統(tǒng)交互的具體情況。例如,在數(shù)據(jù)觀察站我們可以利用眼動追蹤設(shè)備來實時記錄人眼在屏幕上注視點的位置。這些位置點形成的熱點圖可以清晰地展示出人對于數(shù)據(jù)可視化最關(guān)注的部分。這些數(shù)據(jù)可以幫助我們設(shè)計和創(chuàng)造出更有效的或者更吸引人的數(shù)據(jù)可視化系統(tǒng)。同時,人的眼動情況也提供了一種新的與系統(tǒng)交互的途徑。系統(tǒng)可以通過探測人關(guān)注點的具體位置進行實時更新,例如展示額外信息等。新的交互方式毫無疑問會對人與數(shù)據(jù)可視化系統(tǒng)的交互產(chǎn)生積極的影響。

        3.3 數(shù)據(jù)學習與認知

        研究所進行數(shù)據(jù)學習與認知研究是從實際出發(fā),為了應用服務(wù)的機器學習。沒有應用背景的數(shù)據(jù)科學研究會缺乏影響力,沒有對數(shù)據(jù)科學理論的扎實研究也做不出好的應用。我們關(guān)注的實際問題包括功能核磁共振或者腦電圖推斷有效連接(effective connectivity)腦網(wǎng)絡(luò);基于微流控技術(shù)得到的蛋白質(zhì)熒光表達推斷基因網(wǎng)絡(luò)結(jié)構(gòu); 印度西北部平原地下水水位趨勢變化預測;中國省會城市交通網(wǎng)絡(luò)車輛速度和流量的預測;計量經(jīng)濟學中經(jīng)濟變量的因果性推斷。這些科學問題都是由數(shù)據(jù)驅(qū)動的研究,而這些問題中的數(shù)據(jù)都可以用時間序列來描述。時間序列模型的主要目的是對系統(tǒng)的物理本質(zhì)有洞察力的解釋和根據(jù)已有的歷史數(shù)據(jù)對未來進行預測。

        基于貝葉斯理論和數(shù)據(jù)同化理論,我們團隊致力于開發(fā)貝葉斯學習引擎(Bayesian Learning Engine)進行時間序列數(shù)據(jù)建模 。貝葉斯學習引擎由兩部分構(gòu)成:大數(shù)據(jù)建模(Data Modelling)引擎和大數(shù)據(jù)同化(Data Assimilation)引擎。數(shù)據(jù)建模和數(shù)據(jù)同化用來做模型篩選的思想可以總結(jié)為同化學習理論(Assim ilated Learning)。

        大數(shù)據(jù)建模引擎基于貝葉斯理論構(gòu)建,其實現(xiàn)分為如下步驟:(1)確定數(shù)據(jù)的似然函數(shù)。(2)選取適當?shù)哪P徒Y(jié)構(gòu)。一方面由于所研究的科學問題所在領(lǐng)域的特點不同,選取的模型結(jié)構(gòu)往往具有很大的差別,而且往往是非線性的。比如在生化網(wǎng)絡(luò)和基因網(wǎng)絡(luò)中,模型中方程必須要遵循化學反應動力學原理,也就是模型的形式只能用多項式和有理函數(shù)來描述;比如在描述天氣系統(tǒng)、生態(tài)系統(tǒng)的混沌震蕩系統(tǒng)中,模型也往往是具有多項式形式;而在描述電力系統(tǒng)、通訊網(wǎng)絡(luò)系統(tǒng)時,模型一般具有三角函數(shù)形式;在腦網(wǎng)絡(luò)的動力因果模型(Dynam ic Causal M odel)描述中[8],函數(shù)的形式限制于一階和二階多項式形式。即便是具備了一定的領(lǐng)域知識,由于非線性函數(shù)形式的無窮性,模型空間維數(shù)仍然極高。另一方面,如果系統(tǒng)具有高維的狀態(tài)變量,比如基因網(wǎng)絡(luò)中的基因數(shù)目,那么情形會更加嚴重,模型選擇將面臨很大的挑戰(zhàn)。(3)根據(jù)先驗知識和系統(tǒng)的特點構(gòu)造先驗概率,用于刻畫模型中隱藏變量的不確定程度。而這個不確定程度往往由超參數(shù)刻畫。值得注意的是,超參數(shù)的個數(shù)往往小于或者等于候選模型中的隱含變量個數(shù)。

        接下來我們對后驗概率積分獲得邊緣似然函數(shù),通過對其分析,一個令人喜悅的發(fā)現(xiàn)是對于不同的先驗概率構(gòu)造,我們只需求解一系列的平滑函數(shù)加變權(quán)重L1范數(shù)規(guī)則化優(yōu)化問題[9]。而這類優(yōu)化問題的集中化解法或者分布式解法已經(jīng)被廣泛地研究,基于不同的分布式計算平臺與計算架構(gòu),比如 MapReduce、Hadoop、Spark/ Shark 可以比較直觀地實現(xiàn)并行化。

        除此之外,模型選擇依然面臨著其他問題。首先,這類優(yōu)化問題的一個問題是對規(guī)則參數(shù)的調(diào)試,不同的規(guī)則參數(shù)下會得到不同的模型。另外,如果起始選擇了不同的候選模型,最后優(yōu)化得到的模型往往更加不唯一。而且模型選擇原則,比如赤池信息量準則(AIC)和貝葉斯信息量準側(cè)(BIC)往往相差不大,導致模型很難區(qū)分。

        數(shù)據(jù)同化技術(shù)[10]可以對數(shù)據(jù)引擎得到的模型集合進行在線篩選。它能幫助一個動態(tài)模型不斷地將觀測數(shù)據(jù)的有用信息反饋進入原有的模型中,一方面能改良無法觀測的物理量,從而不斷地把模型的(預測)輸出逼近現(xiàn)實,另一方面可以不斷地修正模型,在線做出模型選擇。

        3.4 數(shù)據(jù)交換與經(jīng)濟

        大數(shù)據(jù)時代的到來,不僅僅意味著更多數(shù)據(jù)被收集和被處理,更為重要的是,數(shù)據(jù)實實在在成為改變個人和社會的力量。眾多案例[11-13]已向我們展示了大數(shù)據(jù)的應用價值,然而一個技術(shù)要深刻地推進社會發(fā)展,它需要從具有應用價值發(fā)展為具有“應用+經(jīng)濟”的雙重價值。

        從經(jīng)濟價值的眼光來看大數(shù)據(jù),我們可以看到所謂的“數(shù)據(jù)”在整條價值鏈上處在起點的位置。數(shù)據(jù)從一開始作為原材料,到最后成為產(chǎn)品提供給用戶,其中經(jīng)歷了一系列的加工和增值過程,包括清理[14]、語義化[15]、融合[16]、分析[17]、建模[18]、知識提?。?9]、應用[20]、分發(fā)[21]等關(guān)鍵步驟,如同一個工業(yè)產(chǎn)品,從原材料到最終產(chǎn)品形態(tài)再到市場,是一個復雜的價值鏈,需要精巧的協(xié)同工作。而在目前大部分的大數(shù)據(jù)研究中,關(guān)注點還在于這些具體過程的技術(shù)基礎(chǔ),我們相信隨著整個大數(shù)據(jù)生態(tài)環(huán)境的建立,每個步驟背后的經(jīng)濟因素將成為最大的推動力量。

        要推動從數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的價值鏈,有很多關(guān)鍵的經(jīng)濟問題需要考慮,其中一個核心的問題是數(shù)據(jù)作為資產(chǎn)的定價問題。數(shù)據(jù)與其他原材料在4個方面有很大不同:(1)數(shù)據(jù)的使用不會帶來數(shù)據(jù)的消耗,它的開發(fā)不是排他的,甚至反而是利他的;(2)聚合后的數(shù)據(jù)比單獨的數(shù)據(jù)更有價值,也應該具有更高的價格;(3)同樣種類的數(shù)據(jù),不同來源的數(shù)據(jù)具有不同的價值,這點在醫(yī)療數(shù)據(jù)中尤為突出;(4)同樣的數(shù)據(jù)在不同的使用者看來,也是價值各異。在這些特殊的條件中,如何對數(shù)據(jù)資產(chǎn)定價是一個很難的問題,我們認為采用一種基于市場協(xié)商的價格或許更為現(xiàn)實可行。

        有了定價,還需要交易。目前很多概念仍需考察,例如交易是代表了數(shù)據(jù)所有權(quán)的轉(zhuǎn)移?還是僅僅出讓了使用權(quán)?數(shù)據(jù)作為一種容易復制和分發(fā)的資產(chǎn),如何控制其再交易?另外一方面,定價和交易的問題同樣存在于整個數(shù)據(jù)價值鏈上,例如對數(shù)據(jù)產(chǎn)品如何定價?目前基于app的交易模式是否是最合理的?

        解決這些核心問題,有利于找到適合大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)經(jīng)濟的商業(yè)模式。目前很多商業(yè)模式初現(xiàn)雛形,例如基于眾包的數(shù)據(jù)收集和基于用戶數(shù)據(jù)收集的精確廣告等。然而很多商業(yè)模式其經(jīng)濟模型曖昧不明,在數(shù)據(jù)定價、用戶隱私等方面缺乏明晰思考和監(jiān)管??傮w來說,整個價值鏈上的商業(yè)模式尚處起步,大有研究和發(fā)展空間。

        由大數(shù)據(jù)經(jīng)濟推動的各個參與者(數(shù)據(jù)提供者、加工者、產(chǎn)品開發(fā)者、發(fā)布商、用戶等)最終會形成一個生態(tài)環(huán)境。一個好的生態(tài)環(huán)境會促進各個參與者的效益和效率,并提高從技術(shù)到效能再到效益的轉(zhuǎn)化。目前此生態(tài)環(huán)境初見雛形,但在很多方面缺乏體系支持。以隱私為例,目前在用戶和數(shù)據(jù)收集者之間缺乏一個有效的隱私保護機制。針對這個問題,我們提出了一種新的移動隱私保護模型(Pay-by-Data,PbD模型[22]),用于控制以下這類常見問題:在目前的機制下,手機應用可以在用戶不知情或無力控制的情況下,獲取用戶大量移動端數(shù)據(jù)。在 PbD 模型中,定義了一種新的應用價格,即數(shù)據(jù);并建立了一種新的開發(fā)者與用戶之間的關(guān)系,使得用戶可以對他們的數(shù)據(jù)有更強的控制。模型讓用戶知道他們哪些數(shù)據(jù)被收集,而這些用戶數(shù)據(jù)的使用也被顯式地告知用戶,并通過新的粒度更低的認證機制來控制。此模型同時使得用戶可以從數(shù)據(jù)交易中獲得獎勵。這種顯式的數(shù)據(jù)-服務(wù)交換使得我們可以建立一種以市場機制為調(diào)節(jié)手段的數(shù)據(jù)定價和交易方法。在過去的兩年中,我們團隊完成了 PbD 的計算模型并完成了其原型系統(tǒng),包括 PbD 市場、數(shù)據(jù)交易價格、PbD 開發(fā) SDK和一個定制的 PbD Android 操作系統(tǒng)。

        其他的支持體系包括法律、知識產(chǎn)權(quán)等方面,其中一個有意思的方向是科學領(lǐng)域的數(shù)據(jù)知識產(chǎn)權(quán),或者說數(shù)據(jù)出版。這個問題涉及到科學數(shù)據(jù)如何被開發(fā)利用,尤其是在學界之外的開發(fā)利用。這其中同樣有經(jīng)濟模型的問題,例如科研經(jīng)費如何對數(shù)據(jù)獲取、處理和發(fā)布進行支持,以及如何建立對數(shù)據(jù)科學家的聲譽和激勵,從而在科學數(shù)據(jù)領(lǐng)域形成良好生態(tài)。我們在此領(lǐng)域做了一些初步工作,進行了一個大規(guī)模的數(shù)據(jù)出版調(diào)查,并出版了第一期的數(shù)據(jù)出版調(diào)查報告,調(diào)查圍繞數(shù)據(jù)出版話題,側(cè)重從數(shù)據(jù)出版動機、數(shù)據(jù)出版方式、數(shù)據(jù)出版運營模式以及數(shù)據(jù)出版質(zhì)量評價 4 大維度出發(fā),來了解世界范圍內(nèi)科學研究領(lǐng)域科學家對于科學數(shù)據(jù)出版相關(guān)內(nèi)容的看法和態(tài)度,并針對數(shù)據(jù)出版的意義價值及其操作層面的諸多問題予以探討,以期全面了解數(shù)據(jù)出版發(fā)展現(xiàn)狀,并試圖探索推進數(shù)據(jù)出版事業(yè)未來發(fā)展、為促進科學數(shù)據(jù)交流共享提供積極建議。

        4 結(jié)語

        大數(shù)據(jù)為人類社會提供了又一次新的資源機遇,其具有已有自然資源所不具備的許多特征。如它的超可再生性——數(shù)據(jù)的使用本身并不消耗數(shù)據(jù),相反,還會產(chǎn)生新的數(shù)據(jù);它的非競爭性使用—— 一方對數(shù)據(jù)的占有并不限制其他人對這份數(shù)據(jù)的擁有。這些特征使得數(shù)據(jù)資源的使用不僅可以像其他的自然資源一樣產(chǎn)生能量與財富,而且可以完全改變?nèi)祟惖纳鐣M織結(jié)構(gòu)和行為方式。所以,對數(shù)據(jù)科學研究必須站在社會發(fā)展、新的經(jīng)濟模式、新的工業(yè)體系、新的創(chuàng)新產(chǎn)品、新的生活方式以及新的科學研究的方法等宏觀角度來進行系統(tǒng)化的科學研究。

        1 Hey T, Tansley S, Tolle K, et al. The fourth paradigm: dataintensive scientific discovery. General Collection, 2009, 317(8): 1. 2 Vassiliadis Panos. A survey o f Extract-transform-Load technology. International Journal of Data Warehousing and M ining, 2009, 5(3): 1-27.

        3 Wang S, Pandis I, Wu C, et al. High dimensional Biological data retrieval optim ization w ith NoSQL technology. BMC Genom ics,2014, 15 (8): 1.

        4 Wang S, Pandis I, Johnson D, Emam, et al. Optim ising parallel R correlation matrix calculations on gene expression data using MapReduce. BMC Bioinformatics, 2014, 15 (1): 351.

        5 Zhu T, Xiao S, Zhang Q, et al. Emergent Technologies in Big Data Sensing: A Survey. International Journal of Distributed Sensor Networks 2015, 2015: 1-13.

        6 Zaslavsky A, Perera C, Georgakopoulos D. Sensing as a Service and Big Data. Proc. Int. Conf. Adv. Cloud Com put.Doi: arXiv:1301.0159.

        7 Aggarwal C C, Ashish N, Sheth A. The Internet of Thinys :A Surrey from the Data Centric Perspectire, Managing and Mining Sensor Data. 383-428 (2014). Doi:10.1007/978-1-4614-6309-2_12.

        8 Friston K J, Harrison L W. Dynam ic causal m odelling. Neuroimage, 2010,5 (4): 1273-1302.

        9 Pan W, Yuan Y, Goncalves J, et al. A sparse bayesian approach to the identification o f non linear state-space system s. IEEE Transaction on Automatic Control, 2015, 61 (1): 1.

        10 Evensen G. Data assim ilation: the ensemb le Kalman filter. Springer Science & Business Media, 2009.

        11 Ahnn J H. Big data com puting for the personalization of services and its applicaiton to speech recognition. International Symposium on Big Data Computing, London, 2015.

        12 Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, com petition, and productivity. Analytics, 2011.

        13 Andrew M A, Erik B., et al. Big data: the management revolution. Harvard Business Review, 2012, 90 (10): 60-67.

        14 Rahm E, Hong H D. Data cleaning: Problem s and current approaches. IEEE Data Engineerhy Bulletin. 2000, 23 (23): 3-13.

        15 Auer S, Bizerc, Kobilaror G, et al. Dbpedia: A nucleus for a web of open data. The Semantic web. Springer Berlin Heidelberg,2007, 4825: 722-735.

        16 Hall D L, James L. An introduction to multisensor data fusion. Proceedings of the IEEE, 1997, 85 (1): 6-23.

        17 Trnka A. Big data analysis.European Journal of Science and Theology, 2014, 10 (1): 143-148.

        18 Wu X D, Zhu X, Wu G Q, et al. Data m ining w ith big data. IEEE Transactions on Know ledge and Data Engineering, 2014, 26 (1):97-107.

        19 Chen H, Chiang R HL, Storey V C, Business Intelligence and Analytics: From Big Data to Big Impact. M IS quarterly 2012, 36(4): 1165-1188.

        20 M urdoch T B, Detsky A S. The inevitable application of big data to health care. Jama the Journal of American M ediael Association. 2013, 309 (13): 1351-1352.

        21 Naim i A I, Westreich D J. Big data: A revolution that w ill transform how we live, w ork, and think. In formation Commwnicotion & Society, 2013, 17 (1): 181-183..

        22 Wu C, Guo Y K. Enhanced user data privacy w ith pay-by-data model. 2013 IEEE International Conference on Big Data, 2013:53-57.

        郭毅可英國帝國理工學院計算系教授,帝國理工學院數(shù)據(jù)科學研究所所長。1985年畢業(yè)于清華大學計算機系,獲工學學士學位。1993年在英國帝國理工學院獲得計算機博士學位,博士期間研究方向為計算邏輯及陳述性語言編程,其畢業(yè)論文獲1994年英國帝國理工學院最佳博士畢業(yè)論文。2002年被聘為帝國理工學院計算機系終身正職教授,在當時是英國最年輕的教授之一。其主要研究領(lǐng)域包括大數(shù)據(jù)管理與分析、分布式數(shù)據(jù)挖掘、網(wǎng)格計算、云計算、傳感器網(wǎng)絡(luò)及生物信息學等。1999年創(chuàng)立了帝國理工計算系的第一個派生公司InforSense,并于1999年至2008任該公司首席執(zhí)行官。InforSense有限公司于2009年6月為國際知名科學數(shù)據(jù)管理公司英國IDBS公司并購,迄今他一直擔任IDBS公司首任首席創(chuàng)新官。2012出任全球性非盈利性組織tranSMART基金會的首席技術(shù)官。2011年至2013年擔任清華大學信息科學與技術(shù)國家實驗室講席教授。2012年成為首批上海市千人計劃入選者、上海特聘專家,并為北京市人民政府“海外人才工作顧問”。現(xiàn)任上海市產(chǎn)業(yè)研究院大數(shù)據(jù)首席科學家,中科院深圳先進技術(shù)院健康大數(shù)據(jù)中心主任,及上海大學計算機學院院長。E-mail: y.guo@imperial.ac.uk

        Yike GuoProfessor of Computing Science in the Department of Computing at Imperial College London. He is the founding Director of the Data Science Institute at Imperial College, as well as leading the Discovery Science Group in the department. Professor Guo also holds the position of CTO of the tranSMART Foundation, a global open source community using and developing data sharing and analytics technology for translational medicine. Professor Guo received a first-class honours degree in Computing Science from Tsinghua University, China, in 1985 and received his PhD in Com putational Logic from Im perial College in 1993 under the supervision of Professor John Darlington. He founded InforSense, a software company for life science and health care data analysis, and served as CEO for several years before the company's merger w ith IDBS, a global advanced R&D software provider, in 2009. He has been working on technology and platforms for scientific data analysis since the m id-1990s, where his research focuses on know ledge discovery, data m ining and large-scale data management. He has contributed to numerous major research projects including: the UK EPSRC platform project, Discovery Net; the Wellcome Trust-funded Biological A tlas of Insulin Resistance (BAIR); and the European Comm ission U-BIOPRED project. He is currently the Principal Investigator of the European Innovative Medicines Initiative (IM I) eTRIKS project, a €23M project that is building a cloud-based informatics platform, in which tranSMART is a core com ponent for clinico-genom ic medical research, and co-Investigator of Digital City Exchange, a £5.9M research programme exploring ways to digitally link utilities and services w ithin smart cities. Professor Guo has published over 200 articles, papers and reports. Projects he has contributed to have been internationally recognised, including w inning the “Most Innovative Data Intensive Application Award” at the Supercomputing 2002 conference for Discovery Net and the Bio-IT World “Best Practices Award for U-BIOPRED in 2014. He is a Senior Member of the IEEE and is a Fellow of the British Computer Society. E-mail: y.guo@imperial.ac.uk

        Big Data for Better Science

        Guo YikePan WeiYu Sim iaoWu ChaoWang Shicai

        (Data Science Institute, Imperial College London, London SW7 2AZ, UK)

        Data driven scientific research has now gain great prosperity. However, we believe that the principle task of data science is to understand the basic problems w ithin data research. In this paper, based on our experience in building the Data Science Institute in Imperial College London, we consider data science as the core of interdisciplinary research, and discuss the whole pipeline of data science research,including data integration and understanding, data sensing and interaction, data learning and cognition, and data exchange and economy. We discuss these basic scientific problems based on our practices in practice. We hope the work presented in this paper can bring thinking and discussion in a larger scale.

        big data, data science, data-driven scientific research

        10.16418/j.issn.1000-3045.2016.06.002

        *修改稿收到日期:2016 年 5月19日

        猜你喜歡
        可視化科學模型
        一半模型
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        重要模型『一線三等角』
        基于CGAL和OpenGL的海底地形三維可視化
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        科學大爆炸
        3D打印中的模型分割與打包
        科學
        免费播放成人大片视频| 人妻丰满熟妇av无码区hd| 丰满岳妇乱一区二区三区| 天堂网在线最新版www中文网| 中文文精品字幕一区二区| 精品在免费线中文字幕久久| 亚洲一区二区三区毛片| 国产一品二品三品精品在线| 国产98在线 | 日韩| 免费看国产成年无码av| 好看的国内自拍三级网站| 与最丰满美女老师爱爱视频| 亚洲欧洲国产成人综合在线| 六月婷婷久香在线视频| 亚洲国产中文在线二区三区免| 国产aⅴ丝袜旗袍无码麻豆| 在线人妻va中文字幕| 亚洲日韩欧美一区、二区| 国产在线观看www污污污| 国产美女免费国产| 一区二区三区国产偷拍| 亚洲婷婷久久播66性av| 日本一区二区三区视频在线观看| 又粗又粗又黄又硬又深色的| 亚洲制服无码一区二区三区| 久久精品国产亚洲av试看| 宅男亚洲伊人久久大香线蕉| 成熟丰满熟妇av无码区| 中国农村熟妇性视频 | 亚洲日韩区在线电影| 亚洲av色香蕉一区二区三区蜜桃 | 成年免费a级毛片免费看无码| 亚洲成av人片在线观看麦芽| 亚洲精品无码国模| 婷婷色国产精品视频一区| 国产喷白浆精品一区二区豆腐 | 国产午夜福利精品一区二区三区| 久久99精品国产99久久6尤物| 久久与欧美视频| 亚洲av第一区国产精品| 久久青青草原亚洲av无码麻豆|