亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

為科學服務的大數(shù)據(jù)

2018-02-08 18:14:17郭毅可潘為于思淼吳超王世才

中國學術期刊文摘 2018年3期

郭毅可潘為于思淼吳超王世才

1 研究背景

微軟研究院Jim Gray曾經對科學研究方法的歷史作了一個精辟的總結：幾百年前，科學研究是完全通過實驗來觀察自然、理解自然；到了近代數(shù)百年，科學才開始注重理論研究，通過建模和抽象來總結揭示自然的規(guī)律；近幾十年來，計算機的廣泛使用，使得計算模擬成了科學研究的一個重要手段。到了今天，計算技術已經完全普適化?？茖W儀器已經成為高通量數(shù)據(jù)采集的工具，由模擬和儀器采集的數(shù)據(jù)經過計算機的處理分析形成信息和知識。數(shù)據(jù)驅動已成為今天科學研究的新的方法。

如今，海量數(shù)據(jù)源源不斷地被產生出來?？茖W家和工程師通過對數(shù)據(jù)的觀察、整合、分析和解釋，不斷創(chuàng)造知識，推動著科學技術的進步和社會的發(fā)展。在這種背景下，在中國乃至世界各地，各類以數(shù)據(jù)為驅動或以數(shù)據(jù)科學為目標的研究單位如雨后春筍般涌現(xiàn)，在可預見的未來，數(shù)據(jù)驅動的科學研究必將得到蓬勃發(fā)展，蔚為大觀。然而，在目前的探索階段，厘清關于數(shù)據(jù)科學的基本問題仍然是首要任務，例如數(shù)據(jù)科學應該研究什么？它與傳統(tǒng)計算機研究和統(tǒng)計分析到底有什么區(qū)別？它在學科交叉中應該扮演什么角色？本文根據(jù)倫敦帝國理工學院建設數(shù)據(jù)研究院（Data Science Institute）的實際經驗，提出對如何建設一個支持以數(shù)據(jù)作為驅動為己任的數(shù)據(jù)研究院的見解，試圖從我們的研究脈絡中尋找共性問題，拋磚引玉，希望能在更廣大范圍內引起對這些基本問題的思考和討論。

倫敦帝國理工學院是一所專注于科學技術、醫(yī)學和商學的世界頂級名校。從事的科學研究和數(shù)據(jù)緊密相關：從個人醫(yī)療數(shù)據(jù)到科學實驗數(shù)據(jù)，從公共數(shù)據(jù)到商業(yè)數(shù)據(jù)。這樣一個大學必須有一個數(shù)據(jù)研究所作為支撐學校數(shù)據(jù)驅動研究的科研機構。于2014年4月成立，其建所宗旨是：“研究先進的大數(shù)據(jù)管理和分析技術，并以此來促進數(shù)據(jù)驅動的科學研究及技術發(fā)展，造福人類社會?！彼炎约旱娜蝿斩x為：（1）作為學校交叉學科發(fā)展的樞紐，組織并推進以大數(shù)據(jù)為基礎的多學科合作；（2）培養(yǎng)新一代有創(chuàng)新能力的數(shù)據(jù)科學家；（3）為學校的數(shù)據(jù)驅動的科學研究提供技術與設施的支持；（4）作為學校對外合作的窗口，與全世界工業(yè)界及學術界廣泛開展大數(shù)據(jù)科研合作；（5）向政府、公共管理機構及全社會提供有關大數(shù)據(jù)的政策與技術咨詢。

研究所自成立以來，秉承其宗旨，在上述5個方向上做出了許多努力，取得了令人矚目的成果，得到了學界和社會的廣泛關注和肯定，很多研究成果產生了國際影響力。因此，習近平主席2015年對英國進行國事訪問期間專門參觀了數(shù)據(jù)科學研究所，聽取了一些研究成果匯報，包括：和浙江大學合作的對中國人口遷移的分析；和維也納國際應用系統(tǒng)分析研究所、美國大氣研究中心和上海大學合作有關“一帶一路”戰(zhàn)略國際影響力分析；和英國國家基因組計劃、歐盟創(chuàng)新制藥計劃合作的有關精準醫(yī)學的合作研究；以及和上海地鐵在交通監(jiān)測和預測方面的合作。習近平主席認為用大數(shù)據(jù)做交叉學科研究很有意義，和實際應用相結合是個好方向。習近平主席對我們的這些工作表示贊賞，肯定了研究所對大數(shù)據(jù)研究方向的思考和策略，使研究所倍受鼓舞。

2 數(shù)據(jù)驅動的交叉科學研究

科學技術的偉大進步往往需要多學科的交叉融合，數(shù)據(jù)科學的交叉同樣會驅動產生重大的科學發(fā)現(xiàn)。而且我們認為數(shù)據(jù)科學無法作為獨立學科存在，必須和特定領域結合在一起；如不對交叉學科的領域知識有深入的理解，而設計脫離實際的數(shù)據(jù)分析方法是很難有發(fā)展前途的。

以目前熱門的“精準醫(yī)療”為例，其涉及到生理學、分子生物學、藥理學、化學、營養(yǎng)學、環(huán)境學、生物物理學等眾多學科，很多學科在各自的領域對相關問題已經有了很長的研究歷史，然而只有當交叉出現(xiàn)，特別是針對生物醫(yī)學的大數(shù)據(jù)分析方法和工具出現(xiàn)之后，結合患者生活環(huán)境、生物信息、臨床和藥物等各種數(shù)據(jù)，實現(xiàn)精準醫(yī)療才有可能。

由此可見，數(shù)據(jù)科學是一個組合體，它在明確的應用目標下，驅動和連接各種學科，形成有機統(tǒng)一。把數(shù)據(jù)科學作為統(tǒng)計學和計算機科學的分支應用，把機器學習和大數(shù)據(jù)管理技術等數(shù)據(jù)科學的具體技術作為數(shù)據(jù)科學的主要內涵的思路與做法，未免是太狹隘了。

進而言之，數(shù)據(jù)科學的許多方法也來自于不同領域的科學研究，以今天非常流行的深度學習技術為例，它的許多進步是基于神經生物學和信號處理技術的研究。從數(shù)據(jù)驅動的領域科學研究中獲取養(yǎng)料和動力，是數(shù)據(jù)科學研究的一個重要途徑。

數(shù)據(jù)科學有自己的學科內涵，即基于數(shù)據(jù)的獲取，清理、建模、分析等方法，從這個角度說，數(shù)據(jù)科學與數(shù)學及計算機科學一脈相承；它也有自己的外延，即面向各種應用問題，從這個角度說，數(shù)據(jù)科學又是各個交叉科學的載體。在后文中，我們將結合數(shù)據(jù)科學的內涵，即其研究問題，以及外延，即其應用領域，談談我們的理解。

3 倫敦帝國理工學院數(shù)據(jù)科學研究所研究方向

數(shù)據(jù)科學研究是一條完整的鏈條，由4個關鍵的環(huán)節(jié)串聯(lián)在一起。我們將這4個環(huán)節(jié)定義為數(shù)據(jù)整合與理解（Data Integration and Understanding）、數(shù)據(jù)感知與交互（Data Sensing and Interaction）、數(shù)據(jù)學習與認知（Data Learning and Cognition）、數(shù)據(jù)交換與經濟（Data Exchange and Economy）。倫敦帝國理工學院數(shù)據(jù)科學研究所在這4個方面同時開展研究，并且將幾方面的研究緊密地整合到一起。下面具體地闡釋每部分的研究內容。

3.1 數(shù)據(jù)整合與理解

一份數(shù)據(jù)，從采集到分析，需要經歷一系列的處理、理解和整合，這部分的工作，毫不夸張地說，可以占到整個數(shù)據(jù)研究工作量的80%。

（1）在數(shù)據(jù)整合與理解方面，數(shù)據(jù)集成是大數(shù)據(jù)研究的關鍵。眾所周知，數(shù)據(jù)的多樣性和復雜性往往使得無法將所有數(shù)據(jù)進行整合，并為領域內的所有研究人員所共同使用。很多擁有相同實驗目的的結果數(shù)據(jù)無法相互兼容。例如，在生命科學領域，在利用mRNA分析基因表達的過程中，基因芯片產生的表達程度數(shù)據(jù)通常用CEL格式存取，而如果使用mRNA測序技術則會產生大量基因序列的原始片段。兩種數(shù)據(jù)都可以通過各自的計算方法得到基因表達的程度，但數(shù)據(jù)的格式天差地別，專業(yè)的分析人員也需要借助多種不同的技術分析匯總其中的結果，讓計算機對此做出統(tǒng)一正確的理解可以說是困難重重。隨著信息需求不斷發(fā)展和增長，數(shù)據(jù)一體化的需求也不斷增長。適當?shù)臉藴驶椒梢杂行椭鷶?shù)據(jù)的集成，標準化方法往往取決于數(shù)據(jù)集和特定領域的慣例，標準分數(shù)和T-統(tǒng)計量是轉換醫(yī)學研究中常用的標準化方法。

（2）現(xiàn)有的數(shù)據(jù)集成技術，如本體論，語義Web可以起到關鍵的作用。這些現(xiàn)有語義框架和技術可以被用來建立各種數(shù)據(jù)之間的聯(lián)系，并通過已有的映射關系拓展并建立新的聯(lián)系。例如，對于醫(yī)療數(shù)據(jù)，可以通過預定義的、映射一致的本體森林模型來為臨床數(shù)據(jù)和分子分析數(shù)據(jù)提供一個更加統(tǒng)一的數(shù)據(jù)表示，每一棵子樹都表示一個研究項目，通過拓展子樹節(jié)點之間的語義關系建立聯(lián)系，獲得新的語義知識。新的知識可以是擁有相同或相似病理特征的人的集合，或是治愈某種疾病的治療方法的集合。

（3）對數(shù)據(jù)標注，整理和ETL（Extract、Transform、Load）自動化的研究是大數(shù)據(jù)研究的重要課題。ETL，用來描述將數(shù)據(jù)從來源端經過提?。╡xtract）、轉換（transform）、加載（load）至目的端的過程，也是對數(shù)據(jù)集成各個過程的集成和自動化過程。ETL通過提取和轉換完成數(shù)據(jù)清洗、標準化和語義建模的過程，使原始數(shù)據(jù)轉換成人、機都能理解的有效信息。ETL的核心在于減少繁復的數(shù)據(jù)預處理中的人工干預，自動化完成數(shù)據(jù)整合的各個步驟。其難點在于通過人工智能的方法對原始數(shù)據(jù)進行自動化標注，并利用語義分析的方法將被標注的對象加入語義網絡。

（4）對于數(shù)據(jù)的標準化和統(tǒng)一化，質量控制是關鍵技術。在標準化的過程中，需要特別重視數(shù)據(jù)質量控制。仍以mRNA分析基因表達為例，相對于基因芯片產生的少量高質量數(shù)據(jù)，mRNA測序技術產生基因序列數(shù)據(jù)量較大，但可靠性較差。通常的基因表達分析結果中都需要加注每個基因序列片段分析結果的質量，對于質量較差的片段，通常的分析中一般不予采用。

我們主持的“歐洲轉化醫(yī)學信息與知識管理服務”（European Translational Information & Knowledge Management Services，eTRIKS）項目就是以數(shù)據(jù)標準化和質量控制為目標的一個典型的數(shù)據(jù)質量工程。eTRIKS是由歐洲創(chuàng)新藥物計劃（Innovative Medicines Initiative）發(fā)起的5年科研總經費達2300萬歐元的研發(fā)項目，由世界12大制藥廠參與，旨在建設基于云計算的全歐洲范圍內的醫(yī)學研究標準大數(shù)據(jù)平臺，成為歐盟醫(yī)學臨床研究的大數(shù)據(jù)標準。由全球性非營利性組織tranSMART基金會主導開發(fā)的知識管理平臺是eTRIKS平臺的核心系統(tǒng)。它以系統(tǒng)級的方法來解決數(shù)據(jù)集成和理解的問題。

此平臺上的研究主要包括生物信息數(shù)據(jù)聯(lián)邦、高效數(shù)據(jù)存儲架構設計以及相關數(shù)據(jù)索引技術。生物信息數(shù)據(jù)聯(lián)邦主要用于解決生物信息的多元化帶來的異構信息抽象和整合等問題，使得各種數(shù)據(jù)源可以依據(jù)其自身特點，以各自特有的模式進行低成本、高效率存儲和處理。例如，基因芯片所產生的數(shù)據(jù)主要存儲在CEL格式的元信息矩陣和數(shù)據(jù)信息矩陣中，高通量測序數(shù)據(jù)結果多存儲在FASTA或FASTQ文件中，而單核苷酸多態(tài)性統(tǒng)計數(shù)據(jù)多以關系型數(shù)據(jù)庫模型存儲。一個復雜的病理研究通常需要綜合多種來源的各種信息共同計算，而數(shù)據(jù)聯(lián)邦通過抽象和整合這些多元數(shù)據(jù)，使得這種基于混合數(shù)據(jù)結構的高效海量數(shù)據(jù)計算成為可能。

在考慮多種信息集中處理的同時，我們也關注于對各類數(shù)據(jù)存儲結構的優(yōu)化，通過引入先進的存儲技術提高數(shù)據(jù)的存取效率。例如，數(shù)據(jù)科學中心設計實現(xiàn)的CGC索引（Collaborating Global Clustering Index）是針對遺傳信息的高效數(shù)據(jù)存儲和檢索方法。

3.2 數(shù)據(jù)感知與交互

隨著傳感器技術及其產業(yè)的發(fā)展，傳感網絡大規(guī)模地被應用于收集不同領域的數(shù)據(jù)，其進一步所帶來的普適感測促進了物聯(lián)網這個新興領域的發(fā)展，帶來了廣闊的未來潛在應用，包括產品追蹤、智慧環(huán)境、社會感知、智能設備、災害預測等等。面對感知大數(shù)據(jù)，如何構建針對物聯(lián)網的通用高性能數(shù)據(jù)處理平臺，及研究針對物聯(lián)網和大數(shù)據(jù)感測的高性能數(shù)據(jù)管理方法成為關鍵。

在這方面，數(shù)據(jù)科學研究所提出了“認知感知”的方法論，認為感知數(shù)據(jù)的作用在于建立、驗證和糾正模型。一旦一個目標感知對象被建模之后，其模型預測將與感知數(shù)據(jù)進行比對，如果模型正確，則無需進一步數(shù)據(jù)采集和模型修正；如果模型失效，說明目標對象出現(xiàn)新的行為或原模型粗糙，這時才需要進一步采集數(shù)據(jù)并修正模型。這種方法被叫做“認知感知”是因為它契合智能生物感知世界的方法，智能生物包括人類能在有限認知計算資源的限制下實現(xiàn)與動態(tài)環(huán)境的均衡，其目標可以說是優(yōu)化自由能量（Free Energy）或最小化驚奇（Minimize Surprise）?；谶@種認識，我們在感知系統(tǒng)中，將認知定義為優(yōu)化主觀認知分布和客觀分布之間KL距離的建模行為，而感知行為被看做是減小此KL距離與實際KL距離的措施。為了實現(xiàn)這種感知和認知，我們解決了兩方面的問題：如何調整模型和模型空間來適應感知對象的變化；如何減少感知維度。

感知之后的數(shù)據(jù)除了分析建模之外，一個重要的研究方法是數(shù)據(jù)可視化。數(shù)據(jù)可視化是研究如何將數(shù)據(jù)以形象化的方式展現(xiàn)出來的一門科學。它主要專注于分析，以連貫和簡短的形式把大量的信息展現(xiàn)出來，而抽取何種數(shù)據(jù)進行形象化的抽象，本身就蘊含了對數(shù)據(jù)如何應用的科學思維。在大數(shù)據(jù)背景下，大規(guī)模的多維的數(shù)據(jù)正在被快速地產生和積累。如何更有效地探索數(shù)據(jù)、理解數(shù)據(jù)以及表達數(shù)據(jù)成為一項重要的研究課題。

通過圖形化地表達數(shù)據(jù)，人可以利用自身復雜的視覺系統(tǒng)直接參與到數(shù)據(jù)探索和交流的過程中。這使得很多復雜的數(shù)據(jù)可以更有效地被分析和理解。數(shù)據(jù)可視化成為數(shù)據(jù)科學的重要組成部分的主要原因有兩個。第一，由于人類視覺系統(tǒng)十分擅長模式識別，通過圖形可視化數(shù)據(jù)以及相關的分析結果，可以更容易更準確地理解數(shù)據(jù)中的有效信息。第二，數(shù)據(jù)可視化技術可以很大程度地幫助人們交流和傳播大數(shù)據(jù)所蘊含的有效信息和重要發(fā)現(xiàn)。

由此可見，可視化不是數(shù)據(jù)分析的結果，而是數(shù)據(jù)分析的過程。如何建立一個能支持發(fā)現(xiàn)科學直觀的可視化環(huán)境是非常重要的，在這方面我們做了大量的工作，建立了全球最大的數(shù)據(jù)可視化設施“全球數(shù)據(jù)觀察站”，幾十個電腦屏幕組成的動態(tài)數(shù)據(jù)圖像準確銜接，其背后蘊含的是并行運算、多項目管理、編程，以及對數(shù)據(jù)的深刻理解。在數(shù)據(jù)觀察站中實現(xiàn)了各種實時交互的可視化應用，比如全球比特幣交易的實時數(shù)據(jù)可視化，個性化醫(yī)療系統(tǒng)可視化，上海地鐵運行分析的數(shù)據(jù)可視化等，實時處理和展示隨時間變化的各種類型的數(shù)據(jù)。

我們所處理的數(shù)據(jù)源不再是靜態(tài)的，它會隨著數(shù)據(jù)的實時變化進行即時接受、處理并更新可視化數(shù)據(jù)。這種方式的數(shù)據(jù)可視化可以幫助人們觀察到最新的即時數(shù)據(jù)并理解其對舊數(shù)據(jù)產生的影響?？山换サ臄?shù)據(jù)可視化分析可以讓人利用可視化信息與系統(tǒng)進行交互，并在此過程中進一步得到相關信息提取和挖掘的結果。在這個交互過程中，人可以在充分理解數(shù)據(jù)可視化信息的基礎上，根據(jù)不同的目的主動探索和發(fā)現(xiàn)所需要的數(shù)據(jù)結果。這可以極大地提升數(shù)據(jù)探索和挖掘的效率。

與此同時，人在與數(shù)據(jù)可視化進行交互的過程中也可以產生新的數(shù)據(jù)。這些數(shù)據(jù)可以被收集和分析，以學習人與系統(tǒng)交互的具體情況。例如，在數(shù)據(jù)觀察站我們可以利用眼動追蹤設備來實時記錄人眼在屏幕上注視點的位置。這些位置點形成的熱點圖可以清晰地展示出人對于數(shù)據(jù)可視化最關注的部分。這些數(shù)據(jù)可以幫助我們設計和創(chuàng)造出更有效的或者更吸引人的數(shù)據(jù)可視化系統(tǒng)。同時，人的眼動情況也提供了一種新的與系統(tǒng)交互的途徑。系統(tǒng)可以通過探測人關注點的具體位置進行實時更新，例如展示額外信息等。新的交互方式毫無疑問會對人與數(shù)據(jù)可視化系統(tǒng)的交互產生積極的影響。

3.3 數(shù)據(jù)學習與認知

研究所進行數(shù)據(jù)學習與認知研究是從實際出發(fā)，為了應用服務的機器學習。沒有應用背景的數(shù)據(jù)科學研究會缺乏影響力，沒有對數(shù)據(jù)科學理論的扎實研究也做不出好的應用。我們關注的實際問題包括功能核磁共振或者腦電圖推斷有效連接（Effective Connectivity）腦網絡；基于微流控技術得到的蛋白質熒光表達推斷基因網絡結構；印度西北部平原地下水水位趨勢變化預測；中國省會城市交通網絡車輛速度和流量的預測；計量經濟學中經濟變量的因果性推斷。這些科學問題都是由數(shù)據(jù)驅動的研究，而這些問題中的數(shù)據(jù)都可以用時間序列來描述。時間序列模型的主要目的是對系統(tǒng)的物理本質有洞察力的解釋和根據(jù)已有的歷史數(shù)據(jù)對未來進行預測。

基于貝葉斯理論和數(shù)據(jù)同化理論，我們團隊致力于開發(fā)貝葉斯學習引擎（Bayesian Learning Engine）進行時間序列數(shù)據(jù)建模。貝葉斯學習引擎由兩部分構成：大數(shù)據(jù)建模（Data Modelling）引擎和大數(shù)據(jù)同化（Data Assimilation）引擎。數(shù)據(jù)建模和數(shù)據(jù)同化用來做模型篩選的思想可以總結為同化學習理論（Assimilated Learning）。

大數(shù)據(jù)建模引擎基于貝葉斯理論構建，其實現(xiàn)分為如下步驟。（1）確定數(shù)據(jù)的似然函數(shù)。（2）選取適當?shù)哪Ｐ徒Y構。一方面由于所研究的科學問題所在領域的特點不同，選取的模型結構往往具有很大的差別，而且往往是非線性的。比如在生化網絡和基因網絡中，模型中方程必須要遵循化學反應動力學原理，也就是模型的形式只能用多項式和有理函數(shù)來描述；比如在描述天氣系統(tǒng)、生態(tài)系統(tǒng)的混沌震蕩系統(tǒng)中，模型也往往是具有多項式形式；而在描述電力系統(tǒng)、通訊網絡系統(tǒng)時，模型一般具有三角函數(shù)形式；在腦網絡的動力因果模型（Dynamic Causal Model）描述中，函數(shù)的形式限制于一階和二階多項式形式。即便是具備了一定的領域知識，由于非線性函數(shù)形式的無窮性，模型空間維數(shù)仍然極高。另一方面，如果系統(tǒng)具有高維的狀態(tài)變量，比如基因網絡中的基因數(shù)目，那么情形會更加嚴重，模型選擇將面臨很大的挑戰(zhàn)。（3）根據(jù)先驗知識和系統(tǒng)的特點構造先驗概率，用于刻畫模型中隱藏變量的不確定程度。而這個不確定程度往往由超參數(shù)刻畫。值得注意的是，超參數(shù)的個數(shù)往往小于或者等于候選模型中的隱含變量個數(shù)。

接下來我們對后驗概率積分獲得邊緣似然函數(shù)，通過對其分析，一個令人喜悅的發(fā)現(xiàn)是對于不同的先驗概率構造，我們只需求解一系列的平滑函數(shù)加變權重L1范數(shù)規(guī)則化優(yōu)化問題。而這類優(yōu)化問題的集中化解法或者分布式解法已經被廣泛地研究，基于不同的分布式計算平臺與計算架構，比如MapReduce、Hadoop、Spark/Shark可以比較直觀地實現(xiàn)并行化。

除此之外，模型選擇依然面臨著其他問題。首先，這類優(yōu)化問題的一個問題是對規(guī)則參數(shù)的調試，不同的規(guī)則參數(shù)下會得到不同的模型。另外，如果起始選擇了不同的候選模型，最后優(yōu)化得到的模型往往更加不唯一。而且模型選擇原則，比如赤池信息量準則（AIC）和貝葉斯信息量準側（BIC）往往相差不大，導致模型很難區(qū)分。

數(shù)據(jù)同化技術可以對數(shù)據(jù)引擎得到的模型集合進行在線篩選。它能幫助一個動態(tài)模型不斷地將觀測數(shù)據(jù)的有用信息反饋進入原有的模型中，一方面能改良無法觀測的物理量，從而不斷地把模型的（預測）輸出逼近現(xiàn)實，另一方面可以不斷地修正模型，在線做出模型選擇。

3.4 數(shù)據(jù)交換與經濟

大數(shù)據(jù)時代的到來，不僅僅意味著更多數(shù)據(jù)被收集和被處理，更為重要的是，數(shù)據(jù)實實在在成為改變個人和社會的力量。眾多案例已向我們展示了大數(shù)據(jù)的應用價值，然而一個技術要深刻地推進社會發(fā)展，它需要從具有應用價值發(fā)展為具有“應用＋經濟”的雙重價值。

從經濟價值的眼光來看大數(shù)據(jù)，我們可以看到所謂的“數(shù)據(jù)”在整條價值鏈上處在起點的位置。數(shù)據(jù)從一開始作為原材料，到最后成為產品提供給用戶，其中經歷了一系列的加工和增值過程，包括清理、語義化、融合、分析、建模、知識提取、應用、分發(fā)等關鍵步驟，如同一個工業(yè)產品，從原材料到最終產品形態(tài)再到市場，是一個復雜的價值鏈，需要精巧的協(xié)同工作。而在目前大部分的大數(shù)據(jù)研究中，關注點還在于這些具體過程的技術基礎，我們相信隨著整個大數(shù)據(jù)生態(tài)環(huán)境的建立，每個步驟背后的經濟因素將成為最大的推動力量。

要推動從數(shù)據(jù)到數(shù)據(jù)產品的價值鏈，有很多關鍵的經濟問題需要考慮，其中一個核心的問題是數(shù)據(jù)作為資產的定價問題。數(shù)據(jù)與其他原材料在4個方面有很大不同：（1）數(shù)據(jù)的使用不會帶來數(shù)據(jù)的消耗，它的開發(fā)不是排他的，甚至反而是利他的；（2）聚合后的數(shù)據(jù)比單獨的數(shù)據(jù)更有價值，也應該具有更高的價格；（3）同樣種類的數(shù)據(jù)，不同來源的數(shù)據(jù)具有不同的價值，這點在醫(yī)療數(shù)據(jù)中尤為突出；（4）同樣的數(shù)據(jù)在不同的使用者看來，也是價值各異。在這些特殊的條件中，如何對數(shù)據(jù)資產定價是一個很難的問題，我們認為采用一種基于市場協(xié)商的價格或許更為現(xiàn)實可行。

有了定價，還需要交易。目前很多概念仍需考察，例如交易是代表了數(shù)據(jù)所有權的轉移？還是僅僅出讓了使用權？數(shù)據(jù)作為一種容易復制和分發(fā)的資產，如何控制其再交易？另外一方面，定價和交易的問題同樣存在于整個數(shù)據(jù)價值鏈上，例如對數(shù)據(jù)產品如何定價？目前基于APP的交易模式是否是最合理的？

解決這些核心問題，有利于找到適合大數(shù)據(jù)產品和大數(shù)據(jù)經濟的商業(yè)模式。目前很多商業(yè)模式初現(xiàn)雛形，例如基于眾包的數(shù)據(jù)收集和基于用戶數(shù)據(jù)收集的精確廣告等。然而很多商業(yè)模式其經濟模型曖昧不明，在數(shù)據(jù)定價、用戶隱私等方面缺乏明晰思考和監(jiān)管?？傮w來說，整個價值鏈上的商業(yè)模式尚處起步，大有研究和發(fā)展空間。

由大數(shù)據(jù)經濟推動的各個參與者（數(shù)據(jù)提供者、加工者、產品開發(fā)者、發(fā)布商、用戶等）最終會形成一個生態(tài)環(huán)境。一個好的生態(tài)環(huán)境會促進各個參與者的效益和效率，并提高從技術到效能再到效益的轉化。目前此生態(tài)環(huán)境初見雛形，但在很多方面缺乏體系支持。以隱私為例，目前在用戶和數(shù)據(jù)收集者之間缺乏一個有效的隱私保護機制。針對這個問題，我們提出了一種新的移動隱私保護模型（Payby-Data，PbD模型），用于控制以下這類常見問題：在目前的機制下，手機應用可以在用戶不知情或無力控制的情況下，獲取用戶大量移動端數(shù)據(jù)。在PbD模型中，定義了一種新的應用價格，即數(shù)據(jù)；并建立了一種新的開發(fā)者與用戶之間的關系，使得用戶可以對他們的數(shù)據(jù)有更強的控制。模型讓用戶知道他們哪些數(shù)據(jù)被收集，而這些用戶數(shù)據(jù)的使用也被顯式地告知用戶，并通過新的粒度更低的認證機制來控制。此模型同時使得用戶可以從數(shù)據(jù)交易中獲得獎勵。這種顯式的數(shù)據(jù)—服務交換使得我們可以建立一種以市場機制為調節(jié)手段的數(shù)據(jù)定價和交易方法。在過去的2年中，我們團隊完成了PbD的計算模型并完成了其原型系統(tǒng)，包括PbD市場、數(shù)據(jù)交易價格、PbD開發(fā)SDK和一個定制的PbD Android操作系統(tǒng)。

其他的支持體系包括法律、知識產權等方面，其中一個有意思的方向是科學領域的數(shù)據(jù)知識產權，或者說數(shù)據(jù)出版。這個問題涉及到科學數(shù)據(jù)如何被開發(fā)利用，尤其是在學界之外的開發(fā)利用。這其中同樣有經濟模型的問題，例如科研經費如何對數(shù)據(jù)獲取、處理和發(fā)布進行支持，以及如何建立對數(shù)據(jù)科學家的聲譽和激勵，從而在科學數(shù)據(jù)領域形成良好生態(tài)。我們在此領域做了一些初步工作，進行了一個大規(guī)模的數(shù)據(jù)出版調查，并出版了第1期的數(shù)據(jù)出版調查報告，調查圍繞數(shù)據(jù)出版話題，側重從數(shù)據(jù)出版動機、數(shù)據(jù)出版方式、數(shù)據(jù)出版運營模式以及數(shù)據(jù)出版質量評價4大維度出發(fā)，來了解世界范圍內科學研究領域科學家對于科學數(shù)據(jù)出版相關內容的看法和態(tài)度，并針對數(shù)據(jù)出版的意義價值及其操作層面的諸多問題予以探討，以期全面了解數(shù)據(jù)出版發(fā)展現(xiàn)狀，并試圖探索推進數(shù)據(jù)出版事業(yè)未來發(fā)展、為促進科學數(shù)據(jù)交流共享提供積極建議。

4 結語

大數(shù)據(jù)為人類社會提供了又一次新的資源機遇，其具有已有自然資源所不具備的許多特征。如它的超可再生性——數(shù)據(jù)的使用本身并不消耗數(shù)據(jù)，相反，還會產生新的數(shù)據(jù)；它的非競爭性使用——一方對數(shù)據(jù)的占有并不限制其他人對這份數(shù)據(jù)的擁有。這些特征使得數(shù)據(jù)資源的使用不僅可以像其他的自然資源一樣產生能量與財富，而且可以完全改變人類的社會組織結構和行為方式。所以，對數(shù)據(jù)科學研究必須站在社會發(fā)展、新的經濟模式、新的工業(yè)體系、新的創(chuàng)新產品、新的生活方式以及新的科學研究的方法等宏觀角度來進行系統(tǒng)化的科學研究。?