大數據技術發(fā)展的十個前沿方向（上）

2015-03-17 02:10:24吳甘沙

大數據 2015年2期

Ten Fronties for Big Data Technologies (Part A)

吳甘沙，男，現任英特爾中國研究院院長。2000年加入英特爾，先后在編程系統(tǒng)實驗室與嵌入式軟件實驗室承擔了技術與管理職位，期間參與或主持的研究項目有受控運行時、XScale微架構、眾核架構、數據并行編程及高生產率嵌入設備驅動程序開發(fā)工具等。2011年晉升為首席工程師，共同領導了公司的大數據中長期技術規(guī)劃，主持大數據方面的研究，工作重點為大數據內存分析與數據貨幣化。在英特爾工作期間，發(fā)表了10余篇學術論文，有23項美國專利（10余項成為國際專利），14項專利進入審核期。

1 引言

“大數據”的發(fā)展與IT產業(yè)其他領域的發(fā)展相輔相成，近年來互聯網、移動互聯網、物聯網、云計算和高性能計算等方面的高速發(fā)展從內涵上不斷推動大數據的技術演進，從外延上不斷延展大數據的應用范圍。

多年來，筆者有幸接觸國內外學術界和工業(yè)界的大數據研究，2014年底受清華數據科學研究院之邀，把所見、所得、所思總結為《大數據的十個技術前沿》的演講。這次得到《大數據》雜志邀請，將其改為綜述文章，并分為3期刊出，分別為：膨脹宇宙、巴別之難、數據有價；軟硬兼施、多快好省、天下三分、分久必合；精益求精、人機消長、智能之爭。筆者嘗試從廣度視角介紹大數據發(fā)展前沿的一些技術趨勢和實踐。限于篇幅，論述可能不夠嚴密，介紹可能不夠深入，唯愿拋磚引玉，激發(fā)同仁的思考和討論。

2 十大前沿方向綜述

大數據的根本出發(fā)點是指數思維方式。美國未來研究院（Institute of the Future）的發(fā)起人Roy Amara提出的Amara法則[1]認為人們往往會高估技術的短期影響力，而低估技術的長期影響力。數據總量的積累正是如此，在經歷很長時間的緩慢增長之后，增長斜率會突然在一個臨界點后急劇增加，變?yōu)楸ㄊ皆鲩L。人們常說：“最近兩年產生的數據量相當于人類歷史上產生的數據量總和的90%”、“現在產生的數據總量每兩年翻一番”。所有這些橋段都指向同一個現象——指數增長效應。

在過去50年里，指數效應的主要驅動力是摩爾定律。英特爾的聯合創(chuàng)始人之一戈登·摩爾（Gordon Moore）預言：每過18個月，晶體管數量翻一番，相應地中央處理器（central processing unit，CPU）性能翻番，成本折半，功耗折半。這種指數增長以鏈式反應的方式波及各個方面，如磁介質機械硬盤的容量增長以及主干網帶寬的增長，甚至是每美元能夠買到的數碼相機的像素數都呈現了指數級的增長效應。最后，帶來了數據的摩爾定律。

大數據發(fā)展的拐點已經到來，目前正在逐漸成為經濟活動的主要承載者。數據被稱為資產、原油、原材料、貨幣，無論哪種形容的方法都不過分。據IDC預測：2020年，70億人的數據化生存以及500億個互聯設備的感知、互聯和智能，將產生35 ZB的數據。1 ZB相當于1 000 EB，目前谷歌公司的數據量級為數十EB，這就意味著，一年將產生相當于1 000個谷歌公司的數據量。

從數據中提取出價值，海量數據才有存在的意義。大數據的生命周期和價值鏈條通?？梢苑殖?個階段：數據生成、獲取、存儲和分析。目前主流的大數據技術基本上是為了解決這4個問題。本文提到的10個技術前沿，基本上都落到這4個需求里，但總體來看又可以分成三大類。

● 解決數據本身的問題。分別為膨脹宇宙、巴別之難、數據有價。

● 解決大量的數據前提下，如何能夠實時計算的問題。這里涉及技術手段與范式變遷，分為軟硬兼施、多快好省、天下三分、分久必合。

● 分析如何能夠提取更好、更精確的價值問題。分別為精益求精、人機消長、智能之爭。

本期主要介紹膨脹宇宙、巴別之難、數據有價3個技術前沿。

3 前沿方向一：膨脹宇宙

面對數據量的爆炸，IDC創(chuàng)造了一個名詞——數據宇宙（data universe）?，F在單機硬盤的容量已在TB級別，而商業(yè)公司的數據存儲量級從PB到EB再到ZB，甚至再到下一步YB（美國國家安全局已經在猶他規(guī)劃YB級別的數據中心）。與之對應的是存儲技術的突飛猛進：存儲介質技術發(fā)展、單服務器設計突破、分布式文件系統(tǒng)創(chuàng)新以及形形色色的分布式數據庫爆發(fā)。

3.1 不斷涌現的新存儲介質

近年來，新的存儲介質不斷涌現，在性能和成本上都取得了長足的進步，構成了大數據發(fā)展的基礎。

首先，磁介質的機械硬盤技術快速發(fā)展，單碟容量在TB級別翻倍增長。

其次，固態(tài)硬盤（solid state drives，SSD）獲得了廣泛普及，對革新存儲體系結構起到畫龍點睛的作用，例如SAP HANA[2]架構。又如AWS的SSD存儲I2，Databricks用它在2014年的Daytona Gray類Sort Benchmark奪魁（并列）。

第三，PCIe SSD和閃存存儲（flash storage）更為激進。從特立獨行的Fusion-io到眾望所歸的NVMe，以其輕量級棧、低CPU開銷、直接閃存訪問帶來高吞吐量和高IOPS（input/output operations per second，每秒進行讀寫（I/O）操作的次數）。

第四，包含閃存和磁盤的混合存儲或聯合存儲是對軟硬件協(xié)同設計的創(chuàng)新。谷歌公司的Janus智能地把數據在閃存和磁盤之間進行分配和遷移，閃存只存放1%的數據，卻能服務28%的讀操作。

第五，下一代非易失性隨機訪問存儲器（non-volatile random access memory，NVRAM）也將漸漸走上舞臺中央，它的特點包括訪問性能接近動態(tài)隨機存取存儲器（dynamic random access memory，DRAM）（最短時延為DRAM的2倍）、容量大、數據不易失、字節(jié)尋址（閃存只能塊訪問）等。這些特性將改寫整個存儲體系結構的版圖，必將帶來內存空間和文件系統(tǒng)的融合。

第六，磁帶在超大規(guī)模數據備份和管理上仍有一席之地。谷歌公司作為世界上最大的磁帶機買家，利用磁帶對EB級別的數據進行備份和管理，并通過位置隔離、應用層問題隔離、存儲問題隔離、存儲介質問題隔離等多種混合手段保證數據的可用性。

3.2 不斷突出的單服務器的存儲極限

在新存儲介質層出不窮的同時，單服務器的存儲極限也在不斷突破。從2008年到2014年，主流單服務器內存從8 GB發(fā)展到現在的96～192 GB。貨架產品里，單服務器最高內存容量可達48 TB。在硬盤方面，從2008年到2014年，主流單服務器磁盤容量從1 TB發(fā)展到48 TB。

2014年9月，英特爾開發(fā)者峰會展示了2U服務器可以容納1.5 TB內存和100 TB硬盤，使高密度部署更上臺階。微軟公司在同年10月份宣布推出的Azure G系列虛擬機，能夠提供單虛擬機448 GB內存。這不但推動了大數據“內存計算[2,3]”的普及，而且模糊了內存和磁盤的邊界，越來越多內存被用于緩存，甚至當成RAM Disk使用[4]。

3.3 創(chuàng)新的分布式文件系統(tǒng)

大數據技術的發(fā)展起始于分布式文件系統(tǒng)（distributed file system，DFS）。當前，分布式文件系統(tǒng)以Apache HDFS為主，但用戶需求在持續(xù)變化。一方面，數據中心的資源開始統(tǒng)一管理調度，分離的小集群被轉換成統(tǒng)一的大集群，對存儲系統(tǒng)的容量上限、存儲的空間效率、訪問控制和數據安全有了更高的要求。另一方面，存儲系統(tǒng)的使用模式由周期性的批處理應用變成了交互式的查詢和實時流式應用。

下面簡單描述分布式文件系統(tǒng)的幾個最新發(fā)展。

首先，HDFS（Hodoop Distributed File System, Hadoop分布式文件系統(tǒng)）新實現的HDFS緩存功能允許用戶把某些常用數據塊保留在堆外內存中，一方面可以增加數據帶寬，減少時延；另一方面，可以用于不同應用之間的高速數據共享。

第二，支持分層的存儲設備。數據中心一般都有內存、SSD和硬盤等存儲設備，新型非易失存儲器（nonvolatile memory，NVM）也呼之欲出，還有各類傳統(tǒng)存儲系統(tǒng)，如SAN（存儲區(qū)域網絡）、NAS（網絡附屬存儲）和NETFS（網絡文件系統(tǒng)）。因此，HDFS推出新功能heterogeneous storages（HDFS-2832）以支持異構的存儲設備，適用不同應用的存儲需求。

第三，加密文件系統(tǒng)?，F在的典型部署是一個大集群容納所有用戶，由此帶來的問題就是數據安全。HDFS的新功能——加密式文件系統(tǒng)（HADOOP-10150），使用AES-CTR加密算法，能夠透明地對HDFS上的文件塊加密、解密，并且只有很小的性能損失。

第四，內存文件系統(tǒng)，如RAMCloud[6]。它是由成千上萬臺普通服務器的主存組成的大規(guī)模存儲系統(tǒng)，所有信息都存儲在這些快速的DRAM中，內存取代了傳統(tǒng)系統(tǒng)中的硬盤，而硬盤只作為備份使用。其目標是同時實現大規(guī)模（100～1 000 TB）和低時延（5～10 ms），比目前系統(tǒng)快100～1 000倍。在Spark[4]軟件棧中也加入了內存文件系統(tǒng)Tachyon，特別適合迭代式的計算需求以及多應用共享數據。

最后值得一提的是糾刪碼（erasure coding），它最早應用于通信領域，通過編碼機制實現傳輸過程中容錯甚至糾錯，如今它也被用到了大數據方向。英特爾公司和Cloudera公司一起推出了一種新的糾刪碼實現。

3.4 蓬勃發(fā)展的NoSQL數據庫

同時，基于DFS技術和MapReduce技術的演進，發(fā)展出品類豐富的NoSQL數據庫技術[3,6～12]。NoSQL數據庫摒棄了關系模型的約束，弱化了一致性的要求，從而獲得水平擴展能力，支持更大規(guī)模的數據。其模式自由（schema free），不再堅持SQL查詢語言，因此催生了多種多樣的數據庫類型，目前被廣為接受的如下。

（1）類表結構數據庫

類表結構數據庫是最早出現且在模式上也是最接近于傳統(tǒng)數據庫的NoSQL數據庫，但多采用列存儲。其源頭是谷歌公司的BigTable[7]，并且在此之上發(fā)展出HBase、Hypertable、Cassandra和著重安全的Accumulo（美國國家安全局使用）。

（2）文檔數據庫

數據保存載體是XML或JSON文件，從而能夠支持靈活豐富的數據模型。一般文檔數據庫可以通過鍵值或內容進行查詢。MongoDB是典型的文檔數據庫，也是DB Engines數據庫排行榜中排名最前的NoSQL數據庫（前10名當中只有兩個NoSQL數據庫，另一個是Cassandra）。

（3）鍵—值存儲

因其易用性和普適性形成了NoSQL家族中最大的一支。鍵—值是最簡單的一種數據模型，在此之上可以實現更豐富的數據模型。目前，基于不同一致性和存儲介質（內存、SSD或硬盤）形成了很多選擇。比如，亞馬遜Dynamo[9]以最終一致性為主，而Berkeley DB[10]則保證串行一致性；Memcached[11]和Redis是基于主內存的，而BigTable一族則是基于磁盤的。

除了上面3種數據庫類型外，值得一提的是圖數據庫，將數據存儲在高效的圖結構中，典型代表是Neo4j。另一個案例，由谷歌公司工程師開發(fā)的開源圖數據庫Cayley針對Linked Data和圖數據（如語義網絡和社交網絡）。

在NoSQL的蓬勃發(fā)展中，其重要理論支持“CAP（consistency，availability，partition tolerance）理論”也在演進。傳統(tǒng)上CAP必須保證P（partition tolerance，分區(qū)容錯性），而在C（consistency，一致性）、A（availability，可用性）中取舍。Eric Brewer在名為《CAP理論十二周年回顧：“規(guī)則”變了》[12]一文中指出：CAP理論的3選2這一結論太過簡單化，實際情況要更復雜。首先，在同一數據中心，分區(qū)的情況很少出現，意味著在系統(tǒng)不存在分區(qū)的情況下未必要犧牲C或A；其次，C和A之間的取舍可以在同一系統(tǒng)內以非常細小的顆粒度反復發(fā)生，其取決于特定的操作、數據或用戶；再者，這3種性質都不是非黑即白的，每個屬性都有多種度量。在這個前提下，CAP理論的應用會更加復雜。Eric提出：CAP要在大部分時候允許完美的C和A；當分區(qū)存在或者可以感知時，需要定義一種策略來探知其存在，并根據CAP理論的指導對其進行處理。換句話說，創(chuàng)建一個CAP全都有的系統(tǒng)是可能的。

NoSQL一般損失強一致性以換取性能，而抽樣方法允許用戶犧牲精度，以加快大規(guī)模數據集上查詢的響應速度。其代表為BlinkDB，主要思想包括兩個方面：一個是自適應優(yōu)化框架，從原始數據中建立和維護一個多維度的采樣集合；另一個是動態(tài)采樣策略，根據查詢的精度和響應時間要求，決定采樣數據的規(guī)模。在VLDB 2012的展示上，BlinkDB使用100個Amazon EC2節(jié)點組成的機群處理17 TB的數據，能夠在2 s之內響應一系列的查詢，速度是Hive的200倍，而錯誤率也被控制在2%～10%。

在NoSQL提出近4年后，來自The 451 Group的Matthew Aslett在2011年提出了NewSQL[13]數據庫的概念。NewSQL既能提供近似NoSQL的性能和可擴展性，又能提供類似于傳統(tǒng)關系數據庫那樣的關系模型、事務和SQL語言接口。從架構或者實現角度來看，NewSQL系統(tǒng)可以分成三大類。

（1）使用全新的架構

該類又可以分成兩類：第一類系統(tǒng)一般使用shared-nothing（無共享）架構，所有的節(jié)點都具有處理事務的能力，系統(tǒng)具有近似線性的擴展能力，其可以是通用的數據庫（如Google Spanner[3]）或者為某種特定場合設計的數據庫（如VoltDB[14]）；第二類系統(tǒng)則使用主從架構，有專門的節(jié)點進行事務處理，這種設計使得系統(tǒng)的擴展能力會受到一定限制。

（2）各種MySQL存儲引擎

MySQL是一個高度可擴展的架構，可以根據特定的應用場景為MySQL編寫各種存儲引擎，比較出名和成熟的有TokuDB、MemSQL、ScaleDB等。最新版本的MySQL 6.5既支持傳統(tǒng)的關系數據模型，又支持鍵值對數據模型，此外還支持Memcached的訪問協(xié)議。

（3）透明數據分區(qū)技術

與Cobar很相似，能夠自動地對數據分區(qū)，并進行分布式事務管理，如dbShards、Scalearc和ScaleBase等。

作為NewSQL的一種主流，內存數據庫以其優(yōu)越性能成為新寵，主要包括兩類：一類是傳統(tǒng)數據庫加上內存選項，如Oracle 12c[15]（包括Exalytics和Exadata）、IBM DB2帶BLU加速以及微軟SQL Server 2014等；另一類是完全重起爐灶設計的新型數據庫，包括Altibase、MemSQL、VoltDB、EXASOL、H20和SAP HANA等。不斷增加的內存容量也為商業(yè)數據分析帶來了新的可能：hybrid transaction/analytical processing（HTAP）在同一片內存中完成事務性的數據存取與分析過程，消除了數據ETL的代價。

Hadoop不支持ACID事務限制了其應用場景，如刪除舊的記錄、更新表格中任意一項等均無法在Hadoop生態(tài)圈的工具中完成。因此，Hadoop最新推出的特性也體現了NewSQL的影響。首先是Hive，從0.14版本開始能夠在給定的限制下支持NewSQL操作；隨后HBase也開始支持Transaction操作。

針對執(zhí)行時間較長的操作，Hive推出了LLAP優(yōu)化。其包括如下特性：有效降低啟動開銷；充分利用JIT優(yōu)化引擎；對于向量算子采用多線程執(zhí)行，并在這些線程之間共享元數據；異步I/O。這些優(yōu)化與Tez等執(zhí)行引擎相互獨立，協(xié)同工作，以加快Hive的查詢速度。被認為是Hadoop接班人的Spark也啟動了稱為Tungsten的項目，對Spark的核心引擎進行加速。Tungsten專注于改善Spark對內存和CPU的利用情況，主要包括以下3個改動：使用程序語義以改善JVM的對象模型和垃圾收集功能；設計cache-aware的算法和數據結構，以更好地利用層次存儲體系（memory hierarchy）；利用代碼生成（code generation），以更好地發(fā)揮現代編譯器和CPU的能力。

谷歌公司仍然推動著超大規(guī)模廣域數據庫研究的前沿，連續(xù)推出Metastore、Spanner和F1。尤其值得一提的是Spanner，可擴展到幾百萬個機器節(jié)點，跨越成百上千個數據中心，具備幾萬億個數據庫行的規(guī)模。在最高抽象層面，Spanner就是一個數據庫，把數據分片存儲在許多Paxos狀態(tài)機上，這些機器位于遍布全球的數據中心內，通過復制技術實現全球可用性和地理局部性，保證即使面對大范圍的自然災害時數據依然可用（它的開源克隆CockroachDB名字取自蟑螂，寓指其超強的生存能力）。與Spanner同時現身的是新一代的谷歌文件系統(tǒng)Colossus，它們將取代BigTable和上一代谷歌文件系統(tǒng)的核心地位。F1是建筑在Spanner之上的關系數據庫。在上述的NoSQL/NewSQL數據庫上衍生出很多針對特定用途的數據庫。如OpenTSDB和KairosDB是基于HBase和Cassandra的時間序列數據庫。

傳統(tǒng)上，比較“小眾”的科學計算數據庫也開始向大數據融合，主要體現為并行數組數據庫（array DBMS）。目前得到最多關注的是SciDB，其作為開源的科學領域數據庫，設計初衷旨在提供多維數據管理，更好地支持具有科學計算特點的分析，比如它使用數組數據模型，允許行列交換，支持查詢語言和數學計算，性能上比傳統(tǒng)RDBMS快兩個數量級。另一個相關工作是TileDB，作為一個針對數組數據做優(yōu)化分塊（tiling）策略的存儲管理器，也將發(fā)展成為完整的分布式DBMS。它針對物理世界數據的高度skew和稀疏性，實現了非規(guī)則分塊的策略，從而達到更高效的存儲和負載均衡。

4 前沿方向二：巴別之難

圣經里有一個巴別寓言：在人類文明初期，曾經是“天下人用同一種口音語言說話”，人類語言相同，因而能夠高效地合作。于是他們聚在一起要造“一座城和一座塔，塔頂通天”。但是，神不容許人類破壞神所定的綱紀，所以一夜之間擾亂了人類的口音和語言，讓人類溝通困難，最終放棄建造工程，從而分布到不同的地方去。那個城叫巴別城，塔叫巴別塔。自此以后，“大一統(tǒng)”成為人類的夢想，但是語言障礙是最大的阻礙。

數據世界也面臨同樣的問題。不同來源、不同地方的數據用不同語言（格式）表示，即使相同格式，其語意和度量衡也可能不同。這些因素極大地阻礙了數據共享，限制了數據使用的范圍。另一方面，數據可能是不完備的，甚至是相互之間矛盾的，這樣導致了一個問題，即沒有辦法利用更多的數據產生更好的價值。

為解決這些問題，Data Curation1https://www. ideals.illinois.edu/ handle/2142/3493應運而生，中文可譯為“數據治理”。其原意是指在科學計算中的數據抽取、轉換、保存和復用。后來逐漸擴展，數據治理包含在科學、人文、社會、教育所有領域，對數據進行發(fā)現、獲取、質保、增值、重用的活動。在這里強調的是數據治理中與數據分享相關的技術——data munging / data wrangling（數據再加工）2http://www. quora.com/ What-is-datamunging。數據再加工是指把數據從原始格式中抽取出來，然后向其他格式轉化的過程。以前這個過程以手工為主，現在將逐漸變?yōu)榘胱詣雍妥詣舆^程。這是一個很難的題目，參考NP困難的提法，將其稱為DB困難。

數據再治理技術希望打破數據的語義隔閡。新科圖靈獎得主Michael Stonebraker目前就在做data wrangling。他的goby.com項目（如圖1https://www. ideals.illinois.edu/ handle/2142/3493所示），根據某些條件返回與suicide six相關的幾個選項，如何甄別這幾個選項是否代表著同一個東西。Stonebraker開發(fā)的Data Tamer系統(tǒng)能夠模擬人的推理思路，從不同的選項里面發(fā)現不同的線索。首先比較這些選項的源網站，接著進入選項所指的網頁，分析數據的異同。通過對數據進一步發(fā)掘，發(fā)現數據描述的主體有很多特征，以這些這些特征為基礎，發(fā)現相似特征。通過證據的不斷疊加，發(fā)現數據與數據之間的關聯性。

圖1 數據發(fā)現示例

Data Tamer技術的關鍵在于通過自動化的學習方式，發(fā)現數據中的規(guī)律和關聯。首先是在文本這種典型的非結構化數據中發(fā)現結構；其次是發(fā)現重要的實體（entity）。而這一切都希望能夠通過自動化學習來完成。同樣在這個領域發(fā)力的還有Trifacta，該公司提出了“l(fā)ive in visualizations, not code”的口號，致力于讓用戶通過可視化完成data wrangling的工作。其基礎是專門針對data wrangling任務設計的DSL，追求靈活和擴展的用戶也可以在Trifacta提供的DSL上編寫自己的腳本。

Data Wrangling下一步希望從半結構化或者多結構化的數據進一步擴展到完全非結構化的數據，如圖片和語音。

數據治理完畢和數據質量提升以后，就是數據組織問題。

在今天的許多商業(yè)場景下，傳統(tǒng)數據庫和數據倉庫在數據治理上暴露出難以操作和缺乏彈性的缺點。Schroeder認為Data Agility的重要性將不斷上升，其關鍵在于組織數據。數據組織的復雜性使得數據很難被及時利用，更遑論進行實時更新，這極大地提高了數據使用成本3http://www. cio.com/article/ 2862014/bigdata/5-bigdata-technologypredictions-for-2015.html。

主流的大數據處理框架紛紛提升其數據描述和組織的靈活性。Spark在1.4版本中引入了稱為DataFrame的新API。一個DataFrame就是許多列數據的集合，每一列都是被命名的?？梢詫⑵淇醋鹘Y構化數據中的表格或R/Python中的data frame，不同之處在于其支持許多優(yōu)化算子。DataFrame可由多種來源構成，如結構化數據文件、Hive表格、外部數據庫或者RDD結構。而GraphLab在圖數據之外，也開始支持表結構SFrame。

另一個值得關注的數據組織工具是Apache的UIMA。IBMWatson在知識競賽jeopardy中戰(zhàn)勝了兩個此項目的前世界冠軍，其組織多種形態(tài)數據的基礎就是UIMA，它的優(yōu)點是組織數據以便于后期的分析。

5 前沿方向三：數據有價

數據作為未來經濟的石油，自身必須有一個特性——價值。

數據的物理實質是記錄在介質上的比特。比特是可以低成本無限復制的，這就和物品稀缺性矛盾了。物品失去了稀缺性后，其價值也就趨近于零。所以，數據有價首先要確保數據的權利。

為了確保數據的權利，先要保證數據的安全。大數據的安全本身又分為大數據系統(tǒng)的安全、數據本身的安全以及數據使用中的安全。

有了數據權利和保障數據權利的數據安全，數據才能進行定價。

5.1 數據權利

在互聯網和物聯網時代，數據的存在形式已經變得非常復雜。在整個價值鏈條中，有數據源頭、數據收集者、數據存儲者、數據使用者等。在多數商業(yè)場景下，他們都是不同客體。所以整個價值鏈中，權利的定義是一個重要的技術、商業(yè)和法律的課題。

如圖2所示，筆者初步認為有如下5個基本權利。

● 擁有權。必須明確數據的擁有權，像其他的物理財產一樣，擁有權可以出現變更和分割。

● 數據隱私權。即明確什么數據能夠披露、什么數據不能披露、披露到什么樣的粒度。

圖2 數據的權利

● 數據許可權。哪些人在什么時間有權利看數據，是有約束的，比如今天允許給某個人看數據，明天就不允許。這個權利是可撤銷的，也是可轉移的。

● 數據審計權。監(jiān)督用戶按照某個規(guī)范許可使用數據。需要有一種審計機制，確保用戶按照約定的許可規(guī)范使用數據。

● 數據分紅權?；跀祿獠啃裕@得數據使用許可的一方在反復使用數據中會產生新的價值，那么數據擁有者有沒有可能得到分紅？

5.2 數據安全

保障數據權利的核心是數據的安全問題。既有傳統(tǒng)的信息系統(tǒng)安全問題，也有復雜的數據內容安全問題。

信息系統(tǒng)安全主要是大數據系統(tǒng)的安全控制，正在迅速地發(fā)展成熟。以Hadoop為例，加入了基于Kerberos的用戶和服務鑒權、HDFS文件和數據塊權限控制。比如Apache Accumulo是一個開源數據庫，美國國家安全局幾十個PB的數據存在這里，它采用了一種基于標簽（label）的非常靈活的訪問控制機制。在HBase里面也利用coprocessor的機制實現了類似的訪問控制。

數據內容安全超越了訪問控制和數據加密，更加復雜，可以稱為“動態(tài)數據安全”。動態(tài)數據安全是大數據安全特有的新問題。

動態(tài)數據安全產生的原因是在監(jiān)控和審計數據使用的過程中，不能簡單地使用“允許/不允許”的靜態(tài)策略來管理數據訪問。數據一定要能被訪問，否則數據就不能流動。關鍵是要在數據被訪問和被加工的過程中動態(tài)地對數據流動方向、數據使用范圍、數據使用粒度進行跟蹤和監(jiān)控。

數據監(jiān)控主要分以下幾個步驟完成。

（1）在數據產生的源頭進行監(jiān)控和規(guī)劃

首先，個人對數據的控制。現在個人用戶對自己的數據有了一定的控制能力，比如do not track功能可以防止互聯網服務商根據cookie不斷地跟蹤用戶行為，可以避免廣告的retargeting，比如在京東商城上看中一雙鞋，到了淘寶上它的廣告還是跟著消費者這種情況。

另外，個人數據的刪除。目前可以要求一些互聯網的服務提供商把個人的數據刪掉。值得一提的是MIT的創(chuàng)新項目OpenPDS（open personal data store），允許個人對自己的數據進行收集和控制，在保護隱私的前提下向第三方提供數據，并且獲得價值。

（2）對數據分享的粒度進行控制

數據脫敏或匿名化是目前數據安全中最熱的一個研究領域。如何保證開放數據里不泄露個人的隱私信息，是一個重大課題。在歷史上很多的數據開放都導致了這樣的問題。比如美國在線開放的匿名搜索數據，有人把這個跟美國選舉公開信息進行了匹配，使得某些個人的隱私被暴露出來。

傳統(tǒng)的脫敏方法是去標識符。比如一張表有姓名、年齡、性別、郵編和疾病幾列，姓名是可以唯一標識個人的，叫做標識符。針對隱私的攻擊方式還有很多。比如多數據源的相互匹配，Netflix嘗試在去標識后開放了一些數據，但是有人把去標識后的數據跟IMDB做了匹配，把一些有同性戀傾向的人找了出來，這就是多數據源的攻擊。而研究表明，根據年齡、性別和郵編的信息，有90%以上的概率可以定位個人，這些屬性叫準標識符，而這種攻擊基于數據概率分布。

要防止這些隱私攻擊，現在推出了很多技術，如K-anonymity[16]。K的意思是在所有準標識符都相同的組別里（比如，在上述的數據表例子中，年齡、性別和郵編都相同的所有數據記錄）保證至少有k個相同的記錄，從而提高單個記錄被多數據源交叉定位的難度。后續(xù)發(fā)展出了L-diversity[17]和T-Closeness[18]，繼續(xù)對跨組別敏感信息的統(tǒng)計分布提出更高的可區(qū)分度的要求。

2006年提出的差分隱私（differential privacy）[8]是近幾年最熱門的匿名化方法。這項技術提出，在數據中人為地插入噪聲，同時通過精確模型設定保證噪音的程度不足以干擾各種數據分析算法（已經實際展示的有決策樹、分類、聚類等），這樣可以實現數據價值（信息粒度）和數據安全的平衡。

（3）建立數據使用的安全框架

未來，數據使用能夠做到可用但不可見，相交但不相識。因為在幾乎所有的大數據場景下，真正重要的數據分析結果，其實原始數據不是必須被公開或者傳遞的。為了實現這個目標，牽扯到以下幾種技術。

● 同態(tài)加密。典型的是CryptDB/ Monomi[19]，能夠在加密的數據庫上運行正常的SQL查詢，而不用擔心數據的明文被泄露，谷歌、SAP等公司都采用或借鑒了CryptDB的技術。

● 基于加密協(xié)議的多方安全計算。圖靈獎得主姚期智先生1982年開始研究這個問題，叫做“百萬富翁的窘境”：兩個百萬富翁要比誰更有錢，但是誰都不愿意說出自己的財富數值，這就是典型一種保護隱私下的多方安全計算場景。

● 基于可信計算環(huán)境的多方安全計算。前兩種需要涉及晦澀難懂的加密算法，而基于可信計算環(huán)境的多方安全計算對數據計算的改變最小，也最有前途。當然，可信計算環(huán)境需要一些硬件支持。英特爾平臺上開發(fā)了TXT、TPM、VT-d，目的都是保證應用計算環(huán)境是可信、可溯源的，計算中的數據被隔離保護。即將推出的下一個技術叫SGX[20]，它保證數據在磁盤和內存里面都是加密的，只有載入CPU里面進行計算的時候才是明文，更進一步隔離了磁盤和內存的物理攻擊機會。

（4）區(qū)塊鏈與零知識證明、多方安全計算等融合

在未來高度分布、去中心化場景下，可能會發(fā)展出各個數據實體之間不存在單個核心節(jié)點的安全控制機制。最典型的就是比特幣所依賴的區(qū)塊鏈（block chain）4http://www. bitcoin.org/ bitcoin.pdf, 2012技術被廣泛看好，將承擔全球規(guī)模的去中心化金融系統(tǒng)中事務記錄、支付、數據資產管理和交易、智能合約等業(yè)務，以太坊（Ethereum）5http:// ethereum.org/ ethereum. html, 2013是實現這些業(yè)務的開放應用開發(fā)環(huán)境。區(qū)塊鏈技術也將被應用于個人數據控制（如上述OpenPDS的下一代Open Mustard Seed框架）和分布式數據存儲（如MaidSafe）。區(qū)塊鏈與零知識證明、多方安全計算等融合，將有可能成為下一代互聯網基礎設施平臺。

5.3 數據審計監(jiān)管的技術

系統(tǒng)安全、數據安全、使用安全都需要審計作為保證。所謂審計就是給出一個數據使用的條款，按照條款監(jiān)控數據的使用。設計條款必須有形式化的描述，其目的在于讓非IT的專業(yè)領域人員編寫這些條款，如企業(yè)法務。如果一個企業(yè)的數據要開放給另外一個企業(yè)，需要法律人士給出邏輯嚴格的使用條例，條例的內容本質上不是IT范疇。同時，因為條例規(guī)范是形式化的，IT技術方案也可以據此對數據的使用進行必要的審計監(jiān)控。

5.4 數據定價的技術

數據定價是最具挑戰(zhàn)性的研究方向，尚無成熟的研究成果。目前數據的定價有兩個依據：一是根據效用，二是根據稀缺性。數據效用簡單來說，就是數據使用的頻率，也可以理解為從分析結果逆推數據的淵源（lineage），從而量化各方數據對結果的貢獻度。稀缺性則是根據數據價值的密度以及歷史價格的稀缺性進行定價。

5.5 數據咖啡館

基于上述這些前沿技術，英特爾中國研究院開發(fā)了一個數據分享原型平臺——數據咖啡館?？Х瑞^的寓意是讓不同的人能夠聚在一起進行思想的碰撞，產生新的價值。數據咖啡館希望能夠讓不同方的數據碰在一起，產生新的價值。

許多獨立垂直電商或者線下行業(yè)用戶，僅靠其自身收集的消費者數據不足以對消費者建立精準的營銷模型。因此，他們需要彼此間開放數據，甚至從通信、地圖等專業(yè)數據源持續(xù)地購買數據服務。

另一個案例是癌癥的研究和治療。癌癥是一個長尾病癥，過去50年癌癥的治愈率只提升了8%，在所有的疑難雜癥中是提升最少的，很大的原因是不同研究機構癌癥的基因組樣本非常有限。但是，共享基因組樣本受到嚴格的隱私法律的限制。英特爾中國研究院希望通過技術創(chuàng)新把這些數據匯聚到一起，加速癌癥研究的技術突破。現在，英特爾中國研究院跟美國幾家研究機構有一個愿景：在2020年前，一天之內一個癌癥患者來到醫(yī)院能夠完成全基因組測序，同時分析出致癌的基因，并且給出個性化的治療方案。

數據咖啡館的目標就是幫助這樣的場景能夠持續(xù)、高效、低成本地運作。其創(chuàng)新點包括：集成了分布式云環(huán)境下的可信任大數據計算環(huán)境；形式化地描述數據使用規(guī)范；探索基于數據使用規(guī)范的程序檢查器，包括對代碼的靜態(tài)檢查以及對結果的動態(tài)檢查。

未來數據咖啡館的應用場景：企業(yè)的數據擁有方是一方，但是沒有分析能力；具有分析能力的獨立的數據使用者又是一方。數據擁有方的IT人員準備了數據存儲和數據格式，商務和法務人員編寫數據使用規(guī)范。將數據格式和數據使用規(guī)范提交到數據咖啡館云。數據使用方的分析師們編寫分析代碼，并提交到云上。云首先對代碼進行檢查，把它拆成預處理和全局分析兩部分，其中預處理部分在數據擁有方的防火墻內執(zhí)行。發(fā)送前，在云內先運行一個靜態(tài)的檢查器，根據數據使用規(guī)范檢查代碼的合法性。只有通過合法性檢查的代碼才會被送到數據提供方進行計算。然后，把階段性的處理結果送回云。在送回前，由動態(tài)檢查器對結果進行審計檢查。只有完全符合數據使用規(guī)范，全局分析部分才能收到預處理結果，并在云里面完成最后的計算。這個架構可以自然地衍生到多方的數據計算。

這個架構創(chuàng)新點在于：數據的提供方和數據使用方實現了可控的隔離。原始數據和核心分析算法作為參與各方的核心資產，在計算過程中得到保護，并且計算過程不受保護措施干擾。英特爾中國研究院愿意與各位同仁在這一領域共同開展前沿研究。

[1] Amara R, Lipinski A J. Business Planning for AnUncertain Future: Scenarios & Strategies. New York: Pergamon Press, 1983

[2] F?rber F, Cha S K, Primsch J,et al. SAP HANA database: data management for modern business applications. ACM Sigmod Record, 2012, 40(4): 45～51

[3] Corbett J C, Dean J, Epstein M,et al. Spanner: Google’s globally distributed database. ACM Transactions on Computer Systems, 2013, 31(3)

[4] Zaharia M, Chowdhury M, Das T,et al. Resilient distributed datasets: a faulttolerant abstraction for in-memory cluster computing. Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, San Jose, CA, USA, 2012

[5] Li H, Ghodsi A, Zaharia M,et al.Tachyon: reliable, memory speed storage for cluster computing frameworks.Proceedings of the ACM Symposium on Cloud Computing, Seattle, Washington, USA, 2014: 1～15

[6] Ousterhout J, Agrawal P, Erickson D,et al. The case for RAMClouds: scalable high-performance storage entirely in DRAM. ACM SIGOPS Operating Systems Review, 2010, 43(4): 92～105

[7] Chang F, Dean J, Ghemawat S,et al. Bigtable: a distributed storage system for structured data. ACM Transactions on Computer Systems, 2008, 26(2)

[8] Dwork, Cynthia. Encyclopedia of Cryptography and Security. New York: Springer US, 2011

[9] DeCandia G, Hastorun D, Madan J,et al. Dynamo: amazon’s highly available key-value store.ACM SIGOPS Operating Systems Review,2007, 41(6)

[10] OlsonM A, Keith B, Seltzer M I.Berkeley DB. Proceedings of USENIX Annual Technical Conference,Monterey, CA, USA, 1999

[11] Jose J, Subramoni H, Luo M,et al. Memcached design on high performance rdma capable interconnects. Proceeding of IEEE International Conference on Parallel Processing (ICPP), Taipei,China, 2011

[12] Brewer E. CAP twelve years later: how the“rules” have changed. Computer, 2012, 45(2): 23～29

[13] Moniruzzaman A B M. NewSQL: towards next-generation scalable RDBMS for online transaction processing (OLTP) for big data management. arXiv Preprint, 2014, arXiv:1411.7343

[14] Stonebraker M, Weisberg A. The VoltD Bmain memory DBMS. IEEE Data Engineering Bulletin, 2013, 36(2): 21～27

[15] Greenwald R, Stackowiak R, Stern J. Oracle Essentials: Oracle Database 12c. Sebastopol: O’Reilly Media Inc, 2013

[16] Sweeney L. K-anonymity: a model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557～570

[17] Machanavajjhala A, Kifer D, Gehrke J,et al. l-diversity: privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1)

[18] Li N H, Li T C, Venkatasubramanian S. T-closeness: privacy beyond k-anonymity and L-diversity. Proceedings of the 23rd International Conference on Data Engineering, Istanbul, Turkey,2007

[19] Popa R A, Redfield C M S, Zeldovich N,et al. CryptDB: protecting confidentiality with encrypted query processing.Proceedings of the 23rd ACM Symposium on Operating Systems Principles,Cascais, Portugal, 2011

[20] McKeen F,Alexandrovich L, Berenzon A,et al. Innovative instructions and software model for isolated execution. Proceedings of the 2nd International Workshop on Hardware and Architectural Support for Security and Privacy, New York, NY, USA, 2013 □

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數據技術發(fā)展的十個前沿方向（上）

1 引言

2 十大前沿方向綜述

3 前沿方向一：膨脹宇宙

4 前沿方向二：巴別之難

5 前沿方向三：數據有價