亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        感悟大數(shù)據(jù)
        —— 從數(shù)據(jù)管理和分析說(shuō)起

        2017-04-21 08:06:33周傲英
        大數(shù)據(jù) 2017年2期
        關(guān)鍵詞:數(shù)據(jù)庫(kù)系統(tǒng)

        周傲英

        華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062

        感悟大數(shù)據(jù)
        —— 從數(shù)據(jù)管理和分析說(shuō)起

        周傲英

        華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062

        大數(shù)據(jù)依然很熱,對(duì)其解讀也越發(fā)眾說(shuō)紛紜。結(jié)合筆者長(zhǎng)期以來(lái)的研發(fā)經(jīng)歷和深層思考,討論了對(duì)“大數(shù)據(jù)”本身、“大數(shù)據(jù)”國(guó)家戰(zhàn)略、“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的理解。在大數(shù)據(jù)語(yǔ)境下重提數(shù)據(jù)庫(kù)理念,說(shuō)明這對(duì)于理解數(shù)據(jù)管理的發(fā)展趨勢(shì)、把握技術(shù)發(fā)展的機(jī)遇有著重要的意義。此外,從一個(gè)資深的IT學(xué)者和實(shí)踐者的角度,討論近10年來(lái)IT發(fā)展范型的變化,介紹了近5年來(lái)筆者領(lǐng)導(dǎo)研發(fā)的3個(gè)數(shù)據(jù)管理系統(tǒng),提出了分享型數(shù)據(jù)的概念,作為區(qū)塊鏈背后的基本思想的抽象。

        大數(shù)據(jù);數(shù)據(jù)庫(kù)理念;互聯(lián)網(wǎng)+;分享型數(shù)據(jù)庫(kù)

        1 引言

        已經(jīng)不記得第一次看到或聽(tīng)到“大數(shù)據(jù)”這個(gè)詞是在什么時(shí)候了,應(yīng)該比2012年3月29日要早不少時(shí)日。2012年3月29日,前美國(guó)總統(tǒng)奧巴馬的科技政策辦公室(Office of Science and Technology Policy,OSTP)宣布了投資兩億美元的“大數(shù)據(jù)研究和發(fā)展計(jì)劃”。也是在同一天,我國(guó)科學(xué)技術(shù)部發(fā)布的“‘十二五’國(guó)家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南”把大數(shù)據(jù)研究列在首位。目前,大數(shù)據(jù)的熱度似乎還在繼續(xù)攀升,廣度的延伸更是超乎預(yù)期。2012年5月28日,每年一度的數(shù)據(jù)庫(kù)審稿會(huì)暨戰(zhàn)略研討會(huì)在新疆大學(xué)召開(kāi),按照中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專(zhuān)家委員會(huì)(以下簡(jiǎn)稱(chēng)專(zhuān)委會(huì))的安排,李建中老師和筆者代表專(zhuān)委會(huì)給新疆大學(xué)的師生做學(xué)術(shù)交流報(bào)告。筆者當(dāng)時(shí)的報(bào)告題目是“大數(shù)據(jù)時(shí)代的若干數(shù)據(jù)管理和分析問(wèn)題”,討論的話題主要包括:大數(shù)據(jù)的分類(lèi)及管理、新興的開(kāi)源數(shù)據(jù)管理工具以及硬件發(fā)展(特別是內(nèi)存計(jì)算)對(duì)數(shù)據(jù)管理與分析技術(shù)的影響。李老師的報(bào)告是關(guān)于大數(shù)據(jù)計(jì)算的,從李老師那里筆者了解到國(guó)內(nèi)的大數(shù)據(jù)熱已經(jīng)風(fēng)起云涌,蔓延到各個(gè)領(lǐng)域和各個(gè)層面。聽(tīng)了李老師的報(bào)告,受到啟發(fā),產(chǎn)生了一種想從數(shù)據(jù)庫(kù)學(xué)者的角度來(lái)詮釋大數(shù)據(jù)研究的沖動(dòng),于是就主動(dòng)提出要在2012年10月合肥召開(kāi)的第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議上作一個(gè)題為“從數(shù)據(jù)庫(kù)觀點(diǎn)看大數(shù)據(jù)研究”的大會(huì)報(bào)告。因?yàn)檫@次報(bào)告,隨后筆者多次受到邀請(qǐng)?jiān)诓煌瑘?chǎng)合介紹自己的觀點(diǎn)和認(rèn)識(shí),也有機(jī)會(huì)得到更多的指點(diǎn)。專(zhuān)委會(huì)指派李戰(zhàn)懷、王國(guó)仁和筆者以相同的主題把觀點(diǎn)整理出來(lái),作為提交給中國(guó)計(jì)算機(jī)學(xué)會(huì)的年度發(fā)展報(bào)告。方糧教授在了解相關(guān)內(nèi)容后,推薦筆者和各位老師將稿件發(fā)表在《計(jì)算機(jī)工程與科學(xué)》上[1]。

        作為一個(gè)數(shù)據(jù)庫(kù)學(xué)者,當(dāng)突然意識(shí)到“大數(shù)據(jù)”已經(jīng)變成人人都在說(shuō)的一個(gè)熱詞的時(shí)候,感覺(jué)非常特別。首先是一種本能的抵觸,數(shù)據(jù)庫(kù)本來(lái)就是研究怎么管理數(shù)據(jù)的,為什么要提出一個(gè)新的詞,這很像2008年那場(chǎng)著名的關(guān)于MapReduce的辯論上數(shù)據(jù)庫(kù)學(xué)者的反應(yīng)。然后就會(huì)反思為什么在數(shù)據(jù)庫(kù)輝煌50多年之后還會(huì)再出現(xiàn)“大數(shù)據(jù)”,而且更加風(fēng)靡,Michael Stonebraker在獲得圖靈獎(jiǎng)以后的演講中也說(shuō)明了這種反思[2]。2016年5月25日,貴陽(yáng)數(shù)博會(huì)期間,杜小勇教授組織了“第一屆大數(shù)據(jù)科學(xué)與工程國(guó)際會(huì)議(2016)(BDSE2016)”中的“大數(shù)據(jù)分析與管理”主題論壇,筆者在會(huì)上的發(fā)言題目是:“從管理和分析說(shuō)起:感悟大數(shù)據(jù)”,一是為了契合杜教授主題論壇主題,二是想分享自己這么多年的思考或曰感悟。

        從1985年本科畢業(yè)后開(kāi)始讀數(shù)據(jù)庫(kù)方向的研究生算起,筆者從事數(shù)據(jù)庫(kù)學(xué)習(xí)和研究已經(jīng)30多年了,對(duì)數(shù)據(jù)庫(kù)很有感情,也有較為深刻的認(rèn)識(shí)。受Jim Gray提出的科學(xué)發(fā)現(xiàn)第四范式的啟發(fā),2007年開(kāi)始申請(qǐng)“國(guó)家杰出青年科學(xué)基金”時(shí),就把主攻研究方向定為“支持?jǐn)?shù)據(jù)密集型計(jì)算的數(shù)據(jù)管理”,這樣算來(lái)也有10年時(shí)間了。2012年6月,在SAP公司的資助下,筆者得到華東師范大學(xué)的支持,成立了“華東師范大學(xué)云計(jì)算與大數(shù)據(jù)研究中心”,主要目的是聯(lián)合國(guó)內(nèi)高校開(kāi)展內(nèi)存及數(shù)據(jù)庫(kù)等新興計(jì)算和應(yīng)用環(huán)境下的數(shù)據(jù)管理技術(shù)和系統(tǒng),云計(jì)算和大數(shù)據(jù)研究中心的根本宗旨就是踐行大數(shù)據(jù)體現(xiàn)的協(xié)同創(chuàng)新精神,迄今也有近5年。在此基礎(chǔ)上,遵照華東師范大學(xué)的要求,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院作為一個(gè)二級(jí)實(shí)體單位于2013年9月26日正式成立,以大數(shù)據(jù)為背景的數(shù)據(jù)科學(xué)與工程學(xué)院已于2016年9月26日宣布成立,開(kāi)展數(shù)據(jù)科學(xué)與工程[3]這一交叉學(xué)科從本科到博士的人才培養(yǎng)。介紹這些,是想說(shuō)明筆者有資格發(fā)表有關(guān)大數(shù)據(jù)的一些感悟。這里的思考和感悟主要圍繞以下幾個(gè)方面展開(kāi):大數(shù)據(jù)何以成為國(guó)家戰(zhàn)略?為什么要重提數(shù)據(jù)庫(kù)理念?IT發(fā)展范型有何改變?最后結(jié)合筆者在概念和系統(tǒng)方面的思考和實(shí)踐說(shuō)明筆者在踐行大數(shù)據(jù)方面的相關(guān)理念。

        2 大數(shù)據(jù)何以成為國(guó)家戰(zhàn)略

        大數(shù)據(jù)在世界范圍內(nèi)都很熱,這是事實(shí)。據(jù)《參考消息》2012年12月12日?qǐng)?bào)道,在美國(guó)的2012年十大流行詞評(píng)比中,“大數(shù)據(jù)”名列第二,排名第一的是“財(cái)政懸崖”,后者是2012年美國(guó)人最為關(guān)心的政治事件。2012年底筆者在新聞上讀到一些政府為推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,要規(guī)劃大數(shù)據(jù)產(chǎn)業(yè)園區(qū),成立大數(shù)據(jù)局,當(dāng)時(shí)還覺(jué)得似乎是反應(yīng)過(guò)度,更沒(méi)有想象到會(huì)出現(xiàn)貴陽(yáng)數(shù)博會(huì)這樣的場(chǎng)面。無(wú)論這種潮流何去何從,筆者可以分析一下出現(xiàn)如此局面的原因。

        2.1 大數(shù)據(jù)全景圖

        一開(kāi)始,對(duì)于“全民大數(shù)據(jù)”現(xiàn)象總覺(jué)得匪夷所思,認(rèn)為大數(shù)據(jù)是很技術(shù)的一件事,應(yīng)該是從事技術(shù)研發(fā)甚至是數(shù)據(jù)庫(kù)研發(fā)的人才適合談?wù)撨@一話題。仔細(xì)想想,大數(shù)據(jù)是和現(xiàn)實(shí)應(yīng)用密切相關(guān)的,而信息時(shí)代的各種應(yīng)用服務(wù)都涉及數(shù)據(jù),所有關(guān)心應(yīng)用的人談?wù)摯髷?shù)據(jù)都是合理的。也就是說(shuō)“全民大數(shù)據(jù)”現(xiàn)象沒(méi)什么值得大驚小怪的。筆者喜歡用一個(gè)倒三角來(lái)描述這種場(chǎng)景,如圖1所示。

        圖1 大數(shù)據(jù)全景圖

        倒三角分成3層,最上面一層也是最廣泛的一層代表的就是應(yīng)用,凡是和應(yīng)用相關(guān)的人士都可以被納入大數(shù)據(jù)全景之中。這一層從右到左顏色也從淺變深,想表達(dá)的意思是真正實(shí)現(xiàn)大數(shù)據(jù)理念也是從易到難。大數(shù)據(jù)之所以能成為流行詞,深入人心,主要是因?yàn)樵诨ヂ?lián)網(wǎng)企業(yè)中取得極大成功。早期的互聯(lián)網(wǎng)企業(yè),都是起步于在線娛樂(lè)游戲、搜索引擎或是網(wǎng)上購(gòu)物。這些互聯(lián)網(wǎng)應(yīng)用的共同特點(diǎn)就是:其商業(yè)模式(或曰業(yè)務(wù)模式)都是自創(chuàng)的,沒(méi)有受到線下現(xiàn)實(shí)社會(huì)的太多約束。換一句話來(lái)說(shuō),就是這些應(yīng)用是虛擬世界中的應(yīng)用,和現(xiàn)實(shí)世界關(guān)系不大,應(yīng)用涉及的業(yè)務(wù)邏輯可以自行設(shè)定,涉及的戰(zhàn)線比較短,需要的數(shù)據(jù)都是互聯(lián)網(wǎng)企業(yè)能收集和掌握到的。在我國(guó),百度、阿里巴巴、騰訊(BAT)起家的業(yè)務(wù)模式都是這種類(lèi)型,百度是做搜索引擎起家的,阿里巴巴是做電商起家的,騰訊是做即時(shí)通信和在線娛樂(lè)起家的。BAT的成功振奮人心,也給人們帶來(lái)無(wú)限的想象空間,但是要想在健康醫(yī)療和教育領(lǐng)域甚至社會(huì)治理等領(lǐng)域復(fù)制BAT的成功,困難程度遠(yuǎn)非預(yù)想。這既有戰(zhàn)線長(zhǎng)、數(shù)據(jù)孤立、難以形成閉環(huán)的原因,也有內(nèi)生機(jī)制(也就是人們常說(shuō)的互聯(lián)網(wǎng)基因)的原因。BAT依靠其在虛擬世界的成功以及這種成功帶來(lái)的資金、人才和管理方面的優(yōu)勢(shì),強(qiáng)勢(shì)進(jìn)入現(xiàn)實(shí)世界的其他應(yīng)用領(lǐng)域,這是當(dāng)前的一種重要趨勢(shì)。國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)稱(chēng)之為從線上到線下(online to offline,O2O),也就是利用互聯(lián)網(wǎng)思維滲透到線下現(xiàn)實(shí)應(yīng)用,帶來(lái)的是跨界、顛覆和倒逼。

        倒三角的最底下一層,代表大數(shù)據(jù)這個(gè)大家族中小眾的那個(gè)群體,即IT。在互聯(lián)網(wǎng)企業(yè),對(duì)應(yīng)的就是計(jì)算系統(tǒng)或計(jì)算平臺(tái)。對(duì)作為信息服務(wù)業(yè)的互聯(lián)網(wǎng)企業(yè)而言,雖然它們不是IT企業(yè),但I(xiàn)T能力是企業(yè)的核心競(jìng)爭(zhēng)力。用倒三角的最底層表示IT恰如其分,一個(gè)倒立的三角形是不是穩(wěn)固,關(guān)鍵還是要看其IT能力夠不夠尖端,能不能很好地支撐上層的計(jì)算需求和應(yīng)用需求。

        倒三角的中間一層代表建模和算法。在互聯(lián)網(wǎng)企業(yè),隨著用戶(hù)規(guī)模的增長(zhǎng),與用戶(hù)相關(guān)的交易數(shù)據(jù)和交互數(shù)據(jù)(合起來(lái)可以稱(chēng)為行為數(shù)據(jù))呈指數(shù)級(jí)增長(zhǎng),如何利用好這些數(shù)據(jù)是衡量互聯(lián)網(wǎng)企業(yè)贏利能力的關(guān)鍵。對(duì)這些數(shù)據(jù)進(jìn)行實(shí)時(shí)分析來(lái)實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)和風(fēng)險(xiǎn)控制,是其中的典型應(yīng)用,說(shuō)得直白一點(diǎn),就是常見(jiàn)的在線廣告和個(gè)人對(duì)個(gè)人(peer to peer,P2P)金融。與這個(gè)層面對(duì)應(yīng)的專(zhuān)業(yè)人士主要包括數(shù)理統(tǒng)計(jì)、矩陣計(jì)算和數(shù)值優(yōu)化等應(yīng)用數(shù)學(xué)領(lǐng)域的專(zhuān)家。當(dāng)然,他們最重要的作用就是基于其堅(jiān)實(shí)的數(shù)學(xué)功底,深刻理解應(yīng)用,并在底層的計(jì)算平臺(tái)上把他們的知識(shí)變成算法予以實(shí)現(xiàn)。這些專(zhuān)家的重要性不言而喻,人們會(huì)稱(chēng)他們?yōu)椤皵?shù)據(jù)科學(xué)家”“首席科學(xué)家”。一個(gè)企業(yè)或是一個(gè)行業(yè),隨著應(yīng)用的深入,這一層面會(huì)變得越來(lái)越重要,也就越來(lái)越厚。當(dāng)下時(shí)髦的深度學(xué)習(xí)、人工智能也都是誕生于這一層面,是為了強(qiáng)調(diào)其重要性。

        2.2 大數(shù)據(jù)熱的由來(lái)

        上文用倒三角形容大數(shù)據(jù)人員群體的全景。為了說(shuō)明大數(shù)據(jù)為什么會(huì)變得那么熱,首先來(lái)看看大數(shù)據(jù)這個(gè)倒三角的演化過(guò)程,如圖2所示。

        圖2為大數(shù)據(jù)的演化過(guò)程。在互聯(lián)網(wǎng)出現(xiàn)的時(shí)候,原本沒(méi)有大數(shù)據(jù)的說(shuō)法,有的只是想象當(dāng)中的應(yīng)用,也就是企業(yè)家心目中的創(chuàng)新型的應(yīng)用。拿馬云來(lái)做例子,這個(gè)應(yīng)用就是免費(fèi)的eBay,或是說(shuō)之后的阿里巴巴或淘寶。在最初的階段,整個(gè)倒三角就是應(yīng)用。為了實(shí)現(xiàn)企業(yè)家心目中的應(yīng)用,要有IT專(zhuān)業(yè)人士搭建計(jì)算機(jī)系統(tǒng)和計(jì)算平臺(tái)。在這個(gè)階段,因?yàn)橘Y金和技術(shù)都極其有限,只能用最廉價(jià)最省錢(qián)的方式完成任務(wù),就阿里巴巴而言,應(yīng)該是“十八羅漢”中的程序員用開(kāi)源的軟硬件技術(shù)完成了任務(wù)。這個(gè)階段結(jié)束以后企業(yè)就可以上線了。隨著用戶(hù)的增加和收集的用戶(hù)行為數(shù)據(jù)(包括交易數(shù)據(jù)和交互數(shù)據(jù))的快速增長(zhǎng),下一步要做的工作就是精準(zhǔn)營(yíng)銷(xiāo)或是風(fēng)險(xiǎn)控制,這是企業(yè)贏利和發(fā)展的關(guān)鍵所在,需要應(yīng)用型數(shù)學(xué)家的介入。正因?yàn)槠潢P(guān)鍵作用,人們用“大數(shù)據(jù)分析”“深度學(xué)習(xí)”“人工智能”描述這個(gè)過(guò)程,用“數(shù)據(jù)科學(xué)家”指代從事數(shù)據(jù)分析的人群。整個(gè)演化過(guò)程可以分成3個(gè)階段:第一個(gè)階段是應(yīng)用階段,第二個(gè)階段是IT階段,第三個(gè)階段是大數(shù)據(jù)階段。盡管大數(shù)據(jù)階段至關(guān)重要,但應(yīng)用階段的商業(yè)模式以及IT階段的平臺(tái)搭建更是決定性的。從這個(gè)演化過(guò)程不難看出,對(duì)大數(shù)據(jù)的理解和認(rèn)識(shí)不能只停留在欣賞其表面,那樣很容易使其神秘化和玄虛化,更需要了解其賴(lài)以存在的載體,即成功的業(yè)務(wù)模式和IT支撐環(huán)境。

        大數(shù)據(jù)為什么會(huì)熱起來(lái)?那是因?yàn)橛辛嘶ヂ?lián)網(wǎng)。最早討論類(lèi)似大數(shù)據(jù)這樣的概念應(yīng)該是在數(shù)據(jù)庫(kù)以前,這個(gè)觀點(diǎn)在筆者翻譯的《海量數(shù)據(jù)分析前沿》[4]有論述。20世紀(jì)40年代,世界第一臺(tái)回旋加速器在美國(guó)伯克利建成運(yùn)行之后,科學(xué)數(shù)據(jù)管理就成為一個(gè)極具挑戰(zhàn)性的問(wèn)題。Jim Gray生前幾年一直在倡導(dǎo)科學(xué)觀測(cè)和科學(xué)實(shí)驗(yàn)等科學(xué)大數(shù)據(jù)的研究,人們把這個(gè)總結(jié)成科學(xué)發(fā)現(xiàn)的“第四范型”[5]。但是,真正能讓大數(shù)據(jù)深入人心、讓人們喜聞樂(lè)見(jiàn)的原因,究其緣由,還是互聯(lián)網(wǎng)?!盎ヂ?lián)網(wǎng)改變世界”,這是20多年前很多學(xué)者向聽(tīng)眾介紹互聯(lián)網(wǎng)時(shí)常說(shuō)的一句話。當(dāng)時(shí)并沒(méi)有引起太多注意?;ヂ?lián)網(wǎng)改變世界的根本原因在于它改變了人與人之間的連接(people connection),并且通過(guò)注重用戶(hù)體驗(yàn)(user experience)體現(xiàn)以用戶(hù)為中心的理念。這兩點(diǎn)是革命性的改變,連接的改變不單單是距離或時(shí)間的縮短,也不單單是常說(shuō)的任何人(anyone)、任何時(shí)間(anytime)和任何地點(diǎn)(anywhere),形形色色的社交網(wǎng)絡(luò)和媒體平臺(tái)都提供了人與人建立連接的渠道。因?yàn)槭窃诰€連接,用戶(hù)體驗(yàn)的改善也變成現(xiàn)實(shí)可行的。人們?cè)诰€期間的顯式或隱式的反饋為分析用戶(hù)體驗(yàn)提供必要的基礎(chǔ),顯式的反饋包括用戶(hù)主動(dòng)輸入的評(píng)論或建議,隱式的反饋包括用戶(hù)的在線日志(上網(wǎng)時(shí)間、地點(diǎn)和訪問(wèn)路徑等)。收集到的海量用戶(hù)數(shù)據(jù)反映了用戶(hù)的方方面面,對(duì)這些數(shù)據(jù)進(jìn)行協(xié)同過(guò)濾和深度學(xué)習(xí)等智能分析,就可以很清楚地了解用戶(hù)的喜好和意圖(所謂的用戶(hù)畫(huà)像),目的是進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)(計(jì)算廣告)和風(fēng)險(xiǎn)控制(如P2P金融)。

        大數(shù)據(jù)的本質(zhì)就是原本各自孤立的數(shù)據(jù)得以互相關(guān)聯(lián)、融合。上文討論的Web大數(shù)據(jù)是這樣,傳統(tǒng)的企業(yè)大數(shù)據(jù)也是一樣,科學(xué)大數(shù)據(jù)更是如此。大數(shù)據(jù)之所以在這個(gè)時(shí)代成為一個(gè)熱點(diǎn),是因?yàn)榛ヂ?lián)網(wǎng)為數(shù)據(jù)的匯聚提供了平臺(tái)和可能性。再用一個(gè)通俗的例子來(lái)說(shuō)明,網(wǎng)上暴力“人肉搜索”就是大數(shù)據(jù)應(yīng)用的典型。當(dāng)一個(gè)人突然成為“網(wǎng)紅”,通過(guò)社交媒體或其他在線媒體得到大家的關(guān)注,激發(fā)了大家的娛樂(lè)興致,廣大網(wǎng)民通過(guò)網(wǎng)絡(luò)把原本分散在不同人手上的信息匯聚在一起,通過(guò)大家的添油加醋反復(fù)迭代的加工和處理,就會(huì)形成一波或長(zhǎng)或短的娛樂(lè)浪潮。

        圖2 大數(shù)據(jù)演化過(guò)程

        作為一個(gè)從事數(shù)據(jù)庫(kù)系統(tǒng)研究的學(xué)者,喜歡從大數(shù)據(jù)支撐系統(tǒng)的角度把大數(shù)據(jù)分成前面提到的三大類(lèi):Web大數(shù)據(jù)、決策(或商業(yè)智能(business intelligence,BI))大數(shù)據(jù)和科學(xué)大數(shù)據(jù),因?yàn)橹芜@3類(lèi)大數(shù)據(jù)的系統(tǒng)有明顯的差別。Web大數(shù)據(jù)出現(xiàn)最晚,也就十幾年的時(shí)間,與有40多年歷史、靠數(shù)據(jù)庫(kù)系統(tǒng)支撐的決策大數(shù)據(jù)以及有更長(zhǎng)歷史、被科學(xué)和統(tǒng)計(jì)數(shù)據(jù)庫(kù)管理(SSDBM)會(huì)議關(guān)注的科學(xué)大數(shù)據(jù)相比,它的受眾(廣大網(wǎng)民)最多,目標(biāo)(贏利賺錢(qián))也最簡(jiǎn)單。互聯(lián)網(wǎng)企業(yè)特別注重用戶(hù)體驗(yàn),這有其內(nèi)生動(dòng)力,因?yàn)榛ヂ?lián)網(wǎng)經(jīng)濟(jì)本質(zhì)上就是“眼球經(jīng)濟(jì)”“粉絲經(jīng)濟(jì)”或曰“人氣經(jīng)濟(jì)”,它把“人與人連接”以及“用戶(hù)體驗(yàn)”這兩大革命性的法寶的功能發(fā)揮到極致?;ヂ?lián)網(wǎng)企業(yè)的極大成功,再加上活生生、通俗易懂的例子,告訴了人們什么是“大數(shù)據(jù)”。

        2.3 大數(shù)據(jù)國(guó)家戰(zhàn)略

        互聯(lián)網(wǎng)企業(yè)是使大數(shù)據(jù)變得炙手可熱的重要推手。除此之外,還有一些客觀原因。從技術(shù)上來(lái)說(shuō),Web大數(shù)據(jù)有Hadoop這樣的“明星”系統(tǒng),開(kāi)源的Hadoop形成了不同于傳統(tǒng)模式的創(chuàng)新社區(qū)。因?yàn)橛辛薍adoop開(kāi)源社區(qū)的成功,信息技術(shù)的創(chuàng)新就突破了原先由跨國(guó)IT企業(yè)主導(dǎo)的壟斷局面,形成了“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”的局面。這一點(diǎn)對(duì)我國(guó)特別有意義,有啟示性的意義。在信息技術(shù)上我國(guó)企業(yè)一直受制于西方國(guó)家尤其是美國(guó)主導(dǎo)的跨國(guó)大企業(yè),幾十年來(lái),這些企業(yè)采用“在低端慫恿盜版、在高端淘空人才”、釜底抽薪的策略,成功使得我國(guó)的信息化基礎(chǔ)設(shè)施建設(shè)嚴(yán)重依賴(lài)于他們。導(dǎo)致的結(jié)果,不僅僅是我國(guó)付出了高額的成本,嚴(yán)重影響信息化建設(shè)的推進(jìn)和廣大人民群眾對(duì)信息化成果的享受,更為重要的是,國(guó)家經(jīng)濟(jì)和社會(huì)安全存在重大隱患。近幾年來(lái),隨著“維基泄密”和“棱鏡門(mén)”事件的發(fā)生,逐漸深刻地認(rèn)識(shí)到“沒(méi)有網(wǎng)絡(luò)安全就沒(méi)有國(guó)家安全”這個(gè)基本的道理?;诔杀竞桶踩目紤],我國(guó)提出了“技術(shù)領(lǐng)先、企業(yè)先進(jìn)、自主可控、安全可靠”的新時(shí)期信息技術(shù)發(fā)展戰(zhàn)略。

        大數(shù)據(jù)時(shí)代信息技術(shù)的發(fā)展范型發(fā)生了根本性的變化,這一點(diǎn)在第4節(jié)還會(huì)展開(kāi)討論。這一發(fā)展范型的轉(zhuǎn)變?yōu)槲覈?guó)在信息技術(shù)領(lǐng)域趕超世界先進(jìn)水平提供了機(jī)會(huì)。傳統(tǒng)的發(fā)展范型下,我國(guó)的信息技術(shù)發(fā)展受到了極大的制約,失去了發(fā)展的機(jī)遇。互聯(lián)網(wǎng)企業(yè)的成功給我國(guó)帶來(lái)啟示,幫助人們打破一直以來(lái)對(duì)壟斷性IT企業(yè)及其產(chǎn)品的迷信。在信息技術(shù)的發(fā)展道路上,跨越式發(fā)展和彎道超車(chē)是時(shí)常發(fā)生的現(xiàn)象。對(duì)于我國(guó)的IT專(zhuān)業(yè)人士而言,現(xiàn)在比歷史上任何一個(gè)時(shí)期的機(jī)遇都要好,都要真實(shí)。壟斷的跨國(guó)IT企業(yè)還沉浸在以前那種在中國(guó)屢試不爽取得巨大成功的商業(yè)模式中,而中國(guó)的應(yīng)用對(duì)IT技術(shù)的需求卻發(fā)生了巨大的變化。中國(guó)的互聯(lián)網(wǎng)企業(yè)做出了重要的貢獻(xiàn)。2013年,當(dāng)阿里巴巴宣布其成功做到在IT架構(gòu)中“去IOE”時(shí),得到了廣泛的關(guān)注和認(rèn)可。去掉IBM的小型機(jī)、Oracle數(shù)據(jù)庫(kù)和EMC的高端存儲(chǔ),代之以自己基于開(kāi)源軟件開(kāi)發(fā)的系統(tǒng),這是互聯(lián)網(wǎng)企業(yè)在處理大數(shù)據(jù)時(shí)總結(jié)出來(lái)的經(jīng)驗(yàn),也代表了我國(guó)IT人的心聲。

        以上是從技術(shù)層面討論了大數(shù)據(jù)之所以成為國(guó)家戰(zhàn)略的原因。大數(shù)據(jù)對(duì)人們的意義不只是在技術(shù)層面。正如互聯(lián)網(wǎng)是催熱大數(shù)據(jù)的主要因素一樣,互聯(lián)網(wǎng)也是大數(shù)據(jù)成為國(guó)家戰(zhàn)略的主因。前文說(shuō)到,互聯(lián)網(wǎng)的本質(zhì)體現(xiàn)在連接人和用戶(hù)體驗(yàn)兩個(gè)方面。用戶(hù)體驗(yàn)就是利用大數(shù)據(jù)進(jìn)行用戶(hù)行為分析和畫(huà)像,是實(shí)實(shí)在在的大數(shù)據(jù)分析?;ヂ?lián)網(wǎng)企業(yè)的成功就得益于其在用戶(hù)體驗(yàn)方面的精益求精以及新穎的商業(yè)模式和討巧的贏利方式?;ヂ?lián)網(wǎng)經(jīng)濟(jì)的本質(zhì)就是在各自營(yíng)造的虛擬世界里聚集人氣,等有了足夠的人氣再利用收集的數(shù)據(jù)精確分析用戶(hù)行為,投其所好,注重用戶(hù)體驗(yàn),用“羊毛出在豬身上”的方式來(lái)盈利。人們起初把這種模式稱(chēng)為“流量變現(xiàn)”,等認(rèn)識(shí)深刻一點(diǎn)以后,發(fā)現(xiàn)其背后真正的邏輯是“數(shù)據(jù)變現(xiàn)”。這種邏輯是早期互聯(lián)網(wǎng)企業(yè)的共同邏輯,因?yàn)榛具壿嬍且粯拥?,他們的發(fā)展自然就會(huì)殊途同歸。舉人們熟悉的例子,百度、阿里巴巴、騰訊是我國(guó)互聯(lián)網(wǎng)企業(yè)的成功代表,它們起步的時(shí)間差不多,但是聚焦的業(yè)務(wù)差別很大,分別是搜索引擎、電子商務(wù)和即時(shí)通信??墒?,經(jīng)過(guò)21世紀(jì)初以來(lái)的十幾年的發(fā)展,三者業(yè)務(wù)卻不知不覺(jué)地變得雷同,競(jìng)爭(zhēng)也針?shù)h相對(duì)。相信對(duì)2015年春節(jié)前后的支付寶和微信紅包的大戰(zhàn)還記憶猶新,原因?yàn)椋褐Ц妒腔ヂ?lián)網(wǎng)的連接功能中最緊密的一種連接,抓住了一個(gè)用戶(hù)的支付,就能更緊地把這個(gè)用戶(hù)連在自己的平臺(tái)上。對(duì)支付的競(jìng)爭(zhēng)就是新一輪的用戶(hù)之爭(zhēng)、人氣之爭(zhēng)。業(yè)務(wù)的雷同,根本原因就是在線虛擬世界的“眼球經(jīng)濟(jì)”本質(zhì)相近,蛋糕有限,把蛋糕做大,從線上走到線下是成功后的BAT的唯一出路,所以就出現(xiàn)了中國(guó)互聯(lián)網(wǎng)世界特有的O2O這個(gè)概念。對(duì)起步于線上虛擬世界的互聯(lián)網(wǎng)企業(yè)而言,線下的現(xiàn)實(shí)世界就是其大有作為的廣闊天地。在這樣的背景下,騰訊2012年提出的“互聯(lián)網(wǎng)+”在2015年的兩會(huì)上被賦予了更廣泛的含義,成為國(guó)家層面的行動(dòng)計(jì)劃。按照以上思路來(lái)理解,“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的根本目標(biāo)就是所有行業(yè)包括政府本身,效仿互聯(lián)網(wǎng)企業(yè)的做法(或者說(shuō)是遵循互聯(lián)網(wǎng)思維),利用大數(shù)據(jù)從提升用戶(hù)體驗(yàn)的角度提供產(chǎn)品或服務(wù)。在某種意義上而言,最近提出的供給側(cè)結(jié)構(gòu)性改革也遵循了同樣的思路。

        按照出現(xiàn)或提出的先后順序,從“互聯(lián)網(wǎng)”到“大數(shù)據(jù)”,再到“互聯(lián)網(wǎng)+”和“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”,直到2015年提出的“供給側(cè)結(jié)構(gòu)性改革”,它們都是一脈相承的。供給側(cè)結(jié)構(gòu)性改革更著重的是需求側(cè),想方設(shè)法滿(mǎn)足、釋放、激發(fā)乃至創(chuàng)造需求是其核心?;ヂ?lián)網(wǎng)企業(yè)在這方面做出了很好的榜樣,它們是充分利用了大數(shù)據(jù)才得以做到這一點(diǎn)的。從這個(gè)意義上來(lái)說(shuō),“大數(shù)據(jù)”成為國(guó)家戰(zhàn)略順理成章。

        3 重提數(shù)據(jù)庫(kù)理念的原因

        數(shù)據(jù)庫(kù)概念的誕生迄今為止已經(jīng)有50多年了,發(fā)生在計(jì)算機(jī)從最初純粹的計(jì)算領(lǐng)域轉(zhuǎn)到商業(yè)應(yīng)用領(lǐng)域的20世紀(jì)60年代。數(shù)據(jù)庫(kù)的誕生也是由應(yīng)用來(lái)推動(dòng)的,這與當(dāng)前大數(shù)據(jù)概念誕生的情景非常相似。不同點(diǎn)在于數(shù)據(jù)庫(kù)技術(shù)和系統(tǒng)成熟以后,出現(xiàn)了Oracle這樣的大型企業(yè),主導(dǎo)了數(shù)據(jù)庫(kù)技術(shù)的市場(chǎng)生態(tài)構(gòu)建,也影響著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展和進(jìn)步。在大數(shù)據(jù)時(shí)代,代之出現(xiàn)的不再是類(lèi)似Oracle這樣的企業(yè)和生態(tài),而是Hadoop這樣的開(kāi)源社區(qū)和生態(tài)。還有一點(diǎn)相同之處,數(shù)據(jù)庫(kù)發(fā)展的原點(diǎn)或者說(shuō)起點(diǎn)是文件系統(tǒng),初學(xué)數(shù)據(jù)庫(kù)課程時(shí),第一章的主要內(nèi)容就是比較數(shù)據(jù)庫(kù)和文件系統(tǒng)的異同點(diǎn)。作為真正意義上的第一個(gè)大數(shù)據(jù)系統(tǒng),奠定Hadoop基礎(chǔ)的第一篇論文就是2003年發(fā)表的關(guān)于谷歌文件系統(tǒng)(GFS)的文章[6],而后才有2004年為方便非專(zhuān)業(yè)人士編程使用的MapReduce文章發(fā)表[7]。數(shù)據(jù)庫(kù)和大數(shù)據(jù)出發(fā)的原點(diǎn)都是文件系統(tǒng),這是一個(gè)重要的認(rèn)識(shí)。認(rèn)識(shí)到這一點(diǎn)的重要意義在于,在探索支持其他業(yè)務(wù)的數(shù)據(jù)管理技術(shù)時(shí),可以參考數(shù)據(jù)庫(kù)和當(dāng)前大數(shù)據(jù)的經(jīng)驗(yàn),從原點(diǎn)的文件系統(tǒng)開(kāi)始,在觀念和實(shí)踐上少走彎路。

        把數(shù)據(jù)庫(kù)和大數(shù)據(jù)放在一起來(lái)討論,是試圖站在更高的角度來(lái)看數(shù)據(jù)庫(kù)和大數(shù)據(jù)。以前筆者討論過(guò)如何站在數(shù)據(jù)庫(kù)角度看大數(shù)據(jù),也討論過(guò)如何在大數(shù)據(jù)角度來(lái)看數(shù)據(jù)庫(kù)。在這里,可以把“大數(shù)據(jù)”狹義地當(dāng)作一個(gè)技術(shù)和系統(tǒng),這樣的話,可以把數(shù)據(jù)庫(kù)和大數(shù)據(jù)放在同等的地位來(lái)比較和討論。數(shù)據(jù)庫(kù)是從文件系統(tǒng)這個(gè)原點(diǎn)出發(fā)的,走過(guò)了50多年,形成了數(shù)千億美元的巨大技術(shù)市場(chǎng)。大數(shù)據(jù)也是從文件系統(tǒng)這個(gè)原點(diǎn)出發(fā)的,走過(guò)了10多年,形成了當(dāng)前風(fēng)靡一時(shí)的開(kāi)源生態(tài)系統(tǒng),促成了“萬(wàn)眾創(chuàng)新”的局面。兩者都是因?yàn)閼?yīng)用的推動(dòng)而誕生,時(shí)下所面對(duì)的新型應(yīng)用異彩紛呈,目不暇接。在“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃和“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”的號(hào)召下,傳統(tǒng)業(yè)務(wù)模式的再造和創(chuàng)新性業(yè)務(wù)模式的提出都對(duì)數(shù)據(jù)管理提出了不同于數(shù)據(jù)庫(kù)或大數(shù)據(jù)的需求。也就是說(shuō),從原點(diǎn)文件系統(tǒng)出發(fā),未來(lái)可以預(yù)期的是針對(duì)不同的應(yīng)用,會(huì)有許多類(lèi)似于RDBMS、Hadoop的系統(tǒng)誕生。從原點(diǎn)出發(fā),360°的每個(gè)方向都可能走出一條路。要想理解怎么才能走出一條路,就應(yīng)該深刻理解為什么數(shù)據(jù)庫(kù)能取得如此大的成功。

        3.1 數(shù)據(jù)庫(kù)理念

        數(shù)據(jù)庫(kù)作為一類(lèi)重要的系統(tǒng)軟件,在計(jì)算機(jī)系統(tǒng)中具有舉足輕重的作用,數(shù)據(jù)庫(kù)也因而發(fā)展成一個(gè)重要的學(xué)科方向。按照國(guó)際上通用的學(xué)科分類(lèi)方法,計(jì)算機(jī)科學(xué)這個(gè)學(xué)科可以進(jìn)一步細(xì)分為4個(gè)分支:人工智能、程序設(shè)計(jì)語(yǔ)言、系統(tǒng)、理論計(jì)算機(jī)科學(xué)。系統(tǒng)包括各類(lèi)軟硬件系統(tǒng)和應(yīng)用系統(tǒng),是計(jì)算機(jī)學(xué)科的重要部分,體現(xiàn)了這一學(xué)科的重要特點(diǎn)。數(shù)據(jù)庫(kù)作為系統(tǒng)分支中的一個(gè)重要方向,歷經(jīng)50多年發(fā)展,學(xué)科內(nèi)涵日趨豐富,其中最核心、最區(qū)別于其他方向的內(nèi)涵稱(chēng)之為“數(shù)據(jù)庫(kù)理念(database philosophy)”,其基本含義就是真正研習(xí)數(shù)據(jù)庫(kù)、能理解數(shù)據(jù)庫(kù)精髓的人會(huì)不自覺(jué)地按照這種理念去思考問(wèn)題、分析問(wèn)題和解決問(wèn)題??梢哉f(shuō)這是數(shù)據(jù)庫(kù)人的一個(gè)基本素質(zhì)、一種習(xí)慣。在筆者看來(lái),數(shù)據(jù)庫(kù)理念就是兩個(gè)字——“抽象”。50多年前產(chǎn)生數(shù)據(jù)庫(kù)概念和系統(tǒng),就是源自于“抽象”。對(duì)數(shù)據(jù)語(yǔ)義(data semantics)的抽象, Codd E F提出了關(guān)系數(shù)據(jù)模型;對(duì)業(yè)務(wù)邏輯(business logic)的抽象,Jim Gray完善了事務(wù)處理模型??v觀歷史,數(shù)據(jù)庫(kù)就是因?yàn)殛P(guān)系模型、事務(wù)處理,再加上查詢(xún)優(yōu)化(系統(tǒng)實(shí)現(xiàn)、索引等)這三大成就,造就了數(shù)據(jù)庫(kù)50多年的輝煌和數(shù)千億美元的市場(chǎng)。

        抽象本身就是概括和泛化,就是從具體到一般,抽取出事物的共同點(diǎn)。數(shù)據(jù)庫(kù)理念中的抽象可以歸結(jié)成兩個(gè)方面:語(yǔ)義抽象和業(yè)務(wù)抽象。語(yǔ)義抽象本質(zhì)上指語(yǔ)義的抽取。在一般文件系統(tǒng)中的數(shù)據(jù),其語(yǔ)義是完全混在數(shù)據(jù)的表示之中的,擺脫了數(shù)據(jù)的表示無(wú)法談數(shù)據(jù)的含義。在關(guān)系數(shù)據(jù)庫(kù)中,關(guān)系模型作為一個(gè)建模工具,要求在進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì)的時(shí)候,把語(yǔ)義從數(shù)據(jù)的表示中完全剝離出來(lái),數(shù)據(jù)的語(yǔ)義完全反映在關(guān)系模式上。用另外一句話來(lái)說(shuō)就是內(nèi)容和結(jié)構(gòu)的分離,這也是所謂結(jié)構(gòu)化數(shù)據(jù)的確切含義。相比之下,在從事多媒體研究的專(zhuān)業(yè)人士眼里,其更多面對(duì)的是所謂的非結(jié)構(gòu)化數(shù)據(jù),諸如信息檢索、圖像處理、自然語(yǔ)言處理等,他們能做到的就是特征選擇或特征抽取,特征作為語(yǔ)義,但沒(méi)法像數(shù)據(jù)庫(kù)那樣完全分離開(kāi)來(lái)。在這個(gè)意義上來(lái)說(shuō),關(guān)系數(shù)據(jù)庫(kù)的語(yǔ)義抽象是一個(gè)極端的例子。在業(yè)務(wù)抽象方面,事務(wù)處理也是一個(gè)極端的例子,在關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(relational database management system,RDBMS)早期的發(fā)展中,將記賬、訂票和銀行轉(zhuǎn)賬等業(yè)務(wù)抽象成統(tǒng)一的事務(wù)處理。當(dāng)然,隨著應(yīng)用的推廣,應(yīng)該根據(jù)對(duì)業(yè)務(wù)的理解進(jìn)行不同層次的抽象。數(shù)據(jù)庫(kù)以后出現(xiàn)的TPMonitor和事務(wù)中間件也是一種抽象,在Hadoop中,MapReduce本質(zhì)上也是一種業(yè)務(wù)抽象。

        3.2 大數(shù)據(jù)語(yǔ)境下的數(shù)據(jù)管理

        抽象是數(shù)據(jù)庫(kù)的基本理念,秉承這種理念來(lái)看數(shù)據(jù)管理技術(shù)和系統(tǒng)的發(fā)展脈絡(luò),可以站在更高層面理解當(dāng)前的大數(shù)據(jù)熱,也可以展望數(shù)據(jù)管理技術(shù)和系統(tǒng)的發(fā)展趨勢(shì)。數(shù)據(jù)庫(kù)是數(shù)據(jù)管理的“溫飽”階段,其信守的原則是“one size fits all”,之前的數(shù)據(jù)庫(kù)人以及其他領(lǐng)域的人都接受了這個(gè)認(rèn)識(shí)。將數(shù)據(jù)庫(kù)看作數(shù)據(jù)管理的“溫飽”階段,就是因?yàn)槿藗冋J(rèn)為所有有關(guān)數(shù)據(jù)管理的事情都要由數(shù)據(jù)庫(kù)來(lái)解決。“大數(shù)據(jù)”概念的誕生,標(biāo)志著數(shù)據(jù)管理進(jìn)入“時(shí)尚”階段,人們?yōu)榱私鉀Q數(shù)據(jù)管理問(wèn)題不再求助于數(shù)據(jù)庫(kù)系統(tǒng),開(kāi)始研發(fā)適合自己的系統(tǒng)。如果說(shuō)在數(shù)據(jù)庫(kù)時(shí)期,解決數(shù)據(jù)管理問(wèn)題需要“削足適履”來(lái)使用數(shù)據(jù)庫(kù)系統(tǒng),那么到了大數(shù)據(jù)時(shí)代,人們開(kāi)始根據(jù)每個(gè)不同的應(yīng)用度身定制自己的系統(tǒng),也就是“量足制鞋”。隨著Hadoop大數(shù)據(jù)系統(tǒng)的成功,數(shù)據(jù)庫(kù)人開(kāi)始意識(shí)到“one size doesn’t fit all”。

        在經(jīng)歷短暫的迷茫和苦悶之后,數(shù)據(jù)庫(kù)界很快提出了“one size fits a bunch”的獨(dú)到見(jiàn)解。這一見(jiàn)解充分體現(xiàn)了數(shù)據(jù)庫(kù)理念。度身定制一個(gè)系統(tǒng)是谷歌公司以Jeff Dean為首的技術(shù)人員為解決快速準(zhǔn)確搜索問(wèn)題而進(jìn)行的,他們的文章[6,7]發(fā)表以后,Hadoop卻出乎意料地出現(xiàn)、開(kāi)源了,并且很快得到廣泛的關(guān)注,人們開(kāi)始改進(jìn)和完善Hadoop,用它來(lái)解決更多其他的應(yīng)用問(wèn)題。這實(shí)際上就是走了“one size fits a bunch”的道路。為了能適用一捆(a bunch)應(yīng)用,就要對(duì)應(yīng)用進(jìn)行抽象?;镜陌l(fā)展路徑為:最初的系統(tǒng)是因?yàn)橐獫M(mǎn)足具體的應(yīng)用而設(shè)計(jì)研發(fā)的,成功應(yīng)用以后可以看其他相似的應(yīng)用是否可以使用這個(gè)系統(tǒng)。隨著開(kāi)源或更多人的加入,根據(jù)對(duì)相似應(yīng)用的抽象,進(jìn)一步改進(jìn)和完善系統(tǒng),這個(gè)過(guò)程是一個(gè)迭代的過(guò)程,也是一個(gè)從具體到一般的抽象過(guò)程。對(duì)于系統(tǒng)研發(fā)人員,不是數(shù)據(jù)庫(kù)時(shí)代那樣追求“one size fits all”。對(duì)于應(yīng)用開(kāi)發(fā)人員,在具體應(yīng)用開(kāi)發(fā)時(shí)也不需要“削足適履”,而是在開(kāi)源社區(qū)里尋找合適的開(kāi)源軟件作為支撐系統(tǒng)的基礎(chǔ)。

        人們?cè)谡劦酱髷?shù)據(jù)時(shí)往往是在談數(shù)據(jù)分析,是在討論如何靠數(shù)據(jù)分析來(lái)分析用戶(hù)行為,改善用戶(hù)體驗(yàn),也就是如何利用大數(shù)據(jù)做精準(zhǔn)營(yíng)銷(xiāo)和風(fēng)險(xiǎn)控制。這一類(lèi)的數(shù)據(jù)分析不追求百分之百的精確,往往是以排序或概率的形式呈現(xiàn)結(jié)果。當(dāng)?shù)谝慌晒Φ幕ヂ?lián)網(wǎng)公司經(jīng)過(guò)十幾年的發(fā)展,逐漸走向同質(zhì)化、形成直接競(jìng)爭(zhēng)的時(shí)候,其共同做法就是把“蛋糕”做大,從線上走到線下。與此同時(shí),在“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的號(hào)召下,越來(lái)越多的傳統(tǒng)業(yè)務(wù)會(huì)接受互聯(lián)網(wǎng)和大數(shù)據(jù)思維,立足提升用戶(hù)體驗(yàn),創(chuàng)新業(yè)務(wù)模式,從線下走到線上,稱(chēng)之為反向的O2O。這兩種O2O基本構(gòu)成了“互聯(lián)網(wǎng)+”的具體實(shí)踐局面,其共同之處就是把傳統(tǒng)的線下現(xiàn)實(shí)世界中涉及人、財(cái)、物交易的情形移到互聯(lián)網(wǎng)上來(lái)實(shí)施。與典型的分析型的大數(shù)據(jù)應(yīng)用不一樣,財(cái)物的交易要做到絕對(duì)精確,要有類(lèi)似數(shù)據(jù)庫(kù)系統(tǒng)那樣的恢復(fù)和容錯(cuò)機(jī)制,這就是互聯(lián)網(wǎng)級(jí)的任務(wù)關(guān)鍵型(mission-critical)應(yīng)用,或是說(shuō),面向互聯(lián)網(wǎng)級(jí)應(yīng)用的事務(wù)處理系統(tǒng)。舉例來(lái)說(shuō),在競(jìng)爭(zhēng)日趨激烈的形勢(shì)下,金融、電信等服務(wù)行業(yè)都樂(lè)于采用類(lèi)似“秒殺”這樣的互聯(lián)網(wǎng)化的促銷(xiāo)手段?!懊霘ⅰ敝傅氖窃谔囟〞r(shí)刻推出一定量的優(yōu)惠產(chǎn)品,通過(guò)媒體和廣告宣傳,吸引大量潛在客戶(hù)進(jìn)行搶購(gòu),從而在促銷(xiāo)的同時(shí)達(dá)到宣傳作用,進(jìn)而帶動(dòng)其他產(chǎn)品銷(xiāo)售。對(duì)于IT支撐系統(tǒng)的開(kāi)發(fā)和運(yùn)維人員而言,“搶票”“秒殺”等銷(xiāo)售行為,由于其接入用戶(hù)量巨大,為后端的票務(wù)管理、訂單管理、物流以及支付等核心信息系統(tǒng)造成了短時(shí)超高負(fù)載。從用戶(hù)規(guī)???,這樣的應(yīng)用是“互聯(lián)網(wǎng)級(jí)”的;從應(yīng)用特征看,它們是核心或關(guān)鍵任務(wù)應(yīng)用;從負(fù)載特征看,它們面臨的是“現(xiàn)象級(jí)(phenomenal)”的負(fù)載。這一類(lèi)系統(tǒng)在我國(guó)有很大的發(fā)展空間,阿里巴巴陽(yáng)振坤博士領(lǐng)導(dǎo)開(kāi)發(fā)OceanBase系統(tǒng)的初衷就是為了支撐“雙十一”購(gòu)物節(jié)超高頻度的交易和支付。

        在工業(yè)和信息化部、中國(guó)工業(yè)經(jīng)濟(jì)聯(lián)合會(huì)最近聯(lián)合通告的第三批制造業(yè)單項(xiàng)冠軍企業(yè)和單項(xiàng)冠軍產(chǎn)品名單上,上海市化工行業(yè)協(xié)會(huì)理事單位,浙江大華技術(shù)股份有限公司排名單項(xiàng)冠軍示范企業(yè)第18位;副會(huì)長(zhǎng)單位,上海百金化工集團(tuán)生產(chǎn)的名牌產(chǎn)品“二硫化碳”排名單項(xiàng)冠軍產(chǎn)品第10位。

        我國(guó)的信息化程度和水平相比西方發(fā)達(dá)國(guó)家要落后一些,互聯(lián)網(wǎng)的普及使得我國(guó)有絕佳的機(jī)遇在信息化推進(jìn)方面實(shí)行跨越式發(fā)展,甚至實(shí)現(xiàn)超越。我國(guó)的人口基數(shù)以及近年來(lái)網(wǎng)民數(shù)量的劇增、新型信息服務(wù)的快速發(fā)展,對(duì)支撐互聯(lián)網(wǎng)級(jí)任務(wù)關(guān)鍵型應(yīng)用的系統(tǒng)的需求越來(lái)越迫切?!按怪被笔沁@些應(yīng)用的一個(gè)重要特征,即事務(wù)處理、分析處理一體化,與應(yīng)用邏輯形成閉環(huán),如圖3所示。對(duì)于金融欺詐檢測(cè)、實(shí)時(shí)信用報(bào)告查詢(xún)、電信故障報(bào)警等應(yīng)用而言,傳統(tǒng)的從事務(wù)系統(tǒng)向分析系統(tǒng)的批量導(dǎo)入、閑時(shí)導(dǎo)入方式不能滿(mǎn)足應(yīng)用的實(shí)時(shí)和高一致性需求。而這兩點(diǎn)正是事務(wù)處理的關(guān)鍵。因此,實(shí)時(shí)數(shù)據(jù)注入也是互聯(lián)網(wǎng)級(jí)應(yīng)用的重要需求。

        圖3 支撐互聯(lián)網(wǎng)級(jí)任務(wù)關(guān)鍵型應(yīng)用的數(shù)據(jù)系統(tǒng)

        3.3 關(guān)于開(kāi)源軟件的聯(lián)想

        上文討論了支撐互聯(lián)網(wǎng)級(jí)任務(wù)關(guān)鍵型應(yīng)用的數(shù)據(jù)系統(tǒng),幾年前谷歌公司就發(fā)布了有關(guān)F1和Spanner系統(tǒng)的消息,但是都很簡(jiǎn)單,難以窺其全貌。雖然其系統(tǒng)是與在線廣告有關(guān)的,但是由于涉及數(shù)據(jù)一致性和事務(wù)處理,對(duì)于支撐任務(wù)關(guān)鍵型應(yīng)用還是很有價(jià)值的。筆者最近得知,谷歌作為一個(gè)搜索引擎互聯(lián)網(wǎng)公司已經(jīng)開(kāi)始招收大批傳統(tǒng)的數(shù)據(jù)庫(kù)學(xué)者和專(zhuān)家加盟,說(shuō)明事務(wù)處理等傳統(tǒng)數(shù)據(jù)庫(kù)概念和技術(shù)在互聯(lián)網(wǎng)環(huán)境下重新引起了關(guān)注。現(xiàn)實(shí)世界的應(yīng)用需要數(shù)據(jù)庫(kù),虛擬世界的應(yīng)用又在以極快的速度和現(xiàn)實(shí)世界接軌融合,在新的應(yīng)用環(huán)境中,數(shù)據(jù)庫(kù)也同樣被需要。隨著我國(guó)“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的推進(jìn),對(duì)這類(lèi)系統(tǒng)的需求也就越來(lái)越迫切。

        在開(kāi)源社區(qū)里,類(lèi)似Hadoop和Spark的分析軟件琳瑯滿(mǎn)目,國(guó)內(nèi)的同行也使用得得心應(yīng)手。但如果沒(méi)有開(kāi)源軟件,國(guó)內(nèi)專(zhuān)家是否有勇氣做自己的開(kāi)源系統(tǒng),營(yíng)造出一個(gè)良好的開(kāi)源文化和生態(tài),這個(gè)問(wèn)題至關(guān)重要。開(kāi)源是新一輪IT創(chuàng)新最大的特點(diǎn),也是我國(guó)IT界難得的機(jī)遇。如果沒(méi)有在開(kāi)源文化和開(kāi)源生態(tài)方面有所進(jìn)步,注定會(huì)錯(cuò)過(guò)這一輪的發(fā)展機(jī)遇。雖然“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”提供了良好的輿論和政策環(huán)境,但真正理解并且付諸實(shí)踐則完全是另一回事。由此筆者聯(lián)想到“小偷和強(qiáng)盜”的場(chǎng)景。

        “小偷和強(qiáng)盜”場(chǎng)景是這樣的。20世紀(jì)90年代,中美兩國(guó)圍繞加入WTO展開(kāi)了多次知識(shí)產(chǎn)權(quán)談判,軟件盜版和專(zhuān)利保護(hù)成為爭(zhēng)執(zhí)的焦點(diǎn),我國(guó)的貿(mào)易談判代表處于被動(dòng)局面,被推到風(fēng)口浪尖。1991年11月21日,時(shí)任副總理的吳儀前往華盛頓與美國(guó)代表團(tuán)展開(kāi)新一輪談判,尚未落座,就遇到了美國(guó)貿(mào)易副代表沃夫的挑釁,沃夫說(shuō),中國(guó)人盜版,是小偷,他這次是要來(lái)和小偷談判的。吳儀副總理在沃夫話音未落之時(shí)就回敬,“我們也曾經(jīng)遇到過(guò)強(qiáng)盜,我們是來(lái)和強(qiáng)盜談判的”。

        4 筆者的認(rèn)識(shí)和實(shí)踐

        與以往不同,最近這十幾年信息技術(shù)的發(fā)展都是圍繞數(shù)據(jù)展開(kāi)的,這在以前是很難想象的。以前的進(jìn)步大多是以硬件的速度提升或體系結(jié)構(gòu)的創(chuàng)新為標(biāo)志,沒(méi)有更多地關(guān)注應(yīng)用,沒(méi)有把滿(mǎn)足用戶(hù)的需求作為根本動(dòng)力。這也許昭示了信息技術(shù)發(fā)展范型的轉(zhuǎn)變。本節(jié)將討論對(duì)IT發(fā)展范型轉(zhuǎn)變的認(rèn)識(shí),秉承上文提到的數(shù)據(jù)庫(kù)理念,結(jié)合當(dāng)前的區(qū)塊鏈技術(shù)熱點(diǎn),介紹筆者的一些認(rèn)識(shí)和系統(tǒng)研發(fā)實(shí)踐。

        4.1 IT發(fā)展范型的轉(zhuǎn)變

        傳統(tǒng)的IT企業(yè)分成3類(lèi):硬件制造商、軟件生產(chǎn)商和系統(tǒng)集成商。產(chǎn)業(yè)互動(dòng)的基本模式就是系統(tǒng)集成商作為乙方為應(yīng)用單位(甲方)提供解決方案和采購(gòu)清單,甲方按照乙方的要求購(gòu)買(mǎi)硬件和軟件產(chǎn)品,乙方按照軟件工程的瀑布模型根據(jù)時(shí)間節(jié)點(diǎn)要求為甲方開(kāi)發(fā)應(yīng)用系統(tǒng)。乙方作為解決方案提供商,實(shí)質(zhì)上就是把甲方購(gòu)買(mǎi)的系統(tǒng)集成起來(lái),用以滿(mǎn)足甲方提出的信息化需求。這是人們熟悉的模式,也是專(zhuān)業(yè)人士一直習(xí)慣的模式。這種甲方乙方的方式有很多弊端,包括建設(shè)周期長(zhǎng)、成本高,且這種模式只是甲方乙方的一種博弈,系統(tǒng)建設(shè)的真正目的和系統(tǒng)的最終用戶(hù)沒(méi)有被重視。

        互聯(lián)網(wǎng)時(shí)代,很少會(huì)有互聯(lián)網(wǎng)企業(yè)按照這種甲方乙方的模式開(kāi)發(fā)它們的信息系統(tǒng)。首先,要清楚一點(diǎn),互聯(lián)網(wǎng)企業(yè)不是IT企業(yè),它只是一般的信息服務(wù)企業(yè),因?yàn)樗炔簧a(chǎn)和銷(xiāo)售硬件軟件產(chǎn)品,也不提供信息系統(tǒng)解決方案??墒?,人們有時(shí)候會(huì)很自然地把它們歸入IT企業(yè),那是因?yàn)镮T對(duì)于互聯(lián)網(wǎng)企業(yè)極為重要,表面上給人以IT企業(yè)的感覺(jué),IT能力是互聯(lián)網(wǎng)企業(yè)的核心競(jìng)爭(zhēng)力?;ヂ?lián)網(wǎng)企業(yè)的興起將IT發(fā)展范型帶入了一個(gè)新的階段。現(xiàn)在實(shí)行的IT發(fā)展范型是:應(yīng)用驅(qū)動(dòng)、度身定制、融會(huì)貫通、開(kāi)源系統(tǒng)。這種范型帶來(lái)了深刻的變化,包括技術(shù)路徑和行業(yè)理念方面的變化。伴隨著互聯(lián)網(wǎng)企業(yè)的興起,人們也充分認(rèn)識(shí)到,這十幾年以來(lái),作為非IT企業(yè)的互聯(lián)網(wǎng)企業(yè)推動(dòng)了IT的發(fā)展,而不是像以往那樣由IT企業(yè)提出概念,推出產(chǎn)品,進(jìn)而推動(dòng)技術(shù)和應(yīng)用進(jìn)步。云計(jì)算和大數(shù)據(jù)無(wú)疑是近十幾年以來(lái)IT領(lǐng)域最重要的概念,這兩個(gè)概念都不是IT企業(yè)推出和推動(dòng)的,反而是亞馬遜公司和谷歌公司來(lái)主導(dǎo)或推動(dòng)的,這體現(xiàn)了IT領(lǐng)域應(yīng)用驅(qū)動(dòng)創(chuàng)新的事實(shí)。

        應(yīng)用驅(qū)動(dòng)創(chuàng)新是IT創(chuàng)新的基本特征,這種驅(qū)動(dòng)不是單向的。業(yè)務(wù)和技術(shù)的進(jìn)步是相輔相成、互相促進(jìn)的關(guān)系。以神州專(zhuān)車(chē)為例,從傳統(tǒng)的意義上來(lái)說(shuō),神州專(zhuān)車(chē)的信息平臺(tái)是一個(gè)管理信息系統(tǒng),是為司機(jī)和乘客服務(wù)的。實(shí)際上,這也沿襲了管理信息系統(tǒng)的理念,后臺(tái)被稱(chēng)為客服,司機(jī)使用的稱(chēng)為4G端,乘客使用的為應(yīng)用。從互聯(lián)網(wǎng)的角度來(lái)看,這個(gè)平臺(tái)支撐的是一個(gè)典型的互聯(lián)網(wǎng)應(yīng)用,利用各種優(yōu)惠吸引用戶(hù)下載應(yīng)用,利用移動(dòng)互聯(lián)網(wǎng)和位置信息進(jìn)行服務(wù)預(yù)訂和自動(dòng)派單,利用大數(shù)據(jù)分析設(shè)計(jì)各種激勵(lì)機(jī)制,調(diào)動(dòng)司機(jī)積極性和提升用戶(hù)體驗(yàn)。調(diào)研發(fā)現(xiàn),平臺(tái)系統(tǒng)升級(jí)頻繁,體現(xiàn)了“按需服務(wù)”的思想。在這樣的平臺(tái)上,司機(jī)、乘客和管理團(tuán)隊(duì)都成為促進(jìn)系統(tǒng)完善的動(dòng)力。業(yè)務(wù)的發(fā)展和技術(shù)的進(jìn)步互相促進(jìn),形成迭代,也就形成一個(gè)創(chuàng)新的正向循環(huán)。從技術(shù)創(chuàng)新來(lái)看,開(kāi)源的技術(shù)生態(tài)的建設(shè)客觀上為萬(wàn)眾創(chuàng)新提供了基礎(chǔ),IT的創(chuàng)新由以前IT壟斷企業(yè)主導(dǎo)的模式變成了由現(xiàn)實(shí)應(yīng)用開(kāi)發(fā)人員來(lái)推動(dòng)。其中的根本原因是,互聯(lián)網(wǎng)企業(yè)取得的極大成功,特別是其在IT領(lǐng)域的創(chuàng)新和開(kāi)源,打破了長(zhǎng)期以來(lái)形成的壟斷和迷信。這告訴人們應(yīng)該去崇尚創(chuàng)新能力,而非基于已有的IT產(chǎn)品做簡(jiǎn)單的拼接和集成,應(yīng)該立足現(xiàn)實(shí)應(yīng)用,勇于根據(jù)需求度身定制,實(shí)現(xiàn)自己的系統(tǒng)。

        4.2 分享型數(shù)據(jù)庫(kù)

        在大數(shù)據(jù)戰(zhàn)略和“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的推動(dòng)過(guò)程中,共享經(jīng)濟(jì)或分享經(jīng)濟(jì)(sharing economy)又成為一個(gè)熱門(mén)話題。為分享經(jīng)濟(jì)業(yè)務(wù)模式提供運(yùn)營(yíng)支撐的信息技術(shù)自然是一個(gè)值得關(guān)注的問(wèn)題。前文也提到過(guò),數(shù)據(jù)庫(kù)理念的核心就是抽象。如果能針對(duì)分享經(jīng)濟(jì)的各種模式抽象出共性的有關(guān)數(shù)據(jù)的概念和技術(shù),是否就可以有一個(gè)被稱(chēng)為“分享型數(shù)據(jù)庫(kù)(sharing database)”的概念,這也是在這里想闡釋的。

        互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展軌跡可以分成3個(gè)階段:粉絲經(jīng)濟(jì)、智慧經(jīng)濟(jì)、分享經(jīng)濟(jì)。粉絲經(jīng)濟(jì)階段就是前面說(shuō)的眼球經(jīng)濟(jì)階段,主要做法就是流量變現(xiàn),主要手段就是在線廣告和服務(wù)或產(chǎn)品推薦。智慧經(jīng)濟(jì)階段,實(shí)際上就是大數(shù)據(jù)階段,利用大數(shù)據(jù)分析做精準(zhǔn)營(yíng)銷(xiāo)和互聯(lián)網(wǎng)金融,智慧就體現(xiàn)在對(duì)數(shù)據(jù)的駕馭上。當(dāng)前我國(guó)的互聯(lián)網(wǎng)經(jīng)濟(jì)處于分享經(jīng)濟(jì)的預(yù)備階段。2015年以來(lái),分享經(jīng)濟(jì)成為政府、企業(yè)和學(xué)者關(guān)心的重點(diǎn)問(wèn)題之一。這也很容易理解,分享經(jīng)濟(jì)的一個(gè)核心思想是盤(pán)活資源存量,在不增加資源消耗的前提下提高使用率和有效性,符合生態(tài)文明建設(shè)的宗旨。政府一直以來(lái)孜孜以求的簡(jiǎn)政放權(quán)也和分享經(jīng)濟(jì)倡導(dǎo)和依賴(lài)的“去中心”“去中介”思路如出一轍。從這兩年我國(guó)關(guān)于網(wǎng)約車(chē)的行政規(guī)定和政策出臺(tái)的過(guò)程,能切身體會(huì)分享經(jīng)濟(jì)的強(qiáng)勢(shì)啟動(dòng)。國(guó)際上,優(yōu)步(Uber)、空中食宿(Airbnb)等分享經(jīng)濟(jì)模式也進(jìn)入一個(gè)爆發(fā)發(fā)展的時(shí)期,為人們觀念的更新和我國(guó)的相關(guān)行業(yè)發(fā)展提供了有價(jià)值的參考。

        時(shí)下來(lái)談?wù)摲窒斫?jīng)濟(jì),區(qū)塊鏈(blockchain)與比特幣(BitCoin)也是繞不開(kāi)的話題。區(qū)塊鏈就是一個(gè)分布式賬本,本質(zhì)上是一個(gè)去中心化的P2P分布式數(shù)據(jù)庫(kù)。近來(lái),比特幣因?yàn)槠涞讓拥膮^(qū)塊鏈技術(shù)再度成為熱點(diǎn),只是人們這次關(guān)心的焦點(diǎn)落在底層的技術(shù)上。區(qū)塊鏈這個(gè)P2P分布式數(shù)據(jù)庫(kù),就像傳統(tǒng)意義上的記載所有交易記錄的賬本,因?yàn)槠淙ブ行幕o(wú)界性、頑健性、無(wú)需信任、低成本等特點(diǎn),迎合了當(dāng)前分享經(jīng)濟(jì)的潮流,成為后互聯(lián)網(wǎng)時(shí)代受到追捧的技術(shù)和理念。

        眾所周知,數(shù)字化、城市化和全球化是當(dāng)今世界的三大趨勢(shì),它們相互影響,相互增強(qiáng),正在重塑世界,其中數(shù)字化最具顛覆性。數(shù)字化可以徹底改變傳統(tǒng)行業(yè)的業(yè)務(wù)模式,在中國(guó),以BAT為代表的互聯(lián)網(wǎng)企業(yè)已經(jīng)扮演這樣的角色。在數(shù)字化進(jìn)程中,區(qū)塊鏈可能會(huì)是下一個(gè)如此角色的扮演者。它不僅僅會(huì)影響金融服務(wù),還會(huì)影響物聯(lián)網(wǎng)和分享經(jīng)濟(jì)的發(fā)展。區(qū)塊鏈技術(shù)讓人們可以交換類(lèi)似于比特幣、股權(quán)憑證、合約、證券等虛擬貨幣,也能為Uber、Airbnb等分享經(jīng)濟(jì)業(yè)務(wù)模式提供更好的支持。從這個(gè)意義上來(lái)說(shuō),區(qū)塊鏈?zhǔn)侨轿坏?,幾乎和互?lián)網(wǎng)一樣重要,可以為我國(guó)的“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃和“供給側(cè)改革”提供理念和技術(shù)支持。

        互聯(lián)網(wǎng)帶來(lái)的變化業(yè)已顯現(xiàn)。互聯(lián)網(wǎng)改變了人們生產(chǎn)生活的方方面面,更重要的是帶來(lái)了人們觀念上的深刻改變,中國(guó)大地上如火如荼的“互聯(lián)網(wǎng)+”和“分享經(jīng)濟(jì)”就是這種觀念變化的具體體現(xiàn)。在分享經(jīng)濟(jì)時(shí)代,因?yàn)樯婕柏?cái)物,與傳統(tǒng)的搜索和推薦等互聯(lián)網(wǎng)信息服務(wù)相比,新的應(yīng)用更像任務(wù)關(guān)鍵型應(yīng)用,所以底層需要類(lèi)似數(shù)據(jù)庫(kù)那樣的基礎(chǔ)支撐系統(tǒng)。實(shí)際上,金融應(yīng)用正是50多年前催生數(shù)據(jù)庫(kù)系統(tǒng)的重要驅(qū)動(dòng)力。在新的應(yīng)用和技術(shù)語(yǔ)境下,“分享型數(shù)據(jù)庫(kù)”也許是一個(gè)值得考慮的概念。一是,它要支持關(guān)鍵任務(wù)應(yīng)用,必須具備頑健性和一致性;二是,它主要用來(lái)支持分享經(jīng)濟(jì)業(yè)務(wù)模式的實(shí)現(xiàn);三是,它本身也是通過(guò)分享經(jīng)濟(jì)的方式予以實(shí)現(xiàn)。當(dāng)然,還可以通過(guò)對(duì)區(qū)塊鏈及其代表的技術(shù)和理念的深入理解和實(shí)踐,賦予“分享數(shù)據(jù)庫(kù)”更豐富和具體的內(nèi)涵。眾所周知,數(shù)據(jù)庫(kù)理念就是抽象。如果把比特幣看成區(qū)塊鏈技術(shù)的一個(gè)應(yīng)用案例,區(qū)塊鏈就可以看作一種共性的技術(shù),是一種抽象。如果再把區(qū)塊鏈當(dāng)成一個(gè)具體案例,那么背后共性或是抽象的概念,就可以稱(chēng)之為分享型數(shù)據(jù)庫(kù)。

        4.3 大數(shù)據(jù)實(shí)時(shí)注入和分析系統(tǒng):Ginkgo

        數(shù)據(jù)處理的時(shí)效性直接影響了數(shù)據(jù)處理的價(jià)值,隨著數(shù)據(jù)集規(guī)模的不斷增大,數(shù)據(jù)處理的時(shí)間也在不斷增長(zhǎng)。針對(duì)大數(shù)據(jù)集,如何有效縮短數(shù)據(jù)處理的時(shí)延是一個(gè)挑戰(zhàn)性的問(wèn)題,同時(shí)也有來(lái)自應(yīng)用系統(tǒng)的實(shí)際需求。開(kāi)源大數(shù)據(jù)分析系統(tǒng)Gingko與既有系統(tǒng)相比,具有實(shí)時(shí)注入和實(shí)時(shí)查詢(xún)的特點(diǎn),可大幅減少數(shù)據(jù)處理的周期,提高數(shù)據(jù)處理的響應(yīng)速度,進(jìn)而有效提升面向大數(shù)據(jù)處理的實(shí)際價(jià)值。Ginkgo的系統(tǒng)架構(gòu)如圖4所示。

        Ginkgo采用內(nèi)存計(jì)算架構(gòu),充分利用高速訪問(wèn)內(nèi)存的特性,同時(shí)在數(shù)據(jù)處理邏輯的多個(gè)層面上通過(guò)并行化提高響應(yīng)速度:充分利用分區(qū)并行、流水線并行、操作內(nèi)并行和獨(dú)立并行,高并發(fā)執(zhí)行任務(wù);利用LLVM技術(shù)編譯代碼,提高操作運(yùn)行效率;采用彈性流水線技術(shù),可以根據(jù)負(fù)載和資源,動(dòng)態(tài)伸縮并行度,充分利用資源提高運(yùn)行效率;運(yùn)行時(shí)任務(wù)調(diào)度模塊能夠感知系統(tǒng)負(fù)載,調(diào)度合適的任務(wù),高效地實(shí)現(xiàn)任務(wù)之間的獨(dú)立并行。

        Ginkgo具備實(shí)時(shí)查詢(xún)處理功能的同時(shí),還支持?jǐn)?shù)據(jù)源新數(shù)據(jù)的實(shí)時(shí)注入。區(qū)別于數(shù)據(jù)流系統(tǒng),Ginkgo不僅支持對(duì)數(shù)據(jù)的在線處理,而且可將這些數(shù)據(jù)持久化存儲(chǔ)。實(shí)時(shí)注入基于事務(wù)處理控制方式,設(shè)計(jì)并實(shí)現(xiàn)以下一系列功能:針對(duì)實(shí)時(shí)數(shù)據(jù)注入對(duì)應(yīng)的追加型事務(wù),采用面向元數(shù)據(jù)的集中式事務(wù)處理策略,實(shí)現(xiàn)事務(wù)型數(shù)據(jù)注入;非阻塞分布式數(shù)據(jù)注入框架,將傳統(tǒng)的集中式單機(jī)數(shù)據(jù)注入轉(zhuǎn)變?yōu)榉植际綌?shù)據(jù)注入,充分利用分布式系統(tǒng)的特點(diǎn),避免單機(jī)的單點(diǎn)故障和性能瓶頸;數(shù)據(jù)注入過(guò)程中實(shí)現(xiàn)了讀寫(xiě)分離和寫(xiě)寫(xiě)分離,有效提高并行處理效率。

        4.4 面向關(guān)鍵任務(wù)應(yīng)用的可伸縮事務(wù)處理系統(tǒng):Cedar

        隨著“互聯(lián)網(wǎng)+”的發(fā)展和普及,在互聯(lián)網(wǎng)企業(yè)向零售、訂票、電信、交通運(yùn)輸物流、金融等傳統(tǒng)領(lǐng)域延伸的同時(shí),傳統(tǒng)領(lǐng)域也藉由互聯(lián)網(wǎng)實(shí)現(xiàn)反向O2O(線下到線上)。金融、電信等行業(yè)大量采用互聯(lián)網(wǎng)化的促銷(xiāo)手段,例如“搶票”和“秒殺”。近年的發(fā)展表明這種現(xiàn)象將越來(lái)越普遍。隨之而來(lái)的問(wèn)題是,一方面現(xiàn)有系統(tǒng)升級(jí)的“向上擴(kuò)展(scaling up)”方式由于升級(jí)代價(jià)巨大、只升不降的特點(diǎn),不適合這些應(yīng)用;另一方面,原有數(shù)據(jù)管理系統(tǒng)和事務(wù)處理系統(tǒng)的架構(gòu)和實(shí)現(xiàn)技術(shù)并未能夠充分利用多核CPU、大容量?jī)?nèi)存、固態(tài)存儲(chǔ)、新型存儲(chǔ)介質(zhì)、高速網(wǎng)絡(luò)等硬件以及發(fā)展迅速的集群構(gòu)建技術(shù),無(wú)法有力支撐應(yīng)用的新需要。筆者自2013年開(kāi)始面向金融、電信、零售和服務(wù)等行業(yè)的關(guān)鍵任務(wù)應(yīng)用需要,研究支持可擴(kuò)展事務(wù)處理的數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)與實(shí)現(xiàn)方法,在開(kāi)源OceanBase 0.4.2的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了支持高通量、高性能、可擴(kuò)展事務(wù)處理的開(kāi)源系統(tǒng)Cedar,其版本演化如圖5所示,并在金融、零售服務(wù)、教育領(lǐng)域的多個(gè)系統(tǒng)中進(jìn)行了應(yīng)用驗(yàn)證。Cedar的系統(tǒng)架構(gòu)如圖6所示。

        4.5 基于設(shè)計(jì)思維的企業(yè)社交網(wǎng)絡(luò)服務(wù):Talent Network

        隨著互聯(lián)網(wǎng)服務(wù)日益豐富,傳統(tǒng)IT企業(yè)面臨著技術(shù)提升、管理變革、服務(wù)轉(zhuǎn)型等一系列的新挑戰(zhàn)。如何提升員工能力、整合團(tuán)隊(duì),不僅是人力資源管理的問(wèn)題,也對(duì)大型企業(yè)IT部門(mén)的技術(shù)支持部門(mén)提出了新挑戰(zhàn)。自2015年6月起,華東師范大學(xué)的研究團(tuán)隊(duì)與Infosys研究院一起,基于企業(yè)海量的內(nèi)部項(xiàng)目技術(shù)文檔、員工檔案、會(huì)議和消息通信等管理記錄,構(gòu)建了一個(gè)新型的企業(yè)社交網(wǎng)絡(luò)服務(wù)—— Talent Network。這一系統(tǒng)不僅服務(wù)企業(yè)超過(guò)16萬(wàn)名員工,提供傳統(tǒng)的用戶(hù)檔案瀏覽、社交關(guān)系構(gòu)建、消息通信等社交網(wǎng)絡(luò)服務(wù),還為每一個(gè)用戶(hù)提供技術(shù)專(zhuān)家查找和引見(jiàn)、社交路徑推薦等功能,為企業(yè)管理人員提供了團(tuán)隊(duì)建設(shè)建議、團(tuán)隊(duì)分析等功能。作為一個(gè)新型企業(yè)內(nèi)部服務(wù)系統(tǒng),Talent Network從企業(yè)轉(zhuǎn)型的切身需要出發(fā),從用戶(hù)角度進(jìn)行設(shè)計(jì),通過(guò)簡(jiǎn)潔精美的界面,隱藏復(fù)雜的算法和分析模型,實(shí)現(xiàn)了技術(shù)研發(fā)與企業(yè)應(yīng)用的完美結(jié)合。

        圖5 Cedar的版本演化

        圖6 可伸縮事務(wù)處理系統(tǒng)Cedar系統(tǒng)架構(gòu)

        5 結(jié)束語(yǔ)

        大數(shù)據(jù)依然很熱,但大數(shù)據(jù)與應(yīng)用密切相關(guān),本文分析了產(chǎn)生“大數(shù)據(jù)”的歷史和現(xiàn)實(shí)背景,說(shuō)明了大數(shù)據(jù)之所以成為國(guó)家戰(zhàn)略的原因?;仡檾?shù)據(jù)庫(kù)的發(fā)展歷史,提出了對(duì)數(shù)據(jù)庫(kù)理念的認(rèn)識(shí),討論了數(shù)據(jù)庫(kù)的輝煌成就在大數(shù)據(jù)時(shí)代帶給人們的啟示?;ヂ?lián)網(wǎng)的發(fā)展改變了信息技術(shù)的發(fā)展范型。“應(yīng)用驅(qū)動(dòng)創(chuàng)新”成為IT領(lǐng)域創(chuàng)新的重要特點(diǎn)。當(dāng)前形勢(shì)下,走創(chuàng)新之路就要立足現(xiàn)實(shí)應(yīng)用中的問(wèn)題,解放思想,破除迷信,融入開(kāi)源社區(qū),采用開(kāi)放結(jié)構(gòu),應(yīng)用和技術(shù)協(xié)同發(fā)展。

        [1]李戰(zhàn)懷, 王國(guó)仁, 周傲英. 從數(shù)據(jù)庫(kù)視角解讀大數(shù)據(jù)的研究進(jìn)展與趨勢(shì)[J]. 計(jì)算機(jī)工程與科學(xué), 2013, 35(10): 1-11.

        LI Z H, WANG G R, ZHOU A Y. Research progress and trends of big data from a database perspective[J]. Computer Engineering & Science, 2013, 35(10):1-11.

        [2]STONEBRAKER M, CETINTEMEL U. One size fits all: 10 years later[C]// 31st IEEE International Conference on Data Engineering, April 13-17, 2015, Seoul, Korea. [S.l.:s.n.], 2015.

        [3]周傲英, 錢(qián)衛(wèi)寧, 王長(zhǎng)波. 數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科[J]. 大數(shù)據(jù), 2015022.

        ZHOU A Y, QIAN W N, WANG C B. Data sciences and engineering: an emerging interdisciplinary in the big data era[J]. Big Data Research, 2015022.

        [4]美國(guó)國(guó)家學(xué)術(shù)院國(guó)家研究委員會(huì). 海量數(shù)據(jù)分析前沿[M]. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院, 譯. 北京: 清華大學(xué)出版社, 2015.

        National Research Council of the National Academies. Frontiers in massive data analysis[M]. Translated by Data Science and Engineering Research Institute of East China Normal University. Beijing:Tsinghua University Press, 2015.

        [5]GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system[C]//The ACM Symposiumon Operating Systems Principles (SOSP), October 19-22, 2003, Lake George, NY, USA. New York: ACM Press, 2003: 29-43.

        [6]DEAN J, GHEMAWAT S. MapReduce:simplified data processing on large clusters[C]// The 6th Symposium on Operating System Desig n a nd Implementation, December 6-8, 2004, San Francisco, USA. New York: ACM Press, 2004: 137-150.

        [7]HEY T, TANSLEY S, TOLLE K M. The fourth paradigm: data-intensive scientific discovery[J]. Proceedings of the IEEE, 2009, 99(8): 1334-1337.

        Understanding on the big data: beyond the data management and analytics

        ZHOU Aoying
        School of Data Science and Engineering, East China Normal University, Shanghai 200062, China

        Big data is still a buzzword, and more and more people are talking about it with various kinds of different explanations. Based on writer’s understanding, the big data, big data strategy and “internet plus” initiative will be discussed here. The database philosophy was revisited, for understanding the development of data management is meaningful to catch the good opportunities in big data era. Moreover, from the point of view of a senior IT professional, the development paradigm for IT has been shifted in the past decade. The change was described, and three systems and their development and deployment were presented. A new concept, sharing database, was proposed to catch up the notion behind the block chain.

        big data, database philosophy, internet plus, sharing database

        TP399

        A

        10.11959/j.issn.2096-0271.2017014

        周傲英(1965-),男,華東師范大學(xué)副校長(zhǎng)、數(shù)據(jù)科學(xué)與工程學(xué)院院長(zhǎng),主要研究方向?yàn)閃eb數(shù)據(jù)管理、數(shù)據(jù)密集型計(jì)算、內(nèi)存集群計(jì)算、分布事務(wù)處理、大數(shù)據(jù)基準(zhǔn)測(cè)試和性能優(yōu)化。曾獲得國(guó)家杰出青年基金,入選長(zhǎng)江學(xué)者計(jì)劃特聘教授。目前擔(dān)任第七屆國(guó)務(wù)院學(xué)科評(píng)議組成員、中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專(zhuān)業(yè)委員會(huì)副主任、《計(jì)算機(jī)學(xué)報(bào)》副主編;曾任ER’2004大會(huì)主席,ICDE’2009、ICDE’2012 PC副主席,VLDB’2014 PC共同主席。

        2016-08-22

        猜你喜歡
        數(shù)據(jù)庫(kù)系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        天天做天天爱夜夜爽| 国产无遮挡又黄又爽在线视频| 美女裸体自慰在线观看| 美女窝人体色www网站| 青青久久精品一本一区人人 | 亚洲乱码中文字幕综合| 亚洲中文字幕九色日本| 久久久久久久极品内射| 无人视频在线观看免费播放影院| 少妇高潮尖叫黑人激情在线| 99精品成人片免费毛片无码| 国产高清白浆| 亚洲a级视频在线播放| 99在线精品免费视频| 波多野结衣一区二区三区高清| 九九精品视频在线观看| 久久频这里精品99香蕉| 精品理论一区二区三区| 一区二区三区国产色综合| 中文无码一区二区三区在线观看| 亚洲日韩欧美国产另类综合| AV在线毛片| 精品国产一区二区三区av免费| 国产免费内射又粗又爽密桃视频| 尤物99国产成人精品视频| 99热久久只有这里是精品| 国内嫩模自拍诱惑免费视频| 国内少妇毛片视频| 97久久人人超碰超碰窝窝| 国产V日韩V亚洲欧美久久| 后入少妇免费在线观看| 国产欧美日韩一区二区加勒比| 国产真实乱对白精彩久久老熟妇女| 国产精品va在线播放我和闺蜜| 超级碰碰人妻中文字幕| 国产精品自产拍在线18禁 | 中文字幕乱码亚洲精品一区| 午夜一级在线| 91桃色在线播放国产| 少妇被又大又粗又爽毛片久久黑人 | 国产无码夜夜一区二区|