黃曜令
大數(shù)據(jù)的概念出現(xiàn)在2011年麥卡錫全球研究院的一份報(bào)告《創(chuàng)新大數(shù)據(jù)是創(chuàng)新競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前夜》中,這份報(bào)告至今已經(jīng)有6年多的時(shí)間。這6年中,無(wú)論是國(guó)際還是國(guó)內(nèi)都對(duì)大數(shù)據(jù)的發(fā)展十分重視,投資每年都在增加。特別是我國(guó),在國(guó)家政策層面,黨的十八屆五中全會(huì)公報(bào)提出要實(shí)施“國(guó)家大數(shù)據(jù)戰(zhàn)略”,這是大數(shù)據(jù)第一次寫(xiě)入黨的全會(huì)決議,標(biāo)志著大數(shù)據(jù)戰(zhàn)略正式上升為國(guó)家戰(zhàn)略。五中全會(huì),開(kāi)啟了大數(shù)據(jù)建設(shè)的新篇章。
數(shù)據(jù)已經(jīng)成為了新的生產(chǎn)資料和核心資源,在這個(gè)體系下,政府掌握著工商、稅務(wù)、交通等絕大部分的數(shù)據(jù),但是數(shù)據(jù)本身并不能直接產(chǎn)生價(jià)值。所以在大數(shù)據(jù)的環(huán)境下,我們?nèi)绾螌?duì)大數(shù)據(jù)進(jìn)行統(tǒng)籌、治理以及挖掘大數(shù)據(jù)背后的價(jià)值,這些真正在考驗(yàn)我們。
事實(shí)上,數(shù)據(jù)整合、應(yīng)用遷移成本一直高居不下,我們有沒(méi)有一些辦法能夠更好、更敏捷地去實(shí)現(xiàn)這些目標(biāo)呢?借用一個(gè)觀點(diǎn):大數(shù)據(jù)不是數(shù)據(jù)的簡(jiǎn)單累計(jì),大數(shù)據(jù)不是數(shù)據(jù)量大,而是計(jì)算大。我想在計(jì)算大這個(gè)前提之下,我們要做的一些事情顯然對(duì)于數(shù)據(jù)的統(tǒng)籌提出了很重要的能力要求。在這幾年當(dāng)中,推進(jìn)大數(shù)據(jù)發(fā)展過(guò)程中不能共享的特點(diǎn)很明顯,主要原因有兩點(diǎn),一是系統(tǒng)之間相互獨(dú)立。二是標(biāo)準(zhǔn)化的問(wèn)題。比如說(shuō)我們所采用的系統(tǒng)設(shè)計(jì)、選擇的產(chǎn)品、技術(shù)路線、建設(shè)路線都不一樣,這些都會(huì)阻礙數(shù)據(jù)共享。
在一定信息標(biāo)準(zhǔn)體系下,在一定的安全保障體系下,以及我們有一定的服務(wù)運(yùn)維能力的情況下,我們按照一定的標(biāo)準(zhǔn)構(gòu)建政務(wù)大數(shù)據(jù)平臺(tái),通過(guò)這個(gè)平臺(tái),我們?yōu)檎膬?yōu)政、惠民、興業(yè)要提供服務(wù)保障。我覺(jué)得仍然有很多的細(xì)節(jié)需要處理。在這個(gè)體系下面,數(shù)據(jù)治理也好,目錄檢索也好,數(shù)據(jù)交換共享等這一系列東西,實(shí)際上無(wú)處不在地需要計(jì)算,而如何構(gòu)建一個(gè)敏捷的計(jì)算體系支撐這個(gè)平臺(tái),我認(rèn)為這是潤(rùn)乾能夠給大家?guī)?lái)的一些價(jià)值。
在這樣的背景下,潤(rùn)乾創(chuàng)新大數(shù)據(jù)計(jì)算引擎發(fā)揮著重要的作用,這個(gè)計(jì)算引擎是由我們完全自主研發(fā)的,具有完全自主知識(shí)產(chǎn)權(quán)的,結(jié)合了高級(jí)語(yǔ)言的一些優(yōu)點(diǎn),讓描述計(jì)算更簡(jiǎn)單、更貼近人的思路,這樣有什么好處呢?就是,開(kāi)發(fā)效率更高,我們的交付效率更高,我們更有條件去滿足各種各樣數(shù)據(jù)服務(wù)的需求,讓這些需求實(shí)現(xiàn)起來(lái)更簡(jiǎn)單。
計(jì)算是無(wú)處不在的,無(wú)論是在過(guò)去的信息系統(tǒng)當(dāng)中還是現(xiàn)在的大數(shù)據(jù)平臺(tái)上,我們要把生產(chǎn)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)抽取到倉(cāng)庫(kù)當(dāng)中進(jìn)行統(tǒng)計(jì)分析,包括數(shù)據(jù)倉(cāng)庫(kù)抽取到大數(shù)據(jù)平臺(tái)當(dāng)中,我們對(duì)外提供數(shù)據(jù)服務(wù),這些都是一種計(jì)算服務(wù)。潤(rùn)乾的創(chuàng)新計(jì)算顯然非常適應(yīng)這種無(wú)處不在的計(jì)算。
快速搭建一個(gè)大數(shù)據(jù)平臺(tái),在這個(gè)體系架構(gòu)當(dāng)中,計(jì)算引擎在里面承擔(dān)了兩個(gè)任務(wù):一是從數(shù)據(jù)采集層批量地把各種各樣的數(shù)據(jù)源采集到存儲(chǔ)體系當(dāng)中。二是作為核心計(jì)算引擎,為上面的統(tǒng)計(jì)報(bào)表和各種數(shù)據(jù)服務(wù)提供一個(gè)強(qiáng)有力的計(jì)算保證。
在這個(gè)體系當(dāng)中我們還得考慮運(yùn)維成本,實(shí)際上過(guò)去,各種工具、體系對(duì)于人員的要求實(shí)在是太高了。剛才我們描述的計(jì)算引擎兩個(gè)優(yōu)點(diǎn),使描述計(jì)算更貼近、人的想法,讓我們的開(kāi)發(fā)商、維護(hù)人員更容易理解、實(shí)現(xiàn)這樣的場(chǎng)景。
此外,我們通過(guò)潤(rùn)乾的計(jì)算引擎構(gòu)建一個(gè)數(shù)據(jù)服務(wù)平臺(tái)。在過(guò)去的體系下,剛才有嘉賓提到海量數(shù)據(jù),把五個(gè)、十個(gè)系統(tǒng)的數(shù)據(jù)源導(dǎo)到數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中,實(shí)際上數(shù)據(jù)量也挺大的,但是我們還有很多數(shù)據(jù)沒(méi)有導(dǎo)進(jìn)來(lái)。如果說(shuō)我們要進(jìn)行統(tǒng)一的分析和計(jì)算,應(yīng)該怎么做呢?還是要通過(guò)ETL方式采集到原有的數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中,但是那么多年下來(lái),我們整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的性能和效率可能已經(jīng)有了很大的瓶頸。所以我們是不是需要建立一個(gè)新的數(shù)據(jù)倉(cāng)庫(kù)呢?可能不一定。
在這個(gè)體系下,我們的計(jì)算引擎能夠在數(shù)據(jù)倉(cāng)庫(kù)之上加一個(gè)彈性的計(jì)算框架,把各種結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)源直接抽取到計(jì)算引擎當(dāng)中來(lái),因?yàn)槲覀冋麄€(gè)計(jì)算引擎對(duì)包括傳感器數(shù)據(jù)檢測(cè)文件和Web服務(wù)等這一系列都做了很好的封裝,所以我們直接可以把這些數(shù)據(jù)抽取到計(jì)算引擎當(dāng)中來(lái)計(jì)算,這樣也能夠規(guī)避底層數(shù)據(jù)源的差異性,能夠規(guī)范我們的數(shù)據(jù)管理。
同時(shí),在這個(gè)計(jì)算服務(wù)層當(dāng)中,我們提供了標(biāo)準(zhǔn)的接口,為上層提供調(diào)用或者是數(shù)據(jù)輸出,提供了一些很好的模式,而且也很好地被集成。通過(guò)敏捷的數(shù)據(jù)服務(wù)平臺(tái),我們可以為企業(yè)內(nèi)部、部門(mén)內(nèi)部提供不同的數(shù)據(jù)服務(wù)。未來(lái)我想一定會(huì)整合一些第三方的數(shù)據(jù),包括社交數(shù)據(jù),到我們整個(gè)政府部門(mén)的數(shù)據(jù)中,更好地為民眾提供便利的服務(wù)。
潤(rùn)乾的基因就是做產(chǎn)品,潤(rùn)乾也已經(jīng)堅(jiān)持了17年的計(jì)算策略,所以我們未來(lái)也會(huì)一直在這個(gè)領(lǐng)域當(dāng)中,在基礎(chǔ)軟件領(lǐng)域中堅(jiān)持我們17年來(lái)的經(jīng)營(yíng)理念,就是創(chuàng)新技術(shù)推動(dòng)應(yīng)用進(jìn)步。最后,我想說(shuō)軟件引領(lǐng)變革,應(yīng)用才真正改變世界,但是分工有層次,我們專(zhuān)注做好我們的計(jì)算兼架構(gòu)。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)endprint