本刊記者/朱琨
常雷帶領(lǐng)著偶數(shù)科技著力打造的基于HAWQ的分析型數(shù)據(jù)倉庫OushuDB應(yīng)運(yùn)而生,同時(shí),該數(shù)據(jù)倉庫融合了機(jī)器學(xué)習(xí)技術(shù),在利用人工智能技術(shù)處理海量數(shù)據(jù)上擁有得天獨(dú)厚的優(yōu)勢(shì)。
在數(shù)字化時(shí)代,個(gè)人移動(dòng)設(shè)備快速普及,各企業(yè)機(jī)構(gòu)紛紛利用大數(shù)據(jù)與各終端設(shè)備進(jìn)行相互連接,來幫助企業(yè)提高生產(chǎn)效率,制定經(jīng)營決策,導(dǎo)致整個(gè)社會(huì)每天都會(huì)產(chǎn)生海量數(shù)據(jù)。據(jù)預(yù)測,到2020年,一個(gè)人每天將產(chǎn)生約1.5GB數(shù)據(jù),一個(gè)家庭每天將產(chǎn)生約50GB數(shù)據(jù),一輛無人駕駛汽車每天將產(chǎn)生5TB數(shù)據(jù)。而在整個(gè)社會(huì)體系中,各機(jī)構(gòu)每日將產(chǎn)生上百TB數(shù)據(jù)。隨著終端設(shè)備的不斷接入,使得數(shù)據(jù)呈指數(shù)級(jí)增長,最終形成龐大的數(shù)據(jù)洪流。
盡管數(shù)據(jù)的增長可以為社會(huì)帶來巨大的商業(yè)機(jī)會(huì),但同時(shí)對(duì)于數(shù)據(jù)的處理也帶來了嚴(yán)峻的挑戰(zhàn)。對(duì)于企業(yè)而言,由于項(xiàng)目或業(yè)務(wù)的多元化發(fā)展,導(dǎo)致企業(yè)面臨不同的數(shù)據(jù)源。當(dāng)數(shù)據(jù)產(chǎn)生時(shí),企業(yè)可以利用My SQL或Post gr eSQL等數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢和處理。有一種說法認(rèn)為,傳統(tǒng)數(shù)據(jù)庫行將就木,而以企業(yè)的分析報(bào)告和決策支持為目的,對(duì)多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合的數(shù)據(jù)存儲(chǔ)集合—數(shù)據(jù)倉庫技術(shù)將成燎原之勢(shì)不斷滿足數(shù)據(jù)存儲(chǔ)與分析帶來的苛刻需求。
作為北京偶數(shù)科技有限公司(以下簡稱偶數(shù)科技)的掌舵人,常雷在2016年創(chuàng)立了偶數(shù)科技。在短短兩年時(shí)間內(nèi),偶數(shù)科技依靠自身成熟的數(shù)據(jù)倉庫技術(shù)以及Apache HAWQ、Oushu Dat abase新一代數(shù)據(jù)倉庫、OushuLit t l eBoy人工智能系統(tǒng)、Oushu Lava人工智能云平臺(tái)等產(chǎn)品在市場中迅速站穩(wěn)腳跟,成為國內(nèi)領(lǐng)先的AI和大數(shù)據(jù)軟件企業(yè)。與此同時(shí),偶數(shù)科技在常雷的帶領(lǐng)下,在通往第四代數(shù)據(jù)倉庫的快車道上持續(xù)邁進(jìn),碩果累累。
那么什么是第四代數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的發(fā)展又是如何演進(jìn)的?
在1990年,數(shù)據(jù)倉庫概念由比爾·恩門(Bi l l Inmon)提出,發(fā)展至今已有近30年的歷史。在常雷看來,數(shù)據(jù)倉庫在30年的發(fā)展過程中,主要分為三個(gè)階段。在上世紀(jì)80年代,出現(xiàn)了關(guān)系型數(shù)據(jù)庫,而Or ac l e和DB2成為關(guān)系型數(shù)據(jù)庫的主流產(chǎn)品,被廣泛作用到金融行業(yè)的交易系統(tǒng)中。
但是金融行業(yè)的理財(cái)、貸款等業(yè)務(wù)的不斷拓展,導(dǎo)致數(shù)據(jù)量不斷增加。金融行業(yè)需要利用數(shù)據(jù)分析技術(shù)來處理數(shù)據(jù),所以需要將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)源中的數(shù)據(jù)以及互聯(lián)網(wǎng)中的數(shù)據(jù)進(jìn)行整合,并統(tǒng)一進(jìn)行分析。因此,依靠其自身小型機(jī)或一體機(jī)專有的硬件平臺(tái),面向傳統(tǒng)BI分析的第一代數(shù)據(jù)倉庫由此產(chǎn)生,企業(yè)需要將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫中進(jìn)行數(shù)據(jù)分析。
但是由于第一代數(shù)據(jù)倉庫采取的是集中式存儲(chǔ),存儲(chǔ)是系統(tǒng)的瓶頸,很難支持突發(fā)的應(yīng)用或密集復(fù)雜的計(jì)算需求。所以出現(xiàn)了無共享構(gòu)架的第二代數(shù)據(jù)倉庫。第二代數(shù)據(jù)倉庫是基于專有硬件的Mpp平臺(tái),比如Ter adat a。但是常雷講到,雖然無共享架構(gòu)是一種技術(shù)的突破,但是其價(jià)格昂貴,同時(shí)在架構(gòu)方面缺乏彈性,規(guī)模很難擴(kuò)展到上千個(gè)機(jī)器。
在2000年左右,由于軟件技術(shù)發(fā)展并不成熟,而第二代數(shù)據(jù)倉庫采用的是專有的硬件平臺(tái),軟件系統(tǒng)只能進(jìn)行大量的制定化處理,導(dǎo)致第二代數(shù)據(jù)倉庫的使用成本較高,而且由于軟件定制化的緣故,使得操作系統(tǒng)的擴(kuò)展性有限,最終逐漸被歷史所淘汰。
為了解決第二代數(shù)據(jù)倉庫的使用成本和系統(tǒng)的擴(kuò)展性問題,在2010年左右,以X86為基礎(chǔ)架構(gòu)的第三代數(shù)據(jù)倉庫隨之出現(xiàn),第三代數(shù)據(jù)倉庫可根據(jù)工作負(fù)載彈性伸縮,靈活配置,按需分配資源,可以快速支持突發(fā)的應(yīng)用計(jì)算需求。在常雷看來,第三代數(shù)據(jù)倉庫可以分為兩個(gè)部分:基于X86構(gòu)架的MPP技術(shù)和基于X86構(gòu)架的Hadoop技術(shù)?;赬86構(gòu)架的MPP普遍采用普通硬件,極大地降低了使用成本,而Hadoop可以形成千、萬個(gè)節(jié)點(diǎn),解決了擴(kuò)展性問題,而這兩部分并稱為第三代數(shù)據(jù)倉庫。
2015年,大數(shù)據(jù)已經(jīng)被廣泛應(yīng)用到各行各業(yè)中,相關(guān)技術(shù)也日臻成熟,各類新興應(yīng)用場景和商業(yè)模式開始呈爆發(fā)式增長,大數(shù)據(jù)驅(qū)動(dòng)下的人工智能技術(shù)也逐漸呈現(xiàn)出遍地開花之勢(shì)向各個(gè)領(lǐng)域延伸。在常雷看來,以人工智能技術(shù)為基礎(chǔ)的應(yīng)用模式正在使市場需求發(fā)生變化,所以偶數(shù)科技提出了“重塑”概念,希望通過新興技術(shù)來重塑企業(yè)的辦公方式和人們的生活方式。而數(shù)據(jù)積累和深度學(xué)習(xí)便成為了常雷的“手術(shù)刀”,并在市場中叫響了打造第四代數(shù)據(jù)倉庫的口號(hào)。
在常雷看來,傳統(tǒng)的數(shù)據(jù)倉庫對(duì)數(shù)據(jù)進(jìn)行在線統(tǒng)計(jì)、在線分析、數(shù)據(jù)挖掘、隨機(jī)查詢等工作時(shí)具有一定優(yōu)勢(shì),但是伴隨著整個(gè)社會(huì)向人工智能的方向邁進(jìn),使得各個(gè)應(yīng)用場景中都充斥著人工智能的影子,而在人工智能場景的影響下,面對(duì)海量的數(shù)據(jù)分析需求,第三代數(shù)據(jù)倉庫就顯現(xiàn)出弊端。無論從反饋時(shí)長還是設(shè)備性能嚴(yán)苛的要求看,第三代數(shù)據(jù)倉庫已無法滿足人工智能的發(fā)展需求,所以對(duì)數(shù)據(jù)倉庫進(jìn)行迭代迫在眉睫。
而在這一背景下,常雷帶領(lǐng)著偶數(shù)科技著力打造的基于HAWQ的分析型數(shù)據(jù)倉庫OushuDB應(yīng)運(yùn)而生,同時(shí),該數(shù)據(jù)倉庫融合了機(jī)器學(xué)習(xí)技術(shù),在利用人工智能技術(shù)處理海量數(shù)據(jù)上擁有得天獨(dú)厚的優(yōu)勢(shì)。在大數(shù)據(jù)和人工智能時(shí)代的背景下,在安防、金融、工業(yè)等領(lǐng)域?qū)τ跀?shù)據(jù)倉庫的海量數(shù)據(jù)處理和分析能力提出了更高的要求,而第四代數(shù)據(jù)倉庫可以通過深度學(xué)習(xí)、Aut o ML、強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理、知識(shí)圖譜等進(jìn)行深層的認(rèn)知和推理。
此外,在安防領(lǐng)域,在人員身份識(shí)別、人類軌跡分析等方面,可對(duì)視頻、圖片、電子車牌等不同種類的數(shù)據(jù)進(jìn)行快速分析,并發(fā)現(xiàn)潛在的聯(lián)系,抽取有價(jià)值的信息,并對(duì)可疑行為發(fā)出預(yù)警,對(duì)案件進(jìn)行關(guān)聯(lián),協(xié)助提高公安部門的案件的偵破效率。
在金融領(lǐng)域,銀行在辦理貸款業(yè)務(wù)時(shí),需要對(duì)審貸企業(yè)進(jìn)行核查,再通過評(píng)委會(huì)對(duì)核查結(jié)果進(jìn)行評(píng)估,而整個(gè)審核流程全部需要人工的方式完成。但是一旦核查流程涉及公司業(yè)務(wù),銀行需要將該企業(yè)所有的外部和內(nèi)部數(shù)據(jù)按主題進(jìn)行整合,這就極大地耗費(fèi)了時(shí)間和人工成本,同時(shí)也給數(shù)據(jù)分析帶來巨大困難。而借助“第四代數(shù)據(jù)倉庫”的技術(shù)優(yōu)勢(shì),偶數(shù)科技可以利用數(shù)據(jù)存儲(chǔ)、管理、分析和人工智能算法建模,幫助用戶構(gòu)建審核流程模型并進(jìn)行模型管理,簡化傳統(tǒng)的審核過程,減少人工參與并縮短審核時(shí)間。
目前,物聯(lián)網(wǎng)技術(shù)在工業(yè)領(lǐng)域得到長足發(fā)展,在工業(yè)企業(yè)內(nèi)部可能部署有近百萬甚至千萬的物聯(lián)網(wǎng)傳感器,并實(shí)時(shí)提供傳感器數(shù)據(jù),而第四代數(shù)據(jù)倉庫完全摒棄了繁瑣的存儲(chǔ)方案,依靠時(shí)空維度和列存儲(chǔ)的思想,建立了一種以物聯(lián)網(wǎng)模式的數(shù)據(jù)倉庫,并根據(jù)物聯(lián)網(wǎng)的時(shí)空特性,設(shè)計(jì)了一種支持連續(xù)聚集查詢的多時(shí)空粒度數(shù)據(jù)結(jié)構(gòu)和快速更新算法,來解決物聯(lián)網(wǎng)的數(shù)據(jù)管理等問題。
偶數(shù)科技所打造的“第四代數(shù)據(jù)倉庫”是以HAWQ為基礎(chǔ)所構(gòu)建的,而在HAWQ的研發(fā)層面,常雷也可謂是別出心裁。常雷認(rèn)為,在2004年左右,Hadoop技術(shù)出現(xiàn),在那個(gè)時(shí)期有兩個(gè)系統(tǒng)使用得十分廣泛:分布式軟件存儲(chǔ)HDFS和面向大數(shù)據(jù)并行處理的計(jì)算模型Map Reduce。但是Map Reduce自身的復(fù)雜性使得該項(xiàng)技術(shù)的使用量逐漸減少,同時(shí)Hadoop社區(qū)也發(fā)現(xiàn)了該項(xiàng)問題。這種情況促進(jìn)了Hive的出現(xiàn),Hive可以將SQL語言轉(zhuǎn)換成MapReduce任務(wù)運(yùn)行。
在常雷加入Gr eenpl um之后,2011年常雷便開始組建中國研發(fā)團(tuán)隊(duì)進(jìn)行HAWQ的產(chǎn)品化工作。常雷介紹到,SQL-on-Hadoop的引擎的運(yùn)行速度并不理想,而傳統(tǒng)的MPP的運(yùn)行速度卻非??欤猿@讕ьI(lǐng)團(tuán)隊(duì)將兩項(xiàng)技術(shù)進(jìn)行融合形成了HAWQ。同時(shí),常雷從兼容性、性能和可擴(kuò)展性等方面對(duì)新型的SQL-on-Hadoop引擎與傳統(tǒng)引擎進(jìn)行比對(duì)并發(fā)現(xiàn),以SQL-on-Hadoop新引擎為代表的HAWQ在運(yùn)行速度方面提升了近400倍。
在2013年HAWQ正式公布1.0版本,時(shí)隔一年HAWQ已成為全球眾多大型企業(yè)采購的重要產(chǎn)品之一,同時(shí)在2015年,HAWQ開源成為Apac he項(xiàng)目。在2016年常雷另立山頭,宣告成立了偶數(shù)科技。為了滿足市場需求,常雷基于HAWQ打造新一代數(shù)據(jù)倉庫Oushu DB,原生支持云計(jì)算和人工智能,并在2017年帶領(lǐng)偶數(shù)科技發(fā)布了OushuDB 3.0企業(yè)版。
基于原創(chuàng)性HAWQ技術(shù),Oushu DB已經(jīng)成為目前全球最快的新一代分析型數(shù)據(jù)倉庫引擎。作為偶數(shù)的核心產(chǎn)品,OushuDB采用了全新執(zhí)行器,性能比傳統(tǒng)數(shù)據(jù)倉庫與SQL-on-Hadoop引擎快一個(gè)數(shù)量級(jí),并支持In-Dat abase AI。目前,Oushu DB已經(jīng)在金融、電信、制造、醫(yī)療和互聯(lián)網(wǎng)等行業(yè)得到廣泛部署和應(yīng)用。在今年8月,ApacheHAWQ畢業(yè)為頂級(jí)項(xiàng)目,彰顯了其在業(yè)內(nèi)的非凡影響力,并得到了包括VMware、阿里巴巴、海爾、中興軟創(chuàng)等數(shù)百個(gè)全球知名企業(yè)的認(rèn)可。
在2010年,常雷在EMC公司組建中國研發(fā)團(tuán)隊(duì)研發(fā)HAWQ引擎,并在2016年成立偶數(shù)科技,著力于研究與發(fā)展數(shù)據(jù)倉庫技術(shù),雖然偶數(shù)科技的發(fā)展并不長,卻已在數(shù)據(jù)倉庫領(lǐng)域極具影響力,而常雷也時(shí)常調(diào)侃自己真正創(chuàng)業(yè)其實(shí)是在2010年。此外,隨著人工智能、云計(jì)算等新興技術(shù)不斷涌入市場,常雷也緊跟時(shí)代利用人工智能的深度學(xué)習(xí)技術(shù),自主研發(fā)了基于人工智能技術(shù)的OushuLit t l eBoy產(chǎn)品,Lit t l eBoy是偶數(shù)科技最新推出的人工智能產(chǎn)品,搭載了全球頂尖的自動(dòng)機(jī)器學(xué)習(xí)Aut o ML技術(shù),該技術(shù)可以自動(dòng)調(diào)優(yōu),幫助非工程師建模。
常雷坦言,打造“第四代數(shù)據(jù)倉庫”主要目的是為了重塑傳統(tǒng)的辦公環(huán)境和應(yīng)用場景,我們的發(fā)展愿景就是希望一個(gè)沒有技術(shù)背景的人員,在培訓(xùn)半個(gè)小時(shí)后,可以運(yùn)用我們“第四代數(shù)據(jù)倉庫”和人工智能產(chǎn)品獨(dú)立地進(jìn)行建模。“偶數(shù)的數(shù)據(jù)庫可以比傳統(tǒng)數(shù)據(jù)倉庫快10倍。性能是數(shù)據(jù)庫的核心,偶數(shù)科技的核心產(chǎn)品OushuDB的每個(gè)版本迭代都是性能的再一次升級(jí),不斷地為客戶帶來更快、更強(qiáng)的優(yōu)質(zhì)產(chǎn)品。”
而對(duì)于人工智能如何與新一代數(shù)據(jù)倉庫技術(shù)相結(jié)合,常雷認(rèn)為:“目前,市場中的人工智能技術(shù)包括人臉識(shí)別、語音識(shí)別等都屬于感知層,我們現(xiàn)在所做的是人工智能的認(rèn)知層。認(rèn)知層往往是最難的人工智能技術(shù),它可以獨(dú)立地思考人們的行為并給出相應(yīng)的解決方案。”
訪談實(shí)錄
Q:中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟、《軟件和集成電路》雜志社
A:偶數(shù)科技創(chuàng)始人兼CEO 常雷
Q:如何定義第四代數(shù)據(jù)倉庫?
A:之前還沒有人將此進(jìn)行正式的定義,偶數(shù)正在人工智能的背景下定義第四代數(shù)據(jù)倉庫。隨著時(shí)代的不斷變化,人們會(huì)發(fā)現(xiàn)每隔10~15年,一定會(huì)有一個(gè)巨大變革。當(dāng)大數(shù)據(jù)和人工智能等技術(shù)出現(xiàn)時(shí),怎樣才能滿足該項(xiàng)技術(shù)的需求,也是現(xiàn)在的人們所津津樂道的事情。如果現(xiàn)在的數(shù)據(jù)庫不能支持人工智能,那么在人工智能環(huán)境的影響下,發(fā)展數(shù)據(jù)分析顯然是不可能的事情,所以這也是驅(qū)使著我們開發(fā)第四代數(shù)據(jù)倉庫的主要原因之一。目前,人工智能技術(shù)的發(fā)展時(shí)間并不長,還沒有出現(xiàn)真正成熟的人工智能技術(shù),所以我們希望偶數(shù)科技能夠定義這個(gè)問題。
Q:打造第四代數(shù)據(jù)倉庫,偶數(shù)科技為何要進(jìn)行市場培育?
A:若要做好一個(gè)產(chǎn)品,進(jìn)行市場培育工作是必然的,而我們從事HAWQ技術(shù)的研發(fā)時(shí)也進(jìn)行了大量的市場培育。如果沒有市場培育工作,你永遠(yuǎn)會(huì)跟著別人的步子走路。我們希望偶數(shù)科技所做的事情可以引領(lǐng)世界潮流,而不是等別人把概念變成現(xiàn)實(shí),我們?cè)俑S別人走過的路。無論從技術(shù)上突破,還是從應(yīng)用領(lǐng)域上等待爆發(fā)的時(shí)機(jī),成功的創(chuàng)業(yè)型公司都會(huì)經(jīng)歷一些本質(zhì)上的變化。我認(rèn)為偶數(shù)科技正處在這一階段,所以我們希望重新定義第四代數(shù)據(jù)倉庫。
Q:偶數(shù)科技產(chǎn)品的核心競爭力如何體現(xiàn)?
A:目前有9個(gè)城市的公安和多個(gè)銀行在用我們的產(chǎn)品,在能源領(lǐng)域國家電網(wǎng)和南方電網(wǎng)都是我們的客戶,同時(shí)我們的產(chǎn)品在向制造業(yè)延伸,比如海爾是我們很早期的用戶。
我們的產(chǎn)品有較好的市場沉淀,而且我們?cè)陂_發(fā)HAWQ時(shí)也得到市場的廣泛認(rèn)可。另外,我們的產(chǎn)品確實(shí)解決了用戶的痛點(diǎn),比如當(dāng)數(shù)據(jù)量很大的時(shí)候用戶在計(jì)算一個(gè)報(bào)表時(shí),可能需要等待1小時(shí),而這一問題傳統(tǒng)數(shù)據(jù)庫無法解決,那么如何才能解決這一問題呢?我們的人工智能數(shù)據(jù)倉庫,使用了新型硬件指令和算法來提升產(chǎn)品的性能,這就使得我們第四代數(shù)據(jù)倉庫的運(yùn)行速度比第三代快一個(gè)數(shù)量級(jí),可以應(yīng)對(duì)龐大的數(shù)據(jù)分析需求,這也是我們產(chǎn)品的賣點(diǎn)之一,同時(shí)也給我們的發(fā)展帶來更多的機(jī)會(huì)。
Q:目前,各行業(yè)的痛點(diǎn)存在哪些共性?
A:從需求的角度來說,當(dāng)前人工智能的需求比較強(qiáng)烈,我們也把數(shù)據(jù)倉庫中的機(jī)器學(xué)習(xí)部分獨(dú)立出來,開發(fā)了Lit t l eBoy。那么在業(yè)界第一大痛點(diǎn)是什么?其實(shí)是人工智能還未形成規(guī)?;?,比如企業(yè)想構(gòu)建深度學(xué)習(xí)算法,它需要有統(tǒng)計(jì)背景和計(jì)算機(jī)背景的數(shù)據(jù)科學(xué)家才能進(jìn)行工作,但是就目前來看,這方面人才十分稀缺。那么如何使普通人員可以使用人工智能技術(shù),就成為了偶數(shù)科技的發(fā)展愿景。目前,我們的Lit t l eBoy和OushuDB產(chǎn)品,可以使一個(gè)沒有技術(shù)背景的人員,在經(jīng)過半個(gè)小時(shí)的培訓(xùn)后,獨(dú)立做出一個(gè)反欺詐模型,這就解決了需求問題。
而第二大痛點(diǎn)就是性能,因?yàn)閿?shù)據(jù)量正在不斷增加,如果要面對(duì)數(shù)據(jù)洪流進(jìn)行數(shù)據(jù)分析,這就會(huì)給性能帶來極大的考驗(yàn),只有提升運(yùn)行速度,才能應(yīng)對(duì)數(shù)據(jù)的爆發(fā)式增長。
圖 Oushu Database 主要功能示意圖
案例名稱:深圳國稅稅務(wù)大數(shù)據(jù)平臺(tái)
核心特點(diǎn):OushuDB是由Apache HAWQ創(chuàng)始團(tuán)隊(duì)基于HAWQ打造的新一代數(shù)據(jù)倉庫。該產(chǎn)品采用了存儲(chǔ)與計(jì)算分離技術(shù)架構(gòu),具有彈性,支持混合工作負(fù)載和高擴(kuò)展性等優(yōu)點(diǎn)。遵循ANSISQL標(biāo)準(zhǔn),兼容Or acl e,Gr eenpl um Dat abase和Post gr e SQL,提供PB級(jí)數(shù)據(jù)交互式查詢能力,提供對(duì)主要BI工具的描述性分析和AI支持。Oushu DB已在金融、電信、制造、醫(yī)療和互聯(lián)網(wǎng)等行業(yè)得到廣泛的部署和應(yīng)用。
應(yīng)用解讀:隨著“金稅工程”的不斷深入,稅務(wù)數(shù)據(jù)資源的種類不斷豐富,數(shù)據(jù)量快速增長,特別是近年來飛速增長的電子票據(jù)、視頻、網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù),已經(jīng)超出了目前的處理能力。
如何采集、存儲(chǔ)和利用龐大的涉稅數(shù)據(jù),從海量數(shù)據(jù)中挖掘有價(jià)值的信息,已然成為稅收信息化面臨的重大課題。對(duì)復(fù)雜類型的數(shù)據(jù)管理和分析能力是新型稅務(wù)大數(shù)據(jù)平臺(tái)的重點(diǎn)要求。新一代數(shù)據(jù)倉庫Oushu DB完全具備復(fù)雜類型數(shù)據(jù)的快速處理和分析能力。
應(yīng)用價(jià)值:稅收大數(shù)據(jù)平臺(tái)包括五大板塊:一是數(shù)據(jù)湖,提供數(shù)據(jù)的智能采集和集中存儲(chǔ);二是數(shù)據(jù)工廠,負(fù)責(zé)數(shù)據(jù)的加工清洗和溯源管理;三是應(yīng)用廣場,實(shí)現(xiàn)數(shù)據(jù)應(yīng)用各系統(tǒng)的單點(diǎn)登錄集成;四是數(shù)據(jù)超市,呈現(xiàn)多樣化數(shù)據(jù)圖標(biāo)指標(biāo)和可定制的自助式數(shù)據(jù)分析服務(wù);五是社區(qū)門戶,打造數(shù)據(jù)需求互助和成果交流分享的社區(qū)平臺(tái)。