王永
數據量在以前所未有的速度增長,從 TB 級暴增至 PB 級,甚至 EB 級。傳統的本地數據分析方法不具有充分的擴展能力,同時價格太貴,無法處理這樣大量的數據。企業(yè)需要從多個孤島提取所有的數據,然后將這些數據集中在數據湖,從而直接對這一數據進行分析和機器學習處理。
不過,在這樣一個數據“迸發(fā)”的趨勢下,企業(yè)挖掘數據價值的挑戰(zhàn)也愈發(fā)明顯:從結構化到半結構化再到非結構化數據的指數增長、復雜的使用場景和實時數據的快速決策能力。
“在此之前,一個數倉隔幾天跑一個報告是習以為常的,但是現在企業(yè)的整個業(yè)務和場景變化會驅動企業(yè)的決策能力加快,甚至很多決策會是分鐘級的,這就要求在一些實時流分析時給到決策?!眮嗰R遜云科技大中華區(qū)服務產品部總經理顧凡在接受筆者的采訪時表示,面對細分的應用場景,目前市面上單一、通用的數據解決方案在性能上會有所妥協,很難滿足客戶的真實需求,用戶亟需融合了易用、易擴展、高性能、專門構建、安全及智能等特性于一體的新一代數據管理架構。
2021年6月24日,亞馬遜云科技針對數據及數據分析等服務持續(xù)發(fā)力,推出引領大數據未來的“智能湖倉”架構,圍繞著“智能湖倉”,亞馬遜云科技提供的數據分析服務包括:底層上,從數據庫把數據注入到數據湖中的DMS,從弱網的環(huán)境把數據搬到數據湖中的Amazon Snowball,以及有實時的流數據服務Amazon Kinesis系列。
中間層,Amazon S3是核心數據湖的關鍵構成組件,數據進入到Amazon S3,在EB級以及在高可用、高擴展的情況下支撐結構化、半結構化、非結構化的數據,并在Amazon S3上也會有針對分析專門優(yōu)化過的存儲層。
上層是真正數據的處理和數據的消費層。在數據分析領域里針對不同的分析場景會有不一樣的分析引擎——Amazon Redshift、Amazon EMR、Amazon Athena等。同時除數據處理和分析的引擎之外,還有商業(yè)智能BI類的像Amazon QuickSight以及大量的機器學習類的服務。
“智能湖倉并不是一個產品,而是為解決客戶現實挑戰(zhàn)而生,為處理復雜場景而設計的架構?!痹陬櫡部磥?,亞馬遜云科技在數據分析整個產品設計的想法有三層方面的考量:首先,為云優(yōu)化。無論是Amazon Aurora還是Amazon Redshift,這些都是云原生的數據庫、數倉,其天然在彈性方面是沒有限制的,可以做到非常好的線性擴展。
其次,專門構建。數據分析場景越來越多元化,使用的人也會越來越多元化,所以,必須要去專門構建不一樣的分析引擎。
最后,完全托管。這個是貫穿于云計算始終不會變的原則,針對客戶業(yè)務無差別的繁重的工作都由亞馬遜云科技來做,而不需要去重復地做整個倉、湖的管理、構建、甚至是數據的無縫移動。
在智能湖倉這個概念里,有一個方面是反復被提到的——數據的無縫移動。
在客戶的業(yè)務場景中,數據移動大概分為三類:由外向內,數據入湖。例如,在Amazon Redshift數據倉庫做查詢,按照區(qū)域來劃分今年的銷售,查詢跑出結果之后,數據不會只呆在數倉里,會從數倉重新注入到數據湖中。因為機器學習的Amazon SageMaker直接就對接著數據湖,數據可以從數據湖再注入到Amazon SageMaker,Amazon SageMaker通過分區(qū)域產品銷售的分析數據去建立模型,即先由湖倉完成查詢,查詢的數據入湖,機器學習調用數據。
由內向外,數據出湖。當客戶用實時數據流的服務,將客戶在網站上的Web點擊流的數據注入到湖里面,這些數據已經在湖里面。
環(huán)湖移動。簡單來說是數據并不會只從外面往里進和從里面往外出,無論是數據庫、數據倉庫,還是不一樣的分析引擎,環(huán)湖有不一樣目的的專用數據存儲。
“亞馬遜云科技智能湖倉架構提出已經有幾年的時間,在2020的re:Invent上談到如何迭代這樣一個智能湖倉架構的時候,我們非常強調未來的整個數據做一個更好的支撐?!鳖櫡舱f到。
從亞馬遜云科技的角度來看,智能湖倉的架構必須要有一個快速構建可擴展的數據湖,即Amazon S3。圍繞著Amazon S3,客戶使用專門構建的這些數據分析的服務集合,例如,結構化數據的復雜查詢Amazon Redshift和Amazon Aurora交易型數據庫等,在湖、倉和專門構建的數據服務之間做好移動數據,包括 Amazon Glue和Amazon Glue Elastic view 等功能。以一種統一的方式管理湖里面數據的安全性、訪問控制和審計。最后,以低成本擴展系統,但同時不降低性能。
“構建一個數據湖要有專門構建的數據分析服務,要能做到數據、湖、倉和專門構建的數據服務的無縫數據移動,統一管理、低成本,這是我們所定義的亞馬遜云科技智能湖倉架構?!痹陬櫡部磥?,智能湖倉不僅僅是湖和倉的打通,更是湖、倉專門構建數據服務連接成一個整體。
亞馬遜云科技“智能湖倉”架構優(yōu)勢體現在五個方面:第一,靈活擴展、安全可靠。這個架構最重要的是Amazon S3數據湖的基礎組件,它擁有無與倫比的持久性是11個9。其可用性不僅可以跨3個可用區(qū)做數據復制,可擴展性甚至可以做到EB級。更重要的是,可以在數據湖高擴展性、高可用性的情況下,很好的控制成本。
第二,專門構建、極致性能。任何一個技術都會各有優(yōu)劣,所以并不存在一個技術,既能在功能、性能以及擴展性上做到一個產品打天下。
第三,數據融合、統一治理。未來的整個的智能湖倉架構里面,數據會在各個點之間移動,亞馬遜云科技把數據移動歸納為幾種方式:一種是傳統的ETL,提取轉換加載;一種是可視化數據準備。例如,Amazon SageMaker里面的Data Wrangler,可以快速從數據里面提取特征。
第四,敏捷分析、深度智能。談到數據永遠分不開三個話題:如何把數據基礎設施現代化,采用云上的云原生數據庫;如何從數據中真正產生價值;如何用機器學習更好地輔助決策,甚至是驅動決策。
因此,在智能湖倉的架構下,亞馬遜云科技首先集成就是Amazon SageMaker和湖倉的融合。然后是機器學習的再擴圈——不是只有數據科學家、機器學習的數據開發(fā)工程師在用機器學習,更要鼓勵今天的DBA、數據分析師都可以用機器學習。
第五,擁抱開源、開放共贏。無論Amazon EMR,還是Amazon Elasticsearch以及Amazon MSK,都是針對開源API的一種全面的支持和兼容。
值得一提的是,當前已經有數十萬的客戶在借助亞馬遜云科技全球服務構建數據湖,并將數據分析和機器學習等工作負載搭載其中。
“以客戶為先,讓亞馬遜云科技推動數據架構不斷演進的同時,自身也在通過客戶的反饋,汲取創(chuàng)新的源動力——亞馬遜云科技90%的創(chuàng)新來自于直接聽取客戶的建議。未來,亞馬遜云科技還將不斷通過技術創(chuàng)新和實踐創(chuàng)新,加速其在中國區(qū)的業(yè)務布局的同時,幫助客戶輕松應對海量業(yè)務數據,充分挖掘數據價值?!鳖櫡踩缡钦f。