戴俊梅 陳龍
摘要:據(jù)IDC報告顯示我國已進入大數(shù)據(jù)時代。眾廠商各類服務系統(tǒng)中傳統(tǒng)的數(shù)據(jù)處理逐漸演變成獨立的計算業(yè)務,從而為社會各界提供服務。但企業(yè)自行建造大數(shù)據(jù)平臺門要求高,諸如資金、場地、人員、技術(shù)等。有幸,阿里云平臺提供了一個開放、兼容的大數(shù)據(jù)生態(tài)平臺體系,為中、小、微企業(yè)對大數(shù)據(jù)計算的需求提供了堅實后盾。
關(guān)鍵詞:大數(shù)據(jù);中小微企業(yè);開放的計算平臺;集群;在線計算;兼容;優(yōu)勢
中圖分類號:G642 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2020)34-0217-02
Abstract: According to the IDC report, China has entered the era of big data. The traditional data processing in various service systems which made by various manufacturers has gradually evolved into an independent business which supplys calculation. However, companies will be encounter with huge difficulties when building own big data platform. luckly, ?Alibaba Cloud platform can support computing capability of big data compatibly and sharing.these services can satisfy the desire of SME enterprises on big data processing.
Keywords:big data;SME enterprises;opening cloud platform;cluster;OLTP; compatibility;advantage
1 大數(shù)據(jù)基本背景
2018年IDC發(fā)布的數(shù)字研究報告(Digital Universe)顯示,我們所產(chǎn)生的數(shù)據(jù)量將超過40ZB(澤字節(jié))。隨著政治、經(jīng)濟、科技、文化的發(fā)展,中國以進入大數(shù)據(jù)時代。企業(yè)期待快速向社會推廣業(yè)務,隨這各類終端的普及企業(yè)數(shù)據(jù)急速膨脹,同時企業(yè)也期待加速數(shù)據(jù)分析和挖掘過程,并由報表展現(xiàn)為主到強調(diào)數(shù)據(jù)洞察轉(zhuǎn)型,讓數(shù)據(jù)直接快速產(chǎn)生價值(Value)。但隨著數(shù)據(jù)幾何倍數(shù)的增長,查詢或計算的數(shù)據(jù)量過大,達到數(shù)千萬甚至數(shù)十億條,或待進行的計算非常復雜的情況下,關(guān)系數(shù)據(jù)庫呈現(xiàn)出力不從心的趨勢。企業(yè)為了存儲大容量數(shù)據(jù),也迫不得已需要投入高額的硬件成本。眾多企業(yè)遇到了大數(shù)據(jù)處理的瓶頸。
2 阿里云平臺接入解決方案
大數(shù)據(jù)系統(tǒng)的建設(shè)各環(huán)節(jié)必不可少,雖然投入巨大,但對于任何中小企業(yè)來說并非沒有建設(shè)的可能性。近年來,隨著計算的發(fā)展,云服務器運行商的助力,涌現(xiàn)出眾多云服務運硬商,諸如、阿里云、華為云。依托于云服務平臺,各企業(yè)便能具備大數(shù)據(jù)信息系統(tǒng)的建設(shè)的條件和可能性。企業(yè)能做到以最小的投入,圍繞自企業(yè)業(yè)務為核心,建設(shè)大數(shù)據(jù)系統(tǒng),集中精力優(yōu)化企業(yè),提高面向市場的服務水平。
2.1 阿里云體系結(jié)構(gòu)
阿里云平臺是一個兼容、開放的生態(tài)平臺,主要內(nèi)置四種服務平臺。OSS平臺,針對海量多媒體數(shù)據(jù)的存儲與計算 ;MaxCompute平臺,是針對離線式歷史海量數(shù)據(jù)的存儲計算;ADS平臺針對實時在線式海量數(shù)據(jù)的查詢與計算;Hriber postgres集群平臺,針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫的存儲與計算。
對象存儲服務,英文簡稱 OSS。是阿里提供的海量、低成本、高安全、可靠性的云存儲服務。在任何時空、任何app中,通過阿里API,可實行數(shù)據(jù)上傳及下載。使用者可通過阿里Web服務完成數(shù)據(jù)管理。OSS支持任意類型文件,能滿足企、事業(yè)單位、開發(fā)者使用需求。按實際容量付費,無需關(guān)注運維細節(jié)及成本,使使用者專注自身核心業(yè)務運作。
隨著各種終端日益增多,數(shù)據(jù)規(guī)??焖僭鲩L至PB級。使用單機服務器處理大數(shù)據(jù)已暴露出能力不足現(xiàn)象,數(shù)據(jù)分析者常采用分布式集群服務器對大數(shù)據(jù)進行計算。但分布式的計算模型對數(shù)據(jù)分析人員提出了較高的要求,不易維護,數(shù)據(jù)分析人員不僅需要了解業(yè)務需求,同時還需要熟悉底層計算模型,增加了各領(lǐng)域中業(yè)務數(shù)據(jù)分析的難度。MaxCompute計算服務平臺,主要提供批量結(jié)構(gòu)化數(shù)據(jù)的存儲服務、計算服務、業(yè)務數(shù)據(jù)導入服務、分布式計算模型服務,可以針對海量數(shù)據(jù)倉庫快速、深度分析,有效提取高價值潛在信息,有效降低使用者實現(xiàn)成本,并保障數(shù)據(jù)的存儲安全性。
ADS服務品臺的主要功能是,在TB、PB級結(jié)構(gòu)化海量數(shù)據(jù)環(huán)境中,提供毫秒級明細查詢、關(guān)聯(lián)查詢、統(tǒng)計計算。對于企業(yè)業(yè)務系統(tǒng),支持國際標準化連接規(guī)范。連接協(xié)議包括MySQL 5.1/5.5/5.6系列連接協(xié)議。如市面主流連接協(xié)議:MySQL 5.1.x jdbc driver、MySQL 5.3.x odbc connector(driver)、MySQL 5.1.x/5.5.x/5.6.x客戶端、java、python、C/C++、PHP、Apache Tomcat、JBoss。ADS平臺由四個部分組成,分別是底層依賴層、計算集群層、控制集群層、外圍模塊層。
2.2 OSS服務開發(fā)
OSS服務,提供兩種服務性開發(fā)方法,基于http請求的獲取服務的開發(fā)方法,俗稱http api調(diào)用方式,另一種是基于sdk開發(fā)包的程序模塊開發(fā)方式,俗稱二次開發(fā)代碼接口,兩種接口各有優(yōu)勢。http aip 適用于任意支持http協(xié)議的運行平臺,無開發(fā)平臺系統(tǒng)。二次開發(fā)sdk包方式,開發(fā)接口更加豐富,有助于企業(yè)高效、穩(wěn)定擴展系統(tǒng)功能,支持目前市面主流開發(fā)語言:Java SDK、Python SDK、Android SDK、iOS SDK、C SDK。
在使用OSS開發(fā)前,需要創(chuàng)建訪問密鑰AccessKey(AK)相當于登錄密碼。AccessKey用于程序方式調(diào)用云服務API,而登錄密碼用于登錄控制臺。使用AccessKey構(gòu)造一個API請求(或者使用云服務SDK)來操作資源。AccessKey包括AccessKeyId用于標識用戶。AccessKeySecret是用來驗證用戶的密鑰。AccessKeySecret必須保密。http api方式開發(fā)舉例:GetService (ListBuckets) 對于服務地址作Get請求可以返回請求者擁有的所有Bucket,其中“/”表示根目錄。sdk二次開發(fā)接口的主要使用方式:
2.2.1 ODPS平臺服務使用開發(fā)
使用odps sdk前 需要開通阿里云認證賬號,獲得阿里云用戶的身份標識accessId及認證密鑰accessKey,這是MaxCompute初始化基礎(chǔ)。Odps sdk開發(fā)包,支持主流java、python、C/C++開發(fā)語句,包括如下核心模塊:
主要實體、處理動作對象介紹,Odps實體,主要是申請、獲得大數(shù)據(jù)計算資源。
Projects,是odps平臺中,項目空間的集合,由許多具體業(yè)務庫組成,可以通過項目url和項目獲得:
SQLTask用于運行、處理SQL任務。運行結(jié)果以Instance 實例,通過Instance獲取SQL的運行狀態(tài)及運行結(jié)果。
2.2.2 ads平臺服務使用開發(fā)
ads平臺的使用類似于普通關(guān)系數(shù)據(jù)庫,具有DDL語言、DML語言。DDL用于創(chuàng)建、配置數(shù)據(jù)庫及表。但具體語法與普通SQL不同,比如:
其中db_name:設(shè)置數(shù)據(jù)庫名稱,tablegroup_name為表組名稱。options部分:minRedundancy表示該表組的備份副本數(shù),默認為2。executeTimeout表示該表組的全局Query超時時間,默認為30000,單位毫秒。
根據(jù)表的數(shù)據(jù)更新方式不同,分析型數(shù)據(jù)庫的表根據(jù)updateType分為批量更新表(僅能夠離線批量更新數(shù)據(jù))和實時更新表(能夠通過insert/delete實時更新數(shù)據(jù)),用updateType以區(qū)分,如果updateType選項不填則默認為批量更新表。
分區(qū)表設(shè)置,目前分析型數(shù)據(jù)庫支持最多兩級分區(qū),并且一級分區(qū)僅支持HASH分區(qū),二級分區(qū)僅支持LIST分區(qū)。HASH分區(qū)是一種動態(tài)分區(qū)值類型,即根據(jù)實際數(shù)據(jù)中的某一列的內(nèi)容進行分區(qū)。所以在語法上,一級HASH分區(qū)的用法是:PARTITION BY HASH KEY(col1) PARTITION NUM 50。
2.3 基于阿里云平臺企業(yè)業(yè)務邏輯的架構(gòu)
企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng),如圖片、音頻、視頻處理系統(tǒng),特別適用基于OSS存儲平臺架構(gòu)方案。各種終端設(shè)備、Web網(wǎng)站程序、移動應用數(shù)據(jù),通過數(shù)據(jù)流方式向OSS平臺寫入數(shù)據(jù)。OSS平臺具備帶寬管理功能,因此可以實現(xiàn)超低延時的數(shù)據(jù)直接下載。OSS也可與阿里云其他服務平臺聯(lián)動,為多媒體數(shù)據(jù)的服務提供最佳體驗。
3 結(jié)束語
阿里云平臺可以快速接入企業(yè)大數(shù)據(jù),有利于企業(yè)向市場提供高質(zhì)量數(shù)據(jù)服務。阿里云服務在價格、服務方便比較合理,技術(shù)服務環(huán)節(jié)能提供有力保障,穩(wěn)定、安全、高效且節(jié)約成本。
參考文獻:
[1] 阿里云.專有云Enterprise版分析型數(shù)據(jù)庫(ADS).阿里公司內(nèi)部技術(shù)白皮書,2017.
[2] 陳敏,張東.大數(shù)據(jù)整體解決方案及關(guān)鍵技術(shù)探索,華中科技大學出版社,2015.
[3] 劉鑫. MySQL和PostgreSQL的對比選擇[J]. 沈陽工程學院學報(自然科學版), 2011.
[4] 周靜,譚亮.基于Hadoop的大數(shù)據(jù)平臺構(gòu)建[M]. 西南交通大學出版社,2018.
【通聯(lián)編輯:王力】