趙艷秋
云和人工智能等新技術(shù)為大數(shù)據(jù)應(yīng)用帶來(lái)變革。
“大數(shù)據(jù)不是一個(gè)新話題, 一些概念20多年前就有,比如數(shù)據(jù)挖掘、BI(商業(yè)智能)、BA(商業(yè)分析)等。之所以最近更火了,是因?yàn)樵啤!爆F(xiàn)任AWS首席云計(jì)算企業(yè)顧問(wèn)張俠博士說(shuō),他十幾年前就撰寫(xiě)過(guò)大數(shù)據(jù)的文章?!霸萍葞椭a(chǎn)生、收集、存儲(chǔ)更多數(shù)據(jù),又幫助提供多樣的數(shù)據(jù)分析處理方法手段。如今人工智能的興起,能把數(shù)據(jù)分析做得更好?!?/p>
云確實(shí)為大數(shù)據(jù)應(yīng)用帶來(lái)變革。
一家在亞馬遜AWS上提供大數(shù)據(jù)分析服務(wù)的企業(yè),此前去投標(biāo)一個(gè)客戶的大數(shù)據(jù)分析項(xiàng)目,同時(shí)參與的有傳統(tǒng)大數(shù)據(jù)分析公司。招標(biāo)方在傳統(tǒng)模式和云服務(wù)中各選了一家供應(yīng)商,并行開(kāi)展,來(lái)對(duì)比一下效果。一個(gè)半月后,這家云服務(wù)企業(yè)已經(jīng)按照客戶要求,把建模、分析和交付全部做完了。而那家非云廠商,為之購(gòu)買的服務(wù)器還沒(méi)有到貨。
“這就是云服務(wù)帶來(lái)的變革?!睆垈b借此來(lái)解釋。
不僅如此,云服務(wù)還在產(chǎn)品和服務(wù)選型中帶來(lái)另一個(gè)差異——讓企業(yè)選型過(guò)程變得簡(jiǎn)單便捷。
“很多廠商都會(huì)對(duì)你說(shuō),我有這個(gè)功能,我有那個(gè)功能。我建議你招呼一聲,你想做什么事情,會(huì)有很多供應(yīng)商來(lái)給你提供方案。使用云上的工具和服務(wù),你馬上就能開(kāi)始實(shí)驗(yàn),也能很快了解這些工具的真實(shí)深度和廣度。”雖然用戶也要在學(xué)習(xí)和了解上花費(fèi)一定時(shí)間,但相對(duì)傳統(tǒng)模式要簡(jiǎn)化透明得多。
頻譜的一端
“企業(yè)應(yīng)用大數(shù)據(jù)云服務(wù)的狀況就像一個(gè)‘頻譜。”張俠說(shuō)。從頻譜的這一端,是完全沒(méi)有使用、將數(shù)據(jù)資源白白浪費(fèi)的企業(yè);而頻譜的另一端,是對(duì)大數(shù)據(jù)利用得非常好,甚至商業(yè)模式就建立在大數(shù)據(jù)基礎(chǔ)之上的企業(yè)。
而一些比較極致的客戶,甚至自己在云計(jì)算平臺(tái)上創(chuàng)新大數(shù)據(jù)的工具和服務(wù)。Netflix是在亞馬遜云上提供互聯(lián)網(wǎng)視頻流的服務(wù)商。“很多亞馬遜云上的大數(shù)據(jù)工具最初是Netflix發(fā)展提供的,現(xiàn)在被大家廣泛采用”。
Netflix很樂(lè)于分享。在國(guó)際大數(shù)據(jù)會(huì)議上,人們甚至?xí)?jīng)常見(jiàn)到Netflix工程師的身影。“他們非常自信,為什么呢?因?yàn)楫?dāng)你學(xué)會(huì)這些時(shí),他們已經(jīng)開(kāi)始做更先進(jìn)更高級(jí)的事情了?!?/p>
先進(jìn)客戶在云上的大數(shù)據(jù)創(chuàng)新腳步很快。
全新的大數(shù)據(jù)架構(gòu)
亞馬遜云為大數(shù)據(jù)提供全套產(chǎn)品和服務(wù),覆蓋從數(shù)據(jù)收集、存儲(chǔ)、處理到使用/可視化的全流程。
去年,在其“Re:Invent”年度大會(huì)上,亞馬遜闡述了基于云全新的大數(shù)據(jù)架構(gòu),分為十大步驟,推出相關(guān)的部分服務(wù)?!拔覀冋谘芯吭鯓犹峁└娴墓ぞ摺?duì)于大數(shù)據(jù),我們正在持續(xù)努力?!睆垈b說(shuō)。
張俠特別強(qiáng)調(diào),大數(shù)據(jù)整體有兩個(gè)新特點(diǎn):一是對(duì)實(shí)時(shí)數(shù)據(jù)的分析,一是利用現(xiàn)在和歷史數(shù)據(jù)進(jìn)行未來(lái)的預(yù)測(cè),這都是更高的要求。
針對(duì)這樣的新趨勢(shì),亞馬遜也正在提供一些創(chuàng)新服務(wù)。其一是Athena,它可以直接在S3上做SQL查詢?!癝3本身不是一個(gè)結(jié)構(gòu)化數(shù)據(jù)庫(kù),它存儲(chǔ)的可能是視頻、mp3、 Word文檔和Excel表格。現(xiàn)在,有了Athena,可以馬上使用SQL進(jìn)行查詢,在以前沒(méi)想過(guò)的維度上實(shí)時(shí)查詢”。
另一個(gè)是數(shù)據(jù)湖(Data Lake)服務(wù)。在傳統(tǒng)模式下,數(shù)據(jù)收集上來(lái)要逐漸放到一個(gè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)里,這要對(duì)數(shù)據(jù)的結(jié)構(gòu)、特征和顆粒度都很清楚。但現(xiàn)在很多實(shí)時(shí)數(shù)據(jù)不斷涌來(lái),存儲(chǔ)在S3上,通過(guò)Athena直接查詢,再放到Redshift數(shù)據(jù)倉(cāng)庫(kù)中。“這個(gè)整體就是數(shù)據(jù)湖概念。它的目的是對(duì)實(shí)時(shí)數(shù)據(jù)能先進(jìn)行一個(gè)快速分析,幫助快速做出一些決策”。
上個(gè)月在舊金山AWS宣布推出Redshift Spectrum,這是AWS的Redshift托管數(shù)據(jù)倉(cāng)庫(kù)服務(wù)的延伸版,能夠直接查詢駐留AWS S3存儲(chǔ)服務(wù)里面的數(shù)據(jù)。亞馬遜首席技術(shù)官沃納·沃格爾斯(Werner Vogels)在發(fā)布時(shí)舉了一個(gè)例子:使用Apache Hive開(kāi)源數(shù)據(jù)查詢軟件對(duì)艾字節(jié)(EB)數(shù)據(jù)執(zhí)行查詢。這項(xiàng)任務(wù)需要五年的時(shí)間和1000個(gè)節(jié)點(diǎn)――也就是說(shuō),成本相當(dāng)高昂。沃格爾斯表示,但是借助Redshift Spectrum,只要花155秒和區(qū)區(qū)幾百美元。
還有兩個(gè)創(chuàng)新服務(wù),一個(gè)是Batch,是對(duì)數(shù)據(jù)進(jìn)行批處理ETL的服務(wù)。另一個(gè)是Glue,這個(gè)詞是英文“膠水”,意思是把數(shù)據(jù)流程、數(shù)據(jù)轉(zhuǎn)化更好地串在一起。與此同時(shí),亞馬遜云也針對(duì)人工智能(AI)推出一些工具和服務(wù)。
AWS提供的AI服務(wù)
在亞馬遜,目前有上千員工致力于人工智能,涉及發(fā)現(xiàn)與搜索、物流配送、發(fā)現(xiàn)現(xiàn)有產(chǎn)品、定義新產(chǎn)品類型以及將機(jī)器學(xué)習(xí)引入更多領(lǐng)域。
MXNet是亞馬遜選擇的深度學(xué)習(xí)框架,已納入Apache孵化項(xiàng)目,也與AWS集成整合,進(jìn)行了優(yōu)化。
亞馬遜云推出了3種人工智能服務(wù)——Polly、Rekognition和Lex。Polly做文本語(yǔ)音轉(zhuǎn)換——看見(jiàn)一段文字就能念出來(lái)。Rekognition做圖像識(shí)別和分析。Lex做自然語(yǔ)言理解和自動(dòng)語(yǔ)音識(shí)別?!拔覀儼堰@3種服務(wù)軟件開(kāi)發(fā)包,任何人都能直接調(diào)用,目前很火?!睆垈b說(shuō)。
CNBC財(cái)經(jīng)新聞臺(tái)應(yīng)用了Lex,如果用戶現(xiàn)在說(shuō)“請(qǐng)告訴我今天的market update”,CNBC馬上會(huì)告訴你今天道瓊斯、納斯達(dá)克的表現(xiàn)。福特汽車集成了Lex,甚至高通芯片也集成了Lex,可以想象,未來(lái)各種設(shè)備應(yīng)用語(yǔ)音服務(wù)的多樣化場(chǎng)景。
利用亞馬遜云上的AI技術(shù),Howard Hughes公司預(yù)測(cè)高檔房地產(chǎn)交易,F(xiàn)raud.net檢測(cè)在線付款欺詐,Pinterest開(kāi)展圖像識(shí)別搜索,F(xiàn)INRA進(jìn)行異常檢測(cè)、序列匹配、回歸分析和網(wǎng)絡(luò)分析,輝瑞制藥開(kāi)展藥物發(fā)現(xiàn)。
張俠認(rèn)為要用好大數(shù)據(jù)和人工智能,業(yè)界需要更多的數(shù)據(jù)科學(xué)家——“數(shù)據(jù)科學(xué)家要數(shù)理方法、計(jì)算編程和行業(yè)知識(shí)三者兼而有之”。
他強(qiáng)調(diào)了行業(yè)和社會(huì)知識(shí)。“大數(shù)據(jù)真正的意義,是從數(shù)據(jù)中挖掘出價(jià)值,進(jìn)而提供洞察力,為企業(yè)創(chuàng)造財(cái)富”。為此,當(dāng)人們使用大數(shù)據(jù)來(lái)時(shí),“他不僅要懂得數(shù)理和編程,還要了解其他相關(guān)的知識(shí)。行業(yè)和社會(huì)知識(shí)讓你知道該從什么角度去看數(shù)據(jù),進(jìn)而把數(shù)據(jù)價(jià)值體現(xiàn)出來(lái)。如果想成為一個(gè)好的數(shù)據(jù)科學(xué)家,應(yīng)該在這三個(gè)維度上去琢磨,這會(huì)讓你更能成功”。