盧億雷
精碩科技(北京)股份有限公司,北京 100192
隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,越來越多的企業(yè)采用了開放架構(gòu)和開源軟件。企業(yè)利用大數(shù)據(jù)技術(shù)及其各類應(yīng)用組件,以自建團(tuán)隊(duì)的方式進(jìn)行信息化建設(shè)非常普遍。筆者所在團(tuán)隊(duì)在整個(gè)數(shù)據(jù)平臺(tái)實(shí)施過程中,嘗試并使用了大量最新的業(yè)界開源技術(shù),并自行研發(fā)了數(shù)據(jù)治理、數(shù)據(jù)生命周期管理、多租戶使用和實(shí)時(shí)監(jiān)控以及針對客戶行業(yè)本身的自然語言處理算法及圖像識(shí)別、深度學(xué)習(xí)算法,提供廣告監(jiān)控、輿情分析、人群畫像等多方面的技術(shù)支持,每天處理的數(shù)據(jù)包含廣告數(shù)據(jù)、輿情數(shù)據(jù)、第三方數(shù)據(jù)等多樣化且數(shù)量較大的數(shù)據(jù)。為了保證公司多方數(shù)據(jù)源的對接和融合,滿足公司多業(yè)務(wù)、多產(chǎn)品線的需求,如何利用先進(jìn)的大數(shù)據(jù)技術(shù)把每天上百億的數(shù)據(jù)進(jìn)行整合和計(jì)算是現(xiàn)在面臨的主要挑戰(zhàn)。
針對大數(shù)據(jù)整合和計(jì)算問題,國內(nèi)外有很多同類型的產(chǎn)品平臺(tái),基本可以分為兩大類:一類是購買的商業(yè)平臺(tái);一類是基于開源軟件搭建并附加自己的產(chǎn)品邏輯構(gòu)建的平臺(tái)。這些產(chǎn)品平臺(tái)存在以下幾方面的問題。
(1)系統(tǒng)資源方面
購買的平臺(tái)一般成本較高,與公司規(guī)模成正比。開源軟件也并不是完全免費(fèi)的,其可能涉及意料之外的實(shí)施、管理和支持成本,也可能由于缺乏人員維護(hù)而陷入停頓和死亡狀態(tài)。另外,開源軟件也要與自己平臺(tái)上的其他軟件兼容。
(2)功能特點(diǎn)方面
購買的平臺(tái)一般功能較強(qiáng),能滿足當(dāng)時(shí)的業(yè)務(wù)要求。但是由于是商業(yè)產(chǎn)品,如果接下來業(yè)務(wù)發(fā)展變化,原來的功能不滿足需求,需要二次購買。開源軟件一般也可以達(dá)到要求,但是需要組合使用多種軟件。
(3)技術(shù)指標(biāo)方面
購買的軟件技術(shù)指標(biāo)固定,系統(tǒng)一般較穩(wěn)定,但也僅限于中規(guī)中矩,不適用于多樣的數(shù)據(jù)營銷業(yè)務(wù)。開源軟件開源產(chǎn)品質(zhì)量差別較大,需要在技術(shù)選型時(shí)就做好判斷,一般需要有專業(yè)的技術(shù)人員支撐其穩(wěn)定性。對于數(shù)據(jù)營銷行業(yè)來說,沒有現(xiàn)成的正好滿足需求的產(chǎn)品。
(4)擴(kuò)展和維護(hù)方面
商業(yè)購買的軟件一般由廠商專門的維護(hù)人員負(fù)責(zé)維護(hù),但是維護(hù)人員一般不負(fù)責(zé)擴(kuò)展。而且,有的維護(hù)是另外收取費(fèi)用的。雖然開源社區(qū)的支持能解決一些共通的問題,但周期相對較長,因此,開源軟件基本上靠使用者自身維護(hù)。
(5)市場反饋方面
商業(yè)購買的軟件增加了公司成本,因此相應(yīng)地,公司的產(chǎn)品價(jià)格會(huì)較高,而且對市場需求的變化反饋會(huì)較慢。開源軟件雖然成本低,可以隨意切換技術(shù)架構(gòu),相對靈活,但是每一次技術(shù)的革新都是對整個(gè)系統(tǒng)的一次考驗(yàn)。
針對現(xiàn)有技術(shù)平臺(tái)的不足,筆者團(tuán)隊(duì)提出了分布式混合異構(gòu)大數(shù)據(jù)系統(tǒng)平臺(tái),對開源軟件進(jìn)行了改造和整合。平臺(tái)利用先進(jìn)的大數(shù)據(jù)技術(shù)幫助品牌指導(dǎo)營銷策略、預(yù)先測算、量化營銷效果,實(shí)現(xiàn)每月處理超過2 000億筆數(shù)據(jù)、迭代超過100種數(shù)據(jù)模型的目標(biāo)。該平臺(tái)具有以下特點(diǎn)。
● 基本沒有買入成本,雖然需要投入研發(fā)成本,但這部分投入可以轉(zhuǎn)化為自主知識(shí)產(chǎn)權(quán)。
● 高度整合了開源軟件和公司的業(yè)務(wù),甚至可以形成新的產(chǎn)品作為收益的來源。由于對開源軟件做了相應(yīng)的修改,相比簡單使用軟件來說更加合理和高效,目前國內(nèi)像百度、騰訊、阿里巴巴這樣的大型互聯(lián)網(wǎng)公司都采用這樣的方式。
● 由于整個(gè)系統(tǒng)平臺(tái)是公司技術(shù)人員做出來的,因此公司了解系統(tǒng)的每個(gè)細(xì)節(jié),可以按業(yè)務(wù)要求做出各種調(diào)整,可謂量身定做。
● 平臺(tái)的建設(shè)和擴(kuò)展維護(hù)是貫穿系統(tǒng)整個(gè)生命周期的。一直隨著公司業(yè)務(wù)的變化而進(jìn)化,并且可以選擇性地吸收開源社區(qū)的各種改進(jìn)。該平臺(tái)的數(shù)據(jù)處理流程如圖1所示。
由于針對業(yè)務(wù)做了系統(tǒng)構(gòu)建,該平臺(tái)可以充分利用所有資源,性價(jià)比較高,而且能夠快速地反饋市場需求。
圖1 數(shù)據(jù)處理流程
平臺(tái)整體架構(gòu)如圖2所示。該平臺(tái)針對不同行業(yè)領(lǐng)域的信息進(jìn)行爬取,可以支撐電商、微信、微博、新聞、論壇、問答等多種渠道每天數(shù)十億的互聯(lián)網(wǎng)頁面信息的爬取,是大數(shù)據(jù)平臺(tái)和業(yè)務(wù)需求中不可或缺的文本型半結(jié)構(gòu)化數(shù)據(jù)。圖2中,Blue Air是反作弊系統(tǒng),Zing是為數(shù)據(jù)科學(xué)家提供的支持多種語言的計(jì)算平臺(tái)。
在多維度、多結(jié)構(gòu)的數(shù)據(jù)源和大數(shù)據(jù)平臺(tái)強(qiáng)大的數(shù)據(jù)處理能力的支持下,系統(tǒng)中人工智能(artificial intelligence,AI)和商業(yè)智能(business intelligence,BI)的經(jīng)驗(yàn)和模型發(fā)揮了極大作用,數(shù)據(jù)聚類算法、自然語言識(shí)別技術(shù)(neurolinguistic programming,NLP)、數(shù)據(jù)關(guān)聯(lián)分析、受眾畫像建模等技術(shù)得以快速發(fā)展,提升了公司的技術(shù)水準(zhǔn)和服務(wù)效率,也幫助客戶獲得了更好的營銷效果。
3.2.1 大數(shù)據(jù)存儲(chǔ)與管理技術(shù)
(1)分布式存儲(chǔ)技術(shù)
攻關(guān)元數(shù)據(jù)管理、系統(tǒng)彈性擴(kuò)展技術(shù)、存儲(chǔ)層級(jí)內(nèi)的優(yōu)化技術(shù)、應(yīng)用和負(fù)載的存儲(chǔ)優(yōu)化技術(shù),針對營銷活動(dòng)的各環(huán)節(jié),采用不同的方案,從最底層優(yōu)化存儲(chǔ),并為后續(xù)的計(jì)算優(yōu)化打下基礎(chǔ)。
(2)存儲(chǔ)方案
根據(jù)不同行業(yè)的特性,針對數(shù)據(jù)的管理、查詢以及分析的性能需求,數(shù)據(jù)規(guī)模和吞吐量的增長需求,主要采用關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、實(shí)時(shí)數(shù)據(jù)庫、列式數(shù)據(jù)庫等存儲(chǔ)方案。
3.2.2 數(shù)據(jù)可視化技術(shù)
傳統(tǒng)的數(shù)據(jù)可視化工具僅將數(shù)據(jù)進(jìn)行組合,通過不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)信息。采用可視化開發(fā)工具Spark、GraphX、Zeppelin、Matplotlib、recharts和moojnn等解決方案或技術(shù),保證營銷數(shù)據(jù)可視化應(yīng)用效果,能夠快速地收集分析數(shù)據(jù)并對數(shù)據(jù)信息進(jìn)行實(shí)時(shí)更新。數(shù)據(jù)可視化展現(xiàn)包括表格、圖表、圖形、示意圖、地圖和標(biāo)簽云圖,從而使用戶能夠創(chuàng)建簡單的儀表板或監(jiān)管信息圖表和可視化效果。
圖2 平臺(tái)整體架構(gòu)
通過最新的HTML5、React、Redux等前端技術(shù),最大化呈現(xiàn)豐富的數(shù)據(jù)內(nèi)容,使用響應(yīng)式設(shè)計(jì),可同時(shí)兼容平板電腦、智能手機(jī)和個(gè)人計(jì)算機(jī),實(shí)現(xiàn)隨時(shí)隨地的移動(dòng)監(jiān)管。
3.2.3 大數(shù)據(jù)分析與挖掘技術(shù)
采用統(tǒng)計(jì)分析技術(shù),把計(jì)算推向數(shù)據(jù)并且并行處理,使Hadoop獲得了強(qiáng)大的深度分析能力。經(jīng)過算法的并行化,突破原有的可處理數(shù)據(jù)的技術(shù)瓶頸,利用并行計(jì)算模式大幅度提高了工具的計(jì)算性能,同時(shí)賦予了系統(tǒng)技術(shù)深度分析的能力。
3.2.4 人工智能和商業(yè)智能技術(shù)
在人工智能方面,在NLP、圖像模式識(shí)別、跨設(shè)備多ID用戶識(shí)別等方向取得了可喜成果,并運(yùn)用在了社交情感分析、數(shù)據(jù)管理平臺(tái)(data management platform,DMP)和受眾分析等商業(yè)產(chǎn)品。可以在上百億條的數(shù)據(jù)上分析客戶關(guān)注的關(guān)鍵詞的社會(huì)反響,涵蓋新聞、論壇、微信和微博等公眾平臺(tái)。經(jīng)過歷史驗(yàn)證,情感分析的準(zhǔn)確度已經(jīng)可以達(dá)到70%以上,熱點(diǎn)事件發(fā)現(xiàn)時(shí)延在1 h以內(nèi),讓客戶可以第一時(shí)間知道自己產(chǎn)品的社會(huì)影響,同時(shí)也可以知道競爭產(chǎn)品的相關(guān)情況。
在圖像模式識(shí)別方面,采用了深度學(xué)習(xí)算法,筆者所在單位應(yīng)用于Snap監(jiān)播實(shí)錄的特定廣告識(shí)別技術(shù),使用自研的特征識(shí)別和匹配算法,部署在40多臺(tái)服務(wù)器的計(jì)算集群上,全天候不停歇地對已經(jīng)投放的廣告進(jìn)行識(shí)別,每天監(jiān)控的廣告數(shù)在5億次以上。不僅可以識(shí)別簡單的橫幅廣告,還可以對視頻廣告進(jìn)行有效的識(shí)別。這項(xiàng)技術(shù)的應(yīng)用,代替了以往占用了大量人力的“人肉廣告作弊識(shí)別”,為廣告代理公司和顧問團(tuán)大大降低了成本,而且監(jiān)控的范圍也比以前有了100倍以上的提升。隨著手機(jī)和各種移動(dòng)電子設(shè)備的普及,擁有兩部以上的手機(jī)或電腦和其他智能設(shè)備已經(jīng)變得相當(dāng)普遍,如果可以實(shí)現(xiàn)跨設(shè)備多ID用戶識(shí)別,無疑可以更好地幫助廣告主識(shí)別受眾。筆者團(tuán)隊(duì)充分利用多年數(shù)字營銷的經(jīng)驗(yàn),以超過200億條的廣告數(shù)據(jù)為基礎(chǔ),基于每秒400萬次并發(fā)查詢的高效key-value查詢系統(tǒng),研發(fā)了多ID識(shí)別算法,很好地實(shí)現(xiàn)了一人多機(jī)的識(shí)別。
在商業(yè)智能方面,主要致力于多維數(shù)據(jù)組合查詢、用戶自定義數(shù)據(jù)分析、基于“人—事件”的受眾人群分析等方向。具體來說,多維數(shù)據(jù)組合查詢主要應(yīng)用于廣告數(shù)據(jù)分析。筆者團(tuán)隊(duì)的大數(shù)據(jù)分析平臺(tái),每天分析100億條以上的廣告數(shù)據(jù),從50多個(gè)維度的各種組合來透視這些廣告數(shù)據(jù)的價(jià)值,每天早上5:00以前為所有廣告主提供準(zhǔn)確的報(bào)表。使用HTTP 2.0及WebSocket技術(shù),動(dòng)態(tài)平滑升級(jí),可以做到用戶無感知。數(shù)據(jù)查詢速度也在秒級(jí)完成。作為固定多維度查詢的補(bǔ)充,廣告系統(tǒng)還支持用戶自定義數(shù)據(jù)分析:通過提供一整套的可視化數(shù)據(jù)處理接口,用戶只需要在頁面上用鼠標(biāo)點(diǎn)幾下,就可以按自己熟悉的語言來定制特殊的數(shù)據(jù)處理邏輯。筆者團(tuán)隊(duì)提供近100個(gè)營銷數(shù)據(jù)維度作為原材料,用戶可以按時(shí)間、地域、廣告媒體、廣告位置、廣告創(chuàng)意等多個(gè)細(xì)分維度計(jì)算數(shù)據(jù)的相關(guān)性,計(jì)算數(shù)據(jù)分布和其他多種指標(biāo),1 TB數(shù)據(jù)的處理時(shí)延在10 s以內(nèi)。基于“人—事件”模型的受眾人群分析系統(tǒng),則按“以人為本”的使用方法提供全方位的支持。
本系統(tǒng)綜合了廣告產(chǎn)品線、社交產(chǎn)品線、調(diào)研產(chǎn)品線和數(shù)據(jù)交換產(chǎn)品線等多條產(chǎn)品線的所有數(shù)據(jù),以受眾為中心,把所有信息串聯(lián)起來,建立了一套基于廣告受眾數(shù)據(jù)的類Siri智能問答系統(tǒng),除了可以回答“這個(gè)ID在什么時(shí)間什么地方上過哪些網(wǎng)站”這類簡單問題,還能回答諸如“這個(gè)ID是什么性別”“這個(gè)ID大概什么年紀(jì)”“這個(gè)ID喜歡足球嗎”“這個(gè)ID家里有嬰幼兒嗎”等問題,結(jié)合上文提到的多ID識(shí)別,它還可以回答“這兩個(gè)ID是同一個(gè)人嗎”這樣的問題。這一系統(tǒng)已經(jīng)作為筆者團(tuán)隊(duì)的一項(xiàng)獨(dú)立對外業(yè)務(wù)開放。
3.2.5 數(shù)據(jù)質(zhì)量控制技術(shù)
從業(yè)務(wù)系統(tǒng)中獲取的數(shù)據(jù)首先進(jìn)入操作數(shù)據(jù)存儲(chǔ)(operational data store,ODS),抽取—轉(zhuǎn)換—加載(extracttransform-load,ETL)引擎根據(jù)元數(shù)據(jù)規(guī)范和業(yè)務(wù)規(guī)則對ODS數(shù)據(jù)進(jìn)行整合處理,正常數(shù)據(jù)進(jìn)入主題數(shù)據(jù)庫完成整合,異常數(shù)據(jù)進(jìn)入數(shù)據(jù)質(zhì)量管理系統(tǒng)進(jìn)行人工干預(yù)。數(shù)據(jù)質(zhì)量管理系統(tǒng)對異常數(shù)據(jù)進(jìn)行人工干預(yù),通過人工干預(yù)可處理的批量數(shù)據(jù)進(jìn)入臨時(shí)庫,由ETL根據(jù)新的規(guī)則進(jìn)行處理。通用的干預(yù)措施形成元數(shù)據(jù)規(guī)范,進(jìn)入元數(shù)據(jù)規(guī)范標(biāo)準(zhǔn);無法處理的數(shù)據(jù)暫存到臨時(shí)庫,通知業(yè)務(wù)單位處理。
筆者團(tuán)隊(duì)的廣告效果分析業(yè)務(wù)每天有百億以上的數(shù)據(jù)增量,需要同時(shí)提供“天”級(jí)別的準(zhǔn)確報(bào)表和秒級(jí)別的實(shí)時(shí)報(bào)表,并支持用戶自定義的各種維度的組合查詢。應(yīng)用了以上系統(tǒng)后,完美地支撐了廣告分析的全線業(yè)務(wù),真正做到了準(zhǔn)確又實(shí)時(shí)、靈活又高效。
在混合異構(gòu)大數(shù)據(jù)平臺(tái)上,以多種格式海量數(shù)據(jù)為支撐,運(yùn)用機(jī)器學(xué)習(xí)的方法,受眾標(biāo)簽計(jì)算得以高效運(yùn)行。其中綜合了用戶的行為數(shù)據(jù)、第三方的標(biāo)簽數(shù)據(jù)、多ID的打通、社交數(shù)據(jù)分析等在百億級(jí)數(shù)據(jù)集上的運(yùn)算,為各產(chǎn)品線提供穩(wěn)定可靠的服務(wù)。
依托于混合異構(gòu)大數(shù)據(jù)平臺(tái)的廣告投放系統(tǒng),可以對復(fù)雜多樣的投放要求提供100 ms以內(nèi)的快速響應(yīng),每一個(gè)需求的滿足都整合了最新的數(shù)據(jù)變化,而這個(gè)新數(shù)據(jù)的量級(jí)在每秒3萬次以上,正所謂“線上一秒鐘,線下十年功”,正是這個(gè)平臺(tái)的支撐,才使SmartServing 系統(tǒng)運(yùn)行如此輕快。
該應(yīng)用平臺(tái)部署之后,達(dá)到了非常理想的效果。
● 高并發(fā)數(shù)據(jù)采集服務(wù)端單個(gè)采集節(jié)點(diǎn)可以支持每秒12 000次的數(shù)據(jù)采集請求,并且支持分布式部署,從而支持全國范圍的營銷數(shù)據(jù)采集服務(wù)。滿足全國多機(jī)房實(shí)時(shí)數(shù)據(jù)收集匯總的管理平臺(tái)需求,數(shù)據(jù)匯總時(shí)延不超過3 min,兼顧備災(zāi)容錯(cuò),保證數(shù)據(jù)不錯(cuò)不漏。自動(dòng)識(shí)別服務(wù)器和數(shù)據(jù)結(jié)構(gòu)的差異,并自動(dòng)優(yōu)化配置。
● 針對數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)源多的業(yè)務(wù)特點(diǎn),采用消息隊(duì)列架構(gòu),為多種渠道的數(shù)據(jù)源對接提供了實(shí)時(shí)和穩(wěn)定的消息收發(fā)支撐平臺(tái),實(shí)現(xiàn)了系統(tǒng)間協(xié)作的零時(shí)延。
● 混合異構(gòu)大數(shù)據(jù)平臺(tái)還提供了交互式的數(shù)據(jù)分析平臺(tái),支持?jǐn)?shù)據(jù)建模團(tuán)隊(duì)使用R、SQL、Spark、Python等多種方式,進(jìn)行實(shí)時(shí)的交互式數(shù)據(jù)分析和圖表展示。數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師可以同時(shí)使用同一平臺(tái)處理上千億條的數(shù)據(jù)。
● 信息爬取系統(tǒng)可以支撐電商、微信、微博、新聞、論壇、問答等多種渠道每天數(shù)十億的互聯(lián)網(wǎng)頁面信息的爬取。
● 采集大量地理經(jīng)緯度和地理信息點(diǎn)(point of information,POI)信息。對于這些數(shù)據(jù),混合異構(gòu)大數(shù)據(jù)平臺(tái)會(huì)自動(dòng)進(jìn)行曲面幾何轉(zhuǎn)換,再進(jìn)行存儲(chǔ)利用。
● 利用多數(shù)據(jù)源的整合和復(fù)雜數(shù)據(jù)結(jié)構(gòu)的兼容,全方位地分析和整理多維度的數(shù)據(jù)、自動(dòng)化調(diào)度優(yōu)先級(jí)、智能調(diào)配計(jì)算資源,為業(yè)務(wù)決策提供有效支持。
● 計(jì)算任務(wù)瓶頸的輔助分析工具,為研發(fā)、測試、建模等團(tuán)隊(duì)提供代碼級(jí)的優(yōu)化建議。
● 利用頁面仿真錄屏系統(tǒng),可以對用戶瀏覽頁面乃至廣告的過程進(jìn)行模擬并錄屏,通過圖像識(shí)別及深度學(xué)習(xí),真實(shí)地還原頁面瀏覽、廣告播放的過程,也是重要的網(wǎng)頁采樣和信息留檔數(shù)據(jù)。
● 構(gòu)建了基于大數(shù)據(jù)的自動(dòng)分析和建模體系,并在數(shù)據(jù)入庫前的清洗階段引入了虛假數(shù)據(jù)過濾模型(反作弊技術(shù)),模型可以動(dòng)態(tài)自動(dòng)學(xué)習(xí)和更新識(shí)別模式庫,從而在第一時(shí)間發(fā)現(xiàn)異常數(shù)據(jù),并可以自動(dòng)向各相關(guān)業(yè)務(wù)系統(tǒng)發(fā)出異常預(yù)警。
混合異構(gòu)大數(shù)據(jù)平臺(tái)項(xiàng)目深度整合了多個(gè)開源大數(shù)據(jù)平臺(tái),并融入了自己的技術(shù)基因,真正把開源技術(shù)靈活運(yùn)用,一方面解決了公司在技術(shù)研發(fā)過程中遇到的問題,另一方面回饋開源,為大數(shù)據(jù)的綜合應(yīng)用方案提供了可行的案例。
本文介紹了混合異構(gòu)大數(shù)據(jù)平臺(tái)的關(guān)鍵技術(shù)與應(yīng)用。在平臺(tái)開發(fā)過程中,筆者總結(jié)了一些技術(shù)經(jīng)驗(yàn)和教訓(xùn),具體如下。
● 多個(gè)開源軟件整合時(shí),需注意不同軟件依賴的版本,從而提高開發(fā)效率,盡量少走彎路。
● 操作系統(tǒng)級(jí)別要盡量做到環(huán)境一致,比如Openfiles、HugePage等的配置,需要由運(yùn)維部門統(tǒng)一提供最優(yōu)的配置。
● 選擇開源系統(tǒng)時(shí),盡量根據(jù)最簡單、用戶最多、自身團(tuán)隊(duì)較熟悉所使用語言的原則選擇合適的開源系統(tǒng)。
● 開源軟件也可能存在錯(cuò)誤或不支持某些需求,必要時(shí)需根據(jù)自身需求更改源代碼。
● 需經(jīng)過多次迭代,方可搭建穩(wěn)定高效的數(shù)據(jù)平臺(tái)。
[1]DEAN J, GHEMAWAT S. MapReduce:simplified data processing on large clusters[C]//The 6th conference on Symposium on Opearting Systems Design& Implementation,December 6-8, 2004,San Francisco, USA. New York: ACM Press, 2004, 51(1): 10.
[2]CHANGF, DEAN J, GHEMAWAT S, et al.Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-26.
[3]POLYZOTIS N, ROY S, WHANG S, et al.Data management challenges in production machine learning[C]//ACM International Conference on Management of Data, May 14-19, 2017, Chicago, USA. New York:ACM Press, 2017: 1723-1726.
[4]VENKATARAMANS, YANG Z H, LIU D.SparkR: scaling R programs with Spark[C]//International Conference on Management of Data, June 26-July 1,2016, San Francisco, USA. New York:ACM Press, 2016: 1099-1104.
[5]LI H Y, GHODSI A,ZAHARIA M, et al.Tachyon: reliable, memory speed storage for cluster computing frameworks[C]//ACM Symposium on Cloud Computing,November 3-5, 2014, Seattle, USA. New York: ACM Press. 2014: 1-15.
[6]BAILISP, DAVIDSON A, FEKETE A,et al. Highly available transactions:virtues and limitations[J]. Proceedings of the VLDB Endowment, 2013, 7(3):181-192.
[7]SHUTE J, OANCEA M, ELLNER S, et al.F1: the fault-tolerant distributed RDBMS supporting Google's Ad business[C]//AcmSigmod International Conference on Management, May 20-24, 2012,Scottsdale, USA. New York: ACM Press,2012: 777-778.