陳純
浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310058
聚焦
流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)、平臺(tái)及應(yīng)用
陳純
浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310058
大數(shù)據(jù)處理系統(tǒng)根據(jù)其時(shí)效性可分為批式大數(shù)據(jù)和流式大數(shù)據(jù)兩類。上述兩類系統(tǒng)均無法滿足“事中”感知查詢分析處理模式的需求。為此,從分析大數(shù)據(jù)應(yīng)用場景入手,提出了“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)和平臺(tái),在完整大數(shù)據(jù)集上實(shí)現(xiàn)了低遲滯、高實(shí)時(shí)的即席查詢分析。目前基于“流立方”平臺(tái)開發(fā)的業(yè)務(wù)系統(tǒng)已應(yīng)用到金融風(fēng)控反欺詐、機(jī)器防御等領(lǐng)域,具有廣闊的應(yīng)用前景。
streaming big data, streaming processing, incremental computation, time series processing
大數(shù)據(jù)技術(shù)的廣泛應(yīng)用使其成為引領(lǐng)眾多行業(yè)技術(shù)進(jìn)步、促進(jìn)效益增長的關(guān)鍵支撐技術(shù)。根據(jù)數(shù)據(jù)處理的時(shí)效性,大數(shù)據(jù)處理系統(tǒng)可分為批式(batch)大數(shù)據(jù)和流式(streaming)大數(shù)據(jù)①https://www. infoq.com/ articles/streamprocessinghadoop/兩類。其中,批式大數(shù)據(jù)又被稱為歷史大數(shù)據(jù),流式大數(shù)據(jù)又被稱為實(shí)時(shí)大數(shù)據(jù)。
目前主流的大數(shù)據(jù)處理技術(shù)體系主要包括Hadoop[1]及其衍生系統(tǒng)。Hadoop技術(shù)體系實(shí)現(xiàn)并優(yōu)化了MapReduce[2]框架。Hadoop技術(shù)體系主要由谷歌、推特、臉書等公司支持。自2006年首次發(fā)布以來,Hadoop技術(shù)體系已經(jīng)從傳統(tǒng)的“三駕馬車”(HDFS[1]、MapReduce和HBase[3])發(fā)展成為包括60多個(gè)相關(guān)組件的龐大生態(tài)系統(tǒng)②http://dbaplus. cn/news-21-288-1.html。在這一生態(tài)系統(tǒng)中,發(fā)展出了Tez、Spark Streaming[4]等用于處理流式數(shù)據(jù)的組件。其中,Spark Streaming是構(gòu)建在Spark基礎(chǔ)之上的流式大數(shù)據(jù)處理框架。與Tez相比,其具有吞吐量高、容錯(cuò)能力強(qiáng)等特點(diǎn),同時(shí)支持多種數(shù)據(jù)輸入源和輸出格式。除了Spark開源流處理框架,目前應(yīng)用較為廣泛的流式大數(shù)據(jù)處理系統(tǒng)還有Storm[5]、Flink[6]等。這些開源的流處理框架已經(jīng)被應(yīng)用于部分時(shí)效性要求較高的領(lǐng)域,然而在面對(duì)各行各業(yè)實(shí)際而又差異化的需求時(shí),這些開源技術(shù)存在著各自的瓶頸。
在互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應(yīng)用場景中,個(gè)性化服務(wù)、用戶體驗(yàn)提升、智能分析、事中決策等復(fù)雜的業(yè)務(wù)需求對(duì)大數(shù)據(jù)處理技術(shù)提出了更高的要求。為了滿足這些需求,大數(shù)據(jù)處理系統(tǒng)必須在毫秒級(jí)甚至微秒級(jí)的時(shí)間內(nèi)返回處理結(jié)果。以國內(nèi)最大的銀行卡收單機(jī)構(gòu)銀聯(lián)商務(wù)為例,其日交易量近億筆,需對(duì)旗下540多萬個(gè)商戶進(jìn)行實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)控,在確保這些商戶合規(guī)開展收單業(yè)務(wù)的同時(shí),最大限度地保障個(gè)人用戶的合法權(quán)益。這樣的高并發(fā)、大數(shù)據(jù)、高實(shí)時(shí)應(yīng)用需求給大數(shù)據(jù)處理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。銀聯(lián)商務(wù)以前使用的T+1事后風(fēng)控系統(tǒng)存在風(fēng)險(xiǎn)偵測遲滯高(次日才能發(fā)現(xiàn)風(fēng)險(xiǎn),損害已經(jīng)造成)、處理時(shí)間長(十幾個(gè)小時(shí)之后才能完成風(fēng)險(xiǎn)識(shí)別)、無法處理長周期歷史數(shù)據(jù)(只能分析最近幾日的流水?dāng)?shù)據(jù))以及無法支持復(fù)雜規(guī)則(僅能支持累積求和等簡單規(guī)則)等重大缺陷。為此,亟須研發(fā)全新的事中風(fēng)控系統(tǒng),以重點(diǎn)實(shí)現(xiàn)低遲滯(在1 min內(nèi)甄別突發(fā)風(fēng)險(xiǎn))、高實(shí)時(shí)(100 ms內(nèi)返回處理結(jié)果)、長周期(可處理長達(dá)10年以上的歷史周期數(shù)據(jù))以及支持高復(fù)雜度規(guī)則(如方差、標(biāo)準(zhǔn)差、K階中心矩、最大連續(xù)統(tǒng)計(jì)等)等目標(biāo)。這一目標(biāo)可以抽象為一個(gè)大數(shù)據(jù)處理科學(xué)問題:如何在一個(gè)完整的大數(shù)據(jù)集上,實(shí)現(xiàn)低遲滯、高實(shí)時(shí)的即席(Ad-Hoc)查詢分析處理。
現(xiàn)有的大數(shù)據(jù)處理系統(tǒng)可以分為兩類:批處理大數(shù)據(jù)系統(tǒng)與流處理大數(shù)據(jù)系統(tǒng)。以Hadoop為代表的批處理大數(shù)據(jù)系統(tǒng)需先將數(shù)據(jù)匯聚成批,經(jīng)批量預(yù)處理后加載至分析型數(shù)據(jù)倉庫中,以進(jìn)行高性能實(shí)時(shí)查詢。這類系統(tǒng)雖然可對(duì)完整大數(shù)據(jù)集實(shí)現(xiàn)高效的即席查詢,但無法查詢到最新的實(shí)時(shí)數(shù)據(jù),存在數(shù)據(jù)遲滯高等問題。相較于批處理大數(shù)據(jù)系統(tǒng),以Spark Streaming、Storm、Flink為代表的流處理大數(shù)據(jù)系統(tǒng)將實(shí)時(shí)數(shù)據(jù)通過流處理,逐條加載至高性能內(nèi)存數(shù)據(jù)庫中進(jìn)行查詢。此類系統(tǒng)可以對(duì)最新實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)高效預(yù)設(shè)分析處理模型的查詢,數(shù)據(jù)遲滯低。然而受限于內(nèi)存容量,系統(tǒng)需丟棄原始?xì)v史數(shù)據(jù),無法在完整大數(shù)據(jù)集上支持Ad-Hoc查詢分析處理。因此,研發(fā)具有快速、高效、智能且自主可控特點(diǎn)的流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)與平臺(tái)是當(dāng)務(wù)之急。
實(shí)現(xiàn)一個(gè)融合批處理和流處理兩類系統(tǒng)且對(duì)應(yīng)用透明的系統(tǒng)級(jí)方案,需要攻克以下幾個(gè)技術(shù)難點(diǎn)。
(1)復(fù)雜指標(biāo)的增量計(jì)算
盡管計(jì)數(shù)、求和、平均等指標(biāo)能夠依靠查詢結(jié)果合并實(shí)現(xiàn),然而方差、標(biāo)準(zhǔn)差、熵等大部分復(fù)雜指標(biāo)無法依靠簡單合并完成查詢結(jié)果的融合。再者,當(dāng)查詢涉及熱點(diǎn)數(shù)據(jù)維度及長周期時(shí)間窗口的復(fù)雜指標(biāo)時(shí),多次重新計(jì)算會(huì)帶來巨大的計(jì)算開銷。
(2)基于分布式內(nèi)存的并行計(jì)算
采用粗放的調(diào)度策略(例如約定在每天的固定時(shí)間將流數(shù)據(jù)導(dǎo)入批處理系統(tǒng))會(huì)造成內(nèi)存資源的極大浪費(fèi),亟須研究實(shí)現(xiàn)一種細(xì)粒度的基于進(jìn)度實(shí)時(shí)感知的融合存儲(chǔ)策略,以極大地優(yōu)化和提升融合系統(tǒng)的內(nèi)存使用效率。
(3)多尺度時(shí)間窗口漂移的動(dòng)態(tài)數(shù)據(jù)處理
來自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)查詢請(qǐng)求會(huì)涉及多種尺度的時(shí)間窗口,如“最近5筆刷卡交易的金額”“最近10 min內(nèi)密碼重試次數(shù)”“過去10年的月均交易額”等。每次查詢請(qǐng)求都重新計(jì)算結(jié)果會(huì)對(duì)系統(tǒng)性能造成極大的影響,亟須研究實(shí)現(xiàn)一種支持多種時(shí)間窗口尺度(數(shù)秒到數(shù)十年)、多種窗口漂移方式(數(shù)據(jù)驅(qū)動(dòng)、系統(tǒng)時(shí)鐘驅(qū)動(dòng))的動(dòng)態(tài)數(shù)據(jù)實(shí)時(shí)處理方法,以快速響應(yīng)來自業(yè)務(wù)系統(tǒng)的即席查詢請(qǐng)求。
(4)高可用、高可擴(kuò)展的內(nèi)存計(jì)算
基于內(nèi)存介質(zhì)能夠大大提升數(shù)據(jù)分析及處理能力,然而由于其易揮發(fā)的特性,一般需要采用多副本的方式來實(shí)現(xiàn)基于內(nèi)存的高可用方案,這使得“如何確保不同副本的一致性”成為一個(gè)待解決的問題。此外,在集群內(nèi)存不足或者部分節(jié)點(diǎn)失效時(shí),“如何讓集群在不間斷提供服務(wù)的同時(shí)重新平衡”同樣是一個(gè)待解決的技術(shù)難題。亟須研究分布式多副本一致性協(xié)議以及自平衡的智能分區(qū)算法,以進(jìn)一步提升流處理集群的可用性以及可擴(kuò)展性。
“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)在上述領(lǐng)域取得了一系列突破,該技術(shù)提供基于時(shí)間窗口漂移的動(dòng)態(tài)數(shù)據(jù)快速處理,支持計(jì)數(shù)、求和、平均、最大、最小、方差、標(biāo)準(zhǔn)差、K階中心矩、遞增/遞減、最大連續(xù)遞增/遞減、唯一性判別、采集、過濾等多種分布式統(tǒng)計(jì)計(jì)算模型,并且實(shí)現(xiàn)了復(fù)雜事件、上下文處理等實(shí)時(shí)分析處理模型集的高效管理技術(shù)。
基于“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù),研發(fā)了“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)。其應(yīng)用框架如圖1所示,具有良好的靈活性和適應(yīng)性。平臺(tái)的數(shù)據(jù)裝載模塊負(fù)責(zé)從具體業(yè)務(wù)系統(tǒng)中接入實(shí)時(shí)流數(shù)據(jù),數(shù)據(jù)抽取模塊負(fù)責(zé)批量抽取歷史數(shù)據(jù),模型裝載模塊負(fù)責(zé)將分析處理模型集中的計(jì)算模型和腳本加載到平臺(tái)中。當(dāng)收到業(yè)務(wù)系統(tǒng)發(fā)出的實(shí)時(shí)查詢請(qǐng)求時(shí),“流立方”平臺(tái)能夠根據(jù)分析處理模型在完整大數(shù)據(jù)集上實(shí)時(shí)計(jì)算出相應(yīng)的指標(biāo),并進(jìn)行判斷,將結(jié)果反饋給業(yè)務(wù)系統(tǒng)。
在測試環(huán)境為8臺(tái)服務(wù)器(每臺(tái)服務(wù)器配置24核 CPU、256 GB內(nèi)存),同時(shí)計(jì)算16個(gè)統(tǒng)計(jì)指標(biāo)(涉及4個(gè)維度,包含計(jì)數(shù)、求和、平衡、最大、最小、標(biāo)準(zhǔn)差、過濾、去重、排序、復(fù)雜事件處理等多種算法)的性能測試中,“流立方”平臺(tái)達(dá)到了單節(jié)點(diǎn)寫入大于43 000 TPS、8節(jié)點(diǎn)讀取大于100萬TPS、平均時(shí)延為1~2 ms的優(yōu)異性能,如圖2所示。
圖1 “流立方”平臺(tái)應(yīng)用框架
圖2 “流立方”平臺(tái)性能指標(biāo)
“流立方”平臺(tái)在解決批式大數(shù)據(jù)和流式大數(shù)據(jù)融合實(shí)時(shí)處理技術(shù)難題,實(shí)現(xiàn)優(yōu)異性能的同時(shí),還解決了流式大數(shù)據(jù)處理平臺(tái)面臨的兩大工程化難題。一是作業(yè)的編排效率問題。大部分開源流處理平臺(tái)在完成一個(gè)流處理編排時(shí),都需要經(jīng)過拓?fù)湓O(shè)計(jì)、代碼編寫、功能測試、打包部署等環(huán)節(jié),一般需要一周的時(shí)間才能完成?!傲髁⒎健逼脚_(tái)通過基于“所見即所得”的在線作業(yè)編排管理,將上線任務(wù)耗時(shí)降低到分鐘級(jí),大大提升了流處理作業(yè)的編排效率。二是流處理作業(yè)的靈活變更問題。流處理平臺(tái)擅長進(jìn)行邏輯預(yù)先定義的增量計(jì)算,盡管其計(jì)算效率極高,但計(jì)算靈活度受到限制。例如,某業(yè)務(wù)需要統(tǒng)計(jì)過去3個(gè)月的數(shù)據(jù),現(xiàn)有的流處理平臺(tái)在該業(yè)務(wù)上線3個(gè)月后才能完全生效,這樣的工作方式使流處理技術(shù)在實(shí)際應(yīng)用中受到很大的局限?!傲髁⒎健逼脚_(tái)創(chuàng)新性地引入流媒體播放器的錄制與重放思路,在原始數(shù)據(jù)進(jìn)入流處理平臺(tái)時(shí),通過順序?qū)懙姆绞匠志没环菰紨?shù)據(jù),在需要上線新的計(jì)算作業(yè)時(shí),即刻重發(fā)指定時(shí)間窗口內(nèi)的原始數(shù)據(jù),從而實(shí)現(xiàn)快速(分鐘級(jí)甚至秒級(jí))計(jì)算作業(yè)上線。
“流立方”平臺(tái)引入了一系列創(chuàng)新技術(shù),在性能、可用性、可擴(kuò)展性等多個(gè)層面提升了流處理平臺(tái)的處理能力,滿足金融領(lǐng)域在內(nèi)的眾多領(lǐng)域的業(yè)務(wù)及運(yùn)維需求。引入數(shù)據(jù)沖突智能規(guī)避技術(shù),解決了流式處理中的熱點(diǎn)數(shù)據(jù)處理問題,從而解決了大顆粒數(shù)據(jù)維度的處理效率問題;引入Paxos一致性協(xié)議,解決內(nèi)存存儲(chǔ)計(jì)算時(shí)多副本一致性問題,提供了面向運(yùn)維人員透明的一致性解決方案;引入智能分區(qū)技術(shù),基于一致性散列技術(shù),進(jìn)一步將散列值拆解為散列塊,通過散列塊的平滑遷移解決存儲(chǔ)集群的可伸縮性設(shè)計(jì)問題,確保對(duì)于運(yùn)維人員的集群變更透明性;引入計(jì)算作業(yè)的動(dòng)態(tài)運(yùn)行時(shí)加載技術(shù),規(guī)避了作業(yè)手工打包部署的問題,進(jìn)一步提升了開發(fā)人員的工作效率。
在國內(nèi)某大型銀行卡收單機(jī)構(gòu)組織的招標(biāo)測試中,測試環(huán)節(jié)為兩臺(tái)低配置虛擬機(jī),測試數(shù)據(jù)為該機(jī)構(gòu)的數(shù)千萬筆交易流水,計(jì)算邏輯包括50多條規(guī)則,涉及30多個(gè)統(tǒng)計(jì)指標(biāo)。在該測試環(huán)節(jié)下,兩家國外著名廠商中,一家廠商的計(jì)算時(shí)間長達(dá)24 h,另一家老牌數(shù)據(jù)庫軟件提供商則未能在一天內(nèi)完成計(jì)算。相較于這些國外著名廠商的大數(shù)據(jù)處理平臺(tái),“流立方”平臺(tái)能夠在3 h內(nèi)完成所有計(jì)算,且正確率為100%。
“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)在金融、交通、電信、公安等行業(yè)具有廣泛的應(yīng)用場景。以金融風(fēng)控反欺詐為例,部署“流立方”風(fēng)控系統(tǒng)僅需在交易前端增加風(fēng)控探頭,將實(shí)時(shí)交易數(shù)據(jù)旁路接入系統(tǒng)?!傲髁⒎健憋L(fēng)控系統(tǒng)根據(jù)融合了專家知識(shí)和機(jī)器學(xué)習(xí)結(jié)果的數(shù)百條規(guī)則對(duì)每筆交易進(jìn)行風(fēng)險(xiǎn)評(píng)估,判斷是否允許進(jìn)行該筆交易,流程如圖3所示。該系統(tǒng)平均響應(yīng)時(shí)間在6 ms以下,并發(fā)數(shù)超過50 000筆/s。同時(shí),實(shí)現(xiàn)這一性能僅需要4臺(tái)服務(wù)器。
圖3 基于“流立方”的金融風(fēng)控反欺詐流程
基于“流立方”的金融風(fēng)控反欺詐技術(shù)體系包含技術(shù)(如設(shè)備指紋、代理偵測、生物識(shí)別、關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)等技術(shù))、知識(shí)(如盜卡反欺詐、偽卡反欺詐、信用卡套現(xiàn)、營銷反欺詐等規(guī)則與模型)、數(shù)據(jù)(如虛假手機(jī)數(shù)據(jù)、代理IP數(shù)據(jù)、P2P失信數(shù)據(jù)等標(biāo)識(shí)數(shù)據(jù))三大板塊。技術(shù)部分中的設(shè)備指紋技術(shù)通過主被動(dòng)混合的形式采集設(shè)備中軟硬相關(guān)要素,結(jié)合概率論等算法為每一個(gè)設(shè)備頒發(fā)一個(gè)全球唯一的指紋編碼,這些指紋編碼在反欺詐的整個(gè)過程中起到非常積極的作用;代理偵測技術(shù)通過短時(shí)間內(nèi)掃描IP相關(guān)端口來識(shí)別那些開啟代理的IP,并在這些IP訪問金融服務(wù)時(shí)進(jìn)行識(shí)別;生物識(shí)別技術(shù)通過采集設(shè)備上用戶的鼠標(biāo)點(diǎn)擊、觸摸、鍵盤敲擊等行為識(shí)別操作者是人還是機(jī)器以及是否操作者本人的問題;關(guān)聯(lián)分析技術(shù)在底層通過圖數(shù)據(jù)庫存儲(chǔ)不同節(jié)點(diǎn)以及關(guān)系信息,最終在界面上通過圖的形式進(jìn)行欺詐者關(guān)聯(lián)分析及復(fù)雜網(wǎng)絡(luò)分析;機(jī)器學(xué)習(xí)技術(shù)通過有監(jiān)督、無監(jiān)督的機(jī)器學(xué)習(xí)算法提升欺詐識(shí)別的準(zhǔn)確率及覆蓋率,并結(jié)合流立方技術(shù)提供模型的事中預(yù)測能力。
基于上述技術(shù)體系,研發(fā)了銀行業(yè)務(wù)風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控系統(tǒng)、互聯(lián)網(wǎng)支付業(yè)務(wù)風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控系統(tǒng)、電商業(yè)務(wù)風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控系統(tǒng)等金融風(fēng)控反欺詐系列解決方案。這些方案已應(yīng)用到銀行、第三方支付機(jī)構(gòu)、互聯(lián)網(wǎng)金融等領(lǐng)域的上百家企業(yè)。目前50%以上的線下交易都在“流立方”的保護(hù)下進(jìn)行,基于“流立方”的金融風(fēng)控反欺詐解決方案每天為我國的金融機(jī)構(gòu)抵御上億次的攻擊。該技術(shù)已經(jīng)成為我國金融安全領(lǐng)域基礎(chǔ)設(shè)施必不可少的組成部分。
此外,在互聯(lián)網(wǎng)機(jī)器防御系統(tǒng)中,“流立方”同樣能發(fā)揮巨大作用。如今網(wǎng)絡(luò)機(jī)器人遍布票務(wù)、電商、招聘、銀行、政府、社交等各類網(wǎng)站,消耗了40%~60%的網(wǎng)絡(luò)流量③https://www. incapsula.com/ blog/bot-trafficreport-2013.html。網(wǎng)絡(luò)機(jī)器人不僅消耗網(wǎng)絡(luò)資源、影響正??蛻粼L問、增加網(wǎng)站運(yùn)營成本,還會(huì)爬取產(chǎn)品、價(jià)格信息,形成不正當(dāng)競爭,甚至混淆網(wǎng)站用戶生態(tài),影響營銷分析。傳統(tǒng)的控制策略通過采取屏蔽頻繁訪問、設(shè)置驗(yàn)證碼等方式防御網(wǎng)絡(luò)機(jī)器人,無法應(yīng)對(duì)日益智能化的新型網(wǎng)絡(luò)機(jī)器人。基于“流立方”的互聯(lián)網(wǎng)機(jī)器防御系統(tǒng)通過在Web服務(wù)器上嵌入插件或者獨(dú)立的嗅探器(sniffer)程序,將全流量的Web訪問請(qǐng)求旁路到獨(dú)立的機(jī)器防御集群,進(jìn)行實(shí)時(shí)的流量分析及防御決策,并將決策后的結(jié)果實(shí)時(shí)回饋到Web服務(wù)器插件中。Web服務(wù)器插件在判定當(dāng)前訪問的設(shè)備或者IP地址等是機(jī)器人時(shí),能夠自動(dòng)改寫響應(yīng)內(nèi)容,根據(jù)不同的風(fēng)險(xiǎn)級(jí)別自動(dòng)拒絕交易或?qū)⒃L問者引導(dǎo)到第三方圖形驗(yàn)證碼服務(wù)商進(jìn)行機(jī)器人驗(yàn)證。訪問者在通過驗(yàn)證后可以繼續(xù)正常訪問Web服務(wù)。該系統(tǒng)還創(chuàng)新地將設(shè)備指紋以及人機(jī)識(shí)別服務(wù)運(yùn)用到機(jī)器防御系統(tǒng)中,不僅增加了可分析維度,提升了控制顆粒度,同時(shí)能夠?qū)跒g覽器內(nèi)核的高級(jí)爬蟲進(jìn)行防護(hù)。此外,將機(jī)器防御規(guī)則、數(shù)據(jù)服務(wù)、設(shè)備指紋、人機(jī)識(shí)別以及圖形驗(yàn)證碼以軟件即服務(wù)(software as a service,SaaS)的形式提供服務(wù),進(jìn)一步降低了互聯(lián)網(wǎng)網(wǎng)站客戶的運(yùn)維門檻,提升了產(chǎn)品競爭力。該機(jī)器防御系統(tǒng)工作過程如圖4所示。
基于“流立方”的實(shí)時(shí)機(jī)器防御系統(tǒng)通過多服務(wù)器訪問流水關(guān)聯(lián)決策、長周期數(shù)據(jù)決策、復(fù)雜規(guī)則爬蟲識(shí)別、設(shè)備維度爬蟲識(shí)別、人機(jī)識(shí)別等技術(shù),實(shí)現(xiàn)了微秒級(jí)(400~800μs)的識(shí)別時(shí)延,同時(shí)具有機(jī)器人識(shí)別管控一體化、輕量級(jí)接入等優(yōu)點(diǎn)。根據(jù)已經(jīng)接入機(jī)器防御服務(wù)的幾十家客戶的反饋,基于“流立方”平臺(tái)的防御系統(tǒng)對(duì)機(jī)器人識(shí)別覆蓋率在95%以上,準(zhǔn)確率為99.9%。該機(jī)器防御系統(tǒng)能夠攔截這些客戶業(yè)務(wù)系統(tǒng)中占原有訪問總流量80%~90%的來自網(wǎng)絡(luò)機(jī)器人的訪問流量,使得其業(yè)務(wù)系統(tǒng)服務(wù)器的壓力降為原來的10%。由于基于“流立方”的機(jī)器防御系統(tǒng)的卓越識(shí)別及控制機(jī)器人的能力,當(dāng)前,全國最大的票務(wù)平臺(tái)正在對(duì)此服務(wù)進(jìn)行全面的測試,希望能夠進(jìn)一步提升其票務(wù)服務(wù)能力。
圖4 機(jī)器防御系統(tǒng)架構(gòu)
此外,基于“流立方”的流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)在智慧交通領(lǐng)域也大有作為。通過實(shí)時(shí)分析從預(yù)埋在全國各地的攝像頭采集的車牌信息,配合地理位置信息服務(wù)以及基于地理信息系統(tǒng)(geographic information system,GIS)的最短交通距離計(jì)算,實(shí)現(xiàn)實(shí)時(shí)套牌車信息抓取,為進(jìn)一步打擊違法犯罪服務(wù)提供幫助;通過實(shí)時(shí)分析交叉路口雙向的車流量信息,實(shí)時(shí)控制每個(gè)路口的紅綠燈、智能變換潮汐車道及可變車道,從而大大提升城市的通行效率。
“熱數(shù)據(jù)”帶來無與倫比的價(jià)值,數(shù)據(jù)從產(chǎn)生開始,其應(yīng)用價(jià)值隨時(shí)間的流逝呈現(xiàn)指數(shù)式下降,如何充分應(yīng)用“熱數(shù)據(jù)”是一個(gè)新生事務(wù),是一個(gè)長期任務(wù),也是流式大數(shù)據(jù)處理技術(shù)大有可為之處?!傲髁⒎健绷魇酱髷?shù)據(jù)實(shí)時(shí)處理技術(shù)和平臺(tái)在金融、電信、交通、公安、海關(guān)、網(wǎng)絡(luò)安全等需要引入“事中”感知分析決策模式的行業(yè)都具有廣闊的應(yīng)用前景。
基于批式大數(shù)據(jù),可以不斷學(xué)習(xí)新的知識(shí),累積新的經(jīng)驗(yàn)。然而,在應(yīng)用這些知識(shí)和經(jīng)驗(yàn)時(shí),流式大數(shù)據(jù)更能夠極大限度地挖掘“熱數(shù)據(jù)”的潛在價(jià)值。這使得流式大數(shù)據(jù)技術(shù)具備更有效的應(yīng)用推廣價(jià)值。
流式大數(shù)據(jù)實(shí)時(shí)處理是大數(shù)據(jù)時(shí)代信息化的重要抓手。采用“事中”甚至“事前”模式實(shí)現(xiàn)感知、分析、判斷、決策等功能的智能系統(tǒng)需要流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)的支撐。此外,流式大數(shù)據(jù)實(shí)時(shí)處理可以為大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)提供計(jì)算框架支撐?!傲髁⒎健绷魇酱髷?shù)據(jù)實(shí)時(shí)處理平臺(tái)可為研制融合邏輯推理、概率統(tǒng)計(jì)、眾包、神經(jīng)網(wǎng)絡(luò)等多種形態(tài)的下一代人工智能統(tǒng)一計(jì)算框架提供支持。
[1] SHVACHKO K, KUANG H, RADIA S, et al. The Hadoop distributed file system[C]// 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), May 3-7, 2010, Incline Village, NV, USA, USA. New Jersey: IEEE Press, 2010: 1-10.
[2] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[3] CHANG F, DEAN J, GHEMAWAT S, et al. Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2): 4.
[4] ZAHARIA M, DAS T, LI H, et al. Discretized streams: an efficient and faulttolerant model for stream processing on large clusters[J]. HotCloud, 2012(12): 10.
[5] TOSHNIWAL A, TANEJA S, SHUKLA A, et al. Storm@ twitter[C]// The 2014 ACM SIGMOD International Conference on Management of Data, June 22-27, 2014, Snowbird, Utah, USA. New York: ACM Press, 2014: 147-156.
[6] CARBONE P, KATSIFODIMOS A, EWEN S, et al. Apache flink: stream and batch processing in a single engine[J]. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2015, 36(4): 28-38.
Real-time processing technology, platform and application of streaming big data
CHEN Chun
College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China
According to its timeliness, big data processing systems can be categorized into two groups, namely batching big data processing and streaming big data processing. Both systems mentioned above are unable to meet the real-time requirement for censoring and query analysis tasks. To this end, the “stream cube” real-time data analysis technology and platform were presented, which can perform timely query with low lag. Currently, this technology has been applied to many fields, including financial risk management, anti-fraud as well as web bots defense, and offers promising prospects for further applications.
TP319
A
10.11959/j.issn.2096-0271.2017036
2017-05-16
流式大數(shù)據(jù);流處理;增量計(jì)算;時(shí)序處理
陳純(1955-),男,博士,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授,中國工程院院士,計(jì)算機(jī)應(yīng)用專家,主要研究方向?yàn)榇髷?shù)據(jù)智能計(jì)算、計(jì)算機(jī)圖形圖像處理等。