張建遠(yuǎn)
(黑龍江省雙鴨山市寶清縣機(jī)構(gòu)編制數(shù)據(jù)中心,黑龍江 雙鴨山 155600)
流數(shù)據(jù)是一個隨著時間推移無限增長的動態(tài)數(shù)據(jù)集合。信息時代,利用大數(shù)據(jù)、云計(jì)算等技術(shù)可以實(shí)現(xiàn)對流數(shù)據(jù)的集成、開發(fā)和利用,為網(wǎng)絡(luò)監(jiān)管、風(fēng)險識別等各個領(lǐng)域提供技術(shù)服務(wù)。流數(shù)據(jù)運(yùn)用中,保證數(shù)據(jù)的完整性、安全性和時效性是發(fā)揮其利用價值的關(guān)鍵。流數(shù)據(jù)應(yīng)用范圍不斷擴(kuò)大,探究流數(shù)據(jù)集成與服務(wù)優(yōu)化策略是現(xiàn)階段的重要研究方向。
大數(shù)據(jù)時代產(chǎn)生了海量化數(shù)據(jù),將某些具有關(guān)聯(lián)性的數(shù)據(jù)整合起來形成數(shù)據(jù)集合,即為流數(shù)據(jù)。流數(shù)據(jù)集成是指新的數(shù)據(jù)源源不斷加入到這個集合的動態(tài)過程,主要分為兩種形式:一是多個流數(shù)據(jù)源的集成,指不同來源、格式、特點(diǎn)性質(zhì)的流數(shù)據(jù)在邏輯上或物理上有機(jī)地集中。二是流處理引擎間的集成,指流處理引擎實(shí)例之間的集成,以便綜合利用多個流處理引擎的能力。
根據(jù)流數(shù)據(jù)集成特點(diǎn)可知,每時每刻都會有海量數(shù)據(jù)加入到這個集合中,因此流數(shù)據(jù)本身體量十分龐大。流數(shù)據(jù)利用與服務(wù)中,必須要整合數(shù)據(jù)信息,挑選有價值的數(shù)據(jù)資源。在這一操作中,基于計(jì)算機(jī)的流數(shù)據(jù)查詢,檢索效率不高,不利于數(shù)據(jù)資源的整合利用。這種情況下就需要發(fā)揮云計(jì)算技術(shù)優(yōu)勢,目前云計(jì)算速度可達(dá)到109次/s,可以在短時間內(nèi)實(shí)現(xiàn)對流數(shù)據(jù)內(nèi)目標(biāo)數(shù)據(jù)的精準(zhǔn)查詢。根據(jù)查詢方式的不同,可分為兩種:一是單個查詢操作的實(shí)現(xiàn)及優(yōu)化,如連接查詢、聚集查詢。二是互相連接的多個流數(shù)據(jù)操作算子的執(zhí)行及優(yōu)化。
流數(shù)據(jù)定制化服務(wù)目標(biāo)是面向不同類型應(yīng)用需求,以服務(wù)方式提供對流數(shù)據(jù)連續(xù)查詢、事件檢測功能,支持用戶對大規(guī)模流數(shù)據(jù)集的共享與定制。根據(jù)用戶需求的差異性,可以將流數(shù)據(jù)按照一定標(biāo)準(zhǔn)進(jìn)行分類,在原有數(shù)據(jù)集合中劃分成若干個帶有獨(dú)立標(biāo)簽的子集合,將一些無用的數(shù)據(jù)篩選出去,進(jìn)一步提升數(shù)據(jù)檢索效率。
時效性差。即時性是影響流數(shù)據(jù)服務(wù)的關(guān)鍵因素之一。由于海量數(shù)據(jù)的持續(xù)流入,隨著時間的延長,流數(shù)據(jù)中包含的數(shù)據(jù)種類、總體數(shù)量都呈現(xiàn)爆發(fā)式增長。系統(tǒng)需要處理的數(shù)據(jù)增加,但是自身的處理效率并沒有同步提升,這就導(dǎo)致系統(tǒng)響應(yīng)延遲,大量數(shù)據(jù)無法得到有效處理而造成數(shù)據(jù)的堆積和浪費(fèi)。由于時效性差,導(dǎo)致流數(shù)據(jù)的集成速度和服務(wù)功能都受到不同程度的限制。
更新延遲。流數(shù)據(jù)作為動態(tài)數(shù)據(jù)集合,在接收數(shù)據(jù)之后,要根據(jù)數(shù)據(jù)接收順序、數(shù)據(jù)傳輸來源、數(shù)據(jù)存儲格式等不同分類標(biāo)準(zhǔn),對數(shù)據(jù)進(jìn)行排列和歸類。從數(shù)據(jù)流接收數(shù)據(jù)開始,到數(shù)據(jù)按照特定的標(biāo)準(zhǔn)被劃分到各個最小集合為止,中間需要一定的時間。該時間差是導(dǎo)致更新延遲的主要原因,如果時間差過大,更新延遲明顯,也會影響數(shù)據(jù)的利用價值。
動態(tài)適應(yīng)性差。流數(shù)據(jù)上的各類應(yīng)用和服務(wù),可以根據(jù)實(shí)際需求進(jìn)行自由擴(kuò)展,在一定程度上提高了流數(shù)據(jù)的適用范圍。但是由于數(shù)據(jù)本身的動態(tài)變化,會導(dǎo)致系統(tǒng)負(fù)載出現(xiàn)較為明顯波動。如果某個時間段內(nèi)有大量數(shù)據(jù)突然涌入,除了會明顯增加負(fù)載外,還有可能導(dǎo)致網(wǎng)絡(luò)擁堵甚至是系統(tǒng)崩潰。尤其是在大數(shù)據(jù)時代,數(shù)據(jù)波動帶來的沖擊更加頻繁也更加嚴(yán)重,流數(shù)據(jù)的負(fù)載上限較低,動態(tài)適應(yīng)性差,成為制約其服務(wù)功能發(fā)揮的重要因素。
云計(jì)算容錯力差。容錯能力是指在系統(tǒng)發(fā)生輕微故障的情況下,仍然保持系統(tǒng)主體功能穩(wěn)定發(fā)揮的能力。例如,流數(shù)據(jù)集成與服務(wù)中,因?yàn)樗矔r數(shù)據(jù)流量過大而導(dǎo)致響應(yīng)延時,具備較強(qiáng)容錯力的系統(tǒng)會通過調(diào)節(jié)系統(tǒng)運(yùn)算速度,逐漸消除因響應(yīng)延時導(dǎo)致的時間差,從而保證數(shù)據(jù)流整體運(yùn)行穩(wěn)定。但是目前支持流數(shù)據(jù)集成與服務(wù)的物理服務(wù)器,受到硬件設(shè)備的限制,運(yùn)算速度較低,穩(wěn)定性不高,容錯率差,不能滿足大數(shù)據(jù)背景下流數(shù)據(jù)集成與服務(wù)的要求。
瞬時超大流量數(shù)據(jù)的沖擊,是導(dǎo)致流數(shù)據(jù)響應(yīng)延遲的主要因素。為提高流數(shù)據(jù)集成與服務(wù)的時效性,需要通過提高實(shí)時數(shù)據(jù)吞吐量的方式,應(yīng)對大規(guī)模數(shù)據(jù)瞬時涌入帶來的沖擊影響。正常情況下,流數(shù)據(jù)可以平穩(wěn)完成數(shù)據(jù)的動態(tài)接收。如果遇到大規(guī)模數(shù)據(jù)流入,則系統(tǒng)暫時提升吸納能力,在盡量降低響應(yīng)延遲的情況下,將所有數(shù)據(jù)吸收,之后再利用云計(jì)算的高速處理能力,實(shí)現(xiàn)對大規(guī)模數(shù)據(jù)的分類、處理。
隨著流數(shù)據(jù)應(yīng)用范圍的擴(kuò)展,要提升其服務(wù)價值,必須重點(diǎn)發(fā)展定制服務(wù)。要實(shí)現(xiàn)定制服務(wù),除了需要提高流數(shù)據(jù)處理效率外,還要基于服務(wù)需求,制定服務(wù)模型。流數(shù)據(jù)服務(wù)模型的種類比較豐富,基本上可以涵蓋不同的服務(wù)領(lǐng)域,但定制服務(wù)的靈活度不夠,數(shù)據(jù)的利用價值沒有得到充分體現(xiàn)。未來需要重點(diǎn)從服務(wù)運(yùn)營和操作優(yōu)化等角度入手,改進(jìn)模型運(yùn)行的編程方法,利用流數(shù)據(jù)為用戶提供更加優(yōu)質(zhì)的服務(wù)。
理想狀態(tài)下,在云計(jì)算環(huán)境下提高流數(shù)據(jù)的負(fù)載能力,能夠保證流數(shù)據(jù)各項(xiàng)應(yīng)用的穩(wěn)定運(yùn)行和各項(xiàng)服務(wù)的穩(wěn)定發(fā)揮。但在現(xiàn)有的技術(shù)條件下,要想實(shí)現(xiàn)這一目標(biāo)需要較高的成本。目前一種可行的辦法是基于用戶需求,合理配置流數(shù)據(jù)負(fù)載,既滿足用戶需要,又能以較低成本提升系統(tǒng)的動態(tài)適應(yīng)能力,實(shí)現(xiàn)了兩者的統(tǒng)籌兼顧。
利用云計(jì)算進(jìn)行數(shù)據(jù)壓縮和備份,一方面可以削弱大規(guī)模數(shù)據(jù)涌入對系統(tǒng)產(chǎn)生的沖擊影響,另一方面,根據(jù)使用需求對目標(biāo)數(shù)據(jù)進(jìn)行解壓,也不會影響數(shù)據(jù)本身的利用價值。根據(jù)備份形式的不同,可以分為主動備份和被動備份。這一技術(shù)增強(qiáng)了數(shù)據(jù)完整性、可靠性,增強(qiáng)了容錯能力,避免因數(shù)據(jù)丟失而影響流數(shù)據(jù)服務(wù)功能的發(fā)揮。
隨著感知設(shè)備的普及,數(shù)據(jù)多元異構(gòu)復(fù)雜性提升,流數(shù)據(jù)并發(fā)數(shù)量及速度劇增,傳統(tǒng)的流數(shù)據(jù)系統(tǒng)在處理能力、可擴(kuò)展性、容錯性等方面面臨發(fā)展瓶頸問題。通過提高實(shí)時數(shù)據(jù)的吞吐量、合理配置流數(shù)據(jù)負(fù)載等方法,可進(jìn)一步提升流數(shù)據(jù)集成效率與服務(wù)能力,從而在大數(shù)據(jù)時代發(fā)揮應(yīng)有的價值。