趙 博 左昌麒 房 俊
(1.北方工業(yè)大學(xué)信息學(xué)院 北京 100144)(2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100144)
當(dāng)前,隨著物聯(lián)網(wǎng)的飛速發(fā)展,多維時(shí)序數(shù)據(jù)不斷產(chǎn)生,以電能質(zhì)量大數(shù)據(jù)分析系統(tǒng)中的電能質(zhì)量數(shù)據(jù)為例[1],其部署的監(jiān)測(cè)點(diǎn)每隔3s采集2550個(gè)指標(biāo)數(shù)據(jù),目前部署了超1萬(wàn)的監(jiān)測(cè)點(diǎn),基于上述海量數(shù)據(jù)的挖掘分析對(duì)于電能質(zhì)量治理具有重要意義。
聚合查詢是最為常見(jiàn)的數(shù)據(jù)統(tǒng)計(jì)與分析方法之一。在面對(duì)海量時(shí)序數(shù)據(jù)時(shí),聚合查詢性能延遲較大,往往不能滿足業(yè)務(wù)需求。近似查詢犧牲一定查詢精度來(lái)?yè)Q取更快速的查詢結(jié)果,近些年來(lái)在研究領(lǐng)域獲得了較多關(guān)注。近似查詢可以總結(jié)為如下公式:
從全量數(shù)據(jù)集x通過(guò)一定的方法獲取到用于近似計(jì)算的數(shù)據(jù)集xi。為了達(dá)到一定的精確度,減小誤差,聚合查詢函數(shù)AGG需要做針對(duì)性的修改,修改后的聚合函數(shù)記為AGG′。近似聚合查詢方法主要有采樣技術(shù)[3],直方圖,小波變換[4],草圖[5]等方法,其中采樣技術(shù)是大規(guī)模聚合查詢中的一種普適方法[6],大量聚合查詢工作集中在基于采樣的近似聚合查詢優(yōu)化上。
現(xiàn)有研究集中在方法研究,對(duì)近似查詢服務(wù)系統(tǒng)的實(shí)現(xiàn)工作相對(duì)較少,且實(shí)現(xiàn)系統(tǒng)多針對(duì)某一類型數(shù)據(jù)的特殊優(yōu)化設(shè)計(jì),用戶在生產(chǎn)生活中迫切需要通用的支持個(gè)性化查詢的近似查詢服務(wù)系統(tǒng)來(lái)有效降低查詢時(shí)延。個(gè)性化的查詢包含兩個(gè)方面,其一是查詢請(qǐng)求的個(gè)性化,業(yè)務(wù)人員的查詢請(qǐng)求多以SQL腳本的形式提出,如表1所示是電能質(zhì)量聚合查詢的示例,查詢請(qǐng)求的個(gè)性化要求系統(tǒng)能夠快速的對(duì)請(qǐng)求進(jìn)行解析重寫等操作;其二是查詢時(shí)間的個(gè)性化,不同的業(yè)務(wù)人員可以承受不同的響應(yīng)時(shí)間和查詢精度,為此系統(tǒng)需要滿足業(yè)務(wù)人員一定范圍內(nèi)的時(shí)間約束。
表1 多維時(shí)序數(shù)據(jù)聚合查詢實(shí)例
針對(duì)上述問(wèn)題,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)個(gè)性化近似聚合查詢系統(tǒng)Flexisample(Flexiable Sampling),基于分層采樣技術(shù)對(duì)樣本進(jìn)行了結(jié)構(gòu)設(shè)計(jì),運(yùn)用數(shù)據(jù)項(xiàng)分層與樣本替換策略實(shí)現(xiàn)了基于數(shù)據(jù)流的樣本增量維護(hù)工作,并且通過(guò)對(duì)查詢請(qǐng)求的解析實(shí)現(xiàn)了系統(tǒng)的查詢請(qǐng)求個(gè)性化,使用維護(hù)多份物理樣本的方法來(lái)滿足查詢時(shí)間個(gè)性化。
聚合查詢目的是幫助人們理解一段時(shí)間內(nèi)數(shù)據(jù)集的變化[7]?,F(xiàn)有的聚合查詢處理優(yōu)化方法按照返回結(jié)果的準(zhǔn)確程度可分為精確查詢和近似查詢兩類。
精確查詢方面,現(xiàn)有研究主要集中在并行計(jì)算框架與索引優(yōu)化方向,如Spark SQL[8]利用并行計(jì)算框架提升計(jì)算能力,有良好的數(shù)據(jù)量和靈活性支持,作者考慮了用戶的使用習(xí)慣,對(duì)ad-hoc、reporting、iterative等類型的查詢需求提供了SQL查詢接口,將SQL語(yǔ)句轉(zhuǎn)換為邏輯查詢計(jì)劃并對(duì)其進(jìn)行優(yōu)化調(diào)整,最終轉(zhuǎn)化為物理查詢計(jì)劃提交給Spark執(zhí)行。Spark SQL基于Hive對(duì)個(gè)性化查詢提供了支持,但對(duì)查詢時(shí)延沒(méi)有約束,可以通過(guò)結(jié)合近似查詢進(jìn)一步降低查詢時(shí)延。文獻(xiàn)[9]采用分布式計(jì)算框架和聚合管道與索引結(jié)合的方式提升計(jì)算效率,雖然通過(guò)優(yōu)化并行計(jì)算獲取精確聚合查詢結(jié)果的方式已經(jīng)很大程度上降低查詢時(shí)延,達(dá)到一定效果,但查詢過(guò)程中依舊存在大量的磁盤IO和計(jì)算,且并不能對(duì)個(gè)性化的時(shí)間約束做出反應(yīng),查詢時(shí)延對(duì)比近似查詢依舊偏高。
近似查詢方面,文獻(xiàn)[10]中提出了增量式的樣本擴(kuò)容與誤差估計(jì)方法,這種方法可以快速地獲取查詢結(jié)果,但在針對(duì)稀疏數(shù)據(jù)時(shí)效果并不理想,且樣本在時(shí)間維度上的覆蓋范圍相對(duì)固定,實(shí)時(shí)在線聚合時(shí)在時(shí)間維度上無(wú)法滿足個(gè)性化查詢需求。研究[11]對(duì)在線聚集方法進(jìn)行了優(yōu)化,提出了基于內(nèi)容的數(shù)據(jù)塊劃分,索引以及放置策略。Sameer[16]等基于分布式采樣提出了BlinkDB近似查詢處理系統(tǒng),其使用大規(guī)模并行查詢引擎,支持交互式SQL查詢,但BlinkDB建立在Shark和Spark之上,對(duì)數(shù)據(jù)進(jìn)行先采樣后計(jì)算,系統(tǒng)重量大,擴(kuò)展性較差,樣本所需空間成本較大。
綜上所述,精確查詢通過(guò)預(yù)計(jì)算等方法能夠獲得精確結(jié)果,但需要更多的存儲(chǔ)空間,查詢時(shí)延較長(zhǎng)且不可控,對(duì)個(gè)性化的查詢需求無(wú)法快速反應(yīng)?;诓蓸拥慕朴?jì)算方法可以提升聚合查詢性能,在一些方法中,樣本在時(shí)間維度上的覆蓋范圍是固定的,不能在時(shí)間維度上滿足實(shí)時(shí)的個(gè)性化查詢需求,但樣本的擴(kuò)容與增量維護(hù)思想可以借鑒?,F(xiàn)有主流近似查詢系統(tǒng)重量較大,較少考慮擴(kuò)展需求,樣本靈活性不足。
個(gè)性化近似聚合查詢系統(tǒng)Flexisample(Flexible samples)設(shè)計(jì)基于靈活動(dòng)態(tài)更新的一組樣本,在樣本結(jié)構(gòu)設(shè)計(jì)和樣本在線維護(hù)時(shí)充分考慮了業(yè)務(wù)人員的個(gè)性化查詢需求。系統(tǒng)可以解析個(gè)性化查詢請(qǐng)求并組合出多樣的邏輯樣本,同時(shí)樣本可以覆蓋全部的時(shí)間范圍,并隨時(shí)間推移不斷更新維護(hù)。本章將詳細(xì)介紹系統(tǒng)的設(shè)計(jì)思想以及如何滿足多樣的個(gè)性化查詢需求。
Flexisample結(jié)構(gòu)如圖1所示,系統(tǒng)包括數(shù)據(jù)持久化、樣本管理、查詢引擎以及用戶個(gè)性化查詢接口等模塊。其中,數(shù)據(jù)持久化負(fù)責(zé)原始數(shù)據(jù)、元數(shù)據(jù)以及物理樣本的持久化存儲(chǔ)工作;樣本管理包括分層樣本的建立和樣本維護(hù)功能。查詢引擎包括查詢請(qǐng)求解析、查詢重寫、邏輯樣本組合和查詢執(zhí)行四個(gè)主要部分,其中邏輯樣本組合是為個(gè)性化查詢準(zhǔn)備數(shù)據(jù)。
圖1 聚合查詢系統(tǒng)結(jié)構(gòu)
3.2.1 樣本設(shè)計(jì)
在以采樣方法為近似查詢基礎(chǔ)的系統(tǒng)中,更低精度的查詢請(qǐng)求并不能換取更快的響應(yīng)速度[12]。根據(jù)蒙特卡洛思想,查詢時(shí)間,樣本量存在正相關(guān)的關(guān)系,同時(shí),樣本量與查詢準(zhǔn)確率也存在正相關(guān)的關(guān)系。因此,為提高采樣效率,降低維護(hù)成本,F(xiàn)lexisample采用維護(hù)多個(gè)物理樣本的方式來(lái)滿足業(yè)務(wù)人員一定的個(gè)性化查詢交互需求。
同時(shí)維護(hù)多份樣本以滿足多種時(shí)間約束將會(huì)耗費(fèi)很大的物理空間,樣本維護(hù)代價(jià)也會(huì)增加。Flexisample設(shè)計(jì)采用維護(hù)少量物理樣本,并在查詢時(shí)臨時(shí)生成視圖組合為多種邏輯樣本供查詢引擎查詢的方式。設(shè)原始數(shù)據(jù)量為S,系統(tǒng)的樣本粒度D∈(0,1)可以根據(jù)近似查詢的需求自定義,系統(tǒng)以a=S×D為最小單位,建立并維護(hù)形如的n份物理樣本{Sn},這樣可以有效降低樣本生成與維護(hù)的時(shí)間及空間消耗,n份物理樣本數(shù)據(jù)之間是相互隔離的,一條數(shù)據(jù)記錄不能同時(shí)存在于多份物理樣本之中。n份物理樣本可以在需要時(shí)組合為a至的最小粒度為a的2n-1份邏輯樣本供查詢引擎作為近似查詢數(shù)據(jù)源使用。
在進(jìn)行分層采樣時(shí),應(yīng)盡量減少數(shù)據(jù)掃描次數(shù),以優(yōu)化預(yù)采樣的時(shí)間性能。文獻(xiàn)[12]實(shí)現(xiàn)了一種分層采樣優(yōu)化方法,該方法運(yùn)用多維倒排索引減少數(shù)據(jù)掃描次數(shù)。在我們的系統(tǒng)中,基于該采樣方法按上述樣本結(jié)構(gòu)生成樣本,可以得到不同比例且樣本之間不存在耦合數(shù)據(jù)的多份物理樣本。設(shè)數(shù)據(jù)共分為m層,分層采樣實(shí)現(xiàn)過(guò)程如圖2。
圖2 物理樣本分層采樣過(guò)程
系統(tǒng)第一遍掃描數(shù)據(jù)源,根據(jù)隨機(jī)規(guī)則標(biāo)記數(shù)據(jù),將數(shù)據(jù)標(biāo)記為不同分層{gm},同時(shí),每一分層中的數(shù)據(jù)項(xiàng)再根據(jù)生成的隨機(jī)規(guī)則,按{2na}之間的比例標(biāo)記為n種類別{gmn}。經(jīng)過(guò)第一遍的數(shù)據(jù)掃描,所有數(shù)據(jù)項(xiàng)將被全部標(biāo)記完成,系統(tǒng)對(duì)標(biāo)記列建立索引。第二遍掃描數(shù)據(jù)源將數(shù)據(jù)按分層信息與分組標(biāo)記持久化到{Sn}之中。系統(tǒng)通過(guò)這樣的方式,經(jīng)過(guò)兩次全表掃描實(shí)現(xiàn)了數(shù)據(jù)分層與多個(gè)物理樣本分組的目的。樣本中每個(gè)分層數(shù)據(jù)應(yīng)盡可能維護(hù)在一個(gè)物理塊{tmn}的連續(xù)空間中,以減少執(zhí)行查詢請(qǐng)求時(shí)的磁盤IO。
3.2.2 樣本量分配
對(duì)于數(shù)據(jù)分層來(lái)說(shuō),各層的樣本量分配情況會(huì)直接影響近似查詢的精確度。常用的樣本量的分配方法有隨機(jī)分配、按比例分配、內(nèi)曼分配[13]和最優(yōu)分配[14]等。在進(jìn)行分層樣本建立時(shí),為保證一定的準(zhǔn)確率,系統(tǒng)需要為樣本量分配方式提供擴(kuò)展接口。
Flexisample中的樣本量分配模塊設(shè)計(jì)采用了模板方法模式(Template Method Pattern)這一設(shè)計(jì)模式,支持幾種常用樣本量分配方法的同時(shí)保證了程序的擴(kuò)展性,開(kāi)發(fā)人員可以根據(jù)數(shù)據(jù)特點(diǎn)以及需求對(duì)近似查詢服務(wù)的樣本量分配模塊進(jìn)行擴(kuò)展實(shí)現(xiàn)。樣本量分配模塊的設(shè)計(jì)類圖如圖3所示。
圖3 模板設(shè)計(jì)模式類圖
在Flexisample中汲取了文獻(xiàn)[10]與BlinkDB[16]建立和維護(hù)一組樣本的思想,基于滑動(dòng)窗口對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分層,查找分層的tmn并對(duì)其中數(shù)據(jù)項(xiàng)進(jìn)行替換。
Flexisample為每一份物理樣本建立了一個(gè)分層信息映射表{Hn}并維護(hù)在內(nèi)存中方便快速讀取。映射表中包含了各層樣本在磁盤中的位置信息以及數(shù)據(jù)量,幫助數(shù)據(jù)流快速分層。首先,在接收數(shù)據(jù)流上建立滑動(dòng)窗口,從內(nèi)存中獲取{Hn}。讀取數(shù)據(jù)項(xiàng)標(biāo)識(shí),按照物理樣本{Sn}數(shù)據(jù)量的比例隨機(jī)分發(fā)到內(nèi)存中的臨時(shí)存儲(chǔ)空間{kn},其中,k1對(duì)應(yīng)H1,分發(fā)到k1的數(shù)據(jù)項(xiàng)通過(guò)數(shù)據(jù)流消費(fèi)者查找數(shù)據(jù)項(xiàng)所屬的分層gm1,并將數(shù)據(jù)項(xiàng)存入為gm1開(kāi)辟的臨時(shí)存儲(chǔ)空間之中。同理,讀取數(shù)據(jù)流中的數(shù)據(jù)項(xiàng),對(duì)于其他分組進(jìn)行相同操作。
樣本存儲(chǔ)在磁盤中,通過(guò)對(duì)內(nèi)容感知的數(shù)據(jù)重分區(qū)方法[11]對(duì)磁盤與內(nèi)存中的數(shù)據(jù)塊進(jìn)行替換。現(xiàn)有可用于樣本替換的采樣方法包括水庫(kù)抽樣[17](reservoir sampling)、精確抽樣(concise sampling)、計(jì) 數(shù) 抽 樣(counting sampling)、鏈 式 抽 樣[18](chain-sampling)等。其中,水庫(kù)抽樣可以在增量數(shù)據(jù)的條件下,為每個(gè)分層等概率的選出樣本。具體來(lái)說(shuō),根據(jù)映射表將磁盤中的tmn載入內(nèi)存,此時(shí)tmn就作為一個(gè)水庫(kù),tmn的大小k即為水庫(kù)大小,存儲(chǔ)在各層臨時(shí)存儲(chǔ)空間中的數(shù)據(jù)項(xiàng){di}逐個(gè)進(jìn)行計(jì)算。對(duì)于gmn臨時(shí)存儲(chǔ)空間中的每個(gè)數(shù)據(jù)項(xiàng)來(lái)說(shuō),都有相同的概率替換掉tmn中的隨機(jī)一條數(shù)據(jù)項(xiàng)。
近似聚合查詢需要滿足業(yè)務(wù)人員的自定義聚合查詢需求和一定范圍內(nèi)的時(shí)間約束。對(duì)于前者來(lái)說(shuō)即為將AGG轉(zhuǎn)換為AGG',對(duì)于后者來(lái)說(shuō)可以通過(guò)控制查詢數(shù)據(jù)集xi的大小來(lái)實(shí)現(xiàn)。
業(yè)務(wù)人員多以SQL腳本的形式提出自定義的聚合查詢請(qǐng)求,根據(jù)表1中的多維時(shí)序數(shù)據(jù)聚合查詢實(shí)例,可以得到如表2所示的聚合查詢請(qǐng)求BNF范式,其中包括:Query_Items查詢項(xiàng),Table_Names表字段,Query_Conditions查詢條件,Group_Conditions分組條件,Time_Condition時(shí)間約束五個(gè)主要部分。
表2 個(gè)性化查詢請(qǐng)求BNF范式
查詢引擎根據(jù)聚合查詢請(qǐng)求的各個(gè)部分解析業(yè)務(wù)人員提出的分組聚合查詢請(qǐng)求,并校驗(yàn)請(qǐng)求是否合法。對(duì)于合法的請(qǐng)求,F(xiàn)lexisample將請(qǐng)求重寫為在維護(hù)的樣本上執(zhí)行的近似查詢請(qǐng)求。
另一方面,系統(tǒng)根據(jù)不同的時(shí)間約束,動(dòng)態(tài)的建立邏輯樣本供查詢引擎執(zhí)行近似查詢請(qǐng)求?;趯?shí)驗(yàn)可以擬合出樣本量與查詢時(shí)間的二元關(guān)系模型。在獲取到查詢時(shí)間約束后,系統(tǒng)可以根據(jù)二元關(guān)系映射滿足時(shí)間約束的最大樣本量。個(gè)性化近似查詢?cè)谶壿嫎颖旧蠄?zhí)行,樣本量大小可以一定程度上控制查詢的運(yùn)行時(shí)間。在執(zhí)行跨樣本查詢時(shí),系統(tǒng)基于Spark的UNION ALL操作創(chuàng)建臨時(shí)視圖。因Flexisample中維護(hù)的多份物理樣本之間無(wú)重復(fù)數(shù)據(jù),相比于UNION操作,極大降低了組合邏輯樣本所花費(fèi)的時(shí)間成本。
Flexisample部署在集群上,集群由三臺(tái)服務(wù)器組成,三臺(tái)機(jī)器的CPU、內(nèi)存、操作系統(tǒng)如表3所示,集群中每臺(tái)服務(wù)器軟件環(huán)境如下有:JDK:1.8、hadoop:2.6.0、hbase:1.2.0、hive:1.1.0、kafka:2.2.1、spark:1.6.0、zookeeper:3.4.5、flink:1.12.0。
表3 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)數(shù)據(jù)為電網(wǎng)監(jiān)測(cè)指標(biāo)數(shù)據(jù),其原始數(shù)據(jù)格式如表4,包括監(jiān)測(cè)點(diǎn)、指標(biāo)、時(shí)間戳以及數(shù)值。其中每一個(gè)監(jiān)測(cè)點(diǎn)對(duì)應(yīng)唯一的監(jiān)測(cè)點(diǎn)ID。指標(biāo)列負(fù)責(zé)標(biāo)注數(shù)據(jù)項(xiàng)所屬的頻率、監(jiān)測(cè)點(diǎn)編碼、監(jiān)測(cè)指標(biāo)、指標(biāo)相別、指標(biāo)聚合類型等。電能質(zhì)量數(shù)據(jù)來(lái)自全網(wǎng)諧波監(jiān)測(cè)系統(tǒng)9000多個(gè)監(jiān)測(cè)點(diǎn)的海量數(shù)據(jù),數(shù)據(jù)維度高,包括指標(biāo)、時(shí)間、空間、電壓等級(jí)、監(jiān)測(cè)對(duì)象等維度,且指標(biāo)之間關(guān)聯(lián)性強(qiáng)。
表4 電網(wǎng)電能質(zhì)量數(shù)據(jù)
為驗(yàn)證上述近似查詢服務(wù)的運(yùn)行效果,首先進(jìn)行分層樣本的建立與模擬數(shù)據(jù)流樣本維護(hù)。系統(tǒng)中的樣本粒度D設(shè)為1%,并根據(jù)系統(tǒng)設(shè)置建立并維護(hù)了1%,2%,4%,8%四份物理樣本,可以在查詢時(shí)組合為1%~15%粒度為1%的邏輯樣本。
對(duì)試驗(yàn)系統(tǒng)提出滿足表2所述BNF范式的分組聚合查詢請(qǐng)求。查詢請(qǐng)求為分組聚合查詢,包括省網(wǎng)名稱,市網(wǎng)名稱與AVG( )Value聚合函數(shù)值三個(gè)查詢項(xiàng),表字段為‘pq_data’,查詢值按省網(wǎng)與市網(wǎng)兩個(gè)空間維度進(jìn)行分組。為計(jì)算系統(tǒng)的查詢準(zhǔn)確率,需要對(duì)全量數(shù)據(jù)進(jìn)行精確計(jì)算,精確計(jì)算與近似計(jì)算的查詢時(shí)延如表5所示,查詢請(qǐng)求中時(shí)間約束為10s。對(duì)所有分層計(jì)算其近似查詢準(zhǔn)確率,結(jié)果的前5項(xiàng)如表6所示,其中省網(wǎng)列與市網(wǎng)列為分組列。
表5 查詢時(shí)延
表6 近似查詢結(jié)果及準(zhǔn)確率
為獲得自定義時(shí)間約束的查詢效果,在所有可組合樣本量的邏輯樣本上進(jìn)行聚合查詢實(shí)驗(yàn),查詢請(qǐng)求仍按省市兩級(jí)的分組聚合查詢,去除時(shí)間約束,直接在不同邏輯樣本上進(jìn)行聚合查詢。圖4記錄了系統(tǒng)在不同樣本量下執(zhí)行查詢請(qǐng)求的查詢時(shí)間與準(zhǔn)確率。每份邏輯樣本的查詢準(zhǔn)確率由該邏輯樣本所有分層中準(zhǔn)確率最低的分層的近似查詢準(zhǔn)確率代表。
圖4 系統(tǒng)近似聚合查詢實(shí)驗(yàn)
在上述實(shí)驗(yàn)中,近似聚合查詢系統(tǒng)滿足了查詢請(qǐng)求中的時(shí)間約束,系統(tǒng)近似查詢時(shí)間僅為全量計(jì)算時(shí)間的不足7%,有效提高了查詢效率,且對(duì)于測(cè)試數(shù)據(jù)的全部142個(gè)分層來(lái)說(shuō),其準(zhǔn)確率均達(dá)到88%以上。從圖4中可以看到,不同樣本量的查詢時(shí)間存在一定程度上的差別,可以滿足用戶對(duì)查詢時(shí)間一定范圍內(nèi)的時(shí)間約束調(diào)整。另一方面,從空間成本來(lái)說(shuō),系統(tǒng)本次實(shí)驗(yàn)中的存儲(chǔ)空間僅需,而直接存儲(chǔ)多份物理樣本達(dá)到同樣效果所需的存儲(chǔ)空間為,空間成本減少了87.5%。在表6中,因查詢數(shù)值的單位不同,故不同分層的查詢結(jié)果數(shù)據(jù)之間有較大差別,但由于層中單位是統(tǒng)一的,因此并不會(huì)影響實(shí)驗(yàn)的準(zhǔn)確率。
本文介紹了一個(gè)個(gè)性化近似聚合查詢服務(wù)系統(tǒng)Flexisample,通過(guò)系統(tǒng)實(shí)驗(yàn)證明,F(xiàn)lexisample可以滿足個(gè)性化近似聚合查詢需求,樣本在時(shí)間維度的覆蓋范圍更廣,分層樣本動(dòng)態(tài)實(shí)時(shí)維護(hù)并且可以在一定范圍內(nèi)調(diào)整查詢時(shí)延,查詢準(zhǔn)確率有一定保障,能有效提高業(yè)務(wù)人員的查詢效率。
系統(tǒng)經(jīng)過(guò)長(zhǎng)時(shí)間基于數(shù)據(jù)流的樣本維護(hù),各個(gè)分層的總數(shù)據(jù)量不斷增加,但樣本總量未發(fā)生改變,系統(tǒng)的查詢準(zhǔn)確率會(huì)隨樣本維護(hù)時(shí)間持續(xù)下降。如何在數(shù)據(jù)總量不斷增加的情況下,高效運(yùn)用樣本中的已有信息來(lái)保持甚至提高近似聚合查詢的準(zhǔn)確率將是今后的主要工作目標(biāo)。