李重文,鄧騰彬,馬世龍
(1.湖南師范大學(xué)工程與設(shè)計(jì)學(xué)院,長(zhǎng)沙410081;2.東莞電子科技大學(xué)電子信息工程研究院,廣東東莞523808; 3.北京航空航天大學(xué)軟件開發(fā)環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100191)
基于分段極值的時(shí)間序列數(shù)據(jù)查詢顯示方法
李重文1,鄧騰彬2,馬世龍3
(1.湖南師范大學(xué)工程與設(shè)計(jì)學(xué)院,長(zhǎng)沙410081;2.東莞電子科技大學(xué)電子信息工程研究院,廣東東莞523808; 3.北京航空航天大學(xué)軟件開發(fā)環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100191)
時(shí)間序列數(shù)據(jù)在許多領(lǐng)域廣泛存在,有海量和復(fù)雜的特點(diǎn),直接查詢出所有的原始數(shù)據(jù)并對(duì)其進(jìn)行分析十分耗時(shí),且對(duì)計(jì)算機(jī)的內(nèi)存消耗極大。為此,提出一種基于分段極值的時(shí)間序列數(shù)據(jù)查詢顯示方法,對(duì)需要查詢分析數(shù)據(jù)的時(shí)間范圍進(jìn)行分段,根據(jù)各個(gè)時(shí)間段數(shù)據(jù)的極值及總?cè)↑c(diǎn)個(gè)數(shù)來確定該時(shí)間段的取點(diǎn)個(gè)數(shù),通過數(shù)據(jù)庫(kù)本身的查詢機(jī)制實(shí)現(xiàn)均勻取點(diǎn),并結(jié)合多線程機(jī)制實(shí)現(xiàn)各時(shí)間段數(shù)據(jù)的并行查詢及曲線繪制。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)查詢及可視化方法相比,該方法能夠指定取點(diǎn)數(shù)量,并在取點(diǎn)數(shù)量確定的情況下,繪制曲線能較好地逼近原始曲線,且極大地縮短曲線的查詢繪制時(shí)間,具有較好的工程實(shí)用性。
時(shí)間序列;數(shù)據(jù)庫(kù)查詢;時(shí)間序列數(shù)據(jù)庫(kù);曲線繪制;數(shù)據(jù)壓縮;數(shù)據(jù)分析
時(shí)間序列數(shù)據(jù)在醫(yī)學(xué)、金融、傳感器網(wǎng)絡(luò)、移動(dòng)對(duì)象、自動(dòng)化測(cè)試[1]等領(lǐng)域廣泛存在,并且在生物序列分析、金融數(shù)據(jù)分析、傳感器網(wǎng)絡(luò)監(jiān)控等領(lǐng)域成功應(yīng)用。
當(dāng)前關(guān)于時(shí)間序列數(shù)據(jù)的研究主要集中在相似性搜索[2-3]、時(shí)間序列分割與模式發(fā)現(xiàn)[4-5]及時(shí)間序列的預(yù)測(cè)[6-7]等,并取得了大量的研究成果。時(shí)間序列可視化也是一個(gè)應(yīng)用前景廣闊的研究方向[8-11],國(guó)外研究較多,并開發(fā)出了相應(yīng)的可視化工具,如 time-series on spirals[12],time searcher[13], vizTree[14],time-series bitmaps[15]等,但這些工具主要還是集中在對(duì)時(shí)間序列數(shù)據(jù)模式發(fā)現(xiàn)的可視化、模式展現(xiàn)形式的多樣性等方面的研究。對(duì)于某些領(lǐng)域,如航天器測(cè)試中對(duì)數(shù)據(jù)分析的重點(diǎn)并非模式發(fā)現(xiàn)或者時(shí)間序列預(yù)測(cè),而需要直接對(duì)原始數(shù)據(jù)進(jìn)行查詢分析,由測(cè)試人員來對(duì)數(shù)據(jù)的正確性進(jìn)行判斷,因此,目前已有的可視化工具都無法滿足該需求。
當(dāng)時(shí)間序列數(shù)據(jù)存儲(chǔ)于時(shí)間序列數(shù)據(jù)庫(kù)后,為便于分析,比較常用的方法是從數(shù)據(jù)庫(kù)中檢索數(shù)據(jù),并將數(shù)據(jù)以曲線的形式展現(xiàn)出來,使得數(shù)據(jù)分析人員能夠直觀地對(duì)檢索的數(shù)據(jù)趨勢(shì)以及局部數(shù)據(jù)進(jìn)行分析。但是由于數(shù)據(jù)的時(shí)間密度大,如在航天器測(cè)試應(yīng)用中按照1 s 1條記錄計(jì)算,一天的數(shù)據(jù)量就是86 400條,按照1周為數(shù)據(jù)分析周期,則總的數(shù)據(jù)量為604 800條。將如此多的數(shù)據(jù)一次全部檢索出來并繪制出曲線是不大可行的:一方面將數(shù)據(jù)從數(shù)據(jù)庫(kù)中檢索出來需要耗費(fèi)大量的時(shí)間,漫長(zhǎng)的響應(yīng)等待時(shí)間是用戶難以接受的;另一方面巨大的數(shù)據(jù)量會(huì)消耗分析軟件大量的內(nèi)存空間,當(dāng)數(shù)據(jù)量再變大,實(shí)現(xiàn)數(shù)據(jù)的全部繪制就不可行了。
傳統(tǒng)的解決方案都是將大量的數(shù)據(jù)以分頁(yè)的形式進(jìn)行處理,即每次檢索出固定數(shù)量的數(shù)據(jù)并繪制出曲線,當(dāng)用戶點(diǎn)擊下一頁(yè)時(shí)再將相同數(shù)量后一個(gè)時(shí)間段的數(shù)據(jù)檢索出來進(jìn)行繪制。這樣做有如下不足:假設(shè)每頁(yè)數(shù)據(jù)顯示2 000條時(shí),這些數(shù)據(jù)按照1 s 1條計(jì)算,僅涉及了約33 min的數(shù)據(jù),對(duì)于1周的分析周期顯得過于短暫,分析人員無法對(duì)1周數(shù)據(jù)的大致發(fā)展趨勢(shì)進(jìn)行判斷,同時(shí)也無法快速定位異常數(shù)據(jù)所處的時(shí)間區(qū)間。
另一個(gè)解決思路是采用常見的曲線壓縮算法如Douglas-Poiker法、線段過濾法、垂距限值法等對(duì)數(shù)據(jù)進(jìn)行壓縮,從而進(jìn)行曲線繪制。這些算法的優(yōu)點(diǎn)是都能取出較能體現(xiàn)曲線特征的特征點(diǎn),從而使繪制出的特征點(diǎn)曲線能較好地逼近原始曲線。但是,將這些算法應(yīng)用在這種極大數(shù)據(jù)量的環(huán)境中存在2個(gè)問題:
(1)這些算法都需要遍歷所有的數(shù)據(jù),并進(jìn)行數(shù)據(jù)之間的運(yùn)算才能取出特征點(diǎn)。如果按照前面所述的1 s 1條數(shù)據(jù),從數(shù)據(jù)庫(kù)中查詢出一周的數(shù)據(jù)而不進(jìn)行任何數(shù)據(jù)之間的運(yùn)算都需要較長(zhǎng)時(shí)間,再加上數(shù)據(jù)運(yùn)算,繪制曲線需要的時(shí)間顯然是不可接受的。
(2)這些算法雖然都能壓縮數(shù)據(jù)量,但是壓縮程度都依賴于某個(gè)閾值,如Douglas-Poiker法和垂距限值法都需要指定某個(gè)垂距作為數(shù)據(jù)過濾的閾值,線段過濾法需要指定線段長(zhǎng)度作為數(shù)據(jù)過濾的閾值。對(duì)于不同的數(shù)據(jù)需要不同的閾值,分析人員往往無法直接提供出合適的閾值。
目前,針對(duì)這種大數(shù)據(jù)量數(shù)據(jù)的一次曲線顯示查詢還沒有較好的解決方案。
本文提出基于分段極值的時(shí)間序列數(shù)據(jù)查詢顯示方法,該方法可以指定取點(diǎn)的總個(gè)數(shù),并根據(jù)較少的數(shù)據(jù)點(diǎn)體現(xiàn)數(shù)據(jù)的變化趨勢(shì),結(jié)合多線程機(jī)制提高響應(yīng)速度。
本文方法的基本思路為:對(duì)整個(gè)需要查詢分析的時(shí)間區(qū)間進(jìn)行分段,每個(gè)分段按照一定的策略分別獲取不同個(gè)數(shù)的數(shù)據(jù)點(diǎn),以各個(gè)分段獲取的數(shù)據(jù)點(diǎn)集合作為整個(gè)時(shí)間區(qū)間的趨勢(shì)變化點(diǎn)集;另外,為加快整個(gè)曲線的查詢繪制響應(yīng)速度,每個(gè)分段時(shí)間區(qū)間分別開啟單獨(dú)線程來進(jìn)行數(shù)據(jù)的查詢分析及更新曲線視圖。
2.1 基本定義
假設(shè)需要取點(diǎn)的總個(gè)數(shù)為pcount,該數(shù)據(jù)可由用戶設(shè)定或程序根據(jù)用戶顯示器屏幕分辨率自動(dòng)確定。整個(gè)時(shí)間區(qū)域分成n個(gè)時(shí)間段。
2.1.1 各時(shí)間段取點(diǎn)個(gè)數(shù)的確定
按照一般統(tǒng)計(jì)規(guī)律,對(duì)于任意2個(gè)跨度相同的時(shí)間段,極值相差較大的時(shí)間段能夠容納更多的數(shù)據(jù)變化信息,即隱藏著更多曲線變化,因此宜采集較多的數(shù)據(jù)點(diǎn);而對(duì)于極值相差較小的時(shí)間段,說明該時(shí)間范圍內(nèi)數(shù)據(jù)變化平緩,則可選取少量數(shù)據(jù)點(diǎn)。因此,將較多的點(diǎn)取自變化較大的時(shí)間段,較少的點(diǎn)取自變化平緩的時(shí)間段,能夠在總的取點(diǎn)個(gè)數(shù)一定的情況下較好地反映總的數(shù)據(jù)變化情況。
為了描述數(shù)據(jù)變化程度,對(duì)于第i個(gè)時(shí)間段值的變化情況,本文使用值的絕對(duì)距離di來衡量,即:
其中,maxi為第i個(gè)時(shí)間段內(nèi)數(shù)據(jù)的最大值;mini為第i個(gè)時(shí)間段內(nèi)數(shù)據(jù)的最小值。
根據(jù)式(1),所有分段的絕對(duì)距離之和為:
根據(jù)每一個(gè)時(shí)間段的絕對(duì)距離di在總的絕對(duì)距離之和sum所占的比例來確定第i個(gè)分段的取點(diǎn)個(gè)數(shù),即:
對(duì)于式(3),pi的確定適合于di不等于0的情況,當(dāng)di等于0時(shí),說明該時(shí)間段值無變化,則取pi=2,因此綜合2種情況,pi的取值為:
其中,i的取值范圍為0<i≤n。pi在根據(jù)式(3)計(jì)算時(shí),結(jié)果按照四舍五入取整數(shù)。
2.1.2 取點(diǎn)策略
取點(diǎn)策略包括如下部分:
(1)當(dāng)di=0時(shí),pi=2,說明第i時(shí)間段內(nèi)的數(shù)據(jù)無變化,因此,選取第i個(gè)時(shí)間區(qū)間的首尾2個(gè)點(diǎn)即可代表該時(shí)間段的曲線特征。
(2)為加快數(shù)據(jù)查詢及曲線繪制響應(yīng)速度,避免Douglas-Poiker等方法須將所有數(shù)據(jù)都查詢出來并進(jìn)行計(jì)算及其耗時(shí)的缺陷,本文采用均勻取點(diǎn)的策略,即從所有數(shù)據(jù)點(diǎn)中按照點(diǎn)的序號(hào)等間隔地取點(diǎn)。均勻取點(diǎn)一方面能夠根據(jù)總數(shù)據(jù)量和均勻間隔有效控制取點(diǎn)個(gè)數(shù);另一方面均勻取點(diǎn)能夠直接得到數(shù)據(jù)庫(kù)的支持,主流大型數(shù)據(jù)庫(kù)如ORACLE,DB2等通過SQL語(yǔ)句就能實(shí)現(xiàn)均勻取點(diǎn),數(shù)據(jù)庫(kù)查詢出的點(diǎn)即目標(biāo)點(diǎn),能夠極大地縮短查詢?nèi)↑c(diǎn)耗時(shí)。
(3)對(duì)于每個(gè)時(shí)間段,最大值及最小值也作為目標(biāo)點(diǎn)進(jìn)行查詢及曲線繪制。
2.1.3 分段個(gè)數(shù)的確定
令整個(gè)需要進(jìn)行查詢分析時(shí)間區(qū)域的數(shù)據(jù)總個(gè)數(shù)為total,在取點(diǎn)數(shù)量pcount確定的情況下,顯然分段越多取出的數(shù)據(jù)點(diǎn)越能體現(xiàn)原始數(shù)據(jù)的變化趨勢(shì),因此可取:
但是由于n越大,開啟的并行處理線程越多,也將消耗更多的系統(tǒng)資源,因此根據(jù)經(jīng)驗(yàn)n的取值一般不超過50。
2.2 具體過程
曲線查詢繪制子過程drawTendencyCurve如下:
輸入 取點(diǎn)個(gè)數(shù)pcount,時(shí)間區(qū)間timeSE
輸出 由取點(diǎn)集合繪制的曲線
在主過程中,如果用戶要進(jìn)一步查看某段時(shí)間區(qū)間的數(shù)據(jù),則在已繪制的曲線顯示視圖上通過鼠標(biāo)選定某個(gè)區(qū)間,將該區(qū)間的橫坐標(biāo)時(shí)間范圍作為新的查詢時(shí)間區(qū)間,然后再次調(diào)用上述子過程進(jìn)行曲線查詢繪制,使數(shù)據(jù)分析人員可進(jìn)一步查看所選時(shí)間區(qū)域數(shù)據(jù)的細(xì)節(jié),如果用戶不需要進(jìn)一步查看數(shù)據(jù),則結(jié)束本次曲線繪制。
現(xiàn)有一個(gè)航天領(lǐng)域內(nèi)測(cè)試數(shù)據(jù)管理的應(yīng)用系統(tǒng)。該應(yīng)用系統(tǒng)提供的主要功能包括對(duì)海量的航天器試驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)入庫(kù)以及數(shù)據(jù)查詢分析。該應(yīng)用系統(tǒng)的數(shù)據(jù)庫(kù)中主要數(shù)據(jù)表的字段分別為時(shí)間、[參數(shù)1]、[參數(shù)2]、[參數(shù)3]、……,其中時(shí)間作為主鍵,精確到ms,時(shí)間列在數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)類型為長(zhǎng)整型數(shù)據(jù)。數(shù)據(jù)庫(kù)系統(tǒng)采用ORACLE 9I數(shù)據(jù)庫(kù)。該應(yīng)用系統(tǒng)的數(shù)據(jù)查詢分析子系統(tǒng)基于本文方法對(duì)測(cè)試數(shù)據(jù)進(jìn)行查詢以及曲線繪制,子系統(tǒng)采用 Java語(yǔ)言實(shí)現(xiàn),曲線繪制使用的是開源JFREECHART工具包,運(yùn)行于普通PC。實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境
數(shù)據(jù)庫(kù)中存儲(chǔ)有一年的航天器測(cè)試數(shù)據(jù)。實(shí)驗(yàn)過程為按本文方法取3 000個(gè)點(diǎn)進(jìn)行曲線繪制,然后取出該時(shí)間段所有數(shù)據(jù)點(diǎn)進(jìn)行曲線繪制,比較兩者的耗時(shí)及曲線形態(tài)。
本次實(shí)驗(yàn)查詢的參數(shù)為A01,查詢時(shí)間范圍為2006年10月17日-10月27日共10天的數(shù)據(jù),數(shù)據(jù)量為405 300條,曲線視圖中橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示參數(shù)編號(hào)為A01中的數(shù)值。
下文詳細(xì)分析實(shí)驗(yàn)中數(shù)據(jù)的查詢及曲線繪制過程:
(1)根據(jù)式(5)得出的n值均遠(yuǎn)大于50,故此處n取值為50,即分成50個(gè)時(shí)間段,每個(gè)時(shí)間段所含的數(shù)據(jù)量為pavg=405 300/50=8 106條。
(2)分別查出各段數(shù)據(jù)的起止時(shí)間點(diǎn),SQL語(yǔ)句為:SELECT time FROM(SELECT time,ROWNUM from tb_name WHERE time BETWEEN 1161043100000 AND 1161935558000 AND(A01 IS NOT NULL)) WHERE MOD(ROWNUM-1,pavg)=0,其中,tb_name為對(duì)應(yīng)表的名稱;ROWNUM是ORACLE系統(tǒng)順序分配為從查詢返回的行的編號(hào);1161043100000為實(shí)驗(yàn)的查詢起始時(shí)間2006年10月17日07:58:20的長(zhǎng)整數(shù)表示;1161935558000是查詢結(jié)束時(shí)間2006年10月27日15:52:38的長(zhǎng)整數(shù)表示。
(4)初始化曲線繪制視圖,將所有已獲取各時(shí)間段的最大值與最小值繪制于曲線顯示視圖中。本次實(shí)驗(yàn)中50個(gè)時(shí)間分段的最大值與最小值一共為100個(gè)數(shù)據(jù)點(diǎn),采用連線的形式將100個(gè)點(diǎn)在曲線顯示視圖中顯示出來,如圖1所示。
圖1 最大最小值曲線繪制截圖
(5)開啟50個(gè)線程,每個(gè)線程負(fù)責(zé)處理一個(gè)時(shí)間段的曲線數(shù)據(jù)查詢及視圖更新。令50個(gè)時(shí)間分段中每個(gè)分段的起止時(shí)間分別為(t1,t2),(t3,t4),…,(ti,ti+1),…,(t50,t51),以及對(duì)應(yīng)的時(shí)間段內(nèi)要取點(diǎn)的個(gè)數(shù)為pi,則第i個(gè)線程構(gòu)造的SQL查詢語(yǔ)句為:SELECT time, A01 FROM(SELECT time,A01,ROWNUM FROM tb_ name WHERE time BETWEEN tiAND ti+1AND A01 IS NOT NULL)WHERE MOD(ROWNUM-1,tvi)=0,其中,tb_name為對(duì)應(yīng)的表名稱;參數(shù)tvi=pavg/pi;tvi表示需要均勻間隔取點(diǎn)的間隔數(shù);ti,ti+1分別表示第i個(gè)時(shí)間段的起始和結(jié)束時(shí)間值。
(6)當(dāng)50個(gè)線程都處理完成時(shí),則曲線繪制完畢。用戶可以查看所繪制的曲線,分析曲線整體的趨勢(shì),以及其是否存在異常,并將所繪制的曲線數(shù)據(jù)保存起來供后續(xù)查看分析。
本次實(shí)驗(yàn)曲線繪制完畢后在曲線顯示視圖中的顯示如圖 2所示,繪制的數(shù)據(jù)點(diǎn)個(gè)數(shù)一共為3 010個(gè),由于pi的計(jì)算采用了四舍五入,且tvi的計(jì)算也是取整,因此總的取點(diǎn)個(gè)數(shù)只會(huì)近似于pcount。對(duì)比圖3未使用本文方法將所有數(shù)據(jù)進(jìn)行繪制的顯示圖,可以看出兩者的曲線相當(dāng)逼近,圖2以較少的數(shù)據(jù)點(diǎn)很好地體現(xiàn)了圖3的曲線特征,并且采用本文方法最終的耗時(shí)僅為5 s,遠(yuǎn)小于取出全部數(shù)據(jù)的572 s耗時(shí),當(dāng)采用Douglas-Poiker法或者垂距限值法時(shí),因?yàn)檫€存在數(shù)據(jù)運(yùn)算,顯然時(shí)間會(huì)大于572 s。
圖3 全部數(shù)據(jù)點(diǎn)查詢曲線繪制截圖
通過實(shí)驗(yàn)可以看出,本文方法無論在時(shí)間、空間上都優(yōu)于其他曲線壓縮算法,并且具有較好的曲線特征提取效果,能夠更好地應(yīng)用于工程實(shí)踐中。在航天器測(cè)試領(lǐng)域,大部分參數(shù)的變化都應(yīng)該遵循某個(gè)變化規(guī)律或者變化的幅度處于某個(gè)指定的區(qū)間,數(shù)據(jù)分析人員通過繪制的曲線能很容易找到這些特征,并定位異常數(shù)據(jù)。本文方法對(duì)分析該航天器是否存在異常提供了便利,方便數(shù)據(jù)分析人員在短時(shí)間內(nèi)查看長(zhǎng)時(shí)間數(shù)據(jù)的曲線走勢(shì),根據(jù)該曲線判斷是否存在異常,并且能夠快速定位異常數(shù)據(jù)的位置,根據(jù)定位到的異常數(shù)據(jù)進(jìn)一步分析該航天器的哪個(gè)部分出現(xiàn)問題。
時(shí)間序列數(shù)據(jù)由于其龐大的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)查詢及可視化方法在時(shí)空效率上都難以取得理想效果。本文結(jié)合航天器測(cè)試領(lǐng)域內(nèi)的數(shù)據(jù)分析需求,提出一種基于分段極值的時(shí)間序列數(shù)據(jù)查詢顯示方法。通過對(duì)要查詢分析的時(shí)間范圍進(jìn)行分段,在各分段內(nèi)部采用均勻取點(diǎn),由于數(shù)據(jù)庫(kù)本身支持均勻取點(diǎn),因此能夠獲得較快的取點(diǎn)速度,實(shí)驗(yàn)結(jié)果表明,該方法在時(shí)空效率及查詢效果上具有較好的工程實(shí)用性。目前,本文方法已經(jīng)成功應(yīng)用于多個(gè)型號(hào)的航天器測(cè)試數(shù)據(jù)分析系統(tǒng)中。如何更為合理地確定各分段取點(diǎn)個(gè)數(shù)將是下一步將要解決的問題。
[1] 李重文,李先軍,葉 鋼,等.一種大數(shù)據(jù)量的曲線顯示查詢方法:中國(guó),ZL 201010555587.4[P].2011-12-07.
[2] Yang Yin,Papadopoulos S,Papadias D,et al.Authenticated Indexing for Outsourced Spatial Databases[J]. VLDB Journal,18(3):631-648.
[3] Bueno R,Traina A J M,Traina J C.Genetic Alogorithms for Approximate Similarity Queries[J].Dataand Knowledge Engineering,2007,62(3):459-482.
[4] 覃 征,李愛國(guó).時(shí)間序列數(shù)據(jù)的穩(wěn)健最優(yōu)分割[J].西安交通大學(xué)學(xué)報(bào),2003,37(4):338-342.
[5] 肖 輝,胡運(yùn)發(fā).基于分段時(shí)間彎曲距離的時(shí)間序列挖掘[J].計(jì)算機(jī)研究與發(fā)展,2005,42(1):72-78.
[6] 薛海東,朱群雄.基于結(jié)構(gòu)化類比的時(shí)間序列預(yù)測(cè)算法[J].計(jì)算機(jī)工程,2010,36(1):211-214.
[7] 劉志剛,杜 娟,許少華,等.基于過程神經(jīng)元網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)方法[J].計(jì)算機(jī)工程,2012,38(5): 199-201.
[8] Yu Jin,Hunter J,Reiter E,et al.Recognising Visual Patterns to Communicate Gas Turbine Time-series Data [C]//Proc.of the 22nd SGAI International Conference on Knowledge Based Systems and Applied Artificial Intelligence.London,UK:Springer,2002:105-118.
[9] Hochheiser H,Shneiderman B.VisualQueries for Finding Patterns in Time Series Data[D].Baltimore, USA:University of Maryland,2002.
[10] Hochheiser H,Shneiderman B.Visual Specification of Queries for Finding Patterns in Time-series Data[D]. Baltimore,USA:University of Maryland,2001.
[11] Hochheiser H.Interactive Graphical Querying of Time Series and Linear Sequence Data Sets[D].Baltimore, USA:University of Maryland,2003.
[12] Weber M,Alexa M,Muller W.Visualizing Time-series on Spirals[C]//Proc.of IEEE Symposium on Information Visualization.San Diego,USA:IEEE Press, 2001:7-13.
[13] Hochheiser H,Shneiderman B.Dynamic Query Tools for Time Series Data Sets:Timebox Widgets for Interactive Exploration[J].Information Visualization,2004,3(1): 1-18.
[14] Lin J,Keogh E,Lonardi S.Visualizing and Discovering Non-trivial Patterns in Large Time Series Databases[J]. Information Visualization,2005,4(2):61-82.
[15] Kumar N,Lolla N,Keogh E.Time-series Bitmaps:A Practical Visualization Tool for Working with Large Time Series Databases[C]//Proc.of SSIAM'05. Newport Beach,USA:[s.n.],2005:531-535.
編輯 任吉慧
Method for Query and Display of Time-series Data Based on Extreme Value of Segmented Periods
LI Zhong-wen1,DENG Teng-bin2,MA Shi-long3
(1.College of Engineering&Design,Hunan Normal University,Changsha 410081,China;
2.Institute of Electronic and Information Engineering in Dongguan,University of Electronic Science and Technology of China, Dongguan 523808,China;3.State Key Laboratory of Software Development Environment,Beihang University,Beijing 100191,China)
Time-series is a kind of important data object and is ubiquitous in the world.Due to its very large quality and complexity,data query and analysis base on the source data do pay high costs on time and memory of computer.A method for querying and displaying time-series data based on segmented extreme value is proposed.It segments the range of time to be queried and analyzed into periods of time,and then determines the number of access points in a period of time according to extreme value of each period of time and the total number of access points,accessing the points uniformly through a database query mechanism itself and combined with multi-threading mechanism to achieve parallel query and curve drawing of each time period data.Experimental results show that compared with traditional methods,the number of access points is able to be specified,and the drawn curve has a good approximation of the original curve in the case that the number of access points are determined.It is able to greatly shorten the curve querying and drawing time,
with good engineering practicality.
time-series;database query;time-series database;curve drawing;data compression;data analysis
1000-3428(2014)09-0027-05
A
TP311.13
10.3969/j.issn.1000-3428.2014.09.006
湖南省自然科學(xué)基金資助項(xiàng)目(13JJ6029);湖南師范大學(xué)青年優(yōu)秀人才培養(yǎng)計(jì)劃基金資助項(xiàng)目(ET13108);東莞市高等院校科研機(jī)構(gòu)科技計(jì)劃基金資助項(xiàng)目(20121081001019)。
李重文(1981-),男,博士,主研方向:海量數(shù)據(jù)處理,自動(dòng)化測(cè)試;鄧騰彬,助理研究員;馬世龍,教授。
2013-10-10
2013-12-19E-mail:lee_zw@163.com