高曉靜,艾文文,王博妮,張嵐,許福根
(江蘇省氣象局,江蘇南京 210019)
隨著大數(shù)據(jù)技術(shù)在氣象檢測數(shù)字化中的應(yīng)用,氣象部門積累了大量歷史氣象數(shù)據(jù)。如何儲(chǔ)存和處理產(chǎn)生的海量數(shù)據(jù),并及時(shí)將檢測結(jié)果進(jìn)行可視化分析,成為了氣象領(lǐng)域相關(guān)學(xué)者研究的熱點(diǎn)課題之一[1-3]。各類先進(jìn)、精密的設(shè)備不間斷地產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)的背后蘊(yùn)含著一定的邏輯關(guān)系,可為氣象災(zāi)害風(fēng)險(xiǎn)評估提供必要的數(shù)據(jù)支撐[4]。
傳統(tǒng)數(shù)據(jù)挖掘分析方法在面對以兆為數(shù)量級高速增長的數(shù)據(jù)時(shí),存在處理速度慢、計(jì)算效率低等缺點(diǎn);而云計(jì)算技術(shù)則在海量數(shù)據(jù)計(jì)算方面展示出了強(qiáng)大的優(yōu)勢[5-9]。利用云計(jì)算技術(shù)來儲(chǔ)存與處理海量氣象數(shù)據(jù),已成為當(dāng)前的研究熱點(diǎn)方向之一。借助動(dòng)態(tài)監(jiān)測技術(shù),并將分析結(jié)果利用計(jì)算機(jī)圖形技術(shù)以圖像的形式展示出來,可提高人們對氣象信息的整體認(rèn)知,進(jìn)而降低氣象災(zāi)害帶來的損失[10-13]。
該文針對氣象數(shù)據(jù)采集途徑和數(shù)據(jù)特點(diǎn),使用云儲(chǔ)存技術(shù)進(jìn)行氣象數(shù)據(jù)的儲(chǔ)存與處理,并提高數(shù)據(jù)處理效率。采用基于視頻壓縮編碼的方法將氣象數(shù)據(jù)進(jìn)行分解,并利用雙線性插值法對其進(jìn)行修正,最終通過壓縮矩陣Apriori 改進(jìn)算法完成數(shù)據(jù)壓縮。
根據(jù)研究對象的不同,氣象數(shù)據(jù)可分為地面氣象數(shù)據(jù)、高空氣象數(shù)據(jù)、海洋氣象數(shù)據(jù)和衛(wèi)星探測資料等,這些氣象數(shù)據(jù)通常包含了一系列氣象要素:氣溫、氣壓、濕度、風(fēng)速、紫外線指數(shù)及降水量等。這表明氣象數(shù)據(jù)為多源多維數(shù)據(jù)。由于數(shù)據(jù)采集方式的不同,地面站與高空站采集到的氣象數(shù)據(jù)為關(guān)于時(shí)間的連續(xù)性數(shù)據(jù),這些數(shù)據(jù)也關(guān)聯(lián)了采集地的地理信息。
針對氣象數(shù)據(jù)的上述特點(diǎn),面向氣象動(dòng)態(tài)數(shù)據(jù)可視化重構(gòu)算法的云儲(chǔ)存技術(shù)被設(shè)計(jì)為五層結(jié)構(gòu):基礎(chǔ)設(shè)施層、平臺(tái)層、應(yīng)用層、大數(shù)據(jù)層及用戶層,具體架構(gòu)設(shè)計(jì)如圖1 所示。
圖1 該文云儲(chǔ)存架構(gòu)設(shè)計(jì)
其中,基礎(chǔ)設(shè)施層為主要用于氣象數(shù)據(jù)動(dòng)態(tài)可視化的物理設(shè)備,主要有主機(jī)、儲(chǔ)存器、數(shù)據(jù)中心及網(wǎng)絡(luò)設(shè)備等。在云計(jì)算環(huán)境下,原有的基礎(chǔ)設(shè)施需要進(jìn)行云化處理,這些設(shè)備的計(jì)算資源與儲(chǔ)存資源可實(shí)時(shí)動(dòng)態(tài)調(diào)動(dòng),以實(shí)現(xiàn)資源的整合并提高資源利用率。平臺(tái)層主要依托基礎(chǔ)設(shè)施層進(jìn)行云計(jì)算平臺(tái)的搭建,涉及數(shù)據(jù)的儲(chǔ)存、計(jì)算等操作。該文使用Hadoop 分布式文件系統(tǒng)進(jìn)行文件冗余儲(chǔ)存,同時(shí)采用MapReduce 實(shí)現(xiàn)氣象數(shù)據(jù)的并行計(jì)算。應(yīng)用層在平臺(tái)層的基礎(chǔ)上進(jìn)行應(yīng)用開發(fā),實(shí)現(xiàn)氣象站點(diǎn)、云平臺(tái)的管理與監(jiān)控等應(yīng)用;大數(shù)據(jù)層則為應(yīng)用層提供必要的數(shù)據(jù)支撐;用戶層為氣象業(yè)務(wù)部門、氣象科研部門以及其他需要?dú)庀笮畔⒌男袠I(yè)提供訪問渠道,從而實(shí)現(xiàn)氣象數(shù)據(jù)的共享。
考慮到氣象數(shù)據(jù)的傳輸途徑為無線網(wǎng)絡(luò),在網(wǎng)絡(luò)環(huán)境下傳輸海量數(shù)據(jù)進(jìn)行可視化應(yīng)用,對數(shù)據(jù)處理算法的效率和速度要求較高[14-16]。該文根據(jù)相鄰空間標(biāo)量場與矢量場數(shù)據(jù)的特點(diǎn),采用視頻壓縮編碼的方式對數(shù)據(jù)重新進(jìn)行編碼,以提高數(shù)據(jù)傳輸?shù)乃俣取?/p>
由于不同氣象監(jiān)測設(shè)備的數(shù)據(jù)格式不統(tǒng)一,無法建立相關(guān)聯(lián)的可視化成像算法,因此需要將數(shù)據(jù)格式進(jìn)行統(tǒng)一化處理。該文用于可視化重建算法的數(shù)據(jù),在結(jié)構(gòu)上分為數(shù)據(jù)頭和數(shù)據(jù)主體兩個(gè)部分。數(shù)據(jù)頭為統(tǒng)一的儲(chǔ)存日期、時(shí)間、預(yù)報(bào)時(shí)效、經(jīng)度格距、緯度格距以及數(shù)據(jù)的類型信息;數(shù)據(jù)主體則為具體內(nèi)容。
以溫度數(shù)據(jù)為例,該文利用多維數(shù)據(jù)分解算法按照不同的時(shí)間,將四維數(shù)據(jù)分解成一系列同一空間的三維數(shù)據(jù)體;再將三維數(shù)據(jù)體按照不同高度分解成一系列結(jié)構(gòu)一致的二維網(wǎng)格數(shù)據(jù)。這些網(wǎng)格數(shù)據(jù)代表著某時(shí)刻、某高度、某空間位置的溫度信息,四維數(shù)據(jù)分解為二維數(shù)據(jù)體示意圖如圖2 所示。
圖2 四維數(shù)據(jù)分解為二維數(shù)據(jù)體示意圖
考慮到大多數(shù)氣象設(shè)備采集到的數(shù)據(jù)存在精度低、可視化效果差的問題,需要進(jìn)行插值處理來提高數(shù)據(jù)量。通常采用左上、左下、右上、右下這4個(gè)數(shù)據(jù)來獲得采樣點(diǎn)的數(shù)值。當(dāng)這4 個(gè)網(wǎng)格點(diǎn)的數(shù)值相差較小時(shí),則直接選取距離該采樣點(diǎn)最近的網(wǎng)格點(diǎn)數(shù)值作為采樣值,從而降低計(jì)算量。其取值示意圖如圖3 所示。而當(dāng)4 個(gè)網(wǎng)格點(diǎn)的數(shù)值差異較大時(shí),采用雙線性插值法來獲得采樣點(diǎn)數(shù)值,如圖4 所示。假定P為采樣點(diǎn),其坐標(biāo)被定義為P(x,y),其數(shù)值為F(x,y)。而基于雙線性插值法的表達(dá)式如下所示:
圖3 不插值采樣點(diǎn)取值示意圖
圖4 基于雙線性插值采樣點(diǎn)取值示意圖
經(jīng)過雙線性插值處理后的溫度數(shù)據(jù)具有以下特點(diǎn):
1)具有時(shí)間、高度、經(jīng)度、維度四維特征;
2)在不同高度層面上,經(jīng)度、維度組成的二維網(wǎng)格數(shù)據(jù)是規(guī)則的二維網(wǎng)絡(luò)數(shù)據(jù);
3)數(shù)據(jù)量顯著增加,新增了大量的無效圖像化數(shù)據(jù)。
針對上述特點(diǎn),由于采用了視頻圖像格式進(jìn)行數(shù)據(jù)傳輸會(huì)產(chǎn)生無意義的2 GB 和Alpha通道,且這部分?jǐn)?shù)據(jù)具有各向同值的特點(diǎn),所以壓縮操作對后續(xù)數(shù)據(jù)可視化處理并不會(huì)產(chǎn)生較大影響。
為了提高對氣象數(shù)據(jù)的潛在聯(lián)系與規(guī)律數(shù)據(jù)挖掘的能力,需要對數(shù)據(jù)進(jìn)行關(guān)聯(lián)。由于氣象數(shù)據(jù)的體量較大,使用少數(shù)計(jì)算機(jī)進(jìn)行大規(guī)模數(shù)據(jù)處理需要消耗大量的時(shí)間;而云計(jì)算技術(shù)采用并行算法,則可顯著提高數(shù)據(jù)關(guān)聯(lián)的效率。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域,其目的是發(fā)現(xiàn)各類數(shù)據(jù)之間的關(guān)聯(lián)性,實(shí)現(xiàn)數(shù)據(jù)的整體把控。對于任意一個(gè)事務(wù)數(shù)據(jù)庫,關(guān)聯(lián)規(guī)則被用來產(chǎn)生支持度和置信度,所生成的數(shù)值均不小于預(yù)定的最小值。
傳統(tǒng)基于矩陣的改進(jìn)Apriori 算法需要巨大的計(jì)算量,并在連接時(shí)生成過多的候選結(jié)果,增加較多的無用元素。針對此問題,該文將矩陣中重復(fù)的事務(wù)整合成一列,通過設(shè)定一個(gè)權(quán)值數(shù)組w來儲(chǔ)存重復(fù)事務(wù)的條數(shù),同時(shí)另外設(shè)定數(shù)組m,儲(chǔ)存矩陣中元素為1 的列數(shù)。通過數(shù)組m來獲取事務(wù)的長度,進(jìn)而縮短壓縮矩陣的時(shí)間。為了降低無用元素的個(gè)數(shù),需要對矩陣的行與列進(jìn)行壓縮。
定理1:假定集合的項(xiàng)均按照字典順序進(jìn)行排列。當(dāng)從k項(xiàng)集合生成k+1 項(xiàng)集合時(shí),若這兩個(gè)集合前k-1 項(xiàng)不一致,則稱這兩個(gè)集合為不可連接的。
推論1:根據(jù)頻繁項(xiàng)集I支持度的計(jì)數(shù)遞增順序?qū)⒚總€(gè)項(xiàng)目集合中的元素進(jìn)行排序,若存在兩個(gè)頻繁項(xiàng)集Ix和Iy是不可連接的,則Ix、Iy后續(xù)的項(xiàng)目集合均為不可連接。
由于無法連接的項(xiàng)集對數(shù)據(jù)挖掘的意義較小,根據(jù)以上定理和推論,可將矩陣中不能與相鄰項(xiàng)集連接的子集行向量刪除。同時(shí)修改數(shù)組m,將剩下的行向量按原順序組成新的矩陣,進(jìn)而縮小矩陣的規(guī)模。
在四維數(shù)據(jù)體被雙線性插值處理為規(guī)則二維網(wǎng)格數(shù)據(jù)后,采用色彩空間變換方法將規(guī)則二維數(shù)據(jù)處理為RGB 圖像;然后使用VP9 視頻編碼器和色度子采樣模型將RGB 圖像轉(zhuǎn)化為視頻數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的可視化。在這一過程中,VP9 編碼以最大冗余來進(jìn)行編碼壓縮,從而保證數(shù)據(jù)質(zhì)量。
該文測試使用的數(shù)據(jù)來自中國科學(xué)院國家空間科學(xué)中心網(wǎng)站,主要包含溫度數(shù)據(jù)和風(fēng)速數(shù)據(jù)兩類,如表1 所示。測試硬件采用了Intel Core i7-6700HQ處理器、16 GB 內(nèi)存、1 TB 固態(tài)硬盤以及Nvidia GeForce GTX 960M 顯卡;軟件則選用了Win7 64 位操作系統(tǒng)、HTML、CSS、JavaScript 等編輯語言。
表1 原始數(shù)據(jù)氣象數(shù)據(jù)明細(xì)
從表1 可以看出,溫度場和風(fēng)場在緯度方向上并不是等間隔的,這對后期可視化處理效果具有較大影響。原始數(shù)據(jù)在經(jīng)過雙線性插值處理后,變?yōu)橐?guī)則數(shù)據(jù)如表2 所示。在表2 中,溫度場數(shù)據(jù)和風(fēng)場數(shù)據(jù)在緯度方向已轉(zhuǎn)變?yōu)?°的間隔數(shù)據(jù),且整體數(shù)據(jù)量有所增加。
表2 插值后氣象數(shù)據(jù)明細(xì)
為了驗(yàn)證該文所提出的視頻壓縮編碼方法(M3)在數(shù)據(jù)傳輸方面的優(yōu)勢,使用局域網(wǎng)環(huán)境進(jìn)行對比實(shí)驗(yàn)。對照組采用基于DAT(M1)和分包ZIP(M2)兩種數(shù)據(jù)傳輸方法進(jìn)行同等可視化質(zhì)量數(shù)據(jù)傳輸試驗(yàn)。在試驗(yàn)中,同等可視化質(zhì)量被定義為單幀圖像分辨率為1 080 P,其具有相同的數(shù)據(jù)可視化實(shí)際空間分辨率和比例尺數(shù)值。為了降低網(wǎng)絡(luò)傳輸?shù)挠绊懀捎肏TTP 協(xié)議進(jìn)行數(shù)據(jù)的網(wǎng)絡(luò)傳輸,并采用連續(xù)25 幀的數(shù)據(jù)傳輸量以降低緩存效率與傳輸丟包的影響。對比實(shí)驗(yàn)結(jié)果如圖5 所示。
圖5 不同方法所需數(shù)據(jù)量對比
從圖5 可以看出,在進(jìn)行同質(zhì)量可視化單幀圖像處理時(shí),三種數(shù)據(jù)傳輸方法所需的數(shù)據(jù)量具有明顯差異。針對溫度場和風(fēng)場,二進(jìn)制化的DAT 格式所需的數(shù)據(jù)量比分包ZIP 壓縮需要的數(shù)據(jù)量多52.1%。這是因?yàn)榉职黌IP 壓縮能夠去除冗余的數(shù)據(jù),大幅減小需要傳輸?shù)臄?shù)據(jù)。而該文所提出的基于視頻壓縮編碼算法在進(jìn)行同質(zhì)量可視化單幀圖像處理時(shí),所需的數(shù)據(jù)量在三種數(shù)據(jù)傳輸方法中最小,比分包ZIP 壓縮算法低31.8%。這是因?yàn)榛谝曨l壓縮編碼方法傳輸?shù)臄?shù)據(jù)是每一層網(wǎng)格數(shù)據(jù)的差異值,而不是原始數(shù)據(jù)。在保證數(shù)據(jù)信息不丟失的情況下,降低了傳輸數(shù)據(jù)量。
該文利用云計(jì)算平臺(tái)進(jìn)行氣象數(shù)據(jù)可視化處理,有效提高了海量數(shù)據(jù)的儲(chǔ)存效率和計(jì)算能力。所述方法利用視頻壓縮編碼算法實(shí)現(xiàn)了網(wǎng)格化的數(shù)據(jù)降維,通過引入雙線性插值法完成了分解后的必要性修正,最后基于改進(jìn)Apriori 算法實(shí)現(xiàn)了數(shù)據(jù)的大幅壓縮。實(shí)驗(yàn)驗(yàn)證結(jié)果表明,該文所提出的基于云儲(chǔ)存的氣象數(shù)據(jù)動(dòng)態(tài)可視化重建算法,在提高數(shù)據(jù)傳輸速率方面具有良好的工程應(yīng)用價(jià)值。