李 冬 雙,滕 玉 浩,羅 文,4,俞 肇 元,4*
(1.江蘇省作物遺傳生理國(guó)家重點(diǎn)實(shí)驗(yàn)室/江蘇省作物栽培生理重點(diǎn)實(shí)驗(yàn)室,揚(yáng)州大學(xué)農(nóng)學(xué)院,江蘇 揚(yáng)州 225009;2.江蘇省糧食作物現(xiàn)代產(chǎn)業(yè)技術(shù)協(xié)同創(chuàng)新中心,揚(yáng)州大學(xué),江蘇 揚(yáng)州 225009;3.南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023;4.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023)
地理時(shí)空?qǐng)鍪强臻g位置參照和時(shí)間參照與屬性域之間的連續(xù)映射,表征了空間和時(shí)間上的連續(xù)演化現(xiàn)象。多樣的地理要素及其時(shí)空演變使地理時(shí)空?qǐng)霰憩F(xiàn)出明顯異質(zhì)性特點(diǎn)[1],這種異質(zhì)性體現(xiàn)在維度異質(zhì)性和分布異質(zhì)性兩方面。其中維度異質(zhì)性指時(shí)間維度、空間維度和屬性維度在長(zhǎng)度上往往是不均等的,如對(duì)于長(zhǎng)時(shí)間觀測(cè)序列,時(shí)間維上的數(shù)據(jù)長(zhǎng)度則顯著大于空間維上的數(shù)據(jù)長(zhǎng)度;分布異質(zhì)性主要受空間、時(shí)間和屬性的不同影響,使地理數(shù)據(jù)在不同區(qū)域內(nèi)呈現(xiàn)出分布不均勻性、空間非均勻性和時(shí)間非平穩(wěn)性,從而表現(xiàn)出結(jié)構(gòu)異質(zhì)性特征[2]。異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的處理和分析已成為時(shí)空?qǐng)鰯?shù)據(jù)分析的熱點(diǎn)[3]。
現(xiàn)有時(shí)空?qǐng)鰯?shù)據(jù)模型主要包括時(shí)空立方體模型、點(diǎn)云模型和參數(shù)化模型3類[4]。時(shí)空立方體模型可看作是由一系列規(guī)則柵格堆疊而成的多維矩陣,該類數(shù)據(jù)模型在規(guī)則時(shí)空?qǐng)霰碚魃嫌袃?yōu)勢(shì),但在時(shí)空?qǐng)鰧?duì)象檢索、不同維度重組以及數(shù)據(jù)分析等方面的復(fù)雜度較高[5];點(diǎn)云模型類似于時(shí)空點(diǎn)對(duì)象,為包含多個(gè)屬性值的多維點(diǎn)集結(jié)構(gòu),該類模型可有效進(jìn)行維度擴(kuò)展和組合,但由于各質(zhì)點(diǎn)間關(guān)系模糊、結(jié)構(gòu)性差,不利于復(fù)雜的時(shí)空特征分析方法的構(gòu)建[6];近年來,基于參數(shù)的場(chǎng)表達(dá)與分析在物理學(xué)、工程應(yīng)用等領(lǐng)域得到較大發(fā)展[7,8],參數(shù)化模型多適用于結(jié)構(gòu)規(guī)律性強(qiáng)、機(jī)理過程相對(duì)明確的時(shí)空?qǐng)龅谋碚?,但地學(xué)時(shí)空?qǐng)鰯?shù)據(jù)往往表現(xiàn)出顯著的多尺度疊加的異質(zhì)性特征,機(jī)理過程不明確,導(dǎo)致參數(shù)化模型在地理時(shí)空?qǐng)霰磉_(dá)中應(yīng)用不多[9]。上述3類時(shí)空?qǐng)瞿P投嗔⒆阌趯?duì)現(xiàn)有空間數(shù)據(jù)模型的時(shí)域拓展,在高維數(shù)據(jù)表達(dá)以及異質(zhì)性的時(shí)空數(shù)據(jù)分析支撐方面尚顯薄弱。
張量是矩陣的高維擴(kuò)展,可用于多變量、多坐標(biāo)系統(tǒng)對(duì)象的統(tǒng)一表達(dá),是進(jìn)行地理時(shí)空?qǐng)鰯?shù)據(jù)組織的有效工具。張量結(jié)構(gòu)的多維表達(dá)特性為時(shí)空?qǐng)鰯?shù)據(jù)的表達(dá)提供了原生數(shù)學(xué)支撐。張量分解則通過對(duì)張量數(shù)據(jù)進(jìn)行投影映射,利用線性或?qū)哟位慕Y(jié)構(gòu)將高維時(shí)空?qǐng)鲛D(zhuǎn)換成低維的張量、矩陣或向量[10,11],實(shí)現(xiàn)對(duì)時(shí)空?qǐng)鲋袛?shù)據(jù)特征的解析和提取,可以挖掘不同維度數(shù)據(jù)間整體的耦合作用關(guān)系,并有效支撐時(shí)空?qǐng)鰯?shù)據(jù)的組織和特征分析,已廣泛應(yīng)用于地理時(shí)空?qǐng)鰯?shù)據(jù)特征提取、組織管理以及可視化分析等方面[12,13]。然而,經(jīng)典的張量分解模型主要利用矩陣化方式進(jìn)行降維,進(jìn)而在降維矩陣上通過諸如矩陣分解等方法進(jìn)行特征提取。準(zhǔn)確的張量分解多依托于兩類假設(shè):1)觀測(cè)數(shù)據(jù)在不同維度上的數(shù)據(jù)長(zhǎng)度相對(duì)一致[14],該假設(shè)是為保證張量矩陣化后,不會(huì)因?yàn)榫仃囋诓煌S度上數(shù)據(jù)長(zhǎng)度差異過大導(dǎo)致矩陣分解獲得的特征存在明顯偏差;2)觀測(cè)數(shù)據(jù)的數(shù)值分布相對(duì)均一,不存在顯著的結(jié)構(gòu)差異或突變[15],該假設(shè)可保證在張量矩陣化后,矩陣分解方法可提取出穩(wěn)定的特征分量。但異質(zhì)性的地理時(shí)空?qǐng)鰯?shù)據(jù)多難以滿足上述兩類假設(shè),影響張量在異質(zhì)性地理時(shí)空?qǐng)鰯?shù)據(jù)分析中的適用性[16]。
從數(shù)據(jù)投影和數(shù)據(jù)分塊的視角對(duì)此類數(shù)據(jù)進(jìn)行局部拆分,進(jìn)而利用張量算子建立從局部到整體的特征分析框架,是解決異質(zhì)性張量特征分析問題的可行途徑。但數(shù)據(jù)的拆分不僅需要考慮原始時(shí)空?qǐng)鰯?shù)據(jù)的組織管理,還需要考慮不同的數(shù)據(jù)投影或拆分結(jié)果,以及在張量分解過程中產(chǎn)生的過程數(shù)據(jù)的組織與管理。因此,從拆分的視角構(gòu)建異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的張量數(shù)據(jù)模型易導(dǎo)致時(shí)空?qǐng)鰯?shù)據(jù)模型構(gòu)建的復(fù)雜性,需要在現(xiàn)有張量分析的基礎(chǔ)上,通過有效的數(shù)據(jù)組織和變換,建立適用于異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)分析的張量模型。鑒于此,本文將張量引入異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)模型設(shè)計(jì),研究基于張量的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的組織表達(dá)方法,結(jié)合不同類型的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)特點(diǎn),基于面向?qū)ο笤O(shè)計(jì)不同類型的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)類、類中包含的屬性和操作以及不同類之間的邏輯關(guān)系,以期實(shí)現(xiàn)面向異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)分析的張量模型構(gòu)建;在此基礎(chǔ)上,以維度非對(duì)稱數(shù)據(jù)和結(jié)構(gòu)異質(zhì)數(shù)據(jù)特征提取為案例,分析所構(gòu)建模型對(duì)支撐異質(zhì)性時(shí)空?qǐng)鎏卣魈崛〉膬?yōu)勢(shì)。
基于張量的時(shí)空?qǐng)鰯?shù)據(jù)組織模型需要考慮時(shí)空?qǐng)鰯?shù)據(jù)所具有的維度不規(guī)則和分布不規(guī)則的特性(圖1)。對(duì)于維度非對(duì)稱數(shù)據(jù),其不僅具有常規(guī)時(shí)空?qǐng)鰯?shù)據(jù)的多維特性,且各維度數(shù)據(jù)長(zhǎng)度差異較大。因此,為能從多維度聯(lián)合解析,同時(shí)也能有效兼顧各維度的差異性,可以引入維度集合拆分的思路。對(duì)于給定的張量形式表達(dá)的時(shí)空?qǐng)鰯?shù)據(jù)A∈RX×Y×T,其數(shù)據(jù)維度集合{X,Y,T}可拆分為不同的維度組合{X,Y},{X,T},{Y,T}。原始張量數(shù)據(jù)可以被投影到這些不同維度組合上,形成一系列的維度子空間進(jìn)行數(shù)據(jù)組織。這些維度子空間不僅包含所有可能的維度組合,同時(shí)還可以從局部維度視角透視原始數(shù)據(jù)。由于這些維度子空間維度較低,且其各維度上的數(shù)據(jù)長(zhǎng)度相較于原始數(shù)據(jù)更加均衡,因此,綜合不同維度子空間透視原始數(shù)據(jù),可以削弱維度不規(guī)則對(duì)于數(shù)據(jù)整體特征揭示的影響。
圖1 基于張量的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)組織Fig.1 Tensor-based organization of heterogeneous spatial-temporal field data
對(duì)于結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù),其不僅具有常規(guī)時(shí)空?qǐng)鰯?shù)據(jù)的多維特性,而且其各個(gè)局部結(jié)構(gòu)差異較大,因此,需要有效兼顧數(shù)據(jù)整體的多維性和內(nèi)部結(jié)構(gòu)的差異性。借鑒數(shù)據(jù)劃分—合并的思想有助于降低數(shù)據(jù)內(nèi)部分布的異質(zhì)性。對(duì)于張量表達(dá)的時(shí)空?qǐng)鰯?shù)據(jù)A∈RX×Y×T,可將其分割成大小一致的子張量塊{A1∈RX1×Y1×T1,A2∈RX2×Y2×T2,…,An∈RXn×Yn×Tn},構(gòu)建子張量塊相似度度量ρi,i+1=similarity(Ai,Ai+1),similarity( )為相似度計(jì)算函數(shù),由于數(shù)據(jù)的分量既可以是向量形式,也可以是矩陣形式,因此所使用的相似度計(jì)算函數(shù)可以分別采用余弦相似度和皮爾遜相關(guān)系數(shù)等實(shí)現(xiàn),并結(jié)合相似性閾值(α)將子張量塊合并。張量塊的合并是一個(gè)迭代過程,合并的張量塊會(huì)根據(jù)判斷準(zhǔn)則決定是否繼續(xù)與相鄰塊合并。具體而言,若ρi,i+1≥α,則Ai={Ai,Ai+1},即將子張量塊數(shù)據(jù)沿著某維度追加;若ρi,i+1<α,則Ai和Ai+1仍然組織為獨(dú)立的兩塊?;谏鲜鲆?guī)則對(duì)原始數(shù)據(jù)進(jìn)行重組后,其每個(gè)局部子張量塊數(shù)據(jù)內(nèi)部的特征相似,而相鄰子張量塊的特征差異較大。因此,可以在每個(gè)局部子張量上進(jìn)行特征分析,而后合并獲得整體張量的特征結(jié)構(gòu)。
以張量為基礎(chǔ),構(gòu)建具有靈活的維度運(yùn)算特性和高維特征分析能力的張量算子,可以有效支撐張量的數(shù)據(jù)操作和運(yùn)算。面向異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)操作,本文構(gòu)建了表1所示的張量數(shù)據(jù)操作算子,其中張量的維度拆分、數(shù)據(jù)投影和相似度計(jì)算等算子主要用于實(shí)現(xiàn)異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的子空間構(gòu)建、張量分塊、張量合并等操作。考慮到高維相似度測(cè)算通常較為困難,本文設(shè)計(jì)的相似度算子首先利用張量分解得到低維特征分量,進(jìn)而通過分量間相似度計(jì)算函數(shù)估計(jì)高維數(shù)據(jù)的相似度。數(shù)據(jù)投影算子類似于二維矩陣中的特征分解,對(duì)于高維數(shù)據(jù),則可利用張量分解算子實(shí)現(xiàn)高維異質(zhì)數(shù)據(jù)各維度特征的提取,進(jìn)而利用張量重構(gòu)算子實(shí)現(xiàn)對(duì)異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)不同維度的透視[17]。相較于傳統(tǒng)的矩陣分析,基于張量分解的數(shù)據(jù)操作可以避免傳統(tǒng)方法中諸如數(shù)據(jù)向量化造成的維度災(zāi)難[18]。通過在張量框架下構(gòu)建異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的數(shù)據(jù)操作算子,可降低由時(shí)空?qǐng)鰯?shù)據(jù)特性差異導(dǎo)致的數(shù)據(jù)操作復(fù)雜性。
表1 基于張量的數(shù)據(jù)操作Table 1 Tensor-based data manipulation
以張量算子為基礎(chǔ),構(gòu)建異質(zhì)性時(shí)空?qǐng)鼋M織管理和時(shí)空分析的流程如圖2所示。在數(shù)據(jù)組織方面,將觀測(cè)到的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù),根據(jù)時(shí)空特征組織成高階張量的形式,依據(jù)不同異質(zhì)性時(shí)空?qǐng)龅念愋停瑯?gòu)建出對(duì)應(yīng)類型的組織模型;在數(shù)據(jù)操作方面,將張量分塊、合并等操作貫穿于整個(gè)數(shù)據(jù)組織和分析過程中,通過算子定義的方式實(shí)現(xiàn)各類張量操作的函數(shù)化和算子化,以適應(yīng)不同類型時(shí)空?qǐng)鰯?shù)據(jù)的操作;在數(shù)據(jù)分析方面,利用張量分解得到異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)沿經(jīng)度、緯度、時(shí)間的變化特征,利用張量積運(yùn)算即可重構(gòu)出經(jīng)度與緯度、經(jīng)度與時(shí)間、緯度與時(shí)間上的特征分布。
圖2 數(shù)據(jù)模型構(gòu)建流程Fig.2 Data model building process
由于異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的張量表達(dá)在不同類型數(shù)據(jù)之間存在差異性,為簡(jiǎn)化不同數(shù)據(jù)之間處理和操作的難度,利用面向?qū)ο笏枷胫械姆庋b、繼承與多態(tài)等特性進(jìn)行異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)模型的構(gòu)建。首先,由于異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的結(jié)構(gòu)比較復(fù)雜,且涵蓋不同類型,需要根據(jù)規(guī)則化的數(shù)學(xué)描述對(duì)不同類型的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)進(jìn)行完備的張量描述,其不僅能夠描述常規(guī)張量的特性,還應(yīng)包含一些典型的異質(zhì)性特征,以便后續(xù)在這個(gè)規(guī)范化的數(shù)學(xué)描述體系上架構(gòu)分析方法。再者,考慮到異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的結(jié)構(gòu)特殊性,常規(guī)的張量分析方法無法直接應(yīng)用,一個(gè)可行的方法是利用算子構(gòu)建,將異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)盡可能地規(guī)則化,在此基礎(chǔ)上,考慮將其與常規(guī)張量分析方法相結(jié)合,構(gòu)建適用于異質(zhì)結(jié)構(gòu)張量的數(shù)據(jù)分析方法。本文定義了數(shù)據(jù)模型中的類、類中包含的屬性和操作以及不同類之間的邏輯關(guān)系,即異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)模型的UML(Unified Modeling Language)(圖3)。
圖3 異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的UML圖Fig.3 UML diagram of heterogeneous spatial-temporal field data
該數(shù)據(jù)模型中,異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)模型通過基類TensorBase、文件操作類TensorIO、數(shù)據(jù)操作類TensorOP、數(shù)據(jù)分析類TensorAn與數(shù)據(jù)可視化類TensorVisual實(shí)現(xiàn)對(duì)時(shí)空?qǐng)鰯?shù)據(jù)的傳輸、計(jì)算分析與可視化;繼承基類TensorBase,衍生出兩個(gè)子類,分別為維度非對(duì)稱張量類AsyTensor以及結(jié)構(gòu)異質(zhì)張量類HetTensor。其中,基類TensorBase通過眾多變量實(shí)現(xiàn)對(duì)異質(zhì)時(shí)空?qǐng)龅拿枋?,并聚合TensorIO、TensorOP、TensorAn與TensorVisual類實(shí)現(xiàn)對(duì)異質(zhì)時(shí)空?qǐng)龅挠?jì)算和分析,繼承基類的子類可以對(duì)方法進(jìn)行繼承或重寫,為不同數(shù)據(jù)類型提供統(tǒng)一的接口;文件操作類TensorIO包含數(shù)據(jù)的讀入與輸出;數(shù)據(jù)操作類TensorOP貫穿于整個(gè)數(shù)據(jù)模型的建立過程中,包含張量重構(gòu)、合并、連接等運(yùn)算;數(shù)據(jù)分析類TensorAn定義了常用的特征提取方法,如張量Tucker分解、張量CP分解、主成分分析等,用于異質(zhì)性時(shí)空?qǐng)鲆?guī)則化之后的特征提取。子類AsyTensor以及HetTensor分別用于存儲(chǔ)維度非對(duì)稱和結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù),其不僅繼承或重寫了基類TensorBase的屬性與方法,還包含具有自身特點(diǎn)的方法,如非對(duì)稱數(shù)據(jù)的維度拆分方法dimDivision( )以及結(jié)構(gòu)異質(zhì)數(shù)據(jù)的數(shù)據(jù)合并方法tensorCombine( )等。最后利用數(shù)據(jù)分析類TensorAn中定義的方法,完成對(duì)異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的特征提取,并通過算子的重載以滿足不同類型張量分析的算法。具體實(shí)現(xiàn)流程(圖4)為:通過文件操作類TensorIO獲取數(shù)據(jù),根據(jù)異質(zhì)性類型,通過調(diào)用對(duì)應(yīng)子類中的方法,將異質(zhì)性時(shí)空?qǐng)鼋M織成規(guī)則的張量,進(jìn)而通過TensorAn中定義的分析方法完成異質(zhì)性時(shí)空?qǐng)龅奶卣魈崛 ?/p>
圖4 異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)分析步驟Fig.4 Steps for analysis of heterogeneous spatial-temporal field data
基于C++語言建模與構(gòu)建分析系統(tǒng),編寫基于張量的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)模型以及相關(guān)操作方法,構(gòu)建系統(tǒng)底層API;GUI層基于Wxwidgets架構(gòu),并利用VTK(Visualization Tool Kit)實(shí)現(xiàn)基于張量的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的可視化表達(dá)。為驗(yàn)證本文提出的基于張量的異質(zhì)性數(shù)據(jù)模型的優(yōu)勢(shì),選取NOAA(https://psl.noaa.gov/data/20thC-Rean/)發(fā)布的多氣候模型融合形成的氣象再分析氣候模式數(shù)據(jù)構(gòu)建驗(yàn)證實(shí)驗(yàn)。NOAA再分析數(shù)據(jù)只是數(shù)據(jù)本身,實(shí)驗(yàn)分別對(duì)維度非對(duì)稱數(shù)據(jù)和異質(zhì)性數(shù)據(jù)進(jìn)行建模,其對(duì)應(yīng)數(shù)據(jù)模型中AsyTensor類和HetTensor類,并將基于張量的數(shù)據(jù)模型的分析方法與基于傳統(tǒng)時(shí)空數(shù)據(jù)模型的分析方法進(jìn)行對(duì)比。
面向典型的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù),基于TensorIO讀取數(shù)據(jù)。依據(jù)輸入時(shí)空?qǐng)龅漠愘|(zhì)性類型,將原始數(shù)據(jù)組織成對(duì)應(yīng)類型的子類張量,并調(diào)用子類中對(duì)應(yīng)的方法完成數(shù)據(jù)的規(guī)則化,進(jìn)而調(diào)用TensorAn中的方法完成特征提取,如張量CP分解tensorCP( )、張量Tucker分解tensorTucker( )等。
3.2.1 維度非對(duì)稱時(shí)空?qǐng)鰯?shù)據(jù)分析 對(duì)于維度非對(duì)稱時(shí)空?qǐng)鰯?shù)據(jù),為便于構(gòu)建不同維度組合下的子空間,應(yīng)盡可能多選取數(shù)據(jù)集的維度數(shù)。本文選取包含經(jīng)度維、緯度維、高度維和時(shí)間維的四維數(shù)據(jù)集(空間分辨率為2°×2°),并將其存儲(chǔ)為(經(jīng)度×緯度×高度×?xí)r間)時(shí)空?qǐng)鰯?shù)據(jù)Air1∈R180×90×24×756,該數(shù)據(jù)空間與時(shí)間維度上數(shù)據(jù)長(zhǎng)度差異較大,存在明顯的維度非對(duì)稱性。維度非對(duì)稱時(shí)空?qǐng)鰯?shù)據(jù)的特征提取方法(算法1)實(shí)現(xiàn)流程為:首先將原始時(shí)空?qǐng)鰯?shù)據(jù)按照不同維度組合進(jìn)行切片,然后計(jì)算切片數(shù)據(jù)的信息熵并進(jìn)行數(shù)據(jù)降維,得到不同維度組合下的子空間,應(yīng)用主成分分析等方法得到降維后各子空間數(shù)據(jù)的特征結(jié)果。
算法 1:維度非對(duì)稱時(shí)空?qǐng)鰯?shù)據(jù)的特征提取方法
Input:Spatio-temporal field data (STField) with imbalanced dimensions,the dimensions that need to be analyzed.
Output:A series of features ofSTFieldfrom the dimensional perspectivesI,J...
1.slice=tensorSlice(STField,I,J…);//沿著給定的維度I,J…切割數(shù)據(jù)STField
2.entropy=getEntropy(slice);//計(jì)算切割后數(shù)據(jù)的信息熵
3.reduction=tensorReduction(STField,I,J…,entropy);//降低數(shù)據(jù)維度,使降維后數(shù)據(jù)只與給定的維度有關(guān)
4.feature=PCA(reduction);//對(duì)降維后數(shù)據(jù)應(yīng)用主成分分析
5.returnfeature;
為驗(yàn)證本文維度非對(duì)稱數(shù)據(jù)模型的優(yōu)勢(shì),將基于維度子空間組織的特征分解與直接基于原始數(shù)據(jù)的特征分解進(jìn)行對(duì)比。其中,Air_Tucker與Air_CP分別為直接對(duì)原始數(shù)據(jù)進(jìn)行張量Tucker分解與張量CP分解的結(jié)果,Air_PCwx為對(duì)基于維度子空間組織的張量分解結(jié)果。為驗(yàn)證這些特征分量與厄爾尼諾南方濤動(dòng)(ENSO)事件的對(duì)應(yīng)性,選取表征ENSO事件強(qiáng)度的MEI(Multivariate ENSO Index)分別與所提特征分量進(jìn)行對(duì)比,并計(jì)算對(duì)應(yīng)的相關(guān)系數(shù)。從特征曲線對(duì)比看(圖5),本文方法提取的特征曲線在周期和走向上與MEI指數(shù)的對(duì)應(yīng)性較好,Air_PCwx、Air_Tucker和Air_CP與MEI的相關(guān)系數(shù)分別為0.697、0.259和0.137,表明本文方法可以更精確地解析ENSO信號(hào)。但CP分解在2001年以后,曲線走向與MEI相比發(fā)生明顯偏差;Tucker分解在1950-1965年之間,較MEI指數(shù)呈現(xiàn)出較大的偏差。
圖5 不同方法的分解結(jié)果對(duì)比Fig.5 Decomposition result comparison of different methods
3.2.2 結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù)分析 對(duì)于結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù),為便于數(shù)據(jù)塊切割,從簡(jiǎn)單的三維數(shù)據(jù)進(jìn)行嘗試。因此,選取的時(shí)空?qǐng)鰯?shù)據(jù)集在高度上只取表層(空間分辨率為2.5°×2.5°),并將數(shù)據(jù)集存儲(chǔ)為(經(jīng)度×緯度×?xí)r間)時(shí)空?qǐng)鰯?shù)據(jù)Air2∈R144×73×365。由于該數(shù)據(jù)是多年平均數(shù)據(jù),容易受全年不同時(shí)期的氣候事件影響,在時(shí)間上呈現(xiàn)出結(jié)構(gòu)異質(zhì)的特點(diǎn)。構(gòu)建結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù)的特征提取方法(算法2)實(shí)現(xiàn)流程為:首先將原始數(shù)據(jù)切割為一系列的數(shù)據(jù)塊,并計(jì)算相鄰塊之間的相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)結(jié)果和給定的閾值,將數(shù)據(jù)塊進(jìn)行重組(圖6)。由于重組后數(shù)據(jù)塊的內(nèi)部結(jié)果相對(duì)一致,因此在每個(gè)重組數(shù)據(jù)塊上應(yīng)用張量分解可以很好地提取出該類數(shù)據(jù)的整體特征,同時(shí)也有助于消除由數(shù)據(jù)差異導(dǎo)致的估計(jì)偏差問題。
圖6 異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)組織Fig.6 Organization of heterogeneous spatial-temporal field data
算法2:結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù)的特征提取方法
Input:Spatio-temporal field data (STField)with heterogeneous structure
Output:A series of features of the sub-tensor block ofSTField
1.block1,block2,block3,…,blockn=tensorDivide(STField);//將數(shù)據(jù)STField切割為一系列的塊
2.p1,2,p2,3,…,pn-1,n=similarity(block1,block2,block3,…,blockn);// 計(jì)算相鄰數(shù)據(jù)塊之間的相似性
3.subTensor1,…,subTensorn=tensorCombine(block1,block2,…,blockn,p1,2,p2,3,…,pn-1,n);// 根據(jù)相似性重組數(shù)據(jù)塊
4.int i=0;//對(duì)重組后的數(shù)據(jù)塊單獨(dú)應(yīng)用張量分解
5.whileiisthenumberofsubTensordo
6.feature=tuckerDecp(subTensori);
7.add feature tofeatrueList;
8.returnfeatrueList;
為驗(yàn)證本文結(jié)構(gòu)異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù)模型的優(yōu)勢(shì),將基于張量塊數(shù)據(jù)模型的張量分解(簡(jiǎn)稱為局部分解)和直接基于原始數(shù)據(jù)的張量分解(簡(jiǎn)稱為整體分解)結(jié)果進(jìn)行對(duì)比,并繪制這兩種分解結(jié)果在各維度上的相對(duì)誤差率如圖7所示。從誤差的整體比較看,局部分解結(jié)果在時(shí)空維度上的相對(duì)誤差率均小于全局分解的相對(duì)誤差率,說明基于所構(gòu)建的分塊數(shù)據(jù)模型的張量分解可以顯著提高異質(zhì)性變化顯著數(shù)據(jù)的特征估計(jì)的準(zhǔn)確性,且誤差分布更平穩(wěn)。
圖7 不同分解方法的相對(duì)誤差率對(duì)比Fig.7 Relative error rate comparison of different decomposition methods
從上述兩類典型的非規(guī)則時(shí)空?qǐng)鰯?shù)據(jù)的分析流程看,相較于傳統(tǒng)張量分析,基于所構(gòu)建數(shù)據(jù)模型的時(shí)空分析方法在原始張量分解基礎(chǔ)上,增加了數(shù)據(jù)切片、分塊、合并等復(fù)雜度較低的數(shù)據(jù)操作,此類操作的計(jì)算復(fù)雜度相較于張量分解過程中所涉及的大型矩陣的計(jì)算復(fù)雜度幾乎可以忽略不計(jì)。從時(shí)間復(fù)雜度上看,對(duì)維度非對(duì)稱張量計(jì)算復(fù)雜度影響較大的主要是子空間劃分的規(guī)則和規(guī)模。僅就本文所使用數(shù)據(jù)的分析結(jié)果看,Air1數(shù)據(jù)的維度非對(duì)稱張量分解雖較傳統(tǒng)的張量分解耗時(shí)多2.01 s,但對(duì)ENSO等復(fù)雜信號(hào)的揭示更加精確。 而對(duì)異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù),其計(jì)算復(fù)雜度主要與數(shù)據(jù)分塊的模式(分塊數(shù)和分塊的大小)有關(guān),其中數(shù)據(jù)分塊模式取決于數(shù)據(jù)的異質(zhì)性特征,即依賴于具體的數(shù)據(jù)。在本文設(shè)計(jì)中,分塊模式需要根據(jù)相似度計(jì)算函數(shù)和相似性閾值確定。僅就本文所使用數(shù)據(jù)的分析結(jié)果看,Air2數(shù)據(jù)的最佳分塊數(shù)是5,總的分塊及分解時(shí)間為2.27 s,整體分解時(shí)間為5.88 s。整體效率的提升是由于切割之后的張量數(shù)據(jù)塊更小,每塊在張量分解時(shí)耗時(shí)更短。因此,分塊張量分解不僅對(duì)原始數(shù)據(jù)逼近得更加精確,而且比傳統(tǒng)張量分解耗時(shí)少。
本文針對(duì)現(xiàn)有張量分析在支撐異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)所面臨的特征估計(jì)偏差等問題,利用張量結(jié)構(gòu)對(duì)高維數(shù)據(jù)的支撐特性和張量算子的維度融合特性,從局部到整體的分析視角出發(fā),建立了涵蓋張量子空間和張量塊結(jié)構(gòu)的異質(zhì)性時(shí)空?qǐng)雒枋瞿P秃筒僮魉阕?。結(jié)合面向?qū)ο笏枷朐O(shè)計(jì)了不同類型的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)類、類中包含的屬性和操作以及不同類之間的邏輯關(guān)系,構(gòu)建了異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)模型?;跉庀笤俜治鰧?shí)驗(yàn)案例表明,該數(shù)據(jù)模型可有效支撐異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的組織,而且在支撐時(shí)空?qǐng)鰯?shù)據(jù)分析方面,比傳統(tǒng)張量方法的特征估計(jì)精度更高。
本文所提數(shù)據(jù)模型直接面向高維異質(zhì)時(shí)空?qǐng)鰯?shù)據(jù),為異質(zhì)性較強(qiáng)的時(shí)空統(tǒng)計(jì)方法的高維推廣提供了有利借鑒。在應(yīng)用支撐上、可為機(jī)器學(xué)習(xí)、關(guān)系推斷和微弱信號(hào)的提取和濾波,以及更精細(xì)數(shù)據(jù)的時(shí)空分區(qū)、耦合關(guān)系計(jì)算和作用機(jī)制的計(jì)算等領(lǐng)域提供方法借鑒。未來繼續(xù)突破的工作包括:1)數(shù)據(jù)的異質(zhì)性特征測(cè)度體系構(gòu)建;2)地理時(shí)空?qǐng)霎愘|(zhì)性類型的自動(dòng)識(shí)別和分類;3)融合數(shù)據(jù)特征的異質(zhì)性時(shí)空?qǐng)鰯?shù)據(jù)的自動(dòng)分塊策略構(gòu)建。