岳兆新 ,廖亨利 ,陳彬彬
(1. 河海大學計算機與信息學院,江蘇 南京 211100;2. 河海大學水文水資源學院,江蘇 南京 210098)
全國各級水利部門已經(jīng)存貯入庫的數(shù)據(jù)粗略估計已經(jīng)達到 PB 級以上[1–2],如果物聯(lián)網(wǎng)將所有水利對象都連入網(wǎng)絡,則水利數(shù)據(jù)的量將遠遠超過一般認為的“大數(shù)據(jù)”量標準。
海量的數(shù)據(jù)中蘊含著水利發(fā)展與管理所需要的巨大價值,但水利數(shù)據(jù)具有的時空特征和自然與人類相互影響的特點,也給水利大數(shù)據(jù)的應用帶來巨大挑戰(zhàn),迫切需要應用非傳統(tǒng)的理論、方法與技術構造相應的應用解決方案。
粒計算(Granular computing)是以外部世界和用戶為中心而建立的一種方法論,方便認識物理的和虛擬的世界。以此為基礎,在求解問題的過程中,用粒度合適的“?!弊鳛樘幚韺ο螅瑥亩诒WC求得滿意解的前提下,提高解決問題的效率[3–4]。自 1979 年以來,眾多學者對粒理論和模型進行了深入研究,并將其與人工智能、數(shù)據(jù)挖掘等技術相結合,取得了諸多成果[5–8]。近年來,研究人員提出結合粒理論可以更好地處理大數(shù)據(jù)相關問題,并梳理出兩者之間的諸多切合點,為粒理論在大數(shù)據(jù)分析應用方面提供了指導[9–11]。因此,在水利大數(shù)據(jù)背景下,如何結合粒理論,實現(xiàn)水利大數(shù)據(jù)場景數(shù)據(jù)融合,以及在多模態(tài)數(shù)據(jù)場景下,根據(jù)不同問題的“粒度”大小,尋求合適的解決方法,從而降低復雜多時空尺度問題求解的時間和計算復雜度,是討論的重點。
20 世紀 90 年代,Zadeh 和 Lin 教授首次提出粒度計算的概念,并將其用于模糊的、不完整的和海量信息的處理或問題求解。從哲學的角度看,人類在認知、度量、形成概念和推理時,都離不開粒度。Zadeh 教授[12]指出粒計算是模糊信息粒化、粗糙集理論和區(qū)間計算的超集,是粒數(shù)學的子集。Yao教授認為粒計算是使用有關“粒度”的所有理論、方法、技術和工具解決相關問題,是一種方法論而不是一個具體的模型或方法,涉及的具體模型主要有粗糙集、商空間、云模型等。此外,粒計算是當前智能信息處理領域中一種新的計算范式,并與大數(shù)據(jù)挖掘具有高度契合性。Chen 等[13]曾提出將粒計算作為大數(shù)據(jù)分析挖掘的一種重要方法。
粒是粒計算的基本要素,是依照不可區(qū)分性和相似性及功能標簽聚集到一起的論域中的子集、類、簇、元素。粒計算的算法步驟為:首先確定具體模型,然后再進行信息粒化。粒的解釋是粒構造的語義方面,需要回答“為什么兩個對象能放在一個粒里”。眾多研究人員對粒及其語義問題進行了比較系統(tǒng)的研究,比如復雜數(shù)據(jù)的?;瘷C理、粒的類型分類等[14–17]。
信息?;譃闃嫿ê头纸鈨刹糠?。構建主要考慮如何將更細的或底層的粒合并成為較粗或上層的粒;分解則相反,是將較粗的或上層的粒分解成更細的低層的粒。信息?;哪康氖菑脑紨?shù)據(jù)中得到合適于問題的粒。數(shù)據(jù)?;惴ㄖ饕譃閮刹剑?)找到最相容的 2 個粒,并合成 1 個;2)一直重復達到滿意的抽象標準。
粒的相容程度的定義很關鍵,即滿足什么條件的對象可以劃分到同一個粒內(nèi)。這個相容程度可以是幾何的、密度的或者是相似性(形狀和方向)的。
粒計算作為人工智能研究領域中的一種新理念方法,包含了與粒度相關的理論、方法和技術,可作為有效的工具挖掘處理海量、不確定性信息,求解復雜問題[18–19]。粒計算的核心在于合適粒度的選擇,目的在于降低問題求解的復雜度。粒計算作為一種方法論,目的在于有效地建立基于外部世界、以用戶為中心的概念,從而方便認識物理的和虛擬的世界。傳統(tǒng)的數(shù)據(jù)挖掘技術是對最細粒度的原始數(shù)據(jù)分析,選擇與問題相適應的粒度空間可提升求解的質(zhì)量和時空效率[20–21]。
問題本身及背景決定選擇何種粒度,合適粒度的選擇對粒計算算法設計具有重要影響。自粒計算提出以來,大量研究人員對粒計算智能相關模型、數(shù)據(jù)挖掘應用等方面進行了比較深入的研究。根據(jù)運用“?!鼻蠼鈫栴}時對粒度層次的使用特征,相關研究主要包括以下幾點:
1)粒度空間優(yōu)化。粒度空間優(yōu)化是指針對問題性質(zhì)和計算的約束條件(時間、計算資源和通信帶寬等),在問題數(shù)據(jù)的多粒度表示空間中選擇合適的粒層。合適粒度的選擇可能基于問題本身也可能從問題背景推測。這個由問題本身和背景決定的滿意解的粒度,簡稱為問題粒度。最后計算得出的解本身也有粒度,從問題粒度到解的粒度存在著映射關系 MPS,解的粒度應該等于問題粒度或者比問題粒度更細。而要得到特定粒度上的解,在求解過程中,計算對象就應該選擇在合適的粒度層次上。將計算過程中所處理的信息粒的粒度簡稱為計算粒度。從解的粒度到計算粒度,存在著映射關系 MSC,這個關系是由信息的粒化模型和基于信息粒的問題求解模型二者共同決定的。利用 MPS 和MSC,可以得出從問題粒度到計算粒度的映射關系MPC。粒度空間優(yōu)化的實質(zhì)就是求得映射 MPC。粒度空間優(yōu)化結構圖如圖 1 所示。
圖 1 粒度空間優(yōu)化結構圖
2)粒度層次切換。粒度層次切換是指在各個不同的粒層上求得的問題的解,研究的重點是在相鄰粒層上解的快速重構方法,如圖 2 所示。圖 2 中,G′(V′,E′) 和G(V,E) 是 2 個粒層,f是從G(V,E) 到G′(V′,E′) 的映射關系,S′是問題Problem在粒層G′ 上的解,S是問題Problem在粒層G上的解,函數(shù)h( ) 表示求解過程。已知粒層映射和問題,在較粗粒層G′ 上問題的解可以從 2 種途徑算得,其中一種先找出問題Problem和粒層關系f所決定的不同粒層上解之間的映射關系f′ ,再算得S′=f′(S);另外一種是S′=h′(Problem(G′)),該方法是在G′上直接“從頭求解”。因為G′ 和G之間擁有相對簡單的數(shù)學邏輯關系,所以可以通過S′=f′(S) 重構出解,這樣比從頭求解效率更高。這個問題的關鍵是如何求得f′。
3)多粒度聯(lián)合計算。類似于大數(shù)據(jù)“分而治之”的思想,多粒度聯(lián)合計算,是把一個任務分解為多個子任務來求解,即將復雜問題的解分配到數(shù)據(jù)表示的多個粒度層次上計算,且將各個粒度層次上相對簡單的功能協(xié)同起來,最終完成求解。
圖 2 不同粒層求解結構圖
近年來,各國學者對粒理論在大數(shù)據(jù)中的應用進行了比較深入的研究,并將其成功應用到眾多領域。Ye 等[22]基于粒計算思想,提出一種分層抽樣方法,選擇具有高維數(shù)據(jù)特征的隨機森林子空間,實現(xiàn)數(shù)據(jù)和特征空間的粒化,完成大規(guī)模數(shù)據(jù)的聚類分析。實驗結果表明該方法性能優(yōu)于 SVM(支持向量機),隨機森林的 4 種變體(RF,ERT,enrich-RF,oblique-RF),以及最近鄰(NN)算法。Chang等[23]基于粒計算思想,提出一種決策樹的大數(shù)據(jù)分解方法,通過在每個分解的數(shù)據(jù)粒上分別學習 SVM分類器,極大提高了 SVM 的學習效率,并提高了測試精度。Liang 等[24]提出一種針對大規(guī)模數(shù)據(jù)集的高效粗糙特征選擇算法,將大數(shù)據(jù)集拆分為多個易于處理的信息粒,通過求解和融合每個信息粒,實現(xiàn)大數(shù)據(jù)集的特征有效選擇。實驗結果表明,該算法對大型數(shù)據(jù)集具有一定的可行性和有效性。梁吉業(yè)等[10]針對大數(shù)據(jù)挖掘任務,對數(shù)據(jù)?;⒍嗔6饶J桨l(fā)現(xiàn)與融合、多粒度/跨粒度推理等方面取得的一些進展進行梳理和剖析,并針對天文和微博2 個數(shù)據(jù)挖掘典型示范應用領域的初步研究進行了總結,以期為大數(shù)據(jù)挖掘領域的研究做出有益的探索。梁吉業(yè)等[11]針對大數(shù)據(jù)呈現(xiàn)的大規(guī)模性、多模態(tài)性及快速增長性等特征,分析論述了以粒計算應對大數(shù)據(jù)挖掘挑戰(zhàn)的可行性,認為粒計算有望為大數(shù)據(jù)挖掘提供一條極具前途的嶄新途徑。徐計等[16]綜述了大數(shù)據(jù)處理的研究現(xiàn)狀,根據(jù)運用粒計算方法解決問題的不同特征,歸納了粒計算的 3 種基本模式,討論粒計算應用于大數(shù)據(jù)處理的可行性與優(yōu)勢,并探討在大數(shù)據(jù)的粒計算處理框架中需要解決的各個關鍵問題。
綜上所述,當前應用粒計算思想求解大數(shù)據(jù)問題還處于探索階段,比較成功的還是結合粗糙集、模糊理論等軟計算工具,用于模糊的、不完整的和海量信息的處理,應用領域也主要集中在圖像處理、故障診斷、互聯(lián)網(wǎng)等領域,其他領域尤其是水利領域目前還沒有發(fā)現(xiàn)相關研究成果。
隨著物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等信息技術的發(fā)展,一些學者發(fā)現(xiàn)大數(shù)據(jù)挖掘的計算框架與粒計算所蘊含的計算范式具有高度契合性,并認為粒計算將為大數(shù)據(jù)挖掘提供一條嶄新途徑。此外,新一代信息技術的發(fā)展應用,全面拓展了水利信息的時空尺度和要素類型,使得水利大數(shù)據(jù)具有顯著的時空數(shù)據(jù)集合的眾多特點,為在水利領域實現(xiàn)大數(shù)據(jù)技術的應用提供了數(shù)據(jù)基礎。因此,面對水利大數(shù)據(jù)分析的問題,結合粒理論,構建數(shù)據(jù)場景,將在未來的水利大數(shù)據(jù)分析中起到重要作用[25–27]。粒理論在水利大數(shù)據(jù)分析中的應用主要包括以下方面:
1)水利場景數(shù)據(jù)?;治?。在多模態(tài)水利大數(shù)據(jù)場景下,根據(jù)不同問題的“粒度”大小,尋求合適的解決方法,從而降低復雜多時空尺度問題求解的時間和計算復雜度。例如,水文時間序列分析,首先對原始水文時間序列進行模糊?;幚恚玫皆紨?shù)據(jù)變化的最小值、平均值和最大值等 3 個參數(shù);其次,將 3 個參數(shù)分別作為 SVM 的輸入進行訓練學習,優(yōu)化網(wǎng)絡;最后,利用訓練后的 SVM 對未來的變化趨勢進行預測,該方法將樣本空間劃分為多個粒(子空間),簡化了樣本規(guī)模,降低了時間復雜度。
2)多粒度水利場景數(shù)據(jù)融合。不同數(shù)據(jù)源的數(shù)據(jù)蘊含著數(shù)據(jù)樣本中不同的結構信息,當描述同一數(shù)據(jù)樣本的不同角度或來源信息一起使用時,數(shù)據(jù)樣本之間蘊含的結構信息將更加豐富,如何實現(xiàn)多源異構高維數(shù)據(jù)融合一直是研究的難點問題。例如,選定的水文場景既包括降水、徑流、蒸發(fā)、社會經(jīng)濟等結構化數(shù)據(jù),又包括 XML 文檔、遙感、雷達、DEM、視頻等半結構化或非結構化數(shù)據(jù),如何實現(xiàn)場景下的多模態(tài)數(shù)據(jù)融合是場景分析的關鍵。本研究考慮引入粒理論,以水文場景中各個不同的數(shù)據(jù)源作為各自粒層,采用聚類方法完成多個粒結構(各自數(shù)據(jù)源)的聚類,結合證據(jù)理論,借鑒一種樂觀融合和悲觀融合之間的多粒度融合算法[28],實現(xiàn)多粒度場景數(shù)據(jù)融合,完成多源異構條件下的結構化、半結構化和非結構化數(shù)據(jù)之間的多粒度信息融合處理。
3)多粒度時空水利數(shù)據(jù)挖掘。不同時間和空間粒度的選擇對時空數(shù)據(jù)挖掘模式具有重要影響[29]。時空數(shù)據(jù)挖掘可以依據(jù)“問題”的不同,選擇在不同的粒度層面發(fā)現(xiàn)最感興趣的模式。例如,中長期徑流預報中,降水和徑流等預報因子時間尺度的選擇可以在旬、月、季等不同的粒度層面分別展開,并在各個粒度選擇均值、最大或最小值等感興趣的模式進行分析,從而實現(xiàn)不同時空粒度空間的挖掘分析,提高預測的準確性。
水利大數(shù)據(jù)具有海量、模糊、不確定等時空數(shù)據(jù)集合的眾多特點。鑒于時空大數(shù)據(jù)挖掘的計算框架與粒計算所蘊含計算范式的高度契合性,提出了粒理論在水利大數(shù)據(jù)分析中的一些應用思路,包括水利數(shù)據(jù)場景下的信息?;治觥⒍嗔6人麍鼍皵?shù)據(jù)融合及多粒度水利時空數(shù)據(jù)挖掘等 3 個方面,試圖結合粒理論,為實現(xiàn)水利大數(shù)據(jù)場景數(shù)據(jù)融合,以及在多模態(tài)數(shù)據(jù)場景下,根據(jù)不同問題的“粒度”大小,尋求合適的解決方法,從而降低復雜多時空尺度水利問題求解的時間和計算復雜度,供構造水利領域大數(shù)據(jù)應用的方法與技術體系參考。
[1] 水利部信息化工作領導小組辦公室. 2015 年度中國水利信息化發(fā)展報告[M]. 北京:中國水利水電出版社,2015.
[2] 中華人民共和國水利部. 第一次全國水利普查公報[M].北京:中國水利水電出版社,2013.
[3] YAO Y Y. Granular Computing: Basic Issues and Possible Solutions[M]. Atlantic: Association for Intelligent Machinery Press, 2000: 186-189.
[4] BARGIELA A, PEDRYCZ W. Granular Computing: an Introduction[M]. Boston: Kluwer Academic Publishers,2002: 309-328.
[5] SKOWRON A, STEPANIUK J. Information granules: Towards foundations of granular computing[J]. International Journal of Intelligent Systems, 2001, 16 (1): 57-85.
[6] YAO Y Y. Perspectives of granular computing[G]//Proceedings of 2005 IEEE International Conference on Granular Computing.Beijing: IEEE, 2005: 85-90.
[7] PEDRYCZ W, SKOWRON A, KREINOVICH V. Handbook of Granular Computing[M]. New York: Wiley, 2008.
[8] YAO Y Y. Granular computing: Past, present and future[G]//Proceedings of 2008 IEEE International Conference on Granular Computing. Hangzhou: IEEE, 2008: 80-85.
[9] XU J, WANG G Y, YU H. Review of big data processing based on granular computing[J]. Chinese Journal of Computers,2015, 38 (8): 1497-1517.
[10] 梁吉業(yè),錢宇華,李德玉,等. 面向大數(shù)據(jù)的粒計算理論與方法研究進展[J]. 大數(shù)據(jù),2016,2 (4): 13-23.
[11] 梁吉業(yè),錢宇華,李德玉,等. 大數(shù)據(jù)挖掘的粒計算理論與方法[J]. 中國科學:信息科學,2015,45 (11):1355-1369.
[12] ZADEH L A. Fuzzy logic, neural networks, and soft computing[J]. Communications of the ACM, 1994, 37 (3): 77-85.
[13] CHEN C L P, ZHANG C Y. Data-intensive applications,challenges, techniques and technologies: A survey on big data[J]. Information Sciences, 2014, 275 (11): 314-347.
[14] 苗奪謙,王國胤,劉清,等. 粒計算:過去、現(xiàn)在與展望[M]. 北京:科學出版社,2007: 6-12.
[15] 王國胤,張清華,胡軍. 粒計算研究綜述[J]. 智能系統(tǒng)學報,2007,2 (6): 8-26.
[16] 徐計,王國胤,于洪. 基于粒計算的大數(shù)據(jù)處理[J]. 計算機學報,2015 (8): 1497-1517.
[17] 孟軍. 相容粒計算模型及其數(shù)據(jù)挖掘研究[D]. 大連:大連理工大學計算機科學與技術學院,2012.
[18] SKOWRON A, STEPANIUK J. Information granules:Towards foundations of granular computing[J]. International Journal of Intelligent Systems, 2001, 16 (1): 57-85.
[19] LIN T Y. Granular computing I: The concept of granulation and its formal model[J]. International Journal of Granular Computing, Rough Sets and Intelligent Systems, 2009, 1 (1):21-42.
[20] YAO Y Y. A triarchic theory of granular computing[J].Granular Computing, 2016, 1 (2): 145-157.
[21] PEDRYCZ W. Granular Computing: Analysis and Design of Intelligent Systems[M]. Boca Raton, CRC Press, 2013.
[22] YE Y, WU Q, HUANG J Z, et al. Stratified sampling for feature subspace selection in random forests for high dimensional data[J]. Pattern Recognition, 2013, 46 (3):769-787.
[23] CHANG F, GUOC Y, LIN X R, et al. Tree decomposition for large-scale SVM problems[J]. Journal of Machine Learning Research, 2010, 11 (10): 2935-2972.
[24] LIANG J Y, WANG F, DANG C Y, et al. An efficient rough feature selection algorithm with a multi-granulation view[J].International Journal of Approximate Reasoning, 2012, 53 (6):912-926.
[25] AI P, YUE Z X. A framework for processing water resources big data and application[J]. Applied Mechanics and Materials,2014, 519-520: 3-8.
[26] AI P, XIONG C S, LIAO H L, et al. A method for water resources object identification and encoding based on EPC[G]//Proceedings of International Symposium on Distributed Computing and Applications for Business Engineering and Science. Guiyang: IEEE, 2015: 264-267.
[27] AI P, YUE Z X, YUAN D B, et al. A scene analysis model for water resources Big Data[G]// Proceedings of International Symposium on Distributed Computing and Applications for Business Engineering and Science. Guiyang: IEEE, 2016:280-283.
[28] LIN G P, LIANG J Y, QIAN Y H, et al. A fuzzy multigranulation decision-theoretic approach to multi-source fuzzy information systems[J]. Knowledge-based Systems, 2016, 91:102-113.
[29] 劉大有,陳慧靈,齊紅,等. 時空數(shù)據(jù)挖掘研究進展[J].計算機研究與發(fā)展,2013,50 (2): 225-239.