北京航空航天大學 李昕冉
?
林業(yè)數(shù)據(jù)可視化技術(shù)及其應用
北京航空航天大學李昕冉
林業(yè)病害防治工作所共有的一些特征,如數(shù)據(jù)結(jié)構(gòu)復雜、各因子間的制約關(guān)系難以挖掘等,給當前林業(yè)信息化提出了不少難題。因此我們引入了數(shù)據(jù)可視化這一技術(shù),以期豐富林業(yè)信息化手段,更好地支持林業(yè)工作。本文設計并實現(xiàn)了云杉矮槲寄生調(diào)查數(shù)據(jù)可視化系統(tǒng),輔助林業(yè)專家挖掘寄生病害的成災規(guī)律,實驗結(jié)果表明,本系統(tǒng)能夠更高效地指導災害防治工作,同時擴展性較強,可以為類型工作提供一定的參考。
數(shù)據(jù)可視化;林業(yè);林業(yè)病害防治
在信息爆炸的今天,各個領(lǐng)域經(jīng)過調(diào)研記錄,都積累了海量數(shù)據(jù),如此龐大的數(shù)據(jù)量既給了我們發(fā)掘新知識的無限可能,同時,由于無用數(shù)據(jù)淹沒了有價值的信息,數(shù)據(jù)的結(jié)構(gòu)也更加趨向于高維化、多態(tài)化,探索難度也明顯增加,給我們帶來了新的困擾。在數(shù)據(jù)處理方面,傳統(tǒng)的統(tǒng)計分析和數(shù)據(jù)挖掘方法往往只能進行單純的簡化或抽象,無法展示數(shù)據(jù)集的真實面貌,容易遺漏某些重要但無法通過降維來發(fā)掘的信息或規(guī)律。
當前林業(yè)領(lǐng)域調(diào)查數(shù)據(jù)的處理分析工作,也面臨著這樣的問題,目前并沒有一種得心應手的技術(shù)手段來組織和利用這些龐雜的、非結(jié)構(gòu)化的調(diào)查數(shù)據(jù)。與此同時,可視化技術(shù)的興起、深入研究和廣泛應用,則針對這個問題為我們提供了一條令人興奮的解決途徑??梢暬夹g(shù)已經(jīng)非常善于將不可見的、難以直接顯示的數(shù)據(jù)映射為可感知的圖形、符號、顏色、紋理等,再結(jié)合一定的交互操作,以此還原所研究數(shù)據(jù)的全局結(jié)構(gòu)和具體細節(jié),甚至可以達到突出重點數(shù)據(jù),增強數(shù)據(jù)減重要關(guān)系的可見性的效果[1]。
1.1數(shù)據(jù)可視化
數(shù)據(jù)可視化旨在研究如何對大規(guī)模數(shù)據(jù)信息資源進行交互的視覺呈現(xiàn)以增強認知,可視化技術(shù)既可以滿足使用者縱觀全局的需求,也可以提供突出細節(jié)功能;既可以展示數(shù)據(jù)的直觀內(nèi)容,也有助于分析和表達數(shù)據(jù)內(nèi)部所遵循的組織結(jié)構(gòu)。
數(shù)據(jù)可視化由于所研究的數(shù)據(jù)對象的不同而分為兩個分支,分別是科學可視化和信息可視化??茖W可視化主要面向自然科學領(lǐng)域和工程領(lǐng)域的數(shù)據(jù)。而信息可視化所處理的數(shù)據(jù)對象則是文本、社交網(wǎng)絡、金融交易、地圖或高維空間中的點等結(jié)構(gòu)化程度極低的抽象數(shù)據(jù)。對于這些數(shù)據(jù)集合的特點而言,信息可視化技術(shù)所面臨的最大難題就是如何在呈現(xiàn)高維、大尺度的復雜數(shù)據(jù)時,減少視覺混淆帶來的干擾,使可視化過程能夠充分發(fā)揮輔助知識發(fā)掘、輔助信息傳達的作用,令使用者能夠驗證預期,并從冗雜的信息中發(fā)現(xiàn)未預期的知識[2][3]。
多維與多元數(shù)據(jù)處理,在可視化過程中是一個普遍存在的基礎性問題,也是眾多學者研究的熱點。目前解決這個問題的主要方法包括增維方法、維對應方法和降維方法。每種處理思想都衍生出了多種具體的實現(xiàn)技術(shù),例如雕形圖、多維重疊、星座圖等。在降維處理過程中大都依賴于數(shù)學分析方法,常用的包括主成分分析方法、多維尺度法、神經(jīng)網(wǎng)絡等[4]。
1.2數(shù)據(jù)可視化
對于林業(yè)信息的管理工作,目前的成果主要集中在對林業(yè)工作人員的管理和對蓄積量等經(jīng)濟利益指標的管理上,真正深入挖掘林本數(shù)據(jù)的工作相對較少。而針對病害數(shù)據(jù),完整地做到采集、整理、分析、利用各個環(huán)節(jié)的,就更少了。
目前林業(yè)科研中的可視化應用主要分為兩個方法,一方面是針對于森林、林場等宏觀概念的森林資源管理,另一方面是針對于單株樹木的生長模擬和外形建模上。在林場等宏觀層次上的可視化應用,主要還是依托于一些較為成熟的軟件,如GIS軟件和CAD軟件等,然而這些軟件都是地理信息和工程設計領(lǐng)域較為通用的工具,并非針對于林業(yè)領(lǐng)域而設計的工具,所能達到的可視化效果遠不能支持林業(yè)領(lǐng)域更多方面的研究工作。
林業(yè)領(lǐng)域積累了充足的調(diào)查數(shù)據(jù)和實驗數(shù)據(jù),然而無論是國際上還是國內(nèi),目前對于林業(yè)數(shù)據(jù)的利用都處于探索階段,大部分的應用研究工作仍然基于集中于相對簡單的統(tǒng)計與空間分析功能,隱藏在調(diào)查數(shù)據(jù)中的大量信息和知識有待深入探索。因此,更充分地解決高維數(shù)據(jù)、時序性數(shù)據(jù)、多重尺度和多個來源的數(shù)據(jù)集的利用問題,必將會深刻地推動林業(yè)領(lǐng)域可視化應用的發(fā)展。
以云杉矮槲寄生調(diào)查數(shù)據(jù)為例,將可視化技術(shù)應用到林業(yè)領(lǐng)域的調(diào)查數(shù)據(jù)的分析中,能夠有效地解決云杉矮槲寄生災害防控工作所面臨的問題。
2.1系統(tǒng)結(jié)構(gòu)設計及數(shù)據(jù)可視化流程
本系統(tǒng)以JavaScript為開發(fā)語言,引用了d3函數(shù)庫,將數(shù)據(jù)以電子表格的形式存儲起來,在經(jīng)過數(shù)據(jù)集成和數(shù)據(jù)清理等過程去除了數(shù)據(jù)中的無用或錯誤信息后,會進入可視化算法處理階段。針對不同對象采用不同的可視化表達模式,經(jīng)過顏色、位置、形狀等表達方式的設計與點選、拖拽、縮放、切換等交互方式的設計后,完成對數(shù)據(jù)的處理。系統(tǒng)的數(shù)據(jù)流動過程如圖1所示:
圖2 展示病害現(xiàn)狀模塊
2.2可視化方法設計及選擇
可視化算法的設計是一個多次循環(huán)的過程,類似于軟件開發(fā)中的迭代開發(fā),需要在暈乎需求描述、數(shù)據(jù)梳理、編碼、用戶使用和反饋等步驟中多次循環(huán),在試用過程中發(fā)現(xiàn)新的需求和靈感并應用到算法設計中去,在數(shù)據(jù)整理過程中選擇合適的映射方式,在編碼設計過程中發(fā)現(xiàn)更多能傳達的信息等等,最終形成較完善的算法設計。對于本系統(tǒng)中所實現(xiàn)的可視化效果,主要使用二維空間,配合部分二點五維效果。
圖3 致病因子研究模塊
2.3可視化系統(tǒng)的實現(xiàn)
本系統(tǒng)中主要包括兩大模塊,一是病害分布情況可視化模塊,主要用來展示當前調(diào)查數(shù)據(jù)中所包含的云杉矮槲寄生發(fā)病嚴重程度和地理位置分布狀況;二是致病因子研究可視化模塊,主要功能在于研究云杉矮槲寄生的致病因子,以便于指導防治措施的制定。
展示病害現(xiàn)狀的功能模塊(圖2),主要向使用者提供選擇數(shù)據(jù)源和評價方式的功能,同時提供圖例向使用者說明當前可視化方法的映射原則,以遙感衛(wèi)星影像為底圖,疊加以病害調(diào)查數(shù)據(jù)為基礎的顏色渲染,顏色差別明顯,易于辨認和理解。
致病因子研究的功能模塊(圖3),針對林業(yè)調(diào)查數(shù)據(jù)屬性類型較多、維較高的特點,設計了兩部分可視化過程,第一部分為初次可視化,用來展示所有屬性類型的調(diào)查數(shù)據(jù),以及它們之間的相互關(guān)系,二部分為再次可視化,利用主成分分析結(jié)合多元線性逐步回歸分析方法,以主成分得分為解釋變量,以分析致病的關(guān)鍵因子。
2.4實驗結(jié)果與分析
由于篇幅限制,僅列出幾條記錄樣例,如表。從病害分布特征可視化模塊得知,云杉矮槲寄生病害的發(fā)生有一定的地域性,即如果某地有云杉矮槲寄生病害發(fā)生,則其附近地域也傾向于發(fā)生嚴重程度類似的云杉矮槲寄生病害。從致病因子研究模塊結(jié)果可以看出,感病指數(shù)、發(fā)病率、平均DMR三者之間的相互都有較強的關(guān)聯(lián)性,平均胸徑與冠幅的一致性很高,郁閉度與發(fā)病率的關(guān)聯(lián)性、平均DMR與冠幅的關(guān)聯(lián)性較為明顯。當然,可視化所得到的這些規(guī)律暗示都有待進一步的確認與分析,最終結(jié)果需要取決于林業(yè)專家的意見。
表1 實驗數(shù)據(jù)
將可視化技術(shù)應用到林業(yè)領(lǐng)域是一條值得關(guān)注且尚未成熟的技術(shù)路線,本系統(tǒng)在結(jié)構(gòu)設計上根據(jù)可視化結(jié)果的功能進行劃分,較為合理,在代碼開發(fā)上具有較好的可擴展性和重用性,可以為類似的工作提供一些參考。
[1]Hansen C,Johnson C.2004.The Visualization Handbook[M]. Waltham Massachusetts:Academic Press.
[2]戴國忠,陳為,洪文學,劉世霞,屈華民,袁曉如,張加萬,張康.信息可視化和可視分析:挑戰(zhàn)與機遇——北戴河信息可視化戰(zhàn)略研討會總結(jié)報告[J].中國科學,2013,43(1):178-184.
[3]Spence R.2007.Information Visualization:Design for Interaction[M]. New Jersey:Prentice Hall.
[4]楊峰,李月華.高維信息可視化方法研究綜述[J].情報理論與實踐,2012,35(9):125-128.