周穎 徐達宇
摘 要:近年來,隨著全國林業(yè)信息化工作會議的召開,我國林業(yè)信息化已經(jīng)由“數(shù)字林業(yè)”步入了“智慧林業(yè)”發(fā)展的新階段,開啟了智慧林業(yè)建設的新篇章,同時也促進了我國林業(yè)物聯(lián)網(wǎng)的發(fā)展。文章從林業(yè)物聯(lián)網(wǎng)的概念出發(fā),論述了林業(yè)物聯(lián)網(wǎng)環(huán)境下的海量時空數(shù)據(jù)流所具有的多源異構性、海量性、時空相關性、動態(tài)流式性和高維性特點,闡明了面向林業(yè)物聯(lián)網(wǎng)的海量時空數(shù)據(jù)流挖掘的關鍵研究內(nèi)容和擬解決的關鍵問題,并展望了基于林業(yè)物聯(lián)網(wǎng)時空數(shù)據(jù)流挖掘的應用與前景。
關鍵詞:物聯(lián)網(wǎng);林業(yè);數(shù)據(jù)流;挖掘
中圖分類號:TP18 文獻標識碼:A 文章編號:2095-1302(2016)07-00-03
0 引 言
進入新世紀以來,隨著信息技術及其應用的快速發(fā)展和日益普及,物聯(lián)網(wǎng)(Internet of Things,IoT)技術開始越來越多地運用到我國林業(yè)的諸多領域。我國的林業(yè)物聯(lián)網(wǎng)建設逐步走上了有序、快速發(fā)展的軌道,并在完善頂層設計、開展示范工程建設、進行關鍵技術研究、推動各地實踐探索和實施標準規(guī)范建設五個方面取得了重要進展。
林業(yè)物聯(lián)網(wǎng)是物聯(lián)網(wǎng)技術在林業(yè)領域的應用實例,是一種通過運用各類遙感監(jiān)測技術、GPS 技術、GIS 技術、傳感設備和技術(如攝像頭、射頻識別技術、紅外線和藍牙等)感知、采集林業(yè)信息,并將這些林業(yè)信息通過各類傳輸網(wǎng)絡(如因特網(wǎng)、 GPRS網(wǎng)、ZigBee無線網(wǎng)等)傳送到后臺智能平臺進行綜合存儲和處理,最終實現(xiàn)林業(yè)信息智能化識別和林業(yè)資源綜合化管理的網(wǎng)絡。
本文主要從林業(yè)物聯(lián)網(wǎng)環(huán)境下海量時空數(shù)據(jù)流的特點、面向林業(yè)物聯(lián)網(wǎng)的海量時空數(shù)據(jù)流挖掘的關鍵研究內(nèi)容、面向林業(yè)物聯(lián)網(wǎng)的時空數(shù)據(jù)流挖掘擬解決的關鍵問題和基于林業(yè)物聯(lián)網(wǎng)時空數(shù)據(jù)流挖掘的應用前景這四個方面進行分析,為我國林業(yè)的發(fā)展提供依據(jù)。
1 林業(yè)物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)流特點分析
隨著近幾年來物聯(lián)網(wǎng)應用規(guī)模的不斷擴大,影響范圍不斷延伸,大規(guī)模的林業(yè)數(shù)據(jù)被收割并存儲于數(shù)據(jù)中心,這些數(shù)據(jù)來自于不同的傳感源,形式不一,主要包括以下幾種類型:
(1)由衛(wèi)星遙感、攝像設備獲得的圖像、影像數(shù)據(jù);
(2)由GPS獲得的地理位置信息;
(3)由各類終端感知設備獲得的包括大氣溫度、大氣濕度、土壤溫度、土壤濕度、土壤pH值、光照強度、降水、風速和CO2濃度等林區(qū)環(huán)境狀態(tài)信息;
(4)由射頻識別、紅外線和藍牙等終端識別設備獲得的記錄林產(chǎn)品從采伐、運輸、倉儲、配送到銷售整個物流過程的數(shù)據(jù)[1-3]。
上述這些來自多平臺、多傳感器的林業(yè)物聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)流具有多源異構性、海量性、時空相關性、動態(tài)流式性及高維性特征。
1.1 多源異構性
由于通過物聯(lián)網(wǎng)采集的林業(yè)信息來自于不同的監(jiān)測平臺、設備和環(huán)境,數(shù)據(jù)的形式不僅包含了圖像、文本和時序數(shù)值型數(shù)據(jù),還包括多種不同的存儲形式,比如有的存儲在空間數(shù)據(jù)庫中,有的以專有格式或數(shù)據(jù)文件形式存儲,有的是柵格形式,有的是散點形式,而有的是矢量等值線形式,從而形成了異質(zhì)、異構的多源林業(yè)數(shù)據(jù)集合。
1.2 海量性
到2020年,世界上“物物互聯(lián)”的數(shù)據(jù)通信業(yè)務量將是“人與人通信”數(shù)據(jù)通信業(yè)務量的30倍[4]。作為物聯(lián)網(wǎng)家族的重要組成部分,林業(yè)物聯(lián)網(wǎng)同樣也將是數(shù)據(jù)的海洋,每一個傳感器均頻繁地獲取新的采樣數(shù)據(jù),系統(tǒng)不僅需要存儲這些采樣數(shù)據(jù)的最新版本,在多數(shù)情況下還需要存儲某個時間段內(nèi)所有的歷史采樣值以滿足溯源處理和復雜數(shù)據(jù)分析的需要。
1.3 時空相關性
林業(yè)物聯(lián)網(wǎng)中的傳感器結點普遍存在著空間和時間屬性,每個傳感器結點都分布于地理上具有關聯(lián)性的各個位置,每個數(shù)據(jù)采樣值又都有時間屬性(時序性),而且許多監(jiān)測對象的地理位置會隨著時間變化而連續(xù)移動。這些數(shù)據(jù)普遍存在著時空相關性。
1.4 動態(tài)流式性
由林業(yè)物聯(lián)網(wǎng)獲取的采樣數(shù)據(jù)序列反映了監(jiān)測對象(包括林場、林作物和林產(chǎn)品等)的狀態(tài)隨時間、空間變化的完整過程。因此包含了比單個采樣值更為豐富的信息。此外,采樣數(shù)據(jù)序列表現(xiàn)出明顯的動態(tài)流式特性,即隨著新采樣值的不斷到來和歷史采樣值的不斷處理,采樣數(shù)據(jù)序列是不斷流動的,這類信息流在短時間尺度內(nèi)呈現(xiàn)出無序性和非線性性,而在長時間尺度內(nèi)又具有周期性和生命性。
1.5 高維性
高維特征是指林業(yè)物聯(lián)網(wǎng)采集的數(shù)據(jù)具有時間域、空間域和其他屬性所構成的高維特征。時間特征描述地理實體的時間尺度和時態(tài)關系,空間特征描述地理實體的地理空間分布,其它屬性特征則描述地理實體的質(zhì)量和數(shù)量信息。
2 面向林業(yè)物聯(lián)網(wǎng)海量時空數(shù)據(jù)流挖掘的關鍵研究內(nèi)容
2.1 研究林業(yè)物聯(lián)網(wǎng)環(huán)境下帶時空約束的海量時空數(shù)據(jù)流綜合預處理框架
林業(yè)物聯(lián)網(wǎng)環(huán)境下的多源分布數(shù)據(jù)一個重要的特性就是時空性,即所采集的數(shù)據(jù)雖然形式不一,表達格式各異,但這些數(shù)據(jù)本身在時間和空間上存在著關聯(lián)性,而在對原始數(shù)據(jù)進行有效信息提取、挖掘前,需要對這些帶有時空約束的數(shù)據(jù)進行預處理。因此,需要重點研究林業(yè)物聯(lián)網(wǎng)環(huán)境下基于時空關聯(lián)和約束的海量數(shù)據(jù)流時空配準方法,并進一步構建帶時空約束的海量時空數(shù)據(jù)流綜合預處理框架[5]。
2.2 研究基于增量算法和概念遷移的海量時空數(shù)據(jù)流動態(tài)聚類方法
從林業(yè)物聯(lián)網(wǎng)環(huán)境下時空數(shù)據(jù)流的特性分析中可以發(fā)現(xiàn),海量性和動態(tài)流式性是其最為明顯的兩大特性,以往研究和實際應用中所使用的各種軟聚類或硬聚類算法,針對的都是靜態(tài)數(shù)據(jù),即在一定時間范圍內(nèi)處理的數(shù)據(jù)量可知并有限,且聚類后各聚類簇的整體形態(tài)是固定的。而物聯(lián)網(wǎng)環(huán)境下時空數(shù)據(jù)流會不斷地快速到來。尤其當新數(shù)據(jù)流中所包含的信息隨時間而產(chǎn)生內(nèi)容上的概念遷移(Concept Drift)后,傳統(tǒng)的靜態(tài)聚類算法便無法應對這一情形。因此,研究針對動態(tài)數(shù)據(jù)流的增量聚類算法能夠使新數(shù)據(jù)流不斷地被快速聚類[6],并且該算法支持整個聚類簇的分布形態(tài)隨新數(shù)據(jù)流內(nèi)容中概念遷移而不斷動態(tài)演變的過程,從而能夠及時反映監(jiān)測對象的新動態(tài)。
2.3 研究基于信息時效原則的時空數(shù)據(jù)流頻繁模式發(fā)現(xiàn)方法
信息的時效性是指信息從發(fā)出、接收,到進入使用的時間間隔及其效率,在林業(yè)物聯(lián)網(wǎng)環(huán)境下進行時空數(shù)據(jù)流的挖掘過程中,需要考慮信息的時效性對于最終挖掘結果的影響。在進行頻繁模式的發(fā)現(xiàn)過程中,要充分考慮信息的時效性,研究基于信息時效原則的數(shù)據(jù)流動態(tài)加權方法,對不同時間段的數(shù)據(jù)流賦予不同的權重,并進一步構建基于標記→衰退→滑動窗三步驟的時空數(shù)據(jù)流頻繁模式發(fā)現(xiàn)模型,即首先對到來的數(shù)據(jù)項進行標記,隨后根據(jù)數(shù)據(jù)的信息時效性賦予其遞減的權重(衰退),最后考慮到計算機內(nèi)存和計算能力的有限性,采用滑動窗分批次處理時空數(shù)據(jù)流。
2.4 基于特征分析的林業(yè)物聯(lián)網(wǎng)時空數(shù)據(jù)流的動態(tài)預測方法
林業(yè)物聯(lián)網(wǎng)采集的海量時空數(shù)據(jù)流不應僅僅只用于反映當前的環(huán)境狀態(tài),還應根據(jù)采集的歷史數(shù)據(jù)作進一步的趨勢分析,獲取未來監(jiān)測對象發(fā)展的方向性信息。因此,根據(jù)實際應用需求,在分析所采集的歷史數(shù)據(jù)特性的基礎上,建立評價指標體系,研究基于海量林業(yè)物聯(lián)網(wǎng)時空數(shù)據(jù)流的森林植被,做出林作物生長狀態(tài)的綜合評估及其生長趨勢的可靠預測,以及林業(yè)產(chǎn)品市場需求趨勢的動態(tài)、可信預測模型,為林業(yè)發(fā)展和管理提供決策依據(jù)。
3 面向林業(yè)物聯(lián)網(wǎng)的時空數(shù)據(jù)流挖掘擬解決的關鍵問題
隨著林業(yè)物聯(lián)網(wǎng)信息采集效率的不斷提高,數(shù)據(jù)的積累量越來越大,如何對這類大規(guī)模多源分布式時空數(shù)據(jù)流進行有效地挖掘,以獲取蘊藏在這些原始數(shù)據(jù)中的有價值的信息,并進一步將其應用于實際的決策支持中,是當前該領域研究中面臨的極富挑戰(zhàn)性的問題。因而,在該領域的研究中主要面臨和需要解決以下幾個關鍵問題[7,8]。
3.1 基于時空約束的海量時空數(shù)據(jù)流時空配準問題
現(xiàn)有的林業(yè)物聯(lián)網(wǎng)時空數(shù)據(jù)主要來源于 GPS、遙感和傳感器等設備,每種設備生成的數(shù)據(jù)格式和數(shù)據(jù)形式各不相同。此外,現(xiàn)有的時空數(shù)據(jù)也不再局限于傳統(tǒng)的數(shù)據(jù)形式,在文字、音頻、視頻和圖像等多媒體數(shù)據(jù)中同樣包含了豐富的時空信息。所以該領域的研究中需要解決的關鍵問題之一就是考慮各類數(shù)據(jù)在時間和空間上的關聯(lián)性,即基于時間和空間雙維度約束的林業(yè)數(shù)據(jù)配準問題。
3.2 海量時空數(shù)據(jù)流的聚類與頻繁模式發(fā)現(xiàn)技術
林業(yè)物聯(lián)網(wǎng)環(huán)境下的海量時空數(shù)據(jù)本質(zhì)上是非結構化數(shù)據(jù),不僅包含時序數(shù)據(jù)模型,還存在圖模型。因此提出了時空數(shù)據(jù)流的增量動態(tài)聚類技術和考慮信息時效性的時空數(shù)據(jù)流頻繁模式發(fā)現(xiàn)技術[9]。
3.3 基于特征分析的海量時空數(shù)據(jù)預測技術
由于林業(yè)物聯(lián)網(wǎng)環(huán)境下采集的數(shù)據(jù)帶有明顯的時空特性,因此,該類數(shù)據(jù)的預測模型在建模過程中不僅需要考慮數(shù)據(jù)的時序性,還要將數(shù)據(jù)的空間特性也反映在模型中,并且時空數(shù)據(jù)帶有強烈的非線性性和動態(tài)性,因此需要充分利用聚類與頻繁模式發(fā)現(xiàn)結果,構建基于特征分類的海量時空數(shù)據(jù)預測技術,提升預測準確性的同時降低預測時間、空間耗費,提高時空數(shù)據(jù)的預測效率[10]。具體實現(xiàn)路徑如圖1所示。
4 基于林業(yè)物聯(lián)網(wǎng)時空數(shù)據(jù)流挖掘的應用前景分析
通過對林業(yè)物聯(lián)網(wǎng)環(huán)境下海量時空數(shù)據(jù)流的預處理、聚類分析、頻繁模式發(fā)現(xiàn),以及趨勢預測這幾個問題的研究,使得能夠?qū)@一類海量時空數(shù)據(jù)流進行一體化處理,即把該類數(shù)據(jù)流的各個挖掘過程整合起來,使得上一步挖掘結果可以作為下一步挖掘的前提來整體、綜合利用,以發(fā)掘這些數(shù)據(jù)當中潛在的關聯(lián)規(guī)則并獲得林業(yè)物聯(lián)網(wǎng)監(jiān)測對象的趨勢信息,從而充分、高效和全面地發(fā)掘、預測出所需的各類林業(yè)信息,以此來實現(xiàn)以下幾方面的應用。
4.1 基于數(shù)據(jù)流挖掘驅(qū)動的林區(qū)災情智能、即時監(jiān)測與預警
從現(xiàn)有的統(tǒng)計資料可以看出,林區(qū)各種生態(tài)災害發(fā)生的頻度越來越高,災害發(fā)生的強度和危害越來越大。種種生態(tài)災害出現(xiàn)的頻次呈增長態(tài)勢,而林區(qū)生態(tài)災害中,發(fā)生頻次多、危害程度最嚴重的首推森林火災,其次為洪澇、蟲災、低溫冷害、旱災、大風及冰雹。建立林業(yè)物聯(lián)網(wǎng)的一個重要目的就是實現(xiàn)林區(qū)災情的實時監(jiān)測與預警,利用物聯(lián)網(wǎng)各個終端傳感器發(fā)回的圖像、文本和監(jiān)測數(shù)據(jù)等信息,基于海量時空數(shù)據(jù)流挖掘林區(qū)災情具有智能、快速的特點,并通過實時監(jiān)測、評估方法來進一步建立災害預警模型,從而能對接下來一段時間內(nèi)的林區(qū)生態(tài)指標實現(xiàn)綜合預報,及時發(fā)現(xiàn)并排除災害,將災害造成的損失降到最低。
4.2 森林植被與林作物生長狀態(tài)的綜合評估及生長趨勢的可靠預測
利用林業(yè)物聯(lián)網(wǎng)所采集的海量時空數(shù)據(jù),選擇林區(qū)植被生長狀態(tài)綜合評價指標,構建植被生長狀態(tài)評估模型,并進一步依據(jù)采集的數(shù)據(jù)來分析林區(qū)植被生長特征,建立時空數(shù)據(jù)預測模型,給出未來一段時間內(nèi)的植被生長狀態(tài)趨勢預測方法,實現(xiàn)森林植被與林作物生長狀態(tài)綜合評估及其生長趨勢的可靠預測。
4.3 林業(yè)產(chǎn)品物流信息的實時監(jiān)控及其市場需求趨勢的可信分析
對林產(chǎn)品在生產(chǎn)、運輸、倉儲、物流到銷售各個環(huán)節(jié)所采集的數(shù)據(jù)進行分析,提出基于林業(yè)物聯(lián)網(wǎng)技術的高效林產(chǎn)品物流運營模式,以提升其物流效率;同時將根據(jù)各類林產(chǎn)品的銷售記錄數(shù)據(jù),建立可信的林產(chǎn)品市場需求時空預測模型,從而實現(xiàn)林產(chǎn)品的“拉動式”生產(chǎn),提升林產(chǎn)品的市場競爭力,促進整個林業(yè)經(jīng)濟的健康、持續(xù)發(fā)展。
5 結 語
本文在對林業(yè)物聯(lián)網(wǎng)環(huán)境下海量時空數(shù)據(jù)流的特點進行分析的基礎上,探討了面向林業(yè)物聯(lián)網(wǎng)海量時空數(shù)據(jù)流挖掘的關鍵研究內(nèi)容,即時空數(shù)據(jù)流的預處理、聚類分析、頻繁模式發(fā)現(xiàn)及趨勢預測等幾大問題。通過對林業(yè)物聯(lián)網(wǎng)采集的數(shù)據(jù)進行高效挖掘和分析,可以對林區(qū)災情智能、即時監(jiān)測與預警、森林植被與林作物生長狀態(tài)綜合評估及其生長趨勢進行可靠預測,并為林業(yè)產(chǎn)品物流信息的實時監(jiān)控及其市場需求趨勢的可信分析提供科學的決策信息支持。
參考文獻
[1]史川石.物聯(lián)網(wǎng)在智慧林業(yè)中的應用[J].物聯(lián)網(wǎng)技術,2013,3(12): 76-77.
[2] Borgia E.The Internet of Things vision: Key features, applications and open issues[J]. Computer Communications, 2014, 54:1-31.
[3] Anders Bj?rkc,Martin Erlandssonc,Janne H?klib, et al.Monitoring environmental performance of the forestry supply chain using RFID[J]. Computers in Industry,2011,62(8-9): 830-841.
[4] Atzori L,Iera A,Morabito G.The internet of things: A survey[J].Computer networks, 2010,54(15): 2787-2805.
[5]丁治明,高需.面向物聯(lián)網(wǎng)海量傳感器采樣數(shù)據(jù)管理的數(shù)據(jù)庫集群系統(tǒng)框架[J].計算機學報,2012,35(6):1175-1191.
[6]Yang H,F(xiàn)ong S.Countering the concept-drift problems in big data by an incrementally optimized stream mining model[J].Journal of Systems and Software, 2015,102:158-166.
[7]Jan Holler,Tsiatsis,Mulligan,et al.From Machine-To- Machine to the Internet of Things[M].Academic Press, Oxford,2014.
[8]胡永利,孫艷豐,尹寶才.物聯(lián)網(wǎng)信息感知與交互技術[J].計算機學報,2012,35(6): 1147-1163.
[9]劉大有,陳慧靈,齊紅,等.時空數(shù)據(jù)挖掘研究進展[J].計算機研究與發(fā)展,2013,50(2): 225-239.
[10] Gubbi J,Buyya R,Marusic S,et al. Internet of Things(IoT):A vision,architectural elements, and future directions[J].Future Generation Computer Systems,2013,29(7): 1645-1660.