陳少斌 蘇 彥
(廣西崇左市氣象局,廣西 崇左 530001)
我國經(jīng)濟和社會發(fā)展迅速,導致氣候和氣象災害對國家經(jīng)濟和社會帶來很大影響,因此社會對氣象服務的質量需求就越來越高。氣象服務主要是對大量的氣象探測數(shù)據(jù)進行分析整理,氣象信息數(shù)據(jù)要保證規(guī)范化、準確化、豐富化和標準化,這是氣象工作的首要前提。最近幾年,地面自動氣象站觀測系統(tǒng)已經(jīng)替代了原有的人工觀測站,自動氣象站成為氣象觀測主要方式,其探測的氣象信息數(shù)據(jù)也成為天氣預報和科研人員的數(shù)據(jù)來源。并且自動觀測數(shù)據(jù)和人工觀測相比時間和空間的密度都大幅度提升,在我國很多地區(qū)的氣象部門使用自動氣象站觀測數(shù)據(jù),尤其是以數(shù)據(jù)挖掘技術對數(shù)據(jù)進行存儲和分析更受關注。
在如今的信息社會中大量數(shù)據(jù)中提取有用信息的能力是十分重要的,而數(shù)據(jù)庫的應用就應用而生,使用數(shù)據(jù)庫對數(shù)據(jù)存儲、統(tǒng)計和查詢等,但是數(shù)據(jù)庫卻無法發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系和遵守的規(guī)則,也不能預測未來發(fā)展情況。主要是因為缺乏數(shù)據(jù)挖掘技巧,所以數(shù)據(jù)挖掘技術就逐步發(fā)展起來,主要對信息材料進行數(shù)據(jù)處理。
數(shù)據(jù)挖掘也成為對數(shù)據(jù)庫中知識的發(fā)現(xiàn),目前被大多數(shù)人認同的定位是U.M.Fayyad等人提出的:從大量模糊、不安全、大量、隨機的數(shù)據(jù)中,提取人們不知道、潛在的有用信息的過程,提取的有用信息主要為規(guī)則、概念、規(guī)律或模式等。數(shù)據(jù)挖掘技術主要對各組織原來就具有的數(shù)據(jù)進行分析,并整理、歸納和推理,從而為相關人員提供幫助和支持,實際上是一種決策支持的過程。
數(shù)據(jù)挖掘過程包括在某個特定的數(shù)據(jù)庫中提取模型,并圍繞數(shù)據(jù)挖掘進行的結果表現(xiàn)和預處理過程,該過程具有反復性。對知識發(fā)現(xiàn)和提取的過程是由多個挖掘步驟構成,其中數(shù)據(jù)挖掘是一個重要步驟。而完整的步驟由目標定義階段、數(shù)據(jù)準備階段和數(shù)據(jù)挖掘階段組成。
目前國際上對于氣象數(shù)據(jù)應用在數(shù)據(jù)挖掘的技術是數(shù)據(jù)庫信息系統(tǒng)研究的主要方向,這也引起了氣象和學術界的重點關注,同時也吸引了很多研究人員和商業(yè)公司的關注。但是數(shù)據(jù)挖掘技術還需要面臨很多無法避免的問題,為了保證數(shù)據(jù)挖掘的有效性,要檢查數(shù)據(jù)挖掘的期望特性,還要考慮將面臨的挑戰(zhàn):對并行挖掘的高度結構和分布式的數(shù)據(jù)挖掘算法的探究;保證數(shù)據(jù)挖掘結果的確定性、可用性和解釋性;數(shù)據(jù)挖掘、數(shù)據(jù)倉庫和分析處理結合的開發(fā);在多層知識面和多個抽象等級上進行交互挖掘;數(shù)據(jù)挖掘建模語言和應用規(guī)范的統(tǒng)一性、靈活性和開放性。
氣象數(shù)據(jù)的時間和空間特性比較強,所以利用時間分析、空間分析和時間空間結合對氣象數(shù)據(jù)分析,能夠有效避開復雜的非線性動力學機制的數(shù)據(jù),是分析氣象信息數(shù)據(jù)很好的出發(fā)點。對于氣象特征,要先通過空間分析,得到氣象特征的描述,再進行時間分析,做出氣象特征的提前預報??臻g分析的過程為:首先,利用聚類分析手段對空間站點的數(shù)據(jù)信息進行分析,并通過地理位置進行劃分;然后再使用主成份分析法對數(shù)據(jù)分析,獲取氣象特征明顯的地區(qū);最后使用聚類分析方法對非正?,F(xiàn)象進行分析。時間分析的過程是:首先利用回歸分析、趨勢預測和奇異分析對數(shù)據(jù)分析;然后跟蹤數(shù)據(jù)演變,最終得出結論。
能夠影響氣象的因素很多,并且關系很復雜,目前的氣象預報基本是通過衛(wèi)星、臺站觀測和雷達獲取數(shù)據(jù),然后通過復雜的計算得出,計算能力要求非常高,需要高性能的大型計算機才可以承受。所以,如果對預測結果精確度沒有影響的前提下,將數(shù)據(jù)維度有效降低,并降低對計算機資源的依賴,這樣能夠實現(xiàn)利用一般計算機對數(shù)據(jù)處理的目標。降維分析主要分為近似降維和精確降維兩種,近似降維主要是主成分分析方法,主要是對數(shù)據(jù)進行簡化,降低數(shù)據(jù)維數(shù)的同時保證數(shù)據(jù)集中對方差最大,分析中對高階成分忽略而保留低階成分,也就是保留數(shù)據(jù)的最重要部分,因此不夠精確;精確降維主要是粗糙集分析方法,直接對數(shù)據(jù)推理并分析,獲取潛在的知識和規(guī)律,其基本思想是將數(shù)據(jù)特性分為條件和結論兩種,然后根據(jù)特性分為不同子集,然后對子集和結論劃分子集之間形成近似空間,如果特性子集忽略某一屬性而對結論屬性乜有影響,那么就忽略此特性,這樣能夠精確降低數(shù)據(jù)維數(shù)。
氣象信息數(shù)據(jù)挖掘就是從復雜大量的氣象數(shù)據(jù)和資料中,建立可描述的復雜非線性氣象系統(tǒng)模型,對數(shù)據(jù)隱藏的知識和規(guī)律進行分析,并且對未來的氣象信息進行預測,更好的為相關部門和研究人員提供數(shù)據(jù)。分類預測主要分為連續(xù)值預測和離散值預測兩種,其中連續(xù)值預測是利用回歸分析和神經(jīng)網(wǎng)絡對降雨量、溫度等進行預測;離散值預測主要利用決策樹、SVM分類算法、粗糙集、神經(jīng)網(wǎng)絡和分類統(tǒng)計等方法,對降雨、降霜、臺風和暴雨等進行預測。
關聯(lián)分析主要是多個事物間如果存在關聯(lián),那么利用其中一個事物能夠對其他事物進行預測,達到對數(shù)據(jù)間隱藏的關系進行挖掘。由于氣象信息數(shù)據(jù)的多維性和時空性,所以氣象信息數(shù)據(jù)的關聯(lián)分析要從兩方面進行分析:第一降低頻繁集個數(shù),對特定屬性關聯(lián)分析;第二是不同時空中對同一屬性的關聯(lián)分析。對于某一時空的氣象會受到周圍氣象因素的干擾,而且具有時間上的連續(xù)性,所以頻繁集的選取就要求跨地域、跨時間。對于氣象信息的數(shù)據(jù)庫中,氣象要素字段非常多,考慮所有字段的關聯(lián)就會導致頻繁集很多,而這樣復雜大量的頻繁集只有一部分具有價值,所以要找到關鍵字段,將該字段和其他字段同時發(fā)生的頻率進行分析,這樣研究價值更高。
總之,氣象信息數(shù)據(jù)的領域和容量不斷拓寬并增長,如何對氣象數(shù)據(jù)進行利用和挖掘已經(jīng)成為氣象領域研究人員面臨的重要問題。本文對氣象信息數(shù)據(jù)挖掘技術進行分析,希望對相關人員有所幫助。
[1]李一平.數(shù)據(jù)挖掘技術在天氣預報中的應用研究.內(nèi)蒙古大學.2003
[2]韓濤.陜西省區(qū)域自動氣象站觀測資料分析系統(tǒng)研究與實現(xiàn).西安電子科技大學.2012