林浩順
(福建省國土資源信息中心,福建 福州 350001)
自然資源作為人類日常生活中必備的生活生產(chǎn)資料,主要包括不可再生資源、可再生資源以及無盡資源等,主要包括礦物、金屬、水、生物以及太陽能、風(fēng)能等[1]。利用信息化技術(shù),合理利用資源,對其進行有效的保護和合理的開發(fā),能夠獲得更大的環(huán)境效益和更好的社會經(jīng)濟效益[2]。2019年,《自然資源部信息化建設(shè)總體方案》的發(fā)布要求對于自然資源進行全面信息化管理。
隨著我國眾多的土地、礦產(chǎn)等自然資源被納入到信息化管理,單純的信息瀏覽查詢,已經(jīng)不能滿足當(dāng)前經(jīng)濟快速發(fā)展的需要[3]。在互聯(lián)網(wǎng)技術(shù)大力發(fā)展的今天,利用數(shù)據(jù)庫對資源進行整理和挖掘,高效獲得有用的數(shù)據(jù),可以實現(xiàn)經(jīng)濟資源的效益最大化利用。引入智能化技術(shù)手段,采用數(shù)據(jù)挖掘技術(shù)對自然資源數(shù)據(jù)進行管理,能夠大幅提高資源利用效率[4]。數(shù)據(jù)挖掘的技術(shù)是利用科學(xué)化的手段,將大量的數(shù)據(jù)資源進行規(guī)律化整理,分析其中的運行規(guī)律。將其與自然資源的管理有機結(jié)合,有助于更好地實現(xiàn)信息平臺的高效管理工作[5]。
本文利用數(shù)據(jù)挖掘技術(shù),分析了信息化的自然資源與經(jīng)濟發(fā)展的關(guān)系。通過聚類分析,整合不同地區(qū)的資源數(shù)據(jù),分析出各地區(qū)的經(jīng)濟發(fā)展?fàn)顟B(tài),為更好地提高自然資源利用效率提供思路。
數(shù)據(jù)挖掘技術(shù)發(fā)展自數(shù)據(jù)庫技術(shù),技術(shù)的進步使得簡單的數(shù)據(jù)庫查詢不能滿足人們的需求,將人工智能技術(shù)與數(shù)據(jù)庫技術(shù)進行結(jié)合,可以有效實現(xiàn)數(shù)據(jù)庫的管理和數(shù)據(jù)存儲工作。利用人工智能技術(shù)對于數(shù)據(jù)進行分類管理,從而對其規(guī)律進行自動化分析,進而獲得數(shù)據(jù)資料背后的知識。
數(shù)據(jù)挖掘的方法主要包括分類分析、聚類分析、時間序列分析、回歸模型以及其他相關(guān)性分析等方法。各種方法的建立都是基于科學(xué)的理論,通過總結(jié)其數(shù)據(jù)規(guī)律,得到相關(guān)的共性和個性。
信息化系統(tǒng)的主要作用在于數(shù)據(jù)收集和數(shù)據(jù)查詢,數(shù)據(jù)資源是信息化的核心,起到支撐性的作用。整個信息化系統(tǒng)中的數(shù)據(jù)含有地理信息,因此相關(guān)的數(shù)據(jù)建設(shè)必須規(guī)范,以提高查詢的效率和準(zhǔn)確性。
對于收集到的數(shù)據(jù),對其進行分類,判斷其是否存在空間信息,對存在空間信息的數(shù)據(jù)進行整合處理。數(shù)據(jù)整合的過程主要包括格式轉(zhuǎn)換、格式標(biāo)準(zhǔn)化、數(shù)據(jù)完善等。處理好的數(shù)據(jù)結(jié)合對應(yīng)的符號,標(biāo)識在相應(yīng)的地圖服務(wù)中。
數(shù)據(jù)整合的過程需要對于對應(yīng)的空間數(shù)據(jù)建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。對其數(shù)據(jù)格式進行分類轉(zhuǎn)換,將收集到的CAD 文件、文本文件、Excel格式數(shù)據(jù)文件等轉(zhuǎn)換成對應(yīng)的目標(biāo)格式數(shù)據(jù)文件。部分不涉及的功能屬性數(shù)據(jù)進行相應(yīng)的保存歸檔,為以后使用做好準(zhǔn)備。
聚類算法是一種對研究對象進行數(shù)據(jù)分組的一種分析方法,分組的依據(jù)主要在于相關(guān)數(shù)據(jù)見的內(nèi)在特征或者是其相似性,從而將一個數(shù)據(jù)集合分成若干個簇的信息處理方式。
通過數(shù)據(jù)劃分以后,會將具有相同屬性的數(shù)據(jù)對象進行整合,使得同一個聚類的對象之間具有很好的相似性,類內(nèi)間距值接近于0。而對于聚類之間的對象,其相似性較差,幾乎不具備相似性,類間間距值接近于1。
對于已有的數(shù)據(jù)進行聚類分析,主要步驟包括數(shù)據(jù)準(zhǔn)備、特征生成和聚類分析。
(1)數(shù)據(jù)準(zhǔn)備。
數(shù)據(jù)準(zhǔn)備的過程包括數(shù)據(jù)的獲取和數(shù)據(jù)的預(yù)處理過程,并將處理好的數(shù)據(jù)進行標(biāo)準(zhǔn)化,以便于數(shù)據(jù)分析。
數(shù)據(jù)獲取的過程是從已有的信息化系統(tǒng)中調(diào)用相關(guān)數(shù)據(jù)或者從收集到的資料中獲取到的原始數(shù)據(jù)。對于相關(guān)的數(shù)據(jù)屬性加以選擇,去除對于本次分析無關(guān)的數(shù)據(jù)屬性。
數(shù)據(jù)預(yù)處理的過程主要在于對于數(shù)據(jù)的格式和參數(shù)調(diào)整,保證其與系統(tǒng)共享數(shù)據(jù)的一致性。對于不正常的數(shù)據(jù)進行篩選,對于與大部分?jǐn)?shù)據(jù)不一致的數(shù)據(jù)進行修改,刪除冗余數(shù)據(jù)。統(tǒng)一數(shù)據(jù)坐標(biāo)系,尤其是地理數(shù)據(jù),形成標(biāo)準(zhǔn)化格式。補充數(shù)據(jù)中不完整的屬性項,以便于數(shù)據(jù)挖掘和數(shù)據(jù)整理。對于包含屬性較多的數(shù)據(jù),為了便于挖掘,需要對其進行規(guī)約處理,使數(shù)據(jù)更簡潔,提高數(shù)據(jù)挖掘效率。
中心化和標(biāo)準(zhǔn)化過程,在于使數(shù)據(jù)的屬性單位一致,從而在聚類分析中的地位一致,避免對于數(shù)據(jù)分析結(jié)果形成干擾。
數(shù)據(jù)中心化的過程主要是利用待檢測變量的觀察值與對應(yīng)平均值進行做差,使得變量的觀察值X的每一個列屬性具有相同的數(shù)據(jù)基點。
數(shù)據(jù)第j個變量的數(shù)值平均值表示為:
(1)
對第j個屬性的全部n個對象進行中心化處理,處理過程可以表示為:
(2)
為了保證各個數(shù)據(jù)屬性具有相同的數(shù)據(jù)基點,對2式中的屬性進行數(shù)據(jù)變換,使得變量的平均值為0。
(2)標(biāo)準(zhǔn)化數(shù)據(jù)。
標(biāo)準(zhǔn)化的目的在于使得中心化后的數(shù)據(jù)具有相同的變化范圍,標(biāo)準(zhǔn)化的方法有多種,本文主要采用均值標(biāo)準(zhǔn)差方法,其表示形式為:
(3)
式3中,vj表示數(shù)據(jù)屬性中第j列數(shù)值的平均值,qj表示對應(yīng)數(shù)值的標(biāo)準(zhǔn)差。對應(yīng)的表達(dá)式為:
(4)
經(jīng)過標(biāo)準(zhǔn)化處理后的數(shù)據(jù),其數(shù)值取值范圍為-1~1。
(3)特征生成。
特征生成過程在于對于數(shù)據(jù)之間的相似性進行總結(jié),根據(jù)數(shù)據(jù)相關(guān)性算法以及研究人員的工作經(jīng)驗,得到數(shù)據(jù)之間的相似性關(guān)系。
(4)聚類分析。
通過數(shù)據(jù)的標(biāo)準(zhǔn)化以及數(shù)值特征的生成,可以聚類完成相關(guān)分析結(jié)果的發(fā)現(xiàn)、驗證和評估、優(yōu)化等過程。選擇合理的算法,并經(jīng)過參數(shù)的優(yōu)化整合設(shè)計,可以使得分析結(jié)果與現(xiàn)實情況更為接近。
數(shù)據(jù)的相關(guān)關(guān)系是指變量在一定程度上存在相互對應(yīng)的關(guān)聯(lián),當(dāng)自變量之間存在一定的數(shù)據(jù)關(guān)聯(lián)時或者取值一定時,因變量變現(xiàn)為在一定范圍內(nèi)按規(guī)律變化,此時兩者之間具有相關(guān)關(guān)系。
本文數(shù)據(jù)相關(guān)性的算法原則主要是基于深度優(yōu)先算法,利用該算法中的FP-growth 算法,提高計算效率。
該算法的計算步驟主要分為兩步:生成項目樹和頻繁項目挖掘。
具體過程包括:
(1)通過定義支持度,對篩選出來的數(shù)據(jù)進行掃描,得到不同項集的支持度情況,對于支持度不滿足最小支持度的項進行刪除,得到結(jié)果數(shù)據(jù)集L。
(2)創(chuàng)建項目樹的根節(jié)點,并第二次掃描數(shù)據(jù)庫,將結(jié)果集L中的數(shù)據(jù)按照大小排序。以此為基礎(chǔ)構(gòu)造新的項目樹,對于樹中的節(jié)點進行整理,對于已存在的節(jié)點進行加一操作,對不存在的節(jié)點進行構(gòu)建。
(3)進行FP-Tree 挖掘,從長度最小的節(jié)點開始尋找,逐步向上一級擴展尋找路徑,直到找到最優(yōu)解。
自然資源對于地區(qū)的經(jīng)濟發(fā)展來說,本身是個優(yōu)勢條件,但是當(dāng)能源開發(fā)到一定的程度的時候,就會對經(jīng)濟發(fā)展起到反作用。自然資源的開發(fā)以及能源產(chǎn)業(yè)的大力發(fā)展,會使得地區(qū)經(jīng)濟在短時間內(nèi)迅速繁榮,但是過度的發(fā)展會使得產(chǎn)業(yè)結(jié)構(gòu)被破壞,從而抑制了其他產(chǎn)業(yè)的進步,從而導(dǎo)致經(jīng)濟出現(xiàn)各種各樣的問題。
大量消耗的資源以及能源,產(chǎn)生大量的粉塵和空氣污染,出現(xiàn)破壞性的酸雨,環(huán)保壓力巨大,脆弱的自然環(huán)境同樣對于經(jīng)濟的發(fā)展起到制約的作用。先破壞后治理的發(fā)展模式,并不能有效帶來經(jīng)濟的進步,反而使得環(huán)保的壓力越來越大。
從而自然資源和能源的開發(fā)利用與經(jīng)濟發(fā)展之間的關(guān)系,具有復(fù)雜的相關(guān)性,涉及的領(lǐng)域除了技術(shù)行業(yè)以外,環(huán)境損失成本對于經(jīng)濟的影響越來越明顯。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用于能源開發(fā)的狀況分析可以采用K均值聚類分析的方法。其主要指標(biāo)在于類間偏差和類內(nèi)偏差,類間偏差值通常大于0小于1,該值距離1的接近程度表明其聚類質(zhì)量越好。類內(nèi)偏差值的大小也在0~1,其數(shù)值與0的接近程度代表其聚類質(zhì)量。
通過K值的合理設(shè)定可以有效分析系統(tǒng)的狀態(tài)。一般要求K的取值,使類內(nèi)間距較小,類間間距較大。一般情況下,K=5時能夠較好地反映能源的開發(fā)狀態(tài)。
聚類的結(jié)果,可以采用權(quán)值和距離來衡量。權(quán)重的意義表示該屬性在聚類中的作用,即該屬性的重要程度。距離表示每個類中心點到重心的距離,當(dāng)距離值較大時,說明可以重要程度可以由這個距離值所對應(yīng)的屬性來表示。
權(quán)值計算方法為:
(5)
(6)
(7)
式中xi, j表示i類中j屬性的值,yi表示i類中心點的屬性,K為類i中的屬性數(shù)量。
根據(jù)各地區(qū)的能源開發(fā)現(xiàn)狀,由聚類結(jié)果分析出不同能源開發(fā)的屬性權(quán)值如表1所示。
表1 能源開發(fā)屬性權(quán)重
投影計算方法為:
(8)
d(i,j)=(xi-y)2
(9)
(10)
式中,Zij表示i類j屬性的值,y表示平均值。得到對應(yīng)的能源開發(fā)屬性投影如表2所示。
表2 能源開發(fā)屬性投影
通過聚類分析可以得到“石油天然氣開采”“電力、熱力、燃?xì)饧八a(chǎn)業(yè)”兩個屬性在能源開發(fā)過程中的作用最大,對應(yīng)省市的能源開發(fā)狀態(tài)可由對應(yīng)的權(quán)重及開發(fā)屬性投影加以反應(yīng)。
由于開發(fā)屬性的投影距離不同,不同省份地區(qū)的資源開發(fā)情況各不相同。
第一類河北等省份的能源開發(fā)情況由“電力、熱力、燃?xì)饧八a(chǎn)業(yè)”屬性決定;由于煤炭等的比重較低,說明該地區(qū)的發(fā)展主要依靠清潔能源。第二類山西等省份的能源開發(fā)情況由“石油天然氣開采”屬性決定,同樣沒有大量的煤炭消耗;第三類北京等省市的聚類結(jié)果與第一類地區(qū)類似;第四類福建等省份聚類結(jié)果由“石油和煉焦加工業(yè)”屬性決定;第五類浙江等省份聚類結(jié)果與第二類情況類似。
聚類結(jié)果說明我國的礦產(chǎn)資源與能源開發(fā)情況逐漸擺脫過去對于煤炭的依賴,而逐步向清潔能源方向發(fā)展。從發(fā)展的情況來看,水電與天然氣生產(chǎn)的比重不斷上升,進一步說明我國資源發(fā)展偏向于潔凈能源。
本文通過數(shù)據(jù)挖掘技術(shù)對于自然資源進行信息化管理,可以有效掌握國家自然資源的利用情況。由于自然資源的數(shù)據(jù)巨大,因此需要在其信息化系統(tǒng)的構(gòu)建過程中,進行整合分析處理。在數(shù)據(jù)挖掘的過程中,需要根據(jù)不同資源的特性,進行分類整合,在總結(jié)數(shù)據(jù)規(guī)律的基礎(chǔ)上完成數(shù)據(jù)分析,可以得到更好的數(shù)據(jù)結(jié)論。