姚瑤 趙瑞雪 邱俊強
摘 要:主要介紹了神經(jīng)網(wǎng)絡(luò)的中BP神經(jīng)網(wǎng)絡(luò)的內(nèi)容,結(jié)合BP神經(jīng)網(wǎng)絡(luò)可用訓(xùn)練人工神經(jīng)元進行數(shù)據(jù)的分類和預(yù)測的特點,分析探討了BP神經(jīng)網(wǎng)絡(luò)在環(huán)境污染數(shù)據(jù)挖掘中的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);BP算法
引言:隨著計算機網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,如何從海量數(shù)據(jù)中提取有用信息成為當(dāng)務(wù)之急. 數(shù)據(jù)挖掘正是為順應(yīng)這種需要而發(fā)展起來的信息處理技術(shù). 它借助某些專門算法,利用計算機從海量數(shù)據(jù)中提取有用 的信息,揭示某些隱藏規(guī)律,從而有效預(yù)測和正確指導(dǎo)未來的工作. [1] 分類是數(shù)據(jù)挖掘的主要功能之一,它 通過分析類,標記已知的訓(xùn)練數(shù)據(jù)集,導(dǎo)出描述并區(qū)分數(shù)據(jù)類或概念的模型 函數(shù),以便能使用該模型預(yù)測 類標記未知的對象類. [1] 人工神經(jīng)網(wǎng)絡(luò)( ANN ,Artificial Neural Network)是20 世紀 80年代后期迅速發(fā)展起來 的人工智能技術(shù). 它對噪聲數(shù)據(jù)具有很高的承受能力,對未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng) 站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領(lǐng)域得到了越來越廣泛的應(yīng)用. 在多種 ANN 中,反向傳播 ( BP,Back-Propagation)網(wǎng)絡(luò)是應(yīng)用最廣的一種形式[3] .
1.神經(jīng)網(wǎng)絡(luò)定義
(1)生物神經(jīng)網(wǎng)絡(luò)主要是指人腦的神經(jīng)網(wǎng)絡(luò),它是人工神經(jīng)網(wǎng)絡(luò)的技術(shù)原型。人腦是人類思維的物質(zhì)基礎(chǔ),思維的功能定位在大腦皮層,后者含有大約1011個神經(jīng)元,每個神經(jīng)元又通過神經(jīng)突觸與大約103個其它神經(jīng)元相連,形成一個高度復(fù)雜高度靈活的動態(tài)網(wǎng)絡(luò)。作為一門學(xué)科,生物神經(jīng)網(wǎng)絡(luò)主要研究人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能及其工作機制,意在探索人腦思維和智能活動的規(guī)律。
(2)人工神經(jīng)網(wǎng)絡(luò)是生物神經(jīng)網(wǎng)絡(luò)在某種簡化意義下的技術(shù)復(fù)現(xiàn),作為一門學(xué)科,它的主要任務(wù)是根據(jù)生物神經(jīng)網(wǎng)絡(luò)的原理和實際應(yīng)用的需要建造實用的人工神經(jīng)網(wǎng)絡(luò)模型,設(shè)計相應(yīng)的學(xué)習(xí)算法,模擬人腦的某種智能活動,然后在技術(shù)上實現(xiàn)出來用以解決實際問題。因此,生物神經(jīng)網(wǎng)絡(luò)主要研究智能的機理;人工神經(jīng)網(wǎng)絡(luò)主要研究智能機理的實現(xiàn),兩者相輔相成
(3)BP神經(jīng)網(wǎng)絡(luò)
BP (Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。其由輸入層、中間層、輸出層組成的階層型神經(jīng)網(wǎng)絡(luò),中間層可擴展為多層。相鄰層之間各神經(jīng)元進行全連接,而每層各神經(jīng)元之間無連接,網(wǎng)絡(luò)按有教師示教的方式進行學(xué)習(xí),當(dāng)一對學(xué)習(xí)模式提供給網(wǎng)絡(luò)后,各神經(jīng)元獲得網(wǎng)絡(luò)的輸入響應(yīng)產(chǎn)生連接權(quán)值(Weight)。然后按減小希望輸出與實際輸出誤差的方向,從輸出層經(jīng)各中間層逐層修正各連接權(quán),回到輸入層。此過程反復(fù)交替進行,直至網(wǎng)絡(luò)的全局誤差趨向給定的極小值,即完成學(xué)習(xí)的過程。
2. 人工神經(jīng)元( Artificial Neuron )模型 [2]
人工神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本元素,其原理可以用下圖表示:
圖中x1~xn是從其他神經(jīng)元傳來的輸入信號,wij表示表示從神經(jīng)元j到神經(jīng)元i的連接權(quán)值,θ表示一個閾值 ( threshold ),或稱為偏置( bias )。則神經(jīng)元i的輸出與輸入的關(guān)系表示為:
圖中 yi表示神經(jīng)元i的輸出,函數(shù)f稱為激活函數(shù) ( Activation Function )或轉(zhuǎn)移函數(shù) ( Transfer Function ) ,net稱為凈激活(net activation)。若將閾值看成是神經(jīng)元i的一個輸入x0的權(quán)重wi0,則上面的式子可以簡化為:
若用X表示輸入向量,用W表示權(quán)重向量,即:
X = [ x0 , x1 , x2 , ....... , xn ]
則神經(jīng)元的輸出可以表示為向量相乘的形式:
若神經(jīng)元的凈激活net為正,稱該神經(jīng)元處于激活狀態(tài)或興奮狀態(tài)(fire),若凈激活net為負,則稱神經(jīng)元處于抑制狀態(tài)。
圖1中的這種“閾值加權(quán)和”的神經(jīng)元模型稱為M-P模型 ( McCulloch-Pitts Model ),也稱為神經(jīng)網(wǎng)絡(luò)的一個處理單元( PE, Processing Eleme
3.激活函數(shù)
在神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)解決問題的能力與效率除了與網(wǎng)絡(luò)結(jié)構(gòu)有關(guān)外,在很大程度上取決于網(wǎng)絡(luò)所采用的激活函數(shù)。激活函數(shù)的選擇對網(wǎng)絡(luò)的收斂速度有較大的影響,針對不同的實際問題,激活函數(shù)的選擇也應(yīng)不同。
常用的激活函數(shù)有以下幾種形式:
(1)閾值函數(shù):該函數(shù)通常也稱為階躍函數(shù)。當(dāng)激活函數(shù)采用階躍函數(shù)時,人工神經(jīng)元模型即為MP模型。此時神經(jīng)元的輸出取1或0,反應(yīng)了神經(jīng)元的興奮或抑制。
(2)線性函數(shù):該函數(shù)可以在輸出結(jié)果為任意值時作為輸出神經(jīng)元的激活函數(shù),但是當(dāng)網(wǎng)絡(luò)復(fù)雜時,線性激活函數(shù)大大降低網(wǎng)絡(luò)的收斂性,故一般較少采用。
(3)對數(shù)S形函數(shù):對數(shù)S形函數(shù)的輸出介于0~1之間,常被要求為輸出在0~1范圍的信號選用。它是神經(jīng)元中使用最為廣泛的激活函數(shù)。
(4)雙曲正切S形函數(shù):雙曲正切S形函數(shù)類似于被平滑的階躍函數(shù),形狀與對數(shù)S形函數(shù)相同,以原點對稱,其輸出介于-1~1之間,常常被要求為輸出在-1~1范圍的信號選用。
4.神經(jīng)網(wǎng)絡(luò)模型 [3-6]
神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元互聯(lián)而構(gòu)成的網(wǎng)絡(luò)。根據(jù)網(wǎng)絡(luò)中神經(jīng)元的互聯(lián)方式,常見網(wǎng)絡(luò)結(jié)構(gòu)主要可以分為下面3類:
(1) 前饋神經(jīng)網(wǎng)絡(luò) (Feedforward Neural Networks )
前饋網(wǎng)絡(luò)也稱前向網(wǎng)絡(luò)。這種網(wǎng)絡(luò)只在訓(xùn)練過程會有反饋信號,而在分類過程中數(shù)據(jù)只能向前傳送,直到到達輸出層,層間沒有向后的反饋信號,因此被稱為前饋網(wǎng)絡(luò)。感知機( perceptron)與BP神經(jīng)網(wǎng)絡(luò)就屬于前饋網(wǎng)絡(luò)。
圖4 中是一個3層的前饋神經(jīng)網(wǎng)絡(luò),其中第一層是輸入單元,第二層稱為隱含層,第三層稱為輸出層(輸入單元不是神經(jīng)元,因此圖中有2層神經(jīng)元)。
對于一個3層的前饋神經(jīng)網(wǎng)絡(luò)N,若用X表示網(wǎng)絡(luò)的輸入向量,W1~W3表示網(wǎng)絡(luò)各層的連接權(quán)向量,F(xiàn)1~F3表示神經(jīng)網(wǎng)絡(luò)3層的激活函數(shù)。
那么神經(jīng)網(wǎng)絡(luò)的第一層神經(jīng)元的輸出為:
O1 = F1( XW1 )
第二層的輸出為:
O2 = F2 ( F1( XW1 ) W2 )
輸出層的輸出為:
O3 = F3( F2 ( F1( XW1 ) W2 ) W3 )
若激活函數(shù)F1~F3都選用線性函數(shù),那么神經(jīng)網(wǎng)絡(luò)的輸出O3將是輸入X的線性函數(shù)。因此,若要做高次函數(shù)的逼近就應(yīng)該選用適當(dāng)?shù)姆蔷€性函數(shù)作為激活函數(shù)。
(2) 反饋神經(jīng)網(wǎng)絡(luò) ( Feedback Neural Networks )
反饋型神經(jīng)網(wǎng)絡(luò)是一種從輸出到輸入具有反饋連接的神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)比前饋網(wǎng)絡(luò)要復(fù)雜得多。典型的反饋型神經(jīng)網(wǎng)絡(luò)有:Elman網(wǎng)絡(luò)和Hopfield網(wǎng)絡(luò)。
(3) 自組織網(wǎng)絡(luò) ( SOM ,Self-Organizing Neural Networks )
自組織神經(jīng)網(wǎng)絡(luò)是一種無導(dǎo)師學(xué)習(xí)網(wǎng)絡(luò)。它通過自動尋找樣本中的內(nèi)在規(guī)律和本質(zhì)屬性,自組織、自適應(yīng)地改變網(wǎng)絡(luò)參數(shù)與結(jié)構(gòu)。
5.神經(jīng)網(wǎng)絡(luò)的研究可以分為理論研究和應(yīng)用研究兩大方面。
(1)理論研究可分為以下兩類:
1)、利用神經(jīng)生理與認知科學(xué)研究人類思維以及智能機理。
2)、利用神經(jīng)基礎(chǔ)理論的研究成果,用數(shù)理方法探索功能更加完善、性能更加優(yōu)越的神經(jīng)網(wǎng)絡(luò)模型,深入研究網(wǎng)絡(luò)算法和性能,如:穩(wěn)定性、收斂性、容錯性、魯棒性等;開發(fā)新的網(wǎng)絡(luò)數(shù)理理論,如:神經(jīng)網(wǎng)絡(luò)動力學(xué)、非線性神經(jīng)場等。
(2)應(yīng)用研究可分為以下兩類:
1)、神經(jīng)網(wǎng)絡(luò)的軟件模擬和硬件實現(xiàn)的研究。
2)、神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域中應(yīng)用的研究。這些領(lǐng)域主要包括:
模式識別、信號處理、知識工程、專家系統(tǒng)、優(yōu)化組合、機器人控制等。隨著神經(jīng)網(wǎng)絡(luò)理論本身以及相關(guān)理論、相關(guān)技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)的應(yīng)用定將更加深入。
6. BP神經(jīng)網(wǎng)絡(luò)在環(huán)境污染數(shù)據(jù)挖掘中的應(yīng)用
通過上文對BP神經(jīng)網(wǎng)絡(luò)的模型介紹可知,BP神經(jīng)網(wǎng)絡(luò)具有反饋傳輸誤差,修正權(quán)值,最終形成適合其他數(shù)據(jù)應(yīng)用的神經(jīng)網(wǎng)絡(luò)的特點。BP神經(jīng)網(wǎng)絡(luò)這一特性在大數(shù)據(jù)環(huán)境下可有效利用。而環(huán)境污染方面的數(shù)據(jù)正是龐大而實時變化的大數(shù)據(jù)環(huán)境,面對這樣的大數(shù)據(jù)環(huán)境,有效應(yīng)用BP神經(jīng)網(wǎng)絡(luò)可對環(huán)境污染數(shù)據(jù)進行分類預(yù)測。由此提出這樣的應(yīng)用思想:將近幾年的環(huán)境污染數(shù)據(jù),例如五大空氣質(zhì)量數(shù)據(jù)PM2.5,PM10,NO2,SO2,O3數(shù)值作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)集,相對應(yīng)的環(huán)境指標AQI值作為BP神經(jīng)網(wǎng)絡(luò)輸出數(shù)據(jù)集,利用BP神經(jīng)網(wǎng)絡(luò)反饋傳輸修正誤差形成可預(yù)測環(huán)境指標AQI值的神經(jīng)網(wǎng)絡(luò)。筆者應(yīng)用C語言簡單地構(gòu)造了BP神經(jīng)網(wǎng)絡(luò)分類器,并應(yīng)用2016-2017南京環(huán)境污染相關(guān)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到可執(zhí)行程序。但是由于BP神經(jīng)網(wǎng)絡(luò)分類器有待優(yōu)化,預(yù)測結(jié)果不準確。結(jié)果截圖(如圖6-1)如下:
7.結(jié)束語
通過本文對神經(jīng)網(wǎng)絡(luò)的介紹以及對BP神經(jīng)網(wǎng)絡(luò)在環(huán)境污染數(shù)據(jù)挖掘中應(yīng)用的探討,BP神經(jīng)網(wǎng)絡(luò)應(yīng)用領(lǐng)域可大大擴展,尤其對環(huán)境污染數(shù)據(jù)挖掘中相關(guān)應(yīng)用。針對BP神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用,對于環(huán)境污染方面不僅僅可實現(xiàn)環(huán)境污染指標的預(yù)測,而且極大可能可實現(xiàn)大數(shù)據(jù)污染程度的分類等等,這仍有待探究。
參考文獻:
[1] HAN J,KAMBER M. Data Mining: Concepts andTechniques[ M] . Morgan Kaufmann Publishers,2001.
[2]張?zhí)熘?基于 GABP算法的復(fù)雜計算機網(wǎng)絡(luò)安全評價中的應(yīng)用【D】.電子科技大學(xué),2015
[3]劉 釗,蔣良孝. 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究 [ J] . 計算機工程與應(yīng)用,2004,40( 3): 172-173,190
[4]朱偉剛,徐超.BP神經(jīng)網(wǎng)絡(luò)算法在長春地鐵二號線地表沉降預(yù)測中的應(yīng)用【J】.長春工程學(xué)院.2018
[5] 馬仕.BP神經(jīng)網(wǎng)絡(luò)在地層預(yù)測中的應(yīng)用研究【D】.河北工業(yè)大學(xué).2016
[6] 董明明.蔣濤.數(shù)據(jù)挖掘中BP神經(jīng)網(wǎng)絡(luò)與決策樹技術(shù)的應(yīng)用研究【J】.揚州大學(xué).2018
[7] 莫禮平.樊曉平,BP 神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘分類中的應(yīng)用【D】 ,中南大學(xué)信息科學(xué)與工程學(xué)院,2006
*雙創(chuàng)項目:南京審計大學(xué)金審學(xué)院雙創(chuàng)項目201813994005Y