張翰英,楊照峰
(1.平頂山市工業(yè)學(xué)校,平頂山467000;2.平頂山學(xué)院軟件學(xué)院,平頂山467002)
基于數(shù)據(jù)挖掘的塵肺病建模與預(yù)測(cè)研究?
張翰英1,楊照峰2
(1.平頂山市工業(yè)學(xué)校,平頂山467000;2.平頂山學(xué)院軟件學(xué)院,平頂山467002)
為了提高塵肺病的預(yù)測(cè)準(zhǔn)確性,針對(duì)塵肺病歷史數(shù)據(jù)少、不確定的特點(diǎn),采用多種數(shù)據(jù)挖掘技術(shù)進(jìn)行建模,提出一種基于GM-BPNN的塵肺病組合預(yù)測(cè)模型。首先利用灰色模型GM(1,1)對(duì)塵肺病進(jìn)行預(yù)測(cè),然后采用BP神經(jīng)網(wǎng)絡(luò)對(duì)GM(1,1)預(yù)測(cè)結(jié)果進(jìn)行修正,并采用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,最后對(duì)1981~2006年的塵肺病例進(jìn)行仿真測(cè)試。仿真結(jié)果表明GM-BPNN很好地解決了塵肺病預(yù)測(cè)過程中的小樣本、非線性問題,相對(duì)于單一預(yù)測(cè)模型,提高了塵肺病的預(yù)測(cè)精度。
塵肺??;灰色模型;BP神經(jīng)網(wǎng)絡(luò);遺傳算法;仿真
塵肺病是一種危害嚴(yán)重的職業(yè)病。據(jù)統(tǒng)計(jì),塵肺病發(fā)病率一直呈上升趨勢(shì),不僅危害工人身體健康,而且給國(guó)家?guī)砹私?jīng)濟(jì)損失,因此對(duì)塵肺病未來發(fā)病狀況進(jìn)行有效預(yù)測(cè),然后根據(jù)預(yù)測(cè)結(jié)果對(duì)塵肺病進(jìn)行控制和管理,具有十分重要意義[1]。
當(dāng)前塵肺病預(yù)測(cè)方法主要包括傳統(tǒng)統(tǒng)計(jì)學(xué)方法和數(shù)據(jù)挖掘技術(shù)預(yù)測(cè)方法。傳統(tǒng)統(tǒng)計(jì)學(xué)方法包括線性回歸預(yù)測(cè)、時(shí)間序列、趨勢(shì)外推法和指數(shù)平滑法等[2],這些方法參數(shù)設(shè)置少,簡(jiǎn)單易實(shí)現(xiàn),但它們均假設(shè)塵肺病變化趨勢(shì)是一種線性變化,實(shí)際上塵肺病預(yù)測(cè)是一種不確定、非線性變化系統(tǒng),因此它們難以建立準(zhǔn)確的塵肺病預(yù)測(cè)模型,預(yù)測(cè)結(jié)果與實(shí)際要求有一定的差距[3]。數(shù)據(jù)挖掘技術(shù)預(yù)測(cè)方法是一種非線性預(yù)測(cè)方法,其包括支持向量機(jī)、專家系統(tǒng)、灰色模型、貝葉斯網(wǎng)絡(luò)等[4-5],這些非線性預(yù)測(cè)方法提高了塵肺病預(yù)測(cè)精度,但它們都存在各自不足,塵肺病預(yù)測(cè)精度有待進(jìn)一步提高。如專家系統(tǒng)通用性差,沒有學(xué)習(xí)能力;灰色模型對(duì)隨機(jī)波動(dòng)性較大的數(shù)據(jù)擬合效果較差;神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、要求樣本大,而塵肺病是一種小樣本、非線性預(yù)測(cè)問題,因此在樣本不足的情況下,神經(jīng)網(wǎng)絡(luò)易出現(xiàn)過擬合缺陷[5]。支持向量機(jī)訓(xùn)練時(shí)間長(zhǎng),速度慢,參數(shù)確定沒有統(tǒng)一標(biāo)準(zhǔn)[6]。近年來,基于組合優(yōu)化理論,一些學(xué)者提出組合模型來克服單一模型的不足,預(yù)測(cè)精度相應(yīng)提高,在經(jīng)濟(jì)、水資源、糧食產(chǎn)量等領(lǐng)域得到了廣泛應(yīng)用[7-8]。但到目前為今,還沒有學(xué)者將組合模型應(yīng)用于塵肺病預(yù)測(cè)。
為了提高塵肺病預(yù)測(cè),將遺傳算法、神經(jīng)網(wǎng)絡(luò)、灰色模型等多種數(shù)據(jù)挖掘技術(shù)組合在一起,建立一種灰色遺傳神經(jīng)網(wǎng)絡(luò)的塵肺病組合預(yù)測(cè)模型。首先利用灰色模型對(duì)塵肺病歷史數(shù)據(jù)建模和預(yù)測(cè),然后采用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)對(duì)灰色模型的塵肺病預(yù)測(cè)結(jié)果進(jìn)行修正,最后采用具體數(shù)據(jù)對(duì)建立的塵肺病預(yù)測(cè)模型性能進(jìn)行驗(yàn)證。
2.1 灰色模型
灰色模型可以將無(wú)序塵肺病數(shù)據(jù)變成有規(guī)律數(shù)據(jù),然后建立相應(yīng)的微分方程模型,從而預(yù)測(cè)塵肺病未來發(fā)展趨勢(shì)。在諸多的灰色模型中,以灰色系統(tǒng)中單序列一階線性微分方程模型GM(1,1)最為常用。
(1)設(shè)有原始數(shù)據(jù)序列x(0),n為數(shù)據(jù)個(gè)數(shù)。
(2)對(duì)原始數(shù)據(jù)序列累加以便弱化隨機(jī)序列的波動(dòng)性和隨機(jī)性,得到新數(shù)據(jù)序列:
(3)建立相應(yīng)的微分方程模型為
式中,a為發(fā)展系數(shù);u為灰色作用量。
只要求出參數(shù)a,u,就可以計(jì)算出x(1)(t),進(jìn)一步可以得到x(0)的未來預(yù)測(cè)值。
(4)用累加生成數(shù)據(jù)構(gòu)造累加矩陣B與常數(shù)項(xiàng)向量yn,即
(5)用最小二乘法對(duì)灰參數(shù)求解
(6)該微分方程的解為
(7)累減還原得到
經(jīng)過GM(1,1)對(duì)塵肺病預(yù)測(cè)后,捕捉到塵肺病總體變化規(guī)律,預(yù)測(cè)誤差存在于預(yù)測(cè)值與原始值之間的殘差中,因此采用BP神經(jīng)網(wǎng)絡(luò)對(duì)GM(1,1)預(yù)測(cè)殘差進(jìn)行修正,以提高塵肺病預(yù)測(cè)精度。
2.2 遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)
遺傳算法是美國(guó)密執(zhí)安(Michigan)大學(xué)的John.H.Holland教授設(shè)計(jì)的一種借鑒生物界自然選擇、遺傳變異和進(jìn)化機(jī)制的高度并行、隨機(jī)、自適應(yīng)的搜索算法,該算法具有簡(jiǎn)單易懂、魯棒性強(qiáng)、適合并行處理的特點(diǎn),可用于解決各種復(fù)雜優(yōu)化問題。遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)的優(yōu)化主要用于得到最優(yōu)網(wǎng)絡(luò)初始權(quán)值和網(wǎng)絡(luò)閾值[9]。遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)算法流程如圖1所示。經(jīng)過遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)能夠獲得更好的訓(xùn)練效果,提高預(yù)測(cè)精度。
圖1 遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)
灰色模型適用于對(duì)近似指數(shù)增長(zhǎng)、數(shù)據(jù)相對(duì)較少的數(shù)據(jù)序列進(jìn)行預(yù)測(cè),且灰色模型的累加生成不但能削弱原始數(shù)據(jù)存在的隨機(jī)性,而且使累加后的序列單調(diào)增長(zhǎng),突出了總體發(fā)展趨勢(shì),適合用BPNN網(wǎng)絡(luò)進(jìn)行逼近,因此將BPNN和GM預(yù)測(cè)方法結(jié)合起來,使它們互相取長(zhǎng)補(bǔ)短,構(gòu)造性能更好的塵肺病預(yù)測(cè)組合模型是可行的。根據(jù)以上分析,本研究只保留灰色預(yù)測(cè)方法中的"累加生成”和“累減還原”運(yùn)算,不再求參數(shù)a和u。利用GM-BPNN對(duì)塵肺病進(jìn)行預(yù)測(cè)過程如下:
(1)收集塵肺病歷史數(shù)據(jù)。
(2)對(duì)塵肺病歷數(shù)據(jù)進(jìn)行灰色累加,生成累加序列
(3)采用歸一化方法對(duì)生成的數(shù)據(jù)進(jìn)行縮放,將它們變換到[0,1]之間,具體歸一化公式為
(4)建立塵肺病的GM(1,1)預(yù)測(cè)模型,并對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)。
(5)將GM(1,1)預(yù)測(cè)值進(jìn)行“累減還原”運(yùn)算,得到塵肺病預(yù)測(cè)值。
(6)計(jì)算GM(1,1)預(yù)測(cè)值與實(shí)際塵肺病值間殘差,并對(duì)殘差進(jìn)行重構(gòu),得到BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試樣本。
(7)將殘差訓(xùn)練樣本輸入到BPNN網(wǎng)絡(luò)訓(xùn)練,并通過遺傳算法優(yōu)化其參數(shù),建立塵肺病殘差預(yù)測(cè)模型。
(8)根據(jù)建立的塵肺病殘差預(yù)測(cè)模型對(duì)測(cè)試樣本殘差進(jìn)行預(yù)測(cè)。
(9)將BPNN的預(yù)測(cè)結(jié)果與GM(1,1)的預(yù)測(cè)結(jié)果相加,得到塵肺病最終值。
4.1 數(shù)據(jù)來源
為了檢驗(yàn)GM-BPNN對(duì)塵肺病預(yù)測(cè)的有效性,采用1981~2006年潞安礦區(qū)塵肺病例數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),具體如表1所示。將數(shù)據(jù)分成為兩部分:1981~2000年為訓(xùn)練樣本,用于訓(xùn)練建立塵肺病預(yù)測(cè)模型,2001~2006年為測(cè)試樣本,用于檢驗(yàn)?zāi)P偷挠行浴?/p>
4.2 灰色模型擬合結(jié)果
將1981~2000年為訓(xùn)練樣本輸入到GM(1,1)中,采用Matlab 2007編寫程序,建立GM(1,1)的塵肺病預(yù)測(cè)模型,然后對(duì)訓(xùn)練樣本進(jìn)行擬合,得到的擬合結(jié)果如圖2所示。從圖2可知,GM(1,1)對(duì)1981~2000年塵肺病例擬合精度為95.45%,擬合誤差較大??梢园褖m肺病總體變化趨勢(shì)進(jìn)行擬合,然后采用BP神經(jīng)網(wǎng)絡(luò)對(duì)GM(1,1)擬合殘差進(jìn)行校正,進(jìn)一步挖掘塵肺病細(xì)節(jié)變化規(guī)律。
表1 1981~2006潞安礦區(qū)塵肺病例
圖2 GM(1,1)對(duì)1981~2000年塵肺病例的擬合效果
4.3 BP神經(jīng)網(wǎng)絡(luò)對(duì)GM(1,1)擬合殘差進(jìn)行修正
由于BP神經(jīng)網(wǎng)絡(luò)要求數(shù)據(jù)多維,不能對(duì)一維GM(1,1)殘差時(shí)間序列進(jìn)行直接建模,因此首先采用逐步增加維數(shù)方法選擇GM(1,1)塵肺病擬合殘差的維數(shù),最后選擇最佳維數(shù)為3,表示塵肺病例與前4年的塵肺病發(fā)生率相關(guān),重構(gòu)BP神經(jīng)網(wǎng)絡(luò)的塵肺病殘差樣本。將訓(xùn)練樣本的殘差輸入到BP神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),采用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值進(jìn)行優(yōu)化,遺傳算法的平均適應(yīng)度函數(shù)值變化過程如圖3所示。
BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為:輸入節(jié)點(diǎn)數(shù)為3,隱含層節(jié)點(diǎn)數(shù)為7,輸出層節(jié)點(diǎn)數(shù)為1。采用優(yōu)化后BP神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本的殘差進(jìn)行學(xué)習(xí),然后進(jìn)行擬合,最后采用BP神經(jīng)網(wǎng)絡(luò)對(duì)GM(1,1)的擬合結(jié)果進(jìn)行修正,得到結(jié)果如圖4所示。
從圖4中知,相對(duì)于單一GM(1,1),GMBPNN的塵肺病擬合精度為99.54%,遠(yuǎn)遠(yuǎn)高于GM(1,1)。同時(shí)采用單一的BPNN對(duì)塵肺病訓(xùn)練樣本進(jìn)行訓(xùn)練和擬合,得到的擬合結(jié)果如圖5所示。
圖3 BP神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化的適應(yīng)度值變化過程
圖4 GM-BPNN對(duì)1981~2000年塵肺病例的擬合效果
圖5 BPNN對(duì)1981~2000年塵肺病例的擬合效果
從圖5可知,單一BPNN對(duì)塵肺病擬合精度也不高,擬合精度為96.48%,難以準(zhǔn)確、全面描述塵肺病的發(fā)生變化規(guī)律。各種模型的擬合結(jié)果對(duì)比表明,單一GM(1,1)或BPNN僅能反映塵肺病發(fā)生的部分信息,而GM-BPNN利用了GM(1,1)和BPNN優(yōu)勢(shì),克服各自不足,對(duì)塵肺病發(fā)生規(guī)律進(jìn)行深入、充分挖掘,有效降低了塵肺病擬合誤差,初步證明GM-BPNN是一種有效的塵肺病預(yù)測(cè)模型。
4.4 模型的泛化能力比較
對(duì)于一個(gè)預(yù)測(cè)模型來說,其性能的優(yōu)劣主要通過泛化能力來衡量。為此,采用GM(1,1)、BPNN作為模型,對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),模型的評(píng)價(jià)標(biāo)準(zhǔn)為均方根誤差(RMSE)和平均絕對(duì)相對(duì)誤差(MAPE),它們分別定義如下:
式中,yt為塵肺病例實(shí)際值,為模型預(yù)測(cè)值。
GM(1,1)、BPNN、GM-BPNN預(yù)測(cè)結(jié)果的RMSE和MAPE如表2所示。根據(jù)表2中的3種模型檢驗(yàn)結(jié)果可知,對(duì)于小樣本塵肺病例數(shù)據(jù),GM-BPNN可以獲得較高的預(yù)測(cè)精度,而單一GM(1,1)、BPNN預(yù)測(cè)結(jié)果不理想。綜合上述可知,無(wú)論擬合能力或泛化能力,GM-BPNN均要優(yōu)于單一預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果更加可靠、客觀,為國(guó)家管理和控制塵肺病提供科學(xué)依據(jù)。
表2 幾種塵肺病預(yù)測(cè)模型的綜合性能對(duì)比
建立了一種基于GM-BPNN的塵肺病預(yù)測(cè)模型。仿真結(jié)果表明,GM-BPNN的擬合精度高,預(yù)測(cè)誤差小,適合對(duì)我國(guó)塵肺病的預(yù)測(cè)研究。
[1]葉麗芳,朱瑋.錫山市塵肺病發(fā)病趨勢(shì)的觀察與分析[J].中國(guó)工業(yè)醫(yī)學(xué)雜志,2004,10(2):90-98.
[2]盧國(guó)棟,周心權(quán).礦山企業(yè)塵肺病預(yù)測(cè)研究[J].礦業(yè)安全與環(huán)保,2006,33(4):12-14.
[3]譚希文.礦山企業(yè)塵肺病灰色殘差預(yù)測(cè)模型研究[J].礦業(yè)快報(bào),2008(10):51-53.
[4]鄭雙忠.基于神經(jīng)網(wǎng)絡(luò)的塵肺病預(yù)測(cè)模型研究[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2005,6(1):78-81.
[5]李舒才,肖全華,曹永興,等.GM(1,1)灰色模型在塵肺患病人數(shù)預(yù)測(cè)的應(yīng)用與評(píng)價(jià)[J].預(yù)防醫(yī)學(xué),2004,18(10):70-73.
[6]柳靜獻(xiàn),劉鐵民.塵肺危害的神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)及預(yù)測(cè)研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2001,11(2):18-21.
[7]陳雄山,姚海飛,李東.基于灰色系統(tǒng)模型的潞安礦區(qū)塵肺病發(fā)病趨勢(shì)預(yù)測(cè)[J].中國(guó)煤炭,2011,37(2):96-99.
[8]常杰,杭小平,魏彩娥等.塵肺病相關(guān)致病因素及防治對(duì)策的調(diào)查研究[J].中國(guó)衛(wèi)生工程學(xué),2008,7(1):100-103.
[9]劉全,王曉燕,傅啟明,等.雙精英協(xié)同進(jìn)化遺傳算法[J].軟件學(xué)報(bào),2012,23(4):765-775.
Study on Modeling and Prediction of Dust-pulmonary Disease based on GM-BPNN
ZHANG Han-ying1,YANG Zhao-feng2
(1.Pingdingshan Technical School,Pingdingshan 467000,China;2.School of Software Engineering,Pingdingshan University,Pingdingshan 467002,China)
Aiming at the problem of fewer historical data with uncertainty characteristics,in order to improve the accuracy of prediction for dust-pulmonary disease,the paper proposes one predictionmodel based on the GM-BPNN by usingmany datamining technology.Firstly,GM(1,1)is used to predict the dust-pulmonary disease,and then BP neural network is used to modify the prediction results of GM(1,1)which initial weights and thresholds of the BP neural network are optimized by genetic algorithm,and finally the test for dust-pulmonary disease case from 1981 to 2006 is conducted.The simulation results show that GM-BPNN is a good solution to the problems of small sample and nonlinear and the proposed model improves the precision of prediction for dust-pulmonary disease.
Dust-pulmonary disease;Greymodel;BP neural network;Genetic algorithm;Simulation
10.3969/j.issn.1002-2279.2014.03.015
TP183
:A
:1002-2279(2014)03-0052-04
河南省科技計(jì)劃重點(diǎn)項(xiàng)目(102102210416)
張翰英(1979-),男,河南平頂山人,講師,主研方向:從事計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)應(yīng)用方面的研究。
2013-10-25