陳小燕
摘 要: 針對(duì)數(shù)據(jù)挖掘算法中常用的機(jī)器學(xué)習(xí)型算法進(jìn)行研究。機(jī)器學(xué)習(xí)型算法特色是運(yùn)用了人工智能技術(shù),能在大量樣本集訓(xùn)練和學(xué)習(xí)后自動(dòng)找出運(yùn)算需要的參數(shù)和模式。以機(jī)器學(xué)習(xí)型算法中的人工神經(jīng)網(wǎng)絡(luò)為例研究數(shù)據(jù)挖掘技術(shù),針對(duì)學(xué)習(xí)速度慢、抗干擾能力弱以及容易陷入局部最小值等缺點(diǎn)和傳統(tǒng)的遺傳算法存在算法早熟以及局部尋優(yōu)能力弱等問(wèn)題,提出一種通過(guò)改進(jìn)常規(guī)遺傳算法的染色體結(jié)構(gòu)和遺傳算子,并且通過(guò)引入自適應(yīng)交叉和變異概率來(lái)對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化的改進(jìn)型遺傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型。最后通過(guò)煤礦空壓機(jī)故障診斷系統(tǒng)這一實(shí)例來(lái)研究改進(jìn)型算法的數(shù)據(jù)挖掘技術(shù)的性能。研究結(jié)果表明,改進(jìn)后的算法建立的診斷模型相比常規(guī)神經(jīng)網(wǎng)絡(luò)的診斷模型診斷準(zhǔn)確率更好,診斷效率更快。
關(guān)鍵詞: 數(shù)據(jù)挖掘; BP神經(jīng)網(wǎng)絡(luò); 遺傳優(yōu)化算法; 空壓機(jī)故障診斷
中圖分類(lèi)號(hào): TN957.52+9?34; TP274 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)20?0011?04
Application of machine learning algorithm in data mining
CHEN Xiaoyan
(Jiangsu Polytechnic College of Agricultural and Forestry, Jurong 212400, China)
Abstract: The machine learning algorithm commonly used in data mining algorithm is studied in this paper. AIT (artificial intelligence technology) is adopted in machine learning algorithm, which can automatically find out the parameters and modes required by operation after a large number of sample set training and learning. The artificial neural network in machine learning algorithm is taken as an example to research the data mining technology. Since the traditional genetic algorithm has the shortcomings of prematurity and weak local optimizing capacity, the improved genetic optimization BP neural network model is proposed by improving the chromosome structure and genetic operator, and by introducing adaptive crossover and mutation probability to optimize neural network structure parameters and solve the problems of slow learning speed, weak anti?jamming capability, and easily falling into local minimum value. Finally, the performance of the improved algorithm is studied by using the fault diagnosis system of air compressor. The research results show that the improved diagnostic model, compared with the conventional neural network diagnosis model, has better diagnostic accuracy and higher diagnostic efficiency.
Keywords: data mining; BP neural network; genetic optimization algorithm; fault diagnosis of air compressor
0 引 言
數(shù)據(jù)挖掘技術(shù)是在整個(gè)社會(huì)發(fā)展中隨著科學(xué)和技術(shù)的不斷進(jìn)步而順應(yīng)需要所生。隨著信息化技術(shù)的不斷普及,人類(lèi)社會(huì)逐步進(jìn)入到信息化社會(huì)中,信息化管理技術(shù)隨之不斷提升,成本卻同時(shí)逐步下降,數(shù)據(jù)管理技術(shù)(Data Management Technology)在各企事業(yè)單位中進(jìn)一步普及,從而推動(dòng)企事業(yè)單位內(nèi)部職能部門(mén)間的溝通聯(lián)絡(luò)。但是,隨之而來(lái)的弊病是海量數(shù)據(jù)的累積導(dǎo)致數(shù)據(jù)分析的困難[1?2]。
1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘算法中常用的有機(jī)器學(xué)習(xí)型算法和統(tǒng)計(jì)型算法兩類(lèi)。前者的特色是運(yùn)用了人工智能技術(shù),能在大量樣本集訓(xùn)練和學(xué)習(xí)后自動(dòng)找出運(yùn)算需要的參數(shù)和模式;后者則常用相關(guān)性分析、聚類(lèi)分析、概率和判別分析等進(jìn)行運(yùn)算。不同算法當(dāng)然有著各自不同的對(duì)應(yīng)領(lǐng)域和目標(biāo),它們既能單獨(dú)使用,也能相互結(jié)合。
機(jī)器學(xué)習(xí)型算法中人工神經(jīng)網(wǎng)絡(luò)方法被普遍運(yùn)用,它具有極好的數(shù)據(jù)處理能力和自組織學(xué)習(xí)能力,并且能準(zhǔn)確進(jìn)行識(shí)別,從而有助于分類(lèi)問(wèn)題中的數(shù)據(jù)處理。人工神經(jīng)網(wǎng)絡(luò)通過(guò)建構(gòu)模型而工作,其模型多樣,能滿足不同需求??傮w來(lái)看,人工神經(jīng)網(wǎng)絡(luò)模型精確度高、魯棒性好,具有較強(qiáng)描述能力,在應(yīng)用時(shí)可以無(wú)需專家支持。當(dāng)然,它也存在一些缺陷,具體表現(xiàn)在:訓(xùn)練數(shù)據(jù)所需要的時(shí)間較長(zhǎng);對(duì)所獲取知識(shí)的理解上不夠智能;開(kāi)放性和可伸縮性也有一定局限性。
傳統(tǒng)的BP神精網(wǎng)絡(luò)存在學(xué)習(xí)速度慢、抗干擾能力弱以及容易陷入局部最小值等缺點(diǎn),而傳統(tǒng)的遺傳算法存在算法早熟以及局部尋優(yōu)能力弱等問(wèn)題;所以本文提出一種通過(guò)改進(jìn)常規(guī)遺傳算法的染色體結(jié)構(gòu)和遺傳算子,并且通過(guò)引入自適應(yīng)交叉和變異概率來(lái)對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化的改進(jìn)型遺傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型[3?4]。
2 改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)
本文為了提高BP神經(jīng)網(wǎng)絡(luò)的性能,針對(duì)常規(guī)遺傳算法的染色體結(jié)構(gòu)和遺傳算子進(jìn)行改進(jìn)。引入自適應(yīng)交叉、變異概率以平衡優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和初始權(quán)重。
(1) 染色體結(jié)構(gòu)設(shè)計(jì)。本文將染色體基因結(jié)構(gòu)分為上下兩層結(jié)構(gòu),分別為控制基因和參數(shù)基因兩層,從而對(duì)常規(guī)的遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行改進(jìn)。處于上層的控制基因通過(guò)對(duì)BP神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)優(yōu)化從而實(shí)現(xiàn)對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。處于下層的參數(shù)基因主要對(duì)BP神經(jīng)網(wǎng)絡(luò)的連接權(quán)值和閾值進(jìn)行優(yōu)化。
(2) 設(shè)計(jì)適應(yīng)度函數(shù)。本文將適應(yīng)度函數(shù)表示為:
[S*=0.9(S-Smin)Smax-Smin+0.05] (4)
式中:[S]為歸一化處理之前的值;[Smax]為是歸一化處理的最大值;[Smin]為是歸一化處理的最小值。
建立基于本文提出的基于改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)的故障診斷系統(tǒng)主要分為兩大塊:
第一塊是利用改進(jìn)GA算法對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化,如閾值[θj],[γ]、隱層節(jié)點(diǎn)數(shù)[m]以及連接權(quán)值[wj1],[wij]等;第二塊就是根據(jù)優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行建模。
故障診斷系統(tǒng)的輸入單元數(shù)由煤礦空壓機(jī)故障現(xiàn)象確定,通過(guò)上述分析,確定數(shù)量為10,即X1~X10;輸出單元個(gè)數(shù)由煤礦空壓機(jī)的工作狀態(tài)確定,通過(guò)上述分析,確定數(shù)量為5,即Y1~Y5;隱含層為單層,單元數(shù)量一般先通過(guò)經(jīng)驗(yàn)試湊法確定為16。初始閾值[θj],[γ]以及初始連接權(quán)值[wj1],[wij]在-3~3范圍內(nèi)取值;神經(jīng)網(wǎng)絡(luò)的最大訓(xùn)練次數(shù)設(shè)定為3 000,精度為10-3。
設(shè)定遺傳算法中種群的規(guī)模為[N=150],進(jìn)化最大代數(shù)為[G=300],及其他參數(shù)[b=0.1],[k1=k2=1.0],[k3=k4=0.5]。
通過(guò)遺傳算法優(yōu)化的平均適應(yīng)度曲線如圖1所示,隱含層節(jié)點(diǎn)數(shù)優(yōu)化曲線如圖2所示,最終隱含層節(jié)點(diǎn)數(shù)通過(guò)189次的迭代后確定為22。
3.2 基于數(shù)據(jù)挖掘的空壓機(jī)故障診斷分析
針對(duì)上述建立的煤礦空壓機(jī)故障診斷系統(tǒng)進(jìn)行仿真研究,為了比較本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法的優(yōu)越性能,使用基于常規(guī)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)建立同樣的煤礦空壓機(jī)故障針對(duì)系統(tǒng),使用同樣的訓(xùn)練數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練,使用同樣的測(cè)試數(shù)據(jù)樣本進(jìn)行性能測(cè)試。使用采集并處理后的100組訓(xùn)練樣本對(duì)模型進(jìn)行訓(xùn)練,得到兩種模型的誤差逼近曲線如圖3,圖4所示。
圖1 平均適應(yīng)度變化
圖2 隱含層節(jié)點(diǎn)數(shù)更新過(guò)程
圖3 常規(guī)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差
通過(guò)對(duì)比可以看出,使用本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法經(jīng)過(guò)569次迭代就使得誤差達(dá)到了設(shè)定范圍內(nèi),而使用常規(guī)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)算法經(jīng)過(guò)2 779次迭代才使得誤差滿足要求。因此在網(wǎng)絡(luò)的訓(xùn)練速度、收斂速度和收斂精度方面,本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法更勝一籌。
下面使用采集并處理后的100組測(cè)試數(shù)據(jù)樣本對(duì)故障診斷模型的診斷性能進(jìn)行測(cè)試。測(cè)試結(jié)果表明,常規(guī)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)的診斷正確率為87.5%,診斷時(shí)間為564 s,輸出值不穩(wěn)定,而本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)的診斷正確率為98.2%,診斷時(shí)間為246 s,輸出值穩(wěn)定。
圖4 改進(jìn)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差
可以看出,相比于常規(guī)GA優(yōu)化的BP神經(jīng)網(wǎng)絡(luò),本文提出的改進(jìn)型GA?BP神經(jīng)網(wǎng)絡(luò)算法所建立的故障診斷模型的性能更優(yōu),檢測(cè)準(zhǔn)確率以及速度更快,誤判率極低。
4 結(jié) 論
數(shù)據(jù)挖掘技術(shù)是在整個(gè)社會(huì)發(fā)展中隨著科學(xué)和技術(shù)的不斷進(jìn)步而順應(yīng)需要所生,在近年來(lái)發(fā)展十分迅速。本文針對(duì)機(jī)器學(xué)習(xí)算法中的人工神經(jīng)網(wǎng)絡(luò)算法在數(shù)據(jù)挖掘技術(shù)中的應(yīng)用進(jìn)行了研究,提出一種通過(guò)改進(jìn)常規(guī)遺傳算法的染色體結(jié)構(gòu)和遺傳算子,并且通過(guò)引入自適應(yīng)交叉和變異概率來(lái)對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化的改進(jìn)型遺傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型。最后通過(guò)將提出的基于改進(jìn)GA?BP神經(jīng)網(wǎng)絡(luò)算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用于無(wú)法用數(shù)學(xué)模型建立、具有復(fù)雜非線性、數(shù)據(jù)龐大的煤礦空壓機(jī)故障診斷系統(tǒng)中。
參考文獻(xiàn)
[1] 胡秀.基于Web的數(shù)據(jù)挖掘技術(shù)研究[J].軟件導(dǎo)刊,2015(1):149?150.
[2] 李仕瓊.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘算法的分析研[J].電子技術(shù)與軟件工程,2015(4):200?202.
[3] 陳勇.一種目標(biāo)行為序列模式的數(shù)據(jù)挖掘方法[J].無(wú)線電通信技術(shù),2015(2):79?81.
[4] 于書(shū)媛,陳靚,王偉.基于空間數(shù)據(jù)挖掘的合肥市應(yīng)急避難場(chǎng)所選址[J].地理空間信息,2015(1):93?95.
[5] 莊健,楊清宇,杜海峰,等.一種高效的復(fù)雜系統(tǒng)遺傳算法[J].軟件學(xué)報(bào),2010(11):2790?2801.
[6] 劉磊.基于遺傳神經(jīng)網(wǎng)絡(luò)的指數(shù)跟蹤優(yōu)化方法[J].系統(tǒng)工程理論與實(shí)踐,2010(1):22?29.
[7] 宋國(guó)峰,梁昌勇,梁焱,等.改進(jìn)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的旅游景區(qū)日客流量預(yù)測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2014(9):2136?2141.
[8] 李松,劉力軍,解永樂(lè).遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的短時(shí)交通流混沌預(yù)測(cè)[J].控制與決策,2011(10):1581?1585.