陳梅 CHEN Mei
(烏魯木齊職業(yè)大學(xué)信息工程學(xué)院,烏魯木齊 830002)
(Information and Technology College of Urumqi Vocational University,Urumqi 830002,China)
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)及計算機(jī)技術(shù)的發(fā)展,在生產(chǎn)過程自動化系統(tǒng)各種數(shù)據(jù)庫中收集和存儲了大量數(shù)據(jù),而今年來得到國內(nèi)外極大重視和研究的數(shù)據(jù)挖掘技術(shù)主要運用數(shù)據(jù)庫、統(tǒng)計學(xué)的基礎(chǔ),結(jié)合人工智能、計算智能、模式識別等先進(jìn)技術(shù)從大量數(shù)據(jù)中挖掘和發(fā)現(xiàn)有價值和隱含的知識[3]。對于復(fù)雜的工業(yè)生產(chǎn)過程,在實現(xiàn)了基礎(chǔ)自動化以后,為了增產(chǎn)降耗,提高產(chǎn)品質(zhì)量,需要研究生產(chǎn)過程的先進(jìn)控制。本文主要介紹數(shù)據(jù)挖掘技術(shù)的原理和方法以及在生產(chǎn)過程中如何運用數(shù)據(jù)挖掘技術(shù)進(jìn)行質(zhì)量控制的應(yīng)用。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘知識。Fayyad給出的定義是:數(shù)據(jù)庫中的知識發(fā)現(xiàn)是從數(shù)據(jù)中識別出有效的、新穎的、潛在有用的、以及最終可理解的模式的高級過程[6]。數(shù)據(jù)挖掘的任務(wù)是利用各種技術(shù)在“數(shù)據(jù)礦山”中找到蘊(yùn)藏的“知識金礦”,揭示數(shù)據(jù)中隱含的知識模式,幫助人們進(jìn)行決策。
根據(jù)挖掘的任務(wù)不同,數(shù)據(jù)挖掘可以分為分類或預(yù)測模型發(fā)現(xiàn)、回歸、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系(模型)發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。根據(jù)挖掘?qū)ο蟛煌?,?shù)據(jù)挖掘可分為關(guān)系數(shù)據(jù)庫挖掘、面向?qū)ο髷?shù)據(jù)庫挖掘、空間數(shù)據(jù)庫挖掘、時態(tài)數(shù)據(jù)庫挖掘、文本數(shù)據(jù)庫挖掘等。根據(jù)數(shù)據(jù)挖掘的方法不同,數(shù)據(jù)挖掘又可分為機(jī)器學(xué)習(xí)、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法等。
數(shù)據(jù)挖掘的過程是一個從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、規(guī)則、關(guān)聯(lián)的過程,并且這個過程是一個反復(fù)迭代的復(fù)雜過程[5]。在數(shù)據(jù)挖掘的過程中,必須對每個步驟及其任務(wù)進(jìn)行精心的策劃和深思熟慮的安排,才能保證挖掘出的知識符合需求。典型的數(shù)據(jù)挖掘過程包括以下幾個步驟:
①數(shù)據(jù)的選擇:最初為數(shù)據(jù)挖掘準(zhǔn)備的所有原始數(shù)據(jù)集通常較大,而且一般都是雜亂無章的,因此必須從原始數(shù)據(jù)中選擇適當(dāng)?shù)臉颖?。?shù)據(jù)選擇的目的就是從數(shù)據(jù)集中根據(jù)用戶的需要提取有意義的數(shù)據(jù),確定數(shù)據(jù)挖掘的操作對象。
②數(shù)據(jù)的預(yù)處理:其目的是剔除數(shù)據(jù)中的失真值或者誤記錄,這是數(shù)據(jù)挖掘中最為關(guān)鍵的步驟之一,其處理結(jié)果將對數(shù)據(jù)挖掘的結(jié)果產(chǎn)生重大影響[4]。數(shù)據(jù)預(yù)處理的主要任務(wù)是把數(shù)據(jù)組織成一種標(biāo)準(zhǔn)的形式,使其能被數(shù)據(jù)挖掘工具和其他計算機(jī)工具進(jìn)行處理、準(zhǔn)備數(shù)據(jù)集,使之能得到最佳的數(shù)據(jù)挖掘效果。
③數(shù)據(jù)的轉(zhuǎn)換:主要是為了消減數(shù)據(jù)的維數(shù)或降維,降低數(shù)據(jù)處理的難度和復(fù)雜度,及找出數(shù)據(jù)當(dāng)中有意義的特征,以減少數(shù)據(jù)挖掘時要考慮的特征或變量的個數(shù)。
④數(shù)據(jù)挖掘:首先根據(jù)對問題的定義明確挖掘的任務(wù)或目的,如分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、預(yù)測模型建立等,然后根據(jù)任務(wù)決定采用何種算法。選擇算法時應(yīng)考慮兩個因素:一是不同的數(shù)據(jù)有不同的特點,因此需要采用與之相關(guān)的算法來實現(xiàn);二是用戶或?qū)嶋H運行系統(tǒng)的要求。
⑤模型評估:數(shù)據(jù)挖掘階段發(fā)現(xiàn)出的模式,經(jīng)過評估,可能存在冗余或無關(guān)的模式,此時需要將其剔除;也可能模式不能滿足實際的要求,這時需要退回到前一階段,如重新選擇數(shù)據(jù)、采用新的數(shù)據(jù)轉(zhuǎn)換方法或設(shè)定新的參數(shù)等,甚至有時需要重新選擇算法。
由此可見,整個數(shù)據(jù)挖掘的過程是一個不斷反饋的過程。例如,用戶在挖掘的過程中發(fā)現(xiàn)所選擇的數(shù)據(jù)不合適,或者采用的挖掘技術(shù)得不到期望的結(jié)果,此時用戶需要重復(fù)之前的過程,甚至從第一步重新開始。
目前對于數(shù)據(jù)挖掘技術(shù)的應(yīng)用和研究主要在以下兩方面:
①在數(shù)據(jù)挖掘技術(shù)自身領(lǐng)域中,對現(xiàn)有的典型的數(shù)據(jù)挖掘算法進(jìn)行優(yōu)化和改進(jìn),以及對挖掘方法的改進(jìn)、挖掘語言標(biāo)注化等方面的研究。
②利用現(xiàn)有的工具軟件如SAS,SPSS climentine,wake,R,statistica等結(jié)合其他開發(fā)軟件,對實際應(yīng)用環(huán)境如醫(yī)療、金融、教育及電信等領(lǐng)域中的積累數(shù)據(jù)進(jìn)行知識挖掘,找尋潛在規(guī)律,為后續(xù)工作提供數(shù)據(jù)支持和依據(jù)。數(shù)據(jù)挖掘技術(shù)在不斷的向各個應(yīng)用領(lǐng)域進(jìn)行延伸,尤其是生產(chǎn)質(zhì)量控制領(lǐng)域。生產(chǎn)過程質(zhì)量控制是一個非常復(fù)雜的動態(tài)過程,是利用生產(chǎn)過程的動態(tài)信息進(jìn)行質(zhì)量預(yù)測和質(zhì)量控制,要解決的問題主要包括被控變量的選擇、控制器參數(shù)的調(diào)整、系統(tǒng)建模、系統(tǒng)的關(guān)聯(lián)問題及過程優(yōu)化等問題[1]。因其實時性和較高的準(zhǔn)確性,可預(yù)估質(zhì)量問題,進(jìn)而降低企業(yè)生產(chǎn)成本和經(jīng)濟(jì)損失。生產(chǎn)過程質(zhì)量的基礎(chǔ)是對生產(chǎn)過程的質(zhì)量預(yù)測。只有對產(chǎn)品質(zhì)量參數(shù)進(jìn)行預(yù)先估計,才能在產(chǎn)品質(zhì)量出現(xiàn)問題前調(diào)整生產(chǎn)過程,繼而達(dá)到提高產(chǎn)品質(zhì)量的目的。通過以各種決定產(chǎn)品質(zhì)量的變量為輸入,以產(chǎn)品各質(zhì)量指標(biāo)為輸出,引入數(shù)據(jù)挖掘技術(shù)建立生產(chǎn)過程的質(zhì)量模型。
這里以某擠塑產(chǎn)品生產(chǎn)為例,因生產(chǎn)過程中生產(chǎn)線不同點加熱溫度的高低,直接影響擠出成型產(chǎn)品質(zhì)量,為實現(xiàn)良好的質(zhì)量控制,介紹在生產(chǎn)過程中如何使用數(shù)據(jù)挖掘中的預(yù)測技術(shù)實現(xiàn)對產(chǎn)品擠出時刻溫度的預(yù)測,為生產(chǎn)線溫度調(diào)控提供數(shù)據(jù)支持和依據(jù),進(jìn)一步實現(xiàn)質(zhì)量控制。當(dāng)將數(shù)據(jù)挖掘方法用于建立擠塑產(chǎn)品生產(chǎn)過程的溫度預(yù)測模型時,因傳感器對生產(chǎn)過程不斷采樣,獲得的生產(chǎn)歷史數(shù)據(jù)通常都是時間序列,即歷史數(shù)據(jù)是和時間相關(guān)的一系列值。這里我們采用動態(tài)數(shù)據(jù)挖掘的方法,主要目標(biāo)有兩個:1)通過對擠塑產(chǎn)品生產(chǎn)過程歷史記錄的數(shù)據(jù)挖掘,建立產(chǎn)品擠出溫度預(yù)測模型,并運用于生產(chǎn)過程,進(jìn)行實時溫度預(yù)測;2)利用對歷史數(shù)據(jù)的挖掘,分析加熱參數(shù)對產(chǎn)品擠出溫度的影響,找出隱藏的加熱規(guī)律,為更好的實現(xiàn)產(chǎn)品生產(chǎn)過程的質(zhì)量控制提供決策支持。
3.1 數(shù)據(jù)的選擇、預(yù)處理與轉(zhuǎn)換 在實際生產(chǎn)中,產(chǎn)品在t1時刻的擠出溫度y與t1-Δt時刻的生產(chǎn)線的中間點溫度x1、推進(jìn)速度x2及加熱設(shè)備的加熱功率x3有著非常密切的關(guān)系。這里將產(chǎn)品擠出溫度y定為輸出變量,其余參數(shù)定為輸入變量。
實例中選取了最長時間序列采樣數(shù)據(jù)7500個,對原始數(shù)據(jù)進(jìn)行去除無效值、數(shù)據(jù)平滑等預(yù)處理,將5000個數(shù)據(jù)作為訓(xùn)練集,1000個數(shù)據(jù)作為測試集。為了更直接的得到輸入變量對輸出變量的影響度,將推進(jìn)速度和加熱功率進(jìn)行無量綱化處理,數(shù)據(jù)均在0-1之間,處理后的數(shù)據(jù)如表1所示:
表1 預(yù)處理及轉(zhuǎn)換后數(shù)據(jù)表
3.2 數(shù)據(jù)挖掘 多元線性回歸是數(shù)據(jù)挖掘技術(shù)中進(jìn)行預(yù)測挖掘的主要方法之一,其涉及多個預(yù)測變量,它允許響應(yīng)變量Y用描述元組X的n個預(yù)測變量或?qū)傩訟1,A2,…,An的線性函數(shù)建模。
如今受新媒體和人們生活方式改變的影響,訂閱報紙的客戶數(shù)量逐年下降,一些文藝性、娛樂性的報刊群體也在逐漸減小,發(fā)行量連年急劇下滑,人民日報印刷廠也不例外地受到這一趨勢的沖擊。楊興華認(rèn)為,報業(yè)印量下滑是大勢所趨,但人民日報印刷廠在這樣的大趨勢中依然能夠保持相對穩(wěn)定的態(tài)勢,實屬不易。
預(yù)測模型為:Y=Xβ
其中Y=(y1,y2,…,yn)T
式中Y——預(yù)測對象的歷史觀測向量;
X——影響因素的歷史觀測矩陣,是收集到的p個y的影響因素的n次觀測值;
B——系數(shù)向量。
應(yīng)用中,數(shù)據(jù)采集和挖掘過程如圖2所示,在上位機(jī)中以Labview為運行平臺,數(shù)據(jù)庫采用Access數(shù)據(jù)庫,結(jié)合Matlab軟件實施挖掘,調(diào)用函數(shù)regress(y,x),得到系數(shù)β=[-7.85951.5742-0.344640.00042534],則溫度預(yù)測方程如下:Y=-7.8595+1.5742x1-0.34464x2+0.0004x3(2)
圖1 數(shù)據(jù)采集、挖掘過程
3.3 模型評估 相關(guān)系數(shù)為R2=0.8985,表明回歸方程效果良好。經(jīng)計算得到F=4307.6,F(xiàn)取4307.6的概率p=0.0000,這表明該回歸方程合理。
將公式(2)引入到測試集中進(jìn)行預(yù)測檢驗,其結(jié)果如表2所示。
表2 溫度預(yù)測檢驗表
由表2可看出,預(yù)測溫度與實測溫度的偏差都在0.5以內(nèi),達(dá)到較好的預(yù)測效果。此外,在預(yù)測方程(2)中將速度變量和加熱功率變量的系數(shù)相比較,可知速度的變化對擠出溫度影響幅度相對較大,加熱功率的變化對擠出溫度影響幅度相對較小,為擠塑產(chǎn)品生產(chǎn)中擠出溫度的控制提供了理論依據(jù),進(jìn)而為更好提高生產(chǎn)質(zhì)量提供保證。
數(shù)據(jù)挖掘技術(shù)能從大量生產(chǎn)數(shù)據(jù)中挖掘和學(xué)習(xí)有價值和隱含的知識,因而在生產(chǎn)過程質(zhì)量控制系統(tǒng)中具有很大的應(yīng)用前景。本文簡要介紹了數(shù)據(jù)挖掘的概念及挖掘過程,以擠塑產(chǎn)品生產(chǎn)過程中溫度的多元回歸預(yù)測挖掘為例介紹了數(shù)據(jù)挖掘技術(shù)在生產(chǎn)過程質(zhì)量控制的應(yīng)用,其他的挖掘方法如何應(yīng)用于實際生產(chǎn)中還有待于進(jìn)一步研究。
[1]萬維漢.工業(yè)生產(chǎn)的產(chǎn)品質(zhì)量控制以及應(yīng)用[J].系統(tǒng)仿真學(xué)報,2001,13(8):153-155.
[2]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國西部科技,2010,202(09):38-39.
[3]郭立偉,高雷,陳丹.數(shù)據(jù)挖掘技術(shù)在冷連軋機(jī)板形控制系統(tǒng)中的應(yīng)用研究[J].冶金自動化,2012,02:96-100.
[4]胡燕,何臘梅.數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)在轉(zhuǎn)爐終點控制中的應(yīng)用[J].鋼鐵技術(shù),2010,5:7-9.
[5]高立鵑,劉云,趙玲.雙向數(shù)據(jù)挖掘的反饋預(yù)測分析[J].鄭州輕工業(yè)學(xué)院學(xué)報,2011,12(5):81-85.
[6]武書彥,李咚.數(shù)據(jù)挖掘技術(shù)的探索性研究[J].制造業(yè)自動化,2011,33(1):102-105.