陸琨 薛訓明 唐皓辰 徐永虎 姜華 葉為全
摘要:眾所周知,影響烘絲機出口水分的主要因素是來料流量、來料水分、滾筒溫度和熱風溫度等,具體到這些因素的重要性排序尚無明確的研究結(jié)論。該文在系統(tǒng)研究的基礎上了構(gòu)建其數(shù)學模型,并采用多元線性回歸算法、神經(jīng)網(wǎng)絡算法、決策樹算法三種監(jiān)督學習算法對此問題進行了系統(tǒng)研究,從而確定烘絲機影響因素的重要性排序。
關鍵詞:烘絲機出口水分;因素重要性排序;多元線性回歸算法;神經(jīng)網(wǎng)絡算法;決策樹算法
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)02-0191-03
Abstract: The moisture in the tobacco dryers outlet is affected by the quantity of materials, water content of materials, the temperature of roller and the temperature of hot wind, etc. But the order of these factors importance can not be determined. Using multiple linear regression algorithm, neural network algorithm and decision tree algorithm to train several batches of data, the difference betweenthe predicted water content near outlet and the actual water content can be compared. Then the optimum model is determined. Therefore we can determine the order of the importance of factors which affects the moisture in the dryers outlet.
Key words: the moisture in the dryers outlet; the order of the factors importance; multiple linear regression algorithm; neural network algorithm; decision tree algorithm
大數(shù)據(jù)(bigdata)挖掘已經(jīng)成為當今信息技術發(fā)展的典型代表,是整個社會和企業(yè)的“新寶藏”。在煙草行業(yè)“精益管理”的浪潮中,充分利用數(shù)據(jù)分析技術,提升管理水平,是企業(yè)制勝的關鍵。對合肥卷煙廠來說,企業(yè)取消法人資格后,更加關注的是產(chǎn)品質(zhì)量和制造力的提升。合肥卷煙廠從2014年開始大數(shù)據(jù)智能管理平臺建設,旨在通過企業(yè)數(shù)據(jù)倉庫集成所有系統(tǒng)數(shù)據(jù),通過業(yè)務鏈數(shù)據(jù)流分析提升管理水平。烘絲機出口水分作為影響卷煙質(zhì)量與感官的重要因素,是衡量企業(yè)制造能力的重要指標。本文以烘絲機出口水分的影響因素重要性排序研究為例,探討了如何利用大數(shù)據(jù)思維和數(shù)據(jù)挖掘技術確定烘絲機出口水分影響因素的重要性排序。此研究成果對減少產(chǎn)品質(zhì)量波動,提升產(chǎn)品品質(zhì)有重要的指導意義。
1 影響烘絲機出口水分的因素
烘絲的主要目的是降低煙絲的含水率,并將其控制在工藝要求范圍內(nèi),盡可能減少水分波動。烘絲的手法主要有氣流式和薄板式兩種。
合肥卷煙廠選用的是HAUNI薄板式烘絲機,該設備采用“滾筒+飽和蒸汽”方式,讓煙絲在筒內(nèi)薄板上均勻緩慢移動蒸發(fā)水分,同時輔以對流熱風干燥,實現(xiàn)對煙絲含水率的精準控制[2]。
本文結(jié)合專家分析法和長期生產(chǎn)實踐,認為影響烘絲出口水分的因素主要有:
1)來料水分:烘絲機入口煙絲流量由流量秤精準控制,在入口煙絲流量穩(wěn)定的情況下,烘絲機滾筒轉(zhuǎn)速、熱風溫度、蒸汽壓力、筒壁溫度等核心指標均穩(wěn)定的情況下,出口水分和入口水分呈正向相關關系;
2) 進料煙絲流量:在烘絲機滾筒轉(zhuǎn)速、熱風溫度、蒸汽壓力、筒壁溫度等核心指標均穩(wěn)定的情況下,烘絲機流量秤設定流量值越高且流量穩(wěn)定,出口水分越大,反之越低;
3)熱風溫度:在入口煙絲流量、蒸汽壓力、筒壁溫度、滾筒轉(zhuǎn)速均不變的情況下,熱風溫度越低,出口水分越高,反之則越低;
4) 筒壁溫度越高,出口水分越低;筒壁溫度越低,出口水分越高。
2 重要性分析的算法選擇
在選擇算法的時候分為兩種類型,一種是監(jiān)督學習,一種是無監(jiān)督學習。監(jiān)督學習是在被告知訓練樣本屬于“哪個”類的監(jiān)督下學習,數(shù)據(jù)會使用訓練數(shù)據(jù)集中得到的規(guī)則進行學習。無監(jiān)督學習是在學習的類集合和數(shù)量都是事先未知的情況下,通過一系列數(shù)據(jù)觀察來建立數(shù)據(jù)中類。已知煙草流量、入口水分、熱風溫度、筒壁溫度是影響烘絲機出口水分的因素,因此選擇了監(jiān)督學習的算法。監(jiān)督學習算法分為概率統(tǒng)計分類法、線性分類法、非線性分類法。
2.1 概率統(tǒng)計分類法
貝葉斯后驗概率公式是概率統(tǒng)計分類方法的基礎和核心。其主要思想是計算樣本在不同類別中存在的可能性,并預測樣本所屬類別[3]。
如公式(1)所示,它是貝葉斯理論的后驗概率公式。其中[PCi]是貝葉斯決策理論的先驗概率,[Px|ci]的是每個類的條件概率,依據(jù)[Px|ci]的大小,即可斷定X屬于那個類。
2.2 線性分類法
線性分類就是通過一個或者多個超平面,將特征空間按類別劃分為獨立子空間。用來表示超平面的決策函數(shù)可以表示為[gX=WTX+WO],其中W表示權值向量,WO被稱為偏置(bias)。對于[gx>0,]被劃分為正類,其他的被劃分為負類。由于本次訓練集中具備多個數(shù)據(jù)影響因素,因此需采用多元線性回歸,由多個自變量的最優(yōu)組合共同來預測或估計因變量。
2.3 非線性分類法
當兩類樣本分布具有多峰性質(zhì)并互相交錯時,簡單的線性判別函數(shù)往往會帶來較大的分類錯誤。常采用多平面多迭代的非線性分類法。非線性分類法中最常用的就是神經(jīng)網(wǎng)絡算法。
一個簡單的神經(jīng)網(wǎng)絡由三部分組成:輸入層(
2.3.1 挖掘流程與結(jié)果評估
數(shù)據(jù)樣本為烘絲機每批次葉絲流量、入口水分、熱風溫度、筒壁溫度的CPK值。由于上述數(shù)據(jù)的數(shù)據(jù)源為PLC采集的實時數(shù)據(jù),在數(shù)據(jù)處理上,首先通過TAG點采集各項指標的實時數(shù)據(jù),采集頻率為10秒/次,存入實時數(shù)據(jù)庫,并計算得到各項數(shù)據(jù)CPK值,存入Hadoop數(shù)據(jù)倉庫,得到8000批樣本數(shù)據(jù),部分數(shù)據(jù)如表1。由于各點數(shù)據(jù)來自PLC通信的實時數(shù)據(jù)采集,難免出現(xiàn)異常數(shù)據(jù),因此,在數(shù)據(jù)建模過程中,首先對樣本數(shù)據(jù)執(zhí)行異常值剔除操作。
通過對數(shù)據(jù)樣本特征的分析和對業(yè)務的理解,選取多元線性回歸分析模型、神經(jīng)網(wǎng)絡模型和C&R樹算法模型[4]進行數(shù)學建模,并利用 IBM SPSS工具進行數(shù)據(jù)挖掘,得到模擬的烘絲機出口水分值,表中-1是垃圾數(shù)據(jù),在挖掘過程中已剔除。如表2所示:
評判三種模型優(yōu)劣的指標為誤差、標準差和線性相關度。其中誤差表示出口水分預測值與實際值之間的差異,標準差反應預測出口水分數(shù)據(jù)的離散程度,線性相關表示出口水分的預測值和實際值的線性相關程度的大?。ㄕ龜?shù)表示正相關)。評判指標結(jié)果如表3所示:
由此確定烘絲機出口水分最重要的影響因素為烘絲機筒壁溫度,影響權重為0.6,熱風溫度影響權重為0.21,入口水分影響權重為0.14,葉絲流量影響因素為0.05。
3 結(jié)束語
此項研究對指導烘絲機操作具有重要的指導意義,在此研究結(jié)果的指導下,合肥卷煙廠烘絲機出口水分偏差從2013年的0.03提升至2014年的0.01,效果顯著。上述案例是合肥卷煙廠大數(shù)據(jù)智能管理平臺應用的一個典型案例,在深化量化融合、挖掘數(shù)據(jù)價值的道路上,合肥卷煙廠繼續(xù)探索。
參考文獻:
[1] 徐俊山, 康惠駿. 烘絲機煙絲含水率的預測PI控制[J]. 電氣傳動自動化, 2007(29).
[2] 許龍. 減小烘絲機出口煙絲水分瞬間波動幅值[J]. 企業(yè)技術開發(fā), 2011(2).
[3] 裴治捷. 淺析統(tǒng)計學中貝葉斯估計方法和經(jīng)典頻率學派估計方法的不同[J]. 科技視界, 2014(28).
[4] 劉亞秋, 李海濤, 景維鵬. 基于Hadoop的海量嘈雜數(shù)據(jù)決策樹算法的實現(xiàn)[J]. 計算機應用, 2015(4).