孫學輝 趙 冰 駱 震 孫培健 彭 斌 聶 聰* 邵學廣
1(中國煙草總公司鄭州煙草研究院, 鄭州 450001) 2(河南中煙工業(yè)有限責任公司, 鄭州 450000) 3(南開大學化學學院, 分析科學研究中心, 天津 300071)
隨著大數據時代的來臨,科學研究、工業(yè)生產、商務活動等諸多領域均出現了大規(guī)模的數據增長,如何通過大數據的挖掘和應用產生新的知識和價值已經成為高度關注的熱點[1,2]。當前,很多行業(yè)和領域都涉及到了大數據問題,例如利用商業(yè)大數據進行消費者行為模式的研究,利用醫(yī)療大數據進行疾病診斷新方法的研究等等。大數據的突出特點是數量大、產生速度快、數據類型多樣和價值密度較低,必須通過數據的深度挖掘才能得到其高的價值,但同時也給數據的分析帶來了挑戰(zhàn)。
在化學測量學領域,大數據也越來越受到重視[3,4]?;瘜W測量技術和儀器的發(fā)展使得化學測量數據迅速增長,已經難以使用常規(guī)的統計分析方法直接進行處理。因此,用于大數據分析的化學計量學方法得到發(fā)展,建立了針對高維、多類型、時間序列等數據的分析方法[5]。這些方法多為傳統的化學計量學方法,如多元統計、多元校正與建模、多元分辨與模式識別等,但在實際應用過程中,往往與信號處理、變量選擇、優(yōu)化算法、數據融合等方法聯合,用于相關分析、定量預測、聚類分析與判別分析等,其中基于不同原理的數據分割、樣本壓縮、分布式計算與共識策略相結合等技術在巨量數據的分析中發(fā)揮了重要作用。同時,基于核函數變換的主成分分析和偏最小二乘算法為大數據分析提供了基礎算法[6,7]。
近年來,深度學習在大數據分析中的應用日益增加。2019年,Belthangady等[8]對于深度學習在圖像恢復和超高分辨成像分析中的應用進行了綜述,介紹了深度學習應用于圖像重建的最新研究進展,同時也對深度學習面臨的挑戰(zhàn),如訓練數據的獲取、未知結構發(fā)現的可能性、不確定圖像細節(jié)的推斷等進行了評述。隨著深度學習技術的發(fā)展,卷積神經網絡在圖像生成和圖像分析方面得到了應用,如體層攝影圖像、磁共振圖像以及熒光顯微成像,廣泛應用于圖像修復、卷積與超高分辨率成像、圖像著色(染色)、圖像分割、聚類分析與表型分析等。深度學習在光譜數據分析中的應用也已有報道,特別是在熒光成像分析、生物醫(yī)學光譜數據分析等中的應用。有文獻建立了一種基于卷積神經網絡和長短期記憶神經網絡結合深度學習方法用于單分子熒光成像光漂白事件計數數據的分析,獲得單分子熒光漂白軌跡,改善了計算效率,提高了分析的準確性,并用于蛋白質復合物化學計量比的自動預測[9]。在近紅外光譜研究領域,采用卷積神經網絡和長短期記憶神經網絡相結合建立了一種深度學習方法用于“情感模型”研究[10]。采用功能近紅外光譜測量對人腦血流進行無損檢測,檢測在受到外部刺激時的光譜變化,然后通過所設計的神經網絡建立光譜變化與響應之間的關系。也有文獻報道了用于建立近紅外光譜定量模型的深度學習方法[11], 設計了包括三個卷積層和一個全連層的網絡結構,用于4組開放的近紅外光譜數據分析,簡化了數據處理步驟,計算結果也得到了明顯改善。
本研究提出了一種工業(yè)生產大數據的分析方案與方法。對于間歇式、分批次、由多種原料形成產品的工業(yè)生產,產品質量的檢測一般按照產品的生產批次進行,而原料的檢驗則按照進貨數量和時間進行檢驗,無論是檢驗的頻次還是檢驗的時間都不盡相同,產品質量的檢驗指標和原料的檢測數據之間很難具有一一對應關系。因此,難以建立產品質量與原料參數之間的定量模型。本研究將產品的質量指標和原料的檢測數據都假定為周期性變化的數據,采用傅里葉變換(Fourier transform, FT)得到各指標和參數的頻率信息,并利用逆變換重構相對應的指標和參數,然后再建立質量指標和參數之間的關系模型,用于考察各生產原料對產品質量的影響。
本研究收集了某卷煙生產過程的工業(yè)生產數據,作為產品的質量控制指標,收集了煙氣的常規(guī)成分含量,即焦油、煙氣煙堿、一氧化碳和煙氣總粒相物,分別用y1、y2、y3、y4表示。為了研究質量指標與卷煙材料之間的關系,還收集了煙支物理參數(煙支重量、煙支吸阻、總通風率)、濾棒參數(濾棒壓降均值)以及卷煙紙參數(卷煙紙定量,即每平方米卷煙紙的重量),分別用x1、x2、x3、x4、x5表示。所有指標和參數均參照國家標準檢測得到,煙氣的常規(guī)成分含量的測試標準分別是GB/T 19609-2004(卷煙用常規(guī)分析用吸煙機測定總粒相物和焦油)、GB/T 23355-2009(卷煙總粒相物中煙堿的測定,氣相色譜法)、GB/T 23356-2009(卷煙煙氣氣相中一氧化碳的測定,非散射紅外法); 煙支重量、煙支吸阻、總通風率和濾棒壓降的測試標準是GB/T 22838-2009(卷煙和濾棒物理性能的測定); 卷煙紙定量的測試標準是GB/T 451.2-2002(紙和紙板定量的測定)。所收集指標和參數的時間跨度為2013年1月1日到2018年12月31日,但各指標和參數數據的采集日期和數據點的多少均不相同,即數據之間無法進行一一對應。因此,無法直接采用這些數據對生產工藝參數對產品質量指標的影響進行研究。本實驗所使用的數據中,煙氣成分、煙支物理參數、濾棒參數和卷煙紙參數分別有72、1700、1728和80個數據,對于每天對同一指標或參數進行多次檢測的情況,采用了平均值進行計算。涉及的數據雖然數據量并不是很大,但收集時間跨度為6年,并且數據的采樣密度不一, 采樣時間也不同步,因此具備了大數據的某些特征。
FT是一種常用的信號分析方法,最常用于周期性信號分析,考察信號中的不同頻率成分。許多波形可作為信號的成分,比如正弦波、方波、鋸齒波等,FT采用正弦波作為信號的成分。連續(xù)FT用于函數的連續(xù)頻譜分析,而離散傅立葉變換(Discrete Fourier Transform,DFT)是信號分析的基本算法,把信號從時間域變換到頻率域,進而研究信號的頻譜結構和變化規(guī)律。DFT的正、反變換定義為:
(1)
(2)
其中,
(3)
任何連續(xù)測量的離散時序信號x(n)都可以表示為不同頻率的正弦/余弦波信號的無限疊加,通過FT對測量信號進行分析可以得到信號中不同正弦/余弦波信號的頻率、振幅和相位。因此,FT的實質是分析信號中的不同頻率成分及它們的相對大小。在實際應用中, DFT一般使用快速傅里葉變換(Fast Fourier transform, FFT)算法進行計算,將DFT計算轉化為循環(huán)卷積,減少了乘法計算,提高了計算速度。本研究采用MATLAB系統中的FFT函數,使用的是Cooley-Tukey算法[12]。
計算時,首先將各時間上各自獨立的控制指標和工業(yè)生產參數按照時間順序排列,然后進行傅里葉分析,得到數據隨時間的變化規(guī)律,并對數據中最主要的頻率成分進行考察,分析各指標和參數的周期性變化規(guī)律。然后,采用傅里葉逆變換重構各指標和參數,得到時間上一一對應的指標和參數值,再利用逐步回歸方法建立指標和參數之間的多元線性模型,得到對各指標與參數之間的定量模型。
數據預處理往往是大數據分析的第一個步驟,使數據分析適用于后續(xù)的計算方法,同時保證數據分析與預測結果的準確性與可靠性, 主要包括數據清理(或稱為“數據清洗”)、數據集成、數據歸約與數據轉換等。本研究的數據包括不同的化學測量值和原材料及產品的物理參數,具有不同的量綱,數值的差異較大。因此首先將數據進行了標準化處理,即將各參數的數值減去其平均值再除以其標準偏差。同時,本研究的數據中各參數或指標在收集時間上具有較大差異,即數據點數、收集時間、收集密度等都不相同。為了便于時間上的一致性,本研究采用“時間數”作為時間量度,即采樣時間距公元1年1月1日0時的時間差值,其數值包括整數部分和小數部分,前者表示天數,后者表示時、分、秒等。只采用整數部分,如2013年1月1日對應的數值是735235,而2018年12月31日的數值是737425。
圖1是經數據處理后的5個自變量(過程參數)和4個因變量(質量指標)隨時間的變化。首先,各參數在數據量上有很大不同,且采樣時間并不對應。其次,某些參數(如x1、x2、x3、x4)在2018年期間有一段時間的缺失,需要對這些數據進行補充才能開展后續(xù)的研究工作。另一方面,該圖展示了生產過程在6年內基本穩(wěn)定,但存在著一定的波動或變動,如x2存在階段性的下降現象,x3存在整體上的上升趨勢,而4個質量參數均具有比較明顯的下降趨勢。
圖1 過程參數(A)和質量指標(B)隨時間的變動Fig.1 Variation of production (A) and quality (B) parameters with the date of the detection
為了考察各參數和指標的周期性變化,分別對各參數進行了FT。采用DFT得到的系數如圖2所示。由于各參數和各指標的結果具有很高的相似性,圖中只顯示了過程參數x1和質量指標y1的計算結果。盡管圖1顯示各參數和指標都具有不同程度的波動,從圖2可以清楚地看出,數據的變動無明顯的周期性,兩圖中絕對值最大的系數占所有系數的百分比只有0.12%和2.78%。但是與長周期對應的前幾個系數還是相對較大,表明數據在6年的時間里仍然具有單調下降或上升的趨勢以及周期在一年以上級別的周期性變化,說明無論是生產原料還是產品都存在著隨時間逐漸小幅度變化的因素。
為了建立質量指標與過程參數之間的定量關系模型,采用傅里葉逆變換對所有參數和指標進行了重構計算,對原始數據中心缺失的數據進行了補充并得到了時間上一一對應的過程參數和質量指標數據。在重構計算中,整個時間跨度(6年)劃分為1000個等間隔的時間點,利用公式(2)計算每個時間點的各參數和指標的數值。圖3顯示了重構計算的結果。
通過圖3與圖1的比較可以發(fā)現,數據隨時間的變化在基本輪廓上保持了一致,說明重構數據保持了原始數據的基本信息。但仔細比較各曲線的細節(jié)可以進一步發(fā)現,無論是采樣密度很高的4個參數(x1、x2、x3、x4)還是采樣密度較低的參數(x5和y)均得到了平滑處理,既對高密度數據中的快速變動進行了平滑, 也對低密度數據中由于采用時間間隔不合適帶來的大幅變動進行了修正,在一定程度上增加了數據的可用性。同時,重構數據對原始數據中的缺失數據進行了有效補充, 因此,數據的重構達到了提升數據質量的目的。更為重要的是,高密度數據的數據點數得到了縮減,而低密度數據的數據點數得到了提高,并且在時間點上一一對應,為建立質量指標和過程參數之間的定量模型提供了可行的數據集。
圖2 過程參數x1(A)和質量指標y1(B)的傅里葉變換系數Fig.2 Coefficients obtained by Fourier transform of production for parameter x1 (A) and quality for parameter y1 (B), respectively
圖3 過程參數(A)和質量指標(B)的重構數據Fig.3 Reconstructed data for production for parameter x1 (A) and quality for parameter y1 (B)
表1是基于重構數據所建立的定量模型及模型的評價參數。建模采用了基于多元線性回歸的逐步回歸方法,通過對每個自變量參數在回歸模型中的顯著性進行了刪除。表中模型系數為0的參數是指由于置信度大于0.05而被逐步回歸移除的參數,在定量模型中沒有被使用。另外,由于所有參數和指標均經過了標準化處理, 模型的常數項基本為零(實際計算值均在10-4級別),因此表中沒有列出。RMSE是模型的擬合總誤差,即每個質量指標數據擬合誤差平方和的均值,數值越小, 表示模型的質量越高。表中的最后一列是模型自預測結果的平均偏差和最大偏差??梢钥闯觯骄罹?5%,結合表中的標準偏差數據可以進一步說明, 大部分預測結果的偏差都在可接受的范圍之內。因此,所建立的模型具有較好的預測準確性。最大誤差的最大值達到17%,說明還存在個別預測誤差較大的預測結果,但對實際生產數據來說,此結果仍在可接受的范圍。
表1 質量指標與過程參數之間的定量關系模型及評價參數
工業(yè)生產數據往往具有采樣不連續(xù)、數據密度差異較大、數據缺失或不完整等特點。本研究針對工業(yè)生產數據的特點,采用傅里葉變換對數據進行預處理,實現了數據的平滑、缺失數據的補充以及時間上不能對應等問題,實現了時間上不能一一對應的因變量和自變量之間的模型建立。采用時間跨度為6年的產品質量指標、物理指標和原材料的性能指標等數據,研究了工業(yè)生產數據的數據分布,進行了數據變動的周期性分析,建立了產品質量指標與物理指標和原材料性能之間的定量模型,本研究所建立的模型具有較好的預測能力。隨著各行業(yè)的發(fā)展和分析能力的提高,為實際生產服務的大數據分析需求會逐步提升,發(fā)展針對分析測試大數據的分析方法具有重要意義。所建立的方法為非連續(xù)采樣的多參數數據分析提供了一種可行的方法,為工業(yè)生產數據,特別是工業(yè)生產大數據的數據分析與建模將具有一定的參考價值。