周玲,郝礦榮
(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院,上海201620)
目前,雖然對數(shù)據(jù)質(zhì)量的定義有很多,但依然缺少統(tǒng)一的定義[1]。表1 從多個維度對數(shù)據(jù)質(zhì)量進行定義與評判[2]。
如果按照對采集數(shù)據(jù)的來源進行分類,單一來源的數(shù)據(jù)存在的質(zhì)量問題稱為單數(shù)據(jù)源問題,多個來源的數(shù)據(jù)存在的質(zhì)量問題稱為多數(shù)據(jù)源問題。
按照數(shù)據(jù)質(zhì)量問題所在的層次來分類,如果數(shù)據(jù)質(zhì)量問題出現(xiàn)在模式層,那么造成這種情況的主要是因為缺少完整性約束、設(shè)計模式不合理、結(jié)構(gòu)沖突和命名沖突,稱為模式層數(shù)據(jù)問題[3];如果發(fā)生在實例層,主要原因是在錄入數(shù)據(jù)的過程中出現(xiàn)拼寫錯誤、冗余或缺失、數(shù)據(jù)沖突和不一致,稱為實例層數(shù)據(jù)問題。具體見圖1[4]。
圖1 數(shù)據(jù)質(zhì)量問題的分類
表1 數(shù)據(jù)質(zhì)量維度及其定義
上述對數(shù)據(jù)質(zhì)量的定義或相關(guān)描述是基于信息系統(tǒng)或數(shù)據(jù)庫中的靜態(tài)數(shù)據(jù),即數(shù)據(jù)已從數(shù)據(jù)源獲取并存儲到了相應(yīng)的位置,并不適用于聚酯生產(chǎn)從數(shù)據(jù)源實時獲取數(shù)據(jù)這個過程[5]。本文根據(jù)聚酯生產(chǎn)的特點通過對數(shù)據(jù)質(zhì)量的度量與應(yīng)用進行定義,并利用ELM算法填補缺失數(shù)據(jù),從而對聚酯纖維數(shù)據(jù)質(zhì)量進行提高。
目前,聚酯生產(chǎn)實時數(shù)據(jù)流中關(guān)于數(shù)據(jù)質(zhì)量的定義、度量及應(yīng)用的相關(guān)研究很少?;跀?shù)據(jù)質(zhì)量的聚酯生產(chǎn)過程的數(shù)據(jù)采集和傳輸技術(shù)應(yīng)用于無線傳感器網(wǎng)絡(luò),主要是為了在有限的網(wǎng)絡(luò)資源和龐大的數(shù)據(jù)量的約束條件下,能夠最大化多任務(wù)并行的無線傳感器網(wǎng)絡(luò)中總體數(shù)據(jù)的可靠性。圖2 是并行執(zhí)行三個任務(wù)的傳感器網(wǎng)絡(luò)示意圖[6],S1,S2,…,S5分別表示聚酯生產(chǎn)工藝過程其中的5 個源數(shù)據(jù)節(jié)點,它們獲取數(shù)據(jù)并將其傳輸給聚合、熔體輸送和紡絲各個工業(yè)過程的接收器節(jié)點d1,d2,d3。sink 節(jié)點對應(yīng)任務(wù),在源數(shù)據(jù)節(jié)點中,某些感知節(jié)點可以為不止一個任務(wù)提供數(shù)據(jù),例如節(jié)點S3提供數(shù)據(jù)給任務(wù)1,2 和3,節(jié)點S4提供數(shù)據(jù)給任務(wù)2 和任務(wù)3。節(jié)點S6,…,S10不采集數(shù)據(jù),它們是數(shù)據(jù)傳輸節(jié)點。線當(dāng)中的數(shù)字為任務(wù)代號??梢钥闯?,同一條鏈路可以服務(wù)于不同的傳輸任務(wù)。
圖2 有三個并發(fā)任務(wù)的傳感器網(wǎng)絡(luò)說明圖
在聚酯纖維工業(yè)現(xiàn)場的無線傳感器網(wǎng)絡(luò)中有大量的關(guān)于現(xiàn)場參數(shù)的連續(xù)查詢操作,將對聚酯生產(chǎn)現(xiàn)場參數(shù)的查詢結(jié)果的準確性和時延性組合定義為關(guān)于聚酯生產(chǎn)數(shù)據(jù)質(zhì)量的目標(biāo)函數(shù)[7]。查詢到達時,首先查找符合條件的結(jié)果是否存在于高速緩存中,若有符合條件的結(jié)果,返回結(jié)果值,若沒有,請求無線傳感器網(wǎng)絡(luò)更新數(shù)據(jù)并提供查詢結(jié)果。
面向聚酯生產(chǎn)的數(shù)據(jù)流應(yīng)用系統(tǒng)構(gòu)建了聚酯生產(chǎn)工業(yè)數(shù)據(jù)的數(shù)據(jù)質(zhì)量框架,該框架是基于聚酯生產(chǎn)數(shù)據(jù)的,具體見圖3。聚酯生產(chǎn)數(shù)據(jù)是框架的核心,其中存儲與數(shù)據(jù)質(zhì)量有關(guān)的所有元數(shù)據(jù),如衡量聚酯生產(chǎn)工業(yè)數(shù)據(jù)質(zhì)量的維度以及相關(guān)的判定方法等[8]。在對聚酯生產(chǎn)數(shù)據(jù)流進行處理時,對數(shù)據(jù)質(zhì)量基于聚酯生產(chǎn)數(shù)據(jù)進行處理。該質(zhì)量框架為聚酯生產(chǎn)數(shù)據(jù)流應(yīng)用系統(tǒng)提供基于內(nèi)容、查詢以及應(yīng)用的數(shù)據(jù)質(zhì)量模塊服務(wù)。
圖3 基于聚酯生產(chǎn)數(shù)據(jù)的數(shù)據(jù)質(zhì)量框架結(jié)構(gòu)圖
(1)準確性度量
在聚酯纖維工業(yè)生產(chǎn)中,數(shù)據(jù)的準確性是指數(shù)據(jù)準確、不存在異?;蝈e誤以及可依賴的程度[9]。常見的影響數(shù)據(jù)準確性的錯誤有亂碼、過大的異常值或過小的異常值等[10]。假設(shè):
則數(shù)據(jù)的準確性定義為:
(2)完整性度量
在聚酯纖維工業(yè)生產(chǎn)中,數(shù)據(jù)的完整性是指數(shù)據(jù)沒有缺失、可完整表達當(dāng)前對象的程度[11]。若t 時刻數(shù)據(jù)流中共有N 個屬性值,其中有Nt個屬性值為空,利用單源多模態(tài)數(shù)據(jù)元組中缺失數(shù)據(jù)占整體的比例來衡量數(shù)據(jù)流D 的完整性,則數(shù)據(jù)的完整性定義為:
(3)一致性度量
在聚酯纖維工業(yè)生產(chǎn)中,數(shù)據(jù)一致性是指數(shù)據(jù)的數(shù)列間相似的程度[12]。設(shè)數(shù)據(jù)流D 中各時刻采集到的數(shù)據(jù)相似度集合為ψi={ψi1,ψi2,…,ψiL},數(shù)據(jù)與對應(yīng)的比較數(shù)列間的相似度應(yīng)滿足?ψj∈Ψi。設(shè)對于ψj≥σ,有:
則數(shù)據(jù)的一致性定義為:
ELM 的算法原理如下:
算法 ELM(D)
輸入: 訓(xùn)練數(shù)據(jù)集D
輸出: 隱層輸出權(quán)重矩陣β
1.for(i=1 to l)do
2.assign input weight ω randomly;
3.assign hidden layer bias b randomly;
4.calculate hidden layer output matrix H;
5.calculate output weight β;
6.return β;
用極限學(xué)習(xí)機完成聚酯生產(chǎn)缺失數(shù)據(jù)填補的步驟如下:
(1)選取聚酯生產(chǎn)數(shù)據(jù)集,構(gòu)建缺失數(shù)據(jù)集;
(2)將聚酯生產(chǎn)數(shù)據(jù)集隨機分為兩組,分別作為測試集和訓(xùn)練集;
(3)分別用缺失的聚酯生產(chǎn)訓(xùn)練集和完整的聚酯生產(chǎn)數(shù)據(jù)集對極限學(xué)習(xí)機進行訓(xùn)練,從而求出隱含層輸出權(quán)值矩陣β;
(4)利用缺失的聚酯生產(chǎn)測試集及經(jīng)上述訓(xùn)練所得模型進行測試。
結(jié)合極限學(xué)習(xí)機的特點,用極限學(xué)習(xí)機對缺失數(shù)據(jù)進行填補的優(yōu)勢如下:
(1)隱含層節(jié)點參數(shù)無需調(diào)節(jié),可以大大縮短訓(xùn)練時間;
(2)隱含層映射h(x)滿足通用的近似條件,具有良好的泛化性能,無需對特定數(shù)據(jù)進行分析;
(3)激活函數(shù)是任何無限微分的非常數(shù)函數(shù),可以得到零誤差的估計輸出值,大大減小了數(shù)據(jù)填補的誤差,具有良好的填補效果。
為了檢驗極限學(xué)習(xí)機(ELM)是否會提高數(shù)據(jù)的質(zhì)量,以聚酯纖維生產(chǎn)過程中紡絲過程和聚合過程的數(shù)據(jù)為樣本,進行了驗證實驗。
(1)實驗中,輸入?yún)?shù)是紡絲速度、溫度、吹風(fēng)速度、溫度,輸出參數(shù)是EYSCV 伸長率不均勻率,對應(yīng)的ELM 神經(jīng)網(wǎng)絡(luò)如圖4 所示。樣本數(shù)為10000。實驗前對數(shù)據(jù)進行預(yù)處理,分別使輸入?yún)?shù)出現(xiàn)5%、7.5%、15%、20%的缺失,進行了四組填補實驗。圖5 為完整數(shù)據(jù)集的實驗結(jié)果,圖6(a)~(d)是對輸入數(shù)據(jù)缺失率分別為5%、7.5%、15%、20%進行填補實驗的實驗結(jié)果。表3 和圖7 是通過極限學(xué)習(xí)機(ELM)對聚酯生產(chǎn)紡絲數(shù)據(jù)質(zhì)量的準確率、完整率、一致率的提高結(jié)果。
圖4 紡絲數(shù)據(jù)對應(yīng)的ELM神經(jīng)網(wǎng)絡(luò)圖
圖5 完整數(shù)據(jù)集
圖6 缺失數(shù)據(jù)集
表3 和圖7 為極限學(xué)習(xí)機(ELM)對聚酯生產(chǎn)紡絲數(shù)據(jù)處理前后的實驗對比結(jié)果,從中可以看出,缺失數(shù)據(jù)經(jīng)過極限學(xué)習(xí)機(ELM)的填補處理,數(shù)據(jù)的準確率、完整率和一致率都得到了提高。據(jù)此可以得出結(jié)論,用ELM 算法處理缺失數(shù)據(jù)可有效提高數(shù)據(jù)的準確率、完整率和一致率。
(2)將聚合過程EG 灌內(nèi)的壓力、溫度、密度和流量作為輸入?yún)?shù),將EG 灌內(nèi)的液位作為輸出參數(shù),樣本數(shù)為10000。對應(yīng)的ELM 神經(jīng)網(wǎng)絡(luò)如圖8 所示。實驗前對數(shù)據(jù)進行預(yù)處理,分別使輸入?yún)?shù)出現(xiàn)5%、7.5%、15%、20%的缺失,進行了四組填補實驗。圖9 為完整數(shù)據(jù)集的實驗結(jié)果,圖10(a)~(d)是對輸入數(shù)據(jù)缺失率分別為5%、7.5%、15%、20%進行填補實驗的實驗結(jié)果。表4 和圖11 為極限學(xué)習(xí)機(ELM)對數(shù)據(jù)質(zhì)量準確率、完整率、一致率的提高結(jié)果。
表3 實驗對比結(jié)果
圖7 實驗對比結(jié)果
圖8 聚合數(shù)據(jù)對應(yīng)的ELM神經(jīng)網(wǎng)絡(luò)圖
圖9 完整數(shù)據(jù)集
表4 和圖11 為極限學(xué)習(xí)機(ELM)對聚酯生產(chǎn)聚合數(shù)據(jù)處理前后的實驗對比結(jié)果,從中可以看出,缺失數(shù)據(jù)經(jīng)過極限學(xué)習(xí)機(ELM)的填補處理,數(shù)據(jù)的準確率、完整率和一致率都得到了提高。據(jù)此可以得出結(jié)論,用ELM 算法處理缺失數(shù)據(jù)可有效提高數(shù)據(jù)的準確率、完整率和一致率。
圖10 缺失數(shù)據(jù)集
表4 實驗對比結(jié)果
圖11 實驗對比結(jié)果
聚酯纖維工業(yè)現(xiàn)場的硬件資源有限、抗干擾性差,又由于聚酯纖維的工業(yè)數(shù)據(jù)流是實時數(shù)據(jù)流,本文定義了聚酯纖維實時數(shù)據(jù)流的數(shù)據(jù)質(zhì)量,主要包括數(shù)據(jù)的準確性、完整性和一致性。為了提高數(shù)據(jù)的質(zhì)量,本文使用極限學(xué)習(xí)機(ELM)對缺失數(shù)據(jù)進行填補,實驗結(jié)果表明,用極限學(xué)習(xí)機(ELM)對缺失數(shù)據(jù)進行數(shù)據(jù)填補可以有效提高數(shù)據(jù)的準確性、完整性和一致性。