丁永新,李 濤,郭志威,張洪潮
(1.大連理工大學(xué)機(jī)械工程學(xué)院,遼寧大連 116081;2.大連理工大學(xué)重大裝備設(shè)計研究所,遼寧大連 116081;3.德克薩斯理工大學(xué)工業(yè)工程系,美國德州 TX76001)
近些年,機(jī)械制造業(yè)在迅速地發(fā)展,與此同時造成了非常嚴(yán)重的環(huán)境問題,如全球變暖、生態(tài)惡化、水體污染、水體富營養(yǎng)化等,嚴(yán)重阻礙了可持續(xù)發(fā)展的進(jìn)程[1-2]。經(jīng)研究表明,機(jī)電產(chǎn)品在制造和使用階段是影響全球環(huán)境生態(tài)的最重要因素之一,據(jù)統(tǒng)計,機(jī)電產(chǎn)品的生產(chǎn)制造過程產(chǎn)生污染物占到了全球污染物排放量的73%以上[3]。而生命周期評價(Life cycle assessment)是可以從產(chǎn)品的全生命周期角度量化潛在環(huán)境影響的方法,可以用來評價產(chǎn)品設(shè)計方案中表達(dá)的產(chǎn)品生命周期內(nèi)經(jīng)歷的環(huán)境影響,是一個有效的方案決策支持方法[4]。但是由于生命周期評價所需的清單數(shù)據(jù)繁多,并且追逐源頭所需的物力和精力巨大,因此進(jìn)行生命周期周期評價的最難的問題就是清單數(shù)據(jù)中缺失數(shù)據(jù)的填充。
劉云等[5]利用對稱加權(quán)算法對數(shù)據(jù)分析中數(shù)據(jù)集缺失矩陣進(jìn)行補(bǔ)全,通過正則化方法進(jìn)行低秩矩陣的分解補(bǔ)全結(jié)合塊坐標(biāo)下降和交替最小二乘法進(jìn)行數(shù)據(jù)補(bǔ)全。楊亞洲等[6]基于k-means聚類方法的曲線按比例伸縮置換法提出了一種缺失數(shù)據(jù)的補(bǔ)全算法用于填充歷史電力負(fù)荷缺失的數(shù)據(jù),與傳統(tǒng)的插值法和平均日負(fù)荷曲線補(bǔ)全法相比,預(yù)測的準(zhǔn)確性提高了很多。劉琚等[7]提出了一種基于多向延遲嵌入的平滑張量補(bǔ)全算法分類框架用于補(bǔ)全BraTS腦膠質(zhì)瘤影像數(shù)據(jù),并于7種基線模型進(jìn)行了比較,得到最后的準(zhǔn)確率高達(dá)91.31%。
本文通過分析機(jī)電產(chǎn)品物料清單的數(shù)據(jù)類型,借助萊溫斯坦距離和神經(jīng)網(wǎng)絡(luò)提出了一種清單數(shù)據(jù)智能補(bǔ)全方法,可用于LCA軟件在評價過程中自動補(bǔ)全缺失的數(shù)據(jù)。
生命周期評價可以對機(jī)電產(chǎn)品的全生命周期階段所造成得影響進(jìn)行定量分析。經(jīng)過很多年的發(fā)展己經(jīng)在產(chǎn)品的生產(chǎn)制造中發(fā)揮作用[4]。其過程主要包括4個步驟:目的與范圍的確定、清單分析、影響評價和結(jié)果解釋。
(1)目的和范圍的確定
確定評價的LCA評價目的,根據(jù)評價的機(jī)電產(chǎn)品的特點(diǎn)和目的劃分評價范圍。
(2)清單分析
清單分析是最浪費(fèi)時間和精力的階段,即對機(jī)電產(chǎn)品整個生命周期中的輸入輸出進(jìn)行統(tǒng)計和量化,如果清單數(shù)據(jù)存在數(shù)據(jù)缺失則需要對評價范圍進(jìn)行修改。
(3)影響評價
影響評價指根據(jù)清單分析的結(jié)果,對機(jī)電產(chǎn)品生命周期中潛在的環(huán)境影響進(jìn)行量化、分析和評價。
(4)結(jié)果解釋
結(jié)果解釋是對機(jī)電產(chǎn)品進(jìn)行分析后得到結(jié)論和建議的階段,在這一階段中對重要的輸入、輸出、評價方法進(jìn)行不確定性檢查以及選擇性評價,并對結(jié)論和建議予以說明。
然而以上步驟的順利執(zhí)行都依賴于清單數(shù)據(jù)的完整性和準(zhǔn)確性,如果存在清單數(shù)據(jù)缺失,那么LCA分析的結(jié)果會存在一定準(zhǔn)確性的問題。因此本文根據(jù)機(jī)電產(chǎn)品物料清單的特征,基于萊溫斯坦距離和神經(jīng)網(wǎng)絡(luò)提出一種清單自動補(bǔ)全算法,可以實(shí)現(xiàn)案例的重復(fù)利用,減少清單數(shù)據(jù)收集的準(zhǔn)備工作。
機(jī)電產(chǎn)品的物料清單指進(jìn)行生命周期評價的數(shù)據(jù)清單,其中包括了機(jī)電產(chǎn)品的生命周期信息,比如:零件名稱、重量、產(chǎn)地、零件型號、材料、運(yùn)輸距離、運(yùn)輸方式、工藝、回收等信息。加上和這些信息相關(guān)的其他信息一共11項,如表1所示。
表1 影響相似度的11項參數(shù)信息
BP神經(jīng)網(wǎng)絡(luò)是由科學(xué)家Rumelhart和McClelland提出的概念,是一種根據(jù)誤差反向傳播進(jìn)行訓(xùn)練的多層前饋網(wǎng)絡(luò)[8],主要思想是梯度下降,利用梯度搜索技術(shù)使得神經(jīng)網(wǎng)絡(luò)的輸出期望值和輸出真實(shí)值的差值的均方差最小。
BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含一個輸入層、一個或多個隱含層和一個輸出層(如圖1所示),通過權(quán)值和閥值將相鄰層的神經(jīng)元連接起來。其中隱含層所包含的神經(jīng)元數(shù)量需要通過公式計算得到。
圖1 BP神經(jīng)網(wǎng)絡(luò)三層結(jié)構(gòu)圖
結(jié)合2.1節(jié),一個零部件的信息一種由11種,但是因為每一種信息在相似度計算時所占的權(quán)重不同,所以并不能直接加和,同時因為BP神經(jīng)網(wǎng)絡(luò)天生就可以用于計算輸入?yún)?shù)的權(quán)重信息,因此本文采用BP神經(jīng)網(wǎng)絡(luò)來進(jìn)行相似度結(jié)果的計算。
因為三層的神經(jīng)網(wǎng)絡(luò)有較好的函數(shù)逼近的作用,并且網(wǎng)絡(luò)結(jié)構(gòu)簡單,因此本文采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其計算相似度補(bǔ)全數(shù)據(jù)的流程如圖2所示。
圖2 清單數(shù)據(jù)補(bǔ)全流程
2.3.1 訓(xùn)練樣本選擇
訓(xùn)練樣本來自零件庫。每條樣本包含3大部分,當(dāng)前零件的11項參數(shù)信息、比較對象的11項信息以及兩個零件是否一致,共計220條數(shù)據(jù)。
2.3.2 輸入?yún)?shù)處理
因為輸入的參數(shù)含有文本類型(如材料、運(yùn)輸方式、工藝方式等),也有含有數(shù)字類型的數(shù)據(jù)(如運(yùn)輸距離、回收百分比等),因此這11項參數(shù)并不能直接輸入神經(jīng)網(wǎng)絡(luò),需要先進(jìn)行文本類數(shù)據(jù)處理,數(shù)值類數(shù)據(jù)處理。
(1)文本類數(shù)據(jù)相似度計算
文本數(shù)據(jù)相似度的計算,常用的計算文本相似度的方法包括歐氏距離、曼哈頓距離、閔科夫斯基距離、余弦夾角相似度以及切比雪夫距離等[9],但是大多都針對復(fù)雜文本,本文所使用的文本多是單個詞語不包含主謂賓等句子結(jié)構(gòu)以及不需要進(jìn)行分詞處理,因此本文計算文本的相似距離采用基于字符的編輯距離的一種萊文斯坦距離。
萊文斯坦距離即由一個字符串變成另一個字符所需的最少操作次數(shù)。允許的操作包括刪除字符、替換字符、插入字符[10]。在數(shù)學(xué)上,如式(1)所示,leva,b(i,j)是字符串a(chǎn)的前i個字符和字符串b的前j個字符之間的距離。
輸入層的參數(shù)可能受文本類數(shù)據(jù)長度的影響,編輯距離會大小不一,而變化幅度大的輸入值會增加權(quán)重和閾值的調(diào)節(jié)難度,因此需要將樣本數(shù)據(jù)歸一化到[0,1]之間。本文所采用的歸一化方法如式(2)所示。Xmin代表字符串A和B之間最少字符個數(shù),Xmax代表字符串A和B之間最多字符個數(shù),X′代表歸一化結(jié)果。
(2)數(shù)值型數(shù)據(jù)相似度計算
對于數(shù)值型數(shù)據(jù),計算當(dāng)前值和目標(biāo)值之間的相對誤差,然后1減去相對誤差即為該參數(shù)的相似度[11],即式(3)所示,其中A代表當(dāng)前值,B代表目標(biāo)值,Dnum表示A和B之間的相似度。
2.3.3 激活函數(shù)、損失函數(shù)選擇
激活函數(shù)(Activation Function)是運(yùn)行在人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元上的數(shù)學(xué)函數(shù),它負(fù)責(zé)把輸入端映射到輸出端。本文的算法所采用的激活函數(shù)為Sigmoid函數(shù)[12],該函數(shù)是生物學(xué)中常見的S型函數(shù),也稱邏輯斯諦回歸函數(shù)。如式(4)所示:
損失函數(shù)是用來評價算法模型的真實(shí)值和預(yù)測值之間的差異程度,損失函數(shù)選擇的越好,算法模型的性能也就越好。不同的模型采用的損失函數(shù)也不是固定不變的,根據(jù)實(shí)際應(yīng)用場景,本文的損失函數(shù)選擇交叉熵?fù)p失函數(shù),如式(5)所示:
2.3.4 輸入層、輸出層、隱含層數(shù)量
輸出層對應(yīng)著輸入?yún)?shù)的個數(shù),有幾個參數(shù),輸入層的結(jié)點(diǎn)個數(shù)就設(shè)置幾個,根據(jù)對輸入樣本的分析,輸入層神經(jīng)元的數(shù)量設(shè)置為11個,分別對應(yīng)11項參數(shù)信息。
輸出層對應(yīng)著預(yù)測的結(jié)果,因為該神經(jīng)網(wǎng)絡(luò)預(yù)測的模型的結(jié)果只有兩個,一致和不一致,因此輸出層的神經(jīng)元的數(shù)量設(shè)置為2個,分別對應(yīng)一致和不一致兩個結(jié)果。
隱含層的設(shè)計是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的最為重要的一環(huán),隱含層最主要的就是用來確定神經(jīng)元的數(shù)量。隱含層神經(jīng)元數(shù)量太多會使神經(jīng)的網(wǎng)絡(luò)學(xué)習(xí)時間變長,太少會使非線性網(wǎng)絡(luò)逼近的精度降低,與此同時也會使模型的容錯性誤差增大。一般通過式(6)來確定神經(jīng)元的結(jié)點(diǎn)的數(shù)量,即:
式中:n為輸入層神經(jīng)元數(shù)量;l為輸出層神經(jīng)元數(shù)量;m為隱含層神經(jīng)元數(shù)量;a通常取[1,10]之間的常數(shù)。
計算時,m的值可以用四舍五入法進(jìn)行相應(yīng)的調(diào)整。分別測試在達(dá)到98%的準(zhǔn)確率條件下隱含層不同神經(jīng)元數(shù)量的訓(xùn)練次數(shù)和訓(xùn)練時間,訓(xùn)練結(jié)果如圖3所示。因此隱含層神經(jīng)元數(shù)量確定為10個。
圖3 不同隱含層神經(jīng)元數(shù)量達(dá)到闕值的迭代次數(shù)和時間
原始數(shù)據(jù)集即表3(測試數(shù)據(jù)和補(bǔ)全數(shù)據(jù)一致),手動刪掉一些信息(文本類數(shù)據(jù)填null,數(shù)值型數(shù)據(jù)填0),測試數(shù)據(jù)如表2所示。將表2的信息輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行補(bǔ)全測試。
表2 缺少信息的清單數(shù)據(jù)
補(bǔ)全后的數(shù)據(jù)如表3所示,所有空缺數(shù)據(jù)均已補(bǔ)全,補(bǔ)全零部件的信息在備注里會提示*,沒有缺失數(shù)據(jù)備注就為空。和原始完整的數(shù)據(jù)進(jìn)行對比,發(fā)現(xiàn)該相似度計算模型補(bǔ)全了所有相似信息并且正確率達(dá)100%。
本文通過分析機(jī)電產(chǎn)品的數(shù)據(jù)清單的特征,將缺失數(shù)據(jù)分為文本型數(shù)據(jù)和數(shù)值型數(shù)據(jù),針對不同類型的數(shù)據(jù)分別采用不同的相似度就算方法,通過一個設(shè)計好的三層的BP神經(jīng)網(wǎng)絡(luò),將一個零部件的11項相似度信息輸入到神經(jīng)網(wǎng)絡(luò)中,從而計算出與之最為相似的零部件,從而智能補(bǔ)全缺失數(shù)據(jù)。經(jīng)過實(shí)驗驗證,本文所提出的缺失數(shù)據(jù)智能補(bǔ)全算法可以有效地利用已有的數(shù)據(jù)案例并填充缺失數(shù)據(jù),極大地簡化了生命周期評價過程中清單數(shù)據(jù)的收集工作,加快了機(jī)電產(chǎn)品LCA分析的速度。