亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式并行分層極限學習機的大數(shù)據(jù)多模式質(zhì)量預(yù)測

        2022-06-24 10:10:02
        計算機應(yīng)用與軟件 2022年4期
        關(guān)鍵詞:建模節(jié)點預(yù)測

        胡 安 明

        (廣州理工學院 廣東 廣州 510540)

        0 引 言

        在現(xiàn)代工業(yè)過程中,對關(guān)鍵性能指標如工業(yè)過程變量、生產(chǎn)質(zhì)量變量,以及經(jīng)濟指標等進行監(jiān)控預(yù)測對生產(chǎn)效率、經(jīng)濟成本等具有重大的意義[1]。但是上述關(guān)鍵性能指標需要在智能制造和智能工廠中進行測量,成本很高,并且要在極端的工作環(huán)境中進行[2]。如何實現(xiàn)經(jīng)濟可靠且可行的質(zhì)量預(yù)測成為了領(lǐng)域內(nèi)的研究熱點[3-4]。

        數(shù)據(jù)驅(qū)動的預(yù)測模型是基于其他易于測量的過程變量來估計難以測量的質(zhì)量變量,從而為那些昂貴的物理傳感器提供可靠且經(jīng)濟的解決方案[5]。在數(shù)據(jù)驅(qū)動的建模方法中,極限學習機以及深度學習方法因為其非線性逼近能力較強得到了廣泛的應(yīng)用[6-8]。但是,大多數(shù)深度學習方法都是通過反傳算法進行訓練,這意味著需要對整個模型的所有隱藏參數(shù)進行迭代微調(diào)。因此,深度學習架構(gòu)的訓練過程總是很耗時,且解決無特征監(jiān)督學習問題難度較大[9]。

        由于計算機網(wǎng)絡(luò)通信技術(shù)飛速發(fā)展,云計算、5G通信和分布式系統(tǒng)等新技術(shù)已得到越來越多的利用,因此大量的過程數(shù)據(jù)已被收集并推動現(xiàn)代行業(yè)邁向大數(shù)據(jù)時代[10]。傳統(tǒng)的數(shù)據(jù)驅(qū)動建模方法通常通過迭代所有數(shù)據(jù)點來學習模型參數(shù),而數(shù)據(jù)集的數(shù)量變得越來越大,因此傳統(tǒng)方法不再適合這種情況[11]。此外,過程數(shù)據(jù)的來源、種類較為多樣,所以傳統(tǒng)的處理方式已不適用。因此集成式的數(shù)據(jù)驅(qū)動建模方法都存在處理速度慢、效率低和內(nèi)存不足等缺點[12]。

        綜上所述,提出一種基于分布式并行分層極限學習機的大數(shù)據(jù)多模式質(zhì)量預(yù)測模型,為改善原始ELM收斂速度慢、分類時間長、無法實現(xiàn)無監(jiān)督學習等問題,提出dp-ELM和dp-HELM。另外,為解決大規(guī)模數(shù)據(jù)建模,利用Map-Reduce框架、分布式并行K均值、貝葉斯模型融合技術(shù)充分利用了分布式計算資源,將沉重的計算負擔轉(zhuǎn)化為并行的小規(guī)模處理,實現(xiàn)了分布式系統(tǒng)大數(shù)據(jù)條件下的多模式質(zhì)量預(yù)測。

        1 理論方法

        1.1 分層極限學習機

        (1)

        訓練樣本為X和Y。假設(shè)此處形成了一個包含了h個隱藏層的多層網(wǎng)絡(luò)。如前文所述,HELM網(wǎng)絡(luò)包括多層ELM-AE的無監(jiān)督特征提取與有監(jiān)督的ELM回歸。主要步驟分為兩步,第一步把相關(guān)的訓練樣本轉(zhuǎn)移到ELM-AE的h-1層,從而獲得深層網(wǎng)絡(luò)的特征;第二步把特征隨機映射至網(wǎng)絡(luò)的最后一層,從而進行原始ELM的最終預(yù)測Y。參數(shù)Wi(i=1,2,…,h)表示第i-1和第i個隱藏層之間的權(quán)重系數(shù),γ代表最后一個ELM層的輸出權(quán)重。

        每個隱藏層輸出可通過式(2)得到:

        Hi=g(WiHi-1)

        (2)

        式中:Hi表示第i個隱藏層的輸出;Hi-1表示第i-1個隱藏層的輸出。然后把自動編碼器Bi(i=1,2,…,h-1)的輸出權(quán)重作為HELM隱藏層的權(quán)重,從而無須微調(diào)就可以確定當前層的參數(shù)。HELM通過兼容ELM的學習效率與AE的深層網(wǎng)絡(luò),從而獲得了良好的預(yù)測能力。

        1.2 Map-Reduce框架

        Map-Reduce是一個編程平臺,用于對分布式計算節(jié)點集群中的大量數(shù)據(jù)進行建模和分析。計算節(jié)點包含一個主節(jié)點(名稱節(jié)點)和幾個從節(jié)點(數(shù)據(jù)節(jié)點)。主節(jié)點實現(xiàn)控制,從節(jié)點進行計算。同時,作為Map-Reduce基礎(chǔ)的Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)提供了涉及大型數(shù)據(jù)集應(yīng)用程序所需的高效可靠的分布式數(shù)據(jù)存儲[13]。Apache Hadoop項目是Google用Java編寫Map-Reduce的最廣泛使用的開源實現(xiàn),可實現(xiàn)可靠、可擴展的分布式計算。其中最關(guān)鍵的為兩個函數(shù):Map和Reduce。映射是一個轉(zhuǎn)換步驟,其中并行處理各個輸入記錄。Reduce是一個匯總步驟,其中所有關(guān)聯(lián)記錄都由單個實體一起處理。在處理兩個函數(shù)過程中,數(shù)據(jù)結(jié)構(gòu)均統(tǒng)一為組織形式。作為說明,基于Map-Reduce的分布式計算如圖1所示。

        圖1 基于Map-Reduce的分布式并行計算流程

        最初,數(shù)據(jù)塊存儲在從節(jié)點上,等待逐行傳輸?shù)組ap功能。對于每個數(shù)據(jù),在Map函數(shù)末尾的中間計算結(jié)果是不同的。它將生成帶有新定義的鍵的中間對的列表。對于Map和Reduce函數(shù),鍵的含義不同,它們是根據(jù)算法程序定義的。通常Reduce函數(shù)的輸出是模型的參數(shù)。

        2 分布式并行ELM和HELM

        2.1 HDFS上的數(shù)據(jù)分區(qū)

        分割高維數(shù)據(jù)時,HDFS數(shù)據(jù)塊應(yīng)遵循三個原則[14]:

        (1) 一個塊的大小不能大于HDFS中的默認塊大小。在Hadoop中,規(guī)定塊必須大于16 MB,小于64 MB。

        (2) 塊的大小應(yīng)差不多。從屬節(jié)點從不同的局部集中學習局部模型,塊的大小決定了計算時間的長短,因此,大小必須差不多。

        (3) 減少準備時間。Map-Reduce計算時間分為兩部分:準備時間和計算時間。在準備期間,主節(jié)點將任務(wù)分配給從屬節(jié)點,并將算法復制到這些節(jié)點。在計算期間,每個計算節(jié)點將執(zhí)行局部模型學習任務(wù)。如果子任務(wù)過多,則準備時間勢必會增長。所以,必須減少子任務(wù)的個數(shù)。

        2.2 Map-Reduce上的HELM

        為了將HELM部署在Hadoop Map-Reduce平臺上,應(yīng)把dp-ELM加入Map和Reduce階段。第i個隱藏層要獲取隱藏層權(quán)重Wi和輸出隱藏層Hi有兩個步驟:

        步驟2隱藏層Hi的輸出由式(2)計算,其將會被作為下一個隱藏層(Xi+1=Hi)的輸入。該計算是通過Map和Reduce部署的,Map任務(wù)使用Wi映射輸入,Reduce任務(wù)通過式(1)激活隱藏層。

        這兩個步驟都包含Map-Reduce,同時解決了ELM-AE的隱藏層權(quán)重。當隱藏層的數(shù)量大于一個時,兩個Map-Reduce形成一個循環(huán),以獲取每個隱藏層的參數(shù),直到最后一個隱藏層。但是,第一個Map-Reduce和其余之間存在細微的差別,即第一個Map-Reduce的Map任務(wù)中需要對輸入數(shù)據(jù)進行歸一化處理。之后的Map-Reduce則無須進行歸一化處理。一旦獲得了最后一個隱藏層的輸出,它將調(diào)用原始的ELM Map-Reduce來解決輸出權(quán)重γ。此外,dp-HELM的時間復雜度取決于隱藏層的數(shù)量。

        3 多模式過程質(zhì)量預(yù)測

        3.1 整體設(shè)計

        在實際的工業(yè)生產(chǎn)過程中,收集的數(shù)據(jù)通常包含幾種過程模式。為了適應(yīng)控制和監(jiān)視需求,應(yīng)該通過高級算法完全學習多模式的功能。實踐表明,傳統(tǒng)的單一全局建模方法無法詳細描述過程,通常采用“劃分和規(guī)則”策略分別構(gòu)建局部模型,然后將其集成以形成全局模型[15]。多模式過程質(zhì)量預(yù)測如圖2所示??梢钥闯?,關(guān)鍵過程之一是從數(shù)據(jù)集中識別過程模式。通常,使用聚類算法,例如,K均值、高斯混合模型對具有不同數(shù)據(jù)特征的模式進行劃分[16-18]。在建立局部模型之后,使用貝葉斯融合,并通過測試樣本與不同模式之間的相似性確定集成模型的權(quán)重。

        圖2 多模式過程質(zhì)量預(yù)測的流程

        3.2 dp-K-means劃分處理模式

        本文采用K-means聚類算法來區(qū)分不同的處理模式,其中最相似的樣本將被收集在一起。K均值是遍歷類型的方法,通過計算每個樣本與聚類中心之間的歐幾里得距離實現(xiàn)聚類[16],相應(yīng)的計算步驟如下:

        步驟1隨機選擇K個聚類中心:μ1,μ2,…,μK。

        步驟2計算各個樣本(總數(shù)為n)所屬的聚類:

        (3)

        步驟3更新各集群的中心:

        (4)

        步驟4重復步驟2和步驟3,直到收斂為止。

        可見,當聚類中心發(fā)生變化時,式(3)中所有樣本的歐幾里得距離都需要計算。但是該方法計算量過大,處理效率較為低下,所以考慮引入分布式計算的思想,構(gòu)造Map-Reduce框架下的分布式并行K均值(dp-K-means)算法。相應(yīng)的算法過程如圖3所示。

        圖3 劃分過程K均值算法流程

        其中,Map函數(shù)通過步驟2的計算方法對樣本進行區(qū)分。而在Reduce函數(shù)中則是更新聚類中心。通過判定聚類中心是否改變,執(zhí)行下一步。如果改變了,則循環(huán)下一個Map-Reduce循環(huán)。若未改變,那么進入下一階段得到結(jié)果。

        3.3 多模式過程的分布式和并行建模

        當劃分完成時,將獲得具有不同模式的K個數(shù)據(jù)塊。利用Map-Reduce計算出用于后續(xù)建模過程的每種模式的均值和標準差,其中Map階段用于數(shù)據(jù)加載,而Reduce階段用作計算均值和標準差的總和。在Reduce任務(wù)期間會計算每種模式的樣本數(shù)。

        3.3.1dp-ELM用于多模式處理

        為了建立多模式過程的預(yù)測模型,利用dp-ELM可以為多模式過程提供更高的處理效率??梢钥闯?,輸入數(shù)據(jù)被劃分為“模式”,然后在所有局部數(shù)據(jù)集上同時進行計算均值和標準差以進行歸一化。隨后,對于K個訓練路徑,ELM算法分別通過Map和Reduce任務(wù)部署在分布式和并行計算集群上。最后,在完成所有Reduce任務(wù)后獲得輸出權(quán)重(γ1,γ2,…,γK),這意味著建立了所有局部ELM模型。由于建模過程在Map-Reduce循環(huán)中并行處理,這極大地提高了具有大規(guī)模數(shù)據(jù)集的多模式過程的建模效率。

        3.3.2dp-HELM用于多模式進程

        由于HELM的深層網(wǎng)絡(luò)結(jié)構(gòu)將通過進一步精確的模型使預(yù)測性能受益,因此dp-HELM模型也用于多模過程。首先將數(shù)據(jù)集劃分為K個模式。利用每種模式的數(shù)據(jù),計算均值和標準差,以進行后續(xù)建模。然后引入dp-HELM來學習深度SLFNN的參數(shù)。如前文所述,隱藏層的參數(shù)是通過Map-Reduce循環(huán)訓練的。獲取隱藏層輸出和權(quán)重的兩個步驟被分解為使用Map-Reduce進行ELM-AE的求解,并獲得了第k模式中第r隱藏層的權(quán)重Wki以及通過Wki和式(1)把隱藏層的輸入映射到輸出。得到各個隱藏層權(quán)重之后,再進行dp-ELM計算相應(yīng)的輸出權(quán)重。

        dp-HELM的K個訓練路徑是并行處理的,并且應(yīng)該事先給出隱藏層的數(shù)量和每一層的神經(jīng)元。雖然由于訓練循環(huán)導致處理效率下降,但是HELM針對多模式的處理使得準確度更高。

        3.3.3在線預(yù)測的模型融合

        為引入各個局部模型的預(yù)測優(yōu)點,采用貝葉斯融合方法對各個局部模型進行融合,從而實現(xiàn)在線質(zhì)量預(yù)測。

        在線融合的步驟為:

        步驟1通過下式計算測試樣本Xt到K個處理模式聚類中心的距離:

        (5)

        步驟2通過貝葉斯定理將距離轉(zhuǎn)換為歸一化權(quán)重:

        (6)

        式中:πk代表第k種模式的樣本數(shù)。

        步驟3標準化測試樣本并將其替換為局部模型以獲得輸出預(yù)測:

        (7)

        (8)

        作為說明,圖4給出了用于在線輸出預(yù)測的模型融合的流程。

        圖4 在線輸出預(yù)測的模型融合流程

        4 案例研究:預(yù)脫碳裝置中殘留的CO2含量估算

        預(yù)脫碳裝置是源自真實氨合成工藝的關(guān)鍵生產(chǎn)裝置。預(yù)脫碳裝置的功能是最大程度地消除原始工藝氣體中的二氧化碳(CO2)。主要反應(yīng)在CO2吸收塔中進行,當工藝氣體通過時,CO2將被胺液吸收。因此,第一個也是最重要的步驟是測量設(shè)備出口處的殘留CO2含量,將其作為生產(chǎn)的關(guān)鍵質(zhì)量變量[19]。在實際過程中,殘留的二氧化碳含量是通過昂貴的在線過程分析儀測量的。

        收集了110 000行的20個過程變量和質(zhì)量變量的樣本。作為準備,建立了具有4個計算節(jié)點的計算集群。在工作中,Apache Hadoop v2.6平臺被用作Map-Reduce框架的實現(xiàn)形式。Map和Reduce任務(wù)是在Hadoop的集成開發(fā)環(huán)境中編程的。

        為了驗證所提出的分布式和并行建模方法的可行性,將前100 000條線作為訓練樣本,將后10 000條樣本作為測試樣本。第一步根據(jù)劃分原理將訓練數(shù)據(jù)分為4個塊,每個塊均有25 000行變量。第二步把四個數(shù)據(jù)塊的數(shù)據(jù)上載至HDFS中。然后將Map和Reduce功能編程為dp-ELM。第三步訓練dp-ELM模型并將其用于預(yù)測測試樣本的輸出。為了穩(wěn)定地確定模型參數(shù)以及隱藏神經(jīng)元的數(shù)量,通過5倍交叉法確定各個參數(shù)。平均均方根誤差(RMSE)被用作選擇模型參數(shù)的評估標準。當隱藏神經(jīng)元的數(shù)量等于15時,通過dp-ELM可獲得最佳的CO2含量預(yù)測性能,如圖5所示。此外,dp-HELM也部署在計算群集上。將dp-HELM的步驟1和步驟2通過代碼反映在Map-Reduce循環(huán)中。定義ELM-AE的隱藏層神經(jīng)元數(shù)目為15。隱藏層數(shù)為3。最后,獲得了10 000個測試樣本的dp-HELM預(yù)測結(jié)果如圖6所示。模型的性能通過RMSE指數(shù)進行評估。對于訓練過程,使用模型擬合RMSE來檢查模型是否可以很好地描述數(shù)據(jù),其計算式為:

        (9)

        (10)

        圖5 dp-ELM單一模式預(yù)測CO2含量

        圖6 dp-HELM單一模式預(yù)測CO2含量

        表1 單一模式比較各種算法的預(yù)測性能

        此外,作為測試該方法優(yōu)越性的另一種工具,利用統(tǒng)計比較算法(STAC)平臺來對比dp-HELM算法和其他算法之間的差異。對于每種方法,進行30次建模和預(yù)測操作,然后獲得每種方法的RMSE值。利用這些RMSE值,進行了F測試和非參數(shù)Wilcoxon測試,以驗證提出的HELM的出色RMSE性能。測試在dp-HELM和每種比較方法之間進行。假設(shè)dp-HELM方法的均方根誤差等于比較方法的均方根誤差,則將原假設(shè)(H0)設(shè)置為0.05。結(jié)果列于表2。p值表示支持H0假設(shè)的概率。它說明了兩種情況是否相同。當p值小于0.05時,H0假設(shè)被拒絕。這意味著dp-HELM的均方根誤差與所比較的方法顯著不同。在表2中,SVR、DBN、SDAE-NN、基本ELM的結(jié)果均拒絕了H0假設(shè),這意味著dp-HELM的均方根誤差與比較方法相比有顯著差異。由于基本的HELM和dp-HELM在理論上是相同的算法,因此它們的RMSE在統(tǒng)計上沒有差異??傮w而言,由于dp-HELM的RMSE值最小,因此所提出的dp-HELM在比較方法中擁有最佳的預(yù)測性能。

        表2 單一模式的RMSE差異的統(tǒng)計檢驗

        已知數(shù)據(jù)是在很長的時間跨度內(nèi)收集的,過程變量將會極大地反映二氧化碳含量的變化,相關(guān)CO2變化曲線如圖7所示。可以看出CO2吸收水平主要集中于3個水平,說明主要考慮3種不同的模式。

        圖7 CO2吸收水平變化過程

        首先利用dp-K-means方法對數(shù)據(jù)進行分類處理,然后,利用dp-ELM將6種模式的數(shù)據(jù)塊合并到并行建模過程中。完成所有Map和Reduce任務(wù)后,得到6個局部模型。根據(jù)5倍交叉驗證的確定,將6個局部模型的隱藏神經(jīng)元數(shù)統(tǒng)一為15個。然后融合模型進行在線預(yù)測,結(jié)果如圖8所示,相應(yīng)的預(yù)測精度比圖5更高。再將dp-HELM用于多模式過程建模,設(shè)置與圖6相同的參數(shù)進行在線預(yù)測,預(yù)測結(jié)果如圖9所示。明顯可以看出單個模型可以進一步提高預(yù)測精度。并且預(yù)測誤差幾乎接近于0。此外,具有多模型的dp-ELM和dp-HELM預(yù)測結(jié)果的RMSE計算并顯示在表3中。同時,這兩種方法在訓練時的訓練時間表中還列出了計算集群??梢钥闯觯捎谝肓薲p-K-means方法,上述兩種方法既保證了較低的RMSE,同時大幅減少了訓練時間。因此可以得出結(jié)論,由于局部模型在其相應(yīng)的模式下僅注重預(yù)測精度,因此多模型方法的預(yù)測結(jié)果更為良好。另外,具有深層網(wǎng)絡(luò)的HELM比基本ELM能夠更加充分地挖掘數(shù)據(jù)之間隱藏的聯(lián)系,具有更高的預(yù)測精度。此外,還采用了兩種基于BP的深度學習方法以及多模型策略。訓練和預(yù)測性能列于表3??梢钥闯?,dp-HELM的預(yù)測結(jié)果最接近實際值,多模DBN和多模SDAE-NN的預(yù)測精度比表1有所提高,但是,其RMSE仍比多模式dp-HELM大,并且訓練時間明顯較長,進一步驗證了深度網(wǎng)絡(luò)引入的效果。再分析分布式并行算法的影響,相應(yīng)的預(yù)測結(jié)果如表3所示。雖然基本ELM和HELM的預(yù)測精度與dp-ELM和dp-HELM相差無幾,但是其訓練時間卻大大增加,說明分布式并行算法能夠大幅度的提高算法的計算效率。與單模型類似,在多模式dp-HELM和每種多模式算法之間進行統(tǒng)計檢驗。結(jié)果列在表4中??梢钥闯?,提出的多模式dp-HELM的RMSE值與比較方法相比有較大提升,但是其計算時間相比于單一模式要長。

        圖8 dp-ELM的多模型預(yù)測CO2含量

        圖9 dp-HELM的多模型預(yù)測CO2含量

        表3 預(yù)測算法的預(yù)測性能指標

        表4 多模型RMSE差異的統(tǒng)計檢驗

        5 結(jié) 語

        針對分布式系統(tǒng)質(zhì)量預(yù)測中的大數(shù)據(jù)處理問題,提出一種基于dp-HELM的大數(shù)據(jù)多模式質(zhì)量預(yù)測模型,通過CO2含量預(yù)測對該方法驗證可得如下結(jié)論:

        (1) 多模式融合計算相較于單一模式預(yù)測能夠較大地提升預(yù)測精度,但是計算時間會比單一模式長。

        (2) 分布式并行算法的引入能夠極大地提升大數(shù)據(jù)條件下的計算效率,并且能夠滿足較高的精度要求;而分層極限學習機相對于基本極限學習機而言,能夠進一步提升預(yù)測精度,但是會適當增加計算時間。

        (3) 所提出的多模式混合dp-ELM與dp-HELM雖各有優(yōu)點,但是兩種方法均能夠在分布式系統(tǒng)大數(shù)據(jù)條件下實現(xiàn)對過程質(zhì)量進行精確且快速的預(yù)測,并且具備較強的實際工業(yè)應(yīng)用價值。

        猜你喜歡
        建模節(jié)點預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        CM節(jié)點控制在船舶上的應(yīng)用
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        Analysis of the characteristics of electronic equipment usage distance for common users
        聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運動”為例
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        基于PSS/E的風電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        不必預(yù)測未來,只需把握現(xiàn)在
        亚洲中文久久久久无码| 亚洲精品国产成人久久av| 成人影院羞羞的视频免费观看| 日本系列有码字幕中文字幕| 狠狠综合亚洲综合亚洲色 | 99香蕉国产精品偷在线观看| 亚洲一区二区三区偷拍女厕| 日韩在线视精品在亚洲| 中文字幕成人精品久久不卡| 国产精品亚洲二区在线| 亚洲av不卡一区男人天堂| 色一情一乱一伦麻豆| 欧美精品一区二区蜜臀亚洲| 肉体裸交丰满丰满少妇在线观看| av无码电影一区二区三区| 在线高清亚洲精品二区| 亚洲精品国产精品乱码视色| 屁屁影院ccyy备用地址 | 在线观看国产三级av| 精品国产一区二区三区毛片 | 国产av一区二区凹凸精品| 丝袜人妻中文字幕首页| 国内自拍愉拍免费观看| 久久久久99精品成人片直播| 国产成人av免费观看| 成人精品国产亚洲欧洲| 狼人精品剧情av在线观看| 久久国产劲爆∧v内射| 东京热人妻一区二区三区| 国产精品露脸视频观看| 国产精品98视频全部国产| 亚洲成熟中老妇女视频| 日本少妇春药特殊按摩3| 7777精品久久久大香线蕉| 久久精品成人亚洲另类欧美| 91精品国产综合久久精品密臀 | 亚洲国产精品无码专区影院| 俺来也俺去啦久久综合网| 日本色偷偷| 日本一区二区三区不卡在线| 亚洲午夜成人精品无码色欲|