亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘方法在汽油辛烷值損失計算中的應用

        2022-04-25 05:35:36吳蘋鐘儀華雍雪張茜
        科學技術與工程 2022年10期
        關鍵詞:數(shù)據(jù)挖掘特征方法

        吳蘋,鐘儀華,雍雪,張茜

        (西南石油大學理學院,成都 610500)

        當今的燃料能源多種多樣,對應不同的機器和設備,其使用的能源燃料各不相同。小型車輛燃燒汽油,其排放對大氣環(huán)境存在重要影響。為了保護大氣環(huán)境,汽油清潔化是當今一個重要問題,其重點[1]在于降低汽油中的硫、烯烴含量,同時要盡量保持其辛烷值即降低辛烷值的損失。因此如果能對辛烷值的損失進行較為精細的預測,并在實際汽油清潔化方案進行過程中加以配合使用,就可以盡早評估出清潔化方案的合理性,可以有效避免某些汽油清潔化方案的低效性,提高實際生產(chǎn)中清潔化的效率。

        關于辛烷值的損失預測,關鍵在于變化的辛烷值的計算,通常是同一清潔化時間段前后辛烷值的差值,因此問題轉化為對終端的辛烷值進行定量計算進而返回計算差值預測出辛烷值的損失。

        目前,中外相關研究已從不同視角對辛烷值(research octane number,RON)的定量計算進行了合理的探索,如采用符合美國材料實驗協(xié)會和美國聯(lián)邦法案標準的辛烷值機檢測計算[2],但其缺點不少,如存在耗時長、操作復雜、價格高和檢驗用量大等。另外,由于汽油辛烷值與其組成成分有著密切的關聯(lián),進而通過汽油的自身組分及其相關信息進行計算,如分析汽油混合物的組分以及含量,其由氣相色譜實現(xiàn),然后分析與汽油辛烷值之間相關性來計算辛烷值。這個方法稱為色譜法[3]。但是很多時候,通過汽油的自身組分及其相關信息進行計算的方法是在光譜、色譜等精密儀器的組分分析上實現(xiàn),對儀器的要求較高。在實際應用中汽車數(shù)量眾多,因此實現(xiàn)汽油清潔化的覆蓋面廣,但其實際清潔全覆蓋只是借助辛烷值機和色譜儀等精密儀器難以在實際生活中實現(xiàn),因此計算辛烷值損失即汽油辛烷值的定量計算一直是難點。

        除了以上借助儀器進行定量計算外,還有部分研究通過分析理化指標,借助數(shù)學理論來實現(xiàn)汽油辛烷值的定量計算。其中韓志歧[4]探究了汽油理化指標與辛烷值之間的聯(lián)系,進而借助數(shù)學與統(tǒng)計理論,構建了理化指標計算汽油辛烷值的回歸方程,但存在一定的主觀性,因為需要人工不斷處理和比較來篩選方程每一種參數(shù)和模型的建立,而且該方法只能建立線性模型,這樣得到的模型的精度不足,存在極大可能所得結果不是最優(yōu)。除此另一類常用的線性模型偏最小二乘法(partial least squares,PLS)[3]也同樣存在以上不足。近年來,隨著中國石化企業(yè)實驗室信息管理系統(tǒng)的建成,積累了質(zhì)量數(shù)據(jù)并共享了一定的數(shù)據(jù)。因此,以現(xiàn)有數(shù)據(jù)庫中的汽油理化指標數(shù)據(jù)集為基礎,開始探索和采用一些非線性的建模方法[3],進行辛烷值的定量計算,如人工神經(jīng)網(wǎng)絡(artificial neural networks,ANN)的方法[5]。

        具體各組分的體積溶度輸入ANN,輸出各個對應的RON,通過大量實驗可以得到精度較高的模型。如秦玉翠[6]以誤差反向傳播人工神經(jīng)網(wǎng)絡(back propagation neural network,BP)為基礎, 對近紅外光譜儀測定數(shù)據(jù)進行相關分析,如光譜吸光度與汽油辛烷值,然后計算得到了較小的誤差,進一步說明ANN方法的可行性。另外也有研究用支持向量機回歸法[3],如朱曉等[7]應用有關方法,以分子結構為依據(jù),構建基于烷烴馬達法的辛烷值計算模型,然后采用留一法驗證模型,實驗表明其有較高的穩(wěn)定性。這些研究工作說明了采用非線性的建模方法有利于進一步精確對辛烷值進行定量計算,進而精確對辛烷值的損失定量計算,有利于提高汽油清潔化的效率。

        因此,基于以上的工作,現(xiàn)結合ANN等非線性建模方法的優(yōu)點,利用數(shù)據(jù)挖掘方法[8]研究辛烷值損失的定量計算問題。針對前面所述的問題,在前人基礎上,更關注從應用的角度獲得高泛化度的模型,關鍵在把握常用的挖掘方法的理論和各自特點的條件下,選擇正確的使用步驟;通過有效的數(shù)據(jù)處理,利用合理的算法進行特征選擇;并從多種挖掘方法構建的模型中經(jīng)過實驗優(yōu)選出最優(yōu)模型。以某石化企業(yè)為例,對比研究支持向量機回歸、BP神經(jīng)網(wǎng)絡、廣義回歸神經(jīng)網(wǎng)絡(generalized regression neural network,GRNN)、隨機森林和K近鄰回歸這5種方法進行辛烷值損失的定量計算,以期尋找出最佳的計算辛烷值損失的挖掘方法。

        1 數(shù)據(jù)挖掘方法

        數(shù)據(jù)挖掘方法是一種數(shù)據(jù)驅(qū)動式的應用方法,即它不強求人們需要事先完全理解所需解決問題的所有背景和各類性質(zhì),如汽油清潔化降低硫含量、辛烷值的所有化學性質(zhì)和變化規(guī)律等,而只需要一定量的背景知識;然后根據(jù)現(xiàn)有的數(shù)據(jù),從對數(shù)據(jù)的分析和處理建立模型;最后結合實際對模型進行應用和分析,以解決實際問題。在汽油清潔化中降低辛烷值損失,即對辛烷值的損失進行較為精確的定量計算對應著數(shù)據(jù)挖掘方法的預測和回歸任務。為提高數(shù)據(jù)挖掘方法在解決問題的效率,設計了以下數(shù)據(jù)挖掘方法的應用流程,如圖1所示。

        圖1 數(shù)據(jù)挖掘方法流程

        2 影響辛烷值損失的因素

        在實際汽油清潔化中,影響辛烷值損失的因素很多,如包括原料性質(zhì)、產(chǎn)品性質(zhì)、待生吸附劑性質(zhì)、再生吸附劑性質(zhì)和操作變量這5個大類,其中原料性質(zhì)即與其相關的化學性質(zhì),主要有硫含量、初始辛烷值和飽和烴。在工業(yè)上,飽和烴可分為烷烴、環(huán)烷烴、烯烴和芳烴等,待生吸附劑性質(zhì)主要以焦炭為主。另外,結合實際工業(yè)生產(chǎn),眾多影響因素中操作變量占比較大,而且對辛烷值損失程度的影響[9]也很大。例如,①氫油比,它的增大會加快烯烴通過加氫飽和成烷烴的反應速率,進而加快辛烷值的損失;②吸附劑載硫量,如果它變低,會使得吸附劑活性會變高和烯烴會變大,然后通過加氫飽和成烷烴反應程度的方式來變大,這同樣會使得辛烷值損失會變大;③反應溫度,當其他操作條件基本不變時,溫度的升高,使得汽油辛烷值損失會逐漸減少。

        3 基于數(shù)據(jù)挖掘辛烷值損失計算方法

        以某石化企業(yè)積累的數(shù)據(jù)為例,應用數(shù)據(jù)挖掘方法和辛烷值影響因素分析的結果,尋找出最佳的辛烷值損失的定量計算方法。

        3.1 數(shù)據(jù)清洗

        3.1.1 缺失值處理

        如果某些特征屬性的殘缺數(shù)據(jù)較多,使得無法補充,就刪除此類點。另外,直接刪除樣本中該因素全部為空值的點。對于數(shù)據(jù)只有部分存在空值的點,空值處用其前后數(shù)據(jù)的平均值進行插值替換。具體通過Python 3.7進行編程實現(xiàn),并統(tǒng)計了所有特征屬性缺失占其自身的缺失比例如圖2和表1所示。表1中展示了前20個缺失比例較大的特征元素及其缺失所占比例。

        G1~G32為對應的特征元素

        表1 前20個缺失比例較大的特征元素

        由表1和圖2可得缺失值占比較多的為補充氫壓縮機出口返回管流量、進料調(diào)節(jié)閥旁路流量、緊急氫氣去D-102流量和新氫進裝置流量等,進行了刪除;然后對比例較小如非凈化風進裝置流量以及D-123蒸汽出口流量等進行插值處理。

        3.1.2 異常值處理

        先根據(jù)企業(yè)的工藝要求與操作經(jīng)驗,獲得影響因素的存在區(qū)間;然后對不在此區(qū)間的樣本即異常值進行剔除;除此還根據(jù)拉依達準則進一步去除異常值,同樣借助Python 3.7進行編程實現(xiàn),并統(tǒng)計異常值較多的因素并作圖如圖3所示。由圖3可得異常值較多的如催化汽油進裝置總流量、精制汽油出裝置硫含量和再生煙氣氧含量等直接剔除。

        H1~H8分別為精制汽油出裝置硫含量、原料緩沖罐液位、再生煙氣氧含量、新氫進裝置流量、原料進裝置流量累計、R-101床層中部溫度、SZorbAT-0012號吸附和反應器料位

        3.1.3 歸一化

        由于影響辛烷值損失的各個因素性質(zhì)及其數(shù)據(jù)本身的含義存在差異,相互之間的量綱普遍存在差距過大,因此必須對數(shù)據(jù)進行歸一化處理。為最大限度保留數(shù)據(jù)特性,對數(shù)據(jù)進行最常用的線性放縮法,具體公式為

        (1)

        式(1)中:xmin和xmax分別為該因素數(shù)據(jù)中的最大值和最小值,歸一化到0~1。

        3.2 特征工程

        針對影響因素復雜繁多,對它們進行主要因素提取就十分必要。因為一般原始因素數(shù)據(jù)的特征和屬性多樣,具體表現(xiàn)為包含大量的干擾特征如噪音和冗余特征等,它們不但會影響構建模型的可靠度如產(chǎn)生過擬合,同時也會對模型應用有著一定的影響。主要特征的提取方法有很多,其中最常見的是主成分分析法,但它為線性方法,且一般這類方法得到的低維特征是其他高維特征通過線性組合而來,難以具有一定的物理解釋與含義,不便于對辛烷值損失的主要因素的提取進行合理解釋,故其并不適用于本文研究。

        以某石化企業(yè)為例,其提供數(shù)據(jù)中影響辛烷值損失的因素有366個,因素較多且存在一定的干擾因素,故需提取出其主要因素。在查閱有關資料[10],采用Wrapper方法類中的一種非線性方法即基于回歸的隨機森林的遞歸特征消除算法[11](ecursive feature elimination algorithm based on regression random forest,RFR-RFE),提取主要影響因素的算法步驟如下。

        假設數(shù)據(jù)集為T(X,Y),其中X∈Rn×m,Y∈R,R為實數(shù)集,n為樣本個數(shù),m為因素個數(shù),RFE算法最終提取結果為最優(yōu)特征子集Best-T。

        步驟1初始化,當前特征子集Current-T包含全部的因素,此時Best-T為空。

        步驟2設定每次迭代需要刪除的特征數(shù)量百分比,這里設為β%。

        步驟3開始迭代,結束條件為Current-T為空,根據(jù)Current-T特征構建RFR模型,得到RFR特征重要性序列;移除當前特征子集Current-T重要性序列末尾的β%個特征。

        步驟4將訓練得到最優(yōu)的RFR模型,若此時Current-T準確率大于Best-T,則令二者相等。

        步驟5將Best-T的特征序列作為最終結果返回。

        因此,在進行了數(shù)據(jù)清洗后,根據(jù)以上算法步驟提取出了28個辛烷值損失的主要影響因素(M1~M28),并計算了主要因素之間相關系數(shù),再根據(jù)所計算出的結果作出了相關性圖,如圖4所示。

        圖4 主要因素間的相關性圖

        通過對比分析,發(fā)現(xiàn)28個特征相互之間的相關性大部分在0~0.4即相關性很低,進一步說明RFR-RFE方法的適用性和提取出的因素的合理性。最后,經(jīng)過合理提取主要因素,影響辛烷值損失的主要因素M1~M28依次如表2所示。

        表2 提取出的影響辛烷值損失的主要因素

        3.3 基于數(shù)據(jù)挖掘的辛烷值損失預測模型

        在對已有數(shù)據(jù)集進行數(shù)據(jù)清洗和特征工程即對影響辛烷值損失的主要因素進行提取后,下面應用數(shù)據(jù)挖掘方法構建計算辛烷值損失的模型,即先通過構建的模型進行辛烷值的定量計算,然后再進行辛烷值損失的計算。以數(shù)據(jù)挖掘常用的方法[9-10]為依據(jù),結合辛烷值損失的主要因素和性質(zhì)特點分析,得出傳統(tǒng)的線性回歸、邏輯回歸等方法不適用于本文的建模。因為它們存在丟失信息量,而且文中的數(shù)據(jù)包含動態(tài)數(shù)據(jù)、具有較為復雜的內(nèi)在結構,所以需要采用其他常用數(shù)據(jù)挖掘方法進行建模。

        3.3.1 支持向量機回歸模型

        它是一種基于核方法的模型,依據(jù)其基本的原理[12],結合本問題,找出一個映射函數(shù),把原始低維空間的辛烷值損失的影響因素集映射到一個更高維的空間中去;然后非線性問題由此可以近似為一個線性問題,在高維空間中解決該問題。首先構造最優(yōu)決策函數(shù)[12]為

        f(x)=wΤK(xi,zi)+b

        (2)

        式(2)中:K(xi,zi)為核函數(shù);對于辛烷值的損失而言;xi為其中某一個樣本;zi為另一個樣本;w為權重量;b為閾值。核函數(shù)即所找映射函數(shù),它的正確選擇對構建支持向量機回歸模型的性能至關重要。高斯核函數(shù)由于參數(shù)較少和計算靈活,是非線性問題中最常用的,結合本問題特點選用高斯核函數(shù),其表達式為

        K(xi,zi)=e-γ‖xi-zi‖2

        (3)

        式(3)中:γ為伽馬參數(shù),其作用為調(diào)整高斯核的帶寬。

        根據(jù)文獻資料[12],在構建支持向量機回歸模型時,可以同時最小化模型的復雜度, 并且通??梢允諗康揭粋€局部最優(yōu)解。以前面為基礎,將其轉化為拉格朗日函數(shù), 其轉換的方法為,利用對偶原理引入拉格朗日乘子和Karush-Kuhn-Tucker條件進行消參,進而可以得出計算辛烷值損失的支持向量機回歸模型為

        (4)

        3.3.2 BP神經(jīng)網(wǎng)絡模型

        它是目前應用最廣泛的一種神經(jīng)網(wǎng)絡。將本問題結合其 BP神經(jīng)網(wǎng)絡結構計算過程如下:在正向傳播時,輸入影響辛烷值損失的因素從輸入層進入隱含層,當其中一個神經(jīng)元xi接收到來自上一個的計算值后,會通過權重wi傳遞的總輸入和閾值進行比較,其中訓練網(wǎng)絡時會根據(jù)網(wǎng)絡的計算誤差且wi為各神經(jīng)元相互間的權重,通過反向傳播調(diào)整網(wǎng)絡的權重wi和閾值θ,最后通過設定的激活函數(shù)計算出最終辛烷值損失值,其中一個重要表達式為

        (5)

        為得到更好地計算辛烷值損失模型,分別建立單隱層和多隱層的兩種BP 網(wǎng)絡進行計算。BP 網(wǎng)絡參數(shù)設置對其計算結果有較大的影響,以趙煜等[13]和甄超等[14]的研究為基礎,其中甄超等[14]指出通過試算法求得隱含層神經(jīng)元個數(shù)且學習步長 lr 取值在0.01~0.2時,訓練是平穩(wěn)且收斂的;結合辛烷值損失問題和其主要因素的特點,本問題單隱含層節(jié)點數(shù)設置為8層,多隱含層網(wǎng)絡層數(shù)依次設置為6和5,以及多次的網(wǎng)絡訓練,為防止過擬合采用提取停止法終止訓練過程。最終,單隱含層網(wǎng)絡的學習率lr設置為 0.2,目標誤差0.000 4,訓練次數(shù)500,設置tansig函數(shù)作為隱含層神經(jīng)閾值函數(shù),線性函數(shù)輸出。多隱含層學習率 lr設置為 0.1,目標誤差為0.000 1,訓練次數(shù)400,其他與單隱含層設置類似,因而分別構建好預測辛烷值損失的單隱層和多隱層BP網(wǎng)絡預測模型,分別簡記為Single BP和Multiple BP。

        3.3.3 GRNN神經(jīng)網(wǎng)絡模型

        GRNN結構由輸入層、模式層、求和層和輸出層構成。另外,它的模式層和激活函數(shù)分別采用為徑向神經(jīng)元和徑向基函數(shù)。它的基礎是傳統(tǒng)非線性回歸且應用 Parzen非參數(shù)估計,并以最大概率原則通過求和層計算結果。在本問題中,以辛烷值損失的數(shù)據(jù)集為空間,其空間中每一點對應主要影響因素,以辛烷值的損失值為中心,采用最常用的高斯函數(shù)[15]計算點到中心的歐氏距離, 其表達式為

        j=1,2,…,n

        (6)

        式(6)中:xn為主要影響因素,n=28;cj為第j個徑向基神經(jīng)元的中心;δ為高斯函數(shù)的方差,即光滑因子,再進入模式層進行加權求和。對于GRNN神經(jīng)網(wǎng)絡,確定其網(wǎng)絡的結構和各神經(jīng)元之間的連接權值,是以根據(jù)輸入的樣本為依據(jù),故其需要確定的參數(shù)只有一個光滑因子,其一般取值范圍[15]為[0,2]。本文以取值范圍為基礎,以輸入的影響因素通過十折交叉驗證的方法對δ進行一維尋優(yōu),以訓練和實際的均方差為評價指標,將誤差最小時的δ為最佳光滑因子進行構建網(wǎng)絡。在實際辛烷值損失的計算中,當?shù)降?次交叉驗證時,得到最佳光滑因子為0.8,進而以它構建好預測辛烷值損失的GRNN網(wǎng)絡模型。

        3.3.4 隨機森林模型

        它是一種以決策樹為基礎的組合算法。針對本問題,采用多顆決策樹分別獨立計算辛烷值損失值,然后綜合各個決策樹的計算結果,以投票方式?jīng)Q定最終的結果,其過程如圖5所示。具體計算步驟[16]如下。

        D1~Dn為隨機采樣后劃分的訓練樣本;C1~Cn為對應匹配;D1~Dn所構建好的CART決策樹

        步驟1隨機抽樣。從訓練的主要影響因素數(shù)據(jù)集中,通過有放回地 Boostrasp 抽樣,生成若干組主要影響因素數(shù)據(jù)集,每組分為被抽中與未被抽中這兩種,然后每組通過訓練產(chǎn)生一顆決策樹。

        步驟2生長。訓練每個決策樹通過已有的主要影響因素數(shù)據(jù)進行。然后開始充分生長,具體表現(xiàn)為在每次分節(jié)點時,以若干影響因素為基礎,然后以隨機方式選取出特征,用Gini指標識別出最優(yōu)特征來生長,持續(xù)到不能再生長為止。

        步驟3校正。利用未被抽中的主要影響因素數(shù)據(jù)檢驗構建的隨機森林模型精度,且模型的效果和泛化能力在一定程度上可以通過它進行檢驗。另外,還可以通過對未被選中的影響因素計算誤差,確定計算辛烷值損失的最佳決策樹的棵數(shù)且調(diào)整模型。如果效果不佳,甚至可重新構建模型。

        步驟4將確定出的每棵決策樹模型加權計算得到最終隨機森林模型的預測結果。

        此外,在構建隨機森林過程中,有兩個重要參數(shù)。一個為隨機特征數(shù),其值一般為自變量總數(shù)的1/3;另一個為決策樹的棵數(shù),它的確定一般是結合訓練效果擇優(yōu)。根據(jù)資料[16],基于以上思想和方法步驟,結合本問題特點以及訓練模型的效果,設置隨機特征數(shù)為9,決策樹的棵數(shù)為800,進而構建好預測辛烷值損失的隨機森林模型,簡記為RF。

        3.3.5K近鄰回歸模型

        它是一種以實例為基礎的方法。與前面幾個方法不同,它是將模型的構建與未知屬性特征的 定量計算同時進行,比較已知和未知的相似度,然后尋找最相似的K個樣本用作未知的計算。根據(jù)劉長良等[17]的研究結果,提出計算辛烷值損失如下:以已有的影響因素數(shù)據(jù)集建立一個向量空間,再以某種距離度量為基礎,本文選用歐氏距離,通過近鄰樣本的搜尋找到主要影響因素和所需計算辛烷值損失的點最接近的K個鄰近點構成一個簇,對搜尋出的已知影響因素點進行投票,利用各簇中最多的類點對所求點進行平均計算,即K個鄰近點輸出的均值作為結果。

        除此,搜尋近鄰樣本方法常用球樹搜尋法和K-Dimension 搜尋法(即KD 樹搜尋法),本文在 Python 3.7環(huán)境下根據(jù)主要因素數(shù)據(jù)的特征自動選擇最佳的搜尋方法。在K近鄰回歸建模中,只有一個需要確定的關鍵參數(shù)為K,如果K選取不當,則對構建的模型有較大的影響。對此,采用十折交叉驗證,通過以訓練和實際的均方差為評價指標,確定K值。可以由圖 6得到,當K=15 時趨于平穩(wěn),故最佳K值為15,因此構建好預測辛烷值損失的K近鄰回歸模型,簡記為KNN。

        圖6 K值變化圖

        4 實驗過程及結果分析

        基于前面的理論和方法,以某石化企業(yè)的積累數(shù)據(jù)為例,根據(jù)所提取的28個主要因素:烯烴、硫含量和氫油比等的操作變量,穩(wěn)定塔頂壓力和精制汽油出裝置溫度等計算辛烷值損失值。首先劃分生成訓練集D1和測試集D2;再采用隨機打亂數(shù)據(jù)再進行劃分,訓練集D1為前面所構建模型所需的訓練數(shù)據(jù)且占比為0.8,測試集D2為模型測試及評價的數(shù)據(jù)且占比為 0.2。為對模型有效訓練和確定模型的關鍵參數(shù),以前人的研究經(jīng)驗為基礎,結合交叉驗證的方法[12],先將訓練集D1劃分為k個類似大小的互斥子集,即

        D1=D11∪D12∪…∪D1k-1∪D1k

        (7)

        且不同子集間交為空集,每個子集Di都盡可能保持數(shù)據(jù)分布的一致性,從D1中通過分層采樣而來。然后每次用k-1個子集的并集來訓練,余下的用于測試,從而進行k次訓練和測試。通過訓練輸出的值和實際值來計算均方差為評價指標確定模型的關鍵參數(shù),模型經(jīng)過以上訓練達到最優(yōu)擬合效果之后,再對測試集中辛烷值損失進行定量計算,最后通過對比檢驗模型的適用性和可靠性。

        由于計算結果較多不便于直接展示,通過可視化圖像將隨機森林、支持向量機回歸和K近鄰回歸的計算結果和如7(a)所示,K近鄰回歸作為中間樞紐比較,將其和兩類神經(jīng)網(wǎng)絡預測結果如圖7(b)所示。

        圖7(a)可以看出,預測辛烷值損失值最準確地為隨機森林,支持向量機回歸的計算偏差較大;而從圖7(b)可以看出 GRNN 神經(jīng)網(wǎng)絡的預測結果最準確,單隱層BP神經(jīng)網(wǎng)絡偏差較大,K近鄰回歸和多隱層BP神經(jīng)網(wǎng)絡的計算結果比較接近。

        圖7 辛烷值損失預測結果

        由于只從結果圖形直觀可視化比較,存在一定主觀性,為了更加客觀進行分析比較,所以下面引入幾個評價指標,分別為平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和擬合優(yōu)度(goodness of fit,R2)。

        (8)

        (9)

        (10)

        (11)

        表3 各評價指標結果

        除此,還對R2進行可視化分析,如圖8所示。

        由表3和圖8可得,整體上隨機森林的各項誤差指標均與其他各方法相比最小,擬合效果最接近實際值,且實驗過程中多次的隨機交叉訓練,對辛烷值損失的計算差異小,較為穩(wěn)健。其次為GRNN神經(jīng)網(wǎng)絡,其各項誤差指標也相對在較為合理的范圍,且在收斂于優(yōu)化回歸面,表現(xiàn)為收斂于樣本積聚最多的優(yōu)化回歸面。再其次為 BP 神經(jīng)網(wǎng)絡,雖然存在一些不足,但是通過合理增加其隱含層的層數(shù)可以對效果進行一定范圍內(nèi)的改善。最后,支持向量機回歸和K近鄰回歸二者的計算效果比較接近,但精度存在的一定不足。

        圖8 各自的擬合優(yōu)度圖

        此外為進一步結合實際應用,根據(jù)現(xiàn)行國家標準以及有關資料[18],辛烷值為90~100的汽油差值|E|不大于0.2個單位則滿足重復性要求,而再現(xiàn)性要求為差值|E|不大于 0.7個單位。隨機森林計算辛烷值損失對應的終端辛烷值如表4所示。

        由表4可得,RF計算結果有86.2%的在 0.7個單位以內(nèi),符合再現(xiàn)性要求,進一步說明構建的隨機森林模型的合理性。綜上所述,隨機森林預測辛烷值損失的精度高且較為穩(wěn)健,具有很大的實際應用意義。

        表4 隨機森林計算對應終端辛烷值

        5 結論

        (1)基于某石化企業(yè)所積累的數(shù)據(jù),其存在影響辛烷值損失的眾多因素,采用RFR-RFE算法提取主要影響因素。最終成功提取了28個辛烷值損失的主要影響因素,包含硫含量、烯烴、氫油比和穩(wěn)定塔壓力等,結合相關性分析和有關資料,得出所提取的因素為影響辛烷值損失特性的代表因素,進一步說明RFR-RFE算法在影響辛烷值損失特征提取上的合理性和有效性。

        (2)針對汽油清潔化中辛烷值損失預測問題是多種復雜因素相互影響的辛烷值損失的定量計算問題,從數(shù)據(jù)驅(qū)動這一角度構建了可靠的高性能計算模型。以某石化企業(yè)為例,通過數(shù)據(jù)挖掘方法包括數(shù)據(jù)清洗、特征提取和挖掘建模進行分析計算。其實驗結果表明:隨機森林方法預測精度較高,是非??煽康模転樵趯嶋H汽油清潔化中提前預測辛烷值的損失,進而提前做出合理的清潔化方案提供有力的技術支撐。

        猜你喜歡
        數(shù)據(jù)挖掘特征方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        亚洲夜夜性无码| jiZZ国产在线女人水多| 91麻豆精品激情在线观最新| 亚洲综合日韩一二三区| 国产一区二区三区在线电影| 精品性高朝久久久久久久| 亚洲高清中文字幕精品不卡| 亚洲免费一区二区av| 综合亚洲伊人午夜网| 国产福利一区二区三区在线观看| 亚洲午夜无码久久yy6080| 黄色三级一区二区三区| 亚洲人成在久久综合网站| 丰满少妇a级毛片野外| 日韩在线看片| 亚洲国产精品午夜一区| 国产人成精品免费久久久| 国产绳艺sm调教室论坛| 鲁丝片一区二区三区免费| 国产黄a三级三级三级av在线看| 久久99久久99精品观看| 日本九州不卡久久精品一区| 欧美性色欧美a在线播放| a级毛片100部免费看| 91精品啪在线观看国产色| 日韩激情视频一区在线观看| 五月综合激情婷婷六月| 亚洲色自偷自拍另类小说| 国产爆乳美女娇喘呻吟久久| 日本少妇一区二区三区四区| 久久精品无码一区二区三区免费 | 男人的天堂在线无码视频| 亚洲一区二区三区天堂av| 最美女人体内射精一区二区| 色一情一乱一伦一区二区三区| 欧美手机在线视频| 国产免费人成视频在线| 人人妻人人爽人人澡欧美一区| 国产黑色丝袜一区在线| 亚洲av中文字字幕乱码软件| 少妇被爽到高潮喷水久久欧美精品|