李 雨,侯 磊,徐 磊,白小眾,劉金海,孫 欣,谷文淵
(1.中國石油大學(北京)石油工程教育部重點實驗室,北京 102200; 2.中國石油天然氣集團公司油氣儲運重點實驗室,北京 102200; 3.國家管網(wǎng)集團北方管道有限責任公司錦州輸油氣分公司,遼寧 錦州 121000)
自上世紀起,我國學者開始進行輸油管道運行電耗的相關(guān)研究并分析影響管道電耗的重要因素。管道周轉(zhuǎn)量、進出站壓力、進出站溫度和土壤溫度等特征都被認為是影響管道電耗的重要因素[1-5]。由于每條管線運行工況不同,不同因素影響管道電耗的程度亦不同。有的僅利用日輸量便可比較準確地預測管道運行電耗[6],也有的需要同時考慮多個特征才能實現(xiàn)管道電耗的準確預測[7]。針對第二種情況,不但需要生成一些設(shè)備無法直接測量的特征,以擴大待選特征范圍,還需要利用合理的算法來確定更適合被用來預測管道電耗的特征。為確定一個能夠最精確預測管道電耗的小特征集合,需要對全部待選特征進行相關(guān)性分析。進行相關(guān)性分析的方法有皮爾遜系數(shù)法[8]和互信息法[9-10]。但是皮爾遜系數(shù)在評價兩個正態(tài)分布特征之間的線性關(guān)系時才會有很好的效果,而對非線性關(guān)系不敏感[11]?;バ畔㈦m然沒有上述問題,但需要計算特征的概率密度函數(shù)[12-13]。管道運行特征間非線性強,且多為離散數(shù)據(jù),不宜計算概率密度函數(shù),直接使用上述兩種方法效果不好,需要進行改進。Kraskov[14]提出基于K近鄰的互信息估計方法,一定程度上解決了互信息過度依賴特征分布規(guī)律的缺陷。K近鄰互信息估計不需要計算概率密度函數(shù),只需要計算不同特征之間的歐氏距離便能估算出兩個特征之間的互信息值。本研究利用原油管道輸送相關(guān)公式擴充原始數(shù)據(jù)集,將K近鄰互信息估計和BPNN結(jié)合,提出一種原油管道電耗預測模型,并利用某原油管道三年運行數(shù)據(jù)驗證該模型預測效果。
全部數(shù)據(jù)由原始數(shù)據(jù)和生成數(shù)據(jù)兩部分組成,共包括管道運行、油品物性、環(huán)境狀況、設(shè)備工況四個方面。其中擴充數(shù)據(jù)由原始數(shù)據(jù)通過管道輸送理論公式計算得來。
該類數(shù)據(jù)源于某段原油管道2016年至2019年運行報表,共911組數(shù)據(jù)。每組數(shù)據(jù)包括日輸量、出站壓力、出站溫度以及地溫等21個特征。該段管道尺寸為φ508×7.1,全長為55.2 km,年設(shè)計輸量為107t,設(shè)計壓力為5 MPa,中間無其他站場。
原始數(shù)據(jù)并未覆蓋可能與管道電耗相關(guān)的全部特征,因此需要對原始數(shù)據(jù)進行擴充。同時,新生成的強相關(guān)性特征也可以被認為是學習任務(wù)的中間概念,這種中間概念越多,往往越有利于建立精確的管道電耗預測模型[15]。利用已有管道輸送理論公式計算出多個與原油輸送相關(guān)的特征,如表征流體流動情況的雷諾數(shù)Re、衡量換熱情況的傳熱系數(shù)K、蘇霍夫溫降公式中的參數(shù)a以及進出站壓差等特征。在式(1)、(2)中分別列出雷諾數(shù)Re和蘇霍夫溫降公式中參數(shù)a的計算公式
Re=ρvd/μ
(1)
(2)
式中ρ——油品密度/kg·m-3;
v——油品流速/m·s-1;
d——管道內(nèi)徑/m;
μ——油品動力黏度/Pa·s;
K——傳熱系數(shù)/W·(m2·℃)-1;
D——管道外徑/m;
G——管道輸送油品的質(zhì)量流量/t·d-1;
C——油品熱容/J·(kg·℃)-1。
共得到31個特征見表1。按照訓練集和測試集比例為4∶1對911組數(shù)據(jù)進行劃分,得到訓練集數(shù)據(jù)728個,測試集數(shù)據(jù)183個。
表1 31個特征名稱表
引入K近鄰互信息估計(K-EMI)[14]計算特征間的相關(guān)性。K-EMI在評價復雜非線性關(guān)系時有較好的效果,并且不需要計算離散數(shù)據(jù)的概率密度。
管道運行數(shù)據(jù)集共含911組數(shù)據(jù),每組數(shù)據(jù)擁有31個特征。數(shù)據(jù)集用D={X1,X2,X3,……,X31}來代表,Xi={xi1,xi2,xi3,……,xi911}。令管道電耗為特征Y,則每個特征Xi和管道電耗Y張成一組向量空間。設(shè)Zij為特征Xi和Y空間中的第j個點,則有Zij=(xij,Y)。某點Z和其他點Z′之間的距離d的計算公式為[15]
d=||Z-Z′||=max{||x-x′||,||Y-Y′||}
(3)
其中,||Y-Y′||和||x-x′||是同階范數(shù)。手動確定K值后,點Zij到其最近的第K個點的歐式距離記作ε(i,j)/2,投影到X和Y的子平面上的距離分別為εx(i,j)/2和εy(i,j)/2。根據(jù)式(3),有ε(i,j)=max(εx(i,j),εy(i,j))。統(tǒng)計出在X和Y方向上到Z點歐氏距離小于ε(i,j)/2的點的個數(shù),分別記為nx和ny。圖1展示處于特征空間X和Y中的點如何確定nx和ny。其中深色點有nx=5,ny=4。
圖1 K近鄰互信息估計示意圖
利用式(4)和式(5)計算特征Xi和Y之間的互信息
I(i)(Xi,Y)=ψ(K)-<ψ(nx+1)+
ψ(ny+1)>+ψ(N)
(4)
(5)
ψ是伽瑪函數(shù),滿足ψ(x+1)=ψ(x)+1/x,ψ(1)=-0.577 216。特征間K-EMI結(jié)果的集合可表示為I={I(1)(X1,Y),I(2)(X2,Y),……,I(31)(X31,Y)}。K-EMI值越高,表示相關(guān)性越強。
BPNN能夠以任意精度逼近某一非線性函數(shù),被廣泛應用于建立預測模型。BPNN拓撲結(jié)構(gòu)如圖2所示,其中輸入層和隱含層可包含多個神經(jīng)元,不同層的神經(jīng)元間利用權(quán)值W連接激活函數(shù)h為relu函數(shù)。神經(jīng)網(wǎng)絡(luò)通過修正權(quán)值來使模型平均均方誤差(MSE)達到最小,達到提高模型預測精度的目的。本研究將不同特征作為BPNN輸入,將電耗作為輸出,建立單隱含層的電耗預測模型。
圖2 單隱含層神經(jīng)網(wǎng)絡(luò)示意圖
為評價模型訓練速度和預測精度,本研究采用建模時間作為評價模型訓練速度的指標,采用均方根誤差(RMSE)、決定系數(shù)(R2)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)作為衡量模型精度的指標,其計算公式如下
(6)
(7)
(8)
(9)
采用Windows10系統(tǒng),處理工具為Spyder軟件,BPNN基于Keras第三方庫建立。
第一步利用原油加熱輸送和等溫輸送相關(guān)公式橫向拓展數(shù)據(jù)集;第二步利用K-EMI選出與電耗相關(guān)性強的特征;第三步將選出的不同特征喂入BPNN以建立原油管道電耗預測模型;第四步利用3.3提到的四個誤差指標驗證神經(jīng)網(wǎng)絡(luò)模型的預測精度。圖3展示了構(gòu)建原油管道電耗預測模型的完整過程。
圖3 方法概覽
K-EMI的計算需要提前設(shè)定K值,當K值不同時,計算結(jié)果略有差異。本研究計算不同K值時模型的K-EMI結(jié)果以作對比,結(jié)果如表2所示。
觀察表2能夠發(fā)現(xiàn),K取不同值時,特征T1~T6的K-EMI數(shù)值排位靠前且名次固定。選取T1~T6作為模型的備選輸入特征。
表2 不同K值時的K-EMI結(jié)果
為更直觀地展示每個特征和管道電耗的分布規(guī)律,將縱坐標設(shè)為管道電耗,橫坐標分別為不同特征,繪制特征T1~T8與電耗分布關(guān)系圖,如圖4所示,其中各點為數(shù)據(jù)實際位置分布,曲線為拋物線擬合結(jié)果。
圖4 電耗與部分特征分布關(guān)系圖
分析表2和圖4發(fā)現(xiàn):進出站壓差、進出站溫差和雷諾數(shù)等生成特征與管道電耗存在明顯的非線性關(guān)系,說明在預測前先擴充數(shù)據(jù)集有利于找到更多與管道電耗存在強相關(guān)性的特征;衡量流動狀況的雷諾數(shù)與運行電耗的相關(guān)性很強,衡量傳熱能力的傳熱系數(shù)卻未出現(xiàn)在圖表中,說明在很大程度上決定該管道電耗水平的是原油流動狀況,而對流換熱過程對管道電耗水平不起決定作用;壓差與管道電耗的相關(guān)性強于進站壓力、出站壓力等壓力參數(shù),證明在輸油過程中管道電耗主要用來通過離心泵給油品增加壓頭,增大外輸壓力;溫度特征和油品運動黏度都未表現(xiàn)出與電耗的強相關(guān)性,這是由于溫度特征不能直接影響管道電耗,只能通過改變油品黏度間接影響管道電耗。油品的運動黏度本身波動范圍小且存在其他因素干擾,不能決定管道運行電耗,因此這些特征與電耗的相關(guān)性都很弱。
綜上所述,通過相關(guān)性分析不但能夠確定與電耗相關(guān)的特征,還能通過分析不同特征間相關(guān)性差異解釋輸油管道運行電耗變化。
共建立9個BPNN模型,將K-EMI計算出的前1~6個與電耗相關(guān)性最強的特征作為輸入得到1#~6#模型;將全部特征作為模型輸入得到7#模型;將互信息計算出的前5個特征作為輸入得到8#模型,將皮爾遜系數(shù)計算出的前5個特征作為輸入得到9#模型。對比模型1#~7#以確定用來建模的最優(yōu)特征數(shù)量,對比模型5#、8#和9#以分析不同相關(guān)性分析方法提取相同數(shù)量特征的效果。三種相關(guān)性分析方法提取出的特征集合如表3所示。
表3 不同相關(guān)性分析方法提取的特征集合
神經(jīng)網(wǎng)絡(luò)模型參數(shù)、30次重復實驗的平均誤差和平均訓練時間如表4所示。根據(jù)模型的均方根誤差(RMSE)、決定系數(shù)(R2)、平均絕對誤差(MAE)和平均相對百分比誤差(MAPE)結(jié)果繪制圖5所示誤差分布圖。
表4 模型參數(shù)、平均誤差值與平均訓練時間
圖5 模型誤差分布圖
分析1#~7#模型能夠發(fā)現(xiàn),模型預測誤差隨輸入特征的增加呈現(xiàn)先降低后略微升高的特點,5#模型預測誤差最小。說明利用K-EMI計算得到的5個特征已經(jīng)包含了能夠精確反映管道電耗變化的信息,其余特征多屬于噪聲特征,不利于提高模型預測效果。對比5#、8#和9#模型能夠發(fā)現(xiàn),提取5個特征時,通過K-EMI選出的特征能夠建立更準確的電耗預測模型,這證明使用K-EMI計算該管線中不同特征與電耗相關(guān)性的效果優(yōu)于使用互信息和皮爾遜系數(shù)計算的效果。7#模型比5#模型的隱含層神經(jīng)元數(shù)量增加了10個,平均訓練時間也增長了22.49%,這是由于輸入特征數(shù)量增加,BP神經(jīng)網(wǎng)絡(luò)隱含層需要加入更多的神經(jīng)元以學習不同特征間的規(guī)律,因此增加了模型訓練時間。
對比基于不同輸入特征建立的神經(jīng)網(wǎng)絡(luò)預測模型的預測效果能夠得到以下結(jié)論:
(1)在相關(guān)性分析前先利用相關(guān)公式對原始數(shù)據(jù)進行擴充能得到更多與電耗相關(guān)性強的特征。
(2)K-EMI能有效評價不同特征與電耗的相關(guān)性,且效果明顯好于互信息和皮爾遜系數(shù)的效果。
(3)5#預測模型具有最高的預測精度和較短的模型訓練時間,證明本研究提出方法建立的BPNN模型能夠很好地預測管道電耗。