任芳玲,李佳佳,黃 蓉
(延安大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,陜西延安716000)
中國是世界石油消費大國,中國石油產(chǎn)量的多少與世界經(jīng)濟的發(fā)展有著直接的關(guān)系。精準(zhǔn)地預(yù)測出石油產(chǎn)量的多少,對于企業(yè)的經(jīng)營有著重大的意義[1]。石油作為一種不可再生的資源,如何合理地開采并且保證其產(chǎn)量的增長是石油產(chǎn)業(yè)面臨的主要問題之一。
本文所用的多元線性回歸模型和主成分分析法,是數(shù)理統(tǒng)計的重要方法[2],它在社會經(jīng)濟學(xué)、生物醫(yī)藥學(xué)、氣象等方面有著廣泛的應(yīng)用,在當(dāng)今的大數(shù)據(jù)時代,只要有數(shù)據(jù)信息和資料的地方,都要科學(xué)地對數(shù)據(jù)進行分析[3],要有效地提取信息和科學(xué)地應(yīng)用數(shù)據(jù)進行預(yù)測,以上方法不可或缺。線性回歸法作為預(yù)測未來值的一種重要的方法,已被用于社會生活的各個方面,比如國亮[4]給出改進的多元線性回歸模型在某油田產(chǎn)量預(yù)測中的應(yīng)用,本文對多元線性回歸模型進行優(yōu)化,從數(shù)理統(tǒng)計的角度出發(fā),反復(fù)進行篩選預(yù)測所用的變量,使其對預(yù)測指標(biāo)的顯著性影響程度提高,得出了較為精準(zhǔn)的預(yù)測結(jié)果。為了避免多重共線性影響建模質(zhì)量,然后對其進行主成分分析。例如彭平等[5]利用主成分分析法的特點,建立了鋼坯質(zhì)量的預(yù)測模型。本文利用主成分分析法結(jié)合數(shù)學(xué)軟件SPSS,降低數(shù)據(jù)的維度,得出預(yù)測石油產(chǎn)量的主要影響因素,之后對兩種不同的方法進行總結(jié),分析其優(yōu)點和缺點,對以后石油產(chǎn)量的預(yù)測提供一定的參考。
設(shè)因變量y表現(xiàn)為m個自變量x1,x2,…,xm的線性組合,即y有m組實際觀察數(shù)據(jù)。在這個觀察樣本中,第k組觀察值(k=1,2,…,m)可以表示為(x1k,x2k,…,xmk,yk),且(x1k,x2k,…,xmk,yk)是m+1維空間中的一個點,從而建立如下的m元線性組合關(guān)系[6]
yk=β0+β1x1k+β2x2k+…+βmxmk+εk,
記Y=(y1,y2,…,ym)T,β=(β0,β1,…,βm)T,
ε=(ε1,ε2,…,εm)T,
β0,β1,β2,…,βm為m+1個待估計參數(shù),x1,x2,…,xm,yk是可觀察的隨機變量,yk隨x1,x2,…,xm的變化而變化,并且受實驗誤差的影響,εk是均值為零的隨機變量,相互獨立并且服從正態(tài)分布[6-7]N(0,δ2)。
所反應(yīng)回歸效果的殘差平方和為
由此,可以得出影響產(chǎn)量變化F值統(tǒng)計量,t值統(tǒng)計量的表達式為:
其中cjj是(X′X)-1中主對角線上的第j個元素。上述統(tǒng)計量可以檢驗回歸方程的顯著性[2]。
若F≥Fα(k,m-k-1),則拒絕H0,該回歸顯著。若F 本文篩選采油開井?dāng)?shù)(口)x1、累計產(chǎn)油量(噸)x2、新井?dāng)?shù)(口)x3、綜合含水率(%)x4、自然遞減率(%)x5、綜合遞減率(%)x6、采油速度率(%)x7、采出程度率(%)x8八個可能會影響石油產(chǎn)量的因素為自變量,年產(chǎn)油量(萬噸)y為因變量,對2016年延長石油某采油廠年產(chǎn)油量進行預(yù)測,所篩選出的數(shù)據(jù)如表1: 表1 延長石油某采油廠油田開發(fā)數(shù)據(jù)表 從而可建立如下的多元線性關(guān)系: y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+ β7x7+β8x8+ε, (其中β0~β8為回歸系數(shù),ε為隨機變量)。 將以上篩選的數(shù)據(jù)依次輸入數(shù)學(xué)軟件SPSS數(shù)據(jù)編輯窗口,利用“分析回歸線性進行”,然后選擇變量,所得到的系數(shù)如表2。 對上述的結(jié)果進行殘差分析,如表3。 表2 系數(shù)表 表3 殘差分析表 從殘差分析表可見,F(xiàn)檢驗不通過,T檢驗通過,所以之后建立的回歸方程所得的預(yù)測值誤差較大。 所得到的線性回歸模型為: y1=149.53-0.79x1-2.294x2-0.149x3+ 1.367x4-0.348x5-0.73x6-0.786x7+0.431x8 (1) 將2016年的采油開井?dāng)?shù)、累計產(chǎn)油量、新開井?dāng)?shù)、綜合含水率、自然遞減率、綜合遞減率、采油速度、采出程度的數(shù)據(jù)代入式,可預(yù)測得2016年延長石油該采油廠年產(chǎn)油量y1=34.7×104t,其實際產(chǎn)量為31.3×104t,誤差大約為10.8%。 為了使結(jié)果更接近真實值,“分析回歸線性逐步”對自變量進行篩選,得到的結(jié)果如表4。 表4 系數(shù)表 根據(jù)結(jié)果數(shù)據(jù)表知,逐步回歸法進行了變量的剔除,最終選取新開井?dāng)?shù)(口)x3,自然遞減率(%)x5作為最終變量,對上述的結(jié)果進行殘差分析,分析結(jié)果如表5。 表5 殘差分析表 從殘差分析表可見,F(xiàn)檢驗和T檢驗均通過,所以之后建立的回歸方程所得的預(yù)測值誤差較小,線性回歸方程為: y2=47.81+0.945x3-0.278x5 (2) 將2016年的新開井?dāng)?shù)、自然遞減率的數(shù)據(jù)代入式,可預(yù)測得2016年延長石油該采油廠年產(chǎn)油量y2=32.8×104t,其實際產(chǎn)量為31.3×104t,誤差大約為4.8%,該誤差符合浮動的范圍。(浮動范圍小于5%) 設(shè)研究某一問題共涉及p個指標(biāo),分別用X1,X2,…,XP表示,這p個指標(biāo)構(gòu)成p維隨機向量X=(X1,X2,…,XP)′,設(shè)隨機向量X的均值E(X)=μ,協(xié)方差矩陣Var(X)=∑,對X進行線性變換,合成變量用Y表示,Y=(Y1,Y2,…,YP)[4]: (3) 設(shè)ai=(ai1,ai2,…,aip)′,(i=1,2,…,p), A=(a1,a2,…,ap)′,可得出: Y=AX, 對原有變量進行線性變換,不同的線性變換合成變量的特征值也不同[3]。每個Yi的方差值越大,原有信息的比重就越大。由上式可得系數(shù)向量擴大任意倍,Yi的方差將會無限擴大,問題也就變得沒有意義。為了解決問題,約束的原則是: 為了反映原有變量的信息,Y的不同分量包含的信息不應(yīng)重合。因此(3)式的線性變換需滿足[8]: 2)Y1在滿足約束1的情況下,方差最大;Y2是在滿足約束1且與Y1不相關(guān)的情況下,其方差達到最大,以此類推,Yp是在滿足約束1且與Y1,Y2,…,Yp-1不相關(guān)的條件下,在各種線性組合中方差達到最大值[8]。 對于上述得到的合成變量Y1,Y2,…,Yp原有變量的稱為第一、第二,…,第p主成分,在每個成分中占得比重不同。在現(xiàn)實研究中,挑選前幾個方差較大的主成分,以達到抓住問題實質(zhì)的目的[9]。 此處篩選六項指標(biāo):開井?dāng)?shù)(口)X1、累計產(chǎn)油量(噸)X2、新開井?dāng)?shù)(口)X3、綜合含水率(%)X4、自然遞減率(%)X5、綜合遞減率(%)X6,數(shù)據(jù)如下表6。 表6 某采油廠油田開發(fā)數(shù)據(jù)表 將篩選出的數(shù)據(jù)依次輸入數(shù)學(xué)軟件SPSS數(shù)據(jù)編輯窗口,利用“分析降維因子分析”,選取好變量,得到如下表7。 表7 解釋的總方差表 在上述表格,“合計”列為個因子所對應(yīng)的特征根,前兩個的成分特征根比較大[10],所以可提取前兩個主成分;由解釋的總方差表格(表7)可知,前兩個主成分已經(jīng)可以解釋87.535%的方差了,損失掉的信息不超過13%。將原始變量的信息基本保留,得到了兩個新的綜合變量,我們選取1為第一主成分,2為第二主成分,這樣就由原來的六項指標(biāo)轉(zhuǎn)化為兩個新的指標(biāo),起到了降維的作用。 從SPSS結(jié)果輸出中導(dǎo)出成分矩陣表8。 表8 成分矩陣表 將成分矩陣輸入數(shù)據(jù)編輯窗口,然后計算第一個特征向量,點擊“轉(zhuǎn)換計算變量”,第一次輸入公式e1=a1/SQRT(3.852)公式,點擊確定按鈕,得到命名為e1的第一特征向量,再次調(diào)出“計算變量”對話框再次輸入公式e2=a2/SQRT(1.4),點擊確定按鈕,可以得到命名為e2的第二特征向量,進而可以得到特征向量矩陣,所得的結(jié)果如表9。 表9 特征向量矩陣表 根據(jù)表9的特征向量矩陣可以得出所得的兩個主成分y1,y2的線性組合形式如下: y1=0.51x1+0.5x2-0.47x3+0.44x4- 0.12x5-0.31x6, y2=0.84x1+0.83x2-0.78x3+0.72x4- 0.2x5-0.52x6。 從各個主成分的系數(shù)可以看出,第二主成分在X1,X2,X3,X4,X5,X6上的系數(shù)相對較大。 在計算主成分得分之前,首先對原始變量X1~X6進行標(biāo)準(zhǔn)化,得到的標(biāo)準(zhǔn)化后的變量分用ZX1~ZX6表示,選擇“分析描述統(tǒng)計描述命令”,并且選中將標(biāo)準(zhǔn)化得分存為變量,得到的標(biāo)準(zhǔn)變量如圖1: 圖1 標(biāo)準(zhǔn)化后的變量 點擊“轉(zhuǎn)換計算變量”,得到表10 表10 主成分得分及其排序 從主成分及其排序表可以看出,在所篩選的六項因素中,影響最為顯著的是自然遞減率,綜合含水率和新開井?dāng)?shù),影響最不顯著地是累計產(chǎn)油量,該方法由原來的六個影響指標(biāo)降低到了現(xiàn)在的兩個新指標(biāo),不僅起到降維的作用,而且兩個新指標(biāo)累計占了全部方差的87.535%,即保留了87.535%的原始信息,與多元線性回歸模型所得的結(jié)論吻合。 綜合來說,多元線性回歸模型在預(yù)測方面的精確度更高,但是同時因變量受多個自變量的影響,操作過程又太過于復(fù)雜。而主成分分析模型雖然誤差相對于多元線性回歸模型來說比較大,但是操作起來較為簡單,將多個變量通過線性變換篩選出幾個綜合變量,容易學(xué)習(xí)和掌握,主成分分析模型可以運用在那些不太嚴(yán)格要求數(shù)據(jù)的準(zhǔn)確性,預(yù)測的主成分的數(shù)值可以作為參考,若將兩種預(yù)測模型可以很好地融合在一起應(yīng)用,這將會擴大預(yù)測模型的應(yīng)用范圍,同時也可以提高預(yù)測模型的預(yù)測精度。1.2 多元線性回歸模型下的石油產(chǎn)量預(yù)測
1.3 逐步回歸優(yōu)化模型
2 主成分分析模型
2.1 模型介紹
2.2 利用主成分分析法預(yù)測石油產(chǎn)量
2.3 計算主成分得分及其排序