年福耿,黃 輝
(海軍士官學(xué)校,安徽 蚌埠 233012)
判斷顏色讀數(shù)和物質(zhì)濃度之間的相關(guān)關(guān)系.可建立基于Pearson簡單相關(guān)系數(shù)為基礎(chǔ)的相關(guān)性檢驗(yàn)?zāi)P汀?/p>
1.1.1 Pearson簡單相關(guān)系數(shù)
計(jì)算樣本Pearson相關(guān)系數(shù)r;
樣本Pearson相關(guān)系數(shù)r的數(shù)學(xué)定義如下:
r=1n∑n=i=1)xi-Sx)(yi-Sy)
(1)
式1中,n為樣本量,xi和yi分別為兩變量的變量值。說明簡單相關(guān)系數(shù)式n個xi和yi分別標(biāo)準(zhǔn)化后的積的平均數(shù).
Pearson 相關(guān)系數(shù)r的取值介于-1~1之間,具體取值的絕對值越接近1說明相關(guān)度越高.
1.1.2 可決系數(shù)的擬合檢驗(yàn)
可決系數(shù) 是自變量 和因變量 的簡單相關(guān)系數(shù)r的平方.可反映回歸方程所能解釋的變差比列(摘自《統(tǒng)計(jì)分析與SPSS的應(yīng)用》第四版),其計(jì)算公式如下:
(2)
由式2可知, 的取值在0~1之間, 值越接近1,說明回歸方程對樣本數(shù)據(jù)點(diǎn)的擬合優(yōu)度越高。
1.2.1 Pearson簡單相關(guān)系數(shù)證明
利用SPSS 軟件將組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀和奶中尿素在不同濃度下與各色度的取值做相關(guān)性分析,可得到Pearson相關(guān)系數(shù)的值和顯著性水平p的值.本文以組胺為例。
表1 組胺相關(guān)性分析
由表1可知,組胺濃度與藍(lán)色數(shù)值的相關(guān)系數(shù)為-0.972,由于其顯著性值0.000小于給定的顯著性水平0.01,則拒絕兩總體無顯著關(guān)系的假設(shè).從相關(guān)系數(shù)可以看出,藍(lán)色數(shù)值與組胺濃度負(fù)相關(guān),相關(guān)程度為高度相關(guān),即一定程度上藍(lán)色數(shù)值越小,組胺濃度越大。
同理可知,綠色數(shù)值與組胺濃度負(fù)相關(guān)且高度相關(guān);紅色數(shù)值與組胺濃度負(fù)相關(guān)且高度相關(guān);色調(diào)數(shù)值與組胺濃度負(fù)相關(guān)且高度相關(guān);飽和度數(shù)值與組胺濃度正相關(guān)且高度相關(guān)。
通過計(jì)算可得組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀和奶中尿素與各顏色數(shù)值的相關(guān)系數(shù),如表2所示。
表2 各顏色數(shù)值的相關(guān)系數(shù)
表2是各種溶液顏色數(shù)值與濃度之間的相關(guān)系數(shù),可見溶液顏色與濃度之間相關(guān)度是比較高的。
1.2.2 可決系數(shù) 的擬合檢驗(yàn)
首先,利用SPSS 軟件繪制五種物質(zhì)濃度值與藍(lán)、綠、紅、色調(diào)、飽和度數(shù)值的散點(diǎn)圖,利用散點(diǎn)圖進(jìn)行線性擬合處理,得到各散點(diǎn)圖直線擬合的 值.本文以組胺為例,如圖1所示。
圖1 組胺各顏色數(shù)據(jù)散點(diǎn)及直線擬合圖
組胺濃度與藍(lán)色數(shù)值的R2=0.946>0.64;組胺濃度與綠色數(shù)值的R2=0.994>0.64。
組胺濃度與紅色數(shù)值的R2=0.876>0.64;組胺濃度與色調(diào)數(shù)值的R2=0.96>0.64。
組胺濃度與飽和度數(shù)值的R2=0.931>0.64。
將五個 求均值,均值為0.942 ,說明將組胺數(shù)據(jù)進(jìn)行線性擬合和時,擬合程度為94.2%,從而論證組胺的顏色讀數(shù)和物質(zhì)濃度之間相關(guān)性較高。
同理可得溴酸鉀、工業(yè)堿、硫酸鋁鉀和奶中尿素與各顏色數(shù)值的 值和均值,如表3所示。
表3 各物質(zhì)與各顏色值的相關(guān)系數(shù)
通過研究Pearson相關(guān)系數(shù)和可決系數(shù)和數(shù)量可得到如下準(zhǔn)則:
準(zhǔn)則一:Pearson 相關(guān)系數(shù)的絕對值越大,且能通過顯著性水平檢驗(yàn),數(shù)據(jù)越優(yōu);
準(zhǔn)則二:可決系數(shù) 數(shù)值越大,數(shù)據(jù)進(jìn)行線性擬合度越高,數(shù)據(jù)越優(yōu);
準(zhǔn)則三:數(shù)據(jù)量越大,即檢驗(yàn)次數(shù)越多,擬合度越準(zhǔn)確,數(shù)據(jù)越優(yōu)。
根據(jù)建立的數(shù)據(jù)評價原則,本文對五種數(shù)據(jù)分別進(jìn)行相關(guān)系數(shù)比較、可決系數(shù)比較、數(shù)據(jù)量比較,可得到三種排名.為了避開三種標(biāo)準(zhǔn)下的排名沖突,本文通過三類排名之和比較五組數(shù)據(jù)的優(yōu)劣.排名合計(jì)值越小,數(shù)據(jù)越優(yōu).具體情況如表4所示。
表4 評價原則排名合計(jì)
通過該表的排名名次求和,名次求和越小越好,所以可得組胺的數(shù)據(jù)最好,而五組數(shù)據(jù)從優(yōu)到劣的排序?yàn)榻M胺、溴酸鉀、硫酸鋁鉀、奶中尿素、工業(yè)堿。
2.1.1 多元線性回歸模型建立與求解
以紅色、綠色、藍(lán)色、飽和度、色調(diào)為自變量,物質(zhì)濃度為因變量,用SPSS軟件對其進(jìn)行回歸分析.首先,進(jìn)行五種顏色數(shù)值與濃度的線性回歸分析,依據(jù)多元線性回歸模型,建立本文線性線性回歸模型:
y=β0+β2r+β2g+β3b+β4s+β5h
經(jīng)過SPSS軟件分析,得出問題二的線性相關(guān)回歸模型為:
y=5063516-5.96r-26.2g+8.36b-9.905s-15.159h
利用線性回歸模型可以求解出檢查數(shù)據(jù)的濃度對應(yīng)的回歸計(jì)算濃度,如表5所示。
表5 多元線性回歸解得濃度值
回歸結(jié)果分析:
五種顏色數(shù)值共同作為自變量時R2為0.900,說明二氧化硫濃度有90%受這幾個顏色數(shù)值影響。
驗(yàn)證回歸式顯著性的F值是3.590,Sig.=0.38>0.05,顯著符號是“*”,則說明模型受誤差因素干擾太大,沒有通過檢驗(yàn),所以回歸效果不好。
2.1.2 多元非線性回歸模型建立與求解
由于多元線性回歸模型效果不好,所以建立多元非線性回歸模型:
y=w0+∑ni=1qixi+∑ni=1pix2i
注:w0為常數(shù)項(xiàng),q為一次變量系數(shù),pI為二次變量系數(shù),n為自變量數(shù)量。
本文二氧化硫的顏色數(shù)據(jù)為五維,結(jié)合多元非線性回歸模型建立五維的二氧化硫回歸分析模型:
y=β+β1r+β2r2+β3g+β4g2+β5b+β6b2+β7s+β8s2+β9h+β10h2
經(jīng)過SPSS軟件分析,得出二氧化硫多元非線性回歸方程為:
y=52494.39656+5.06846r-0.04568r2-33.51444g+0.18322g2+96.35998b-0.28502b2-864.77807s+3.14512s2+6.36228h-0.00901h2
利用二氧化硫非線性回歸方程可以求解出,檢驗(yàn)數(shù)據(jù)的濃度對應(yīng)的回歸計(jì)算濃度值,如表6所示。
表6 多元非線性回歸解得濃度值
從表6可以看出,多元非線性回歸模型求解的結(jié)果 ,比多元線性回歸模型的結(jié)果 大.因此,所建立的非線性回歸模型要優(yōu)于多元線性回歸模型,可以利用多元非線性回歸模型表示顏色讀數(shù)和物質(zhì)濃度的關(guān)系.
2.2.1 平均相對誤差模型的建立
一般來說,相對誤差更能反映理論值的可信程度.為了檢驗(yàn)上文中模型的可行性與可靠性,本文建立相對誤差分析模型:
αi=│Si-Li│Si×100% 由于題中所給出的數(shù)據(jù)中有多種濃度,所以本文取所有相對誤差的平均值作為模型的最終誤差,建立平均相對誤差模型如下:
2.2.2 平均相對誤差模型的求解
將多元線性和非線性回歸的計(jì)算數(shù)據(jù)帶入評價相對誤差模型,由于計(jì)算相對誤差時需要除實(shí)際數(shù)據(jù),而實(shí)際數(shù)中有濃度為0的數(shù)據(jù),所以對于濃度為0的數(shù)據(jù)只求平均誤差,進(jìn)行對比評價.結(jié)果如表7所示。
由表7可見當(dāng)濃度為0時,非線性回歸的誤差要小于線性回歸的誤差。
對于其他非0濃度數(shù)據(jù),可以利用評價相對誤差模型計(jì)算平均相對誤差,來評價模型優(yōu)劣,計(jì)算得出結(jié)果.多元線性和非線性回歸模型的平均相對誤差分別為34.6%和11%,可見多元非線性回歸模型效果較好。
表7 0濃度數(shù)據(jù)絕對誤差分析
本文對同種物質(zhì)的不同組濃度數(shù)值與顏色數(shù)值,用非線性回歸模型求解,通過對不同組物質(zhì)濃度的非線性回歸方程的可決系數(shù) 及所求得的平均相對誤差相比較,探索數(shù)據(jù)量對模型的影響。
本文將二氧化硫濃度分為三組,分別為六種二氧化硫濃度、五種二氧化硫濃度、四種二氧化硫濃度,具體分組見表8。
表8 數(shù)據(jù)量的選擇方案
利用問題二模型,用SPSS軟件分別求出六種濃度、五種濃度、四種濃度的非線性回歸方程及R2值,不同數(shù)據(jù)量和的SPSS輸出結(jié)果,各方程如下:
六種濃度的非線性回歸方程:
y=-26530.85338-301.1942r+1.04870r2-15.11929g+0.10741g2+11.49582b-0.04834b2+704.78935s-2.61041s2+4.16098h+0.1317h2
五種濃度的非線性回歸方程:
y=-57787.31738-144.88254r+0.50553r2-163.94082g+0.78356g2+8.99396b-0.02992b2+1103.95843s-4.05614s2+16.68831h-0.06937h2
四種的濃度非線性回歸方程:
y=-26530.85338-301.61942r+1.04870r2-15.11929g+0.10741g+11.49582b-0.04834b2+704.78935s-2.61041s2+4.16098h+0.01317h2
再用非線性回歸方程計(jì)算三組不同種濃度的數(shù)值對應(yīng)的理論濃度,并用Excel計(jì)算平均相對誤差.三種不同數(shù)據(jù)量情況下的誤差系數(shù)及R2值如表9所示。
表9 數(shù)據(jù)量對模型的影響
對結(jié)果進(jìn)行分析可得,隨著濃度種類的減少,即數(shù)據(jù)量減少, 值增大,模型的準(zhǔn)確性增高。但由于數(shù)據(jù)變少,沒有數(shù)據(jù)的濃度回歸模型計(jì)算所得結(jié)果與實(shí)際相差較大所以造成最后的平均相對誤差增大。
對同種物質(zhì)的不同顏色維度與物質(zhì)濃度,用非線性回歸模型求解,通過對不同顏色維度得出的非線性回歸方程的可決系數(shù) 及所求得的平均相對誤差相比較,探索顏色維度對模型的影響。
本文將顏色維度分為六維顏色維度、五維顏色維度、四維顏色維度、三維顏色維度,具體內(nèi)容見表10。
表10 維度的選擇方案
最后,用SPSS軟件得出四種維度下的非線性回歸方程及 值,不同維度的SPSS輸出結(jié)果,各方程如下:
三維顏色維度非線性回歸方程:
y=10770.64172-209.28194r+0.709332r2-38.11511g+0.17376g2+72.36017b-0.20102b2+5.60757g-0.02878h2
四維顏色維度非線性回歸方程:
y=52494.39656+5.06846r-0.04568r2-33.51444g+0.18322g2+96.35998b-0.28502b2-864.77807s+3.14512s2+6.36228h-0.00901h2
五維顏色維度非線性回歸方程:
y=54.286.55996-1880.64040r-0.92992r2-411.52973g-0.29355g2-685.60944b-0.09269b2-887.96192s+3.22375s2+5.08980h+0.00157h2+6848.44956l+1.14721l2
六維顏色維度非線性回歸方程:
用非線性回歸方程計(jì)算四種維度的各顏色數(shù)值對應(yīng)的理論濃度,再用Excel計(jì)算四種顏色維度的濃度的平均誤差系數(shù).最后分析四種不同維度下的誤差系數(shù),及判定系數(shù)R2,具體結(jié)果如表11所示。
對結(jié)果進(jìn)行分析可得,隨著顏色維度的增加模型的誤差系數(shù)減小, 值越大,模型的準(zhǔn)確性越高,但精度提高較少。
表11 不同維度對模型的影響