王增波等
摘要:在歸納數(shù)學(xué)建模競(jìng)賽歷年試題求解方法的基礎(chǔ)上,從數(shù)據(jù)分析、插值與擬合、數(shù)據(jù)仿真和回歸分析4個(gè)方面總結(jié)了數(shù)據(jù)處理方法和數(shù)學(xué)軟件在數(shù)據(jù)建模競(jìng)賽中的應(yīng)用,可為數(shù)學(xué)建模中合理選擇數(shù)據(jù)處理方法提供參考借鑒。
關(guān)鍵詞:數(shù)學(xué)建模; 數(shù)據(jù)處理; 數(shù)學(xué)軟件; Matlab; SPSS
DOIDOI:10.11907/rjdk.143753
中圖分類(lèi)號(hào):TP434
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2015)001020002
0 引言
數(shù)學(xué)建模通過(guò)數(shù)學(xué)語(yǔ)言對(duì)實(shí)際問(wèn)題進(jìn)行簡(jiǎn)化、抽象和描述,建立一個(gè)可以求解的數(shù)學(xué)模型,利用計(jì)算機(jī)軟件對(duì)該數(shù)學(xué)模型進(jìn)行分析和求解,并對(duì)求解出的結(jié)果進(jìn)行分析和檢驗(yàn),最終找到解決實(shí)際問(wèn)題的方案。在數(shù)學(xué)建模過(guò)程中,大量實(shí)驗(yàn)數(shù)據(jù)需要處理,需要利用計(jì)算機(jī)軟件來(lái)輔助快速整理和分析,這一過(guò)程即為數(shù)據(jù)建模中的數(shù)據(jù)處理。必須利用一定處理方法從實(shí)驗(yàn)數(shù)據(jù)中提煉出其內(nèi)在規(guī)律,甚至可以把表面上看起來(lái)毫無(wú)關(guān)聯(lián)的數(shù)據(jù)聯(lián)系在一起。
在模型建立初期,通過(guò)一定數(shù)據(jù)處理方法可以分析出問(wèn)題所描述的模型變量之間的關(guān)系,形成初步計(jì)劃。部分模型可以利用統(tǒng)計(jì)方法從大量的實(shí)驗(yàn)數(shù)據(jù)中直接建立,例如回歸分析法和時(shí)序分析法等。實(shí)際建模中,亦可直接利用實(shí)驗(yàn)數(shù)據(jù)估計(jì)出模型參數(shù)值,或利用數(shù)據(jù)進(jìn)行模型檢驗(yàn),用所建立模型計(jì)算理論值與實(shí)際數(shù)據(jù)之間的誤差。數(shù)據(jù)處理是建模的關(guān)鍵,直接影響數(shù)學(xué)建模的效率和結(jié)果。本文著重介紹常用數(shù)據(jù)處理方法及數(shù)學(xué)軟件在數(shù)學(xué)建模競(jìng)賽中的具體應(yīng)用。
1 數(shù)據(jù)分析
一般來(lái)說(shuō),數(shù)據(jù)建模收集和提供的原始數(shù)據(jù)絕大多數(shù)都是以Excel文件的形式保存,Excel軟件具有數(shù)據(jù)排序、篩選、有效性、分類(lèi)匯總、內(nèi)部函數(shù)計(jì)算等諸多功能,可用來(lái)對(duì)數(shù)據(jù)進(jìn)行初步處理,如按關(guān)鍵字排序、按值或范圍篩選數(shù)據(jù),按類(lèi)匯總,計(jì)算最大值、最小值、頻數(shù)、方差等,還可以利用其強(qiáng)大的繪圖功能繪制散點(diǎn)圖、曲線圖、直方圖,對(duì)數(shù)據(jù)的發(fā)展趨勢(shì)進(jìn)行觀察分析。
2 插值與擬合方法
在建模競(jìng)賽中進(jìn)行數(shù)據(jù)處理時(shí)經(jīng)常會(huì)用到數(shù)據(jù)插值和數(shù)據(jù)擬合方法。如1998年美國(guó)賽A題中的生物組織切片用到三維插值方法;1994年國(guó)賽A題在計(jì)算山體海拔高度時(shí)也用到了數(shù)據(jù)插值方法;2001年國(guó)賽中血管三維重建問(wèn)題用到了數(shù)據(jù)插值和數(shù)據(jù)擬合方法;2003年國(guó)賽“非典”問(wèn)題用到數(shù)據(jù)擬合方法觀察數(shù)據(jù)走向并進(jìn)行處理;2004年國(guó)賽飲酒駕車(chē)也是一個(gè)擬合問(wèn)題;2005年國(guó)賽雨量預(yù)報(bào)的評(píng)價(jià)用到了插值計(jì)算;2006年國(guó)賽B題艾滋病療法的評(píng)價(jià)及療效的預(yù)測(cè)問(wèn)題也用到了數(shù)據(jù)擬合方法;2011年國(guó)賽中的城市表層土壤重金屬污染問(wèn)題也用到插值與擬合方法。
擬合問(wèn)題通過(guò)實(shí)驗(yàn)數(shù)據(jù)確定某已知函數(shù)的參數(shù)或?qū)で竽硞€(gè)近似函數(shù),使所得到的近似函數(shù)與已知數(shù)據(jù)有較高的擬合度。如果在確認(rèn)數(shù)據(jù)有誤差的前提下不要求近似函數(shù)通過(guò)所有的數(shù)據(jù)點(diǎn),只要求得出一定程度上反映數(shù)據(jù)變化規(guī)律的近似函數(shù)即稱為數(shù)據(jù)擬合。數(shù)據(jù)插值是根據(jù)已知數(shù)據(jù)點(diǎn)的實(shí)驗(yàn)數(shù)據(jù)按照某種插值方法確定未知數(shù)據(jù)點(diǎn)的數(shù)據(jù)。
(1)數(shù)據(jù)插值。當(dāng)受實(shí)驗(yàn)條件限制以及實(shí)驗(yàn)數(shù)據(jù)量不足,且已有數(shù)據(jù)可信時(shí),通常利用函數(shù)插值方法可插值出兩數(shù)據(jù)點(diǎn)之間的一系列數(shù)據(jù)點(diǎn),所繪制的數(shù)據(jù)曲線會(huì)嚴(yán)格地經(jīng)過(guò)每一個(gè)實(shí)驗(yàn)數(shù)據(jù)點(diǎn)。所選用插值函數(shù)的類(lèi)型不同,逼近的效果和光滑程度也有所不同。常用的插值方法有: lagrange插值、分段線性插值、Hermite插值和三次樣插值等,這些插值都是分段插值。Matlab中提供的功能函數(shù)可實(shí)現(xiàn)分段插值而不需要編制函數(shù)程序,如:interp1(一維插值)、interp2(二維)、interp3(三維)、intern(n維) ,其中一維和二維插值用得最多。一維插值函數(shù)的格式為:yi=interp1(x,y,xi,'method'),其中(x,y)為插值節(jié)點(diǎn),xi為被插值點(diǎn),yi為在xi處的插值結(jié)果,默認(rèn)情況下插值方法為分段線性插值,nearest為最鄰近插值,linear為線性插值,spline為三次樣條插值,cubic為立方插值。值得注意的是,所有插值方法中要求x必須是單調(diào)的,并且xi不能超過(guò)x的取值范圍。二維插值函數(shù)的格式為:z=interp2(x0,y0,z0,x,y,method)。
(2)數(shù)據(jù)擬合。對(duì)于較復(fù)雜的問(wèn)題,可以直接使用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行建模,找出因果變量之間的數(shù)量關(guān)系,從而對(duì)未知情形進(jìn)行預(yù)測(cè),所組建的模型稱為擬合模型。通過(guò)擬合模型主要將實(shí)驗(yàn)數(shù)據(jù)誤差控制在一定范圍內(nèi),使用數(shù)學(xué)表達(dá)式從數(shù)量上近似表達(dá)因果變量之間的關(guān)系。組建擬合模型需要通過(guò)對(duì)有關(guān)變量的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行觀察、分析,選擇恰當(dāng)?shù)臄M合函數(shù)。擬合模型大致可分為線性擬合、多項(xiàng)式擬合和曲線擬合。在Matlab中可通過(guò)函數(shù)polyval()和lsqcurvefit()來(lái)實(shí)現(xiàn),在spss中通過(guò)菜單和對(duì)話框操作可同時(shí)選用多種模型實(shí)現(xiàn)擬合度對(duì)比。為確定合適擬合模型,一般先做散點(diǎn)圖觀察數(shù)據(jù)的分布情況再確定模型的選取。
3 數(shù)據(jù)仿真
數(shù)學(xué)建模中離不開(kāi)計(jì)算機(jī)仿真,其中隨機(jī)性模擬是常用算法之一。數(shù)學(xué)建模中的數(shù)據(jù)仿真主要有數(shù)學(xué)仿真和計(jì)算機(jī)仿真。數(shù)學(xué)仿真以數(shù)學(xué)方程式為基礎(chǔ),在一定假設(shè)條件下用數(shù)學(xué)式來(lái)模擬被仿真對(duì)象。利用計(jì)算機(jī)對(duì)系統(tǒng)的數(shù)學(xué)模型進(jìn)行試驗(yàn),稱計(jì)算機(jī)仿真。通過(guò)計(jì)算機(jī)仿真方法可改變被仿真系統(tǒng)的結(jié)構(gòu)和參數(shù),方便實(shí)現(xiàn)對(duì)模型的分析。計(jì)算機(jī)仿真方法中蒙特卡羅算法較常用,該算法又稱隨機(jī)性模擬算法。
首先利用隨機(jī)函數(shù)對(duì)所研究的實(shí)際問(wèn)題生成隨機(jī)抽樣產(chǎn)生樣本,再對(duì)樣本值進(jìn)行觀察、統(tǒng)計(jì)分析,最后求出所研究問(wèn)題的參數(shù)。例如全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽1997年A 題“零件參數(shù)設(shè)計(jì)”問(wèn)題,題目中每個(gè)零件都有不同的標(biāo)定值和容差等級(jí),要求解零件的最優(yōu)組合方案。如利用一個(gè)復(fù)雜的公式,從108 種容差中選取方案,得到問(wèn)題的解非常困難,只能通過(guò)計(jì)算機(jī)仿真方法求解。其中的一種方法就是通過(guò)隨機(jī)性模擬搜索最優(yōu)方案,在每個(gè)零件的可行區(qū)間按照正態(tài)分布隨機(jī)選取一個(gè)標(biāo)定值和一個(gè)容差值,通過(guò)蒙特卡羅算法仿真出大量的方案,并從中選取一個(gè)最佳方案。
4 回歸分析
回歸分析在數(shù)學(xué)建模競(jìng)賽中用得較多,例如國(guó)賽2005年A題“長(zhǎng)江水質(zhì)的評(píng)價(jià)和預(yù)測(cè)”、2006年的“Hiv病毒問(wèn)題”、2008年的“大學(xué)學(xué)費(fèi)問(wèn)題”和2011年A題“城市表層土壤重金屬污染分析”中都用到回歸分析?;貧w分析是研究一個(gè)因變量與一個(gè)或多個(gè)自變量之間線性或非線性關(guān)系的一種統(tǒng)計(jì)分析方法?;貧w分析通過(guò)規(guī)定因變量和自變量來(lái)確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實(shí)測(cè)數(shù)據(jù)來(lái)估計(jì)模型各參數(shù),然后評(píng)價(jià)回歸模型能否很好地?cái)M合實(shí)測(cè)數(shù)據(jù),并根據(jù)自變量作進(jìn)一步預(yù)測(cè)。
回歸分析方法理論基礎(chǔ)成熟,它根據(jù)采樣數(shù)據(jù)來(lái)確定變量與變量之間的定量關(guān)系,反映出統(tǒng)計(jì)變量之間的數(shù)據(jù)變化規(guī)律,并建立出變量間定量關(guān)系的數(shù)學(xué)模型,進(jìn)行數(shù)據(jù)變化趨勢(shì)預(yù)測(cè)。它是一種準(zhǔn)確把握自變量對(duì)因變量的影響方向和影響程度的有效方法,在經(jīng)濟(jì)、金融、醫(yī)學(xué)、自然科學(xué)和社會(huì)科學(xué)等領(lǐng)域有廣泛應(yīng)用,在數(shù)據(jù)建模競(jìng)賽中也常用到?;貧w分析主要有線性回歸、曲線回歸、Logistic回歸、非線性回歸等??梢宰骰貧w分析的軟件有Excel、Matlab、SPSS、Eviews、Sas、Systat等,其中使用得最多且最容易掌握的軟件當(dāng)屬SPSS。
5 結(jié)語(yǔ)
數(shù)據(jù)處理在數(shù)學(xué)建模競(jìng)賽中發(fā)揮非常關(guān)鍵的作用,合理選擇數(shù)據(jù)處理方法能提高數(shù)據(jù)分析的準(zhǔn)確性。借助相關(guān)數(shù)學(xué)軟件實(shí)施數(shù)據(jù)處理可大大提高數(shù)學(xué)建模效率。
參考文獻(xiàn):
[1] 王庚,王敏生.現(xiàn)代數(shù)學(xué)建模方法[M].北京:科學(xué)出版社,2006.
[2] 姜啟源,謝金星,葉俊.數(shù)學(xué)模型[M].第三版.北京:高等教育出版社,2003.
[3] 陳勝可. SPSS統(tǒng)計(jì)分析從入門(mén)到精通 [M].第二版.北京:清華大學(xué)出版社,2013.
[4] 胡良劍,孫曉君. MATLAB數(shù)學(xué)實(shí)驗(yàn)[M].北京:高等教育出版社,2006.