趙金榮
模型就是一個(gè)物體或一個(gè)過(guò)程的表示.例如,一個(gè)玩具法拉利就是一輛實(shí)際法拉利汽車的模型;一公路地圖就是一個(gè)城市中道路的模型.數(shù)學(xué)模型指的是一個(gè)物體或過(guò)程的數(shù)學(xué)表達(dá)式(通常是一個(gè)等式).一旦得到一個(gè)數(shù)學(xué)模型,就能夠使用這個(gè)模型得到與被建模的事物有關(guān)的有用的信息,或者對(duì)此作出預(yù)測(cè).在本文中,我們要探索不同的數(shù)學(xué)方法,用來(lái)對(duì)真實(shí)的現(xiàn)象建立數(shù)學(xué)模型,從而可以使用這些數(shù)學(xué)模型解決實(shí)際問(wèn)題.
1 與數(shù)據(jù)最佳匹配的直線
使用線性方程對(duì)某些變量之間的變化關(guān)系能夠進(jìn)行建模.而這些變量之間的相依關(guān)系是對(duì)收集的數(shù)據(jù)進(jìn)行分析的過(guò)程中發(fā)現(xiàn)的.但是真實(shí)現(xiàn)象的數(shù)據(jù)很少都落在一條精確的直線上.在本文中,我們要討論一種得到與數(shù)據(jù)最佳匹配直線的方法.
表1給出了年到年期間全美國(guó)范圍內(nèi)的嬰兒早亡率.速率指的是個(gè)新生兒中,在到達(dá)一歲生日前去世的嬰兒的數(shù)量.
圖1給出的散點(diǎn)圖說(shuō)明這些數(shù)據(jù)粗略地落在一條直線上.我們可以從直觀上用一條直線近似表示這些數(shù)據(jù)點(diǎn),但是,這些數(shù)據(jù)不是嚴(yán)格線性的,所以似乎有很多直線都能夠與這些數(shù)據(jù)匹配.但經(jīng)過(guò)觀察可以發(fā)現(xiàn),在所有經(jīng)過(guò)這些數(shù)據(jù)點(diǎn)的直線中,有一條與這些數(shù)據(jù)是“最佳”匹配的,也就是說(shuō),這條直線可以為這些數(shù)據(jù)提供最精確的線性函數(shù)模型.現(xiàn)在我們看一下如何找到這條直線.
最佳匹配直線與所有的數(shù)據(jù)點(diǎn)盡可能地接近看起來(lái)是合理的.也就是說(shuō)最佳匹配直線是與數(shù)據(jù)點(diǎn)的豎直距離之和盡可能小的直線.從技術(shù)上考慮,最佳匹配直線是這些距離的平方和最小的直線.這樣的直線叫做回歸直線.回歸直線的公式是使用微積分得到的,但幸運(yùn)地是,這個(gè)公式編入了大多數(shù)的繪圖計(jì)算器的程序中.在例題1中,我們會(huì)看到如何使用TI-83計(jì)算器求出前面描述的嬰兒早亡率的回歸直線.
2 回歸分析例證
線性模型模擬給出的數(shù)據(jù)真的恰當(dāng)嗎? 其他類型函數(shù)也能夠用來(lái)研究具有同樣分布規(guī)律的數(shù)據(jù),但使用回歸模型在解決實(shí)際問(wèn)題中還是有一定的用途的,比如線性回歸可以用在醫(yī)學(xué)研究中,用來(lái)探索某種疾病的潛在致病因素,比如說(shuō)癌癥.
例題 聯(lián)系石棉和癌癥之間關(guān)系的回歸直線 當(dāng)實(shí)驗(yàn)室中的老鼠暴露在石棉纖維中時(shí),有些老鼠會(huì)發(fā)生肺癌.表格列出了不同科學(xué)家進(jìn)行試驗(yàn)的幾個(gè)試驗(yàn)結(jié)果.(a) 求出這些數(shù)據(jù)的回歸直線.(b) 繪制出數(shù)據(jù)的散點(diǎn)圖和繪制直線.根據(jù)圖像,判斷得到的回歸直線是這些數(shù)據(jù)恰當(dāng)?shù)哪P蛦??(c) 這條回歸直線的截距代表什么?
解 (a) 使用繪圖計(jì)算器,得到下面的回歸直線:
(b)數(shù)據(jù)的散點(diǎn)圖和回歸直線的圖像見圖3(b).根據(jù)得到的回歸直線的圖像,可以看出,這條回歸直線是給定數(shù)據(jù)的一個(gè)合理的模型.
(c) 這條回歸直線的截距是在沒(méi)有石棉纖維存在的情況下生成肺癌的老鼠所占的百分比.換句話就是,這是正常情況下肺癌發(fā)病的百分比(石棉以外的其他因素導(dǎo)致的肺癌).
3 匹配的有多好? 相關(guān)系數(shù)
對(duì)于任意給定的雙變量數(shù)據(jù)的集合,即使這些數(shù)據(jù)點(diǎn)從圖像上看起來(lái)沒(méi)有位于同一直線上,又或者即使這些數(shù)據(jù)點(diǎn)看起來(lái)根本毫無(wú)聯(lián)系,通常情況下也總能找到一條回歸直線.
繪圖計(jì)算器能給我們提供每一個(gè)散點(diǎn)圖的回歸直線.但是這些直線能夠多好地表示(或“匹配”)這些數(shù)據(jù)集呢?要回答這個(gè)問(wèn)題,統(tǒng)計(jì)學(xué)家們發(fā)明了相關(guān)系數(shù)一詞,一般用標(biāo)識(shí).相關(guān)系數(shù)是指位于和之間的一個(gè)數(shù),用來(lái)量度數(shù)據(jù)與回歸直線有多接近—或者,換句話說(shuō),變量是如何關(guān)聯(lián)在一起的.很多的繪圖計(jì)算器在計(jì)算回歸直線時(shí)會(huì)給出的值.如果與或接近,那么這些變量緊密相聯(lián)系—也就是,散點(diǎn)圖與回歸直線非常接近.如果接近,那么變量的相互關(guān)聯(lián)性就很弱或者根本毫無(wú)聯(lián)系.(的符號(hào)由回歸直線的斜率決定.)
不存在嚴(yán)格和快速的法則用來(lái)判斷哪些值足以決定線性相關(guān)是“顯著的”.相關(guān)系數(shù)是唯一可以用來(lái)幫助我們判斷得到的回歸直線與數(shù)據(jù)的匹配程度是否可靠.例題1中,相關(guān)系數(shù)是,說(shuō)明相關(guān)程度非常高,所以我們可以很有信心地說(shuō)從年至年期間的兒童早亡率具有很強(qiáng)的直線性.(值是負(fù)值,原因是兒童早亡率在這段時(shí)間內(nèi)呈下降趨勢(shì).)在例題中,相關(guān)系數(shù)是,也說(shuō)明了變量之間具有很強(qiáng)的相關(guān)性.所以在石棉中的暴露程度很明顯與老鼠中肺癌發(fā)生相關(guān).這是否就意味著石棉導(dǎo)致了肺癌的產(chǎn)生?
如果兩個(gè)變量相關(guān),也不意味著一個(gè)量的變化一定能夠引起另一個(gè)量的改變.例如,數(shù)學(xué)家John Allen Paulos指出鞋子的大小與在校兒童中的數(shù)學(xué)成績(jī)相關(guān).這是否意味著大腳的兒童的數(shù)學(xué)成績(jī)就高呢?當(dāng)然不是—鞋子大小和數(shù)學(xué)技能隨著兒童年齡的增加分別單獨(dú)地在增大.所以,不匆忙得出結(jié)論是非常重要的:相關(guān)和因果關(guān)系不是一回事.相關(guān)是得到因果效應(yīng)關(guān)系的一有用的工具;但是,要證明因果關(guān)系,必須要解釋一個(gè)變量影響另一個(gè)變量的機(jī)制.例如,吸煙和肺癌之間的關(guān)聯(lián)經(jīng)過(guò)觀察是相關(guān)的,這個(gè)結(jié)論早在科學(xué)發(fā)現(xiàn)吸煙導(dǎo)致肺癌的機(jī)制之前就有了.
參考文獻(xiàn)
[1]Precalculus.Mathematics for Calculus,.James. Stewart,.Lother.Redlin,Saleem.Watson,6ed. Brooker,.2012 P129-139endprint