亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        回歸分析的內(nèi)涵與教學(xué)探究

        2021-09-11 10:17:22湯向明
        數(shù)學(xué)通報(bào) 2021年7期
        關(guān)鍵詞:縱坐標(biāo)平方和方差

        湯向明 金 蛟

        (1.泉州市教育科學(xué)研究所 362000;2. 北京師范大學(xué)統(tǒng)計(jì)學(xué)院 100875)

        現(xiàn)實(shí)生活中,很多變量間存在著一定的關(guān)系,描述變量間關(guān)系的線性回歸模型有著廣泛的應(yīng)用.現(xiàn)行高中教材中包含有相關(guān)和線性回歸的內(nèi)容,本文以案例教學(xué)的方式分析回歸的內(nèi)涵并對(duì)關(guān)鍵問題進(jìn)行探究,供高中教師教學(xué)參考.

        1 相關(guān)

        案例1 身高和臂展

        根據(jù)直觀經(jīng)驗(yàn),我們普遍認(rèn)識(shí)到,人的身高和臂展相近.我們收集1024名同學(xué)的身高和臂展數(shù)據(jù)(不同群體身高和臂展數(shù)據(jù)特點(diǎn)不盡相同,本文采用模擬數(shù)據(jù),各授課教師可收集教學(xué)班級(jí)的數(shù)據(jù),提升學(xué)生參與度和授課效果),部分?jǐn)?shù)據(jù)如表1所示.

        表1

        從數(shù)據(jù)中能看出身高和臂展確實(shí)非常接近.但我們也會(huì)遇到如下情形:某籃球運(yùn)動(dòng)員身高226cm,但臂展只有220cm.又比如《三國演義》小說中描寫的人物劉備,身高7尺5寸,雙耳垂肩,雙臂過膝. 身高7尺5寸相當(dāng)于現(xiàn)在的173cm,劉備的臂展相對(duì)于他的身高遠(yuǎn)遠(yuǎn)偏長(zhǎng).

        如果身高、臂展數(shù)據(jù)的散點(diǎn)圖中所有點(diǎn)(為了直觀,取20點(diǎn)展示)在一條線上(圖1左),這就是數(shù)學(xué)上確定的函數(shù)關(guān)系.而實(shí)際收集數(shù)據(jù)(為了直觀,取20名同學(xué))繪制的散點(diǎn)圖如圖1右,這些點(diǎn)不嚴(yán)格在線上,而是在線附近,這種變量間有影響,又沒達(dá)到確定程度的關(guān)系就是統(tǒng)計(jì)上的相關(guān)關(guān)系.

        圖1

        相關(guān)關(guān)系的度量方式有多種,英國生物學(xué)家、統(tǒng)計(jì)學(xué)家Pearson定義了線性相關(guān)系數(shù):

        模擬具有不同相關(guān)系數(shù)的數(shù)據(jù)繪制散點(diǎn)圖如圖2:

        圖2

        由相關(guān)系數(shù)定義和圖2可見,相關(guān)系數(shù)的取值范圍在-1到1之間.相關(guān)系數(shù)為負(fù)時(shí),隨著一個(gè)變量的增加,另一變量有著相反的降低趨勢(shì);相關(guān)系數(shù)為正時(shí),兩個(gè)變量之間有著同增同減的相同趨勢(shì);相關(guān)系數(shù)為0時(shí),兩個(gè)變量間沒有線性關(guān)系;隨著相關(guān)系數(shù)絕對(duì)值的增加,兩個(gè)變量間的相關(guān)關(guān)系增強(qiáng),如果等于1,就嚴(yán)格在一條線上.

        探究1 相關(guān)與線性相關(guān)

        兩個(gè)變量間相關(guān)關(guān)系的度量方式除了Pearson線性相關(guān)系數(shù),還有Spearman秩相關(guān)系數(shù)、Kendall等級(jí)相關(guān)系數(shù)等(可作為延伸探討).取數(shù)據(jù)如表2,變量x和y的Pearson線性相關(guān)系數(shù)為0.928,而x和y的Spearman秩相關(guān)系數(shù)和Kendall等級(jí)相關(guān)系數(shù)都為1.可見,常用的Pearson線性相關(guān)系數(shù)r僅度量?jī)蓚€(gè)變量的線性相關(guān)程度.

        表2

        2 回歸

        案例1續(xù)

        將數(shù)據(jù)繪成散點(diǎn)圖(如圖3),看出身高和臂展很接近,計(jì)算得相關(guān)系數(shù)為0.94,說明二者的相關(guān)關(guān)系非常強(qiáng).學(xué)生們都經(jīng)歷過入學(xué)體檢,所以學(xué)生一般都知道自己的身高、體重的最新數(shù)據(jù),但知道自己的臂展是多少嗎?

        假定學(xué)生們的身高、臂展數(shù)據(jù)規(guī)律和案例1的數(shù)據(jù)一致,我們提出問題:已經(jīng)知道學(xué)生的身高,能否估計(jì)出其臂展?進(jìn)一步明確問題:假如學(xué)生的身高為180cm,我們可否基于數(shù)據(jù)提供的趨勢(shì)信息,估計(jì)出臂展.這就引出回歸.

        圖3

        回歸方法應(yīng)用非常廣泛,例如可通過容易測(cè)量的樹的胸徑估計(jì)不容易測(cè)量的樹的高度;通過容易測(cè)量的氣壓估計(jì)不容易測(cè)量的海拔高度等等.

        要講兩個(gè)變量的回歸,先回顧單個(gè)變量的分析方法.比如要研究某學(xué)校的全體同學(xué)身高的分布規(guī)律,我們抽取部分同學(xué)的身高數(shù)據(jù)(案例1的身高)作為樣本,繪制了直方圖、箱線圖,即使推測(cè)數(shù)據(jù)可能來自的總體分布其密度函數(shù)有著單峰、對(duì)稱、鐘型曲線特點(diǎn),但仍無法確定其分布是否為正態(tài)分布(因還有其他對(duì)稱分布,例如t分布等).也就是說嚴(yán)格確定分布是困難的,我們退而求其次,考慮期望、方差等數(shù)字特征來描述總體分布特征.

        圖4

        處理兩個(gè)變量的相關(guān)關(guān)系,可以用回歸分析方法.

        案例2 父子身高數(shù)據(jù)

        英國科學(xué)家高爾頓研究遺傳差異時(shí),收集了1078對(duì)成年父子身高的數(shù)據(jù),這個(gè)研究非常經(jīng)典,是回歸分析的起源.

        圖5

        圖5左圖橫坐標(biāo)為父親身高,縱坐標(biāo)為兒子身高.注意到身高是72英寸時(shí),相當(dāng)于183cm的父代,他們的子代身高是有變化的一些數(shù)據(jù).同樣,身高是64英寸,相當(dāng)于163cm的父代,他們的子代身高也是一些不同的數(shù)據(jù).之所以是帶狀區(qū)域,是因?yàn)橛兴纳嵛迦氲挠绊?所以兩變量的研究就聚焦到給定一個(gè)變量后,另一個(gè)變量的條件分布(如父親身高為72英寸的子代的身高分布)問題,與一維數(shù)據(jù)分析類似:分布難以確定,就研究期望、方差等數(shù)字特征;條件分布同樣難以確定,我們就退而求其次,研究條件期望和條件方差這些數(shù)字特征.

        圖5右上圖可以幫助理解回歸模型,坐標(biāo)橫軸為父親身高,縱坐標(biāo)為兒子身高,當(dāng)父代身高為72英寸時(shí),子代的條件分布有單峰對(duì)稱輪廓線,同樣當(dāng)父代身高為64英寸時(shí),子代的條件分布有單峰對(duì)稱輪廓線.回歸模型假定:條件期望(不同輪廓線的對(duì)稱中心)是x的線性函數(shù),就是條件期望成線性.不同輪廓線的形狀相同,與x取值無關(guān),就是條件方差等方差.圖5右下圖展示了不等方差情形,即異方差回歸模型(可作為回歸分析深入學(xué)習(xí)的延伸探討).一般講解的回歸模型可按圖5右上圖理解.

        下面給出回歸模型的總體形式:

        ·均值函數(shù):E(Y|X=x)=β0+β1x.

        ·方差函數(shù):Var(Y|X=x)=σ2.

        就是條件期望成線性,條件方差等方差.待估參數(shù)為回歸參數(shù)β0和β1,及誤差方差σ2.

        更為大家熟悉的是回歸模型的樣本形式:

        xi,yi為第i個(gè)觀測(cè)數(shù)據(jù),β0+β1xi為回歸直線,數(shù)據(jù)點(diǎn)不嚴(yán)格在線上,這個(gè)擾動(dòng)用模型誤差ei來表達(dá),模型的具體限定條件分別為誤差項(xiàng)期望為0、等方差、不相關(guān),也就是有名的高斯-馬爾可夫條件.

        探究2 回歸名稱的由來

        這個(gè)模型為什么叫回歸模型呢?英國科學(xué)家高爾頓研究遺傳問題時(shí)收集了1078對(duì)成年父子身高數(shù)據(jù),分析發(fā)現(xiàn):平均意義下,身高偏高的父親,兒子的身高也偏高,但沒有父親那么高.同樣,平均意義下,身高偏低的父親,兒子的身高也偏低,但沒有父親那么低.

        圖6 圖片來自文獻(xiàn)[2]

        通過圖片展示能得到什么結(jié)論嗎?高爾頓得出結(jié)論:子代的身高有向族群平均身高“回歸”的趨勢(shì).他把分析方法稱為回歸分析方法,回歸這個(gè)詞就一直沿用至今了.

        3 估計(jì)

        我們主要關(guān)注回歸參數(shù)β0和β1的估計(jì)問題.目前手中掌握了數(shù)據(jù),假定了回歸模型.β0和β1取不同的估計(jì)值,就是擬合了不同的直線,如何選擇估計(jì)值,等價(jià)于如何選擇最優(yōu)的擬合直線.

        我們給出直觀解釋:為展示方便,忽略掉橫縱坐標(biāo)的實(shí)際含義,繪制了散點(diǎn)圖如圖7.

        圖7

        參數(shù)估計(jì)問題直觀上看就是最優(yōu)擬合直線的選擇問題, 圖7繪制了兩條直線,一條實(shí)線,一條虛線,哪一條的擬合效果更好?大部分學(xué)生會(huì)覺得實(shí)線更好,因?yàn)橐曈X上我們會(huì)主觀判斷這條線更好地?cái)M合了數(shù)據(jù)點(diǎn),也就是所有這些點(diǎn)和這條線更接近.那么引出一個(gè)問題:如何度量點(diǎn)到線的接近程度?

        把直線記作y=β0+β1xi,先描述一個(gè)點(diǎn)到線的接近程度,這點(diǎn)橫坐標(biāo)取為xi縱坐標(biāo)為yi,在直線上選擇xi對(duì)應(yīng)的點(diǎn),縱坐標(biāo)為β0+β1xi,二者之間的差異,稱作殘差,記為ri.如果這個(gè)點(diǎn)在直線的下方,那么殘差符號(hào)為負(fù).

        圖8

        圖9

        定義了回歸模型并給出直觀理解后,我們可以給出參數(shù)的最小二乘估計(jì)方法,殘差平方和可以具體寫為參數(shù)β0和β1的函數(shù):

        使得殘差平方和達(dá)到最小值的自變量的取值就是參數(shù)的最小二乘估計(jì).

        明確了估計(jì)方法,那么最小二乘的具體表達(dá)就容易得到.本質(zhì)上就是一個(gè)優(yōu)化問題,具體而言,就是求函數(shù)的極值點(diǎn).結(jié)果為:

        其中

        探究3 為什么是最小二乘

        需要說明的是回歸分析中參數(shù)估計(jì)方法有多種,最小二乘法只是我們介紹的一種常用估計(jì)方法.

        探究4 為什么是縱向的差異

        圖10

        對(duì)于點(diǎn)(xi,yi),在直線上選擇xi對(duì)應(yīng)的點(diǎn),縱坐標(biāo)為β0+β1xi,二者之間的差異,稱作殘差,記為:

        ri=yi-β0-β1xi.

        為什么不是如圖10所示的點(diǎn)到直線的垂直距離?這是因?yàn)榛貧w模型假定解釋變量x是精確值,沒有測(cè)量誤差.

        如果有測(cè)量誤差存在,可以采用測(cè)量誤差模型:

        這時(shí)觀測(cè)數(shù)據(jù)為(wi,yi),可基于垂直距離,使用正交回歸方法.這可作為回歸分析深入學(xué)習(xí)的延伸探討.

        4 預(yù)測(cè)

        最后再回到案例1的問題,使用計(jì)算機(jī)軟件(如Excel等,本文使用R語言)得到回歸參數(shù)的估計(jì)值.進(jìn)一步可以得到擬合的回歸直線,這里我們稱為經(jīng)驗(yàn)回歸方程.它就是圖11的散點(diǎn)圖中的直線,它描述了數(shù)據(jù)的線性趨勢(shì).

        圖11

        5 效果

        如何衡量回歸模型的擬合效果?殘差平方和是個(gè)不錯(cuò)的選擇,殘差平方和越小表明回歸直線和所有點(diǎn)越接近,擬合效果越好.但殘差平方和與數(shù)據(jù)的單位有關(guān),比如把身高數(shù)據(jù)的單位由厘米改為米,那同樣的數(shù)據(jù),殘差平方和就會(huì)縮小10000倍.人們常用另外一種指標(biāo):

        探究5 解釋變量和響應(yīng)變量互換會(huì)怎樣

        模型中的x稱作解釋變量,或自變量;y稱作響應(yīng)變量,或因變量.解釋變量和響應(yīng)變量互換后使用最小二乘法得到的結(jié)果不同,即兩個(gè)經(jīng)驗(yàn)回歸方程不同.這是因?yàn)樽钚《朔俣ń忉屪兞繘]有測(cè)量誤差,只考慮響應(yīng)變量(因變量)方向的殘差變化.

        另需說明,回歸分析雖然是處理變量間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,但在實(shí)際使用中,常??紤]解釋變量對(duì)響應(yīng)變量一定意義下的影響作用(所以解釋變量也稱作自變量、響應(yīng)變量也稱作因變量).在應(yīng)用回歸模型進(jìn)行實(shí)際數(shù)據(jù)分析時(shí),哪些變量作為解釋變量,什么變量作為響應(yīng)變量,是需要結(jié)合專業(yè)知識(shí)謹(jǐn)慎選擇的.

        6 總結(jié)

        本文結(jié)合案例,旨在為中學(xué)師生教授、學(xué)習(xí)回歸分析提供幫助,最后給出本文總結(jié):一個(gè)變量:推分布,過猶不及.對(duì)單變量的分析,我們想知道它的統(tǒng)計(jì)分布,但精確分布難以確定,就退而研究期望、方差.兩個(gè)變量:用回歸,中庸之道.處理兩個(gè)變量的相關(guān)關(guān)系,我們想知道它的條件分布,同樣關(guān)注數(shù)字特征,具體描述為條件期望成線性,條件方差等方差,就是線性回歸模型.最小二乘:做擬合,眾志成城.我們給出參數(shù)的最小二乘估計(jì)方法,是使得所有點(diǎn)的殘差平方和最小的參數(shù)取值.統(tǒng)計(jì)結(jié)論:看效果,衡短論長(zhǎng).參數(shù)估計(jì)還有最小一乘等其他參數(shù)估計(jì)方法,同樣的數(shù)據(jù),采用不同方法,會(huì)得到不同的結(jié)論,我們要制定標(biāo)準(zhǔn),比較擬合效果,最終找到更好的統(tǒng)計(jì)方法.

        另外還有一些探究問題,如為什么采用條件期望?為什么不考慮條件中位數(shù)或其他條件分位數(shù)?什么是線性?等等,可留待高等教育階段學(xué)習(xí)時(shí)深入探究.

        猜你喜歡
        縱坐標(biāo)平方和方差
        方差怎么算
        變化的“魚”
        更正
        勘 誤
        概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
        計(jì)算方差用哪個(gè)公式
        費(fèi)馬—?dú)W拉兩平方和定理
        利用平方和方法證明不等式賽題
        方差生活秀
        勾股定理的擴(kuò)展
        欧美成人猛交69| 最新国产一区二区三区| 国产91会所女技师在线观看| 初尝人妻少妇中文字幕| 精品一区二区久久久久久久网站| 亚洲天天综合色制服丝袜在线| 白白色发布视频在线播放| 国产精品国产三级国产aⅴ下载| 在线观看免费人成视频色9| 亚洲 日韩 在线精品| 白色月光免费观看完整版| 久久国产劲爆∧v内射-百度| 天天摸日日摸狠狠添| 国产精品久久这里只有精品| 国产91极品身材白皙| 777米奇色狠狠俺去啦| 亚洲av成本人无码网站| 一片内射视频在线观看| 少妇免费av一区二区三区久久| 又黄又硬又湿又刺激视频免费| 欧美一级视频精品观看| 国产av精品久久一区二区| 国色天香社区视频在线| 少妇白浆高潮无码免费区| 丰满人妻AV无码一区二区三区| 亚洲自拍偷拍一区二区三区| 国产综合在线观看| 免费网站国产| 激情视频在线播放一区二区三区| 强奸乱伦影音先锋| 国产va免费精品观看| 中文字幕日本熟妇少妇| 日韩一级黄色片一区二区三区| 亚洲av福利无码无一区二区| 人妻丰满熟妇AV无码片| 亚洲97成人精品久久久| 日韩精品久久无码中文字幕| 国产曰批免费视频播放免费s| 丝袜美腿av免费在线观看| 丝袜人妻一区二区三区| 色妞色综合久久夜夜|