亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于穩(wěn)健方差分析的多重與多元線性回歸模型比較
        ——以美國共享單車公司CapitalBikeshare為例

        2022-11-24 11:01:30劉佳侖
        關(guān)鍵詞:模型

        劉佳侖

        (首都經(jīng)濟貿(mào)易大學(xué) 北京 100026)

        一、數(shù)據(jù)集介紹及數(shù)據(jù)預(yù)處理

        本文以美國華盛頓特區(qū)的共享單車公司CapitalBikeshare,在2011—2012年間所記載的數(shù)據(jù)為目標(biāo)數(shù)據(jù)集,選取當(dāng)天是否為工作日、所處季節(jié)、天氣狀況、氣溫、體感溫度、濕度、風(fēng)速這七個關(guān)鍵指標(biāo)作為解釋變量,探索其與每日臨時用戶數(shù)量、注冊用戶數(shù)量、用戶總量之間的關(guān)系。對所選變量的具體說明如表1所示。

        表1 所選變量及相關(guān)信息

        接下來做數(shù)據(jù)預(yù)處理。首先,將數(shù)據(jù)集中tmp、atmp、hum、windspeed的標(biāo)準(zhǔn)值還原為實際值;其次,刪除2011年3月10日的異常數(shù)據(jù),因為這一天的hum值顯示為0,實際生活中不可能出現(xiàn)這樣的情況;最后,為避免建模時出現(xiàn)多重共線性的情況,對含有兩個以上值的定性變量season和weathersit分別進行獨熱編碼處理,對應(yīng)轉(zhuǎn)化為3個和2個啞變量。其中,將weathersit轉(zhuǎn)化為2個啞變量,是因為它的實際取值中并沒有出現(xiàn)過(大雨、大雪、大霧))極端天氣。

        二、多元與一元方差分析

        (一)多元單因素方差分析

        做多元單因素方差分析時有兩個假設(shè)前提,分別為待檢驗總體的多元正態(tài)性和方差—協(xié)方差陣的同質(zhì)性。前者可用Q-Q圖來進行檢驗,對于后者本文采用似然比檢驗。

        1.多元正態(tài)性檢驗

        多元向量的Q-Q圖通過展示卡方分布理論值與樣本值的關(guān)系,來判別待檢驗總體是否滿足正態(tài)性假設(shè)。如果所有點都落在斜率為1、截距為0的直線附近,則認(rèn)為正態(tài)性假設(shè)成立。應(yīng)用R軟件,得到響應(yīng)向量(casual,registered)針對三個因素workingday、season、weathersit的Q-Q圖如下。

        圖1(casual,registered)的Q-Q圖

        結(jié)果顯示,響應(yīng)向量(casual,registered)在不同因素下均服從多元正態(tài)分布。

        2.協(xié)方差陣同質(zhì)性檢驗

        本小節(jié)中,響應(yīng)向量(casual,registered)將針對三個因素workingday、season、weathersit分別做三次似然比檢驗,以驗證待檢驗總體協(xié)方差矩陣的同質(zhì)性假設(shè)。

        這里以workingday為例來說明檢驗流程。首先,應(yīng)用R軟件的str函數(shù)來查看workingday在不同水平下響應(yīng)向量的數(shù)據(jù)條數(shù),所得結(jié)果記為n0=231,n1=499。將組別0和組別1中響應(yīng)向量的數(shù)據(jù)矩陣分別記為Z0和Z1,在正態(tài)性假設(shè)下有Zi~Nni*q( )μi,Ini?Σi(i=0,1)。然后構(gòu)造冪等矩陣,令其中1ni為全1列向量,于是有根 據(jù) 冪 等 矩 陣 性 質(zhì) 可 得,Ui=其分布為且在U0和U1之間相互獨立。

        所檢驗的問題為:H0:Σ0=Σ1v.s.HA:Σ0≠Σ1;似然比檢驗統(tǒng)計量為:

        表2 似然比檢驗結(jié)果

        各檢驗統(tǒng)計值均大于相應(yīng)原假設(shè)下卡方分布上的0.05分位數(shù)。因此,在0.05的顯著性水平下拒絕原假設(shè),認(rèn)為針對上述三個因素進行多元方差分析時,協(xié)方差矩陣同質(zhì)性的檢驗均未能通過,即協(xié)方差矩陣不齊,于是后續(xù)采用穩(wěn)健多元方差分析的方法繼續(xù)進行檢驗。

        3.穩(wěn)健多元單因素方差分析

        若多元正態(tài)性或者協(xié)方差矩陣同質(zhì)性假設(shè)不滿足,又擔(dān)心多元離群點,那么需考慮采用穩(wěn)健的MANOVA檢驗,此方法可通過R語言rrcov包中的Wilks.test函數(shù)來實現(xiàn)。檢驗結(jié)果如表3。

        表3穩(wěn)健單因素MANOVA

        根據(jù)表3,所檢驗的三個因素對應(yīng)的p值均小于0.05,于是在0.05的顯著性水平下拒絕原假設(shè),認(rèn)為共享單車每日臨時用戶數(shù)量與注冊用戶數(shù)量所構(gòu)成的響應(yīng)向量,在工作日與非工作日之間、在不同季節(jié)之間、在不同天氣狀況下的均值,都存在顯著性差異。

        (二)一元單因素方差分析

        以共享單車每日用戶總數(shù)cnt作為響應(yīng)變量,以workingday、season、weathersit作為影響因素,分別做一元單因素方差分析。由于此方法的相關(guān)研究已經(jīng)非常普遍,故本文不再詳細(xì)闡述其檢驗步驟。檢驗正態(tài)性仍使用Q-Q圖;判斷方差齊性選用Bartlett檢驗。值得注意的是,當(dāng)檢驗因素各水平總體難以滿足方差分析假設(shè)條件(獨立性、正態(tài)性、方差齊性)時,可采用克羅斯考爾和瓦里斯在1952年提出的Kruskal-Wallis穩(wěn)健檢驗方法。

        對假設(shè)前提進行檢驗,cnt在各因素下基本滿足正態(tài)性假設(shè),并且除season外在其他因素下滿足方差齊性假設(shè),故對season使用Kruskal-Wallis穩(wěn)健檢驗。方差分析檢驗結(jié)果表明,在0.05的顯著性水平下,cnt在工作日與非工作日的均值不存在顯著性差異,在不同天氣狀況下的均值存在顯著性差異,在不同季節(jié)的均值存在顯著性差異。

        三、多元與多重線性回歸模型的建立

        構(gòu)建多元線性回歸模型,以casual和registered作為響應(yīng)向量,以workingday、season_1、season_2、season_3、weathersit_1、weathersit_2、temp、atemp、hum、windspeed作為解釋變量;構(gòu)建多重線性回歸模型,以cnt作為響應(yīng)變量,其解釋變量與多元線性回歸模型的設(shè)置相同。然后將分別對上述兩個模型進行估計、檢驗及修正,以達(dá)到最優(yōu)。

        (一)多元線性回歸模型

        1.參數(shù)估計

        設(shè)Y=(Y1,Y2)為casual和registered構(gòu)成的響應(yīng)向量,x=(1,x1,x2,…x10)為解釋變量,R為隨機誤差項。于是可構(gòu)建多元線性回歸模型:

        在上述模型中,β的估計量為的估計量為其 中n=730為 總 樣本量,p=11為x的列數(shù),l=2為β的列數(shù)。根據(jù)以上表達(dá)式應(yīng)用R軟件,即可輸出β和ΣR的估計值。

        2.β中行參數(shù)的Hotelling’sT2檢驗

        (1)提 出 原 假 設(shè) 與 備 擇 假 設(shè):H0∶βi=0v.s.H1∶βi≠0

        (2)應(yīng)用R軟件,計算βi的F檢驗統(tǒng)計值。

        表4 行參數(shù)的F檢驗統(tǒng)計值

        3.模型修正

        在原多元線性回歸模型的基礎(chǔ)上,剔除掉自變量atemp后,再做一次回歸,得到新模型中未知參數(shù)β′的估計值如表5。

        表5 β′的估計值

        對β′的行參數(shù)做Hotelling’sT2檢驗,得到行參數(shù)的F檢驗統(tǒng)計值如表6。

        表6 行參數(shù)的F檢驗統(tǒng)計值

        (二)多重線性回歸模型

        1.參數(shù)估計及t檢驗

        設(shè)Y3為共享單車每日用戶總數(shù)cnt,x同多元線性回歸模型,R為隨機誤差項,構(gòu)建多重線性回歸模型:

        應(yīng)用R軟件的lm函數(shù),得到β*的估計值及其各元素相應(yīng)的t檢驗p值如表7。

        表7 β*的估計值及t檢驗結(jié)果

        當(dāng)p<0.05時,在0.05的顯著性水平下拒絕原假設(shè),即認(rèn)為相應(yīng)的當(dāng)p>0.05時,在0.05的顯著性水平下不拒絕原假設(shè),即認(rèn)為相應(yīng)的通過觀察表7可知,解釋變量workingday和atemp的參數(shù)均未能通過檢驗,于是需對此模型進行修正以達(dá)最優(yōu)。

        2.逐步回歸法修正模型

        R語言做逐步回歸分析時,以赤池信息量AIC值的最小值作為確定最優(yōu)模型的準(zhǔn)則。采用逐步回歸分析方法對上述多重線性回歸模型進行修正,依次剔除解釋變量atemp和workingday,修正后的模型為:

        cnt=4125-1482season_1-581season_2-1049season_3+1700weathersit_1+1524weathersit_2+134temp-29hum-51windspeed

        R語言運行結(jié)果顯示:在修正模型中,每一個解釋變量對于響應(yīng)變量cnt的線性影響都是顯著的。

        四、結(jié)論

        多元線性回歸和多重線性回歸對于沒有統(tǒng)計學(xué)背景的研究人員而言,確實是兩個非常容易被混淆的概念,通常會認(rèn)為二者是等價的,但通過上文敘述,可以很明確地看出二者之間的區(qū)別與聯(lián)系。多重線性回歸(multiplelinearregression)是簡單直線回歸的推廣,研究的是一個因變量與多個自變量之間的數(shù)量依存關(guān)系。而多元線性回歸(multivariate linearregression)則是多重線性回歸的推廣,研究的是具有相關(guān)關(guān)系的多個因變量組成的響應(yīng)向量,與多個自變量之間的數(shù)量依存關(guān)系。雖說從形式上來看,多元線性回歸模型是多重線性回歸模型的簡單疊加,但實際上,它的用途和研究意義都比后者更加廣泛。一方面它能夠衡量響應(yīng)向量在不同維度之間的相關(guān)關(guān)系,另一方面它可以探究某一解釋變量對研究總體在不同維度的綜合影響。接下來,對兩類模型的構(gòu)造方式和建模流程進行詳細(xì)的分析和對比。

        在多元單因素方差分析部分,響應(yīng)向量(casual,registered)針對三個因素workingday、season、weathersit均通過了顯著性檢驗,說明這三個因素對響應(yīng)向量都具有顯著影響。于是在構(gòu)建多元線性回歸模型時,應(yīng)納入上述三個因素作為解釋變量,從表5呈現(xiàn)的信息來看事實也正是如此。一元單因素方差分析檢驗結(jié)果顯示,響應(yīng)變量cnt在workingday各水平下的均值并無顯著性差異,但對因素season和weathersit都通過了顯著性檢驗,這與構(gòu)造多重線性回歸模型時,不納入workingday但納入其余兩個因素作為解釋變量的事實相符。

        綜上,無論多元還是一元方差分析結(jié)果,都與各自所構(gòu)造的回歸模型相互驗證了彼此的正確性。另外,被解釋變量的維數(shù)設(shè)置體現(xiàn)了兩類回歸模型在構(gòu)造方式上最明顯的差別,多元模型設(shè)置多維響應(yīng)向量,多重模型僅設(shè)置一維響應(yīng)變量。

        在多元線性回歸部分,從表5可以看出,解釋變量workingday對臨時用戶數(shù)量具有負(fù)的線性影響,而對注冊用戶數(shù)量有正的線性影響,意味著工作日相比于非工作日,臨時用戶數(shù)量將減少,而注冊用戶數(shù)量增多。解釋變量season經(jīng)分解后形成了代表春、夏、秋季的啞變量,對比冬季,春、夏、秋季的注冊用戶數(shù)量均呈現(xiàn)出負(fù)增長,春季和秋季的臨時用戶數(shù)量也呈現(xiàn)出負(fù)增長,但夏季的臨時用戶數(shù)量呈現(xiàn)出正增長,這表明夏季的臨時用戶數(shù)量比冬季更多。解釋變量weathersit經(jīng)分解后形成了代表好天氣和較好天氣的啞變量,對比較差天氣,好天氣和較好天氣下的臨時用戶數(shù)量和注冊用戶數(shù)量均呈現(xiàn)出正增長趨勢。此外,在所設(shè)定的氣溫范圍內(nèi),溫度越高,臨時用戶數(shù)量和注冊用戶數(shù)量越多;在所設(shè)定的濕度和風(fēng)速范圍內(nèi),濕度和風(fēng)速水平越高,臨時用戶數(shù)量和注冊用戶數(shù)量越少。上述分析結(jié)果基本符合實際情況。

        在多重線性回歸分析中,對比冬季,春、夏、秋這三個季節(jié)對每日用戶總數(shù)均呈現(xiàn)出負(fù)的線性影響,意味著春、夏、秋三個季節(jié)的每日用戶總數(shù)少于冬季。對比較差天氣,好天氣和較好天氣對每日用戶總數(shù)具有正的線性影響,意味著天氣越好每日用戶總數(shù)越多。此外,在定量解釋變量的研究范圍內(nèi),溫度越高,每日用戶總數(shù)越多;濕度、風(fēng)速越高,每日用戶總數(shù)越少。以上內(nèi)容基本與多元線性回歸的分析結(jié)果保持一致,但獲得的信息明顯少于多元模型。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲国产精品久久久久秋霞影院| 亚洲视频在线免费不卡| 亚洲av乱码一区二区三区林ゆな| 久久精品人人做人人综合| 久久九九有精品国产尤物| 国产一区二区三区影片| 在线精品首页中文字幕亚洲| 久久精品中文字幕大胸| 乱码1乱码2美美哒| 国产乱子伦一区二区三区| 男人天堂av在线成人av| 亚洲天堂免费一二三四区| av天堂手机免费在线| 国产伦精品免编号公布| 男女真实有遮挡xx00动态图| 人妻中文字幕一区二区二区| 日韩精品一二三区乱码| 巨人精品福利官方导航| 亚洲成a人片在线| 日本骚色老妇视频网站| 国产99一区二区三区四区| 狠狠做深爱婷婷久久综合一区| 无码人妻系列不卡免费视频| 国产精品日本中文在线| 久久精品国产免费观看三人同眠| 日韩插啊免费视频在线观看| 亚洲综合伦理| 亚州av高清不卡一区二区| 女人色熟女乱| 欧美三级一区| 日本在线播放不卡免费一区二区| 国产在线视频一区二区天美蜜桃| 久久人与动人物a级毛片| 粗大挺进尤物人妻一区二区| 亚洲精品综合中文字幕组合| 日韩人妻无码一区二区三区久久| 尤物99国产成人精品视频| 国产三级av在线播放| 亚洲欧洲日产国码av系列天堂| 亚洲学生妹高清av| 国产日韩午夜视频在线观看|