亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多元線性回歸統(tǒng)計模型在房價預(yù)測中的應(yīng)用

        2020-06-30 10:13:47羅博煒洪智勇王勁屹
        計算機時代 2020年6期
        關(guān)鍵詞:多元線性回歸

        羅博煒 洪智勇 王勁屹

        摘? 要: 以多元線性回歸統(tǒng)計模型為基礎(chǔ),用Python語言對美國部分地區(qū)房價數(shù)據(jù)進(jìn)行建模預(yù)測,進(jìn)而探究提高多元回歸線性模型精度的方法。先對數(shù)據(jù)進(jìn)行探索性預(yù)處理,隨后設(shè)置虛擬變量并建模得出預(yù)測結(jié)果,再使用方差膨脹因子對多重共線性進(jìn)行修正,從而提高模型精度與穩(wěn)健性,使回歸結(jié)果在很大程度上得到優(yōu)化。

        關(guān)鍵詞: 多元線性回歸; 多重共線性; 虛擬變量; 方差膨脹因子

        中圖分類號:TP3-05? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)06-51-04

        Abstract: Based on the multiple linear regression statistical model, this paper built the model to predict the house price by utilizing some parts of the United States data, and then explores methods to improve the accuracy of the multiple linear regression model. Firstly, the data were preprocessed, and then the dummy variables were set up for modeling to obtain the predicted results. After that, the multicollinearity was modified by variance inflation factor so that the accuracy as well as robustness of the model was improved, and the regression results were optimized largely.

        Key words: multiple linear regression; multicollinearity; dummy variable; variance inflation factor

        0 引言

        多元線性回歸具有非常廣泛的應(yīng)用范圍,但在實際預(yù)測中對存在類別變量設(shè)置不充分或多重共線性問題,導(dǎo)致統(tǒng)計模型缺乏精度和穩(wěn)健性。由此,本文對如何精準(zhǔn)且高效的排除多重共線性影響,并合理地將分類變量轉(zhuǎn)化為虛擬變量,提升多元線性回歸模型精度作了進(jìn)一步探索,并將其應(yīng)用于房價預(yù)測上。

        1 多元線性回歸模型

        一個因變量與兩個或更多的預(yù)測變量之間的聯(lián)系被稱為多元相關(guān)。在這種情況下做出的預(yù)測被稱為多元回歸。線性關(guān)系指因變量與自變量之間存在一次方函數(shù)關(guān)系。多元線性回歸模型如下:

        多元回歸模型初步建立后,是否真正解釋了預(yù)測變量和因變量的關(guān)系,還要進(jìn)行顯著性檢驗。

        1.1 回歸方程的擬合優(yōu)度檢驗

        判定指數(shù)R2描述了由自變量的線性函數(shù)值所能反應(yīng)的Y的總變化量比例。結(jié)果在0-1間,越大說明擬合效果越好,判定指數(shù)公式如下

        其中,MSE表示均方誤差,SSE被稱為殘差平方和。SSR則被稱為回歸和,反映了自變量的線性函數(shù)在各組觀測值出取值的離差平方和;SST則被稱為總離差平方和,用于度量y自身的差異程度,即數(shù)據(jù)總的變動。

        1.2 回歸系數(shù)的顯著性檢驗

        t檢驗是分別檢驗回歸模型中各個回歸系數(shù)是否具有顯著性,以便使模型中只保留那些對因變量有顯著影響的因素。檢驗時先計算統(tǒng)計量ti;然后根據(jù)給定的顯著水平α,自由度n-k-1查t分布表,得臨界值tα或tα/2, 若t>t-α或tα/2,則回歸系數(shù)bi與0有顯著差異,反之,則與0無顯著差異。統(tǒng)計量t的計算公式為:

        2 虛擬變量的轉(zhuǎn)換

        常見的變量類型有定量變量與定類變量兩種,其中定類變量也被稱為屬性變量,即該變量的分?jǐn)?shù)是屬性,或是可分類的(如房價預(yù)測中的房屋類型)。但在房價回歸分析中不宜直接使用定類變量,因為對定類變量所賦與的離散值之間的相等間距掩蓋了不同類別之間的差異(如房屋朝向),虛擬變量是解決該問題的經(jīng)典做法之一。任意一個具有k個屬性皆可定義成一組k個取值為1或0的虛擬變量。表1以房屋朝向為例,舉例構(gòu)造虛擬變量。值得注意的是,轉(zhuǎn)化需要舍棄一個虛擬列,才能得到滿秩矩陣[1]。

        3 多重共線性與VIF

        3.1 多重共線性

        多元線性回歸模型的主要假設(shè)之一是自變量彼此不存在強相關(guān),否則會出現(xiàn)多重共線性問題。多重共線性的一個主要問題在于,它會導(dǎo)致多元線性回歸系數(shù)的顯著性偏離真實方向。要判斷是否有多重共線性,最常見的辦法是借助方差膨脹因子來修正[2]。

        3.2 方差膨脹因子

        方差膨脹因子(Variance Inflation Factor,VIF)是指解釋變量之間存在多重共線性時的方差與不存在多重共線性時的方差之比。VIF越大,顯示共線性越嚴(yán)重。自變量x的方差膨脹因子記為VIF,它的計算方法為:

        經(jīng)驗判斷方法表明:當(dāng)0

        4 案例分析

        本文選用2019年美國波士頓地區(qū)房價作為示例數(shù)據(jù)集(6028條),已經(jīng)剔除各屬性過高或過低的異常值,并專注于多元線性回歸分析,通過實例數(shù)據(jù)驗證回歸分析的結(jié)果,并使用方差膨脹因子對模型中可能存在的多重共線性進(jìn)行修正,進(jìn)一步提高了模型的精度與泛化能力。示例數(shù)據(jù)集屬性說明見表2。

        隨機預(yù)覽5條數(shù)據(jù)如表3所示。

        4.1 房價影響參數(shù)分析

        正式建立模型前,使用探索性數(shù)據(jù)分析(Exploratory data analysis以下簡稱EDA)來查找數(shù)據(jù)集中變量的分布、模式、關(guān)系或異常情況,可以對數(shù)據(jù)集本身有一個快速直觀的了解,并且會在很大程度上為后續(xù)建模提供便利。Python作為一門強大的編程語言,在數(shù)據(jù)可視化方面為客戶提供了如Matplotlib,Seaborn等強大的第三方庫[3]。EDA結(jié)果如圖1所示。

        圖1散點圖矩陣可以看出:不論房屋樣式如何,房屋的價格與占地面積、房間數(shù)量等都呈現(xiàn)不同程度的正相關(guān)關(guān)系;占地面積與房間數(shù)量的關(guān)系亦如此。

        4.2 建立模型

        Python的統(tǒng)計學(xué)庫 statsmodels 可以很好的處理預(yù)測變量和因變量,輸出自變量系數(shù)的同時亦能給出每個回歸系數(shù)的顯著性檢驗,置信區(qū)間,以及模型的精度情況取定量變量area,bedrooms,bathrooms作為預(yù)測變量,房屋價格price作為因變量,來初步建立多元線性回歸模型,得到表4。

        表中各自變量的顯著性檢驗結(jié)果(P>|t|)項表明:對變量bedrooms與bathrooms來說,我們只能保留零假設(shè),證明無顯著統(tǒng)計性,面積則具有顯著統(tǒng)計性。

        4.3 多重共線性的檢測

        觀測自變量bedrooms與bathrooms二者的系數(shù)時,不難發(fā)現(xiàn):在模型其他變量不變的情況下,預(yù)測變量bedrooms每增加一個單位,因變量房屋價格會隨之減少2925.81美元,這就與EDA中散點圖的預(yù)期截然相反,見圖1。

        散點圖是檢測是否出現(xiàn)多重共線性的其中一個方法,本身不夠精確,而Python的第三方支持庫 patsy 與 statsmodels中的方差膨脹因子函數(shù),可很好的解決該問題。當(dāng)建立的多元線性回歸模型中有存在多重共線性的風(fēng)險時,statsmodels 庫會在運行結(jié)果后自動打印 Warnings 信息作為提醒,具體檢測結(jié)果如表5。

        可清晰看出自變量bedrooms與bathrooms的方差膨脹因子均大于10,因此,存在顯著的共線性,選取最大的方差膨脹因子變量為多余變量,將其剔除再重復(fù)上述多元回歸模型的建模步驟,重新計算自變量系數(shù)、截距及方差膨脹因子,結(jié)果如表6、表7。

        結(jié)合表5和表7可以看出,刪除最大膨脹因子變量bedrooms后,模型精度變強,且方差膨脹因子也回到正常水平,由此證明初步模型存在多重共線性問題。

        4.4 設(shè)置虛擬變量

        上述建模步驟均是將定量變量作為自變量,未能辨析街區(qū)及房屋樣式等定類變量對房價的影響。此時需要給分類變量設(shè)置虛擬變量。Python的pandas庫中的get_dummies函數(shù)可以快捷設(shè)置虛擬變量,見表8。

        4.5 優(yōu)化后的多元線性回歸模型

        自變量:area,bathrooms,A,B,lodge,ranch

        因變量:price

        優(yōu)化后的模型在運行過程中,并沒有出現(xiàn)多重共線性的警告,穩(wěn)健起見,再次進(jìn)行方差膨脹因子檢驗,結(jié)果見表10。

        綜上所述,可得知以下信息。

        ⑴ 多元線性回歸模型結(jié)果為:

        ⑵ 判定指數(shù)R2 91.9%所反映的價格變動,可由基于占地面積、住宅區(qū)、住宅風(fēng)格和臥室數(shù)量這四個變量來解釋,經(jīng)過優(yōu)化后的模型擬合效果較好,預(yù)測結(jié)果更加可靠;

        ⑶ 各自變量的p值均小于1%,呈現(xiàn)出較強的顯著性;

        ⑷ 其他條件不變的情況下,一間住宅每增加一個臥室,預(yù)測其價格會增加5386美元;

        ⑸ 其他條件不變的情況下,預(yù)測C住宅區(qū)的房價要比A住宅區(qū)的房價少88美元,住宅區(qū)B則比C要多524400美元;

        ⑹ 其他條件不變的情況下,預(yù)測大農(nóng)場式房屋 ranch 比維多利亞住宅價格要多6224美元。

        5 結(jié)論

        本文以多元線性回歸為基礎(chǔ)和前提,在因變量房價與多個自變量的實際觀測值建立了多元線性回歸模型;分析并檢驗各個預(yù)測變量對因變量的綜合線性影響的顯著性,并盡可能的消除多重共線性的影響,篩選出因變量有顯著線性影響的自變量,對基準(zhǔn)模型進(jìn)行優(yōu)化,并對各自變量相對重要性進(jìn)行評定,進(jìn)而提升了回歸模型的預(yù)測精度。

        參考文獻(xiàn)(References):

        [1] 曹志祥.回歸分析中虛擬變量的系數(shù)轉(zhuǎn)換[J].統(tǒng)計研究,1994.11(1):69-71

        [2] 肖琳,何大衛(wèi).Pls回歸在消除多重共線性中的作用[J].山西醫(yī)科大學(xué)學(xué)報,2002.3:228-231

        [3] Mckinney W.利用PYTHON進(jìn)行數(shù)據(jù)分析[M].機械工業(yè)出版社,2014.

        猜你喜歡
        多元線性回歸
        我國銀行業(yè)股票收益影響因素實證研究
        時代金融(2017年3期)2017-03-09 17:56:46
        國內(nèi)旅游收入主要影響因素的實證分析
        中國市場(2017年2期)2017-02-28 18:59:45
        基于灰色關(guān)聯(lián)和線性規(guī)劃的糧食種植面積影響因素分析
        基于組合模型的卷煙市場需求預(yù)測研究
        基于多元線性回歸分析的冬季鳥類生境選擇研究
        我國上市商業(yè)銀行信貸資產(chǎn)證券化效應(yīng)實證研究
        時代金融(2016年29期)2016-12-05 15:41:07
        云學(xué)習(xí)平臺大學(xué)生學(xué)業(yè)成績預(yù)測與干預(yù)研究
        全國主要市轄區(qū)的房價收入比影響因素研究
        商(2016年20期)2016-07-04 01:23:26
        宏觀經(jīng)濟變量對上證指數(shù)影響的實證研究
        利用計量工具比較東西部的經(jīng)濟狀況
        商(2016年5期)2016-03-28 12:14:30
        色偷偷av亚洲男人的天堂| 人妖av手机在线观看| 久久狠狠爱亚洲综合影院| 波多野结衣一区二区三区高清| 亚洲欧美日韩国产精品一区| av免费在线观看网站大全| 免费国产在线视频自拍白浆| 亚洲人成网址在线播放| 久久久久久久中文字幕| 久久夜色精品亚洲天堂| 国产成人精品无码免费看| 亚洲国产日韩欧美一区二区三区| 国产精品女视频一区二区| 丰满少妇又爽又紧又丰满动态视频 | 人妻少妇久久中中文字幕| 国语对白做受xxxxx在| 狠狠色狠狠色综合久久第一次| 国产黄片一区视频在线观看| 美艳善良的丝袜高跟美腿 | 亚洲国产长腿丝袜av天堂| 日本加勒比东京热日韩| 亚洲中文字幕乱码在线观看| 老子影院午夜伦不卡| 99亚洲精品久久久99| 精品视频在线观看一区二区有| 一本色道久久综合亚洲| 亚洲欧美国产国产综合一区| 色综合久久无码中文字幕app| 亚洲三区av在线播放| 亚洲综合网国产精品一区| 免费观看又色又爽又黄的韩国| 欧美日韩国产乱了伦| 中文字幕精品一区二区的区别| 亚洲熟妇无码一区二区三区导航| 91福利国产在线观看一区二区| 69精品人妻一区二区| 久久精品国产99国产精品澳门| 精品国产乱码久久久久久口爆网站| 激情人妻网址| 黄色av亚洲在线观看| 国产成人无码一区二区三区在线|