李璐伊
【摘要】本文使用Stata14軟件,42 368個樣本容量,運用線性回歸的方法對美國個人收入影響因素進行了實證分析。文章分別分析了地區(qū)與教育,工作時間結合年齡和受教育情況,以及婚姻狀況對美國個人收入的影響。經(jīng)過計算分析,模型的結果能夠解釋以上所有因素對19.4%的個人收入的影響。除此之外,可能影響收入的因素還包括工種,種族,是否接受工作培訓和健康狀況。
【關鍵詞】美國個人收入線性回歸影響因素Stata14
【中圖分類號】F817
一、引言
在文章《美國各州間收入不均衡:進一步證據(jù)》中,作者Ram指出美國個人的收入不均衡已成為當代社會的熱點,并且各州間高度的收入不均衡很有可能降低美國的經(jīng)濟年增長率(Ramet al.,2015)。鑒于收入平等的重要性,筆者發(fā)現(xiàn)能夠影響個人收入的因素包括所處地區(qū),年齡,工作時間等。研究的目的是指出有可能縮小個人收入的差距的方法來實現(xiàn)收入均衡。
文章專注于分析2015年影響美國個人收入的因素。具體來說,筆者運用多次回歸的方法,用地區(qū),工作時間和婚姻狀態(tài)作為解釋變量。人們所處的地區(qū)是否會對收入有影響?如果是,地區(qū)會如何影響收入?已婚人士是否更有可能掙得更多?這些問題都會在文章中一一解答。
二、經(jīng)濟理論的應用
本文中使用的經(jīng)濟學概念與研究方法包括:多次回歸,假設檢驗,(當兩個回歸量出現(xiàn)時)使用交互項,以及使用工具變量(James Stock et al.,2015)。通過建立虛變量來給變量編號,并且為了避免多重共線性,建立的虛變量的個數(shù)會比參加回歸的變量總個數(shù)少一個。
三、實證分析
(一)數(shù)據(jù)來源
本文中的數(shù)據(jù)來源于IPUMS CPS(美國當代人口調查)(https://cps.ipums.org/cps/),該數(shù)據(jù)庫是一個整合了美國當代人口調查信息的公用微觀數(shù)據(jù)庫。對于樣本容量的選擇,一開始選擇了從2000~ 2015年的所有數(shù)據(jù)以觀察這15年來人們的收入變化。然而,這樣巨大的樣本數(shù)量不但增加結論的不確定性,而且會削弱線性回歸的準確性。因此,根據(jù)樣本數(shù)據(jù)的完整性與多樣性,選擇了2015年的42 368個有效樣本容量來進行分析。
(二)變量選擇
本文共選取了4個因素:所處地區(qū),性別,婚姻狀態(tài)與受教育程度。這些因素可能導致人們收入變化的相關因素。為了更好的管理數(shù)據(jù),建立需變量并相應地歸類了數(shù)據(jù)。例如,建立需變量“l(fā)onghr? swork”(較長工作時間)并讓其等于0。根據(jù)該方法將那些每周工作超過40小時的人的需變量改成了1,而工作時間小于或等于40小時的則被標為0。這種方法在其他變量的分類中也被應用了。下圖是對所有回歸量和收入的概述。
四、實證結論
(一)所處地區(qū)和教育水平對收入的影響
根據(jù)美國的地域,劃分為美國東北部,中西部,西部和南部。將東北部設為需變量,并標注為1,其余地區(qū)的需變量標注為0。研究美國東北部相對其余三個地區(qū)的收入情況。結果如表1所示。
教育在決定人們的收入水平中扮演著不可或缺的作用。通過觀察變量“教育”的t檢驗值并且通過假設檢驗,可以總結出教育在決定收入水平方面的重要作用。
鑒于教育的重要性,獲得高等教育的機會是否與人們所處的地區(qū)(美國東北部,中西部,等等)有關。通過聯(lián)合假設檢驗可以得到:獲得高等教育的機會與人們所處的地區(qū)高度正相關。因此,對在個人收入,教育水平,與交互項(教育*地區(qū))之間進行了多次回歸:
預計收入=常數(shù)項+β1教育+β2東北部+β3交互項(教育×東北部)+其他因素
其中,交互項(教育×東北部)代表了在不同地區(qū),是否接受高等教育對于收入的影響。因此,預計收入不僅取決于教育,也取決于交互項。為了簡化,現(xiàn)在只有東北部的需變量包括在內,所以研究的是在美國東北部的人們相比在美國其他地區(qū)的人們,其教育對收入的影響。結果顯示,個人收入的各因素系數(shù)為:教育水平(大學)系數(shù)為40 425.47,東北部系數(shù)為2 836.433,教育×東北部系數(shù)為2 053.75,常數(shù)系數(shù)為32 476.58。
Stata顯示:
預計收入(東北部) =β0+β2+(β1+β3)教育=35 313.013+42 479.22教育
預計收入(全國其他地區(qū)) =β0+β1教育=32 476.58+40 425.47教育
如果將該結果用圖像表示,東北部的回歸線會有更高的截距與更大的斜率。這個結論意味著因為東北部的人們受教育的程度高而有更高的收入,因此身處東北部的人們意味著有更高的收入。
然而,只包含了“東北部”與“全國其他地區(qū)”的線性回歸會帶來片面的結論。這是因為該回歸僅僅對比了身處東北部與全國其他地區(qū)在收入方面的表現(xiàn),而實際上,全國其他地區(qū)包含了南部,西部和中西部。因此,作為參照對象的“全國其他地區(qū)”本身就是多種多樣的。例如,如果在南部和中西部的人們掙得比東北部的人要少,而西部的人們掙得比東北部的人們要多,那么在“全國其他地區(qū)”里上上下下的變化會導致變量“東北部”前的系數(shù)不準確,產(chǎn)生有傾向性的結果。解決這類問題最好的辦法是將參照對象“全國其他地區(qū)”拆解開,給每個地區(qū)(南部,西部,中西部)各設一個變量(這樣就擁有了同質的參照量),并且為了避免多重共線性而省略一個地區(qū)變量。
為了擁有一個同質的參照量,給每個地區(qū)都建了單獨的需變量。此外,仍然保留了“教育”這個需變量。采用前面的數(shù)據(jù)歸類方法,獲得高等教育的人被編為1,而沒有獲得高等教育的人被編為0。
在新的回歸中,設置了四個地區(qū)變量“西部”、“南部”、“中西部”和“東北部”,參照量是“中西部”。為了避免多重共線性,省略了變量“中西部”來觀察身處非中西部地區(qū)時地區(qū)和教育程度對收入水平的影響。根據(jù)軟件Stata14建立的模型,結果顯示,個人收入各因素的系數(shù)為:教育水平(大學)系數(shù)為40 811.28;東北部系數(shù)為5740.014;南部系數(shù)為2 636.747;西部系數(shù)為2640.162;常數(shù)系數(shù)為30 369.3。
預計收入=β0+β1教育+β2東北部+β3南部+β4西部+其他因素
預計收入=30 369+40 811教育+5740東北部+ 2 636南部+2 640西部+其他因素
因為在所有地區(qū)變量前的系數(shù)(例:教育水平系數(shù)=40811.28)都為正,身處東北部,南部和西部都比中西部更有可能提高個人收入。為了驗證在非中西部地區(qū)比中西部地區(qū)能夠顯著的提高收入,對數(shù)據(jù)進行了顯著性測定,發(fā)現(xiàn)t檢驗值落在了否性區(qū)域中(假設該分布為正態(tài)分布)。因此,可以總結出受過高等教育且身處非中西部地區(qū)的勞動者能夠顯著地提高個人收入,而身處中西部的勞動者的收入相比于非中西部的會更低。
(二)工作時間對收入的影響
除了所處地理位置可以影響個人收入外,工作時間也是影響收入水平的因素之一。而且,工作時間越長對提高收入有更積極的作用。為了驗證這個假設,將工作時間與年齡和教育水平捆綁來分析工作時間對收入的影響。
首先,將工作時間與年齡捆綁并分析了他們對收入的影響。將那些每周工作超過40小時的人編號為1,而那些工作時間等于或少于40小時的人編號為0。同樣的,年齡高于30歲的勞動力被編為1,而年齡等于或小于30歲的被編為0。并且建了交互項(年齡*工作時間)來顯示隨著年齡的變化,工作時間的長短是怎樣影響收入的,結果顯示,個人收入因素的系數(shù)為:工作時間(>40小時/周)系數(shù)為21 516.1;年齡(>30)系數(shù)為22 996.31;年齡×工作時間系數(shù)為22 970.97;常數(shù)系數(shù)為25 063.91。
預計收入=β0+β1工作時間+β2年齡+β3交互項(年齡×工作時間)
年齡大于30且工作時間高于40小時/周:
預計收入=β0+β1工作時間+β2年齡+β3交互項(年齡×工作時間)=92 547.29
年齡大于30且工作時間低于等于40小時/周:預計收入=β0+β2年齡=48 060.22
結果顯示,在回歸方程中,保持年齡不變,工作時間每周高于40小時的人比工作時間低于40小時的人的工資高了將近兩倍。結果表明,工作時間長對于提高人們的收入有著積極的影響。除此之外,聯(lián)合假設檢驗中落在否定區(qū)域中的t檢驗值意味著長時間工作和收入水平的重要關系。
第二,除了年齡與工作時間對收入的影響,筆者結合了工作時間和教育水平分析了他們和收入之間的關系。建立交互項來顯示微分效應。具體地說,保持教育程度不變,分析了工作時間如何影響個人收入。在分析中,學歷為本科及以上的人的編號為1,否則為0。結果顯示,個人收入各因素系數(shù)為:工作實際(>40小時/周)系數(shù)為21 600.89;教育水平(大學)系數(shù)為31 723.52;大學×工作時間系數(shù)為23 698.74;常數(shù)系數(shù)為30 372.61。
預計收入=β0+β1工作時間+β2教育+β3交互項(教育×工作時間)
本科學歷及以上且工作時間高于40小時/周:預計收入=β0+β1工作時間+β2教育+β3交互項(教育×工作時間)=107 395.76
本科學歷及以上且工作時間等于小于40小時/周:預計收入=β0+β2教育=62 096.13
因此,盡管兩個回歸方程中的對象都有本科學歷(教育=1),更長的工作時間意味著更高的收入。除此之外,工作時間長的人有更高的收入不僅僅是因為他們工作了更長時間,還因為交互項前的系數(shù)為正。
總而言之,工作時間高于每周40小時在統(tǒng)計上對于提高個人收入有顯著地正面影響。更重要的是,如果高學歷與長時間工作相結合,個人收入會有更顯著的提升。
(三)婚姻狀態(tài)對收入的影響
婚姻不僅會影響人的情感狀態(tài),還會對收入與社會地位產(chǎn)生重要影響,這一點在男性身上尤其突出,因此將婚姻狀態(tài)列為影響個人收入的最重要的因素。將婚姻狀態(tài)變量作為內衍變量,使用年齡作為工具,運用了工具變量的方法。具體來說,年齡是一個很好的工具,出于以下兩個原因。第一,年齡和婚姻狀態(tài)密切相關(往往當人們年齡增長時,婚姻狀態(tài)也隨之改變);第二,年齡與回歸方程中的其他因素不相關。因此,年齡是預測婚姻狀態(tài)的一個很好的工具。這種關系可以被寫成:
預估婚姻狀態(tài)=π0+π1年齡+vi,vi是誤差項
通過預測婚姻狀態(tài),使用回歸方程來分析婚姻狀態(tài)對個人收入的影響。內衍變量是通過婚姻狀態(tài)和年齡預測出來。此回歸方程同樣包括其他的外變量:性別,受教育程度,工作時間,所處地區(qū)。如果已婚,婚姻狀態(tài)被編為1,否則為0。結果顯示個人收入在美國各地區(qū)與婚姻狀況的相關影響系數(shù)為:婚姻系數(shù)為50 964.69;南部系數(shù)為-2 999.916;西部系數(shù)為:-3 247.854;性別(男性)15 588.76;教育水平(大學)系數(shù)為27 059.81;工作時間(>40小時/周)系數(shù)為27 750.87;中西部系數(shù)為-7 922.997;常數(shù)系數(shù)為1 769.368。
預計收入=β0+β1婚姻狀態(tài)+β2性別+β3教育+β4工作時間+β5南部+β6西部+β7中西部
從回歸方程中可以得到,考慮到將婚姻狀態(tài)作為內衍變量,已婚人士每年相對于未婚人士收入高$50695。假設該分布為正態(tài)分布,z檢測值是47.61并在3個標準偏差之外。該結果的置信度為99%,因此,得出已婚人士更有可能有更高的個人收入的結論。在運行了回歸方程之后,為了檢驗婚姻狀態(tài)變量是否真的為一個內衍變量進行了內衍變量測試,并得到了以下結果:
假設:婚姻狀態(tài)是外生的。檢驗這一假設后得到的兩個檢驗值(Durbin and Wu-Hausman)都有很小的p值,那么就有理由推翻虛假設并總結出婚姻狀態(tài)是個內衍變量并和年齡密切相關。因此,統(tǒng)計分析顯示已婚人士更有可能有更高的個人收入。
五、總結與討論
本文使用Stata14軟件,對2015年美國個人收入的相關數(shù)據(jù),運用線性回歸的方法重點分析了地區(qū),工作時間與婚姻狀態(tài)對個人收入的影響。得到結論為:身處美國東北部更有可能有更高的收入,而處于中西部的收入會偏低;工作時間越長和已婚都能夠提高個人收入。雖然該模型分析結論比較可靠,但是也有一定的局限性。比如模型中解釋收入變化的因素,R-決定系數(shù)只有0.194(所有因素只能夠解釋19.4%的收入變化)。說明還有許多其他能夠解釋收入變化的因素沒有被包括進來。例如,人們的工種,種族,能否參加工作訓練,健康狀況都可能解釋收入變化。如果能夠更深入的研究分析數(shù)據(jù),可以對影響收入變化的因素有更全面的分析。
主要參考文獻:
[1]Ram, Rati. Real and Nominal Interstate Income inequality in the United States: Further Evidence[J].United States. International Advances in Economic Research .2015,21.1:131-132.
[2]James Stock,Mark Watson.Introduction to Econometrics[J].England.PearsonEducationLimited.2015:407-461.