亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

隨機(jī)前沿模型變量選擇研究

2019-05-05 06:29:50蔣青嬗鐘世川

統(tǒng)計(jì)與決策 2019年7期

關(guān)鍵詞：均方參數(shù)估計(jì)標(biāo)準(zhǔn)差

蔣青嬗，鐘世川

（廣東外語(yǔ)外貿(mào)大學(xué)a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院；b.廣州國(guó)際商貿(mào)中心重點(diǎn)研究基地，廣州 510006）

0 引言

隨機(jī)前沿分析（SFA）是效率測(cè)算的常用方法，在經(jīng)濟(jì)、管理等領(lǐng)域應(yīng)用較廣。目前SFM有大量理論和實(shí)證研究[1-3]，但暫無(wú)研究涉及SFM的變量選擇。變量選擇對(duì)于建模非常重要。如果模型內(nèi)包含較多變量，模型的復(fù)雜度增加、解釋能力差且可能導(dǎo)致多重共線性問(wèn)題。在完全共線性情況下，估計(jì)量不存在。在近似共線性情況下，估計(jì)量非有效且估計(jì)量的經(jīng)濟(jì)意義不合理。同時(shí)，變量的顯著性檢驗(yàn)失去意義，極可能將重要變量剔除。對(duì)于隨機(jī)前沿分析，影響因素分析、要素投入比計(jì)算和技術(shù)效率測(cè)算是核心部分。變量選擇有助于挑選出顯著影響產(chǎn)出的投入，避免資源浪費(fèi)。變量選擇對(duì)應(yīng)的參數(shù)估計(jì)的精度較高，要素投入比計(jì)算較準(zhǔn)確，從而得出的要素分配更合理?；谏鲜龇治?，對(duì)SFM進(jìn)行變量選擇具有一定的可行性。

傳統(tǒng)的變量選擇方法有全部子集法和逐步回歸法。該類方法效率較低且穩(wěn)定性較差。當(dāng)變量數(shù)目增加時(shí)可能存在維數(shù)災(zāi)難問(wèn)題。考慮到傳統(tǒng)變量選擇方法的不足，懲罰方法應(yīng)運(yùn)而生。懲罰方法通過(guò)把較小的系數(shù)壓縮為零來(lái)進(jìn)行變量選擇。該法較穩(wěn)定且計(jì)算量較少。目前有較多變量選擇的理論研究。在懲罰函數(shù)構(gòu)建上，Antoniadis和Fan（2001）[4]、Fan和Li（2001）[5]提出懲罰函數(shù)的構(gòu)建標(biāo)準(zhǔn)，F(xiàn)an和Li（2001）[5]構(gòu)造了滿足上述要求的SCAD懲罰。Tibshirani和 Zou（1996）[6]分別構(gòu)造了 Lasso懲罰和Alasso懲罰，Yuan和Li（2006）[7]、Wang和Leng（2008）[8]分別構(gòu)造了集群Lasso懲罰和集群Alasso懲罰。

本文研究SFM的變量選擇問(wèn)題。隨機(jī)前沿模型包含復(fù)合殘差項(xiàng)，該項(xiàng)由雙邊誤差項(xiàng)（刻畫(huà)隨機(jī)誤差）和單邊技術(shù)無(wú)效率項(xiàng)（刻畫(huà)技術(shù)無(wú)效率程度）組合而成。在形式上，隨機(jī)前沿模型復(fù)雜于經(jīng)典的線性模型。由于復(fù)合殘差項(xiàng)的特殊性，已有的針對(duì)于線性模型的變量選擇方法并不能直接套用。本文開(kāi)創(chuàng)性地使用Alasso懲罰方法對(duì)隨機(jī)前沿模型進(jìn)行變量選擇，通過(guò)數(shù)值模擬考察變量選擇的有效性和參數(shù)估計(jì)的效果。

1 隨機(jī)前沿模型的變量選擇

1.1 模型引入

引入經(jīng)典的隨機(jī)生產(chǎn)前沿模型：

其中Y=(y1，…，yN)′為因變量，衡量N個(gè)生產(chǎn)單元的產(chǎn)出；X為N×p階自變量矩陣，衡量N個(gè)生產(chǎn)單元在p種要素間的投入；β=(β1，…，βp)′為參數(shù)變量；ε為復(fù)合誤差項(xiàng)。該誤差項(xiàng)包含兩部分：v為雙邊隨機(jī)誤差，服從正態(tài)分布，即v～N(0，)。u為單邊誤差項(xiàng)，可刻畫(huà)技術(shù)無(wú)效率程度，服從半正態(tài)分布，即IN表示單位矩陣。v和u相互獨(dú)立且與自變量X不相關(guān)。模型中的未知參數(shù)為β，和。

對(duì)于隨機(jī)前沿模型，常用的估計(jì)方法有修正最小二乘法、廣義矩估計(jì)、極大似然估計(jì)和貝葉斯估計(jì)。相對(duì)來(lái)說(shuō)，極大似然估計(jì)操作簡(jiǎn)單且估計(jì)量有效。接下來(lái)介紹隨機(jī)模型模型的極大似然估計(jì)法，下文的變量選擇方法也以極大似然估計(jì)法為基礎(chǔ)。

對(duì)于雙邊誤差項(xiàng)vi和單邊技術(shù)無(wú)效率項(xiàng)ui，其密度函數(shù)可分別表示為：

由于vi和ui獨(dú)立，i=1，…，N，故ui和vi的聯(lián)合密度函數(shù)可表示為：

由于εi=vi-ui，從而εi和ui的聯(lián)合概率密度函數(shù)為：

將f(ui，εi)對(duì)ui積分，推導(dǎo)可得到εi的邊際密度函數(shù)：

從而模型的對(duì)數(shù)似然函數(shù)（已去除常數(shù)項(xiàng)）如下：

其中εi=yi-Xiβ，Xi為自變量矩陣的第i行，i=1，…，N。

式（6）的未知參數(shù)集合為φ={λ，σ2，β}，最大化式(8)可得到參數(shù)估計(jì)量由于反解可得和的估計(jì)量和

1.2 變量選擇方法

基于Alasso懲罰函數(shù)的優(yōu)勢(shì)，此處使用Alasso懲罰函數(shù)對(duì)隨機(jī)前沿模型進(jìn)行變量選擇。隨機(jī)前沿模型的待估參數(shù)集為φ={λ，σ2，β}，由于只需對(duì)自變量進(jìn)行選擇，所以只對(duì)參數(shù)變量β施加懲罰。上述目標(biāo)分兩個(gè)步驟完成：

步驟1：計(jì)算基于Lasso懲罰的參數(shù)估計(jì)。

步驟2：使用參數(shù)估計(jì)獲得懲罰權(quán)重，令：

該步驟的目標(biāo)函數(shù)為：

步驟1和步驟2的目標(biāo)函數(shù)無(wú)法得出顯示解，對(duì)應(yīng)的參數(shù)估計(jì)可迭代至收斂。本文取收斂規(guī)則為10-6，其中和分別為第w次和第w+1次迭代得到的估計(jì)量。不斷迭代直至達(dá)到收斂規(guī)則。最終可得參數(shù)集φ的估計(jì)。

上述步驟中，參數(shù)r控制著懲罰的力度。如果r過(guò)大，較多的參數(shù)被壓縮至零，容易導(dǎo)致欠擬合。如果r過(guò)小，無(wú)法達(dá)到變量選擇的目的。常用的選取r的方法有交叉驗(yàn)證、AIC準(zhǔn)則和BIC準(zhǔn)則等，其中基于BIC準(zhǔn)則的變量選擇具有更好的稀疏性。本文的側(cè)重點(diǎn)在于變量選擇的準(zhǔn)確性和模型的稀疏性，所以用BIC準(zhǔn)則決定懲罰參數(shù)r。

步驟1和步驟2可對(duì)隨機(jī)前沿模型進(jìn)行變量選擇并得出模型中的未知參數(shù)的估計(jì)。技術(shù)效率的測(cè)算是隨機(jī)前沿模型的目標(biāo)。Jondrow等（1982）[9]認(rèn)為單邊誤差項(xiàng)u基于復(fù)合誤差項(xiàng)ε的條件分布包含了復(fù)合誤差中關(guān)于單邊誤差的所有信息，其令該條件分布的期望或者眾數(shù)作為單邊誤差項(xiàng)的估計(jì)，即最終技術(shù)效率的估計(jì)為本文雖然對(duì)隨機(jī)前沿模型進(jìn)行變量選擇，但對(duì)技術(shù)效率的估計(jì)仍可沿用JLMS方法。

推導(dǎo)可知ui基于εi的條件分布服從截?cái)嗾龖B(tài)分布，即，其中。該分布的期望或者眾數(shù)可作為技術(shù)無(wú)效率項(xiàng)的點(diǎn)估計(jì)，即：

相應(yīng)技術(shù)效率的估計(jì)為TEi=exp(-ui)，其中ui為ui的點(diǎn)估計(jì)。

2 蒙特卡羅模擬

本文模擬的目的在于考察變量選擇的準(zhǔn)確性及參數(shù)估計(jì)的精度。對(duì)于變量選擇的準(zhǔn)確性，考察了三個(gè)衡量指標(biāo)：①重要變量被錯(cuò)誤剔除的比例。②非重要變量被正確剔除的比例。③正確識(shí)別真實(shí)模型的比例。如果第一個(gè)指標(biāo)越小，那么第二個(gè)和第三個(gè)指標(biāo)就越大，變量選擇的準(zhǔn)確性也越高。對(duì)于參數(shù)估計(jì)的精度，考察估計(jì)量的偏差、標(biāo)準(zhǔn)差和均方誤差。如果上述三個(gè)指標(biāo)越小，則參數(shù)估計(jì)的精度越高。

此處設(shè)計(jì)如下三組模擬：

（1）取N=300，p=6，考慮如下隨機(jī)前沿模型：

其中X為N×p階自變量矩陣，X內(nèi)的元素服從(1，5)的均勻分布。由于本文著重于變量選擇，為了模擬的簡(jiǎn)潔性，此處的模擬不包含截距項(xiàng)；(β1，β2，β3，β4)=(1，2，3，4) ；隨機(jī)誤差項(xiàng)v～N(0，IN) ，無(wú)效率項(xiàng)u～N+(0，22IN)，從而的真值為2的真值為5。

（2）取N=500，其余的定義同模擬（1）。

（3）取N=800，其余的定義同模擬（1）。

模擬（2）和模擬（3）的樣本容量大于模擬（1），有助于分析大樣本下的效果。在模擬分析時(shí)，本文同時(shí)采用普通極大似然估計(jì)方法對(duì)隨機(jī)前沿模型進(jìn)行估計(jì)并比較本文提出方法（用AVS表示）和普通極大似然估計(jì)方法（用LME表示）在變量選擇和參數(shù)估計(jì)方面的表現(xiàn)?；谏鲜龇椒ǖ哪M（1）、模擬（2）和模擬（3）均模擬200次。分析結(jié)果如表1和表2所示：

表1 變量選擇的準(zhǔn)確性（單位：%）

表2 參數(shù)估計(jì)的效果

由表1可知，AVS法和LME對(duì)應(yīng)的指標(biāo)NZZ均為0，這表明雖然本文側(cè)重于變量選擇，但AVS法和LME均不會(huì)把重要變量剔除掉，重要變量的可靠性得到保證。同時(shí)，由于進(jìn)行變量選擇后隨機(jī)前沿模型仍包含所有的重要變量，所以不會(huì)造成遺漏變量、參數(shù)估計(jì)有偏和不一致的問(wèn)題。AVS法對(duì)應(yīng)的指標(biāo)ZZ和Z遠(yuǎn)高于LME，這說(shuō)明AVS法能以較高的正確率將模型中的非重要變量剔除掉并識(shí)別出真實(shí)模型，變量選擇的準(zhǔn)確度較高。當(dāng)樣本容量增加時(shí)，AVS法對(duì)應(yīng)的指標(biāo)ZZ和Z小幅度增加，變量選擇的準(zhǔn)確性也增加。而LME因其較低的準(zhǔn)確率基本不具備變量選擇的功能。雖然隨著樣本容量的增加，LME對(duì)應(yīng)的指標(biāo)ZZ和Z增加，但仍處于較低的水平，故可認(rèn)為L(zhǎng)ME基本不具備變量選擇的功能。

表2清楚地展示了AVS法和LME法對(duì)應(yīng)參數(shù)估計(jì)的偏差、標(biāo)準(zhǔn)差和均方誤差。β5、β6的真值為零且AVS和LME能以較高的比例剔除掉這兩個(gè)參數(shù)對(duì)應(yīng)的變量，故此處不考慮β5、β6的參數(shù)估計(jì)效果。由于變量個(gè)數(shù)、指標(biāo)數(shù)較多，為更直觀簡(jiǎn)潔地比較AVS法和LME的參數(shù)表現(xiàn)，此處把AVS法和LME得出的參數(shù)估計(jì)的偏差、標(biāo)準(zhǔn)差和均方誤差分別提取出來(lái)并繪制成如圖1。參數(shù)β1、β2、β3、β4和參數(shù)λ、σ2在偏差、標(biāo)準(zhǔn)差和均方誤差方面相差較大，故此處把β1、β2、β3、β4和λ、σ2分開(kāi)處理。圖 1（a）、圖1（c）、圖 1（e）分別對(duì)應(yīng)β1、β2、β3、β4的估計(jì)在模擬(1)、模擬(2)、模擬(3)處的偏差、標(biāo)準(zhǔn)差和均方誤差，圖1（b）、圖1（d）、圖1（f）分別對(duì)應(yīng)λ、σ2的估計(jì)在模擬（1）、模擬（2）、模擬（3）處的偏差、標(biāo)準(zhǔn)差和均方誤差。每個(gè)圖包含兩條線，AVS和LME。判斷AVS法是否優(yōu)于LME法即為判斷AVS線是否有較多的點(diǎn)位于LME線的下方。

圖1 AVS法和LME估計(jì)效果比對(duì)

從圖1（a）中可知，AVS線大部分位于LME線的上方。12個(gè)點(diǎn)中，AVS有9個(gè)點(diǎn)高于LME。對(duì)于AVS線，第1、2、3點(diǎn)先上升后下降，第4、5、6點(diǎn)先下降后上升，第7、8、9點(diǎn)和第10、11、12點(diǎn)均連續(xù)下降。對(duì)于LME線，第1、2、3點(diǎn)連續(xù)上升，第4、5、6點(diǎn)連續(xù)下降，第7、8、9點(diǎn)平行下降，第10、11、12點(diǎn)先上升后下降。從圖1（b）中可知，AVS線幾乎完全位于LME線的上方。6個(gè)點(diǎn)中，AVS有5個(gè)點(diǎn)高于LME。對(duì)于AVS線，第1、2、3點(diǎn)連續(xù)下降，第4、5、6點(diǎn)先下降后上升。對(duì)于LME線，第1、2、3點(diǎn)先上升后下降，第4、5、6點(diǎn)連續(xù)上升。上述分析表明AVS法的參數(shù)估計(jì)的偏差大于LME。隨著樣本量的增加，部分參數(shù)估計(jì)的偏差絕對(duì)值增加，部分參數(shù)估計(jì)的偏差絕對(duì)值減少，偏差的表現(xiàn)不穩(wěn)定。

從圖1（c）中可知，AVS線大部分位于LME線的下方。12個(gè)點(diǎn)中，AVS有10個(gè)點(diǎn)低于LME。對(duì)于AVS線，第1、2、3點(diǎn)，第4、5、6點(diǎn)，第7、8、9點(diǎn)和第10、11、12點(diǎn)均連續(xù)下降。LME線也如此。從圖1（d）中可知，AVS線完全位于LME線的上方，AVS的6個(gè)點(diǎn)均高于LME。對(duì)于AVS線，第1、2、3點(diǎn)和第4、5、6點(diǎn)均連續(xù)下降。LME線也如此。上述分析表明，對(duì)于參數(shù)β1、β2、β3、β4，AVS法的標(biāo)準(zhǔn)差低于LME，這說(shuō)明變量選擇方法能有效減少自變量對(duì)應(yīng)的參數(shù)估計(jì)的標(biāo)準(zhǔn)差。對(duì)于參數(shù)λ和σ2，AVS法的標(biāo)準(zhǔn)差要高于LME。隨著樣本容量的增加，AVS法和LME對(duì)應(yīng)的標(biāo)準(zhǔn)差均逐漸減少。

從圖1（e）中可知，AVS線大部分位于LME線的下方。12個(gè)點(diǎn)中，AVS有10個(gè)點(diǎn)低于LME。對(duì)于AVS線，第1、2、3點(diǎn)，第4、5、6點(diǎn)，第7、8、9點(diǎn)和第10、11、12點(diǎn)均連續(xù)下降。LME線也如此。從圖1（f）中可知，AVS線完全位于LME線的上方，AVS的6個(gè)點(diǎn)均高于LME。對(duì)于AVS線，第1、2、3點(diǎn)和第4、5、6點(diǎn)均連續(xù)下降。LME線也如此。上述分析表明，對(duì)于參數(shù)β1、β2、β3、β4，AVS法的均方誤差低于LME。對(duì)于參數(shù)λ和σ2，AVS法的均方誤差均高于LME。該結(jié)果較好理解。參數(shù)λ和σ2的估計(jì)與殘差密切相關(guān)，引入越多的變量，殘差會(huì)擬合得越好。

綜上可知，對(duì)于自變量對(duì)應(yīng)參數(shù)β1、β2、β3、β4，AVS法的估計(jì)效果優(yōu)于LME法。對(duì)于參數(shù)λ和σ2，AVS法的估計(jì)效果次于LME法。

3 結(jié)論

本文首次使用Alasso懲罰方法對(duì)隨機(jī)前沿模型進(jìn)行變量選擇和參數(shù)估計(jì)，Alasso懲罰方法為連續(xù)最優(yōu)化過(guò)程，具有較好的穩(wěn)定性和較少的計(jì)算量。接著使用蒙特卡羅模擬考察變量選擇的準(zhǔn)確性和參數(shù)估計(jì)的效果。

模擬結(jié)果表明：（1）隨機(jī)前沿模型常用的LME方法基本不具備變量選擇的功能，LME方法不能有效識(shí)別模型中非重要的要素投入。（2）AVS能以較高的準(zhǔn)確率剔除非重要變量、保留重要變量和識(shí)別真實(shí)模型，變量選擇的準(zhǔn)確性較高。所以在進(jìn)行影響因素分析時(shí)，AVS法的結(jié)果更為可靠。（3）對(duì)于自變量對(duì)應(yīng)的參數(shù)估計(jì)，AVS法的偏差大部分高于LME，但標(biāo)準(zhǔn)差和均方誤差均低于LME，這說(shuō)明變量選擇方法能有效減少自變量對(duì)應(yīng)的參數(shù)估計(jì)的標(biāo)準(zhǔn)差和均方誤差，從而使自變量對(duì)應(yīng)的參數(shù)估計(jì)的精度增加，參數(shù)估計(jì)的總體效果更優(yōu)。在進(jìn)行要素投入比計(jì)算或者影響因素分析時(shí)，使用AVS法較優(yōu)。

基于上述模擬分析可知，文中方法在要素投入比計(jì)算和影響因素分析時(shí)較有效，因此可將模型應(yīng)用到此類問(wèn)題的分析中。變量選擇對(duì)應(yīng)的參數(shù)估計(jì)的精度較高，要素投入比計(jì)算較準(zhǔn)確，從而得出的要素分配更合理。此外，變量選擇也有助于挑選出顯著影響產(chǎn)出的投入，從而生產(chǎn)單元無(wú)需過(guò)多關(guān)注不顯著的投入，避免了資源浪費(fèi)。本文模型以產(chǎn)出隨機(jī)前沿模型為基礎(chǔ)，做少許變化即可把文中方法應(yīng)用到成本隨機(jī)前沿模型。面板數(shù)據(jù)同時(shí)考慮了空間相關(guān)性性和時(shí)間依賴性，具有更高的自由度和更豐富的信息量。文中方法也可順利拓展到面板隨機(jī)前沿模型的變量選擇。