孔 航
(南京理工大學(xué) 馬克思主義學(xué)院,南京 210094)
參數(shù)回歸是最早也是應(yīng)用最為廣泛的一類主流模型,主要是基于抽樣方法對樣本進(jìn)行統(tǒng)計(jì)研究,使用統(tǒng)計(jì)數(shù)據(jù)對模型中的參數(shù)進(jìn)行估計(jì)[1]。但由于參數(shù)回歸對先驗(yàn)信息的要求過高,如果先驗(yàn)信息較少或錯(cuò)誤,則直接導(dǎo)致估計(jì)結(jié)果不準(zhǔn)確[2]。非參數(shù)回歸模型是計(jì)量模型的一次重大變革,該模型只要求知道樣本所屬類別,可以在先驗(yàn)信息較少或很難獲取的情況下進(jìn)行統(tǒng)計(jì)推斷,自Bleakley(2004)年首次應(yīng)用該模型以來得到非常廣泛的推廣和應(yīng)用[3]。
傳統(tǒng)非參數(shù)回歸模型雖然能對事物之間關(guān)系的基本規(guī)律進(jìn)行較為準(zhǔn)確地表述,但對事物發(fā)展過程中各個(gè)節(jié)點(diǎn)等同對待,無法區(qū)分部分節(jié)點(diǎn)的情況變化[4]。鑒于傳統(tǒng)非參數(shù)模型的局限性,本文試圖基于貝葉斯的基本原理對非參數(shù)函數(shù)進(jìn)行分位數(shù)處理,從而分析該函數(shù)在每個(gè)分位點(diǎn)的基本特征,推介一種新的基于貝葉斯法的非參數(shù)分位數(shù)回歸模型,實(shí)證研究我國企業(yè)的核心競爭力問題。
根據(jù)Kingne(2016)[5]的研究結(jié)果,假設(shè)所搜集的樣本集X和Y共n組,分別為:(Y1,X1),(Y2,X2),…,(Yn,Xn),第i組樣本中X和Y的函數(shù)關(guān)系可以表述為如下形式:
其中α表示Y的條件均值,ε是隨機(jī)擾動項(xiàng),假設(shè)隨機(jī)擾動項(xiàng)服從標(biāo)準(zhǔn)正態(tài)分布,即ε~(0 ,σ2)。傳統(tǒng)方法認(rèn)為可以以上述公式為基礎(chǔ)構(gòu)建核密度函數(shù)K,假設(shè)帶寬是h,則有如下形式:
對構(gòu)建的核密度函數(shù)進(jìn)行加權(quán)平均處理后的結(jié)果為:
Nadaraya(2007)[6]認(rèn)為可以使用如下形式對核密度函數(shù)進(jìn)行估計(jì):
這種非參數(shù)的核密度估計(jì)方法實(shí)質(zhì)上就是傳統(tǒng)最小二乘法的加權(quán)處理。
由于核估計(jì)是基于加權(quán)最小二乘法的估計(jì)方法,權(quán)重的相對固定性很容易使估計(jì)結(jié)果出現(xiàn)偏差[7]。多項(xiàng)式法試圖在核估計(jì)法的基礎(chǔ)上對權(quán)重進(jìn)行動態(tài)處理,如果函數(shù)M在一定范圍內(nèi)屬于n階可導(dǎo),可以通過無限逼近的方法進(jìn)行泰勒公式展開[8]。其表達(dá)式為:
通過最小化方法可以求出β的估計(jì)值:
上述公式向量化的表述公式為:
對上述公式進(jìn)行最小化求解可以得到β的估計(jì)值:
其中X和Y的形式分別為:
假設(shè)存在正常數(shù)k,其范圍為大于1且小于n,可以用離觀測樣本最近的k個(gè)觀測值進(jìn)行表述[9]。具體表述為如下形式:
其中Xi表示上述k個(gè)最近觀測值中的第i個(gè),使用這種最近鄰估計(jì)法所得到的估計(jì)公式的表述形式為:
其中權(quán)重w的表述形式為:
近鄰估計(jì)法主要基于以上加權(quán)公式進(jìn)行變量的測度。
利用上述三種經(jīng)典估計(jì)方法進(jìn)行例證分析,以驗(yàn)證估計(jì)結(jié)果的精準(zhǔn)性。
根據(jù)前述核估計(jì)法的基本原理,構(gòu)建如下非參數(shù)計(jì)量模型進(jìn)行算例分析:
其中解釋變量X屬于均勻分布,隨機(jī)擾動項(xiàng)屬于正態(tài)分布,選取500組作為樣本數(shù)據(jù)輸入,進(jìn)行800次模擬計(jì)算,計(jì)算結(jié)果見圖1,其中實(shí)線表示Y的實(shí)際值,虛線表示Y的估計(jì)值。從圖1估計(jì)結(jié)果可以看出,核估計(jì)法在一定程度上可以對Y值進(jìn)行較為準(zhǔn)確的估計(jì),但是在很多地方出現(xiàn)較大的偏差,實(shí)際值和估計(jì)值的擬合度并不太理想。
圖1核估計(jì)法算例分析結(jié)果
根據(jù)前述核估計(jì)法的基本原理,構(gòu)建如下非參數(shù)計(jì)量模型進(jìn)行多項(xiàng)式算例分析:
同樣解釋變量X屬于均勻分布,隨機(jī)擾動項(xiàng)屬于正態(tài)分布,為了保證估計(jì)結(jié)果的可比性,仍然選取500組作為樣本數(shù)據(jù)輸入,進(jìn)行800次模擬計(jì)算,計(jì)算結(jié)果見圖2,其中實(shí)線表示Y的實(shí)際值,虛線表示Y的估計(jì)值。從圖2估計(jì)結(jié)果可以看出,多項(xiàng)式估計(jì)法在一定程度上也可以對Y值進(jìn)行較為準(zhǔn)確的估計(jì),但是在很多地方也出現(xiàn)較大的偏差,實(shí)際值和估計(jì)值的擬合度也不是很理想。
圖2多項(xiàng)式估計(jì)法算例估計(jì)結(jié)果
根據(jù)前述核估計(jì)法的基本原理,構(gòu)建如下非參數(shù)計(jì)量模型進(jìn)行近鄰估計(jì)法算例分析:
同樣解釋變量X屬于均勻分布,隨機(jī)擾動項(xiàng)屬于正態(tài)分布,為了保證估計(jì)結(jié)果的可比性,仍然選取500組作為樣本數(shù)據(jù)輸入,進(jìn)行800次模擬計(jì)算,計(jì)算結(jié)果見圖3,其中實(shí)線表示Y的實(shí)際值,虛線表示Y的估計(jì)值。從圖3估計(jì)結(jié)果可以看出近鄰估計(jì)法在一定程度上也可以對Y值進(jìn)行較為準(zhǔn)確的估計(jì),但是在很多地方也出現(xiàn)較大的偏差,實(shí)際值和估計(jì)值的擬合度也不是很理想。
圖3近鄰估計(jì)法算例估計(jì)結(jié)果
通過對上述三種傳統(tǒng)的估計(jì)方法進(jìn)行算例分析演算,認(rèn)為傳統(tǒng)估計(jì)方法可以在很大程度上對被解釋變量進(jìn)行較為準(zhǔn)確的估計(jì)。但是由于傳統(tǒng)算法實(shí)質(zhì)上就是加權(quán)最小二乘法的應(yīng)用,對變量權(quán)重的設(shè)定相對固定,無法根據(jù)變量的重要程度調(diào)整權(quán)重,因此對模型中出現(xiàn)的動態(tài)變量適應(yīng)性較差,在估計(jì)過程中出現(xiàn)實(shí)際值和估計(jì)值較大偏差現(xiàn)象。所推介的基于貝葉斯法的非參數(shù)分位數(shù)模型可以通過分位數(shù)的多次估計(jì)來解決上述問題。
由于傳統(tǒng)非參數(shù)估計(jì)方法對變量權(quán)重的相對靜態(tài)設(shè)定,使該方法的應(yīng)用出現(xiàn)很大局限,貝葉斯估計(jì)是基于貝葉斯定理對先驗(yàn)信息的一種估計(jì),而且貝葉斯估計(jì)法可以進(jìn)行迭代處理,即可以利用根據(jù)貝葉斯定理得到的新信息迭代處理后得到進(jìn)一步的信息,因此對數(shù)據(jù)的處理過程更科學(xué)[10]。但是貝葉斯法在處理過程中仍然面臨變量權(quán)重的問題,而根據(jù)不同的分位數(shù)設(shè)定不同的權(quán)重具有較強(qiáng)的合理性[11]。因此本文接下來基于貝葉斯原理進(jìn)行分位數(shù)回歸來推導(dǎo)非參數(shù)模型。
傳統(tǒng)的非參數(shù)模型的基本公式表達(dá)方式為:
該公式可以對事物之間關(guān)系的基本規(guī)律進(jìn)行較為準(zhǔn)確地表述,但對事物發(fā)展過程中各個(gè)節(jié)點(diǎn)的情況無法把握,這里基于貝葉斯基本方法對非參數(shù)函數(shù)進(jìn)行分位數(shù)處理,從而分析該函數(shù)在每個(gè)分位點(diǎn)的基本特征,拓展的分位數(shù)非參數(shù)模型的基本形式如下:
其中QYij表示Yij的分位數(shù),x表示樣本個(gè)體的觀測值,α和β是個(gè)體向量,z是相應(yīng)的協(xié)變量。這里需要對隨機(jī)擾動項(xiàng)ε進(jìn)行以下基本假設(shè):
如果能夠知道先驗(yàn)信息p,則可通過以上分位數(shù)公式進(jìn)行求解,先驗(yàn)信息p的表達(dá)式為:
其中Vk是獨(dú)立同分布變量且服從Beta(ak,bk)分布,根據(jù)以上推導(dǎo)[9]構(gòu)建如下非參數(shù)貝葉斯分位數(shù)模型:
由于似然估計(jì)法根據(jù)似然最大化的基本原理對估計(jì)結(jié)果的精準(zhǔn)性預(yù)測較高[12],這里,使用似然函數(shù)的方法求解,其似然函數(shù)的公式為:
由于該公式包含(2M)N項(xiàng)需要計(jì)算,即使M和N很小,計(jì)算量也非常龐大,為了減輕計(jì)算負(fù)擔(dān),對上述公式進(jìn)行拓展研究,引入潛變量G和H,則可以把上述公式改寫為:
其中Cat表示變量的分布類型,此時(shí)上述公式的似然函數(shù)則可簡化為:
該似然函數(shù)公式從原來的(2M)N項(xiàng)減少為現(xiàn)在N項(xiàng),大大減輕了計(jì)算壓力?;谪惾~斯的基本方法對非參數(shù)函數(shù)進(jìn)行分位數(shù)拓展研究,可以大大提高運(yùn)行速度。
由于基于貝葉斯定理的分位數(shù)回歸模型對初始值的要求較高,如何選擇初始值對估計(jì)結(jié)果的準(zhǔn)確性有較大影響[13]。可以通過選定初始值然后進(jìn)行逐步校準(zhǔn),如果得到的校準(zhǔn)結(jié)果可以通過顯著性檢驗(yàn)表明所選定的初始值具有較高的可信度[14]。為了驗(yàn)證所構(gòu)建的拓展的非參數(shù)函數(shù)的可信度,通過Gibbs抽樣算法進(jìn)行校準(zhǔn),對潛變量G和H進(jìn)行推導(dǎo),潛變量的條件密度函數(shù)為:
其聯(lián)合密度函數(shù)的形式可以表述為:
根據(jù)貝葉斯的基本原理可以分別得到潛變量G和H的條件后驗(yàn)分布形式為:+B0b0,α的表達(dá)形式為:
由于構(gòu)建的基于貝葉斯的非參數(shù)分位數(shù)回歸模型通過先驗(yàn)信息V的方式進(jìn)行計(jì)算,而不是直接計(jì)算,如果先驗(yàn)信息V可靠,則可以得出較為可靠的結(jié)論[15]。先驗(yàn)信息V的密度函數(shù)形式為:
上述密度函數(shù)的分布又可以寫成以下形式:
同時(shí)對?的形式設(shè)定如下:
把上述公式等價(jià)轉(zhuǎn)化后可得?的分布形式為:
以上推導(dǎo)表明所有潛變量和先驗(yàn)信息均屬于較為常見的分布形式,因此,可以通過Gibbs抽樣算法進(jìn)行逐步計(jì)算從而對模型的可信度校準(zhǔn),基本步驟為:首先,設(shè)定一個(gè)初始值 Θ0,利用β的分布形式π(β|y,Θ-β)求出β值,利用α的分布形式π(α|y,Θ-α)求出α值,利用G的分布形式π(G|y,Θ-G)求出G值,利用H的分布形式π(H|y,Θ-H) 求出H值,利用μ的分布形式π(μ|y,Θ-μ)分別求出μ1g和μ0g值,利用σ的分布形式π(σ|y,Θ-σ)分別求出σ1g和σ0g值,利用?的分布形式π(?2|y,Θ-?2)求出?2值,利用V的分布形式π(V|y,Θ-V)求出V值。根據(jù)以上步驟對新構(gòu)建的基于貝葉斯的非參數(shù)分位數(shù)回歸模型進(jìn)行抽樣校準(zhǔn),校準(zhǔn)結(jié)果見表1。從表1的結(jié)果可以看出當(dāng)初始值為0.1、0.5、1.0、1.5、2.0和2.5時(shí)t值都在0.01的顯著性水平下通過檢驗(yàn),表明所構(gòu)建的基于貝葉斯的非參數(shù)分位數(shù)回歸模型具有較高的可信度,Gibbs校準(zhǔn)效果較好。
表1 基于貝葉斯的非參數(shù)分位數(shù)回歸模型校準(zhǔn)結(jié)果
為了論證本文所構(gòu)建的基于貝葉斯定理的分位數(shù)非參數(shù)回歸模型的精準(zhǔn)性,本文使用相同的樣本進(jìn)行算例比較分析,由于不同的估計(jì)方法對數(shù)據(jù)的處理過程存在較大差異,通過對各變量消除度量單位進(jìn)行無量綱化處理,以便于更為形象的比較。為了在比較過程中更為清晰地看出結(jié)果差異,用表格的形式把估計(jì)值列出來。
首先使用傳統(tǒng)的非參數(shù)估計(jì)方法再次進(jìn)行算例分析,對我國企業(yè)的核心競爭力進(jìn)行定兩測度,使用我國年?duì)I業(yè)額超過5000萬的大中型企業(yè)作為研究樣本,數(shù)據(jù)來源于2000—2017年《中國大中型企業(yè)競爭力發(fā)展報(bào)告》。核估計(jì)法、多項(xiàng)式估計(jì)法和近鄰估計(jì)法的測度結(jié)果見表2,從估計(jì)結(jié)果來看,大部分結(jié)果都通過了顯著性檢驗(yàn),但沒有一個(gè)結(jié)果在1%顯著性水平上通過檢驗(yàn),還有部分結(jié)果沒有通過顯著性檢驗(yàn),說明傳統(tǒng)非參數(shù)估計(jì)方法需要進(jìn)一步改進(jìn)。
表2 企業(yè)核心競爭力的傳統(tǒng)估計(jì)方法回歸結(jié)果
與經(jīng)典的非參數(shù)回歸模型不同,貝葉斯非參數(shù)分位數(shù)回歸模型的關(guān)鍵是選取初始值,這里通過蒙特卡洛模擬選取初始值,使用以下公式生成相應(yīng)數(shù)據(jù):,在蒙特卡洛模擬過程中對先驗(yàn)信息的選取規(guī)則為N(0,100I),Gibbs抽樣次數(shù)為1000,進(jìn)行500次蒙特卡洛模擬,模擬的均方差(MSE)為:,使用蒙特卡洛進(jìn)行500次的模擬,從模擬結(jié)果來看0.3分位數(shù)的最優(yōu)次數(shù)最多,初始值為0.6時(shí)為最佳選擇標(biāo)準(zhǔn),所以本文最終選擇0.6為初始值進(jìn)行實(shí)證研究。
根據(jù)Kjhege(2017)[10]的研究結(jié)論,企業(yè)的核心競爭力與其所處的發(fā)展階段具有非常密切的關(guān)系,他把這種現(xiàn)象稱為企業(yè)的生命周期,因此企業(yè)的核心競爭力和企業(yè)的發(fā)展階段不是線性關(guān)系,而是二次項(xiàng)形式,這里設(shè)定如下三種模型研究企業(yè)的核心競爭力:
模型1:普通非參數(shù)分位數(shù)回歸模型
模型2:帶截距的非參數(shù)分位數(shù)回歸模型
模型3:帶截距和斜率的非參數(shù)分位數(shù)回歸模型
使用蒙特卡洛模擬的最優(yōu)分位數(shù)0.3和最佳初始值0.6為標(biāo)準(zhǔn),分別使用三個(gè)不同模型對我國企業(yè)2000—2017年的核心競爭力進(jìn)行非參數(shù)分位數(shù)回歸分析,企業(yè)標(biāo)準(zhǔn)化的核心競爭力回歸結(jié)果見表3,從回歸結(jié)果來看,所有模型在所有年份都通過了顯著性檢驗(yàn),表示使用所構(gòu)建的非參數(shù)分位數(shù)模型的回歸結(jié)果較為理想。從數(shù)值大小來看,模型1的數(shù)值相對較大,模型3的數(shù)值相對較小,模型2的數(shù)值介于模型1和模型3之間,可能是因?yàn)槟P?加入了截距變量,模型3加入了截距和斜率變量,從而更能接近實(shí)際。估計(jì)結(jié)果表明我國企業(yè)2000—2017年核心競爭力的發(fā)展趨勢,總體來看處于較為明顯的上升階段,表示我國企業(yè)的核心競爭力還有很大的發(fā)展空間,目前處于拐點(diǎn)左側(cè)的上升發(fā)展區(qū)間,在2008—2009年金融危機(jī)期間有小幅下滑。
表3 企業(yè)核心競爭力的非參數(shù)分位數(shù)回歸結(jié)果
核估計(jì)法、多項(xiàng)式估計(jì)法和近鄰估計(jì)法的測度結(jié)果大部分都通過了顯著性檢驗(yàn),但沒有一個(gè)結(jié)果在1%顯著性水平上通過檢驗(yàn),還有部分結(jié)果沒有通過顯著性檢驗(yàn),說明傳統(tǒng)非參數(shù)估計(jì)方法在進(jìn)行計(jì)量驗(yàn)證時(shí)偏差相對較大需要進(jìn)一步改進(jìn)。本文所構(gòu)建的基于貝葉斯的分位數(shù)估計(jì)方法在所有模型在所有年份都通過了顯著性檢驗(yàn),而且大部分是在1%顯著性水平下通過檢驗(yàn),表明使用所構(gòu)建的非參數(shù)分位數(shù)模型的回歸結(jié)果和傳統(tǒng)估計(jì)方法相比估計(jì)結(jié)果的精度大大提高,該方法具有分位點(diǎn)差異性、高效性和可靠性等優(yōu)點(diǎn),用此方法進(jìn)行計(jì)量分析所得結(jié)果較為理想。比較研究結(jié)果論證本文所構(gòu)建的基于貝葉斯定理的分位數(shù)非參數(shù)回歸模型的精準(zhǔn)性。
傳統(tǒng)非參數(shù)回歸模型雖然能對事物之間關(guān)系的基本規(guī)律進(jìn)行較為準(zhǔn)確地表述,但對事物發(fā)展過程中各個(gè)節(jié)點(diǎn)等同對待,無法區(qū)分部分節(jié)點(diǎn)的情況變化,本文基于貝葉斯的基本方法對非參數(shù)函數(shù)進(jìn)行分位數(shù)處理,從而分析該函數(shù)在每個(gè)分位點(diǎn)的基本特征,構(gòu)建一種新的基于貝葉斯法的非參數(shù)分位數(shù)回歸模型,并與傳統(tǒng)非參數(shù)回歸模型進(jìn)行算例比較研究。比較研究結(jié)果認(rèn)為基于貝葉斯法的非參數(shù)分位數(shù)回歸該模型具有以下優(yōu)點(diǎn):第一,分位點(diǎn)差異性。該模型有別于傳統(tǒng)非參數(shù)模型,可以對每個(gè)分位點(diǎn)的差異進(jìn)行分析,可以根據(jù)需要設(shè)定分位點(diǎn)通過模型測度分位點(diǎn)的優(yōu)劣,從而確定最優(yōu)分位點(diǎn)。第二,高效性。該模型從傳統(tǒng)非參數(shù)模型的(2M)N項(xiàng)減少為現(xiàn)在N項(xiàng),大大減輕了計(jì)算壓力,基于貝葉斯的基本方法對非參數(shù)函數(shù)進(jìn)行分位數(shù)拓展研究,可以大大提高運(yùn)行速度。第三,可靠性。通過Gibbs法對新構(gòu)建的基于貝葉斯的非參數(shù)分位數(shù)回歸模型進(jìn)行抽樣校準(zhǔn),發(fā)現(xiàn)校準(zhǔn)結(jié)果較為理想,通過蒙特卡洛模擬選取初始值進(jìn)行回歸的精度較高。