摘要:基于時(shí)間序列數(shù)據(jù)的教育預(yù)測(cè)方法較多,主要有趨勢(shì)外推法、人口離散預(yù)測(cè)模型、生命表法、灰色預(yù)測(cè)法、線性回歸模型、分布滯后模型、Logistic模型、人工神經(jīng)網(wǎng)絡(luò)方法等,對(duì)一些代表性的方法作了簡(jiǎn)單的概括,在此基礎(chǔ)上,通過(guò)構(gòu)建ARIMA模型擬合湖南中等職業(yè)教育的發(fā)展趨勢(shì),對(duì)湖南2007—2011年中等職業(yè)教育發(fā)展規(guī)模進(jìn)行客觀預(yù)測(cè)。
關(guān)鍵詞:職業(yè)教育;教育預(yù)測(cè);ARIMA模型
中圖分類號(hào):G40-03文獻(xiàn)標(biāo)志碼:A文章編號(hào):1673-291X(2008)06-0189-02
一、文獻(xiàn)綜述
基于時(shí)間序列數(shù)據(jù)的教育預(yù)測(cè)方法較多,主要有趨勢(shì)外推法、人口離散預(yù)測(cè)模型、生命表法、灰色預(yù)測(cè)法、線性回歸模型、分布滯后模型、Logistic模型、人工神經(jīng)網(wǎng)絡(luò)方法等。下面對(duì)這些代表性文獻(xiàn)予以簡(jiǎn)單的概括。
曹志祥、高書(shū)國(guó)(2004)以全國(guó)及城鄉(xiāng)全部0~17歲人口為高中階段教育發(fā)展預(yù)測(cè)的基數(shù),采取低預(yù)測(cè)、中預(yù)測(cè)和高預(yù)測(cè)三種方法,從普通高中階段教育入學(xué)率的40%左右到85%之間,以每5個(gè)百分點(diǎn)為界對(duì)在校生規(guī)模進(jìn)行具體預(yù)測(cè),從而得到不同入學(xué)率下的2003—2020年全國(guó)高中階段教育招生規(guī)模[1]。
李霞、劉家壯(2004)以基礎(chǔ)教育發(fā)展為研究對(duì)象,在應(yīng)用新增人口的離散預(yù)測(cè)模型基礎(chǔ)上,分別建立了小學(xué)和初中招生數(shù)、分年級(jí)在校生規(guī)模、在校生總量、專任教師需求和補(bǔ)充規(guī)模的預(yù)測(cè)模型。
王金營(yíng)、王紹杰(2006)根據(jù)2000年河北省人口普查資料構(gòu)造出河北省教育生命表。在對(duì)2000年河北省教育狀況作出合理分析的基礎(chǔ)上,對(duì)未來(lái)20年內(nèi)河北省各教育階段升學(xué)率作出了高中低三種方案的設(shè)計(jì)
馬守春(2006)根據(jù)1997—2003年西藏自治區(qū)人口出生數(shù),建立GM模型用于預(yù)測(cè)若干年內(nèi)新出生人數(shù),并分別建立了基礎(chǔ)教育階段在校生總量和分年級(jí)在校生的預(yù)測(cè)模型。
謝作栩、黃榮坦(2000)以20世紀(jì)下半葉我國(guó)高等教育學(xué)生數(shù)和高等教育毛入學(xué)率的波動(dòng)為研究對(duì)象,主要采用線性回歸分析方法考察高等教育規(guī)模擴(kuò)張過(guò)程的發(fā)展趨勢(shì),得到中國(guó)高等教育毛入學(xué)率的增長(zhǎng)趨勢(shì)方程,并外推出今后10年高等教育規(guī)模的發(fā)展趨勢(shì)[2]。
邱雅(2005)運(yùn)用帶有自回歸項(xiàng)的分布滯后模型對(duì)我國(guó)高中教育發(fā)展規(guī)模進(jìn)行計(jì)量預(yù)測(cè)與分析。這種預(yù)測(cè)采用逐步推算的方法,分五個(gè)步驟進(jìn)行:首先預(yù)測(cè)小學(xué)畢業(yè)生數(shù);由小學(xué)畢業(yè)生數(shù)預(yù)測(cè)初中招生數(shù);由初中招生數(shù)預(yù)測(cè)初中畢業(yè)生數(shù);由初中畢業(yè)生數(shù)預(yù)測(cè)職前高中招生數(shù);由職前高中招生數(shù)預(yù)測(cè)職前高中的規(guī)模[3]。
苗紅、李全生、吳建偉(2004)采用logistic方程作為高等教育發(fā)展規(guī)模預(yù)測(cè)模型,根據(jù)時(shí)間序列回歸確定模型參數(shù),對(duì)1980—2002年的歷史數(shù)據(jù)進(jìn)行了擬合,并對(duì)高校在校生人口的比重進(jìn)行了短期和長(zhǎng)期預(yù)測(cè)[4]。
劉迎春(2005)運(yùn)用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱的線性網(wǎng)絡(luò)模型對(duì)上海市1980年至今的職業(yè)教育規(guī)模進(jìn)行了分析,并比較了不同的輸入向量個(gè)數(shù)、不同訓(xùn)練樣本個(gè)數(shù)對(duì)預(yù)測(cè)結(jié)果的影響[5]。雖然線性網(wǎng)絡(luò)能夠在保證誤差平方和最小的意義下逼近非線性問(wèn)題,但它卻不能夠無(wú)誤差地解決非線性問(wèn)題。該方法還要求數(shù)據(jù)量足夠多,這樣預(yù)測(cè)的值就越精確。
從上述分析我們可以看出,不同的預(yù)測(cè)方法其建模思想、前提條件是不同的,對(duì)于教育預(yù)測(cè)而言,我們應(yīng)該選擇預(yù)測(cè)精度高、模型形式相對(duì)簡(jiǎn)單的方法。本文中我們將選用ARIMA模型,這是被普遍稱之為博克斯——詹金斯(BJ)方法論的新預(yù)測(cè)方法,在“讓數(shù)據(jù)自己說(shuō)話”的哲理的指引下,著重于分析經(jīng)濟(jì)時(shí)間序列本身的概率或隨機(jī)性質(zhì),而不在意于構(gòu)造單一方程抑或聯(lián)立方程模型。該方法既不需要設(shè)定一些關(guān)鍵參數(shù)(或變量),也不需要在預(yù)測(cè)最終變量之前先對(duì)模型中的相關(guān)變量作預(yù)測(cè),因而能夠降低預(yù)測(cè)的誤差。
二、ARIMA模型的構(gòu)建
為了構(gòu)建ARIMA模型以預(yù)測(cè)湖南中等職業(yè)教育發(fā)展趨勢(shì),我們選取了中職在校生數(shù)(zxsrs)作為湖南中等職業(yè)教育發(fā)展規(guī)模的觀測(cè)指標(biāo)。通過(guò)搜集1978—2006年湖南中職在校生數(shù)的統(tǒng)計(jì)數(shù)據(jù),運(yùn)用Eviews3.1軟件,我們做出了1978—2006年湖南中職在校生數(shù)的折線圖。從圖形上看,中職在校生數(shù)帶有明顯的時(shí)間趨勢(shì),應(yīng)該為非平穩(wěn)序列。因此,我們對(duì)中職在校生數(shù)(zxsrs)做單位根檢驗(yàn),檢驗(yàn)式中包括截距項(xiàng),所得檢驗(yàn)結(jié)果如表1所示,相應(yīng)的檢驗(yàn)式為:
(0.3080)
表1給出了檢驗(yàn)結(jié)果(ADF=0.3080)。很明顯,該值比三個(gè)給定的臨界值都大,可見(jiàn)中職在校生數(shù)(zxsrs)是一個(gè)非平穩(wěn)序列。這樣一來(lái),我們就應(yīng)該繼續(xù)對(duì)中職在校生數(shù)(zxsrs)的一階差分序列進(jìn)行單位根檢驗(yàn)。檢驗(yàn)結(jié)果如表2所示:
從表2可知,ADF=-4.3325,小于不同檢驗(yàn)水平的臨界值,可見(jiàn)中職在校生數(shù)(zxsrs)的一階差分序列?駐zxsrst是一個(gè)平穩(wěn)序列。因此zxsrst,~I(xiàn)(1),為一階單整序列,可以用ARIMA模型來(lái)模擬其變化規(guī)律。
首先觀察自相關(guān)系數(shù)和偏相關(guān)系數(shù)的圖形,可以看出,序列的自相關(guān)系數(shù)是拖尾的,偏相關(guān)系數(shù)在5階截尾,由此可以判斷序列基本滿足AR(5)過(guò)程。通過(guò)ARIMA建模發(fā)現(xiàn),AR(1)、AR(2)、AR(3)、AR(4)的系數(shù)均沒(méi)有顯著性,因此,剔除這四項(xiàng)繼續(xù)估計(jì),所得估計(jì)結(jié)果如表3所示:
對(duì)應(yīng)的模型表達(dá)式是:
D(ZXSRS)= 2.6073 + [AR(5)=-0.5022](2)
Se=(0.7375) (0.2329)
t=(3.5352) (-2.1567)
R2=0.1813
為了判斷模型(2)是不是對(duì)數(shù)據(jù)的一個(gè)良好的擬合,一種簡(jiǎn)易的診斷是求出模型(2)中的殘差并計(jì)算這些殘差的自相關(guān)(ACF)和偏相關(guān)(PACF)。殘差序列的自相關(guān)圖和偏相關(guān)圖右側(cè)給出相對(duì)于每一個(gè)滯后期的自相關(guān)系數(shù)和偏相關(guān)系數(shù)值。我們發(fā)現(xiàn),沒(méi)有任何自相關(guān)和偏相關(guān)是個(gè)別地在統(tǒng)計(jì)上顯著的。最右側(cè)Prob列中的數(shù)字表示相應(yīng)自由度條件下統(tǒng)計(jì)量取值大于相應(yīng)Q值的概率。因?yàn)檫@一列概率值都大于0.05,說(shuō)明所有的Q值都小于檢驗(yàn)水平為0.05的分布臨界值。自相關(guān)和偏相關(guān)的相關(guān)圖表明,從模型(2)估計(jì)出來(lái)的隨機(jī)誤差序列是一個(gè)白噪聲序列,我們沒(méi)有必要再去尋覓其他的ARIMA模型了。
三、模型評(píng)價(jià)及預(yù)測(cè)
在利用模型(2)進(jìn)行預(yù)測(cè)之前,我們需要對(duì)模型的預(yù)測(cè)功能進(jìn)行評(píng)價(jià)。通常的做法是將整個(gè)樣本區(qū)間分成兩個(gè)部分,用前一段數(shù)據(jù)估計(jì)模型,然后利用所估計(jì)的模型對(duì)余下的數(shù)據(jù)點(diǎn)進(jìn)行預(yù)測(cè)。一般是用85%~90%的數(shù)據(jù)進(jìn)行估計(jì),剩余的數(shù)據(jù)進(jìn)行檢驗(yàn)。通過(guò)實(shí)際值和預(yù)測(cè)值的對(duì)比,評(píng)價(jià)模型的預(yù)測(cè)功能。因此,我們先用1978—2003年湖南中職在校生數(shù)建立模型,對(duì)2004—2006年湖南中職在校生數(shù)進(jìn)行預(yù)測(cè),然后用2004—2006年湖南中職在校生數(shù)的實(shí)際值作為檢驗(yàn)性數(shù)據(jù),考察實(shí)際值與預(yù)測(cè)值之間的偏差。模型估計(jì)結(jié)果為:
D(ZXSRS)=2.5781+[AR(5)=-0.4922](3)
Se=(0.8484)(0.2848)
t=(3.0389)(-1.7286)
R2=0.1424
利用模型(3)我們可以求出2004—2006年湖南中職在校生數(shù)的預(yù)測(cè)值。將這些預(yù)測(cè)值的點(diǎn)連成曲線,與實(shí)際值的折線圖對(duì)比。從圖中我們發(fā)現(xiàn),2004—2006年的實(shí)際值與預(yù)測(cè)值幾乎是重疊的,表明模型具有較好的預(yù)測(cè)能力。因此,我們可以依據(jù)模型(2)及1978—2006年湖南中職在校生數(shù)的實(shí)際值來(lái)預(yù)測(cè)2007—2011年的湖南中職在校生數(shù),預(yù)測(cè)的結(jié)果如表4所示:
參考文獻(xiàn):
[1]曹志祥,高書(shū)國(guó).全國(guó)高中階段教育發(fā)展預(yù)測(cè)[J].基礎(chǔ)教育參考,2004,(10):8-11.
[2]謝作栩,黃榮坦.20世紀(jì)下半葉中國(guó)高等教育規(guī)模發(fā)展波動(dòng)研究——兼21世紀(jì)初高等教育發(fā)展預(yù)測(cè)[J].教育研究,2000,
(10):15-27.
[3]邱雅.我國(guó)高中教育發(fā)展規(guī)模的計(jì)量預(yù)測(cè)與分析[J].教育與經(jīng)濟(jì),2005,(2):48-53.
[4]苗紅,李全生,吳建偉.我國(guó)高等教育發(fā)展規(guī)模的分析與預(yù)測(cè)[J].中國(guó)地質(zhì)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2004,(3):75-77.
[5]劉迎春.中等職業(yè)教育規(guī)模的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J].系統(tǒng)仿真技術(shù),2005,(3):158-163.