徐燕
摘 要 SPSS軟件是當(dāng)前應(yīng)用最廣泛的統(tǒng)計(jì)軟件之一,其菜單化操作模式能夠讓使用者快速入門,SPSS軟件中時(shí)間序列模塊能夠?qū)崿F(xiàn)模型的自動(dòng)化篩選,參數(shù)估計(jì)和模型檢驗(yàn),是非統(tǒng)計(jì)學(xué)專業(yè)人員進(jìn)行數(shù)據(jù)分析的有力工具。是本文以2019年全國大學(xué)生數(shù)學(xué)建模競賽D題為例,以SPSS23軟件為工具,對數(shù)據(jù)進(jìn)行時(shí)間序列分析,建立ARIMA模型。
關(guān)鍵詞 數(shù)學(xué)建模;SPSS;時(shí)間序列;ARIMA模型
中圖分類號: R058 文獻(xiàn)標(biāo)識碼: A
引言 SPSS軟件是當(dāng)前世界上應(yīng)用最廣泛的統(tǒng)計(jì)軟件之一,菜單化操作、圖表化輸出的特點(diǎn)特別受到非統(tǒng)計(jì)學(xué)專業(yè)人員的歡迎。使用SPSS軟件,我們幾乎可以完全自動(dòng)的自變量的預(yù)變換、篩選、模型優(yōu)化、檢驗(yàn)等工作。SPSS軟件中的預(yù)測模塊,納入了常用的時(shí)間序列分析模型,如ARIMA模型,包括自動(dòng)的模型選擇、參數(shù)估計(jì)和模型檢驗(yàn)等功能,實(shí)現(xiàn)了簡單操作即可得到可靠的時(shí)間序列模型,其功能得到了使用者的肯定。
近年來,全國大學(xué)生數(shù)學(xué)建模競賽頻頻出現(xiàn)大數(shù)據(jù)統(tǒng)計(jì)建模試題,作為非統(tǒng)計(jì)學(xué)專業(yè)的大學(xué)生,對于復(fù)雜的數(shù)據(jù)統(tǒng)計(jì)分析方法和工具接觸并不很多,如何讓這些學(xué)生快速入門和掌握一門有利的數(shù)據(jù)分析軟件工具、完成數(shù)據(jù)分析和建模等任務(wù)就是我們近幾年來數(shù)學(xué)建模培訓(xùn)教學(xué)研究的重點(diǎn)。
本文以2019年全國大學(xué)生數(shù)學(xué)建模競賽D題為例,競賽提供的數(shù)據(jù)是由空氣監(jiān)測儀每間隔2分鐘記錄下來的空氣污染物濃度監(jiān)測數(shù)據(jù),呈現(xiàn)明顯的時(shí)間序列數(shù)據(jù)的特征,因此,我們考慮對其進(jìn)行時(shí)間序列分析,建立ARIMA模型,并對模型進(jìn)行檢驗(yàn)。我們以競賽提供的數(shù)據(jù)為例,利用SPSS23完成數(shù)據(jù)建模和分析。
1 SPSS23數(shù)據(jù)建模和分析
1.1 建立數(shù)據(jù)文件
首先,我們在SPSS23中導(dǎo)入競賽提供的Excel數(shù)據(jù)文件,“文件”→“打開”→“數(shù)據(jù)”。在彈出的“打開Excel數(shù)據(jù)源”對話框中,“工作表”下面選擇數(shù)據(jù)文件,單擊“確定”,如圖1。
我們需要對導(dǎo)入的數(shù)據(jù)做基本的檢查,比如變量的定義、是否有缺失、數(shù)據(jù)的類型和分布特征等。由于競賽提供的數(shù)據(jù)量大,我們采用人工檢查與SPSS檢查相結(jié)合的方式:人工查看“數(shù)據(jù)視圖”和“變量視圖”,查看數(shù)據(jù)和變量;SPSS軟件“分析”→“統(tǒng)計(jì)描述”→“描述”,查看數(shù)據(jù)情況。
1.2 數(shù)據(jù)預(yù)處理
在做時(shí)間序列分析之前,我們需要對數(shù)據(jù)進(jìn)行預(yù)處理,即定義數(shù)據(jù)的日期:“數(shù)據(jù)”→“定義日期”,在“定義日期”對話框中設(shè)置日期的格式。確定了日期格式后,SPSS數(shù)據(jù)表格的“數(shù)據(jù)視圖”中可以看到新插入的變量“Year”、“Month”、“Date”。
1.3 時(shí)間序列建模
首先,我們檢驗(yàn)數(shù)據(jù)的時(shí)間序列特征,進(jìn)行自相關(guān)檢驗(yàn)(以數(shù)據(jù)中的PM2.5為例,下同):“分析”→“預(yù)測”→“自相關(guān)”,在“自相關(guān)”對話框中,將“PM2.15”選入“變量”列表框中,單擊“確認(rèn)”按鈕,如圖2。
自相關(guān)分析結(jié)果顯示PM2.5具有強(qiáng)自相關(guān)性,下一步可以作為時(shí)間序列進(jìn)行分析。我們將非平穩(wěn)時(shí)間序列經(jīng)過差分轉(zhuǎn)化為平穩(wěn)時(shí)間序列,然后將因變量對于它的滯后值以及隨機(jī)誤差項(xiàng)進(jìn)行回歸建立ARIMA(p,d,q)模型,稱為差分自回歸移動(dòng)平均模型,其中的AR是自回歸,p為自回歸項(xiàng)數(shù);MA是移動(dòng)平均,q是移動(dòng)平均項(xiàng)數(shù);d是差分次數(shù)。
ARIMA模型的操作過程:“分析”→“預(yù)測”→“創(chuàng)建模型”,在“時(shí)間序列建模器”對話框中,將“PM2.5”選入“因變量”列表框中,將“溫度”、“濕度”、“風(fēng)速”、“壓強(qiáng)”、“降水量”選入“自變量”列表框中,“方法(M)”下拉列表中選擇“ARIMA”,如圖3。其他一些設(shè)置主要有:“Statistics”中選擇“平穩(wěn)的R方”、“擬合優(yōu)度”“顯示預(yù)測值”,如圖4;“圖”中選擇“觀察值”,如圖5;“保存”中選擇“預(yù)測值——保存”,如圖6。單擊“確認(rèn)”。
1.4 結(jié)果分析
SPSS輸出了模型的描述,給出了R方、平穩(wěn)的R方、正態(tài)化的BIC等指標(biāo),我們選擇R方較大、BIC較小的模型。下一步還應(yīng)當(dāng)結(jié)合專業(yè)背景,將分析結(jié)果應(yīng)用到實(shí)際中去檢驗(yàn)其實(shí)用價(jià)值,討論實(shí)際應(yīng)用中存在的問題。
2 總結(jié)
SPSS軟件菜單化操作、圖表化輸出的特點(diǎn)讓非統(tǒng)計(jì)學(xué)專業(yè)人員能夠快速地掌握數(shù)據(jù)的統(tǒng)計(jì)建模和分析能力,易于理解和應(yīng)用。我們以2019年大學(xué)生數(shù)學(xué)建模D題為例,利用SPSS23進(jìn)行時(shí)間序列分析,建立了ARIMA模型,模型檢驗(yàn)顯示擬合效果好。
參考文獻(xiàn)
[1]張文彤.SPSS統(tǒng)計(jì)分析高級教程(第3版)[M].北京:高等教育出版社,2018.
[2]武松,潘發(fā)明.SPSS統(tǒng)計(jì)分析大全[M].北京:清華大學(xué)出版社,2014.
[3]孫祝嶺.時(shí)間序列與多元統(tǒng)計(jì)分析[M],上海:上海交通大學(xué)大學(xué)出版社,2016.9.
[4]熊斯,柏文,陳遠(yuǎn).SAS軟件在變形監(jiān)測數(shù)據(jù)分析中的應(yīng)用[J]河南科技,2010(06):20-21.