陳 卓 周彥秋 寧紅梅 鄧皓云 鳳 強
(1.廣西科技大學(xué) 理學(xué)院,廣西 柳州 545000;2.大慶市大同區(qū)統(tǒng)計局,黑龍江 大慶 163000)
稅收是國家調(diào)控經(jīng)濟最有效又最常用的手段之一,稅收收入在保障財政收入、配置基礎(chǔ)資源、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)等方面扮演著重要角色。稅收收入預(yù)測是以經(jīng)濟的客觀規(guī)律和相關(guān)政策為依據(jù),分析歷史稅收收入數(shù)據(jù)和影響稅收收入的因素,運用經(jīng)濟學(xué)知識和相關(guān)預(yù)測方法,估計未來特定時期的稅收收入,并加以分析[1]。當(dāng)前,稅收收入預(yù)測方向的研究文獻較少,且集中在使用單一歷史數(shù)據(jù)對未來進行預(yù)測,忽視了影響稅收收入的重要因素。因此,對影響稅收收入的因素進行分析并預(yù)測稅收收入具有重大意義。
本文結(jié)合已有文獻研究,選取廣東省作為研究對象,以廣東省2012—2021年的年度稅收收入數(shù)據(jù)為基準(zhǔn),對影響稅收收入的因素進行分析,使用LASSO算法以及隨機森林算法對收集到的6個指標(biāo)進行篩選,通過組合方式將篩選算法分別與支持向量回歸、BP神經(jīng)網(wǎng)絡(luò)進行結(jié)合,建立四種稅收收入預(yù)測模型,在不同模型的預(yù)測效果中展開比對研究,以預(yù)測結(jié)果的誤差為判斷依據(jù)對模型進行評價。
本文的創(chuàng)新點在于,在研究方法方面,通過查閱相關(guān)文獻,以往研究者使用的方法不外乎是ARIMA模型和GM(1,1)模型等傳統(tǒng)時間序列預(yù)測模型。本文結(jié)合經(jīng)典統(tǒng)計學(xué)和機器學(xué)習(xí)兩個方面,以廣東省年度稅收收入為研究對象,分析影響稅收收入的諸多因素,建立LASSO-SVR、LASSO-BPNN、RF-SVR和RF-BPNN四種多變量稅收收入預(yù)測模型。
稅收收入數(shù)據(jù)具有時序性,加之受到國家經(jīng)濟和政策等因素影響,呈現(xiàn)非線性特點。傳統(tǒng)的稅收收入預(yù)測方法主要有多元回歸預(yù)測、時間序列模型、指數(shù)平滑法、灰色理論法等[2-4]。孫楊(2019)[5]以重慶市民營經(jīng)濟為研究對象,分析影響稅收收入的因素,對變量進行主成分篩選,按不同的稅種構(gòu)建主成分回歸的指數(shù)平滑模型,采用三次指數(shù)平滑對不同稅種的數(shù)值進行預(yù)測分析。隨著計算機技術(shù)的大放異彩,稅收收入預(yù)測研究方面出現(xiàn)了很多機器學(xué)習(xí)的分析預(yù)測方法,例如SVM[6]、BP神經(jīng)網(wǎng)絡(luò)[7]、LSTM[8]等。田永青和楊斌等(2002)[9]分析影響稅收收入的各種因素,通過多次多元線性擬合,剔除對稅收收入影響較小的指標(biāo)。針對BP神經(jīng)網(wǎng)絡(luò)存在的局部最優(yōu)、訓(xùn)練慢效率低等問題,構(gòu)建基于RBF神經(jīng)網(wǎng)絡(luò)的稅收收入預(yù)測模型,對山東省真實數(shù)據(jù)進行實證分析,證明了該模型的有效性。張吉剛和梁娜(2007)[10]在總結(jié)傳統(tǒng)計量和代數(shù)方法的基礎(chǔ)上,采用新型Elman神經(jīng)網(wǎng)絡(luò),建立反映國內(nèi)生產(chǎn)總值與稅收之間非線性映射關(guān)系的稅收收入預(yù)測模型,以某經(jīng)濟特區(qū)的實際數(shù)據(jù)進行仿真訓(xùn)練,結(jié)果表明Elman神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)計量方法的預(yù)測誤差精度提高了4%。張淑娟和鄧秀勤等(2017)[11]考慮影響稅收收入的各種線性和非線性因素,使用更為穩(wěn)定的LS-SVM模型對稅收收入進行預(yù)測,并使用PSO算法對LS-SVM預(yù)測模型的參數(shù)C和γ進行超參數(shù)尋優(yōu),經(jīng)過與網(wǎng)格搜索、遺傳算法等方法優(yōu)化的SVM相比,證明基于PSO算法的LS-SVM模型在稅收預(yù)測上的精確性和穩(wěn)定性更優(yōu)。
1.地區(qū)生產(chǎn)總值。地區(qū)生產(chǎn)總值是指地區(qū)內(nèi)全部常住單位在一定時期的生產(chǎn)生活的最終成果[12]。收入法公式為:地區(qū)生產(chǎn)總值=L+S+G+Y,其中L是勞動報酬;S是生產(chǎn)稅凈額;G是固定資產(chǎn)折舊;Y是營業(yè)盈余。從公式可以看出,稅收收入與地區(qū)生產(chǎn)總值之間是正相關(guān),稅收收入和地區(qū)生產(chǎn)總值相互影響。
2.規(guī)模以上工業(yè)增加值。規(guī)模以上工業(yè)增加值是從事工業(yè)活動的企業(yè)在一定時期內(nèi)進行生產(chǎn)得到的總值,剔除了生產(chǎn)過程中的消耗與價值轉(zhuǎn)移額,包含增值稅部分。收入法公式為:工業(yè)增加值=L+S+G+Y,其中L是勞動報酬;S是生產(chǎn)稅凈額;G是固定資產(chǎn)折舊;Y是營業(yè)盈余。從公式可以看出,稅收收入與規(guī)模以上工業(yè)增加值之間是正相關(guān),稅收收入和規(guī)模以上工業(yè)增加值相互影響。
3.金融機構(gòu)(含外資)本外幣存款余額。金融機構(gòu)本外幣存款余額是指截至特定時間點金融機構(gòu)在人民幣和外幣商的持有額度。一般來說,存款余額越高,居民用于消費的部分就越少,增值稅隨之降低,存款余額與稅收收入之間呈負(fù)相關(guān)。
4.地方一般公共預(yù)算收入。地方一般公共預(yù)算收入是指一個地區(qū)的財政收入上交完省級和中央財政之后,剩余的收入。公式為:地方一般公共預(yù)算收入=T+F,其中T為各類稅收,包括增值稅、消費稅、進出口稅、企業(yè)所得稅和個人所得稅等;F為非稅收收入,包括專項收入、行政事業(yè)性收費收入等。該指標(biāo)和稅收性質(zhì)較為相似,有密切的關(guān)系。
5.居民消費價格指數(shù)。居民消費價格指數(shù)是指一定時期內(nèi)該地區(qū)居民在生活中消費和服務(wù)支出價格的變動趨勢和程度的相對數(shù)。公式為:居民消費價格指數(shù)=(當(dāng)前期價格/基期價格)*100%,該指標(biāo)反映地區(qū)的消費水平,消費會產(chǎn)生增值稅和消費稅。居民消費價格指數(shù)上漲,增值稅隨之增加,兩者之間為正相關(guān)。
6.財政支出。財政支出指對籌集而來的資金進行經(jīng)濟建設(shè)和其他事項的使用。財政支出源于財政收入,而稅收收入作為財政收入的一部分,稅收收入會影響到財政支出。反之,財政支出對稅收收入也有反作用,倘若財政支出較大,出現(xiàn)財政赤字,會通過增加稅收的形式進行財政收入與支出的平衡。
LASSO算法是統(tǒng)計學(xué)中一種可以實現(xiàn)變量精簡的估計算法。Robert Tibshirani[13]在1996年首次提出LASSO算法。該算法是改良的最小二乘法,通過最小化殘差的平方和,從而產(chǎn)生系數(shù)為0的變量并將其剔除,實現(xiàn)降維。
假設(shè)存在數(shù)據(jù)(X,Y),其中X=(X1,X2,…Xi)是i個指標(biāo)的值,對應(yīng)的Y=(Y1,Y2,…,Yj)是j個響應(yīng)變量,將X中的數(shù)據(jù)標(biāo)準(zhǔn)化處理。
式中,Bj為最小二乘估計;t為調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實現(xiàn)對總體回歸系數(shù)的壓縮,t值通過交叉驗證法來估計。
上述表達式等價于:
式中,a是L1正則化參數(shù),a越大,壓縮力度越大。
隨機森林(Random Forest,RF)[14]于2001年提出,一般用于數(shù)據(jù)分類或回歸,其主要思想是從原始數(shù)據(jù)中采取自助法有放回的采樣獲得k個子集,對每個子集訓(xùn)練出不同的決策樹,得到k個回歸結(jié)果,最后對所有組合的結(jié)果取平均值。
鑒于隨機森林采取有放回采樣方式,因此存在部分?jǐn)?shù)據(jù)無法參與訓(xùn)練而被浪費,這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù)(Out of Bag,OOB)。隨機森林對特征進行評估的步驟如下:
1.對每一顆決策樹,選擇相應(yīng)的袋外數(shù)據(jù),計算袋外數(shù)據(jù)誤差,記為eOOB1。
2.隨機對袋外數(shù)據(jù)中所有樣本的特征xi加入噪聲干擾,再次計算袋外數(shù)據(jù)誤差,記為eOOB2。
3.假設(shè)森林中有N棵樹,則特征xi的重要性=∑(eOOB2-eOOB1)/N。
綜上,當(dāng)特征xi加入隨機噪聲后,袋外數(shù)據(jù)的準(zhǔn)確率大幅度下降,即eOOB2增大,說明特征xi對于最終的預(yù)測結(jié)果有很大影響,進而說明特征xi重要。通過計算每個特征的重要性并排序,得到一個新的特征集,對新的特征集重復(fù)上述過程,直到剩下目標(biāo)特征個數(shù),最后得到各個特征集并計算對應(yīng)的袋外誤差率,選擇袋外誤差率最低的特征集。
支持向量回歸(Support Vector Regression,SVR)建立在SVM算法基礎(chǔ)之上,其不依賴輸入數(shù)據(jù)維度的性質(zhì),使其擁有較高的預(yù)測精度。通過核函數(shù)進行非線性變換,把數(shù)據(jù)xi映射到高維特征空間,繼而在高維特征空間里進行線性回歸,尋找能夠準(zhǔn)確表明xi與y存在關(guān)系的函數(shù)f(xi)[15],即SVR函數(shù):
對于所有落入間隔帶(2ε)內(nèi)的數(shù)據(jù),不計其誤差,不敏感損失函數(shù)ε的表達式為:
式中,yi為原始數(shù)據(jù)xi映射到高維特征空間中的代表值。
根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,并引入松弛變量ξi和得到如下公式:
式中,C為懲罰參數(shù)。
通過引入拉格朗日乘子a和a*,將上述問題轉(zhuǎn)化為對偶問題:
式中,當(dāng)ai-非零時,對應(yīng)的訓(xùn)練樣本為支持向量。求解此二次規(guī)劃問題可求出a的值,同時求得w的值:
滿足KKT條件計算出偏差b:
最后得到回歸函數(shù)f(x)的表達式:
式中,K(xi,x)為滿足Mercer條件的核函數(shù),負(fù)責(zé)對輸入數(shù)據(jù)進行非線性變換。
SVR核函數(shù)中使用最多的是帶有寬度為σ的徑向基核函數(shù)(RBF)。RBF函數(shù)為:
BP神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱藏層和輸出層構(gòu)成。其中輸入層輸入xi,隱藏層輸出zi,輸出層輸出y,層與層之間為全連接形式,層內(nèi)的節(jié)點互不相連。
BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實質(zhì)是不斷調(diào)整層與層之間的權(quán)值與閾值。首先從輸入到輸出進行正向傳播,計算預(yù)測值與實際值的誤差;然后進行反向傳播,目的是調(diào)整權(quán)值與閾值,通過多次迭代實現(xiàn)降低誤差。其數(shù)學(xué)形式為:
給定訓(xùn)練集D={(x1,y1),(x2,y2),…,(xi,yi)},其中xi∈Rn,表示具有n個指標(biāo)的輸入,yi∈Rm表示m維的輸出。
設(shè)置BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層和輸出層分別有n、q、m個節(jié)點,隱藏層中第h個節(jié)點的閾值為yh,則有:
式中,αh是隱藏層第h個節(jié)點接收的輸入;vih是輸入層第i個節(jié)點與隱藏層第h個節(jié)點的連接權(quán)重;βj是隱藏層第j個節(jié)點接收的輸入;bh是隱藏層中第h個節(jié)點的輸出;whj是隱藏層第h個節(jié)點與輸出層第j個節(jié)點的連接權(quán)重。
以激活函數(shù)Sigmoid為例,對(xk,yk),設(shè)為網(wǎng)絡(luò)的實際輸出,則有:
式中,θj表示輸出層第j個神經(jīng)元的閾值。
則(xk,yk)上的均方差Ek可以表示為:
BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中,每一次迭代會更新參數(shù),其任意參數(shù)v的更新式可以表示為:
設(shè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為η(0<η<1),再由一系列的推導(dǎo)公式可得:
最后可得新的權(quán)值更新公式:
通過查閱相關(guān)文獻和資料,本文選取了稅收收入預(yù)測中常用的6個自變量指標(biāo)。所有指標(biāo)的數(shù)據(jù)來源于《廣東統(tǒng)計年鑒》,選取2012—2021年共10年的數(shù)據(jù)。表1展示了本文選取的對稅收收入有影響的6個指標(biāo)和年度稅收收入數(shù)據(jù)的描述性統(tǒng)計。
表1 各指標(biāo)描述表
表1中,x1為地區(qū)生產(chǎn)總值(億元),x2為規(guī)模以上工業(yè)增加值(億元),x3為金融機構(gòu)(含外資)本外幣存款余額(億元),x4為地方一般公共預(yù)算收入(億元),x5為居民消費價格指數(shù),x6為財政支出(億元),y為稅收收入(億元)。
通過觀察表1中各指標(biāo)的情況,各指標(biāo)的單位和數(shù)量級并不完全一致,為了方便變量篩選和模型建立,規(guī)避數(shù)據(jù)量綱不一致帶來的其他影響,將自變量數(shù)據(jù)歸一化。公式為:
式中,xi'是歸一化后的指標(biāo)數(shù)據(jù);xi是影響稅收收入的指標(biāo);xi,min是指標(biāo)的最小值;xi,max是指標(biāo)的最大值。
由于因變量的數(shù)量級過大,本文對因變量數(shù)據(jù)進行對數(shù)處理。公式為:
式中,y→是對數(shù)化后的稅收收入數(shù)據(jù)。
為了評價預(yù)測模型的擬合效果,需要選擇合適的評價指標(biāo)來衡量模型。本文的評估指標(biāo)為MAPE、RMSE和R2,其公式如式(19)、式(20)和式(21)所示:
1.LASSO特征篩選。利用R軟件對各個變量因子進行LASSO降維,選出對因變量稅收收入影響較大的一些因素,篩選結(jié)果如表2所示。
表2 各特征相關(guān)系數(shù)表
通過相關(guān)系數(shù)的大小排序,選取x2、x3、x4、x5、x6幾個指標(biāo),由于x5和x6相關(guān)系數(shù)較小,故將其剔除,最后保留了x2規(guī)模以上工業(yè)增加值、x3金融機構(gòu)(含外資)本外幣存款余額和x4地方一般公共預(yù)算收入3個指標(biāo)作為預(yù)測模型的解釋變量。
2.隨機森林特征篩選。利用Python的Scikit-learn庫對影響稅收收入的6個因素進行特征降維,依據(jù)重要性排序結(jié)果篩選出3個特征。經(jīng)過多次訓(xùn)練,各特征重要性排序結(jié)果如圖1所示。
圖1 影響稅收收入特征重要性排序
從圖1可以看出,x6的重要程度與前4個變量存在較大差異,為了和LASSO算法進行對比,選擇重要程度排序前3的x2規(guī)模以上工業(yè)增加值、x4地方一般公共預(yù)算收入和x1地區(qū)生產(chǎn)總值這3個指標(biāo)作為預(yù)測模型的解釋變量。
通過LASSO算法以及隨機森林算法對變量進行篩選,分別將x2、x3、x4以及x1、x2、x4的數(shù)據(jù)作為SVR的輸入分別進行訓(xùn)練。設(shè)置核函數(shù)為徑向基核函數(shù),其表達式如式(10)所示。設(shè)置懲罰系數(shù)C為1,當(dāng)殘差小于0.001時停止訓(xùn)練。采取五折交叉檢驗的方式,將數(shù)據(jù)集劃分為5個規(guī)模一致的互斥子集,每次使用4個子集作為訓(xùn)練集,剩下的1個子集作為測試集,進行5次輪換訓(xùn)練,最后將5次訓(xùn)練的誤差結(jié)果取均值作為整個訓(xùn)練過程的誤差。
從圖2可以看出,結(jié)合LASSO算法和隨機森林算法的SVR模型在2014—2017年表現(xiàn)優(yōu)異,重合率較高,但2012年、2013年、2020年、2021年與實際值差異較大。相對來說,RF-SVR的預(yù)測值較LASSO-SVR的預(yù)測值與實際值更貼近,說明其預(yù)測效果略優(yōu)于LASSO-SVR。進一步通過評價指標(biāo)來量化模型的預(yù)測精度,支持向量回歸的評價指標(biāo)如表3所示。
圖2 支持向量回歸擬合結(jié)果圖
表3 支持向量回歸評價指標(biāo)
從表3可知,LASSO-SVR和RF-SVR的MAPE都比較小,說明兩個模型在稅收收入預(yù)測上表現(xiàn)都很好。LASSO-SVR在RMSE和MAPE上都優(yōu)于RF-SVR,但是在擬合優(yōu)度R2上都略遜于RF-SVR,綜合說明RF-SVR的預(yù)測誤差更小,精度更高。
通過LASSO算法以及隨機森林算法對變量進行篩選,分別將x2、x3和x4以及x1、x2和x4的數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入進行分別訓(xùn)練。設(shè)置輸入層神經(jīng)元為3個,輸出層神經(jīng)元為1個;根據(jù)隱藏層計算公式設(shè)置隱藏層神經(jīng)元為8個,學(xué)習(xí)效率為0.1%,激活函數(shù)選擇Sigmoid,對數(shù)據(jù)進行擬合。圖3為選取不同特征篩選方法時,BP神經(jīng)網(wǎng)絡(luò)的擬合效果。
圖3 BP神經(jīng)網(wǎng)絡(luò)擬合結(jié)果圖
從圖3可以看出,結(jié)合兩種特征篩選算法的BP神經(jīng)網(wǎng)絡(luò)的擬合效果均較好,僅在2018年出現(xiàn)了較大的預(yù)測誤差。其中RF-BPNN的預(yù)測值較LASSO-BPNN的預(yù)測值與實際值更貼近,說明其預(yù)測效果略優(yōu)于LASSO-BPNN。進一步通過評價指標(biāo)量化模型的預(yù)測精度,BP神經(jīng)網(wǎng)絡(luò)的評價指標(biāo)見表4。
表4 BP神經(jīng)網(wǎng)絡(luò)評價指標(biāo)
從表4可知,LASSO-BPNN和RF-BPNN的MAPE都非常小,說明兩個模型在稅收收入預(yù)測上表現(xiàn)都很好。RF-BPNN無論是在RMSE和MAPE上,還是在擬合優(yōu)度R2上都略優(yōu)于LASSO-BPNN,說明RF-BPNN在稅收收入預(yù)測中的表現(xiàn)更好。
本文在稅收收入預(yù)測方面選擇了多種模型進行預(yù)測,為了實現(xiàn)對稅收收入的精準(zhǔn)預(yù)測,將不同模型的擬合效果進行對比,選擇效果更好的模型對廣東省未來三年的年稅收收入進行預(yù)測。圖4是不同預(yù)測模型的擬合效果。
圖4 不同模型擬合效果對比圖
從圖4可以看出,相對SVR來說,BP神經(jīng)網(wǎng)絡(luò)在首尾年份的預(yù)測上也表現(xiàn)出較高的精度。在所有擬合曲線中與稅收收入實際值曲線貼合最緊密的是RF-BPNN,該曲線多次與實際值曲線相交,在2012—2017年時幾乎處處重合,說明RF-BPNN組合模型的擬合效果優(yōu)于其他組合模型。進一步通過評價指標(biāo)度量模型的預(yù)測效果,結(jié)果見表5。
表5 不同模型的評價指標(biāo)
從表5可以看出,RF-SVR模型的MAPE為2.655%,在所有模型中最大,說明其預(yù)測精度最低。RF-BPNN模型的MAPE為1.097%,在所有模型中最小,說明其預(yù)測精度最高。不同特征篩選算法的組合模型存在差異,但總體來說BP神經(jīng)網(wǎng)絡(luò)在稅收收入預(yù)測方面的表現(xiàn)要優(yōu)于SVR,且在本文中機器學(xué)習(xí)中的隨機森林算法略優(yōu)于傳統(tǒng)的LASSO算法。
稅收與人們的生產(chǎn)生活息息相關(guān),對稅收收入進行預(yù)測和分析,有利于為相關(guān)部門提供調(diào)整稅收政策的理論依據(jù)。本文從傳統(tǒng)統(tǒng)計學(xué)方法和機器學(xué)習(xí)方法入手,采取特征篩選算法對預(yù)測模型進行優(yōu)化,提出四種組合模型對廣東省稅收收入進行年度預(yù)測。結(jié)論如下:
1.本文提出的四種組合模型融入了影響稅收收入的多種指標(biāo),結(jié)合線性和非線性特征來進行稅收收入的趨勢預(yù)測。通過LASSO算法和隨機森林算法對指標(biāo)進行篩選,簡化模型結(jié)構(gòu)的同時提高了訓(xùn)練速度和泛化能力。
2.不同特征篩選算法的組合模型存在差異,但總體來說BP神經(jīng)網(wǎng)絡(luò)在稅收收入預(yù)測方面的表現(xiàn)優(yōu)于SVR,且機器學(xué)習(xí)中的隨機森林算法略優(yōu)于傳統(tǒng)的LASSO算法。
3.在稅收收入預(yù)測的相關(guān)文獻中,使用不同特征篩選算法進行組合,進而對稅收收入進行預(yù)測的較少,本文具有一定的參考意義。◆