亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

RF-BPNN模型在稅收預(yù)測中的應(yīng)用研究

2023-03-14 10:34:16周彥秋寧紅梅鄧皓云

統(tǒng)計(jì)理論與實(shí)踐 2023年1期

關(guān)鍵詞：特征模型

陳卓周彥秋寧紅梅鄧皓云鳳強(qiáng)

（1.廣西科技大學(xué) 理學(xué)院，廣西柳州 545000；2.大慶市大同區(qū)統(tǒng)計(jì)局，黑龍江大慶 163000）

一、引言

稅收是國家調(diào)控經(jīng)濟(jì)最有效又最常用的手段之一，稅收收入在保障財(cái)政收入、配置基礎(chǔ)資源、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)等方面扮演著重要角色。稅收收入預(yù)測是以經(jīng)濟(jì)的客觀規(guī)律和相關(guān)政策為依據(jù)，分析歷史稅收收入數(shù)據(jù)和影響稅收收入的因素，運(yùn)用經(jīng)濟(jì)學(xué)知識(shí)和相關(guān)預(yù)測方法，估計(jì)未來特定時(shí)期的稅收收入，并加以分析[1]。當(dāng)前，稅收收入預(yù)測方向的研究文獻(xiàn)較少，且集中在使用單一歷史數(shù)據(jù)對未來進(jìn)行預(yù)測，忽視了影響稅收收入的重要因素。因此，對影響稅收收入的因素進(jìn)行分析并預(yù)測稅收收入具有重大意義。

本文結(jié)合已有文獻(xiàn)研究，選取廣東省作為研究對象，以廣東省2012—2021年的年度稅收收入數(shù)據(jù)為基準(zhǔn)，對影響稅收收入的因素進(jìn)行分析，使用LASSO算法以及隨機(jī)森林算法對收集到的6個(gè)指標(biāo)進(jìn)行篩選，通過組合方式將篩選算法分別與支持向量回歸、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合，建立四種稅收收入預(yù)測模型，在不同模型的預(yù)測效果中展開比對研究，以預(yù)測結(jié)果的誤差為判斷依據(jù)對模型進(jìn)行評(píng)價(jià)。

本文的創(chuàng)新點(diǎn)在于，在研究方法方面，通過查閱相關(guān)文獻(xiàn)，以往研究者使用的方法不外乎是ARIMA模型和GM（1，1）模型等傳統(tǒng)時(shí)間序列預(yù)測模型。本文結(jié)合經(jīng)典統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)兩個(gè)方面，以廣東省年度稅收收入為研究對象，分析影響稅收收入的諸多因素，建立LASSO-SVR、LASSO-BPNN、RF-SVR和RF-BPNN四種多變量稅收收入預(yù)測模型。

二、文獻(xiàn)綜述

稅收收入數(shù)據(jù)具有時(shí)序性，加之受到國家經(jīng)濟(jì)和政策等因素影響，呈現(xiàn)非線性特點(diǎn)。傳統(tǒng)的稅收收入預(yù)測方法主要有多元回歸預(yù)測、時(shí)間序列模型、指數(shù)平滑法、灰色理論法等[2-4]。孫楊（2019）[5]以重慶市民營經(jīng)濟(jì)為研究對象，分析影響稅收收入的因素，對變量進(jìn)行主成分篩選，按不同的稅種構(gòu)建主成分回歸的指數(shù)平滑模型，采用三次指數(shù)平滑對不同稅種的數(shù)值進(jìn)行預(yù)測分析。隨著計(jì)算機(jī)技術(shù)的大放異彩，稅收收入預(yù)測研究方面出現(xiàn)了很多機(jī)器學(xué)習(xí)的分析預(yù)測方法，例如SVM[6]、BP神經(jīng)網(wǎng)絡(luò)[7]、LSTM[8]等。田永青和楊斌等（2002）[9]分析影響稅收收入的各種因素，通過多次多元線性擬合，剔除對稅收收入影響較小的指標(biāo)。針對BP神經(jīng)網(wǎng)絡(luò)存在的局部最優(yōu)、訓(xùn)練慢效率低等問題，構(gòu)建基于RBF神經(jīng)網(wǎng)絡(luò)的稅收收入預(yù)測模型，對山東省真實(shí)數(shù)據(jù)進(jìn)行實(shí)證分析，證明了該模型的有效性。張吉?jiǎng)偤土耗龋?007）[10]在總結(jié)傳統(tǒng)計(jì)量和代數(shù)方法的基礎(chǔ)上，采用新型Elman神經(jīng)網(wǎng)絡(luò)，建立反映國內(nèi)生產(chǎn)總值與稅收之間非線性映射關(guān)系的稅收收入預(yù)測模型，以某經(jīng)濟(jì)特區(qū)的實(shí)際數(shù)據(jù)進(jìn)行仿真訓(xùn)練，結(jié)果表明Elman神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)計(jì)量方法的預(yù)測誤差精度提高了4%。張淑娟和鄧秀勤等（2017）[11]考慮影響稅收收入的各種線性和非線性因素，使用更為穩(wěn)定的LS-SVM模型對稅收收入進(jìn)行預(yù)測，并使用PSO算法對LS-SVM預(yù)測模型的參數(shù)C和γ進(jìn)行超參數(shù)尋優(yōu)，經(jīng)過與網(wǎng)格搜索、遺傳算法等方法優(yōu)化的SVM相比，證明基于PSO算法的LS-SVM模型在稅收預(yù)測上的精確性和穩(wěn)定性更優(yōu)。

三、相關(guān)理論

（一）影響因素

1.地區(qū)生產(chǎn)總值。地區(qū)生產(chǎn)總值是指地區(qū)內(nèi)全部常住單位在一定時(shí)期的生產(chǎn)生活的最終成果[12]。收入法公式為：地區(qū)生產(chǎn)總值=L+S+G+Y，其中L是勞動(dòng)報(bào)酬；S是生產(chǎn)稅凈額；G是固定資產(chǎn)折舊；Y是營業(yè)盈余。從公式可以看出，稅收收入與地區(qū)生產(chǎn)總值之間是正相關(guān)，稅收收入和地區(qū)生產(chǎn)總值相互影響。

2.規(guī)模以上工業(yè)增加值。規(guī)模以上工業(yè)增加值是從事工業(yè)活動(dòng)的企業(yè)在一定時(shí)期內(nèi)進(jìn)行生產(chǎn)得到的總值，剔除了生產(chǎn)過程中的消耗與價(jià)值轉(zhuǎn)移額，包含增值稅部分。收入法公式為：工業(yè)增加值=L+S+G+Y，其中L是勞動(dòng)報(bào)酬；S是生產(chǎn)稅凈額；G是固定資產(chǎn)折舊；Y是營業(yè)盈余。從公式可以看出，稅收收入與規(guī)模以上工業(yè)增加值之間是正相關(guān)，稅收收入和規(guī)模以上工業(yè)增加值相互影響。

3.金融機(jī)構(gòu)（含外資）本外幣存款余額。金融機(jī)構(gòu)本外幣存款余額是指截至特定時(shí)間點(diǎn)金融機(jī)構(gòu)在人民幣和外幣商的持有額度。一般來說，存款余額越高，居民用于消費(fèi)的部分就越少，增值稅隨之降低，存款余額與稅收收入之間呈負(fù)相關(guān)。

4.地方一般公共預(yù)算收入。地方一般公共預(yù)算收入是指一個(gè)地區(qū)的財(cái)政收入上交完省級(jí)和中央財(cái)政之后，剩余的收入。公式為：地方一般公共預(yù)算收入=T+F，其中T為各類稅收，包括增值稅、消費(fèi)稅、進(jìn)出口稅、企業(yè)所得稅和個(gè)人所得稅等；F為非稅收收入，包括專項(xiàng)收入、行政事業(yè)性收費(fèi)收入等。該指標(biāo)和稅收性質(zhì)較為相似，有密切的關(guān)系。

5.居民消費(fèi)價(jià)格指數(shù)。居民消費(fèi)價(jià)格指數(shù)是指一定時(shí)期內(nèi)該地區(qū)居民在生活中消費(fèi)和服務(wù)支出價(jià)格的變動(dòng)趨勢和程度的相對數(shù)。公式為：居民消費(fèi)價(jià)格指數(shù)=（當(dāng)前期價(jià)格/基期價(jià)格）*100%，該指標(biāo)反映地區(qū)的消費(fèi)水平，消費(fèi)會(huì)產(chǎn)生增值稅和消費(fèi)稅。居民消費(fèi)價(jià)格指數(shù)上漲，增值稅隨之增加，兩者之間為正相關(guān)。

6.財(cái)政支出。財(cái)政支出指對籌集而來的資金進(jìn)行經(jīng)濟(jì)建設(shè)和其他事項(xiàng)的使用。財(cái)政支出源于財(cái)政收入，而稅收收入作為財(cái)政收入的一部分，稅收收入會(huì)影響到財(cái)政支出。反之，財(cái)政支出對稅收收入也有反作用，倘若財(cái)政支出較大，出現(xiàn)財(cái)政赤字，會(huì)通過增加稅收的形式進(jìn)行財(cái)政收入與支出的平衡。

（二）LASSO 算法

LASSO算法是統(tǒng)計(jì)學(xué)中一種可以實(shí)現(xiàn)變量精簡的估計(jì)算法。Robert Tibshirani[13]在1996年首次提出LASSO算法。該算法是改良的最小二乘法，通過最小化殘差的平方和，從而產(chǎn)生系數(shù)為0的變量并將其剔除，實(shí)現(xiàn)降維。

假設(shè)存在數(shù)據(jù)（X，Y），其中X=（X1，X2，…Xi）是i個(gè)指標(biāo)的值，對應(yīng)的Y=（Y1，Y2，…，Yj）是j個(gè)響應(yīng)變量，將X中的數(shù)據(jù)標(biāo)準(zhǔn)化處理。

式中，Bj為最小二乘估計(jì)；t為調(diào)整參數(shù)，通過控制調(diào)整參數(shù)t可以實(shí)現(xiàn)對總體回歸系數(shù)的壓縮，t值通過交叉驗(yàn)證法來估計(jì)。

上述表達(dá)式等價(jià)于：

式中，a是L1正則化參數(shù)，a越大，壓縮力度越大。

（三）隨機(jī)森林算法

隨機(jī)森林（Random Forest，RF）[14]于2001年提出，一般用于數(shù)據(jù)分類或回歸，其主要思想是從原始數(shù)據(jù)中采取自助法有放回的采樣獲得k個(gè)子集，對每個(gè)子集訓(xùn)練出不同的決策樹，得到k個(gè)回歸結(jié)果，最后對所有組合的結(jié)果取平均值。

鑒于隨機(jī)森林采取有放回采樣方式，因此存在部分?jǐn)?shù)據(jù)無法參與訓(xùn)練而被浪費(fèi)，這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù)（Out of Bag，OOB）。隨機(jī)森林對特征進(jìn)行評(píng)估的步驟如下：

1.對每一顆決策樹，選擇相應(yīng)的袋外數(shù)據(jù)，計(jì)算袋外數(shù)據(jù)誤差，記為eOOB1。

2.隨機(jī)對袋外數(shù)據(jù)中所有樣本的特征xi加入噪聲干擾，再次計(jì)算袋外數(shù)據(jù)誤差，記為eOOB2。

3.假設(shè)森林中有N棵樹，則特征xi的重要性=∑（eOOB2-eOOB1）/N。

綜上，當(dāng)特征xi加入隨機(jī)噪聲后，袋外數(shù)據(jù)的準(zhǔn)確率大幅度下降，即eOOB2增大，說明特征xi對于最終的預(yù)測結(jié)果有很大影響，進(jìn)而說明特征xi重要。通過計(jì)算每個(gè)特征的重要性并排序，得到一個(gè)新的特征集，對新的特征集重復(fù)上述過程，直到剩下目標(biāo)特征個(gè)數(shù)，最后得到各個(gè)特征集并計(jì)算對應(yīng)的袋外誤差率，選擇袋外誤差率最低的特征集。

（四）支持向量回歸

支持向量回歸（Support Vector Regression，SVR）建立在SVM算法基礎(chǔ)之上，其不依賴輸入數(shù)據(jù)維度的性質(zhì)，使其擁有較高的預(yù)測精度。通過核函數(shù)進(jìn)行非線性變換，把數(shù)據(jù)xi映射到高維特征空間，繼而在高維特征空間里進(jìn)行線性回歸，尋找能夠準(zhǔn)確表明xi與y存在關(guān)系的函數(shù)f（xi）[15]，即SVR函數(shù)：

對于所有落入間隔帶（2ε）內(nèi)的數(shù)據(jù)，不計(jì)其誤差，不敏感損失函數(shù)ε的表達(dá)式為：

式中，yi為原始數(shù)據(jù)xi映射到高維特征空間中的代表值。

根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則，并引入松弛變量ξi和得到如下公式：

式中，C為懲罰參數(shù)。

通過引入拉格朗日乘子a和a*，將上述問題轉(zhuǎn)化為對偶問題：

式中，當(dāng)ai-非零時(shí)，對應(yīng)的訓(xùn)練樣本為支持向量。求解此二次規(guī)劃問題可求出a的值，同時(shí)求得w的值：

滿足KKT條件計(jì)算出偏差b：

最后得到回歸函數(shù)f（x）的表達(dá)式：

式中，K（xi，x）為滿足Mercer條件的核函數(shù)，負(fù)責(zé)對輸入數(shù)據(jù)進(jìn)行非線性變換。

SVR核函數(shù)中使用最多的是帶有寬度為σ的徑向基核函數(shù)（RBF）。RBF函數(shù)為：

（五）BP 神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱藏層和輸出層構(gòu)成。其中輸入層輸入xi，隱藏層輸出zi，輸出層輸出y，層與層之間為全連接形式，層內(nèi)的節(jié)點(diǎn)互不相連。

BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實(shí)質(zhì)是不斷調(diào)整層與層之間的權(quán)值與閾值。首先從輸入到輸出進(jìn)行正向傳播，計(jì)算預(yù)測值與實(shí)際值的誤差；然后進(jìn)行反向傳播，目的是調(diào)整權(quán)值與閾值，通過多次迭代實(shí)現(xiàn)降低誤差。其數(shù)學(xué)形式為：

給定訓(xùn)練集D={（x1，y1），（x2，y2），…，（xi，yi）}，其中xi∈Rn，表示具有n個(gè)指標(biāo)的輸入，yi∈Rm表示m維的輸出。

設(shè)置BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層和輸出層分別有n、q、m個(gè)節(jié)點(diǎn)，隱藏層中第h個(gè)節(jié)點(diǎn)的閾值為yh，則有：

式中，αh是隱藏層第h個(gè)節(jié)點(diǎn)接收的輸入；vih是輸入層第i個(gè)節(jié)點(diǎn)與隱藏層第h個(gè)節(jié)點(diǎn)的連接權(quán)重；βj是隱藏層第j個(gè)節(jié)點(diǎn)接收的輸入；bh是隱藏層中第h個(gè)節(jié)點(diǎn)的輸出；whj是隱藏層第h個(gè)節(jié)點(diǎn)與輸出層第j個(gè)節(jié)點(diǎn)的連接權(quán)重。

以激活函數(shù)Sigmoid為例，對（xk，yk），設(shè)為網(wǎng)絡(luò)的實(shí)際輸出，則有：

式中，θj表示輸出層第j個(gè)神經(jīng)元的閾值。

則（xk，yk）上的均方差Ek可以表示為：

BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中，每一次迭代會(huì)更新參數(shù)，其任意參數(shù)v的更新式可以表示為：

設(shè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為η（0<η<1），再由一系列的推導(dǎo)公式可得：

最后可得新的權(quán)值更新公式：

四、實(shí)證研究

（一）數(shù)據(jù)處理

通過查閱相關(guān)文獻(xiàn)和資料，本文選取了稅收收入預(yù)測中常用的6個(gè)自變量指標(biāo)。所有指標(biāo)的數(shù)據(jù)來源于《廣東統(tǒng)計(jì)年鑒》，選取2012—2021年共10年的數(shù)據(jù)。表1展示了本文選取的對稅收收入有影響的6個(gè)指標(biāo)和年度稅收收入數(shù)據(jù)的描述性統(tǒng)計(jì)。

表1 各指標(biāo)描述表

表1中，x1為地區(qū)生產(chǎn)總值（億元），x2為規(guī)模以上工業(yè)增加值（億元），x3為金融機(jī)構(gòu)（含外資）本外幣存款余額（億元），x4為地方一般公共預(yù)算收入（億元），x5為居民消費(fèi)價(jià)格指數(shù)，x6為財(cái)政支出（億元），y為稅收收入（億元）。

通過觀察表1中各指標(biāo)的情況，各指標(biāo)的單位和數(shù)量級(jí)并不完全一致，為了方便變量篩選和模型建立，規(guī)避數(shù)據(jù)量綱不一致帶來的其他影響，將自變量數(shù)據(jù)歸一化。公式為：

式中，xi'是歸一化后的指標(biāo)數(shù)據(jù)；xi是影響稅收收入的指標(biāo)；xi，min是指標(biāo)的最小值；xi，max是指標(biāo)的最大值。

由于因變量的數(shù)量級(jí)過大，本文對因變量數(shù)據(jù)進(jìn)行對數(shù)處理。公式為：

式中，y→是對數(shù)化后的稅收收入數(shù)據(jù)。

為了評(píng)價(jià)預(yù)測模型的擬合效果，需要選擇合適的評(píng)價(jià)指標(biāo)來衡量模型。本文的評(píng)估指標(biāo)為MAPE、RMSE和R2，其公式如式（19）、式（20）和式（21）所示：

（二）特征篩選

1.LASSO特征篩選。利用R軟件對各個(gè)變量因子進(jìn)行LASSO降維，選出對因變量稅收收入影響較大的一些因素，篩選結(jié)果如表2所示。

表2 各特征相關(guān)系數(shù)表

通過相關(guān)系數(shù)的大小排序，選取x2、x3、x4、x5、x6幾個(gè)指標(biāo)，由于x5和x6相關(guān)系數(shù)較小，故將其剔除，最后保留了x2規(guī)模以上工業(yè)增加值、x3金融機(jī)構(gòu)（含外資）本外幣存款余額和x4地方一般公共預(yù)算收入3個(gè)指標(biāo)作為預(yù)測模型的解釋變量。

2.隨機(jī)森林特征篩選。利用Python的Scikit-learn庫對影響稅收收入的6個(gè)因素進(jìn)行特征降維，依據(jù)重要性排序結(jié)果篩選出3個(gè)特征。經(jīng)過多次訓(xùn)練，各特征重要性排序結(jié)果如圖1所示。

圖1 影響稅收收入特征重要性排序

從圖1可以看出，x6的重要程度與前4個(gè)變量存在較大差異，為了和LASSO算法進(jìn)行對比，選擇重要程度排序前3的x2規(guī)模以上工業(yè)增加值、x4地方一般公共預(yù)算收入和x1地區(qū)生產(chǎn)總值這3個(gè)指標(biāo)作為預(yù)測模型的解釋變量。

（三）SVR預(yù)測與評(píng)價(jià)

通過LASSO算法以及隨機(jī)森林算法對變量進(jìn)行篩選，分別將x2、x3、x4以及x1、x2、x4的數(shù)據(jù)作為SVR的輸入分別進(jìn)行訓(xùn)練。設(shè)置核函數(shù)為徑向基核函數(shù)，其表達(dá)式如式（10）所示。設(shè)置懲罰系數(shù)C為1，當(dāng)殘差小于0.001時(shí)停止訓(xùn)練。采取五折交叉檢驗(yàn)的方式，將數(shù)據(jù)集劃分為5個(gè)規(guī)模一致的互斥子集，每次使用4個(gè)子集作為訓(xùn)練集，剩下的1個(gè)子集作為測試集，進(jìn)行5次輪換訓(xùn)練，最后將5次訓(xùn)練的誤差結(jié)果取均值作為整個(gè)訓(xùn)練過程的誤差。

從圖2可以看出，結(jié)合LASSO算法和隨機(jī)森林算法的SVR模型在2014—2017年表現(xiàn)優(yōu)異，重合率較高，但2012年、2013年、2020年、2021年與實(shí)際值差異較大。相對來說，RF-SVR的預(yù)測值較LASSO-SVR的預(yù)測值與實(shí)際值更貼近，說明其預(yù)測效果略優(yōu)于LASSO-SVR。進(jìn)一步通過評(píng)價(jià)指標(biāo)來量化模型的預(yù)測精度，支持向量回歸的評(píng)價(jià)指標(biāo)如表3所示。

圖2 支持向量回歸擬合結(jié)果圖

表3 支持向量回歸評(píng)價(jià)指標(biāo)

從表3可知，LASSO-SVR和RF-SVR的MAPE都比較小，說明兩個(gè)模型在稅收收入預(yù)測上表現(xiàn)都很好。LASSO-SVR在RMSE和MAPE上都優(yōu)于RF-SVR，但是在擬合優(yōu)度R2上都略遜于RF-SVR，綜合說明RF-SVR的預(yù)測誤差更小，精度更高。

（四）BP神經(jīng)網(wǎng)絡(luò)預(yù)測與評(píng)價(jià)

通過LASSO算法以及隨機(jī)森林算法對變量進(jìn)行篩選，分別將x2、x3和x4以及x1、x2和x4的數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行分別訓(xùn)練。設(shè)置輸入層神經(jīng)元為3個(gè)，輸出層神經(jīng)元為1個(gè)；根據(jù)隱藏層計(jì)算公式設(shè)置隱藏層神經(jīng)元為8個(gè)，學(xué)習(xí)效率為0.1%，激活函數(shù)選擇Sigmoid，對數(shù)據(jù)進(jìn)行擬合。圖3為選取不同特征篩選方法時(shí)，BP神經(jīng)網(wǎng)絡(luò)的擬合效果。

圖3 BP神經(jīng)網(wǎng)絡(luò)擬合結(jié)果圖

從圖3可以看出，結(jié)合兩種特征篩選算法的BP神經(jīng)網(wǎng)絡(luò)的擬合效果均較好，僅在2018年出現(xiàn)了較大的預(yù)測誤差。其中RF-BPNN的預(yù)測值較LASSO-BPNN的預(yù)測值與實(shí)際值更貼近，說明其預(yù)測效果略優(yōu)于LASSO-BPNN。進(jìn)一步通過評(píng)價(jià)指標(biāo)量化模型的預(yù)測精度，BP神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)見表4。

表4 BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)指標(biāo)

從表4可知，LASSO-BPNN和RF-BPNN的MAPE都非常小，說明兩個(gè)模型在稅收收入預(yù)測上表現(xiàn)都很好。RF-BPNN無論是在RMSE和MAPE上，還是在擬合優(yōu)度R2上都略優(yōu)于LASSO-BPNN，說明RF-BPNN在稅收收入預(yù)測中的表現(xiàn)更好。

（五）結(jié)果對比

本文在稅收收入預(yù)測方面選擇了多種模型進(jìn)行預(yù)測，為了實(shí)現(xiàn)對稅收收入的精準(zhǔn)預(yù)測，將不同模型的擬合效果進(jìn)行對比，選擇效果更好的模型對廣東省未來三年的年稅收收入進(jìn)行預(yù)測。圖4是不同預(yù)測模型的擬合效果。

圖4 不同模型擬合效果對比圖

從圖4可以看出，相對SVR來說，BP神經(jīng)網(wǎng)絡(luò)在首尾年份的預(yù)測上也表現(xiàn)出較高的精度。在所有擬合曲線中與稅收收入實(shí)際值曲線貼合最緊密的是RF-BPNN，該曲線多次與實(shí)際值曲線相交，在2012—2017年時(shí)幾乎處處重合，說明RF-BPNN組合模型的擬合效果優(yōu)于其他組合模型。進(jìn)一步通過評(píng)價(jià)指標(biāo)度量模型的預(yù)測效果，結(jié)果見表5。

表5 不同模型的評(píng)價(jià)指標(biāo)

從表5可以看出，RF-SVR模型的MAPE為2.655%，在所有模型中最大，說明其預(yù)測精度最低。RF-BPNN模型的MAPE為1.097%，在所有模型中最小，說明其預(yù)測精度最高。不同特征篩選算法的組合模型存在差異，但總體來說BP神經(jīng)網(wǎng)絡(luò)在稅收收入預(yù)測方面的表現(xiàn)要優(yōu)于SVR，且在本文中機(jī)器學(xué)習(xí)中的隨機(jī)森林算法略優(yōu)于傳統(tǒng)的LASSO算法。

五、結(jié)論

稅收與人們的生產(chǎn)生活息息相關(guān)，對稅收收入進(jìn)行預(yù)測和分析，有利于為相關(guān)部門提供調(diào)整稅收政策的理論依據(jù)。本文從傳統(tǒng)統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法入手，采取特征篩選算法對預(yù)測模型進(jìn)行優(yōu)化，提出四種組合模型對廣東省稅收收入進(jìn)行年度預(yù)測。結(jié)論如下：

1.本文提出的四種組合模型融入了影響稅收收入的多種指標(biāo)，結(jié)合線性和非線性特征來進(jìn)行稅收收入的趨勢預(yù)測。通過LASSO算法和隨機(jī)森林算法對指標(biāo)進(jìn)行篩選，簡化模型結(jié)構(gòu)的同時(shí)提高了訓(xùn)練速度和泛化能力。

2.不同特征篩選算法的組合模型存在差異，但總體來說BP神經(jīng)網(wǎng)絡(luò)在稅收收入預(yù)測方面的表現(xiàn)優(yōu)于SVR，且機(jī)器學(xué)習(xí)中的隨機(jī)森林算法略優(yōu)于傳統(tǒng)的LASSO算法。

3.在稅收收入預(yù)測的相關(guān)文獻(xiàn)中，使用不同特征篩選算法進(jìn)行組合，進(jìn)而對稅收收入進(jìn)行預(yù)測的較少，本文具有一定的參考意義?！?/p>