吳超 羅璟
摘要:企業(yè)偷漏稅手段呈多樣化、專業(yè)化、普遍化、隱蔽化趨勢(shì)。為更好地識(shí)別企業(yè)是否存在偷漏稅行為,基于Python語(yǔ)言,在Anaconda集成開發(fā)環(huán)境下通過機(jī)器學(xué)習(xí)的Scikit-Learn包構(gòu)建隨機(jī)森林模型,通過交叉驗(yàn)證算法選擇最優(yōu)模型。對(duì)汽車銷售行業(yè)納稅人是否存在偷漏稅行為進(jìn)行自動(dòng)識(shí)別。結(jié)果表明,基于隨機(jī)森林模型的偷漏稅行為自動(dòng)識(shí)別相對(duì)于其它常見的分類模型(k-近鄰算法、邏輯回歸模型、決策樹模型和Adaboost算法),具有較高的準(zhǔn)確率,分類性能更好,可以滿足偷漏稅行為的自動(dòng)識(shí)別需求。
關(guān)鍵詞:
隨機(jī)森林;機(jī)器學(xué)習(xí);偷漏稅行為;分類算法
DOIDOI:10.11907/rjdk.181865
中圖分類號(hào):TP312
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):1672-7800(2018)008-0013-04
英文摘要Abstract:In recent years, tax evasion has become a diversification, specialization, universalization and concealment. Therefore, in order to better identify whether the company has tax evasion behavior, it builds a random forest model based on Python language in the Anaconda integrated development environment through the Scikit-Learn package of Machine learning, selects the optimal model through cross validation algorithm, and then sells the automobile. Whether the industry taxpayer has tax evasion and conduct automatic identification. The results show that the automatic identification of tax evasion behavior based on random forest model has better accuracy than other common classification models (k-nearest neighbor algorithm, logistic regression model, decision tree model and Adaboost algorithm) and has more Good classification performance can satisfy the automatic identification of tax evasion behavior. Based on this, it will automatically identify 15 taxpayers in the automobile sales industry for tax evasion.
In view of the diversified, specialized, universal, and concealed development trend of corporate tax evasion in recent years, in order to better identify whether the company has tax evasion, A random forest model is constructed by the Scikit-Learn package through machine learning in the Anaconda integrated development environment and the optimal model is selected by a cross-validation algorithm. Whether the taxpayers in the automobile sales industry are automatically identified for tax evasion. The results show that the automatic identification of tax evasion behavior based on random forest model has higher accuracy than other common classification models (k-nearest neighbor, logistic regression model, decision tree model and Adaboost algorithm), and the classification performance is better so that the automatic identification of tax evasion is successfully conducted.
英文關(guān)鍵詞Key Words:random forest;machine learning;tax evasion behavior;classification algorithm
0 引言
稅收是國(guó)家賴以生存的物質(zhì)基礎(chǔ),與國(guó)家興衰息息相關(guān),然而稅收涉及的兩個(gè)主體:征稅人和納稅人之間永遠(yuǎn)存在“博弈”關(guān)系[1]。近年來,企業(yè)偷漏稅現(xiàn)象屢見不鮮,給國(guó)家造成了很大的經(jīng)濟(jì)損失和不良的社會(huì)影響[2]。稅務(wù)稽查對(duì)打擊偷逃騙稅等違法活動(dòng),增強(qiáng)納稅人守法意識(shí)發(fā)揮著重要作用。傳統(tǒng)的稽查選案以舉報(bào)信息為依據(jù),主要依靠專業(yè)稽查人員的經(jīng)驗(yàn)和直覺識(shí)別偷漏稅行為[3]。但企業(yè)偷漏稅手段已呈多樣化、專業(yè)化、普遍化、隱蔽化的趨勢(shì)[4]。機(jī)器學(xué)習(xí)模型和算法應(yīng)用于稅務(wù)稽查效果明顯。相關(guān)研究有:李亙[5]利用決策樹模型和SLIQ算法進(jìn)行簡(jiǎn)單分類,然后對(duì)稅務(wù)稽查進(jìn)行計(jì)算機(jī)選案。劉鵬[6]在決策樹模型分類的基礎(chǔ)上進(jìn)行聚類分析,驗(yàn)證了基于劃分的分析方法在實(shí)際稅務(wù)稽查工作中存在一定的問題。所以,決策樹模型對(duì)于偷漏稅行為的識(shí)別并非最佳。
隨機(jī)森林是基于Bagging實(shí)現(xiàn)的一種機(jī)器學(xué)習(xí)模型,是以決策樹算法為機(jī)器學(xué)習(xí)的集成學(xué)習(xí)模型。隨機(jī)森林模型在醫(yī)學(xué)、水利工程、電力工程、企業(yè)決策等不同領(lǐng)域有很好的應(yīng)用,能取得很高的預(yù)測(cè)準(zhǔn)確率[7-13]。汽車產(chǎn)業(yè)存在偷漏稅現(xiàn)象[14-15],汽車銷售行業(yè)在稅收上存在少開發(fā)票金額、少計(jì)收入,上牌、按揭、保險(xiǎn)等一條龍服務(wù)不入賬,不及時(shí)確認(rèn)保修索賠等情況,造成大量稅收流失[16-17]。本文將隨機(jī)森林模型應(yīng)用于稅務(wù)稽查的計(jì)算機(jī)選案,針對(duì)汽車銷售行業(yè)進(jìn)行偷漏稅行為自動(dòng)識(shí)別。通過收集汽車銷售行業(yè)的部分經(jīng)營(yíng)數(shù)據(jù),基于機(jī)器學(xué)習(xí)方法,結(jié)合汽車銷售行業(yè)納稅人屬性,衡量納稅人經(jīng)營(yíng)特征,利用隨機(jī)森林算法建立偷漏稅行為識(shí)別模型,對(duì)納稅人進(jìn)行識(shí)別。
1 CART決策樹與隨機(jī)森林算法
1.1 CART決策樹
決策樹(Decision Tree, DT)是一種集成學(xué)習(xí)算法,屬于一種描述分類的樹形結(jié)構(gòu),由節(jié)點(diǎn)和向邊組成,根據(jù)遞歸特征對(duì)數(shù)據(jù)集進(jìn)行分割,使子數(shù)據(jù)集有一個(gè)最好的分類過程。這個(gè)過程是對(duì)特征空間的劃分,也是對(duì)決策樹的構(gòu)建。
分類與回歸(classification and regression tree,CART)算法由Breiman等在1984年提出,是一種決策樹學(xué)習(xí)方法。CART決策樹的生成是遞歸構(gòu)建二叉決策樹過程,分類樹用基尼指數(shù)(Gini index)最小化準(zhǔn)則選擇最優(yōu)特征,同時(shí)決定該特征的最優(yōu)二值切分點(diǎn)。
CART決策樹的生成通過計(jì)算基尼指數(shù),使基尼指數(shù)最小作為特征選擇的準(zhǔn)則。從根節(jié)點(diǎn)開始,遞歸產(chǎn)生決策樹,將訓(xùn)練集分割為基本正確分類的子集。
1.2 隨機(jī)森林算法
Bagging是一種并行式集成學(xué)習(xí)框架,基于自助采樣法(bootstrap sampling)。給定包含m個(gè)樣本的數(shù)據(jù)集,先隨機(jī)取出一個(gè)樣本放入采樣集,再把該樣本放回到初始數(shù)據(jù)集,保證下次該樣本仍有可能被選中,這樣m次隨機(jī)采樣得到包含m個(gè)樣本的采樣集。然后采樣出T個(gè)含m個(gè)訓(xùn)練樣本的采樣集,基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將這些基學(xué)習(xí)器結(jié)合。在對(duì)預(yù)測(cè)輸出進(jìn)行結(jié)合時(shí),Bagging通常采用簡(jiǎn)單投票法。
隨機(jī)森林(Random Forest,RF)是基于Bagging 實(shí)現(xiàn)的,以決策樹算法為基學(xué)習(xí)器,在構(gòu)建Bagging采樣基礎(chǔ)上,進(jìn)一步在決策樹訓(xùn)練中引入隨機(jī)屬性。
隨機(jī)森林算法實(shí)現(xiàn)步驟:①采用自助采樣法(bootstrap sampling)從樣本集中選取n個(gè)樣本作為一個(gè)訓(xùn)練集;②用抽樣得到的樣本集生成一棵決策樹。在生成的每一個(gè)節(jié)點(diǎn)隨機(jī)不重復(fù)地選擇d個(gè)特征,然后利用這d個(gè)特征分別對(duì)樣本集進(jìn)行劃分,找到最佳的劃分特征(使用基尼指數(shù)最小作為特征選擇的準(zhǔn)則);③重復(fù)步驟①、步驟②共k次,k為隨機(jī)森林中決策樹的個(gè)數(shù);④用訓(xùn)練得到的隨機(jī)森林對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),并用票選法決定預(yù)測(cè)結(jié)果。
2 自動(dòng)識(shí)別模型建立與評(píng)價(jià)
2.1 樣本和指標(biāo)選取
偷漏稅指納稅人以不繳或少繳稅款為目的,采取各種不公開手段,隱瞞真實(shí)情況,欺騙稅務(wù)機(jī)關(guān)的行為。本文參照稅務(wù)稽查指標(biāo),針對(duì)汽車銷售行業(yè)選擇12個(gè)指標(biāo)作為偷漏稅行為自動(dòng)識(shí)別模型的預(yù)測(cè)指標(biāo),包括汽車銷售平均毛利(x1)、維修毛利(x2)、企業(yè)維修收入占銷售收入比重(x3)、增值稅稅負(fù)(x4)、存貨周轉(zhuǎn)率(x5)、成本費(fèi)用利潤(rùn)率(x6)、整體理論稅負(fù)(x7)、整體稅負(fù)控制數(shù)(x8)、辦牌率(x9)、單臺(tái)辦牌手續(xù)費(fèi)收入(x10)、代辦保險(xiǎn)率(x11)和保費(fèi)返還率(x12)。
根據(jù)這12個(gè)指標(biāo),選擇汽車銷售行業(yè)124個(gè)納稅人的124組數(shù)據(jù)作為樣本,各企業(yè)銷售模式包括4S店、多品牌經(jīng)營(yíng)店、一級(jí)代理商、二級(jí)及二級(jí)以下代理商和其它類型。其中124個(gè)納稅人中有55個(gè)存在偷漏稅行為,69個(gè)不存在偷漏稅行為。樣本數(shù)據(jù)中,輸出為“正?!焙汀爱惓!?,分別用“1”代表“正?!?,表示不存在偷漏稅行為,“0”代表“異?!?,表示存在偷漏稅行為。
基于上述12個(gè)指標(biāo),本文采用Python的集成開發(fā)環(huán)境Anaconda,借助機(jī)器學(xué)習(xí)的Scikit-Learn包構(gòu)建基于隨機(jī)森林的偷漏稅行為自動(dòng)識(shí)別模型。
2.2 數(shù)據(jù)預(yù)處理
2.2.1 缺失值處理
在原始數(shù)據(jù)中發(fā)現(xiàn)存在數(shù)據(jù)缺失現(xiàn)象,如果刪除這組數(shù)據(jù)將會(huì)影響最終的計(jì)算結(jié)果。因此,為了達(dá)到較好的建模效果,需要對(duì)缺失值進(jìn)行處理,本文采用拉格朗日插值法對(duì)缺失值進(jìn)行插補(bǔ)。
其中,x為缺失值對(duì)應(yīng)的下標(biāo)序號(hào),Ln(x)為插值結(jié)果,xi為非缺失值yi的下標(biāo)序號(hào)。
2.2.2 規(guī)范化
2.3 模型構(gòu)建
2.3.1 數(shù)據(jù)劃分
對(duì)樣本數(shù)據(jù)隨機(jī)選取20%作為測(cè)試樣本,剩下的80%作為訓(xùn)練數(shù)據(jù),用訓(xùn)練集樣本在各種條件下(不同的參數(shù))訓(xùn)練模型,從而得到不同的模型。在測(cè)試集上評(píng)價(jià)各個(gè)模型,然后選出最優(yōu)模型。
2.3.2 交叉驗(yàn)證
“k折交叉驗(yàn)證”是將數(shù)據(jù)D劃分為k個(gè)大小相似的子集,且D=D1∪D1∪…∪Dk,Di∩Dj=φ(i≠j),子集Di保持?jǐn)?shù)據(jù)分布的一致性。選擇k-1個(gè)子集的并集作為訓(xùn)練集,剩下的那個(gè)子集作為測(cè)試集進(jìn)行k次訓(xùn)練和測(cè)試,最終選擇最優(yōu)的模型和參數(shù)。
預(yù)測(cè)結(jié)果如圖1所示,其中Training score表示驗(yàn)證集上的準(zhǔn)確率,n_estimators表示決策樹的數(shù)量。從圖中可以看出,當(dāng)決策樹數(shù)量(n_estimators)比較小時(shí)(小于150),隨著決策樹數(shù)目的增加,模型預(yù)測(cè)精度會(huì)有一定提升;當(dāng)決策樹數(shù)量達(dá)到一定數(shù)目時(shí)(大于150),隨機(jī)森林模型的預(yù)測(cè)精度基本保持不變,穩(wěn)定在88.90%,這說明RF模型具有良好的不易過擬合性質(zhì)。因此,隨機(jī)森林預(yù)測(cè)中n_estimators屬性值選擇150。
另外,針對(duì)同樣的訓(xùn)練集和測(cè)試集樣本,利用k-近鄰算法(KNN)、邏輯回歸模型(LR)、決策樹模型(DT)和Adaboost算法進(jìn)行預(yù)測(cè),與隨機(jī)森林算法預(yù)測(cè)結(jié)果進(jìn)行比較,預(yù)測(cè)結(jié)果見表1。從表中可以看出,KNN模型和RF模型的預(yù)測(cè)準(zhǔn)確率都達(dá)到了80%以上,具有較好的分類效果。但相比KNN、LR和DT這樣的單一機(jī)器學(xué)習(xí)模型,集成學(xué)習(xí)模型(AdaBoost和RF)訓(xùn)練耗時(shí)較大。另外,DT模型在驗(yàn)證集有較好的訓(xùn)練得分,但在測(cè)試集上訓(xùn)練準(zhǔn)確率相對(duì)較低,模型可能存在過擬合現(xiàn)象,不適合作為本文的分類器。
2.3.3 模型評(píng)價(jià)
5個(gè)模型分類準(zhǔn)確率相差不大,特別是KNN模型和RF模型。為了進(jìn)一步評(píng)估模型性能,采用其它評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)。
對(duì)于二分類問題,可將數(shù)據(jù)集按真實(shí)類別和分類器預(yù)測(cè)類別組合劃分為真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)4種情況,其中,TP表示將正類預(yù)測(cè)為正類數(shù), FN表示將正類預(yù)測(cè)為負(fù)類數(shù),F(xiàn)P表示將負(fù)類預(yù)測(cè)為正類數(shù),TN表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù)。評(píng)價(jià)二分類問題性能的指標(biāo)包括精確率(P)和召回率(R),單獨(dú)使用這兩個(gè)指標(biāo)進(jìn)行評(píng)價(jià)是不全面的。實(shí)際上,F(xiàn)1值可以反映精確率和召回率的整體性能,F(xiàn)1定義為精確率和召回率的調(diào)和平均,即:
為了更好地比較不同模型的預(yù)測(cè)性能,采用ROC曲線進(jìn)行評(píng)價(jià),通過比較ROC曲線下的面積(AUC值)大小,分別計(jì)算出不同模型對(duì)應(yīng)的精確率、召回率、F1值和AUC值,詳細(xì)結(jié)果如表2所示。
從表2可以看出,不同模型的F1值相差不大,不能很好地說明RF模型具有顯著的分類性能。但是,比較5種模型的AUC值,RF模型的AUC值達(dá)到了0.831,相比其它模型更加顯著,因此RF模型分類性能較好,可以應(yīng)用于汽車銷售行業(yè)的偷漏稅自動(dòng)識(shí)別。
2.3.4 自動(dòng)識(shí)別結(jié)果
選擇15個(gè)汽車銷售行業(yè)納稅人的12個(gè)指標(biāo)數(shù)據(jù),經(jīng)過數(shù)據(jù)處理得到模型輸入數(shù)據(jù),利用構(gòu)建的偷漏稅行為自動(dòng)識(shí)別模型計(jì)算偷漏稅行為識(shí)別結(jié)果,并與實(shí)際結(jié)果對(duì)比,如表3所示。其中,x1-x12是12個(gè)特征指標(biāo),y是實(shí)際輸出值,y_pred是預(yù)測(cè)輸出值,“*”表示預(yù)測(cè)結(jié)果錯(cuò)誤的納稅人。從表中可以看出,總的汽車銷售行業(yè)納稅人有15個(gè),正確識(shí)別出偷漏稅行為的納稅人有13個(gè),偷漏稅行為識(shí)別錯(cuò)誤的納稅人有2個(gè),預(yù)測(cè)準(zhǔn)確率達(dá)到86.67%,整體上顯示自動(dòng)識(shí)別偷漏稅行為準(zhǔn)確率較高。
3 結(jié)語(yǔ)
本文基于Python語(yǔ)言,在Anaconda集成開發(fā)環(huán)境下,通過機(jī)器學(xué)習(xí)的Scikit-Learn包構(gòu)建隨機(jī)森林模型,通過交叉驗(yàn)證算法選擇最優(yōu)模型,對(duì)汽車銷售行業(yè)納稅人是否存在偷漏稅行為進(jìn)行自動(dòng)識(shí)別。結(jié)果表明,基于隨機(jī)森林模型的偷漏稅行為自動(dòng)識(shí)別相對(duì)于其它模型(k-近鄰算法、邏輯回歸模型、決策樹模型和Adaboost算法)具有較高的準(zhǔn)確率。為了進(jìn)一步評(píng)價(jià)模型的分類性能,計(jì)算出隨機(jī)森林模型的AUC值為0.831,高于其它常見的分類模型,表示隨機(jī)森林模型對(duì)于偷漏稅行為的識(shí)別具有較高的準(zhǔn)確率,而且具有更好的分類性能,可以滿足偷漏稅行為自動(dòng)識(shí)別需求。
參考文獻(xiàn):
[1] 齊鑫鑫.識(shí)別偷稅的稅務(wù)稽查方法研究[D].長(zhǎng)春:吉林大學(xué),2010.
[2] 魯華軍.企業(yè)偷漏稅的識(shí)別[J].湖北財(cái)稅:理論版,2000(10):35-36.
[3] 陳仕鴻,張英明.二分類Logistic回歸分析在稅務(wù)稽查中的應(yīng)用[J].華南金融電腦,2009(6):48-49.
[4] 王真華.淺析企業(yè)偷漏稅原因及防范措施[J].時(shí)代經(jīng)貿(mào),2010(23):78-79.
[5] 李亙.數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查選案中的應(yīng)用[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2007(23):1224-1225,1377.
[6] 劉鵬.數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查中的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2011.
[7] 王宇燕,王杜娟,王延章,等.改進(jìn)隨機(jī)森林的集成分類方法預(yù)測(cè)結(jié)直腸癌存活性[J].管理科學(xué),2017(1):95-106.
[8] 胡添翼,戴波,何啟,等.基于隨機(jī)森林分類算法的邊坡穩(wěn)定預(yù)測(cè)模型[J].人民黃河,2017(5):115-118.
[9] 盛夏,李斌,張迪.基于數(shù)據(jù)挖掘的上市公司信用評(píng)級(jí)變動(dòng)預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(15):159-162.
[10] 孫菲菲,曹卓,肖曉雷.基于隨機(jī)森林的分類器在犯罪預(yù)測(cè)中的應(yīng)用研究[J].情報(bào)雜志,2014,33(10):148-152.
[11] 賀建章,王海波,季知祥,等.基于隨機(jī)森林理論的配電變壓器重過載預(yù)測(cè)[J].電網(wǎng)技術(shù),2017,41(8):593-597.
[12] 李偉,陳海波.急傾斜煤層頂煤可放性隨機(jī)森林模型分類預(yù)測(cè)及應(yīng)用[J].黑龍江科技大學(xué)報(bào),2016,26(4):373-377.
[13] 沈晶磊,虞慧群,范貴生,等.基于隨機(jī)森林算法的推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2017,44(11):164-167,186.
[14] 劉宗巍,王悅,郝瀚,等.中國(guó)汽車產(chǎn)業(yè)稅收分配機(jī)制及改革策略[J].稅務(wù)與經(jīng)濟(jì),2016(2):1-9.
[15] 劉錦君.JL汽車公司核心稅種的稅務(wù)籌劃研究[D].沈陽(yáng):遼寧大學(xué),2016.
[16] 張?chǎng)?,陸偉?qiáng).完善汽車銷售行業(yè)稅收征管[J].浙江經(jīng)濟(jì),2011(18):44-45.
[17] 饒瑤瑤.關(guān)于汽車4S店稅務(wù)風(fēng)險(xiǎn)管理的調(diào)研報(bào)告[D].杭州:浙江財(cái)經(jīng)大學(xué),2016.
[18] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:173-178.
[19] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:58-72.
[20] 張良均.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2015:33-37.
(責(zé)任編輯:杜能鋼)