姜亮 張梅梅
【摘 要】 當前我國稅收政策更新速度快,所涉部門多,僅靠財務部門人工搜集、分析、組織實施效率低下,導致企業(yè)錯失應稅減稅機會,因此稅收政策文本的實時學習和自動分發(fā)成為加強企業(yè)應稅管理、降本增效的首要任務。文章設計稅政文本挖掘系統(tǒng)來實現(xiàn)稅政文本自動學習和分發(fā):首先,分析稅收政策文檔;其次,利用分詞系統(tǒng)和TF-IDF算法提取每個文本的特征,用貝葉斯、決策樹和隨機森林三種分類器進行文本分類,并將結果與人工標注結果進行對照;最后,計算三種分類算法的混淆矩陣、準確率和召回率。實驗結果表明,隨機森林算法文本識別正確率最高,稅政文本挖掘系統(tǒng)采用該算法進行識別和自動分發(fā),據(jù)此部署部門協(xié)同工作,能顯著提升公司財稅管理工作的全局性和協(xié)同性。
【關鍵詞】 隨機森林; 部門協(xié)同; 稅政文本
【中圖分類號】 F263? 【文獻標識碼】 A? 【文章編號】 1004-5937(2021)10-0037-05
一、引言
企業(yè)實現(xiàn)業(yè)財聯(lián)動、部門協(xié)同是降本增效、提升競爭力的新財稅管理手段。但稅收政策更新速度快,涉及企業(yè)部門多,目前僅靠財務部門人工搜集分析并學習稅收政策,造成企業(yè)學習成本過高、效率低下,且缺乏部門高效協(xié)同方式,導致企業(yè)錯失應稅減稅機會。如研發(fā)費用加計扣除政策執(zhí)行情況,調查顯示59.5%的企業(yè)希望稅務或科技部門加強對企業(yè)財務或研發(fā)人員的宣傳與輔導力度,且表示政策的宣傳輔導服務對政策的落實有較大影響,另外跨部門聯(lián)動機制還未形成,各部門對研發(fā)活動和研發(fā)項目的認定存在偏差,制約了相關政策的有效執(zhí)行[ 1 ]。因此應由財務部門單獨規(guī)劃向集團整體部門協(xié)作轉化[ 2 ]。
2019年4月,本研究聯(lián)合調查了大型國企GW的財務部和科技部關于科研加計扣除稅收優(yōu)惠政策的應稅問題,對“三新”項目的申請、評審、立項、執(zhí)行及項目結束的全流程調研分析后可知,該企業(yè)科技部門希望普及“三新”項目認知規(guī)則,財務部門認為關鍵環(huán)節(jié)之一是在年度納稅申報前進行相關資料留存?zhèn)洳椋叭隆表椖康脑u審和資料留存?zhèn)浒感枰攧詹亢涂萍疾咳藛T多次溝通確認,制度性成本顯著增加。針對節(jié)能節(jié)水項目企業(yè)所得稅優(yōu)惠目錄聯(lián)合調研財務部和采購部負責人,主要問題是需協(xié)同運檢部、物資部和物資公司對不同廠商、不同規(guī)格型號的設備空載損耗值、負載損耗值等性能參數(shù)進行檢測,但因多部門協(xié)同困難,采購部門未能“應享盡享”該項優(yōu)惠稅政。
針對當前稅政更新快、數(shù)量比較大、信息壁壘強的特點,建立實時稅政協(xié)同工作機制是支撐實時反應和實時控制、提升財稅實時管控能力、深化財務集約化的重要保證。實時稅政學習工作依賴人工,效率和精度不能保障,則建立稅政文本自動學習和分發(fā)機制成為首要任務。文本挖掘是從非結構化數(shù)據(jù)中提取有價值信息和知識的技術,主要通過關鍵詞篩選和文本編碼對政策文本進行規(guī)范的量化分析。宋英慧和黃麒[ 3 ]在分析財務報表附注時采用文本挖掘方法,先使用分詞對財務報表附注的文本集合進行信息拆分,然后通過詞頻統(tǒng)計提取財務報表附注披露內容的特征,直觀地看出披露內容重點集中于哪些信息。張志恒和成雪嬌[ 4 ]建立不同的文本挖掘模型,對審計數(shù)據(jù)進行分析,進而發(fā)現(xiàn)審計疑點,最終形成可理解的審計證據(jù)和審計線索。其他政策文本挖掘探索還包括安全生產問責制度[ 5 ]、特色小鎮(zhèn)專項政策[ 6 ]、廣東省科技金融政策[ 7 ]、中央政府創(chuàng)新創(chuàng)業(yè)支持政策[ 8 ]等。
基于此,本文以促進企業(yè)多部門高效率協(xié)同應稅為中心,提出一種“文本多分類+部門匹配”的自動識別與分發(fā)機制,將稅政文本按照部門特征分類識別并自動分發(fā)給相應部門。根據(jù)自動分發(fā)結果,部署部門協(xié)同工作內容,預期將最新稅政置于業(yè)務流程前端,實現(xiàn)稅收籌劃與協(xié)同部署。
二、稅政文本挖掘系統(tǒng)
(一)稅政文本自動識別分發(fā)與部門協(xié)同
稅政文本自動識別分發(fā)系統(tǒng)負責稅政文本的自動識別、分發(fā),經部門協(xié)同處理之后進行價值分析和處理,科研部、財務部、人資部、采購部等部門協(xié)同工作,如圖1所示。
(二)稅政文本自動分發(fā)系統(tǒng)設計
稅政文本分發(fā)系統(tǒng)包括數(shù)據(jù)爬取、文本挖掘和反饋系統(tǒng),關鍵步驟是提取文本實用信息并自動分發(fā)給相應部門進行學習、協(xié)同工作來實現(xiàn)稅前控制。企業(yè)稅政文本主要來自國家稅務總局官方網站、各省稅務局網站及企業(yè)稅收相關網站。文本來源眾多,內容繁雜,人工收集、學習、分發(fā)低效且不能及時部門協(xié)同,采用基于Python語言的爬蟲程序收集數(shù)據(jù),企業(yè)可建稅政文本數(shù)據(jù)庫。稅政文本自動識別分發(fā)系統(tǒng)主要過程如下:
1.關鍵詞分析
根據(jù)文本特征值對文本進行多分類。建立一個分類模型,輸入項為稅收文本,輸出項為該文本匹配部門。由于中文文本的特性,在特征建模前需要對文本進行分詞處理。目前主流中文分詞方法是基于理解的分詞方法、基于字符串匹配的分詞方法和基于統(tǒng)計的分詞方法,本文采用開源jieba分詞器。為了避免不含語義信息的噪聲對最終分類造成影響,本文對分詞結果進行了停用詞過濾,使用的停用詞表是《哈工大停用詞表》,經過驗證該表在中文停用詞過濾上有較好的效果。特征工程方面,使用了詞袋模型將文本表示為向量形式。詞袋模型將文本數(shù)據(jù)集所有的詞條構建成字典,并將每一篇文本表示為詞條出現(xiàn)的頻率集合。
稅政文本使用TF-IDF算法進行關鍵詞分析,通過計算詞頻和逆向文件頻率來說明詞條的類別區(qū)分能力,從而判斷該詞條是否為文本的關鍵詞。
詞頻(TF)代表詞條在文本中出現(xiàn)的頻率,表示為:
其中ni,j是該詞在文本中出現(xiàn)的次數(shù),分母則是文本中所有詞匯出現(xiàn)的總和。
逆向文件頻率(IDF)代表出現(xiàn)該詞條的文件在整個文件集合中的頻率,表示為:
其中,D是語料庫中的文件總數(shù),分母表示包含詞語ti的文件數(shù)目。最終TF-IDF值表示為公式(1)與公式(2)的乘積。某一特定文件中的高頻率和該詞語在整個文件集合中的低文件頻率,可以產生高權重的TF-IDF。因此,TF-IDF傾向于選擇重要且并不常見的詞作為稅政文本的關鍵詞。
本文使用詞袋模型對文本進行特征建模,再對數(shù)據(jù)集中的每個詞條計算TF-IDF值,將文本表示為每個詞條TF-IDF值的集合形式,得到的文本數(shù)據(jù)集是994*55 726的矩陣形式,去掉特征中不包含任何信息的數(shù)字和字母特征,最終得到的文本集合是994*53 109的矩陣形式。
2.人工標注
按企業(yè)部門進行人工標注,經對文本數(shù)據(jù)集預覽和主題把握,制定分類標注依據(jù),部門確定為財務部、管理層(職能部門、發(fā)展部門和辦公室)、人力資源部、采購部等,如表1所示。
本文以國家稅務總局官方網站2017年11月至2019年8月的994篇稅收文本為數(shù)據(jù)源進行文本挖掘。文本標注關鍵詞對應如表2所示。
3.文本多分類
為了提高分類準確度,采用三種常見的分類器來構建模型。
(1)貝葉斯分類器
貝葉斯分類器是在相關概率已知的情況下,找到誤判損失最小的分類類別。對于N種可能的分類類別,文本x分錯類帶來的損失可以表示為:
其中λij是指將Cj誤分為Ci時所產生的損失,為使損失達到最小,要求后驗概率最大。貝葉斯分類器利用貝葉斯公式計算待分類項在某個條件下屬于各類的概率,然后將待分類項歸于后驗概率最大的一類。
(2)決策樹算法
決策樹算法通過對特征進行選擇,找出使數(shù)據(jù)集整體信息量下降最快的特征作為節(jié)點,并按照這一原則進行迭代,直至整體信息量下降為零。本文使用基于ID3算法的決策樹,根據(jù)信息增益來尋找適合切分數(shù)據(jù)的特征。
(3)隨機森林
隨機森林是一種裝袋算法,通過集成多個能力強、差異性強的同類型弱分類器來組成一個強分類器,使用訓練出來的多個弱分類器對數(shù)據(jù)集進行分類,然后使用多數(shù)投票的方式來輸出最終的分類結果。本文隨機森林使用了CART樹作為弱分類器,后者是一種以基尼系數(shù)作為特征選擇標準的決策樹模型,由于集成的作用,最終隨機森林預測效果要優(yōu)于決策樹,且對噪音不敏感,適合用于特征較復雜且噪音較強的文本分類。本文使用sklearn標準化工具建立分類器并進行訓練。
三、稅政文本自動識別實驗分析
(一)分類準確率
對994篇稅政文本按3:1進行訓練集和測試集切分,訓練文本用于建立并訓練分類器,測試文本用于對分類器進行效果測試。將模型對測試集分類的結果與人工標注的結果進行比較。針對稅政文本多分類的實驗結果,通過計算準確率、混淆矩陣和各部門文本召回率對效果進行評判,結果如表3。
結果表明,三種分類器準確率都超過了90%,說明常見的機器學習分類器對人工標注的實驗稅政文本都有較好的分類效果,其中隨機森林算法的分類準確率最高。
(二)召回率
除采用準確率這一評判標準之外,還可以通過混淆矩陣和計算召回率對分類效果進行評估?;煜仃囍?,橫軸是該文本人工標注結果,縱軸是模型預測結果,斜對角線上的數(shù)據(jù)代表分類正確的文本數(shù)量,其余坐標點上的數(shù)據(jù)代表了分類錯誤的文本數(shù)量。根據(jù)混淆矩陣可以按以下公式計算出部門對應召回率:
部門召回率Ri=■ (4)
其中i的區(qū)間是從1到4,且分別對應四個部門的ID。結果如表4所示。
表4可得,貝葉斯分類器分類錯誤的文本數(shù)量為66,其中財務部文本的召回率最低,原屬于財務部卻被誤判為其他部門的文本為40篇,占錯誤文本的76%,而其他部門文本誤判的數(shù)量不超過10%。決策樹算法分類準確率為0.9759,分類錯誤的文本數(shù)量為18篇,各部門召回率均值處在高水平,且相差較小。隨機森林算法的分類效果非常顯著,準確率達到0.9919,只有6篇文本被分類錯誤。因隨機森林算法集成了多個決策樹算法并最終按照少數(shù)服從多數(shù)原則輸出,故在結果上糾正了單棵決策樹分類出現(xiàn)的錯誤,對管理層和人力資源部稅政文本分類準確率達到100%。召回率比較如圖2所示。
隨機森林的混淆矩陣如圖3所示。
綜合三種算法的召回率和折線圖來看,隨機森林算法的準確率在各部門文本中都是最高的,并且表現(xiàn)較為平穩(wěn),不會受到文本自身的影響,則本文選擇隨機森林算法應用于企業(yè)稅政文本自動學習和分發(fā)。
(三)反饋模塊
文本多分類完成后,為確保每個文本的分類結果匹配到相應部門,且保證同一篇文本里包含的價值可以被多個部門使用,則需要在系統(tǒng)中設置反饋模塊,以達到控制和優(yōu)化系統(tǒng)的作用。該模塊通過監(jiān)測文本的去向以及被使用完后的狀態(tài)來實現(xiàn)控制和反饋。本文定義三種文本在使用后的狀態(tài)分別是“用完”“余值”和“無用”,含義及控制反饋見表5。
通過該控制方式,可實現(xiàn)對文本價值的高效利用,通過反饋達到優(yōu)化系統(tǒng)的目的。
四、稅政文本自動分發(fā)與部門協(xié)同
應用稅政文本自動識別和分發(fā)系統(tǒng),將位于業(yè)務末端的應稅管理置于業(yè)務前端,通過部門協(xié)同學習構建業(yè)財聯(lián)動機制,強化財稅管理對業(yè)務的指導。以財政部、稅務總局、科技部關于提高研究開發(fā)費用稅前加計扣除比例的通知(財稅〔2018〕99號)稅政文本為例,簡稱為“三新”項目加計扣除政策。該項政策通過系統(tǒng)自動識別并分發(fā)到研發(fā)部、科技部、財務部等部門,多部門協(xié)同學習后部署標準化、流程化和范式化的管理機制,將位于研發(fā)業(yè)務流程末端的應稅管理與科技部前端環(huán)節(jié)實現(xiàn)橫向聯(lián)動、部門協(xié)同,確保業(yè)務信息與稅務信息高效傳輸。如圖4所示。
通過業(yè)務流程分析,將稅政規(guī)則前置于科研項目申報環(huán)節(jié)之前進行學習,因不同部門之間存在較強的知識壁壘,為了提高科研項目享受加計扣除的比例,提高管理效率,部署部門協(xié)同工作時設置財務助理和科研助理。該管理流程通過稅政自動識別并分發(fā)到所涉部門,相關部門據(jù)此部署業(yè)財聯(lián)動的協(xié)同工作流程,促進了稅政文本的多部門高效學習,籌劃了應稅的業(yè)務細節(jié)。