汪疆平,肖戎
1. 北明軟件有限公司技術(shù)研究院,廣東 廣州 510663;2. 廣東省地方稅務(wù)局納稅服務(wù)處,廣東 廣州 510630
稅務(wù)大數(shù)據(jù)分析的技術(shù)和典型應(yīng)用
汪疆平1,肖戎2
1. 北明軟件有限公司技術(shù)研究院,廣東 廣州 510663;2. 廣東省地方稅務(wù)局納稅服務(wù)處,廣東 廣州 510630
基于某省稅務(wù)局大數(shù)據(jù)分析項(xiàng)目的實(shí)踐,結(jié)合稅務(wù)機(jī)關(guān)的信息化建設(shè)現(xiàn)狀和業(yè)務(wù)特點(diǎn),說(shuō)明了如何搭建適合于稅務(wù)業(yè)務(wù)應(yīng)用的大數(shù)據(jù)分析平臺(tái),并結(jié)合具體的應(yīng)用案例,說(shuō)明運(yùn)用大數(shù)據(jù)開(kāi)展業(yè)務(wù)應(yīng)用的過(guò)程、建模方法和數(shù)據(jù)處理方法。通過(guò)對(duì)比大數(shù)據(jù)與傳統(tǒng)信息化建設(shè)方式的差異,說(shuō)明大數(shù)據(jù)將為稅務(wù)機(jī)關(guān)的信息化建設(shè)帶來(lái)全新的突破,提供更為有力的業(yè)務(wù)創(chuàng)新手段。
稅務(wù);大數(shù)據(jù);技術(shù)架構(gòu);數(shù)據(jù)分析;融合創(chuàng)新
稅務(wù)機(jī)關(guān)是我國(guó)信息化建設(shè)起步較早的領(lǐng)域,特別是隨著以“金稅工程”為代表的信息系統(tǒng)的實(shí)施,各省稅務(wù)機(jī)關(guān)基本上都實(shí)現(xiàn)了業(yè)務(wù)信息化的全覆蓋,積累了龐大的數(shù)據(jù)資源。
但是,受制于業(yè)務(wù)條塊分隔、粗放式管理等問(wèn)題,各部門的業(yè)務(wù)系統(tǒng)大多是獨(dú)立建設(shè)、自成體系;而且各地稅務(wù)機(jī)關(guān)往往根據(jù)業(yè)務(wù)需求自行開(kāi)發(fā)輔助的應(yīng)用系統(tǒng),造成了系統(tǒng)各自為政、標(biāo)準(zhǔn)不統(tǒng)一、業(yè)務(wù)難以協(xié)同、數(shù)據(jù)無(wú)法交換和共享等問(wèn)題,成為制約稅務(wù)業(yè)務(wù)整合應(yīng)用、向縱深發(fā)展的瓶頸。
例如,納稅服務(wù)部門面向納稅人提供綜合的辦稅服務(wù),在“以人為本”的“互聯(lián)網(wǎng)+”時(shí)代,現(xiàn)有的各個(gè)業(yè)務(wù)系統(tǒng)分散建設(shè)和獨(dú)立運(yùn)行的模式,已經(jīng)嚴(yán)重制約了納稅服務(wù)下一步的發(fā)展,具體表現(xiàn)為以下幾點(diǎn):
● 分散建設(shè)的業(yè)務(wù)系統(tǒng),難以協(xié)同起來(lái)為納稅人提供統(tǒng)一的服務(wù);
● 業(yè)務(wù)系統(tǒng)提供的基本都是結(jié)果數(shù)據(jù),缺乏行為記錄和服務(wù)過(guò)程信息,難以全面描繪辦稅業(yè)務(wù),滿足優(yōu)化業(yè)務(wù)的需要;
● 基于管理需要而建立的業(yè)務(wù)系統(tǒng),無(wú)論是渠道、方式、流程或界面,都難以滿足互聯(lián)網(wǎng)時(shí)代納稅人的服務(wù)需求;
● “輔助決策系統(tǒng)”提供的統(tǒng)計(jì)數(shù)字,在多變的環(huán)境下,難以支撐對(duì)未來(lái)的業(yè)務(wù)預(yù)測(cè);
● 海量的數(shù)據(jù)沉淀在信息系統(tǒng)中,現(xiàn)有技術(shù)和方法難以發(fā)掘其價(jià)值。
以云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)為代表的新一代信息技術(shù),提供了全新的技術(shù)、渠道和方法,通過(guò)與傳統(tǒng)業(yè)務(wù)的融合創(chuàng)新,正在給世界帶來(lái)巨大,甚至是顛覆性的變化,例如:互聯(lián)網(wǎng)金融、滴滴出行、精準(zhǔn)醫(yī)療、自動(dòng)駕駛汽車等都是典型的代表。國(guó)家先后出臺(tái)了大量政策文件,積極利用云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)等新技術(shù)推動(dòng)傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級(jí),在國(guó)家“十三五”發(fā)展規(guī)劃中,甚至將大數(shù)據(jù)上升到國(guó)家戰(zhàn)略。
這些新技術(shù)也為優(yōu)化稅務(wù)業(yè)務(wù)帶來(lái)了新的發(fā)展機(jī)遇,國(guó)家稅務(wù)總局先后發(fā)布了《互聯(lián)網(wǎng)+稅務(wù)行動(dòng)計(jì)劃》《運(yùn)用大數(shù)據(jù)開(kāi)展大企業(yè)稅收服務(wù)與監(jiān)管試點(diǎn)工作》等指導(dǎo)文件,推動(dòng)新一代信息技術(shù)在稅務(wù)機(jī)關(guān)的落地實(shí)施。
2015年,筆者參與了某省稅務(wù)局大數(shù)據(jù)平臺(tái)和分析應(yīng)用項(xiàng)目的建設(shè),該項(xiàng)目基于省數(shù)據(jù)中心匯集的全省各個(gè)主要業(yè)務(wù)系統(tǒng)的數(shù)據(jù),針對(duì)稅務(wù)領(lǐng)域的業(yè)務(wù)問(wèn)題和發(fā)展趨勢(shì),采用大數(shù)據(jù)方法和技術(shù),抽取相關(guān)的數(shù)據(jù),建立業(yè)務(wù)分析模型,開(kāi)展了面向納稅人的精準(zhǔn)服務(wù)、業(yè)務(wù)過(guò)程優(yōu)化、服務(wù)渠道轉(zhuǎn)移關(guān)系分析等業(yè)務(wù)應(yīng)用。項(xiàng)目于2016年投入了實(shí)際運(yùn)行,在省、市、服務(wù)廳各級(jí)辦稅部門中應(yīng)用,有力地推動(dòng)了稅務(wù)機(jī)關(guān)管理大數(shù)據(jù)化、辦稅服務(wù)精細(xì)化、業(yè)務(wù)改進(jìn)持續(xù)化的建設(shè)步伐,取得了稅務(wù)局用戶的充分肯定。
本文就是基于該項(xiàng)目的實(shí)踐,對(duì)稅務(wù)機(jī)關(guān)如何利用大數(shù)據(jù)推動(dòng)業(yè)務(wù)優(yōu)化、科學(xué)決策、精準(zhǔn)服務(wù)、融合創(chuàng)新進(jìn)行較為深入的探討。
2.1 稅務(wù)大數(shù)據(jù)分析平臺(tái)總體框架
傳統(tǒng)的信息技術(shù)主要是輔助業(yè)務(wù),而大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了技術(shù)領(lǐng)域,其力量體現(xiàn)在與業(yè)務(wù)相結(jié)合,優(yōu)化現(xiàn)有的業(yè)務(wù),甚至進(jìn)行顛覆性的創(chuàng)新,這樣的案例每天都在各個(gè)領(lǐng)域發(fā)生。稅務(wù)機(jī)構(gòu)同樣可以利用大數(shù)據(jù)預(yù)知未來(lái)的發(fā)展動(dòng)態(tài),推動(dòng)業(yè)務(wù)的轉(zhuǎn)型升級(jí),優(yōu)化管理和服務(wù)模式。
考慮到大數(shù)據(jù)與業(yè)務(wù)的融合是一個(gè)長(zhǎng)期的過(guò)程,為了能持續(xù)地開(kāi)展大數(shù)據(jù)分析工作,首先要建立稅務(wù)大數(shù)據(jù)分析平臺(tái),統(tǒng)一采集和管理來(lái)自各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并提供從數(shù)據(jù)處理到應(yīng)用展現(xiàn)的一系列功能,支撐基于大數(shù)據(jù)的業(yè)務(wù)應(yīng)用。大數(shù)據(jù)平臺(tái)的總體框架分為:數(shù)據(jù)源層、數(shù)據(jù)處理層、應(yīng)用支撐層、業(yè)務(wù)應(yīng)用層,如圖1所示。
圖1 稅務(wù)大數(shù)據(jù)分析平臺(tái)總體框架
數(shù)據(jù)源層:大數(shù)據(jù)分析不僅需要稅務(wù)機(jī)關(guān)內(nèi)部的業(yè)務(wù)系統(tǒng)數(shù)據(jù),而且需要豐富多彩的外部機(jī)構(gòu)數(shù)據(jù),這些數(shù)據(jù)有助于解決更為廣泛的業(yè)務(wù)問(wèn)題。
數(shù)據(jù)處理層:稅務(wù)機(jī)關(guān)內(nèi)部的數(shù)據(jù)通過(guò)數(shù)據(jù)同步/抽取工具匯集到數(shù)據(jù)中心;外部機(jī)構(gòu)的數(shù)據(jù)通過(guò)對(duì)應(yīng)的采集工具,交換到稅務(wù)機(jī)關(guān)內(nèi)部的數(shù)據(jù)中心。為了應(yīng)對(duì)呈指數(shù)增長(zhǎng)的非結(jié)構(gòu)化數(shù)據(jù),在云平臺(tái)上搭建NoSQL數(shù)據(jù)庫(kù),用于存儲(chǔ)和處理龐大的數(shù)據(jù)。
應(yīng)用支撐層:按照業(yè)務(wù)分析的要求,建立相應(yīng)的數(shù)據(jù)模型,在平臺(tái)中封裝了各種分析算法組件和展示模板;為支撐不同的業(yè)務(wù)應(yīng)用場(chǎng)景,提供基礎(chǔ)的分析工具(如數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化等),提供統(tǒng)一的管理工具(如基礎(chǔ)數(shù)據(jù)管理、數(shù)學(xué)模型管理、標(biāo)簽管理、運(yùn)行維護(hù)等)。
業(yè)務(wù)應(yīng)用層:針對(duì)具體的業(yè)務(wù)場(chǎng)景,建立眾多基于大數(shù)據(jù)平臺(tái)的“小應(yīng)用”,解決具體的業(yè)務(wù)問(wèn)題;各個(gè)“小應(yīng)用”具有各自的分析功能和展示界面,甚至與社會(huì)服務(wù)渠道相融合,針對(duì)不同的用戶對(duì)象提供相應(yīng)的功能。
2.2 大數(shù)據(jù)平臺(tái)和工具的選擇
隨著“金稅工程”的不斷深入,稅務(wù)數(shù)據(jù)資源的種類不斷豐富,數(shù)據(jù)量快速增長(zhǎng),特別是近年來(lái)飛速增長(zhǎng)的電子票據(jù)、視頻、網(wǎng)頁(yè)等非結(jié)構(gòu)化數(shù)據(jù),已經(jīng)超出了目前的處理能力。如何采集、存儲(chǔ)和利用龐大的涉稅數(shù)據(jù),進(jìn)而從海量的數(shù)據(jù)中挖掘有價(jià)值的信息,已然成為稅收信息化面臨的一個(gè)重大課題。從結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)向大數(shù)據(jù)是下一步發(fā)展的必然選擇。
近年來(lái),大數(shù)據(jù)平臺(tái)呈現(xiàn)出蓬勃發(fā)展的態(tài)勢(shì),成百上千家廠商提供了眾多大數(shù)據(jù)平臺(tái)產(chǎn)品。大部分大數(shù)據(jù)產(chǎn)品都具有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理、海量數(shù)據(jù)分布式存儲(chǔ)、彈性擴(kuò)容等基本功能,因此,稅務(wù)機(jī)關(guān)在選擇大數(shù)據(jù)平臺(tái)時(shí),主要應(yīng)該考慮與具體業(yè)務(wù)應(yīng)用場(chǎng)景相關(guān)的一些因素,具體情況如下。
● 發(fā)行版本:大部分廠商的大數(shù)據(jù)平臺(tái)都是建立在Hadoop之上的發(fā)行版,附加了一些工具和服務(wù)支持。不同于結(jié)構(gòu)化數(shù)據(jù)庫(kù),大數(shù)據(jù)工具的選擇取決于要處理哪種數(shù)據(jù),不可幻想有一個(gè)大數(shù)據(jù)平臺(tái)能夠適應(yīng)各種應(yīng)用場(chǎng)景。另外,政府機(jī)構(gòu)還必須把是否國(guó)產(chǎn)軟件列入考慮因素。
● 數(shù)據(jù)處理效率:很多大數(shù)據(jù)平臺(tái)非常適合非結(jié)構(gòu)化數(shù)據(jù)處理,但是在結(jié)構(gòu)化數(shù)據(jù)處理方面卻遠(yuǎn)遜于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)。而目前稅務(wù)機(jī)構(gòu)的業(yè)務(wù)數(shù)據(jù)主要是海量結(jié)構(gòu)化數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)的處理效率是必須關(guān)注的一個(gè)重點(diǎn)問(wèn)題。當(dāng)然,非結(jié)構(gòu)化數(shù)據(jù)的處理,更是需要考慮的關(guān)鍵問(wèn)題。
● 對(duì)復(fù)雜類型的數(shù)據(jù)管理和分析能力:稅務(wù)領(lǐng)域的業(yè)務(wù)應(yīng)用場(chǎng)景非常廣泛,涉及的數(shù)據(jù)類型和來(lái)源也非常豐富,因此對(duì)數(shù)據(jù)的加工處理、分析挖掘能力的要求也比較高。
● 運(yùn)維、監(jiān)控工具的便捷性:稅務(wù)領(lǐng)域的數(shù)據(jù)源非常廣泛,很多應(yīng)用場(chǎng)景需要進(jìn)行實(shí)時(shí)分析,但是數(shù)據(jù)源經(jīng)常會(huì)發(fā)生變化,直接影響采集的數(shù)據(jù)質(zhì)量,因而需要有工具監(jiān)測(cè)數(shù)據(jù)源和采集數(shù)據(jù)的異常情況,及時(shí)采取糾正措施。
經(jīng)過(guò)項(xiàng)目實(shí)踐,推薦的適用于稅務(wù)機(jī)構(gòu)的大數(shù)據(jù)技術(shù)實(shí)現(xiàn)架構(gòu)如圖2所示。
2.3 數(shù)據(jù)源和數(shù)據(jù)采集
大數(shù)據(jù)采集框架如圖3所示。經(jīng)過(guò)20多年的信息化建設(shè),某省稅務(wù)局目前正在使用的應(yīng)用系統(tǒng)超過(guò)100個(gè),主要的系統(tǒng)有金三系統(tǒng)、社保系統(tǒng)、發(fā)票在線、自助終端、12366服務(wù)熱線等,基本覆蓋了稅務(wù)管理各方面的工作內(nèi)容,其中,金三系統(tǒng)、社保系統(tǒng)等每天都會(huì)產(chǎn)生數(shù)百萬(wàn)筆業(yè)務(wù)數(shù)據(jù)。另外,稅務(wù)業(yè)務(wù)還涉及工商、質(zhì)監(jiān)、交易中心等政府部門的共享數(shù)據(jù)以及來(lái)自移動(dòng)互聯(lián)網(wǎng)、網(wǎng)絡(luò)社交媒體等方面的外部數(shù)據(jù)。數(shù)據(jù)格式覆蓋了文件、地理信息、日志、圖片、流媒體等多種形態(tài)。豐富的數(shù)據(jù)源,為開(kāi)展大數(shù)據(jù)分析奠定了堅(jiān)實(shí)的基礎(chǔ),而眾多五花八門、來(lái)源各異的數(shù)據(jù)源,也帶來(lái)了非常復(fù)雜的數(shù)據(jù)清洗工作。
信息化建設(shè)較為發(fā)達(dá)的省級(jí)稅務(wù)局一般都建立了數(shù)據(jù)中心,實(shí)時(shí)將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)(大部分是結(jié)構(gòu)化數(shù)據(jù))同步到數(shù)據(jù)中心,大部分非結(jié)構(gòu)化數(shù)據(jù)則存儲(chǔ)在原業(yè)務(wù)系統(tǒng)中,局外的數(shù)據(jù)通過(guò)數(shù)據(jù)交換接口傳輸?shù)絻?nèi)網(wǎng),集中存儲(chǔ)到數(shù)據(jù)中心。
圖2 稅務(wù)大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)
2.4 數(shù)據(jù)處理
具體的業(yè)務(wù)分析應(yīng)用,通過(guò)數(shù)據(jù)接口將涉及的數(shù)據(jù)從省級(jí)數(shù)據(jù)中心抽取出來(lái),對(duì)這些多源、異構(gòu)、海量的原始業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、對(duì)碰等預(yù)處理,將數(shù)據(jù)存儲(chǔ)到大數(shù)據(jù)庫(kù),形成針對(duì)不同業(yè)務(wù)分析的數(shù)據(jù)集。例如:辦稅事項(xiàng)的預(yù)測(cè)場(chǎng)景中,需要將辦稅業(yè)務(wù)劃分為12個(gè)大類、180多個(gè)事項(xiàng),通過(guò)與金稅三期核心系統(tǒng)的數(shù)據(jù)對(duì)碰,還原每個(gè)辦稅事項(xiàng)的過(guò)程信息。
2.4.1 數(shù)據(jù)處理的復(fù)雜性
稅務(wù)大數(shù)據(jù)涉及多源、異構(gòu)、多維、海量的業(yè)務(wù)數(shù)據(jù),處理和分析的復(fù)雜度和難度都遠(yuǎn)高于傳統(tǒng)的數(shù)據(jù)分析,具體表現(xiàn)在以下幾點(diǎn)。
● 省稅務(wù)局一般都有100多個(gè)業(yè)務(wù)系統(tǒng),各個(gè)系統(tǒng)提供的原始數(shù)據(jù)往往存在標(biāo)準(zhǔn)不統(tǒng)一、一致性低、規(guī)范性差等問(wèn)題,而且系統(tǒng)經(jīng)常進(jìn)行更新,需要持續(xù)維護(hù)數(shù)據(jù)接口,才能保證原始數(shù)據(jù)的質(zhì)量。
● 目前,大部分業(yè)務(wù)系統(tǒng)中記錄的都是結(jié)果數(shù)據(jù),很難匹配大數(shù)據(jù)分析需要的分類、分渠道、分時(shí)段等過(guò)程要求,例如,業(yè)務(wù)優(yōu)化、納稅服務(wù)等業(yè)務(wù)都是針對(duì)過(guò)程進(jìn)行分析的。
眾多開(kāi)發(fā)商提供的原始業(yè)務(wù)數(shù)據(jù)匯集在一起時(shí),由于邏輯關(guān)系比較復(fù)雜,梳理業(yè)務(wù)與數(shù)據(jù)之間的關(guān)系需要耗費(fèi)大量的溝通和梳理工作,清洗、轉(zhuǎn)換、對(duì)碰等預(yù)處理的工作量大,而且錯(cuò)誤率高。
● 一些應(yīng)用場(chǎng)景需要采集外部數(shù)據(jù)(如地理位置、企業(yè)信息、社交網(wǎng)絡(luò)等),通過(guò)接口導(dǎo)入數(shù)據(jù)中心,形成對(duì)業(yè)務(wù)的全景式描述。但是,目前外部數(shù)據(jù)的獲取和質(zhì)量是各個(gè)機(jī)構(gòu)都面臨的難題。
圖3 大數(shù)據(jù)采集框架
2.4.2 數(shù)據(jù)匯集流程
受制于業(yè)務(wù)分隔的問(wèn)題,每個(gè)稅務(wù)業(yè)務(wù)系統(tǒng)只是服務(wù)于某個(gè)領(lǐng)域的具體業(yè)務(wù),當(dāng)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)匯集到數(shù)據(jù)中心的時(shí)候,通過(guò)將不同來(lái)源的數(shù)據(jù)整合在一起,形成對(duì)業(yè)務(wù)的全盤認(rèn)識(shí),進(jìn)而從全局的層面找到更好的方法優(yōu)化業(yè)務(wù),這就是數(shù)據(jù)匯集的價(jià)值所在。圖4是一個(gè)比較典型的稅務(wù)機(jī)關(guān)通過(guò)數(shù)據(jù)匯集實(shí)現(xiàn)業(yè)務(wù)優(yōu)化的案例。
例如,進(jìn)行納稅服務(wù)過(guò)程的相關(guān)分析時(shí),金三系統(tǒng)中記錄的是納稅結(jié)果數(shù)據(jù);排隊(duì)叫號(hào)和納稅人評(píng)價(jià)系統(tǒng)中有時(shí)間數(shù)據(jù),但是每次叫號(hào)、評(píng)價(jià)的過(guò)程可能會(huì)辦理多項(xiàng)業(yè)務(wù),以辦稅人和時(shí)間為紐帶,將金三系統(tǒng)與排隊(duì)叫號(hào)和納稅人評(píng)價(jià)系統(tǒng)中的數(shù)據(jù)進(jìn)行對(duì)碰,形成辦稅過(guò)程的數(shù)據(jù);再根據(jù)海量的辦稅過(guò)程數(shù)據(jù)—— 188個(gè)辦稅事項(xiàng)的組合,計(jì)算分離后不同辦稅事項(xiàng)的辦理時(shí)間,由此,還原出每個(gè)辦稅人每次辦稅事項(xiàng)的過(guò)程數(shù)據(jù)。有了這些細(xì)分的數(shù)據(jù),就為業(yè)務(wù)變化預(yù)測(cè)、服務(wù)流程優(yōu)化等分析工作提供了堅(jiān)實(shí)的基礎(chǔ)。
2.4.3 辦稅事項(xiàng)數(shù)據(jù)對(duì)碰
由于不同系統(tǒng)從不同維度記錄數(shù)據(jù),因此當(dāng)需要全局?jǐn)?shù)據(jù)時(shí),常常需要將幾個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行對(duì)碰,形成一件事情的全維信息。例如:金三系統(tǒng)記錄了辦稅結(jié)果,排隊(duì)叫號(hào)系統(tǒng)記錄了叫號(hào)時(shí)間,服務(wù)評(píng)價(jià)系統(tǒng)記錄了評(píng)價(jià)時(shí)間,以納稅人ID為核心將這3個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行對(duì)碰,就可以形成辦稅事項(xiàng)的過(guò)程信息,見(jiàn)表1和表2。
圖4 典型的稅務(wù)數(shù)據(jù)整合應(yīng)用的流程
表1 金三系統(tǒng)(社保等系統(tǒng)與此類似)
表2 排隊(duì)叫號(hào)系統(tǒng)和服務(wù)評(píng)價(jià)系統(tǒng)
金三系統(tǒng)、排隊(duì)叫號(hào)系統(tǒng)、服務(wù)評(píng)價(jià)系統(tǒng)分別記錄了辦稅事項(xiàng)的信息,以辦稅員ID為鍵值,將3個(gè)系統(tǒng)辦稅事項(xiàng)的時(shí)間串聯(lián)在一起。由于辦稅員在不同系統(tǒng)中的身份和權(quán)限并非完全一致,在不同系統(tǒng)中可能使用了不同的ID,所以,還要將辦稅員的身份一一對(duì)應(yīng)起來(lái),見(jiàn)表3和表4。
以上只是一個(gè)簡(jiǎn)單的數(shù)據(jù)對(duì)碰示例,實(shí)際情況遠(yuǎn)比上面列出的情況復(fù)雜,例如:不同服務(wù)器的時(shí)鐘不一致、不同服務(wù)廳的操作方法不一致等問(wèn)題,導(dǎo)致對(duì)碰的結(jié)果存在較多誤差。以上的對(duì)碰示例,通過(guò)一系列的規(guī)范化操作,最終全省平均準(zhǔn)確率達(dá)到了78%左右。對(duì)碰出來(lái)的數(shù)據(jù),剔除不準(zhǔn)確的數(shù)據(jù),剩下的數(shù)據(jù)量也足夠大,可以得出每個(gè)服務(wù)廳每個(gè)辦稅事項(xiàng)的平均辦理時(shí)間。
由此可見(jiàn),數(shù)據(jù)對(duì)碰是一項(xiàng)不得已而為之的數(shù)據(jù)處理工作,需要花費(fèi)大量時(shí)間理解不同系統(tǒng)之間的數(shù)據(jù)邏輯,還要花費(fèi)大量時(shí)間解決對(duì)碰不準(zhǔn)確的問(wèn)題,最終的準(zhǔn)確率還不一定能讓用戶滿意。這種問(wèn)題產(chǎn)生的原因就在于當(dāng)初設(shè)計(jì)系統(tǒng)時(shí),沒(méi)有考慮目前有這么豐富的應(yīng)用需求,或者不同的部門對(duì)數(shù)據(jù)的需求不一致,需要將不同系統(tǒng)的數(shù)據(jù)匯集在一起還原當(dāng)時(shí)的辦理信息。
隨著“循數(shù)管理”“以數(shù)據(jù)為中心”思想的深入貫徹,大家會(huì)越來(lái)越重視原始數(shù)據(jù)的采集工作,在處理業(yè)務(wù)的過(guò)程中補(bǔ)充自己不需要但是其他部門會(huì)需要的數(shù)據(jù)。這樣,才可以從根本上減輕數(shù)據(jù)處理的壓力。
2.4.4 應(yīng)用支撐
本著“大平臺(tái)、小應(yīng)用”的設(shè)想,大數(shù)據(jù)平臺(tái)針對(duì)業(yè)務(wù)應(yīng)用,提供了開(kāi)發(fā)工具、分析工具和管理工具,為基于大數(shù)據(jù)的創(chuàng)新應(yīng)用提供技術(shù)支撐。開(kāi)發(fā)工具包括工作流、模型引擎、可視化、視頻等應(yīng)用組件,分析工具包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)分析、可視化展現(xiàn)等,管理工具包括基礎(chǔ)數(shù)據(jù)管理、數(shù)學(xué)模型管理、標(biāo)簽管理、運(yùn)行維護(hù)等。這些平臺(tái)上的支撐工具,使得各個(gè)業(yè)務(wù)部門可以按照業(yè)務(wù)需求,自行搭建應(yīng)用系統(tǒng),更加自主、快速、靈活。
大數(shù)據(jù)分析與基于數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能(business intelligence,BI)分析有非常顯著的差異,BI分析通常都是基于明確的業(yè)務(wù)邏輯和數(shù)據(jù)邏輯。而大數(shù)據(jù)要解決的問(wèn)題開(kāi)始時(shí)往往都只有大致的方向,需要收集信息和數(shù)據(jù)逐步明確問(wèn)題,分析過(guò)程中通常也不是依靠邏輯關(guān)系建立數(shù)學(xué)模型,而是通過(guò)訓(xùn)練數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,建立相應(yīng)的數(shù)據(jù)模型,甚至直接通過(guò)數(shù)據(jù)得出結(jié)論。大數(shù)據(jù)可以適用的分析方法比BI更加豐富,需要數(shù)學(xué)家、業(yè)務(wù)專家和數(shù)據(jù)處理專家的緊密配合才能完成。
表3 金三系統(tǒng)、排隊(duì)叫號(hào)系統(tǒng)中的辦稅員ID對(duì)應(yīng)關(guān)系
表4 碰撞結(jié)果—辦稅事項(xiàng)的過(guò)程信息
2.4.5 業(yè)務(wù)應(yīng)用
大數(shù)據(jù)與稅務(wù)業(yè)務(wù)相融合,應(yīng)用的范圍和發(fā)揮的作用都遠(yuǎn)超以往信息化建設(shè)的成果,成為帶動(dòng)稅務(wù)深化改革的利器。例如:納稅人涉稅風(fēng)險(xiǎn)評(píng)估、稅收政策效果測(cè)度、面向納稅人的精準(zhǔn)服務(wù)、辦稅流程優(yōu)化等。
我國(guó)的稅務(wù)改革呈現(xiàn)小步快跑的方式,在未來(lái)幾年將發(fā)生一系列改變。如何保證政策的科學(xué)性、合理性,將變化控制在預(yù)期的范圍中?以前很多情況都是憑借經(jīng)驗(yàn)做出決策,而采用大數(shù)據(jù)技術(shù)和方法,就可以根據(jù)積累的數(shù)據(jù),分析得出采取某項(xiàng)措施后,可能帶來(lái)的影響。在某省稅務(wù)局的大數(shù)據(jù)分析項(xiàng)目中,利用大數(shù)據(jù)技術(shù)和方法小試牛刀,在采集整合各業(yè)務(wù)系統(tǒng)、各辦稅服務(wù)渠道和外部機(jī)構(gòu)數(shù)據(jù)的基礎(chǔ)上,構(gòu)建能夠?qū)崟r(shí)、全程、多元反映納稅服務(wù)運(yùn)行狀態(tài)的業(yè)務(wù)模型,完成了政策影響分析、辦稅事項(xiàng)業(yè)務(wù)量預(yù)測(cè)、面向納稅人的精準(zhǔn)服務(wù)等應(yīng)用場(chǎng)景,取得了非常好的效果。
稅務(wù)機(jī)關(guān)擁有海量的數(shù)據(jù)資源,也有豐富的應(yīng)用場(chǎng)景,推動(dòng)業(yè)務(wù)與新一代信息技術(shù)(如云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián))相融合,可以突破以往信息系統(tǒng)的輔助作用,以技術(shù)推動(dòng)稅務(wù)業(yè)務(wù)的創(chuàng)新發(fā)展。
下面以一個(gè)簡(jiǎn)單的大數(shù)據(jù)應(yīng)用案例,說(shuō)明如何開(kāi)展大數(shù)據(jù)的分析應(yīng)用。
3.1 案例:服務(wù)能力匹配度分析
隨著稅制改革和電子辦稅的深入推進(jìn),未來(lái)辦稅服務(wù)廳的業(yè)務(wù)將發(fā)生哪些變化?如何調(diào)整資源配置,能夠匹配業(yè)務(wù)的變化?
針對(duì)這個(gè)業(yè)務(wù)場(chǎng)景,運(yùn)用大數(shù)據(jù)解決問(wèn)題的過(guò)程如圖5所示,具體如下。
圖5 服務(wù)能力匹配分析的過(guò)程
● 將來(lái)自不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)從數(shù)據(jù)中心抽取到NoSQL數(shù)據(jù)庫(kù)中,經(jīng)過(guò)清洗、對(duì)碰等處理后,形成關(guān)于政策影響分析需要的數(shù)據(jù)集。
● 基于業(yè)務(wù)經(jīng)驗(yàn),篩選影響因子,建立數(shù)學(xué)模型,通過(guò)訓(xùn)練數(shù)據(jù)確定相關(guān)度較高的影響因子,建立政策影響模型、188個(gè)辦稅事項(xiàng)的業(yè)務(wù)形態(tài)模型和各個(gè)服務(wù)廳的業(yè)務(wù)形態(tài)模型。
● 選擇近期的月份作為測(cè)試數(shù)據(jù),驗(yàn)證模型的準(zhǔn)確性,如果可信度能達(dá)到預(yù)期,就依據(jù)現(xiàn)有的參數(shù)建立預(yù)測(cè)模型,否則返回修正因子或者算法,或者查找數(shù)據(jù)問(wèn)題。
● 利用建立的數(shù)學(xué)模型,預(yù)測(cè)政策變化后業(yè)務(wù)量的形態(tài)。
● 針對(duì)每個(gè)服務(wù)廳,基于以往的數(shù)據(jù),建立服務(wù)廳效能模型。
● 將預(yù)測(cè)的業(yè)務(wù)形態(tài)輸入辦稅服務(wù)廳效能模型,計(jì)算完成所有業(yè)務(wù)量需要的時(shí)間,與辦稅服務(wù)廳所能提供的總服務(wù)時(shí)長(zhǎng)進(jìn)行對(duì)比分析。
● 根據(jù)未來(lái)業(yè)務(wù)的變化趨勢(shì)和服務(wù)廳的效能,采取優(yōu)化措施,例如:調(diào)整服務(wù)廳/服務(wù)人員的配置;優(yōu)化業(yè)務(wù)流程;改進(jìn)應(yīng)用系統(tǒng)的處理效率等。
服務(wù)能力匹配分析的案例中,關(guān)鍵就是建立業(yè)務(wù)量的預(yù)測(cè)模型,188個(gè)辦稅事項(xiàng)中有些與稅期相關(guān),有些與節(jié)假日相關(guān),有些周期性明顯,有些具有隨機(jī)性,而且每個(gè)服務(wù)廳的業(yè)務(wù)形態(tài)也不一樣,應(yīng)對(duì)不同服務(wù)廳不同辦稅事項(xiàng)建立各自的業(yè)務(wù)量預(yù)測(cè)模型。傳統(tǒng)的數(shù)據(jù)建模方法是建立模型,通過(guò)歷史數(shù)據(jù)計(jì)算參數(shù),形成業(yè)務(wù)模型;而在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及人工智能等算法提供了更為豐富的建模手段。例如,業(yè)務(wù)量預(yù)測(cè)模型就是利用機(jī)器學(xué)習(xí)的方法,具體過(guò)程如下。
● 基于不同服務(wù)廳不同辦稅事項(xiàng)的歷史數(shù)據(jù)建立各自的訓(xùn)練集,篩選影響業(yè)務(wù)量變化的因子。
● 使用關(guān)鍵影響因子(如日期、稅期、節(jié)假日等)擬合訓(xùn)練集數(shù)據(jù),選擇合適的數(shù)學(xué)模型,利用訓(xùn)練集數(shù)據(jù)不斷優(yōu)化計(jì)算模型中的各項(xiàng)參數(shù),例如:先后嘗試了一元一次線性回歸、多元線性回歸、多元二次線性回歸等方法,不斷逼近回歸模型中的系數(shù)和指數(shù)等參數(shù)的最優(yōu)解。
● 將建立的預(yù)測(cè)模型應(yīng)用于驗(yàn)證集數(shù)據(jù),檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果能否達(dá)到預(yù)期目標(biāo),如果不理想,增加數(shù)據(jù)來(lái)源,嘗試不同的數(shù)據(jù)變換,進(jìn)一步選擇擬合度高和泛化能力強(qiáng)的數(shù)學(xué)模型,優(yōu)化業(yè)務(wù)量預(yù)測(cè)模型預(yù)測(cè)結(jié)果和計(jì)算速率。
● 如此反復(fù)多次,最終確定每個(gè)服務(wù)廳的每個(gè)辦稅事項(xiàng)的數(shù)學(xué)模型。
例如:在項(xiàng)目執(zhí)行期間,恰逢2016年5月1日開(kāi)始推行營(yíng)業(yè)稅改增值稅(以下簡(jiǎn)稱“營(yíng)改增”),系統(tǒng)在4月份預(yù)測(cè)了“營(yíng)改增”后辦稅業(yè)務(wù)的變化形態(tài),并以可視化的方式展現(xiàn)出來(lái)。預(yù)測(cè)結(jié)果與實(shí)際情況對(duì)照,全省每天的預(yù)測(cè)結(jié)果與實(shí)際值差距在7%以內(nèi),各市每天的預(yù)測(cè)結(jié)果基本在15%以內(nèi),規(guī)模較大的服務(wù)廳每天的預(yù)測(cè)結(jié)果基本在21%以內(nèi)(規(guī)模較小的服務(wù)廳由于業(yè)務(wù)的隨機(jī)性較大,預(yù)測(cè)的價(jià)值不大),預(yù)測(cè)準(zhǔn)確度屬于比較高的水平。而且,預(yù)測(cè)結(jié)果比業(yè)務(wù)人員憑經(jīng)驗(yàn)估算的結(jié)果更接近真實(shí)情況。此外,系統(tǒng)計(jì)算速度完全滿足業(yè)務(wù)要求,能夠?qū)I(yè)務(wù)量預(yù)測(cè)結(jié)果及時(shí)有效地反饋給相關(guān)部門。
基于預(yù)測(cè)結(jié)果,可以有針對(duì)性地調(diào)整服務(wù)廳的資源配置(如人員、窗口、時(shí)間等),系統(tǒng)最終呈現(xiàn)出來(lái)的業(yè)務(wù)量與服務(wù)能力匹配情況,如圖6所示。
3.2 其他業(yè)務(wù)應(yīng)用案例
在項(xiàng)目實(shí)施過(guò)程中,還開(kāi)展了其他的業(yè)務(wù)應(yīng)用,具體如下。
● 面向納稅人的微信推薦:以納稅人為中心,從內(nèi)、外多個(gè)數(shù)據(jù)源采集納稅人的信息,通過(guò)采用主成分分析、獨(dú)立成分分析和聚類算法等數(shù)據(jù)分析方法,為每個(gè)納稅人繪制“畫(huà)像”,建立特征標(biāo)簽;根據(jù)納稅人的特征,在開(kāi)展活動(dòng)時(shí),選擇符合條件的納稅人群,發(fā)送特定的信息。
● 服務(wù)廳分級(jí)管理:采用大數(shù)據(jù)的方法,對(duì)候選的15個(gè)評(píng)價(jià)指標(biāo),通過(guò)降維、主成分分析、特征矩陣分裂等機(jī)器學(xué)習(xí)方法,選取相關(guān)度最大的7類指標(biāo)項(xiàng);從業(yè)務(wù)數(shù)據(jù)中計(jì)算出自適應(yīng)的權(quán)重系數(shù),采用關(guān)鍵績(jī)效指標(biāo)(key performance indicator,KPI)算法計(jì)算服務(wù)廳的標(biāo)準(zhǔn)得分,采用聚類算法劃分出服務(wù)廳的類別。
● 服務(wù)人員畫(huà)像:采集業(yè)務(wù)系統(tǒng)中與服務(wù)人員相關(guān)的數(shù)據(jù)和外部信息,從屬性、效能、滿意度、負(fù)荷、獨(dú)立性5個(gè)維度進(jìn)行畫(huà)像描述,展現(xiàn)服務(wù)人員的總體特征和詳細(xì)特征,為辦稅流程的優(yōu)化、資源配置的優(yōu)化和服務(wù)能力指數(shù)的建立提供基礎(chǔ)信息。
針對(duì)不同的應(yīng)用場(chǎng)景,采用不同的分析方法,建立不同的模型,運(yùn)用不同的處理手段,從中可以看到:大數(shù)據(jù)推動(dòng)了稅務(wù)業(yè)務(wù)與更廣泛的外部資源相結(jié)合,遠(yuǎn)遠(yuǎn)超出以往信息化建設(shè)的范圍,能夠在更多的領(lǐng)域,采用更多的手段解決業(yè)務(wù)問(wèn)題。
而且,大數(shù)據(jù)將帶給稅務(wù)信息化三大轉(zhuǎn)變:從關(guān)注結(jié)果向關(guān)注過(guò)程的服務(wù)視角轉(zhuǎn)變;從分散系統(tǒng)向協(xié)同運(yùn)作的應(yīng)用模式轉(zhuǎn)變;從經(jīng)驗(yàn)管理向精準(zhǔn)管理的粒度轉(zhuǎn)變,因而其發(fā)展?jié)摿O其巨大。
圖6 某服務(wù)廳在“營(yíng)改增”前后的業(yè)務(wù)形態(tài)和能力匹配情況
大數(shù)據(jù)在稅務(wù)領(lǐng)域的應(yīng)用,目前還處于起步階段,在項(xiàng)目中只是在大數(shù)據(jù)分析方面做了很小的嘗試,還有非常豐富的業(yè)務(wù)場(chǎng)景有待發(fā)掘。
基于實(shí)踐經(jīng)驗(yàn)可以得出以下結(jié)論。
● 數(shù)據(jù)采集和處理是目前大數(shù)據(jù)應(yīng)用的首要問(wèn)題。隨著稅務(wù)深化改革,面向納稅人提供服務(wù)將成為重點(diǎn)建設(shè)內(nèi)容,要實(shí)現(xiàn)這個(gè)轉(zhuǎn)變,就必須圍繞納稅人采集過(guò)程信息和行為信息,這是目前稅務(wù)信息系統(tǒng)沒(méi)有的,也是現(xiàn)階段進(jìn)行大數(shù)據(jù)分析面臨的最主要問(wèn)題。下一步的稅務(wù)信息化建設(shè),必須重視對(duì)業(yè)務(wù)過(guò)程數(shù)據(jù)和納稅人行為數(shù)據(jù)的采集工作。
● 以大數(shù)據(jù)為代表的新一代信息技術(shù),將徹底改變稅務(wù)信息化的應(yīng)用模式。越來(lái)越多的數(shù)字化設(shè)備、音視頻、傳感器等收集了豐富的數(shù)據(jù),互聯(lián)網(wǎng)將社會(huì)的各種機(jī)構(gòu)連接在一起,大數(shù)據(jù)平臺(tái)提供了各類數(shù)據(jù)的處理功能,云計(jì)算將信息化的分層結(jié)構(gòu)轉(zhuǎn)變?yōu)榫W(wǎng)狀結(jié)構(gòu),移動(dòng)互聯(lián)網(wǎng)終端又將各種業(yè)務(wù)匯集到納稅人的手上。稅務(wù)信息化面臨巨大的變革,與新一代信息技術(shù)相融合,將能夠產(chǎn)生前所未有的應(yīng)用場(chǎng)景。
● 從傳統(tǒng)BI向大數(shù)據(jù)分析的演進(jìn)。大數(shù)據(jù)分析方法與傳統(tǒng)BI采用了不同的處理方法,其三大特征(使用全樣本數(shù)據(jù);使用混雜的數(shù)據(jù),放棄對(duì)數(shù)據(jù)精確性的要求;通過(guò)現(xiàn)象之間的聯(lián)系進(jìn)行預(yù)測(cè),放棄對(duì)因果關(guān)系的探求)更貼近于稅務(wù)實(shí)際工作中的情況。采用大數(shù)據(jù)技術(shù)和方法,基于各個(gè)領(lǐng)域的數(shù)據(jù),可以使業(yè)務(wù)部門更加清晰地了解業(yè)務(wù)的細(xì)節(jié),更為透徹地理解業(yè)務(wù)的形態(tài),預(yù)知實(shí)施改進(jìn)措施后的業(yè)務(wù)變化情形,從而更有目的地優(yōu)化業(yè)務(wù)過(guò)程,改進(jìn)服務(wù)方法。
[1]維克托·邁爾-舍恩伯格, 肯尼斯·庫(kù)克耶. 大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯. 杭州: 浙江人民出版社, 2012.
MAYER-SCH·NBERGER V, CUKIER K. Big data: a revolution that will transform how we live, work and think[M]. Translated by SHENG Y Y, ZHOU T. Hangzhou: Zhejiang People’s Publishing House, 2012.
[2]孫懿. 大數(shù)據(jù)時(shí)代對(duì)稅務(wù)工作的挑戰(zhàn)與對(duì)策[J].學(xué)術(shù)交流, 2015(6): 133-139.
SUN Y. Challenge and countermeasure of tax work in the era of big data [J]. Academic Exchange, 2015(6): 133-139.
[3]于眾. 大數(shù)據(jù)環(huán)境下稅收數(shù)據(jù)深度利用探索[J].經(jīng)濟(jì)研究導(dǎo)刊, 2016(13): 78-79.
YU Z. Deep exploration of tax data in big data environment[J]. Economic Research Guide, 2016(13): 78-79.
Big data analysis technology and application on taxation
WANG Jiangping1, XIAO Rong2
1. Technology Institute of BeiMing Software Co., Ltd., Guangzhou 510663, China
2. Tax Collection and Management Services Offices of Guangdong Province Local Tax Bureau, Guangzhou 510630, China
Based on the practice of big data analysis on a provincial tax bureau, this study aimed to illustrate the issue on how to construct a big data analysis platform adapting for tax administration in the current informative situation, as well as the approaches of data processing and modeling in the application. Compared with traditional information approach, this research illustrated that big data analysis on taxation would be a powerful innovation with remarkable breakthroughs in tax administrational information construction.
taxation, big data, technical architecture, data analysis, integrated innovation
G202
A
10.11959/j.issn.2096-0271.2017022
汪疆平(1970-),男,北明軟件有限公司技術(shù)研究院高級(jí)工程師、副院長(zhǎng),主要研究方向?yàn)橹腔鄢鞘屑夹g(shù)框架、大數(shù)據(jù)。
肖戎(1974-),女,廣東省地方稅務(wù)局高級(jí)工程師、副處長(zhǎng),主要研究方向?yàn)槎愂展芾硇畔⒒?/p>
2017-01-23
廣州市2016年產(chǎn)學(xué)研協(xié)同創(chuàng)新重大專項(xiàng)基金資助項(xiàng)目(No.201604010077)
Foundation Item: 2016 Guangzhou Collaborative Innovation Key Research Project (No.201604010077)