張 磊
摘要:稅務(wù)系統(tǒng)大集中模式下的數(shù)據(jù)利用是金稅三期建設(shè)重點(diǎn),開展數(shù)據(jù)利用有必要先弄清一些問題的答案,如數(shù)據(jù)集中后如何進(jìn)行數(shù)據(jù)利用?數(shù)據(jù)利用和數(shù)據(jù)集中的關(guān)系是什么?數(shù)據(jù)利用的重點(diǎn)和難點(diǎn)在哪里?文章結(jié)合天津地稅數(shù)據(jù)利用案例,從業(yè)務(wù)、技術(shù)和管理三個方面進(jìn)行了回答。
關(guān)鍵詞:大集中;稅務(wù)系統(tǒng);數(shù)據(jù)利用;一般利用;深度利用
中圖分類號:D922文獻(xiàn)標(biāo)識碼:A 文章編號:1674-1145(2009)17-0132-02
隨著稅務(wù)系統(tǒng)信息化的不斷發(fā)展,金稅三期提出:逐步實(shí)現(xiàn)涉稅電子數(shù)據(jù)的集中處理和集中管理。數(shù)據(jù)集中后如何進(jìn)行數(shù)據(jù)利用?數(shù)據(jù)集中和數(shù)據(jù)利用有何關(guān)系?數(shù)據(jù)利用的重點(diǎn)和難點(diǎn)又在哪里?這些問題可以從三個方面來解答。
一、業(yè)務(wù)需求
業(yè)務(wù)需求是開展數(shù)據(jù)利用的源動力,大集中模式下的數(shù)據(jù)利用也不例外。當(dāng)信息化推進(jìn)到大集中階段,稅務(wù)數(shù)據(jù)被有效地集中起來,隨著數(shù)據(jù)的積累,開展數(shù)據(jù)利用的需求自然而然地就會被提上議事日程。數(shù)據(jù)利用從業(yè)務(wù)需求上可分兩類:一般利用和深度利用。
(一)一般利用
長期以來,稅務(wù)工作中的數(shù)據(jù)利用主要是一般利用,固定報(bào)表是其常見形式,其特征是基于簡單計(jì)算的原始稅收數(shù)據(jù)展現(xiàn)和對稅收現(xiàn)象的一般描述。但是,在大集中之前,稅務(wù)數(shù)據(jù)分散于相互獨(dú)立的系統(tǒng)之中,要想實(shí)現(xiàn)精確的、實(shí)時的數(shù)據(jù)利用,大集中是必然的發(fā)展途徑。
經(jīng)過多年建設(shè),天津地稅完成了覆蓋全市稅收征、管、查的“津稅”工程,系統(tǒng)和數(shù)據(jù)由市地稅局統(tǒng)一維護(hù)。“津稅”上線以前,各區(qū)縣地稅局使用的軟件不統(tǒng)一,數(shù)據(jù)統(tǒng)計(jì)口徑也不盡相同,上線之后,建立了集中的數(shù)據(jù)倉庫系統(tǒng)和綜合查詢系統(tǒng),各區(qū)縣地稅局可以使用會統(tǒng)分析、考核報(bào)表、“一戶式”查詢等掌握稅收進(jìn)度和納稅人基本信息,實(shí)現(xiàn)對稅收數(shù)據(jù)全面、精確、及時的一般利用。
(二)深度利用
隨著時間的推移,業(yè)務(wù)部門將不滿足于對數(shù)據(jù)的一般利用,管理人員會主動向數(shù)據(jù)要結(jié)果,即在海量數(shù)據(jù)的基礎(chǔ)上,運(yùn)用管理學(xué)、統(tǒng)計(jì)學(xué)等理論建立數(shù)學(xué)模型,使用數(shù)據(jù)挖掘等技術(shù),實(shí)現(xiàn)稅收預(yù)測、納稅評估、稽查選案等深度數(shù)據(jù)利用??梢哉f,一般數(shù)據(jù)利用是深度數(shù)據(jù)利用的基礎(chǔ)和前提,深度數(shù)據(jù)利用是一般數(shù)據(jù)利用的發(fā)展和提高,一般利用直觀形象,是被動業(yè)務(wù)需求,深度利用則復(fù)雜抽象,是主動業(yè)務(wù)需求。
經(jīng)過多年的數(shù)據(jù)積累,天津地稅開始嘗試對稅務(wù)數(shù)據(jù)進(jìn)行深度利用,提出了房地產(chǎn)一體化管理體系。房地產(chǎn)一體化管理是將稅務(wù)信息、土地房屋信息、建安項(xiàng)目信息結(jié)合,深入研究,發(fā)現(xiàn)行業(yè)納稅規(guī)律,建立一套房地產(chǎn)業(yè)稅收模型。利用這個模型對全市存量房總體把握,結(jié)合土地和房屋交易契稅情況,以及行業(yè)整體盈利水平和平均稅負(fù),對全市房地產(chǎn)行業(yè)近期稅收和遠(yuǎn)景稅收做出預(yù)測。這種數(shù)據(jù)的深度利用要比一般利用在數(shù)據(jù)模型應(yīng)用研究的深度與廣度方面都上了一個臺階。
二、技術(shù)實(shí)現(xiàn)
稅務(wù)系統(tǒng)大集中是并不是簡單的數(shù)據(jù)疊加,其技術(shù)實(shí)現(xiàn)需要考慮軟硬件等多方面問題,如百G級數(shù)據(jù)的存儲和
查詢,大并發(fā)下的硬件資源,網(wǎng)絡(luò)帶寬層次不齊時數(shù)據(jù)上下傳輸?shù)取?shù)據(jù)利用是以大集中為基礎(chǔ),除考慮上述問題外,其還有自身的技術(shù)重點(diǎn)。
(一)數(shù)據(jù)梳理
數(shù)據(jù)利用的首要工作是數(shù)據(jù)梳理,也叫數(shù)據(jù)剖析或數(shù)據(jù)審計(jì),主要是對數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和關(guān)系進(jìn)行分析,提供數(shù)據(jù)的質(zhì)量信息。數(shù)據(jù)梳理的重要性常常被忽視,可以說它是開展數(shù)據(jù)利用的基礎(chǔ),數(shù)據(jù)模型的建立、維度的劃分、數(shù)據(jù)的展現(xiàn)等都應(yīng)從數(shù)據(jù)梳理開始。如果沒有數(shù)據(jù)梳理,就談不上數(shù)據(jù)的一致性和準(zhǔn)確性。
如何進(jìn)行數(shù)據(jù)梳理?可以從稅務(wù)數(shù)據(jù)的不同來源入手梳理,將其分為納稅人、申報(bào)、入庫、違法違章、發(fā)票、票證、稽查、外部等八大部分,然后與業(yè)務(wù)逐一對照進(jìn)行梳理,避免數(shù)據(jù)遺漏。通過數(shù)據(jù)梳理,我們就能夠全面掌握稅務(wù)信息,展開全方位數(shù)據(jù)利用。例如利用從征管、契稅、個所稅全員申報(bào)等系統(tǒng)中采集到的個人收入、房產(chǎn)、車船等方面的信息建立“自然人財(cái)產(chǎn)和納稅情況監(jiān)控”,對個人的收入和納稅情況進(jìn)行綜合評估,實(shí)現(xiàn)對個人納稅情況的全面監(jiān)控。
(二)數(shù)據(jù)清洗
數(shù)據(jù)梳理之后需要進(jìn)行數(shù)據(jù)清洗,因?yàn)槎悇?wù)數(shù)據(jù)是從多個業(yè)務(wù)系統(tǒng)中抽取,避免不了數(shù)據(jù)錯誤和數(shù)據(jù)沖突,這些數(shù)據(jù)顯然不是我們想要的,稱之為“臟數(shù)據(jù)”。數(shù)據(jù)清洗的任務(wù)就是過濾那些不符合要求的“臟數(shù)據(jù)”。
數(shù)據(jù)清洗是ETL過程的重要組成部分,ETL是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程,用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
天津地稅選擇Informatica ETL工具進(jìn)行數(shù)據(jù)清洗。其優(yōu)點(diǎn)在于Informatica PowerCenter基于純JAVA開發(fā),可以多平臺移植;使用資料庫管理維護(hù)工具Repository可以進(jìn)行熱切換和團(tuán)隊(duì)開發(fā);使用Designer可以進(jìn)行直觀形象的ETL模型設(shè)計(jì),并且能夠內(nèi)嵌自定義JAVA程序包;使用Workflow可以方便地對ETL模型實(shí)例化,調(diào)度調(diào)整各模型的運(yùn)行順序和運(yùn)行條件。
(三)數(shù)據(jù)展現(xiàn)
數(shù)據(jù)利用的最終結(jié)果要通過前端展現(xiàn)出來,前端可以簡單認(rèn)為是人機(jī)界面,好的展現(xiàn)工具對客戶端要求小、能夠快速開發(fā)、便于維護(hù)、可形象直觀地展現(xiàn)數(shù)據(jù)利用結(jié)果。天津地稅采用BOXIR2(BusinessObjects XI Release II)作為數(shù)據(jù)利用的展現(xiàn)工具。
BO是集查詢、報(bào)表和OLAP技術(shù)為一身的解決方案,它使用獨(dú)特的語義層和動態(tài)微立方技術(shù)來表示數(shù)據(jù)庫中的多維數(shù)據(jù),提供鉆取等多維分析技術(shù),支持多種數(shù)據(jù)庫,具有較好的查詢和報(bào)表功能。在新版的BOXI中提供多種數(shù)據(jù)分析工具,有從BO6.5繼承的客戶端報(bào)表開發(fā)工具Desktopintelligence,有基于JAVA重新開發(fā)的Web瀏覽器展現(xiàn)工具Webintelligence和Olapintelligence,以及移植簡單、開發(fā)靈活的水晶報(bào)表和水晶易表。最重要的是,BOXI完全支持JAVA和.NET技術(shù),提供豐富的API接口和SDK開發(fā)包,方便技術(shù)人員二次開發(fā);支持LDAP統(tǒng)一權(quán)限管理,能夠?qū)崿F(xiàn)單點(diǎn)登錄,將征收管理系統(tǒng)和綜合查詢系統(tǒng)組成一個整體。
(四)數(shù)據(jù)指標(biāo)化
數(shù)據(jù)利用中如何提高查詢效率和正確反映歷史數(shù)據(jù)是一個難點(diǎn),數(shù)據(jù)指標(biāo)化可以解決這兩個問題。稅務(wù)統(tǒng)計(jì)報(bào)表內(nèi)容復(fù)雜,涉及數(shù)據(jù)量較大,在傳統(tǒng)報(bào)表設(shè)計(jì)和查詢的方式下,一個復(fù)雜報(bào)表通常需要將近一兩個小時才能完成計(jì)算及展現(xiàn)。建立指標(biāo)是當(dāng)前統(tǒng)計(jì)行業(yè)常用的分析方式,也是國稅總局近年來一直在推廣和要求的。
數(shù)據(jù)指標(biāo)化就是根據(jù)現(xiàn)有報(bào)表的內(nèi)容進(jìn)行分析,提煉而成,將報(bào)表內(nèi)容分解成多個指標(biāo),定時進(jìn)行指標(biāo)加工、數(shù)據(jù)計(jì)算。在查看報(bào)表時調(diào)用按要求的格式生成好了的數(shù)據(jù),極大地提高了查詢速度。指標(biāo)建立除了在報(bào)表速度的提高上有明顯效果,同時也可以避免當(dāng)前數(shù)據(jù)變動對歷史分析的影響,例如2008年希望看一下2007年2月份時的“待征稅收期末余額”,只要從指標(biāo)里查找年月為200702的待征稅收期末余額數(shù)據(jù)即可,不需要重新計(jì)算,保證了數(shù)據(jù)的連貫和一致。
(五)數(shù)據(jù)回放
大集中模式下的查詢系統(tǒng)要同時支持多部門的數(shù)據(jù)利用需求,這就容易造成“萬向查詢”,系統(tǒng)響應(yīng)慢、查詢時間長。一個辦法是提高硬件設(shè)備性能、優(yōu)化查詢語句、增加網(wǎng)絡(luò)帶寬,另一個辦法就是進(jìn)行數(shù)據(jù)回放。數(shù)據(jù)回放簡單來說就是把集中管理的稅務(wù)數(shù)據(jù)按照區(qū)縣切分,回放到不同的數(shù)據(jù)庫中,各區(qū)縣地稅局只查詢本局?jǐn)?shù)據(jù),并且對本局?jǐn)?shù)據(jù)有DBA操作權(quán)限,對其他區(qū)縣的數(shù)據(jù)則沒有訪問權(quán)限,保證敏感數(shù)據(jù)的安全。
數(shù)據(jù)回復(fù)解決了集中查詢速度慢的問題,同時又滿足了各區(qū)縣地稅局個性化查詢的需求。但是,數(shù)據(jù)回放不
同于大集中前的分散系統(tǒng)。首先,回放的數(shù)據(jù)是經(jīng)過梳理和清洗后的干凈數(shù)據(jù),能夠保證回放對象查詢口徑的一致;其次,數(shù)據(jù)回放不包括交易系統(tǒng),不能代替大集中模式下的征管查系統(tǒng),而是對其的有益補(bǔ)充。
三、管理機(jī)制
數(shù)據(jù)利用在實(shí)際操作中除了要重視業(yè)務(wù)需求和技術(shù)研究外,還需要建立相應(yīng)的管理機(jī)制,向管理要效率,以機(jī)制促管理。
(一)制度建設(shè)
數(shù)據(jù)利用的開展要配合相應(yīng)的制度建設(shè),用信息化的手段規(guī)范業(yè)務(wù)流程,為數(shù)據(jù)的良好應(yīng)用提供政策支持。制度建設(shè)至關(guān)重要,關(guān)系到數(shù)據(jù)利用的成敗。試想一下,如果“臟數(shù)據(jù)”沒人處理,怎能使用這些數(shù)據(jù)分析出正確的結(jié)果。若開展數(shù)據(jù)回放,各區(qū)縣地稅局對數(shù)據(jù)就有了自行利用的權(quán)利,哪些利用要統(tǒng)一進(jìn)行,避免資源浪費(fèi),哪些可以由各局發(fā)揮主觀能動性,這涉及權(quán)力的再分配,需要制度來保障。
(二)風(fēng)險(xiǎn)控制
數(shù)據(jù)利用特別是數(shù)據(jù)的深度利用作為高層的信息化應(yīng)用,除了給我們帶來巨大的管理水平提升之外,也存在著的較大的實(shí)施和應(yīng)用風(fēng)險(xiǎn)。稅務(wù)數(shù)據(jù)利用作為稅務(wù)信息化的新興熱點(diǎn),還處在起步階段,其實(shí)施和應(yīng)用風(fēng)險(xiǎn)不容忽視。摸著石頭過河,充分估計(jì)難點(diǎn)和風(fēng)險(xiǎn)是目前較好的實(shí)施策略。
(三)人才培養(yǎng)
數(shù)據(jù)利用是對基礎(chǔ)數(shù)據(jù)的綜合利用,離不開人才培養(yǎng)。數(shù)據(jù)利用就像一篇優(yōu)美的文章,寫出它首先要理解手中的數(shù)據(jù),數(shù)據(jù)梳理就是給我們了一本字典;其次掌握手中的紙和筆,了解建模的各種理論和工具;最后由既懂業(yè)務(wù)又懂技術(shù)的人員完成數(shù)據(jù)利用。數(shù)據(jù)利用需要的是能夠把技術(shù)和業(yè)務(wù)結(jié)合在一起的復(fù)合型人才,人才培養(yǎng)就顯得格外重要。
四、結(jié)語
綜上所述,稅務(wù)系統(tǒng)大集中模式下的數(shù)據(jù)利用是當(dāng)前值得深入探討的課題,數(shù)據(jù)利用是一個系統(tǒng)工程,需要多部門多學(xué)科的合作,深入開展數(shù)據(jù)利用工作可以促進(jìn)稅收規(guī)范,提高稅收效率,反映稅收趨勢,為我國稅收政策提供正確的依據(jù)。
參考文獻(xiàn)
[1]王海森.關(guān)于稅收數(shù)據(jù)深度分析應(yīng)用的思考[期刊論文][J].現(xiàn)代經(jīng)濟(jì)信息(學(xué)術(shù)版),2007,(4).
[2]高玉虎,向育清,馬鐵柱.對加強(qiáng)稅收數(shù)據(jù)深度利用的研究與探討[期刊論文][J].現(xiàn)代經(jīng)濟(jì)信息(學(xué)術(shù)版),2008,(8).