趙曉鵬 常曉冰
摘要:為提高綜合治稅涉稅信息利用水平,實(shí)現(xiàn)對(duì)各類綜合治稅數(shù)據(jù)的整合分析與關(guān)聯(lián)比對(duì),為數(shù)據(jù)分析提供應(yīng)用支撐,在分析系統(tǒng)業(yè)務(wù)需求的基礎(chǔ)上,設(shè)計(jì)了基于數(shù)據(jù)倉(cāng)庫(kù)的綜合治稅數(shù)據(jù)分析系統(tǒng),探討數(shù)據(jù)自動(dòng)交換、ETL、數(shù)據(jù)建模、聯(lián)機(jī)分析處理等關(guān)鍵技術(shù)。
關(guān)鍵詞:綜合治稅;數(shù)據(jù)倉(cāng)庫(kù);決策支持
DOIDOI:10.11907/rjdk.151175
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):16727800(2015)006011303
作者簡(jiǎn)介作者簡(jiǎn)介:趙曉鵬(1979-),男,河北石家莊人,河北省綜合治稅領(lǐng)導(dǎo)小組辦公室工程師,研究方向?yàn)樨?cái)稅數(shù)據(jù)分析;常曉冰(1984-),男,河北石家莊人,河北財(cái)華信息技術(shù)有限公司助理工程師,研究方向?yàn)楣芾硇畔⑾到y(tǒng)。
0 引言
近年來(lái),隨著綜合治稅工作的深入開(kāi)展,涉稅信息目錄及采集范圍不斷擴(kuò)大,稅收征管、行政許可、建設(shè)項(xiàng)目、注冊(cè)登記等各類涉稅信息數(shù)據(jù)規(guī)模快速增長(zhǎng),特別是綜合治稅信息系統(tǒng)在省市縣三級(jí)的推廣與應(yīng)用,為綜合治稅數(shù)據(jù)分析與決策支持提供了規(guī)模龐大的數(shù)據(jù)資源。研究如何基于這些海量數(shù)據(jù)開(kāi)展數(shù)據(jù)分析,從中獲取與綜合治稅相關(guān)的信息與價(jià)值,為各級(jí)稅務(wù)部門(mén)加強(qiáng)稅源控管、堵塞稅收漏洞、實(shí)現(xiàn)信息管稅提供支撐,具有重要的理論和現(xiàn)實(shí)意義。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失且隨時(shí)間變化的數(shù)據(jù)集合,用來(lái)支持管理決策[1],是實(shí)現(xiàn)數(shù)據(jù)整合和分析利用的最佳解決方案。目前,綜合治稅信息系統(tǒng)所使用的數(shù)據(jù)庫(kù),是按照聯(lián)機(jī)事務(wù)處理(OLTP)的要求進(jìn)行設(shè)計(jì)的,其數(shù)據(jù)結(jié)構(gòu)、內(nèi)容用法與數(shù)據(jù)倉(cāng)庫(kù)有很大不同,無(wú)法滿足復(fù)雜查詢和數(shù)據(jù)挖掘的需要。例如,復(fù)雜查詢所涉及的多表鏈接、匯總排序等操作,會(huì)很大程度上影響系統(tǒng)相應(yīng)速度[2]。因此,構(gòu)建綜合治稅數(shù)據(jù)倉(cāng)庫(kù),以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)開(kāi)發(fā)綜合治稅數(shù)據(jù)分析系統(tǒng),是充分利用綜合治稅數(shù)據(jù)資源,提升涉稅信息利用水平的有效手段。
1 功能需求分析
根據(jù)綜合治稅數(shù)據(jù)整合與應(yīng)用需求,數(shù)據(jù)分析系統(tǒng)建設(shè)應(yīng)以信息管稅為目標(biāo),按照“覆蓋廣泛、詳實(shí)可靠、開(kāi)放共享、安全高效”的原則,依托數(shù)據(jù)倉(cāng)庫(kù)技術(shù),逐步將稅收征管、行政許可、建設(shè)項(xiàng)目、注冊(cè)登記等各類涉稅信息接入系統(tǒng),構(gòu)建集信息采集交換、審核校驗(yàn)、統(tǒng)計(jì)匯總、分析預(yù)測(cè)、應(yīng)用發(fā)布為一體的綜合治稅數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)第三方涉稅信息整合分析與深度應(yīng)用,包括以下主要功能:
(1)涉稅信息采集交換。按照綜合治稅信息共享目錄的要求,依托現(xiàn)有綜合治稅信息系統(tǒng),通過(guò)人工報(bào)送和自動(dòng)交換兩種方式采集原始涉稅信息,形成綜合治稅數(shù)據(jù)倉(cāng)庫(kù)初始數(shù)據(jù)。此外,系統(tǒng)應(yīng)提供異構(gòu)數(shù)據(jù)源支持,支持半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集導(dǎo)入功能。
(2)建立綜合治稅數(shù)據(jù)倉(cāng)庫(kù)。按照數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)、建設(shè)要求,按照統(tǒng)一編碼體系,對(duì)原始涉稅信息進(jìn)行抽取、轉(zhuǎn)換、裝載(即ETL過(guò)程)。此外,系統(tǒng)應(yīng)能根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理流程,按照數(shù)據(jù)質(zhì)量控制標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行校驗(yàn)和審核,保證數(shù)據(jù)正確性。
(3)涉稅信息報(bào)表和查詢。根據(jù)綜合治稅工作需要,按照規(guī)范的數(shù)據(jù)統(tǒng)計(jì)口徑,建立綜合治稅數(shù)據(jù)統(tǒng)計(jì)報(bào)表體系,定期生成各類統(tǒng)計(jì)報(bào)表。同時(shí),系統(tǒng)應(yīng)提供直觀的查詢功能,能夠?qū)?bào)表數(shù)據(jù)進(jìn)行鉆取操作,實(shí)現(xiàn)從匯總數(shù)據(jù)到明細(xì)數(shù)據(jù)的分層下鉆和逐級(jí)瀏覽。
(4)稅收風(fēng)險(xiǎn)評(píng)估。以第三方涉稅信息整合應(yīng)用為出發(fā)點(diǎn),建立風(fēng)險(xiǎn)評(píng)估模型,通過(guò)模型將各類涉稅信息與稅務(wù)部門(mén)的征管信息進(jìn)行比對(duì)分析,及時(shí)發(fā)現(xiàn)稅收管理的薄弱環(huán)節(jié),查找定位稅收風(fēng)險(xiǎn)點(diǎn),堵塞稅收征管漏洞,為提高稅收征管水平提供數(shù)據(jù)支撐。
(5)重點(diǎn)稅源監(jiān)控。依托涉稅部門(mén)提供的企業(yè)生產(chǎn)經(jīng)營(yíng)信息以及稅務(wù)部門(mén)的稅收征管信息,建立重點(diǎn)稅源監(jiān)測(cè)指標(biāo),對(duì)重點(diǎn)納稅人的經(jīng)營(yíng)與納稅情況進(jìn)行監(jiān)控,并以圖形、表格等形式進(jìn)行展現(xiàn),直觀地反映微觀經(jīng)濟(jì)主體的運(yùn)行狀態(tài),為制定稅收優(yōu)惠政策、促進(jìn)企業(yè)發(fā)展提供參考。
(6)稅收收入預(yù)測(cè)預(yù)警。基于綜合治稅數(shù)據(jù)倉(cāng)庫(kù)所整合的歷年度稅收數(shù)據(jù),建立數(shù)據(jù)挖掘模型,將稅收收入與相關(guān)宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行關(guān)聯(lián)分析,對(duì)二者的相關(guān)性進(jìn)行深入挖掘。此外,借助計(jì)量經(jīng)濟(jì)學(xué)模型,對(duì)稅收收入未來(lái)走勢(shì)和波動(dòng)幅度進(jìn)行科學(xué)預(yù)測(cè),為稅收政策的制定和領(lǐng)導(dǎo)決策提供依據(jù)。
2 系統(tǒng)架構(gòu)設(shè)計(jì)
系統(tǒng)整體架構(gòu)如圖1所示,分為4個(gè)層次:數(shù)據(jù)采集層、數(shù)據(jù)服務(wù)層、應(yīng)用分析層、信息展現(xiàn)層。
(1)數(shù)據(jù)采集層。數(shù)據(jù)采集層是整個(gè)系統(tǒng)中涉稅信息的統(tǒng)一入口,該層能夠屏蔽異構(gòu)數(shù)據(jù)源的差異,使系統(tǒng)中后續(xù)數(shù)據(jù)處理基于統(tǒng)一的數(shù)據(jù)接口,降低技術(shù)復(fù)雜性。系統(tǒng)采集的各類涉稅信息,首先在這一層中進(jìn)行保存,既能減少對(duì)數(shù)據(jù)源性能產(chǎn)生影響,又能在數(shù)據(jù)ETL失敗時(shí)再次加載,從而提高系統(tǒng)效率。
(2)數(shù)據(jù)存儲(chǔ)層。數(shù)據(jù)存儲(chǔ)層根據(jù)分析主題的要求,采用星型結(jié)構(gòu)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行建模,形成數(shù)據(jù)倉(cāng)庫(kù)邏輯模型和實(shí)體模型。在數(shù)據(jù)處理方面,數(shù)據(jù)存儲(chǔ)層先通過(guò)ETL處理從數(shù)據(jù)采集層獲取原始數(shù)據(jù),再按照數(shù)據(jù)模型結(jié)構(gòu)對(duì)原始數(shù)據(jù)進(jìn)行整合,形成一系列事實(shí)表和維表。此外,部門(mén)數(shù)據(jù)分析所需數(shù)據(jù)集市也在該層進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)。
(3)應(yīng)用分析層。應(yīng)用分析層基于數(shù)據(jù)存儲(chǔ)層中的模型數(shù)據(jù),對(duì)信息展現(xiàn)層提供不同類型的數(shù)據(jù)分析服務(wù)。其中,即席查詢服務(wù)通過(guò)語(yǔ)義層映射機(jī)制,可以為涉稅信息自定義查詢提供支持;報(bào)表服務(wù)通過(guò)定義報(bào)表模板,提供可擴(kuò)展報(bào)表生成和查詢服務(wù);OLAP通過(guò)建立多維數(shù)據(jù)結(jié)構(gòu),為復(fù)雜數(shù)據(jù)分析操作提供快速響應(yīng)服務(wù);數(shù)據(jù)挖掘服務(wù)通過(guò)封裝特定算法,對(duì)綜合治稅數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,為風(fēng)險(xiǎn)評(píng)估、預(yù)測(cè)預(yù)警等系統(tǒng)功能提供支撐。
(4)信息展現(xiàn)層。信息展現(xiàn)層按照數(shù)據(jù)分析需求,將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)以及應(yīng)用分析結(jié)果,通過(guò)數(shù)據(jù)展現(xiàn)工具以圖形、報(bào)表、文字等形式呈現(xiàn)到用戶面前。此外,還提供管理維護(hù)界面,完成包括用戶管理、權(quán)限分配等系統(tǒng)管理功能。
3 關(guān)鍵技術(shù)實(shí)現(xiàn)
3.1 數(shù)據(jù)自動(dòng)交換
涉稅信息采集是進(jìn)行數(shù)據(jù)分析的前提和基礎(chǔ),信息采集的質(zhì)量直接對(duì)數(shù)據(jù)分析結(jié)果產(chǎn)生影響。因此,對(duì)于信息化程度高、業(yè)務(wù)數(shù)據(jù)集中存儲(chǔ)的涉稅部門(mén),應(yīng)當(dāng)建立數(shù)據(jù)自動(dòng)交換平臺(tái),實(shí)現(xiàn)涉稅信息的自動(dòng)采集,提高數(shù)據(jù)的完整性、準(zhǔn)確性和及時(shí)性。
數(shù)據(jù)自動(dòng)交換技術(shù)的實(shí)現(xiàn)模式主要有兩種:一是數(shù)據(jù)庫(kù)復(fù)制模式,其優(yōu)點(diǎn)是交換雙方數(shù)據(jù)庫(kù)結(jié)構(gòu)相同,交換數(shù)據(jù)的內(nèi)容能夠保證較好的一致性和實(shí)時(shí)性,缺點(diǎn)是擴(kuò)展性和適應(yīng)性不足,對(duì)異構(gòu)數(shù)據(jù)交換的支持較差;二是前置機(jī)模式,其優(yōu)點(diǎn)是支持?jǐn)?shù)據(jù)庫(kù)、文件、接口服務(wù)等多種接入方式,有較好的適應(yīng)性和擴(kuò)展性,數(shù)據(jù)交換流程可配置、管理和監(jiān)控,缺點(diǎn)是數(shù)據(jù)較難實(shí)時(shí)同步,交換服務(wù)程序?qū)τ布筝^高。本系統(tǒng)采用前置機(jī)模式,在各涉稅部門(mén)部署數(shù)據(jù)交換前置服務(wù)器及軟件工具,利用XML文件對(duì)異構(gòu)數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換,在保持?jǐn)?shù)據(jù)庫(kù)相對(duì)獨(dú)立和自治的基礎(chǔ)上,實(shí)現(xiàn)涉稅信息的自動(dòng)提取、整理、傳輸和保存[3]。
3.2 ETL
ETL是建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的重要步驟。在完成不同部門(mén)、不同類型涉稅信息采集后,涉稅信息需要經(jīng)過(guò)抽取、轉(zhuǎn)換、加載進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),形成一系列維表和事實(shí)表,為后續(xù)數(shù)據(jù)分析與挖掘提供數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)抽取環(huán)節(jié),系統(tǒng)采用觸發(fā)器的方式,在數(shù)據(jù)采集層保存涉稅信息的同時(shí),啟動(dòng)對(duì)應(yīng)的數(shù)據(jù)抽取處理,實(shí)現(xiàn)數(shù)據(jù)采集與ETL的有效銜接,確保采集的涉稅信息及時(shí)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);在數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié),要對(duì)涉稅信息的有效性進(jìn)行檢查,然后對(duì)照稅收收入、納稅人登記信息等事實(shí)表,以及區(qū)劃、行業(yè)、稅種等維表,經(jīng)過(guò)數(shù)據(jù)變換、清理、集成、聚集和概括等處理,形成格式一致的事實(shí)表和維表數(shù)據(jù)[4];在數(shù)據(jù)加載環(huán)節(jié),要將轉(zhuǎn)換完成的事實(shí)表與維表,批量存儲(chǔ)到綜合治稅數(shù)據(jù)倉(cāng)庫(kù)中。
3.3 數(shù)據(jù)建模
在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)建模中,星型模式能夠提高查詢性能,降低維表復(fù)雜度,因而得到廣泛應(yīng)用[5]。在此模型中,根據(jù)數(shù)據(jù)分析的主題構(gòu)造事實(shí)表,用于存儲(chǔ)分析數(shù)據(jù)的度量值和維度值;根據(jù)數(shù)據(jù)分析的角度構(gòu)造維度表,用于存儲(chǔ)分析數(shù)據(jù)的維度值(包括歷史版本)。事實(shí)表和維表以主外鍵的形式進(jìn)行關(guān)聯(lián),形成主題分析所需的星型模型[6]。例如,分產(chǎn)業(yè)稅收分析主題所對(duì)應(yīng)的數(shù)據(jù)模型如圖2所示。
3.4 聯(lián)機(jī)分析處理
聯(lián)機(jī)分析處理(OLAP)是數(shù)據(jù)倉(cāng)庫(kù)的主要應(yīng)用,專門(mén)設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持。在應(yīng)用分析層,OLAP服務(wù)利用數(shù)據(jù)倉(cāng)庫(kù)的模型數(shù)據(jù),根據(jù)主題分析需求建立多維分析模型(CUBE多維立方體),并以ROLAP方式進(jìn)行存儲(chǔ),可從不同層次、階段共享、存取和分析涉稅數(shù)據(jù)[7]。在信息展現(xiàn)層,系統(tǒng)采用Cognos組件,按照用戶的分析需求,以報(bào)表、圖形、記分卡、儀表盤(pán)等多種形式,把CUBE的數(shù)據(jù)和分析結(jié)果展現(xiàn)給最終用戶。
4 結(jié)語(yǔ)
建設(shè)綜合治稅數(shù)據(jù)倉(cāng)庫(kù),并以此為基礎(chǔ)構(gòu)建綜合治稅數(shù)據(jù)分析系統(tǒng),是充分利用綜合治稅數(shù)據(jù)資源、提升綜合治稅信息價(jià)值的有效手段。本文從應(yīng)用角度,闡述了綜合治稅數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)分析系統(tǒng)的功能、架構(gòu)和關(guān)鍵技術(shù)。綜合治稅數(shù)據(jù)的深層次數(shù)據(jù)挖掘功能及其實(shí)現(xiàn)等問(wèn)題,還有待進(jìn)一步研究。
參考文獻(xiàn):
[1] [美]蔭蒙(Inmon,W.H).數(shù)據(jù)倉(cāng)庫(kù)[M].王志海,譯.北京:機(jī)械工業(yè)出版社,2006.
[2] 林建明,琚春華,李軍.基于數(shù)據(jù)倉(cāng)庫(kù)的財(cái)政綜合信息分析系統(tǒng)研究與設(shè)計(jì)[J].計(jì)算機(jī)時(shí)代,2008(9):2426.
[3] 張麗華. 基于XML的異構(gòu)數(shù)據(jù)交換技術(shù)研究[J].蘇州科技學(xué)院學(xué)報(bào):工程技術(shù)版,2010(6):7779.
[4] 黃容,黨齊民,陳寶樹(shù).財(cái)政數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)開(kāi)發(fā)[J].計(jì)算機(jī)工程與應(yīng)用,2003(32):190193.
[5] 陳榮保,何偉華,戚維田.基于數(shù)據(jù)倉(cāng)庫(kù)的財(cái)政收支多維分析系統(tǒng)設(shè)計(jì)[J].常州信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008(1):1315.
[6] 張軍占,陳光偉.基于數(shù)據(jù)倉(cāng)庫(kù)和OLAP的城市財(cái)稅分析系統(tǒng)的構(gòu)建[J].計(jì)算機(jī)與現(xiàn)代化,2008(9):126128.
[7] 陳曉瑜,烏志平.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的財(cái)稅在線分析系統(tǒng)的研制[J].微型電腦應(yīng)用,1999(15):4345.
責(zé)任編輯(責(zé)任編輯:陳福時(shí))