程 平(博士生導(dǎo)師),楊霽莞
2012年11月29日,財(cái)政部印發(fā)的《行政事業(yè)單位內(nèi)部控制規(guī)范(試行)》(以下簡稱《內(nèi)控規(guī)范》)指出,對經(jīng)濟(jì)活動業(yè)務(wù)層面的收支管理進(jìn)行風(fēng)險(xiǎn)評估時(shí)要重點(diǎn)關(guān)注以下內(nèi)容:收入是否實(shí)現(xiàn)歸口管理,是否按照規(guī)定及時(shí)向財(cái)會部門提供收入的有關(guān)憑據(jù),是否按照規(guī)定保管和使用印章和票據(jù)等;發(fā)生支出事項(xiàng)時(shí)是否按照規(guī)定審核各類憑據(jù)的真實(shí)性、合法性,是否存在使用虛假票據(jù)套取資金的情形。這為行政事業(yè)單位的收支管理內(nèi)部控制評價(jià)指明了方向。
數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,它能夠把所有信息系統(tǒng)和外部的數(shù)據(jù)進(jìn)行集成,保證數(shù)據(jù)的一致性,并且能反映出業(yè)務(wù)系統(tǒng)的變化,滿足企業(yè)的深度分析需求[1]。其與數(shù)據(jù)庫的區(qū)別主要在于數(shù)據(jù)庫是以數(shù)據(jù)的增刪改查為主,而數(shù)據(jù)倉庫是以數(shù)據(jù)分析為主。在大數(shù)據(jù)時(shí)代,基于數(shù)據(jù)倉庫構(gòu)建的行政事業(yè)單位收支管理內(nèi)部控制評價(jià)體系,能夠?qū)κ罩Ч芾淼男屎托Ч繕?biāo)、相關(guān)信息真實(shí)完整目標(biāo)、資產(chǎn)安全目標(biāo)、合法合規(guī)目標(biāo)等單個(gè)或整體控制目標(biāo)的實(shí)現(xiàn)進(jìn)行全面、科學(xué)、智能和可視化的評價(jià)。
從2012年開始,重慶海事局在持續(xù)推進(jìn)財(cái)務(wù)云平臺的建設(shè)過程中,對收支管理內(nèi)部控制進(jìn)行信息化優(yōu)化,設(shè)計(jì)了基于財(cái)務(wù)云平臺的收支管理內(nèi)部控制審計(jì)指標(biāo)體系[2],并構(gòu)建了審計(jì)實(shí)施流程,為基于數(shù)據(jù)倉庫的收支管理內(nèi)部控制評價(jià)研究奠定了良好的基礎(chǔ)。鑒于此,本文以重慶海事局為例,設(shè)計(jì)了行政事業(yè)單位收支管理內(nèi)部控制數(shù)據(jù)倉庫體系結(jié)構(gòu),分析了數(shù)據(jù)源和數(shù)據(jù)的抽取、轉(zhuǎn)換和加載過程,詳細(xì)闡述了收支管理內(nèi)部控制數(shù)據(jù)倉庫的構(gòu)建過程,最后探討了HiveQL語言數(shù)據(jù)查詢分析和OLAP多維分析在收支管理內(nèi)部控制評價(jià)中的具體應(yīng)用。
1.設(shè)計(jì)思路?!秲?nèi)控規(guī)范》從收入控制、支出控制、票據(jù)管理、歸檔控制、職責(zé)權(quán)限管理、債務(wù)管理等方面制定了七條具體的行政事業(yè)單位收支業(yè)務(wù)控制條例。依據(jù)收支管理相關(guān)規(guī)范進(jìn)行內(nèi)部控制評價(jià),本質(zhì)上是面向收支管理內(nèi)部控制評價(jià)進(jìn)行數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計(jì)的過程,其設(shè)計(jì)思路是收支業(yè)務(wù)相關(guān)數(shù)據(jù)首先通過數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL)到數(shù)據(jù)倉庫中進(jìn)行集中存儲和管理,再按照星型模型或雪花模型組織數(shù)據(jù)建立若干數(shù)據(jù)集市,構(gòu)建收支管理內(nèi)部控制數(shù)據(jù)倉庫,然后利用HiveQL 查詢語言或者OLAP工具從數(shù)據(jù)倉庫中讀取數(shù)據(jù)進(jìn)行內(nèi)部控制有效性分析和評價(jià),進(jìn)而形成面向收支管理內(nèi)部控制評價(jià)的數(shù)據(jù)倉庫體系結(jié)構(gòu)。
2.設(shè)計(jì)過程。行政事業(yè)單位收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫體系結(jié)構(gòu)的設(shè)計(jì)包括數(shù)據(jù)源分析與數(shù)據(jù)ETL、內(nèi)部控制評價(jià)數(shù)據(jù)倉庫構(gòu)建、內(nèi)部控制數(shù)據(jù)分析與評價(jià)、內(nèi)部控制評價(jià)結(jié)果輸出等四個(gè)過程。以重慶海事局為例,其收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計(jì)過程圖參考《財(cái)會月刊》2019年第13期文章《基于數(shù)據(jù)倉庫的行政事業(yè)單位單位層面內(nèi)部控制評價(jià)——以重慶海事局為例》相關(guān)內(nèi)容[3]。
在收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計(jì)過程中,收支管理內(nèi)部控制評價(jià)數(shù)據(jù)源主要來自海事局收支業(yè)務(wù)管理和內(nèi)部控制有關(guān)的制度規(guī)范、海事局財(cái)務(wù)云平臺的收支業(yè)務(wù)數(shù)據(jù)、金蝶K3系統(tǒng)的會計(jì)憑證賬表數(shù)據(jù)、各類報(bào)銷標(biāo)準(zhǔn)、各種票據(jù)掃描影像等,為數(shù)據(jù)倉庫的構(gòu)建提供最基礎(chǔ)的原始數(shù)據(jù);原始數(shù)據(jù)經(jīng)過Sqoop數(shù)據(jù)庫ETL過程后,基于Hadoop架構(gòu)的收支管理內(nèi)部控制評價(jià)大數(shù)據(jù)平臺,構(gòu)建形成包括收入管理、支出管理、債務(wù)管理3大類共7個(gè)主題數(shù)據(jù)集市的收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫(Hive);數(shù)據(jù)分析與評價(jià)則利用HiveQL 語言對數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行查詢和分析,運(yùn)用OLAP 工具和數(shù)據(jù)挖掘算法(Mahout)對收支管理內(nèi)部控制數(shù)據(jù)進(jìn)行多維分析與智能評價(jià);內(nèi)部控制的分析可以通過餅狀圖、直方圖、折線圖等統(tǒng)計(jì)圖形進(jìn)行可視化展示,實(shí)時(shí)評價(jià)結(jié)果可以通過圖文并茂的形式進(jìn)行動態(tài)呈現(xiàn)和風(fēng)險(xiǎn)預(yù)警,并自動生成多粒度、多維度的收支管理內(nèi)部控制評價(jià)報(bào)告。
收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫的構(gòu)建,首先需要分析收支管理內(nèi)部控制評價(jià)涉及的數(shù)據(jù)來源,再進(jìn)行ETL 數(shù)據(jù)抽取、轉(zhuǎn)換和加載,才能為數(shù)據(jù)倉庫構(gòu)建做好最基礎(chǔ)的數(shù)據(jù)準(zhǔn)備。
1.數(shù)據(jù)源分析。重慶海事局收支管理內(nèi)部控制評價(jià)的數(shù)據(jù)來源較多,數(shù)據(jù)量較大,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)主要包括來自財(cái)務(wù)云平臺中收支管理模型的付款記錄表、報(bào)銷記錄表、借款記錄表等數(shù)據(jù)庫管理系統(tǒng)中的數(shù)據(jù),來自金蝶K3財(cái)務(wù)軟件系統(tǒng)的收付款憑證和賬表數(shù)據(jù),來自費(fèi)收管理系統(tǒng)的業(yè)務(wù)數(shù)據(jù),以及來自Excel的收支相關(guān)管理數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)主要包括海事局收支管理過程中相關(guān)的規(guī)章制度、報(bào)銷標(biāo)準(zhǔn)、會議紀(jì)要、收支票據(jù)掃描影像、合同影像等數(shù)據(jù)結(jié)構(gòu)不規(guī)則、不完整,不方便用數(shù)據(jù)庫二維邏輯表直接存儲的數(shù)據(jù),主要以視頻、音頻、圖像、文檔、文本等形式存儲。半結(jié)構(gòu)化數(shù)據(jù)不同于關(guān)系型數(shù)據(jù)庫或列表中具有特定數(shù)據(jù)模型結(jié)構(gòu)的數(shù)據(jù),但可以用數(shù)據(jù)標(biāo)記或其他元素來分隔語義元素以及對記錄和字段進(jìn)行分層,主要包括郵件、HTML網(wǎng)頁、資源庫等。
2.數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL)。收支管理內(nèi)部控制ETL是將數(shù)據(jù)通過抽取、清洗轉(zhuǎn)換之后再加載到數(shù)據(jù)倉庫的過程,目的是將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的收支管理內(nèi)部控制相關(guān)數(shù)據(jù)整合到一起,為分析評價(jià)提供依據(jù)。數(shù)據(jù)的抽取是從各個(gè)不同的數(shù)據(jù)源抽取到ODS(Operational Data Store,操作型數(shù)據(jù)存儲)中,這個(gè)過程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換,在抽取的過程中為了保證以及提高ETL的運(yùn)行效率,需要根據(jù)數(shù)據(jù)源數(shù)據(jù)的特點(diǎn),選用合理的抽取方法。數(shù)據(jù)清洗是對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,過濾掉缺損的數(shù)據(jù)、錯誤的數(shù)據(jù)、冗余的數(shù)據(jù)等不符合要求的數(shù)據(jù),保證數(shù)據(jù)的一致性。ETL的實(shí)現(xiàn)方法有多種,包括借助ETL 工具實(shí)現(xiàn)、以SQL 方式實(shí)現(xiàn)、以ETL工具和SQL相結(jié)合的方式實(shí)現(xiàn)等。
數(shù)據(jù)ETL 工具Sqoop 可以實(shí)現(xiàn)Hadoop 和關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)的相互轉(zhuǎn)換,將關(guān)系型數(shù)據(jù)庫(如MySQL、Oracle、Postgres 等)中的數(shù)據(jù)導(dǎo)入 Hadoop的HDFS中。對于結(jié)構(gòu)化數(shù)據(jù),可以通過Sqoop ETL工具直接從海事局財(cái)務(wù)云平臺和費(fèi)收管理系統(tǒng)的SQL Server 數(shù)據(jù)庫中進(jìn)行抽取,運(yùn)用該工具進(jìn)行轉(zhuǎn)換、加載,解決數(shù)據(jù)冗余、語義矛盾、格式不統(tǒng)一等問題,最終形成能被Hive 數(shù)據(jù)倉庫存儲和集成的,結(jié)構(gòu)標(biāo)準(zhǔn)、格式規(guī)范的結(jié)構(gòu)化數(shù)據(jù),例如對于類型為文本格式的時(shí)間字段,需要將其轉(zhuǎn)換為統(tǒng)一的時(shí)間類型格式,方便對其從時(shí)間維度進(jìn)行分析。
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的ETL,針對PDF、Rtf、Word、Excel 和 PowerPoint 等格式的文件主要是通過自然語言分詞技術(shù)、針對圖像格式的文件主要是通過OCR 光學(xué)字符識別技術(shù)、針對影音格式的文件主要是通過語義識別和自然語言分詞技術(shù),提取形成Excel和數(shù)據(jù)庫等類型的結(jié)構(gòu)化數(shù)據(jù),然后通過Sqoop 等ETL 工具進(jìn)行轉(zhuǎn)換、加載到數(shù)據(jù)倉庫中。例如,與報(bào)銷有關(guān)的各項(xiàng)報(bào)銷標(biāo)準(zhǔn)主要是通過Word 格式存儲,需要將其處理形成Excel 格式文件或者數(shù)據(jù)庫文件后才能導(dǎo)入數(shù)據(jù)倉庫中。
行政事業(yè)單位收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫的構(gòu)建主要包括確定主題域、劃分?jǐn)?shù)據(jù)粒度、確定事實(shí)表和維度表、模型設(shè)計(jì)等環(huán)節(jié)。
1.確定主題域。主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合。根據(jù)《內(nèi)控規(guī)范》對收支管理內(nèi)部控制的具體規(guī)定以及收支管理內(nèi)部控制審計(jì)指標(biāo)設(shè)計(jì)[2],再結(jié)合海事局收支業(yè)務(wù)處理的邏輯關(guān)系、數(shù)據(jù)勾稽關(guān)系以及關(guān)聯(lián)關(guān)系,將收支管理內(nèi)部控制評價(jià)劃分為7大主題域,具體見表1。
表1 主題域確定及其描述
2.劃分?jǐn)?shù)據(jù)粒度。數(shù)據(jù)粒度是數(shù)據(jù)倉庫中存儲數(shù)據(jù)的細(xì)化或綜合程度。數(shù)據(jù)倉庫中數(shù)據(jù)表包含的海量數(shù)據(jù)用何種粒度進(jìn)行存儲,將進(jìn)一步影響查詢分析和數(shù)據(jù)挖掘的效果,最終影響收支管理內(nèi)部控制評價(jià)的效果。
數(shù)據(jù)倉庫粒度劃分主要考慮是采用單一粒度還是多重粒度,以及粒度的劃分層級。粒度層級越低,細(xì)化程度越高,反之則反。例如,針對行政事業(yè)單位支出核算處理及時(shí)性的評價(jià)需求,時(shí)間維度數(shù)據(jù)粒度需要劃分為“年”“月”“日”三個(gè)粒度層級。
3.確定事實(shí)表和維度表。收支管理內(nèi)部控制數(shù)據(jù)倉庫由多個(gè)事實(shí)表和維度表組成,一個(gè)事實(shí)表必須與一個(gè)或多個(gè)維度表建立關(guān)聯(lián)關(guān)系。事實(shí)表和維度表中的數(shù)據(jù)必須根據(jù)具體的主題域確定。
事實(shí)表用來存儲事實(shí)的度量值和指向各個(gè)維度表的外鍵值,主要存儲數(shù)字類型數(shù)據(jù)標(biāo)記而非詳細(xì)的描述性信息。根據(jù)確定的主題域,收支管理內(nèi)部控制數(shù)據(jù)倉庫可以建立收入歸口管理執(zhí)行性事實(shí)表、票據(jù)保管規(guī)范性事實(shí)表、票據(jù)使用范圍合理性事實(shí)表、報(bào)銷審批流程完整性事實(shí)表、支出范圍遵循性事實(shí)表、支出核算處理及時(shí)性事實(shí)表、債務(wù)控制流程完整性事實(shí)表。
維度表用于描述維度層次及成員類別等元數(shù)據(jù)信息,用以記錄事實(shí)表中特性描述以及事實(shí)記錄信息,以便為內(nèi)部控制評價(jià)提供有用的信息。例如,為了評價(jià)支出核算處理的及時(shí)性,可以通過建立時(shí)間維度表、報(bào)銷類型維度表和人員維度表來分析和評價(jià)支出業(yè)務(wù)發(fā)生時(shí)間和核算時(shí)間的時(shí)間間隔。
4.模型設(shè)計(jì)。根據(jù)事實(shí)表和維度表之間的關(guān)系,在設(shè)計(jì)具體模型時(shí),根據(jù)評價(jià)需求,應(yīng)當(dāng)考慮是選用星型模型還是雪花模型進(jìn)行數(shù)據(jù)的組織。
數(shù)據(jù)倉庫用于為內(nèi)部控制評價(jià)提供決策支持手段,而數(shù)據(jù)集市是數(shù)據(jù)倉庫的子集,用于滿足特殊應(yīng)用需求的數(shù)據(jù)倉庫通常包含較少的數(shù)據(jù)量和主題域。出于評價(jià)需求,根據(jù)主題域內(nèi)容,將收支管理內(nèi)部控制數(shù)據(jù)倉庫劃分為七個(gè)數(shù)據(jù)集市。
分析收支管理內(nèi)部控制確定的主題域,各個(gè)主題均具有多維特性,且在不同的主題域中存在著相互關(guān)聯(lián)與數(shù)據(jù)共享,事實(shí)表共享多個(gè)維度表,不同維度表之間也存在關(guān)聯(lián)關(guān)系,基于此特性,收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫選用雪花模型進(jìn)行數(shù)據(jù)組織,其模型描述及其數(shù)據(jù)組織見表2。
以支出核算處理及時(shí)性內(nèi)部控制評價(jià)主題為例,采用雪花模型進(jìn)行數(shù)據(jù)組織,主要包括報(bào)銷類型、時(shí)間、人員維度表,其中,人員維度又關(guān)聯(lián)部門維度和權(quán)限維度,具體如圖1所示。
根據(jù)支出核算處理及時(shí)性的評價(jià)需求,分析事實(shí)表和維度表的數(shù)據(jù)特征,再進(jìn)行事實(shí)表和維度表具體的物理結(jié)構(gòu)設(shè)計(jì),支出核算處理及時(shí)性事實(shí)表和維度表以及表中字段見表3。
表2 行政事業(yè)單位收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫模型及其數(shù)據(jù)組織
查詢分析、OLAP 聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫進(jìn)行收支管理內(nèi)部控制評價(jià)的重要方法。Hive 是基于Hadoop 的一個(gè)數(shù)據(jù)倉庫,其通過HiveQL語言進(jìn)行數(shù)據(jù)查詢分析。OLAP 聯(lián)機(jī)分析處理允許在被稱為多維數(shù)據(jù)集的多維結(jié)構(gòu)中訪問聚合并組織后的數(shù)據(jù),使分析人員能快速、一致和交互地分析各個(gè)維度的信息,以達(dá)到獲取分析數(shù)據(jù)價(jià)值的目的。數(shù)據(jù)挖掘通常是指通過決策樹、隨機(jī)森林等算法從大量數(shù)據(jù)中提取有價(jià)值的隱含信息的過程。因篇幅有限,下面主要闡述HiveQL數(shù)據(jù)查詢和OLAP多維分析在支出業(yè)務(wù)內(nèi)部控制評價(jià)中的具體應(yīng)用。
圖1 支出核算處理及時(shí)性評價(jià)雪花模型
表3 支出核算處理及時(shí)性評價(jià)物理表結(jié)構(gòu)
1.基于HiveQL語言的內(nèi)部控制情況查詢分析評價(jià)。原始數(shù)據(jù)經(jīng)過ETL 過程構(gòu)建數(shù)據(jù)倉庫后,可以根據(jù)評價(jià)主題確定分析點(diǎn),然后編寫HiveQL 語句進(jìn)行數(shù)據(jù)查詢分析。
(1)報(bào)銷審批流程完整性??疾焓欠窬哂型暾膱?bào)銷審批流程,是否對不同的崗位層級、人員、報(bào)銷金額、報(bào)銷業(yè)務(wù)設(shè)置不同的報(bào)銷方案。運(yùn)用HiveQL語句,提取出報(bào)銷審批流程完整性事實(shí)表需要分析的字段[“方案名稱”“報(bào)銷(金額)標(biāo)準(zhǔn)”“適用對象”等]進(jìn)行如下詳細(xì)分析。
查找報(bào)銷審批流程是否涵蓋所有報(bào)銷類目,首先提取事實(shí)表中涉及的報(bào)銷類型,與報(bào)銷類型維度表數(shù)據(jù)進(jìn)行比對,找出報(bào)銷類型不完整的數(shù)據(jù)列,對應(yīng)的HiveQL分析語句如下:
Hive>
SELECT DISTINCT I_Bxlx FROM NK_YW_SZ_SS_BXSPLCWZX
WHERE I_Bxlx NOT IN
(SELECT ID FROM NK_YW_SZ_WD_BXLX)
篩查每一條報(bào)銷方案任何一個(gè)字段出現(xiàn)空值的列,找出流程內(nèi)容不完整的數(shù)據(jù)列,對應(yīng)的HiveQL分析語句如下:
Hive>
SELECT * FROM NK_YW_SZ_SS_BXSPLCWZX
WHERE VC_Title =''OR I_BusinessID =''OR VC_Business = ''OR VC_Note =''
OR M_Begin =''OR M_End = ''OR I_Role =''OR VC_Role=''OR I_NAME=''OR VC_NAME= ''
篩查每一條報(bào)銷方案的適用對象,查看相同業(yè)務(wù)類型下不同的報(bào)銷方案是否覆蓋所有的崗位層級(適用于任何崗位人員、一般部門人員、部長、局長),找出未能覆蓋到的對象,對應(yīng)的HiveQL語句如下:
Hive>
SELECT DISTINCT I_Role FROM NK_YW_SZ_SS_BXSPLCWZX
WHERE I_Role NOT IN(SELECT ID FROM NK_YW_SZ_WD_SYDX)
(2)支出范圍遵循性。對比支出的報(bào)銷內(nèi)容下對應(yīng)的金額范圍是否遵循報(bào)銷標(biāo)準(zhǔn)。運(yùn)用HiveQL 語句提取出支出范圍遵循性事實(shí)表需要分析的字段,具體分析如下:
以差旅費(fèi)報(bào)銷為例,查找出每條報(bào)銷記錄中“人數(shù)”“往返地”“住宿費(fèi)”“住宿標(biāo)準(zhǔn)”“往返交通費(fèi)”“往返交通費(fèi)標(biāo)準(zhǔn)”“伙食費(fèi)”“伙食費(fèi)標(biāo)準(zhǔn)”等字段,找出實(shí)際費(fèi)用超出“人數(shù)”×對應(yīng)報(bào)銷標(biāo)準(zhǔn)的報(bào)銷金額超標(biāo)的數(shù)據(jù)列,對應(yīng)的HiveQL語句如下:
Hive>
SELECT * FROM NK_YW_SZ_SS_ZCFWZXX a JOIN NK_YW_SZ_WD_BXSTAND b on(a.I_Bxlx=b.ID)WHERE b.VC_Bxlx=‘差旅費(fèi)’
AND a.M_Food >a.I_People * b.M_FoodStand OR a.M_Hotle >a.I_People * b.M_HotelStand OR a.M_Cityin+a.M_Cityout >a.I_People * b.M_City
其他報(bào)銷類型的內(nèi)部控制評價(jià)數(shù)據(jù)分析參照差旅費(fèi)報(bào)銷,在此不做贅述。
(3)支出核算處理及時(shí)性。對比支出業(yè)務(wù)的發(fā)生時(shí)間與支出核算時(shí)間的差值,即報(bào)銷憑證錄入中的“業(yè)務(wù)結(jié)束日期”和“報(bào)銷日期”的時(shí)間間隔是否超出規(guī)定期限。運(yùn)用HiveQL 語句,提取出支出核算處理及時(shí)性事實(shí)表中的“業(yè)務(wù)結(jié)束日期”和“報(bào)銷日期”,計(jì)算每一條記錄的時(shí)間間隔是否超時(shí)(如按照有關(guān)規(guī)定支出核算業(yè)務(wù)處理天數(shù)不得超過半個(gè)月),對應(yīng)的HiveQL語句如下:
Hive>
SELECT * FROM NK_YW_SZ_SS_BXCLJSX
WHERE DATEDDIFF(d,DT_Input,DT_Bx)>15
2.基于OLAP 的內(nèi)部控制多維分析評價(jià)。在數(shù)據(jù)倉庫中存儲的數(shù)據(jù)不僅能像關(guān)系數(shù)據(jù)庫中存儲二維關(guān)系數(shù)據(jù),通常還需要反映數(shù)據(jù)多維的信息甚至查看某一維度下一級維度的信息,例如收支管理內(nèi)部控制評價(jià)數(shù)據(jù)倉庫中支出核算處理及時(shí)性主題對應(yīng)的多維數(shù)據(jù)集(報(bào)銷類型維—時(shí)間維—人員維)可以表示為:(報(bào)銷類型維度,時(shí)間維度,人員維度,3),根據(jù)多維數(shù)據(jù)子集構(gòu)建的多維立方體是邏輯上的數(shù)據(jù)組織形式,是進(jìn)行OLAP的分析主體,支出核算處理及時(shí)性O(shè)LAP評價(jià)模型如圖2所示。
圖2 支出核算處理及時(shí)性O(shè)LAP評價(jià)模型
通過擴(kuò)展Hive的OLAP驅(qū)動建立OLAP多維數(shù)據(jù)分析模型后,可以通過對多維模型的切片、切塊、上卷、下鉆等操作進(jìn)行收支管理內(nèi)部控制數(shù)據(jù)分析和評價(jià)。
(1)切片。數(shù)據(jù)切片操作用于選取和定義收支管理內(nèi)部控制評價(jià)主題多維數(shù)組的一個(gè)二維子集,例如,可以從報(bào)銷類型、時(shí)間、人員三個(gè)維度組織建立的三維數(shù)據(jù)結(jié)構(gòu)中選取報(bào)銷類型維度和時(shí)間維度進(jìn)行二維切片。
(2)切塊。數(shù)據(jù)切塊是將多個(gè)切片進(jìn)行疊加,進(jìn)而形成特定維度區(qū)間的操作。例如,可以從報(bào)銷類型、時(shí)間和人員組成的三維數(shù)據(jù)結(jié)構(gòu)中選取報(bào)銷類型、時(shí)間和人員維度進(jìn)行三維切塊。
切片和切塊后的模型如圖3所示。
圖3 三維數(shù)據(jù)子集切片、切塊過程
時(shí)間維度:如按日、月、年對數(shù)據(jù)進(jìn)行分組匯總,不僅可以按不同長度時(shí)間點(diǎn)查看數(shù)據(jù),還可以統(tǒng)計(jì)不同時(shí)間段的數(shù)據(jù),從而更好地從短期到長期對報(bào)銷數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以及評價(jià)其中可能存在的風(fēng)險(xiǎn)。
報(bào)銷類型維度:按不同報(bào)銷類型對報(bào)銷數(shù)據(jù)進(jìn)行分組匯總,按類別統(tǒng)計(jì),可以對平時(shí)風(fēng)險(xiǎn)較多的報(bào)銷類型進(jìn)行重點(diǎn)分析。
人員維度:根據(jù)人員ID對報(bào)銷數(shù)據(jù)進(jìn)行分組匯總統(tǒng)計(jì),重點(diǎn)關(guān)注存在較多風(fēng)險(xiǎn)的報(bào)銷核算處理數(shù)據(jù)的錄入人員。
(3)鉆取。鉆取包括上卷和下鉆兩種操作。上卷是從明細(xì)級數(shù)據(jù)向上匯總到高級數(shù)據(jù)視圖;下鉆是從高級數(shù)據(jù)向下鉆取到明細(xì)級數(shù)據(jù)視圖。對數(shù)據(jù)鉆取的能力取決于數(shù)據(jù)結(jié)構(gòu)以及粒度層級。