程平 楊霽莞
【摘要】數(shù)據(jù)倉(cāng)庫(kù)作為能夠?yàn)閮?nèi)部控制評(píng)價(jià)提供各種類型海量數(shù)據(jù)支持的戰(zhàn)略集合,可為行政事業(yè)單位收支管理內(nèi)部控制的全面、科學(xué)、智能和可視化評(píng)價(jià)提供有效的技術(shù)支撐。以重慶海事局為例,依據(jù)財(cái)政部《行政事業(yè)單位內(nèi)部控制規(guī)范(試行)》及收支管理相關(guān)規(guī)范和制度,設(shè)計(jì)面向收支管理內(nèi)部控制評(píng)價(jià)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),分析數(shù)據(jù)源和數(shù)據(jù)的ETL過(guò)程,詳細(xì)闡述從主題域確定、數(shù)據(jù)粒度劃分、事實(shí)表和維度表確定到模型設(shè)計(jì)的收支管理內(nèi)部數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建過(guò)程,最后運(yùn)用Hadoop Hive數(shù)據(jù)倉(cāng)庫(kù)的HiveQL語(yǔ)言和OLAP技術(shù)、結(jié)合案例分析基于數(shù)據(jù)倉(cāng)庫(kù)的收支管理內(nèi)部控制評(píng)價(jià)的具體實(shí)施。
【關(guān)鍵詞】行政事業(yè)單位;收支管理;數(shù)據(jù)倉(cāng)庫(kù);內(nèi)部控制;評(píng)價(jià)
【中圖分類號(hào)】F233,C931
【文獻(xiàn)標(biāo)識(shí)碼】A
【文章編號(hào)】1004-0994(2019)14-0092-6
一、引言
2012年11月29日,財(cái)政部印發(fā)的《行政事業(yè)單位內(nèi)部控制規(guī)范(試行)》(以下簡(jiǎn)稱《內(nèi)控規(guī)范》)指出,對(duì)經(jīng)濟(jì)活動(dòng)業(yè)務(wù)層面的收支管理進(jìn)行風(fēng)險(xiǎn)評(píng)估時(shí)要重點(diǎn)關(guān)注以下內(nèi)容:收入是否實(shí)現(xiàn)歸口管理,是否按照規(guī)定及時(shí)向財(cái)會(huì)部門提供收入的有關(guān)憑據(jù),是否按照規(guī)定保管和使用印章和票據(jù)等;發(fā)生支出事項(xiàng)時(shí)是否按照規(guī)定審核各類憑據(jù)的真實(shí)性、合法性,是否存在使用虛假票據(jù)套取資金的情形。這為行政事業(yè)單位的收支管理內(nèi)部控制評(píng)價(jià)指明了方向。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,它能夠把所有信息系統(tǒng)和外部的數(shù)據(jù)進(jìn)行集成,保證數(shù)據(jù)的一致性,并且能反映出業(yè)務(wù)系統(tǒng)的變化,滿足企業(yè)的深度分析需求[1]。其與數(shù)據(jù)庫(kù)的區(qū)別主要在于數(shù)據(jù)庫(kù)是以數(shù)據(jù)的增刪改查為主,而數(shù)據(jù)倉(cāng)庫(kù)是以數(shù)據(jù)分析為主。在大數(shù)據(jù)時(shí)代,基于數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的行政事業(yè)單位收支管理內(nèi)部控制評(píng)價(jià)體系,能夠?qū)κ罩Ч芾淼男屎托Ч繕?biāo)、相關(guān)信息真實(shí)完整目標(biāo)、資產(chǎn)安全目標(biāo)、合法合規(guī)目標(biāo)等單個(gè)或整體控制目標(biāo)的實(shí)現(xiàn)進(jìn)行全面、科學(xué)、智能和可視化的評(píng)價(jià)。
從2012年開(kāi)始,重慶海事局在持續(xù)推進(jìn)財(cái)務(wù)云平臺(tái)的建設(shè)過(guò)程中,對(duì)收支管理內(nèi)部控制進(jìn)行信息化優(yōu)化,設(shè)計(jì)了基于財(cái)務(wù)云平臺(tái)的收支管理內(nèi)部控制審計(jì)指標(biāo)體系[2],并構(gòu)建了審計(jì)實(shí)施流程,為基于數(shù)據(jù)倉(cāng)庫(kù)的收支管理內(nèi)部控制評(píng)價(jià)研究奠定了良好的基礎(chǔ)。鑒于此,本文以重慶海事局為例,設(shè)計(jì)了行政事業(yè)單位收支管理內(nèi)部控制數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),分析了數(shù)據(jù)源和數(shù)據(jù)的抽取、轉(zhuǎn)換和加載過(guò)程,詳細(xì)闡述了收支管理內(nèi)部控制數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建過(guò)程,最后探討了HiveQI語(yǔ)言數(shù)據(jù)查詢分析和OLAP多維分析在收支管理內(nèi)部控制評(píng)價(jià)中的具體應(yīng)用。
二、面向收支管理內(nèi)部控制評(píng)價(jià)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)設(shè)計(jì)
1.設(shè)計(jì)思路?!秲?nèi)控規(guī)范》從收入控制、支出控制、票據(jù)管理、歸檔控制、職責(zé)權(quán)限管理、債務(wù)管理等方面制定了七條具體的行政事業(yè)單位收支業(yè)務(wù)控制條例。依據(jù)收支管理相關(guān)規(guī)范進(jìn)行內(nèi)部控制評(píng)價(jià),本質(zhì)上是面向收支管理內(nèi)部控制評(píng)價(jià)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)設(shè)計(jì)的過(guò)程,其設(shè)計(jì)思路是收支業(yè)務(wù)相關(guān)數(shù)據(jù)首先通過(guò)數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETI)到數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行集中存儲(chǔ)和管理,再按照星型模型或雪花模型組織數(shù)據(jù)建立若干數(shù)據(jù)集市,構(gòu)建收支管理內(nèi)部控制數(shù)據(jù)倉(cāng)庫(kù),然后利用HiveQL查詢語(yǔ)言或者OLAP工具從數(shù)據(jù)倉(cāng)庫(kù)中讀取數(shù)據(jù)進(jìn)行內(nèi)部控制有效性分析和評(píng)價(jià),進(jìn)而形成面向收支管理內(nèi)部控制評(píng)價(jià)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)。
2.設(shè)計(jì)過(guò)程。行政事業(yè)單位收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)的設(shè)計(jì)包括數(shù)據(jù)源分析與數(shù)據(jù)ETL、內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、內(nèi)部控制數(shù)據(jù)分析與評(píng)價(jià)、內(nèi)部控制評(píng)價(jià)結(jié)果輸出等四個(gè)過(guò)程。以重慶海事局為例,其收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)設(shè)計(jì)過(guò)程圖參考《財(cái)會(huì)月刊》2019年第13期文章《基于數(shù)據(jù)倉(cāng)庫(kù)的行政事業(yè)單位單位層面內(nèi)部控制評(píng)價(jià)——以重慶海事局為例》相關(guān)內(nèi)容[3]。
在收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)設(shè)計(jì)過(guò)程中,收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)源主要來(lái)自海事局收支業(yè)務(wù)管理和內(nèi)部控制有關(guān)的制度規(guī)范、海事局財(cái)務(wù)云平臺(tái)的收支業(yè)務(wù)數(shù)據(jù)、金蝶K3系統(tǒng)的會(huì)計(jì)憑證賬表數(shù)據(jù)、各類報(bào)銷標(biāo)準(zhǔn)、各種票據(jù)掃描影像等,為數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建提供最基礎(chǔ)的原始數(shù)據(jù);原始數(shù)據(jù)經(jīng)過(guò)Sqoop數(shù)據(jù)庫(kù)ETL過(guò)程后,基于Hadoop架構(gòu)的收支管理內(nèi)部控制評(píng)價(jià)大數(shù)據(jù)平臺(tái),構(gòu)建形成包括收入管理、支出管理、債務(wù)管理3大類共7個(gè)主題數(shù)據(jù)集市的收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)(Hive);數(shù)據(jù)分析與評(píng)價(jià)則利用HiveQL語(yǔ)言對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行查詢和分析,運(yùn)用OLAP工具和數(shù)據(jù)挖掘算法(Mahout)對(duì)收支管理內(nèi)部控制數(shù)據(jù)進(jìn)行多維分析與智能評(píng)價(jià);內(nèi)部控制的分析可以通過(guò)餅狀圖、直方圖、折線圖等統(tǒng)計(jì)圖形進(jìn)行可視化展示,實(shí)時(shí)評(píng)價(jià)結(jié)果可以通過(guò)圖文并茂的形式進(jìn)行動(dòng)態(tài)呈現(xiàn)和風(fēng)險(xiǎn)預(yù)警,并自動(dòng)生成多粒度、多維度的收支管理內(nèi)部控制評(píng)價(jià)報(bào)告。
三、收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)源分析與ETL
收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,首先需要分析收支管理內(nèi)部控制評(píng)價(jià)涉及的數(shù)據(jù)來(lái)源,再進(jìn)行ETL數(shù)據(jù)抽取、轉(zhuǎn)換和加載,才能為數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建做好最基礎(chǔ)的數(shù)據(jù)準(zhǔn)備。
1.數(shù)據(jù)源分析。重慶海事局收支管理內(nèi)部控制評(píng)價(jià)的數(shù)據(jù)來(lái)源較多,數(shù)據(jù)量較大,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)主要包括來(lái)自財(cái)務(wù)云平臺(tái)中收支管理模型的付款記錄表、報(bào)銷記錄表、借款記錄表等數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù),來(lái)自金蝶K3財(cái)務(wù)軟件系統(tǒng)的收付款憑證和賬表數(shù)據(jù),來(lái)自費(fèi)收管理系統(tǒng)的業(yè)務(wù)數(shù)據(jù),以及來(lái)自Excel的收支相關(guān)管理數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)主要包括海事局收支管理過(guò)程中相關(guān)的規(guī)章制度、報(bào)銷標(biāo)準(zhǔn)、會(huì)議紀(jì)要、收支票據(jù)掃描影像、合同影像等數(shù)據(jù)結(jié)構(gòu)不規(guī)則、不完整,不方便用數(shù)據(jù)庫(kù)二維邏輯表直接存儲(chǔ)的數(shù)據(jù),主要以視頻、音頻、圖像、文檔、文本等形式存儲(chǔ)。半結(jié)構(gòu)化數(shù)據(jù)不同于關(guān)系型數(shù)據(jù)庫(kù)或列表中具有特定數(shù)據(jù)模型結(jié)構(gòu)的數(shù)據(jù),但可以用數(shù)據(jù)標(biāo)記或其他元素來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層,主要包括郵件、HTML網(wǎng)頁(yè)、資源庫(kù)等。
2.數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL)。收支管理內(nèi)部控制ETL是將數(shù)據(jù)通過(guò)抽取、清洗轉(zhuǎn)換之后再加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的收支管理內(nèi)部控制相關(guān)數(shù)據(jù)整合到一起,為分析評(píng)價(jià)提供依據(jù)。數(shù)據(jù)的抽取是從各個(gè)不同的數(shù)據(jù)源抽取到ODS(Operational Data Store,操作型數(shù)據(jù)存儲(chǔ))中,這個(gè)過(guò)程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換,在抽取的過(guò)程中為了保證以及提高ETL的運(yùn)行效率,需要根據(jù)數(shù)據(jù)源數(shù)據(jù)的特點(diǎn),選用合理的抽取方法。數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,過(guò)濾掉缺損的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、冗余的數(shù)據(jù)等不符合要求的數(shù)據(jù),保證數(shù)據(jù)的一致性。ETL的實(shí)現(xiàn)方法有多種,包括借助ETL工具實(shí)現(xiàn)、以SQL方式實(shí)現(xiàn)、以ETL工具和SQL相結(jié)合的方式實(shí)現(xiàn)等。
數(shù)據(jù)ETL工具Sqoop可以實(shí)現(xiàn)Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)的相互轉(zhuǎn)換,將關(guān)系型數(shù)據(jù)庫(kù)(如MySQL、Oracle、Postgres等)中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS中。對(duì)于結(jié)構(gòu)化數(shù)據(jù),可以通過(guò)Sqoop ETL工具直接從海事局財(cái)務(wù)云平臺(tái)和費(fèi)收管理系統(tǒng)的SQL Server數(shù)據(jù)庫(kù)中進(jìn)行抽取,運(yùn)用該工具進(jìn)行轉(zhuǎn)換、加載,解決數(shù)據(jù)冗余、語(yǔ)義矛盾、格式不統(tǒng)一等問(wèn)題,最終形成能被Hive數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)和集成的,結(jié)構(gòu)標(biāo)準(zhǔn)、格式規(guī)范的結(jié)構(gòu)化數(shù)據(jù),例如對(duì)于類型為文本格式的時(shí)間字段,需要將其轉(zhuǎn)換為統(tǒng)一的時(shí)間類型格式,方便對(duì)其從時(shí)間維度進(jìn)行分析。
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的ETL,針對(duì)PDF、Rtf. Word、Excel和PowerPoint等格式的文件主要是通過(guò)自然語(yǔ)言分詞技術(shù)、針對(duì)圖像格式的文件主要是通過(guò)OCR光學(xué)字符識(shí)別技術(shù)、針對(duì)影音格式的文件主要是通過(guò)語(yǔ)義識(shí)別和自然語(yǔ)言分詞技術(shù),提取形成Excel和數(shù)據(jù)庫(kù)等類型的結(jié)構(gòu)化數(shù)據(jù),然后通過(guò)Sqoop等ETL工具進(jìn)行轉(zhuǎn)換、加載到數(shù)據(jù)倉(cāng)庫(kù)中。例如,與報(bào)銷有關(guān)的各項(xiàng)報(bào)銷標(biāo)準(zhǔn)主要是通過(guò)Word格式存儲(chǔ),需要將其處理形成Excel格式文件或者數(shù)據(jù)庫(kù)文件后才能導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中。
四、收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建
行政事業(yè)單位收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建主要包括確定主題域、劃分?jǐn)?shù)據(jù)粒度、確定事實(shí)表和維度表、模型設(shè)計(jì)等環(huán)節(jié)。
1.確定主題域。主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合。根據(jù)《內(nèi)控規(guī)范》對(duì)收支管理內(nèi)部控制的具體規(guī)定以及收支管理內(nèi)部控制審計(jì)指標(biāo)設(shè)計(jì)[2],再結(jié)合海事局收支業(yè)務(wù)處理的邏輯關(guān)系、數(shù)據(jù)勾稽關(guān)系以及關(guān)聯(lián)關(guān)系,將收支管理內(nèi)部控制評(píng)價(jià)劃分為7大主題域,具體見(jiàn)表1。
2.劃分?jǐn)?shù)據(jù)粒度。數(shù)據(jù)粒度是數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)數(shù)據(jù)的細(xì)化或綜合程度。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)表包含的海量數(shù)據(jù)用何種粒度進(jìn)行存儲(chǔ),將進(jìn)一步影響查詢分析和數(shù)據(jù)挖掘的效果,最終影響收支管理內(nèi)部控制評(píng)價(jià)的效果。
數(shù)據(jù)倉(cāng)庫(kù)粒度劃分主要考慮是采用單一粒度還是多重粒度,以及粒度的劃分層級(jí)。粒度層級(jí)越低,細(xì)化程度越高,反之則反。例如,針對(duì)行政事業(yè)單位支出核算處理及時(shí)性的評(píng)價(jià)需求,時(shí)間維度數(shù)據(jù)粒度需要?jiǎng)澐譃椤澳辍薄霸隆薄叭铡比齻€(gè)粒度層級(jí)。
3.確定事實(shí)表和維度表。收支管理內(nèi)部控制數(shù)據(jù)倉(cāng)庫(kù)由多個(gè)事實(shí)表和維度表組成,一個(gè)事實(shí)表必須與一個(gè)或多個(gè)維度表建立關(guān)聯(lián)關(guān)系。事實(shí)表和維度表中的數(shù)據(jù)必須根據(jù)具體的主題域確定。
事實(shí)表用來(lái)存儲(chǔ)事實(shí)的度量值和指向各個(gè)維度表的外鍵值,主要存儲(chǔ)數(shù)字類型數(shù)據(jù)標(biāo)記而非詳細(xì)的描述性信息。根據(jù)確定的主題域,收支管理內(nèi)部控制數(shù)據(jù)倉(cāng)庫(kù)可以建立收入歸口管理執(zhí)行性事實(shí)表、票據(jù)保管規(guī)范性事實(shí)表、票據(jù)使用范圍合理性事實(shí)表、報(bào)銷審批流程完整性事實(shí)表、支出范圍遵循性事實(shí)表、支出核算處理及時(shí)性事實(shí)表、債務(wù)控制流程完整性事實(shí)表。
維度表用于描述維度層次及成員類別等元數(shù)據(jù)信息,用以記錄事實(shí)表中特性描述以及事實(shí)記錄信息,以便為內(nèi)部控制評(píng)價(jià)提供有用的信息。例如,為了評(píng)價(jià)支出核算處理的及時(shí)性,可以通過(guò)建立時(shí)間維度表、報(bào)銷類型維度表和人員維度表來(lái)分析和評(píng)價(jià)支出業(yè)務(wù)發(fā)生時(shí)間和核算時(shí)間的時(shí)間間隔。
4.模型設(shè)計(jì)。根據(jù)事實(shí)表和維度表之間的關(guān)系,在設(shè)計(jì)具體模型時(shí),根據(jù)評(píng)價(jià)需求,應(yīng)當(dāng)考慮是選用星型模型還是雪花模型進(jìn)行數(shù)據(jù)的組織。
數(shù)據(jù)倉(cāng)庫(kù)用于為內(nèi)部控制評(píng)價(jià)提供決策支持手段,而數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的子集,用于滿足特殊應(yīng)用需求的數(shù)據(jù)倉(cāng)庫(kù)通常包含較少的數(shù)據(jù)量和主題域。出于評(píng)價(jià)需求,根據(jù)主題域內(nèi)容,將收支管理內(nèi)部控制數(shù)據(jù)倉(cāng)庫(kù)劃分為七個(gè)數(shù)據(jù)集市。
分析收支管理內(nèi)部控制確定的主題域,各個(gè)主題均具有多維特性,且在不同的主題域中存在著相互關(guān)聯(lián)與數(shù)據(jù)共享,事實(shí)表共享多個(gè)維度表,不同維度表之間也存在關(guān)聯(lián)關(guān)系,基于此特性,收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)選用雪花模型進(jìn)行數(shù)據(jù)組織,其模型描述及其數(shù)據(jù)組織見(jiàn)表2。
以支出核算處理及時(shí)性內(nèi)部控制評(píng)價(jià)主題為例,采用雪花模型進(jìn)行數(shù)據(jù)組織,主要包括報(bào)銷類型、時(shí)間、人員維度表,其中,人員維度又關(guān)聯(lián)部門維度和權(quán)限維度,具體如圖1所示。
根據(jù)支出核算處理及時(shí)性的評(píng)價(jià)需求,分析事實(shí)表和維度表的數(shù)據(jù)特征,再進(jìn)行事實(shí)表和維度表具體的物理結(jié)構(gòu)設(shè)計(jì),支出核算處理及時(shí)性事實(shí)表和維度表以及表中字段見(jiàn)表3。
五、基于數(shù)據(jù)倉(cāng)庫(kù)的收支管理內(nèi)部控制評(píng)價(jià)應(yīng)用
查詢分析、OLAP聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘是基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行收支管理內(nèi)部控制評(píng)價(jià)的重要方法。Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù),其通過(guò)HiveQL語(yǔ)言進(jìn)行數(shù)據(jù)查詢分析。OLAP聯(lián)機(jī)分析處理允許在被稱為多維數(shù)據(jù)集的多維結(jié)構(gòu)中訪問(wèn)聚合并組織后的數(shù)據(jù),使分析人員能快速、一致和交互地分析各個(gè)維度的信息,以達(dá)到獲取分析數(shù)據(jù)價(jià)值的目的。數(shù)據(jù)挖掘通常是指通過(guò)決策樹(shù)、隨機(jī)森林等算法從大量數(shù)據(jù)中提取有價(jià)值的隱含信息的過(guò)程。因篇幅有限,下面主要闡述HiveQL數(shù)據(jù)查詢和OLAP多維分析在支出業(yè)務(wù)內(nèi)部控制評(píng)價(jià)中的具體應(yīng)用。
1.基于HiveQL語(yǔ)言的內(nèi)部控制情況查詢分析評(píng)價(jià)。原始數(shù)據(jù)經(jīng)過(guò)ETL過(guò)程構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)后,可以根據(jù)評(píng)價(jià)主題確定分析點(diǎn),然后編寫HiveQL語(yǔ)句進(jìn)行數(shù)據(jù)查詢分析。
(1)報(bào)銷審批流程完整性。考察是否具有完整的報(bào)銷審批流程,是否對(duì)不同的崗位層級(jí)、人員、報(bào)銷金額、報(bào)銷業(yè)務(wù)設(shè)置不同的報(bào)銷方案。運(yùn)用HiveQL語(yǔ)句,提取出報(bào)銷審批流程完整性事實(shí)表需要分析的字段[“方案名稱”“報(bào)銷(金額)標(biāo)準(zhǔn)”“適用對(duì)象”等]進(jìn)行如下詳細(xì)分析。
查找報(bào)銷審批流程是否涵蓋所有報(bào)銷類目,首先提取事實(shí)表中涉及的報(bào)銷類型,與報(bào)銷類型維度表數(shù)據(jù)進(jìn)行比對(duì),找出報(bào)銷類型不完整的數(shù)據(jù)列,對(duì)應(yīng)的HiveQL分析語(yǔ)句如下:
Hive>
SELECT DISTINCT I__Bxlx FROM NK YW—SZ—SS__ BXSPLCWZX
WHERE I Bxlx NOT IN
(SEIECT ID FROM NK YW_SZ_WD_BXLX)
篩查每一條報(bào)銷方案任何一個(gè)字段出現(xiàn)空值的列,找出流程內(nèi)容不完整的數(shù)據(jù)列,對(duì)應(yīng)的HiveQL分析語(yǔ)句如下:
Hive>
SELECT*FROM NKj YW_SZ_SS__ BXSPLCWZX
WHERE VC_Title =-OR I_BusinessID =-ORVC_Business=-OR VC_Note=~
OR M_Begin =-OR MEnd 2-OR I_Role 2"OR VC_Role =-OR I_NAME =-OR VC_NAME= -
篩查每一條報(bào)銷方案的適用對(duì)象,查看相同業(yè)務(wù)類型下不同的報(bào)銷方案是否覆蓋所有的崗位層級(jí)(適用于任何崗位人員、一般部門人員、部長(zhǎng)、局長(zhǎng)),找出未能覆蓋到的對(duì)象,對(duì)應(yīng)的HiveQL語(yǔ)句如下:
Hive>
SELECT DISTINCT I__ Role FROM NK YW—SZ—SS__ BXSPLCWZX
WHERE I_Role NOT IN (SEIECT ID FROMNK YW_SZ_WD_SYDX)
(2)支出范圍遵循性。對(duì)比支出的報(bào)銷內(nèi)容下對(duì)應(yīng)的金額范圍是否遵循報(bào)銷標(biāo)準(zhǔn)。運(yùn)用HiveQL語(yǔ)句提取出支出范圍遵循性事實(shí)表需要分析的字段,具體分析如下:
以差旅費(fèi)報(bào)銷為例,查找出每條報(bào)銷記錄中“人數(shù)”“往返地”“住宿費(fèi)”“住宿標(biāo)準(zhǔn)”“往返交通費(fèi)”“往返交通費(fèi)標(biāo)準(zhǔn)”“伙食費(fèi)”“伙食費(fèi)標(biāo)準(zhǔn)”等字段,找出實(shí)際費(fèi)用超出“人數(shù)”×對(duì)應(yīng)報(bào)銷標(biāo)準(zhǔn)的報(bào)銷金額超標(biāo)的數(shù)據(jù)列,對(duì)應(yīng)的HiveQL語(yǔ)句如下:
Hive>
SELECT 4 FROM NK__ YW—SZ__ SS__. ZCFWZXX aJOIN NK_YW_SZ_WD_BXSTAND b on (a.I_Bxlx=b.ID) WHERE b.VC_Bxlx=‘差旅費(fèi)’
AND a.M_Food>a.I_People*b.M_FoodStand OR a.M_Hode>a.I_People*b.M_HoteIStand OR a.M_City-in+a.M_Cityout>a.LPeople*b.M_City
其他報(bào)銷類型的內(nèi)部控制評(píng)價(jià)數(shù)據(jù)分析參照差旅費(fèi)報(bào)銷,在此不做贅述。
(3)支出核算處理及時(shí)性。對(duì)比支出業(yè)務(wù)的發(fā)生時(shí)間與支出核算時(shí)間的差值,即報(bào)銷憑證錄入中的“業(yè)務(wù)結(jié)束日期”和“報(bào)銷日期”的時(shí)間間隔是否超出規(guī)定期限。運(yùn)用HiveQL語(yǔ)句,提取出支出核算處理及時(shí)性事實(shí)表中的“業(yè)務(wù)結(jié)束日期”和“報(bào)銷日期”,計(jì)算每一條記錄的時(shí)間間隔是否超時(shí)(如按照有關(guān)規(guī)定支出核算業(yè)務(wù)處理天數(shù)不得超過(guò)半個(gè)月),對(duì)應(yīng)的HiveQL語(yǔ)句如下:
Hive>
SELECT * FROM NK_ YW_SZ_SS_BXCLJSX
WHERE DATEDDIFF (d, D-Llnput, DT_Bx》15
2.基于OLAP的內(nèi)部控制多維分析評(píng)價(jià)。在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)不僅能像關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)二維關(guān)系數(shù)據(jù),通常還需要反映數(shù)據(jù)多維的信息甚至查看某一維度下一級(jí)維度的信息,例如收支管理內(nèi)部控制評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)中支出核算處理及時(shí)性主題對(duì)應(yīng)的多維數(shù)據(jù)集(報(bào)銷類型維一時(shí)間維一人員維)可以表示為:(報(bào)銷類型維度,時(shí)間維度,人員維度,3),根據(jù)多維數(shù)據(jù)子集構(gòu)建的多維立方體是邏輯上的數(shù)據(jù)組織形式,是進(jìn)行OLAP的分析主體,支出核算處理及時(shí)性O(shè)LAP評(píng)價(jià)模型如圖2所示。
通過(guò)擴(kuò)展Hive的OLAP驅(qū)動(dòng)建立OLAP多維數(shù)據(jù)分析模型后,可以通過(guò)對(duì)多維模型的切片、切塊、上卷、下鉆等操作進(jìn)行收支管理內(nèi)部控制數(shù)據(jù)分析和評(píng)價(jià)。
(1)切片。數(shù)據(jù)切片操作用于選取和定義收支管理內(nèi)部控制評(píng)價(jià)主題多維數(shù)組的一個(gè)二維子集,例如,可以從報(bào)銷類型、時(shí)間、人員三個(gè)維度組織建立的三維數(shù)據(jù)結(jié)構(gòu)中選取報(bào)銷類型維度和時(shí)間維度進(jìn)行二維切片。
(2)切塊。數(shù)據(jù)切塊是將多個(gè)切片進(jìn)行疊加,進(jìn)而形成特定維度區(qū)間的操作。例如,可以從報(bào)銷類型、時(shí)間和人員組成的三維數(shù)據(jù)結(jié)構(gòu)中選取報(bào)銷類型、時(shí)間和人員維度進(jìn)行三維切塊。
切片和切塊后的模型如圖3所示。
時(shí)間維度:如按日、月、年對(duì)數(shù)據(jù)進(jìn)行分組匯總,不僅可以按不同長(zhǎng)度時(shí)間點(diǎn)查看數(shù)據(jù),還可以統(tǒng)計(jì)不同時(shí)間段的數(shù)據(jù),從而更好地從短期到長(zhǎng)期對(duì)報(bào)銷數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以及評(píng)價(jià)其中可能存在的風(fēng)險(xiǎn)。
報(bào)銷類型維度:按不同報(bào)銷類型對(duì)報(bào)銷數(shù)據(jù)進(jìn)行分組匯總,按類別統(tǒng)計(jì),可以對(duì)平時(shí)風(fēng)險(xiǎn)較多的報(bào)銷類型進(jìn)行重點(diǎn)分析。
人員維度:根據(jù)人員ID對(duì)報(bào)銷數(shù)據(jù)進(jìn)行分組匯總統(tǒng)計(jì),重點(diǎn)關(guān)注存在較多風(fēng)險(xiǎn)的報(bào)銷核算處理數(shù)據(jù)的錄入人員。
(3)鉆取。鉆取包括上卷和下鉆兩種操作。上卷是從明細(xì)級(jí)數(shù)據(jù)向上匯總到高級(jí)數(shù)據(jù)視圖;下鉆是從高級(jí)數(shù)據(jù)向下鉆取到明細(xì)級(jí)數(shù)據(jù)視圖。對(duì)數(shù)據(jù)鉆取的能力取決于數(shù)據(jù)結(jié)構(gòu)以及粒度層級(jí)。
主要參考文獻(xiàn):
[1]王珊,王會(huì)舉,覃雄派等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(10):1741~1752.
[2]程平,尹赤.數(shù)據(jù)視角下基于財(cái)務(wù)云平臺(tái)的收支管理內(nèi)部控制審計(jì)——以重慶海事局為例[J].財(cái)會(huì)月刊,2018(2):129~134.
[3]程平,范洵.基于數(shù)據(jù)倉(cāng)庫(kù)的行政事業(yè)單位單位層面內(nèi)部控制評(píng)價(jià)——以重慶海事局為例[J].財(cái)會(huì)月刊.2019( 13):71~76.