| 李佳正
近年來,大數(shù)據(jù)技術的發(fā)展和廣泛應用給國家經(jīng)濟社會帶來了深刻的影響,也給審計工作帶來了新的機遇。2014年《國務院關于加強審計工作的意見》明確指出“探索在審計實踐中運用大數(shù)據(jù)技術的途徑,加大數(shù)據(jù)綜合利用力度,提高運用信息化技術查核問題、評價判斷、宏觀分析的能力”。在此背景下,學術界和實務界關于大數(shù)據(jù)技術在審計工作中的應用展開了廣泛的研究。劉星等(2016)闡釋了大數(shù)據(jù)審計的內(nèi)涵,并提出了推進大數(shù)據(jù)審計工作所面臨的困難與挑戰(zhàn)。陳偉等(2017,2018)探討了網(wǎng)絡爬蟲、本文挖掘、數(shù)據(jù)可視化技術在審計領域的應用,以及電子數(shù)據(jù)審計方向面臨的機遇與挑戰(zhàn)。劉國城等(2019)基于數(shù)據(jù)科學理論,論述了大數(shù)據(jù)審計的總體流程。
作為大數(shù)據(jù)技術的核心架構,數(shù)據(jù)倉庫承載著整個業(yè)務過程全鏈路的數(shù)據(jù)(王珊等,2011)。隨著我國經(jīng)濟的快速增長、上市公司規(guī)模的逐漸擴大、業(yè)務過程的逐漸豐富,審計證據(jù)的數(shù)量也迅速增長,類型和來源渠道也變得愈加多樣化。然而,在大多數(shù)審計工作中尚未建立起覆蓋整個審計業(yè)務流程的數(shù)據(jù)倉庫,這極大地限制了大數(shù)據(jù)技術在審計應用中的效果,難以發(fā)揮出大數(shù)據(jù)技術的真正潛力。數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合(William H.Inmon)。利用數(shù)據(jù)倉庫對審計數(shù)據(jù)進行有效的組織、存儲,對于規(guī)范審計流程、提高審計效率具有重大作用。因此,本文擬立足于審計理論與實務,基于數(shù)據(jù)倉庫的設計思想,結合當前大數(shù)據(jù)在審計以及互聯(lián)網(wǎng)領域的應用,研究基于數(shù)據(jù)倉庫技術的大數(shù)據(jù)審計方法。
審計數(shù)據(jù)的來源十分廣泛,既包含被審計單位的賬簿、報表、電子數(shù)據(jù)表這些會計信息數(shù)據(jù),也包含分析師報告、與競爭者的比較數(shù)據(jù)等其他的信息數(shù)據(jù)。這些審計數(shù)據(jù)之間有著復雜且密切的聯(lián)系,需要借助大數(shù)據(jù)手段對這些數(shù)據(jù)進行組織和加工,以實現(xiàn)數(shù)據(jù)利用效率的最大化。
在建設數(shù)據(jù)倉庫之前,審計數(shù)據(jù)往往散落地存儲在事務所各個審計師的電腦上,甚至一些紙質(zhì)版審計證據(jù)未建立電子數(shù)據(jù)存檔。當一個復雜的審計項目涉及到跨業(yè)務、跨小組合作時,這樣的審計數(shù)據(jù)組織方式會帶來以下幾點問題:(1)審計師難以高效率獲取到指定主題的審計數(shù)據(jù);(2)數(shù)據(jù)落實情況和計算口徑不一致,缺乏可比性,難以整合;(3)缺乏審計數(shù)據(jù)收集和加工的標準化流程,數(shù)據(jù)質(zhì)量難以保證;(4)審計師大多通過本地Excel操作數(shù)據(jù),難以處理大規(guī)模的數(shù)據(jù)量,也不便于進行數(shù)據(jù)權限的控制。
與傳統(tǒng)數(shù)據(jù)庫的組織方式不同,數(shù)據(jù)倉庫一般通過維度建模的方式來組織數(shù)據(jù)表。維度建模過程主要有四步:確定業(yè)務過程、確定粒度、確定維度、確定事實。對于審計業(yè)務,維度建模過程見表1所示。
表1 審計業(yè)務維度建模過程
根據(jù)維度建模思想組織好數(shù)據(jù)表之后,通常還需要進行數(shù)據(jù)倉庫的分層,對數(shù)據(jù)倉庫進行分層有助于更加清晰地把握數(shù)據(jù)的組織結構、追蹤數(shù)據(jù)血緣、減少重復開發(fā)、將復雜問題簡單化,實現(xiàn)以空間換時間的目的,提高數(shù)據(jù)存儲組織、處理和查詢的效率。
在大數(shù)據(jù)的實務領域,通常將數(shù)據(jù)倉庫由下至上分為明細數(shù)據(jù)層(ODS層)、基礎層(BAS層)、事實層(FACT層)和主題層(TOPIC層),對于審計數(shù)據(jù)倉庫,可以設計如圖1所示的數(shù)據(jù)倉庫分層。
圖1 審計數(shù)據(jù)倉庫分層設計
ODS層中主要存儲審計業(yè)務過程中得到的原始數(shù)據(jù),例如被審計單位的賬簿和憑證中所記錄的經(jīng)營活動發(fā)生金額、被審計單位的財務報表、被審計單位內(nèi)部控制數(shù)據(jù)、分析師報告數(shù)據(jù)、通過網(wǎng)絡爬蟲等手段得到的有關被審計單位的數(shù)據(jù)等。它的主要功能是積累和保存歷史數(shù)據(jù)。
BAS層會對ODS層的數(shù)據(jù)進行適當?shù)那逑础⒕S度補全和整合工作。它的主要功能是保證數(shù)據(jù)的質(zhì)量,及時響應審計業(yè)務的變動,避免頻繁更新數(shù)據(jù)倉庫的數(shù)據(jù)處理邏輯。
FACT層會基于維度建模的思想,根據(jù)審計業(yè)務的特點,整合BAS的數(shù)據(jù)表,形成審計業(yè)務的事實表,如被審計單位的經(jīng)營活動事實、進行的審計程序事實等。它的主要功能是提高審計人員查詢數(shù)據(jù)的效率。
TOPIC層會根據(jù)審計人員的個性化數(shù)據(jù)分析需求,對某一專題的數(shù)據(jù)進行整合,如被審計單位的會計數(shù)據(jù)主題、被審計單位自身畫像主題等。它的作用是滿足使用者個性化分析的需求。
在數(shù)據(jù)倉庫建設完成之后,可以高效地利用其中存儲的數(shù)據(jù)對數(shù)據(jù)進行挖掘、建模、可視化處理等操作,以發(fā)現(xiàn)其中隱藏的數(shù)據(jù)模式、偏差、不一致等信息,從而獲得進一步的審計證據(jù),提高審計質(zhì)量。因此,在數(shù)據(jù)的來源、數(shù)據(jù)質(zhì)量的維護、大數(shù)據(jù)存儲與處理、數(shù)據(jù)的查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等方面,審計數(shù)據(jù)倉庫還需要其他工具和算法的配合,才能最大化發(fā)揮它的作用。
1.數(shù)據(jù)來源方面:借助Python提供的爬蟲庫或者其他網(wǎng)絡爬蟲產(chǎn)品,從第三方財經(jīng)網(wǎng)站、政府工商網(wǎng)站等爬蟲與被審計單位相關的數(shù)據(jù),豐富審計數(shù)據(jù)的來源,增加審計證據(jù)的可靠性。
2.數(shù)據(jù)質(zhì)量維護方面:建立數(shù)據(jù)指標字典,保證數(shù)據(jù)指標口徑的一致性。建立數(shù)據(jù)處理的標準化流程,給不同類別的審計人員設置相適應的數(shù)據(jù)使用權限。
3.大數(shù)據(jù)存儲與處理:使用分布式文件系統(tǒng)HDFS對審計原始數(shù)據(jù)進行存儲,使用大數(shù)據(jù)處理引擎Spark進行大數(shù)據(jù)的計算和處理。審計數(shù)據(jù)的使用人員無需了解數(shù)據(jù)的底層架構,只需要編寫SQL查詢語句便可得到需要的數(shù)據(jù),極大地降低了學習成本。
4.數(shù)據(jù)的查詢:離線數(shù)據(jù)倉庫的查詢速度往往隨著數(shù)據(jù)量的增大和運算程度的復雜化而變得緩慢,無法滿足審計人員即席查詢的需求,因此需要聯(lián)機分析處理引擎(Online Analytical Processing, OLAP)這一“發(fā)動機”的配合,目前主流的OLAP引擎有Doris、Druid、ClickHouse、Kylin等。
5.數(shù)據(jù)的可視化:可視化是對審計數(shù)據(jù)最直觀的呈現(xiàn),利用可視化的折線趨勢圖、條形圖、多維查詢等,審計人員更容易發(fā)現(xiàn)數(shù)據(jù)之間的勾稽關系,輔助進行控制測試、分析性程序等操作。對于數(shù)據(jù)的可視化方法,可以使用Python等編程工具提供的繪圖庫,也可以借助Tableau等BI分析軟件。
6.數(shù)據(jù)挖掘:數(shù)據(jù)挖掘技術是在海量、隨機的數(shù)據(jù)中搜尋隱藏的、具有價值的信息的過程(何晨煒等,2017)。在對審計數(shù)據(jù)進行挖掘的過程中,往往會用到分類、回歸、聚類等機器學習算法。當前,審計數(shù)據(jù)挖掘已經(jīng)應用到了預測企業(yè)內(nèi)部控制重大缺陷(劉瑾等,2021)、財務報表造假(吳勇等,2021)、債務違約預測(潘澤清,2018)等領域。
綜上所述,可以得到基于數(shù)據(jù)倉庫技術的審計大數(shù)據(jù)架構,見圖2所示。
圖2 基于數(shù)據(jù)倉庫技術的審計大數(shù)據(jù)架構
在大數(shù)據(jù)時代,數(shù)據(jù)倉庫技術可以輔助我們對海量的審計數(shù)據(jù)進行高效的存儲、處理、查詢和管理。在此基礎上,可以結合數(shù)據(jù)可視化技術、數(shù)據(jù)挖掘算法對審計數(shù)據(jù)進行個性化的分析和深層次的挖掘,更高效率地進行數(shù)據(jù)分析、開展審計程序、進行風險評估等工作,從而提高對審計數(shù)據(jù)的綜合利用力度,提升審計質(zhì)量。