陳大峰(高級實驗師),陳海勇
趨勢分析(Trend Analysis)最初是一種財務(wù)報表分析方法,近年來審計研究人員將其應(yīng)用于審計工作,進行核心數(shù)據(jù)取樣,構(gòu)建分析模型,將各個不同時期的數(shù)據(jù)進行綜合比較,從中揭示經(jīng)濟活動的規(guī)律并做出預(yù)測[1,2]。另有一些研究人員針對不符合整體趨勢的數(shù)據(jù),提出離群數(shù)據(jù)挖掘的審計研究方法[3-5]。當前信息系統(tǒng)審計研究的主要目標是,如何合理搭建系統(tǒng)的體系架構(gòu),設(shè)計完備的功能模塊并進行輔助決策支持[6],以及通過對數(shù)據(jù)的深層分析,揭示審計工作中一系列影響績效信息使用的組織因素[7-8]。隨著大數(shù)據(jù)技術(shù)的出現(xiàn)和興起,將其引入審計,可以對復(fù)雜的電子審計信息進行有效轉(zhuǎn)換集成、查詢統(tǒng)計以及數(shù)據(jù)挖掘[9],但目前大數(shù)據(jù)應(yīng)用僅僅停留在比較初級的階段。面對標準越來越高的審計要求,需要在復(fù)雜數(shù)據(jù)環(huán)境下對新的審計手段展開研究,進一步提高工作效率。
大數(shù)據(jù)時代下,審計機構(gòu)、被審單位、上下游單位以及所在行業(yè)都已經(jīng)建立了相關(guān)的信息管理系統(tǒng),各種計算機審計技術(shù)和方法取得了長足的發(fā)展,這給基于大數(shù)據(jù)的信息系統(tǒng)趨勢審計提供了良好的研究基礎(chǔ)。為了充分發(fā)揮大數(shù)據(jù)技術(shù)的各種優(yōu)勢,將大數(shù)據(jù)的最新技術(shù)與審計實務(wù)結(jié)合起來,本文提出了基于大數(shù)據(jù)的趨勢審計的概念,并給出以下定義:大數(shù)據(jù)環(huán)境下信息系統(tǒng)趨勢審計是指使用大數(shù)據(jù)技術(shù)對被審計單位和上下游單位或所在行業(yè)的業(yè)務(wù)數(shù)據(jù)、財務(wù)數(shù)據(jù)進行集成、對比、統(tǒng)計和分析,研究某段時期的效益走勢、驗證前期趨勢、預(yù)測后期發(fā)展趨勢,以判斷被審計單位數(shù)據(jù)的合理性。
利用趨勢審計可以對財務(wù)數(shù)據(jù)的合理性進行判斷,揭示被查單位的財務(wù)問題,也可以在經(jīng)濟效益審計和事前審計過程中判斷經(jīng)濟效益以及預(yù)測經(jīng)濟活動的發(fā)展前景。在傳統(tǒng)環(huán)境下進行趨勢審計時,一方面由于受到審計數(shù)據(jù)抽樣的限制,得到的被審計單位的趨勢存在相當大的誤差;另一方面行業(yè)之間、上下游單位之間數(shù)據(jù)獨立、互不關(guān)聯(lián),如果僅僅對某個被審計單位的數(shù)據(jù)進行趨勢分析,則只能針對其中的離群數(shù)據(jù)做審計判斷或者是趨勢估計,得到的趨勢審計結(jié)果沒有參照上下游單位數(shù)據(jù)以及其所在行業(yè)的數(shù)據(jù),所以其價值往往會大打折扣。脫離整體環(huán)境的趨勢估計也顯得太過理想化,失去令人信服的依據(jù)。另外,脫離整體環(huán)境產(chǎn)生的離群數(shù)據(jù)量是巨大的,并且絕大多數(shù)情況是合理的,只有在通過本行業(yè)和上下游單位綜合分析后得到的離群數(shù)據(jù)才值得進一步去追蹤調(diào)查。趨勢分析面向的數(shù)據(jù)越多,分析得出的結(jié)果準確性越高,并且需要在分析過程中排除非可比因素。
大數(shù)據(jù)環(huán)境下趨勢審計的主要任務(wù)是根據(jù)被審計單位的經(jīng)濟活動的邏輯關(guān)系設(shè)計審計方案,運用大數(shù)據(jù)技術(shù)對信息系統(tǒng)在運行過程中產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù)與財務(wù)數(shù)據(jù)進行采集、轉(zhuǎn)換、集成和分析,然后進行信息預(yù)測處理和數(shù)據(jù)挖掘,最終對數(shù)據(jù)進行趨勢判斷,發(fā)現(xiàn)可疑數(shù)據(jù),取得審計線索。在此基礎(chǔ)上,本文構(gòu)建了趨勢審計實施框架,如圖1 所示,整個實施過程分為審計準備、數(shù)據(jù)采集與集成、趨勢分析與表示、審計結(jié)論四個階段。
審計機構(gòu)在接收到審計任務(wù)后,首先要根據(jù)審計業(yè)務(wù)的性質(zhì)和范圍確定趨勢審計目標;然后對被審計單位的經(jīng)營情況進行詳細的了解,掌握其組織結(jié)構(gòu)、經(jīng)營規(guī)模、潛在風險、內(nèi)部控制、上下游單位、關(guān)聯(lián)方及交易、所處行業(yè)的整體狀況、主要競爭對手、以前年度審計報告等方面的情況;最后制定審計工作計劃,報上級審批后確定趨勢審計方案。在大數(shù)據(jù)環(huán)境下,被審計單位、上下游單位以及所在行業(yè)的數(shù)據(jù)情況比較復(fù)雜,審計人員在制定工作計劃前應(yīng)先根據(jù)審計任務(wù)進行需求分析,對數(shù)據(jù)資料進行初步分析和篩選,有針對性地縮小審計數(shù)據(jù)范圍。好的審計方案不僅便于合理安排任務(wù),而且能夠減輕后續(xù)工作量。
圖1 趨勢審計實施框架
審計準備階段需要對數(shù)據(jù)進行相關(guān)性檢驗。趨勢分析往往是假設(shè)被審計單位數(shù)據(jù)與上下游單位的數(shù)據(jù)高度相關(guān),如果挑選的某些上下游單位數(shù)據(jù)與被審單位數(shù)據(jù)之間的關(guān)聯(lián)不大,那么得到的趨勢分析結(jié)果顯然是沒有意義的,所以在選擇上下游單位時首先需要檢驗與被審單位數(shù)據(jù)的相關(guān)性。相關(guān)性檢驗是指對多個數(shù)據(jù)集合進行統(tǒng)計和檢驗,判斷其是否相關(guān)以及相關(guān)的程度如何,數(shù)據(jù)相關(guān)的程度用相關(guān)系數(shù)r 標識,當r 大于給定顯著性水平a 和一定自由度f下的相關(guān)系數(shù)臨界值T"a時,表示變量之間在統(tǒng)計上存在相關(guān)關(guān)系,否則不存在相關(guān)關(guān)系[10]。在眾多相關(guān)性分析方法中,應(yīng)用最為廣泛的是Pearson積差相關(guān),但該方法只能適用于被審計單位數(shù)據(jù)與上下游單位數(shù)據(jù)都為正態(tài)分布的情況,如果不是正態(tài)分布或者分布類型未知,宜采用Spearman 等級相關(guān)或Kendall等級相關(guān)[11]。
審計人員在進行趨勢審計時,先按照審計需求對被審計單位和上下游單位信息系統(tǒng)中的數(shù)據(jù)進行采集。審計數(shù)據(jù)采集是進行趨勢審計的首要前提,也是審計過程中最基礎(chǔ)、最耗時的工作。進行審計數(shù)據(jù)采集時,審計人員需要依據(jù)事前調(diào)查所提出的需求,結(jié)合本次審計工作方案,確定本次審計數(shù)據(jù)的采集范圍、采集內(nèi)容以及采集重點。
由于各個數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)不同(包括結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)),為了方便后續(xù)操作,采集獲取的數(shù)據(jù)首先要使用數(shù)據(jù)轉(zhuǎn)換技術(shù)和整合技術(shù)進行處理,將其轉(zhuǎn)變?yōu)闃藴式y(tǒng)一、便于處理的數(shù)據(jù)格式,再將數(shù)據(jù)進行聚合、修正和關(guān)聯(lián)性分析,清理去噪,以保證數(shù)據(jù)的質(zhì)量和可靠性,最后得到可信賴的關(guān)聯(lián)數(shù)據(jù)存儲集成[12]。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量特別大而且結(jié)構(gòu)多樣,不能仿照傳統(tǒng)環(huán)境下將所有類型的數(shù)據(jù)轉(zhuǎn)換為同一種類型數(shù)據(jù)存儲,一般是針對各種類型的數(shù)據(jù)建立專門的數(shù)據(jù)庫,分門別類地放置這些不同種類的數(shù)據(jù)信息,這樣可以有效縮短數(shù)據(jù)查詢和存取的時間,提高數(shù)據(jù)集成速度。
趨勢審計所涉及的數(shù)據(jù)量巨大、種類繁多,傳統(tǒng)的數(shù)據(jù)存儲方式依靠新建數(shù)據(jù)庫、添加表字段和記錄等方式,已經(jīng)落后于所需處理數(shù)據(jù)的增長速度。為了高效地處理這些類型不同且價值密度較低的海量數(shù)據(jù),必須采用分布式存儲方式。Google 公司自行開發(fā)了一種分布式文件系統(tǒng)GFS(Google File System),它是一個基于分布式集群的大型分布式處理系統(tǒng),為大數(shù)據(jù)環(huán)境下分布式計算提供低層數(shù)據(jù)存儲和數(shù)據(jù)可靠性的保障。對于規(guī)模不大的趨勢審計項目,可以使用GFS 實現(xiàn)數(shù)據(jù)的有效存儲。對于大型審計項目,由于數(shù)據(jù)量的逐漸加大、數(shù)據(jù)結(jié)構(gòu)的愈加復(fù)雜,最初的GFS 架構(gòu)會出現(xiàn)單點故障和海量小文件存儲等問題,而且無法滿足數(shù)據(jù)進一步分析處理的需求,Google 公司在原先的基礎(chǔ)上對GFS 進行了重新設(shè)計,升級為Colosuss系統(tǒng),在這個系統(tǒng)中以上問題得到了很好的解決。
趨勢分析與表示是整個審計流程中最核心的部分,需要利用多種大數(shù)據(jù)處理技術(shù),技術(shù)要求較高,在這個過程中根據(jù)審計業(yè)務(wù)需求最終得到趨勢分析報告。經(jīng)過上一階段數(shù)據(jù)的集成得到了關(guān)聯(lián)集合,其中的原始數(shù)據(jù)可以認為是比較正確和可靠的,審計機構(gòu)首先按需要對這些原始數(shù)據(jù)做初步的抽取、篩選、分類、統(tǒng)計和標識,然后根據(jù)業(yè)務(wù)要求使用大數(shù)據(jù)技術(shù)(如分布式文件系統(tǒng)GFS、開源實現(xiàn)平臺Hadoop、分布式數(shù)據(jù)庫Bigtable、批處理技術(shù)Mapreduce、高性能計算與通信HPCC 等)進行規(guī)范化處理,期間生成的階段性結(jié)果存儲在數(shù)據(jù)中心,最后在規(guī)范化的基礎(chǔ)上通過數(shù)據(jù)挖掘、信息預(yù)測、智能算法、決策支持等手段得到趨勢分析,并使用數(shù)據(jù)可視化技術(shù)和人機交互技術(shù)形成趨勢圖示。
在趨勢分析中可使用數(shù)據(jù)挖掘、集群、分割、孤立點分析等算法,深入數(shù)據(jù)內(nèi)部來挖掘其中的價值,典型算法有用于聚類的K-Means、用于統(tǒng)計學習的SVM和用于分類的Naive Bayes等。數(shù)據(jù)挖掘不會預(yù)先設(shè)定固定的主題,主要是根據(jù)實時審計業(yè)務(wù)處理的要求,進行基于各種算法的計算,從而起到篩選和預(yù)測的效果。若要實現(xiàn)一些高級別數(shù)據(jù)分析,則可以使用聚類和分類的方法,針對不同類別的數(shù)據(jù),按照具體業(yè)務(wù)需求進一步進行處理。該過程的特點和挑戰(zhàn)主要是用于數(shù)據(jù)挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算步驟都很多,常用的數(shù)據(jù)挖掘算法都以單線程為主,這些算法不僅要處理大數(shù)據(jù)的量,還要處理大數(shù)據(jù)的速度[13,14]。
審計機構(gòu)需要與被審計單位多次交互,進行業(yè)務(wù)請求、信息反饋和信息確認。審計人員通過挖掘和分析得到的信息是否可作為審計線索,需要對照審計項目特定情況來分析和驗證,進一步追蹤和檢查相關(guān)輔助資料,落實問題,找出潛在的價值,以保證后續(xù)的審計業(yè)務(wù)分析工作順利完成。此外,需要使用數(shù)據(jù)可視化技術(shù),模擬人腦的視覺思維能力,將抽象的數(shù)據(jù)表現(xiàn)為圖形中的趨勢曲線,使得審計結(jié)果形象化。
審計人員首先需要對上一階段形成的趨勢圖示中的信息進行篩選、歸類和整理,然后與根據(jù)被審計單位的相關(guān)經(jīng)濟活動產(chǎn)生的數(shù)據(jù)做驗證,綜合評價被審計單位的效益,出具趨勢審計報告初稿。期間輔助的審計工作還有評估持續(xù)效益情況、檢查期后事項、檢查離群數(shù)據(jù)事項、檢查或有事項和行業(yè)整體情況研究等。審計報告初稿經(jīng)過項目專家組認證后報上級部門,最終確定審計報告。被審計單位遵照審計報告中的審計意見執(zhí)行,相關(guān)部門也需要從審計報告中提取有價值的信息。最后整理和歸檔各種審計數(shù)據(jù)資料,以備復(fù)審和查閱,并將調(diào)閱的被審計單位資料全部歸還給被審計單位。
在實際的審計工作中,被審計單位內(nèi)部大數(shù)據(jù)的焦點在于業(yè)務(wù)流程信息與知識及溝通信息的融合,而外部大數(shù)據(jù)的焦點在于上下游單位、市場及行業(yè)社會環(huán)境信息的融合,所以大數(shù)據(jù)環(huán)境下被審計單位數(shù)據(jù)集成是要將內(nèi)、外部大數(shù)據(jù)做全方位融合。集成后對數(shù)據(jù)的分析包括內(nèi)容、關(guān)系和時空三個基本維度。內(nèi)容維度是指被審計單位的數(shù)據(jù)所承載的信息內(nèi)容,關(guān)系維度是指行業(yè)數(shù)據(jù)、上下游單位數(shù)據(jù)與被審計單位的數(shù)據(jù)之間的聯(lián)系,時空維度是指各審計數(shù)據(jù)生成的趨勢及數(shù)據(jù)隨時間演變的模式,三個維度的交叉綜合可以形成趨勢價值。
根據(jù)趨勢審計業(yè)務(wù)的需要,上述三個維度上的需求主要由三種類別的分析技術(shù)來支撐:一是全局視圖技術(shù)。對于審計機構(gòu)而言,對審計數(shù)據(jù)內(nèi)容全局狀況的把握,是開發(fā)趨勢審計價值的一個基本需求。但審計數(shù)據(jù)的復(fù)雜性往往超出一般認知的信息承載能力,所以需要使用有效的技術(shù)從大量數(shù)據(jù)中提取出一個足夠小的集合呈現(xiàn)給審計人員,同時這個小集合充分地代表了被審計單位和相關(guān)行業(yè)的信息。二是關(guān)聯(lián)發(fā)現(xiàn)技術(shù)。其目標在于敏銳識別被審計單位數(shù)據(jù)與參照單位或行業(yè)數(shù)據(jù)之間的聯(lián)系。對于績效審計和事前審計,尤其需要強有力的關(guān)聯(lián)發(fā)現(xiàn)技術(shù),對大量的數(shù)據(jù)屬性之間所構(gòu)成的復(fù)雜潛在關(guān)聯(lián)網(wǎng)絡(luò)加以處理,最終形成趨勢對比。三是動態(tài)跟蹤技術(shù)。其目標在于對審計數(shù)據(jù)進行實時的快速增量分析和流數(shù)據(jù)分析,以達到監(jiān)控和預(yù)警的作用。近年來這三種技術(shù)發(fā)展非常迅速,已經(jīng)從實驗研究逐步走向?qū)嶋H應(yīng)用。為了滿足趨勢分析需求,對審計數(shù)據(jù)的分析就是利用分布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行篩選、標識、分類和統(tǒng)計等。
趨勢審計作為一種全新的技術(shù)手段在審計的多個領(lǐng)域加以應(yīng)用,旨在提高審計工作效率和準確率。在大數(shù)據(jù)環(huán)境下,趨勢審計工作可以分為以下幾個類別:
區(qū)間審計是針對被審計單位某段時期的數(shù)據(jù),判斷業(yè)務(wù)數(shù)據(jù)或財務(wù)數(shù)據(jù)相對于上下游單位是否存疑,是否符合經(jīng)濟發(fā)展規(guī)律,這是較為常見的一種趨勢審計類型,其前提是假設(shè)被審計單位數(shù)據(jù)與上下游單位的數(shù)據(jù)高度相關(guān)。以審計某單位財務(wù)收支項目為例,首先將某段時間內(nèi)的所有財務(wù)收支數(shù)據(jù)分為三個類別,分別是本單位的收益數(shù)據(jù)、與上游單位相關(guān)的數(shù)據(jù)以及與下游單位相關(guān)的數(shù)據(jù),然后使用大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)和可視化分析技術(shù)進行處理,將每類數(shù)據(jù)顯示為時間收益曲線,再相互比較得到趨勢判斷。判斷的結(jié)果有兩種:一種是近似正常,如圖2 所示,在圖中被審計單位的收益曲線大體是在上下游單位數(shù)據(jù)曲線控制的區(qū)間內(nèi);另一種是存疑,如圖3所示,在圖中被審計單位的收益曲線與上下游單位數(shù)據(jù)曲線相互交叉,比較雜亂,不太符合經(jīng)濟規(guī)律,這就提供了審計線索。
后勢預(yù)測審計是指對一段時期的現(xiàn)實數(shù)據(jù)進行分析和統(tǒng)計,根據(jù)其規(guī)律預(yù)測將來數(shù)據(jù)的發(fā)展趨勢,屬于事前審計的一種應(yīng)用。事前審計又稱預(yù)防性審計,是對將來可能要發(fā)生經(jīng)濟或社會事項前景的提示,是當前審計領(lǐng)域的一個研究熱點,但其實現(xiàn)的手段比較少,大數(shù)據(jù)環(huán)境下的后勢預(yù)測審計能夠提供一種較為科學的依據(jù)。以財政預(yù)算項目為例,對當年第四季度的預(yù)算做事前審計,需要將前幾年的財政數(shù)據(jù)變化規(guī)律曲線加載(使用計算機圖形技術(shù)來進行模擬)到當年前三季度數(shù)據(jù)中,然后進行比較,形成科學化的決策。在圖4 中,預(yù)測的預(yù)算資金低于存量資金,則可以視為風險可控;在圖5 中,預(yù)測的預(yù)算資金高于存量資金,則可以視為風險不可控,需要進一步的論證。后勢預(yù)測審計是以決策為主要審計對象,可以減少失誤和錯弊,起到預(yù)防和警示的作用。
圖2 時間收益曲線近似正常
圖3 時間收益曲線存疑
圖4 趨勢風險可控
圖5 趨勢風險不可控
前勢驗證審計是指采集某段時期的后續(xù)數(shù)據(jù),假定后續(xù)數(shù)據(jù)是真實可信的,根據(jù)其規(guī)律推測以前的發(fā)展趨勢,最后與這段時期的數(shù)據(jù)進行比較,以期發(fā)現(xiàn)這段時期的審計疑點。以審計某單位上半年財務(wù)狀況和經(jīng)營成果為例,將前幾年的財務(wù)數(shù)據(jù)變化曲線加載到下半年的財務(wù)數(shù)據(jù)中,與上半年財務(wù)狀況進行比較。在圖6中,前推的財務(wù)數(shù)據(jù)與現(xiàn)實數(shù)據(jù)相差不大,則可以視為正常;在圖7 中,前推的財務(wù)數(shù)據(jù)與現(xiàn)實數(shù)據(jù)相差大而且振幅紊亂,則可以視為存疑。前勢驗證審計的監(jiān)督作用還是比較明顯的,其對于研究分析問題、改進工作、挽回已造成的損失和糾正錯誤弊端等都有重要作用。
圖6 前勢驗證正常
圖7 前勢驗證存疑
行業(yè)內(nèi)趨勢對比審計是指將被審計單位的數(shù)據(jù)參照所在行業(yè)整體水平,或者與相似單位的相似業(yè)務(wù)數(shù)據(jù)進行比較后得到審計結(jié)論,主要應(yīng)用于績效審計中??冃徲嬙絹碓阶⒅匦Ч?,尤其關(guān)注資金使用效益,但如果檢驗效果性時脫離了相互比較,得到的結(jié)論也是經(jīng)不住推敲的。以審計某市專項公共資金的使用情況為例,首先采集專項公共資金發(fā)放前后的效益數(shù)據(jù),繪制出趨勢曲線,然后尋找另一相似的城市,將其專項公共資金的使用情況也繪制出來,或者統(tǒng)計這段時期所有市的公共資金平均使用情況,再相互比較。在圖8 中,公共資金發(fā)放前后效果明顯,并且取得的效益優(yōu)于本省平均水平,則可以視為績效好;在圖9中,公共資金發(fā)放前后效果不明顯,且取得的效益遠差于本省平均水平,則可以視為績效差。通過行業(yè)內(nèi)趨勢對比審計可以發(fā)現(xiàn)績效不佳的領(lǐng)域,在經(jīng)濟性、效率性、效果性方面監(jiān)控并分析存在的問題,幫助被審計單位進行整改。
圖8 行業(yè)內(nèi)趨勢對比績效高
圖9 行業(yè)內(nèi)趨勢對比績效低
圖10 多行業(yè)綜合趨勢績效高
圖11 多行業(yè)綜合趨勢績效低
多行業(yè)綜合趨勢審計是將各行業(yè)內(nèi)的數(shù)據(jù)進行統(tǒng)計后再與其他行業(yè)相互比較,或者統(tǒng)計所有行業(yè)的數(shù)據(jù)形成時間趨勢曲線,以判斷各個時間段的績效。多行業(yè)綜合趨勢審計可以應(yīng)用于績效審計,也可以應(yīng)用于大型審計項目中,其能夠在宏觀上整體把握項目的開展。以省級重點產(chǎn)業(yè)調(diào)整和振興專項引導(dǎo)資金績效審計為例,首先采集各產(chǎn)業(yè)在專項資金發(fā)放前后的效益數(shù)據(jù),繪制出趨勢曲線,然后統(tǒng)計相鄰行業(yè)和所有行業(yè)的綜合效益,最后相互比較,形成階段性的審計結(jié)論。在圖10 中,資金發(fā)放前后各個重點行業(yè)效果明顯,并且相鄰行業(yè)和所有行業(yè)的綜合效益得到了很大提高,則可以視為績效好;在圖11 中,某些行業(yè)的效果雖然有所增長,但其增長率明顯較低,相鄰行業(yè)和所有行業(yè)綜合效益的提高也有限,則可以視為績效差。多行業(yè)綜合趨勢審計利用大數(shù)據(jù)技術(shù)及其相關(guān)工具,可以通過對照發(fā)現(xiàn)績效不佳的行業(yè),實時識別風險,提高宏觀監(jiān)控能力。
區(qū)間審計的趨勢研究主要是為審計人員快速提供審計線索,縮小存疑數(shù)據(jù)所在的范圍,需要采用其他傳統(tǒng)的方法固定證據(jù),取得審計結(jié)論。后勢預(yù)測審計等其他類型的趨勢研究可以直接應(yīng)用到績效審計、經(jīng)濟責任審計以及事前審計中,綜合分析被審計單位、本行業(yè)和上下游單位的數(shù)據(jù),得到的結(jié)論更為嚴謹和科學。對于其中的向后預(yù)測或向前推導(dǎo),除了上文提到的依據(jù)某段數(shù)據(jù)進行直接加載外,還可以使用外推法和因果法。外推法的實施比較簡單,適用于短期預(yù)測,最常用的是時間序列法,包括移動算術(shù)平均法和指數(shù)滑動平均法。使用移動算術(shù)平均法進行審計的前提是假定未來的狀況僅與近期數(shù)據(jù)有關(guān),與更早期的數(shù)據(jù)無關(guān)。當時間序列已經(jīng)表現(xiàn)出某種規(guī)律性趨勢時,Brown等[15]提出可以采用指數(shù)滑動平均法,對整個時間序列進行加權(quán)平均,加權(quán)指數(shù)一般取0.7左右。因果法是依據(jù)審計對象之間的因果關(guān)系進行預(yù)測,最常用的是回歸分析法和計量經(jīng)濟學方法?;貧w分析法是先進行定性分析,確定有哪些相關(guān)因素,然后使用最小二乘法求出各因素之間的相關(guān)系數(shù)和回歸方程,并依據(jù)這個方程做預(yù)測或前推。計量經(jīng)濟學方法是利用經(jīng)濟理論和經(jīng)驗數(shù)據(jù)建立表達各經(jīng)濟因素關(guān)系的統(tǒng)計模型,并用隨機擾動誤差代表忽略的因素對模型的影響,反應(yīng)較長時間的規(guī)律性,適用于中期預(yù)測。另外還有線性預(yù)測模型,可以充分利用先驗信息的貝葉斯方法,整合各種模型的優(yōu)點進行組合預(yù)測。對于一些預(yù)測精度要求不高的審計項目,還可以采用定性預(yù)測,近年來人工智能也產(chǎn)生了如Boosting、貝葉斯網(wǎng)絡(luò)等定性預(yù)測算法,已有學者分別對這些定性方法進行了探索與應(yīng)用[16-18]。在具體的審計工作中,審計人員應(yīng)根據(jù)特定需求和應(yīng)用環(huán)境,靈活地選擇預(yù)測方法。
以2015 年某地區(qū)住房公積金征管審計項目為例,住房公積金的提取對應(yīng)著當?shù)刈》夸N售,而住房銷售往往會涉及公積金貸款、住房契稅繳納以及開發(fā)商土地出讓金繳納等信息,因此,首先需要將采取的數(shù)據(jù)進行簡單的去噪和格式轉(zhuǎn)換處理,并導(dǎo)入到GFS系統(tǒng)中完成分布式存儲。然后使用Hadoop平臺中的Mahout 工具,對數(shù)據(jù)執(zhí)行聚類算法,并對聚類結(jié)果進行分析。住房公積金提取信息可以分為提取人、住房、開發(fā)公司、公積金、土地等多個維度,包括住房地址、公積金提取時間、金額以及類型(貸款按月劃撥、年度一次性提取等)等信息。如果需要的數(shù)據(jù)在有限的時間內(nèi)得不到滿足,可以使用數(shù)據(jù)交換模式進行收集。
數(shù)據(jù)收集并集成后,將各個不同數(shù)據(jù)源信息根據(jù)提取人信息或住房信息對應(yīng)關(guān)系互聯(lián),采用的數(shù)據(jù)挖掘算法為K-Means 算法,特征為“公積金提取金額”和“房屋信息”,把這幾個數(shù)據(jù)源對象分為若干個簇,以使簇內(nèi)具有較高的相似度,根據(jù)一個簇中對象的平均值來計算相似度。在Hadoop 平臺的mahout 目錄下執(zhí)行bin/mahout 命令,檢測系統(tǒng)是否安裝成功,再將各類別的數(shù)據(jù)執(zhí)行劃分,導(dǎo)出各簇數(shù)據(jù)集合。這里審計人員假定數(shù)據(jù)中有1/k 部分需要重點關(guān)注,k當前取值為30,實際可以根據(jù)工作需要動態(tài)調(diào)整,在得到的方差最小標準的k個聚類中,將公積金提取額均值最大的聚類認定為離群數(shù)據(jù)集。因為這些數(shù)值比較大的數(shù)據(jù)往往對應(yīng)著某個階段的特別業(yè)務(wù),可以作為離群數(shù)據(jù),需要額外的審計驗證。通過審計驗證的數(shù)據(jù)可作為正常業(yè)務(wù)數(shù)據(jù),發(fā)現(xiàn)有問題的數(shù)據(jù)應(yīng)記錄在案并剔除出來,不能作為趨勢審計數(shù)據(jù)。若審計工作時間緊迫,可將所有業(yè)務(wù)中的這些特別數(shù)據(jù)直接清洗掉,形成初步的趨勢分析,同樣具有一定的價值。另外,缺少完整互聯(lián)信息的數(shù)據(jù)同樣可以認定為離群數(shù)據(jù),離群集合作為孤立點為后面的審計提供線索。
接著需要對相關(guān)數(shù)據(jù)做相關(guān)性檢驗。基于各簇數(shù)據(jù)集合中對應(yīng)的住房公積金提取數(shù)據(jù)、住房契稅繳納數(shù)據(jù)、公積金貸款數(shù)據(jù)以及土地出讓金繳納數(shù)據(jù)建立線性回歸,將數(shù)據(jù)導(dǎo)入Eviews 軟件中進行顯著性檢驗,結(jié)果如表所示。
由表可知,住房契稅繳納(I)、公積金貸款(G)、常數(shù)項(C)都通過了1%的顯著性檢驗,而土地出讓金繳納(Y)未能通過顯著性檢驗。表明住房公積金提取數(shù)據(jù)與住房契稅繳納數(shù)據(jù)、公積金貸款數(shù)據(jù)緊密相關(guān),而與土地出讓金繳納的相關(guān)性不大,所以趨勢分析時可以摒除土地出讓金繳納數(shù)據(jù)。
最后將各簇數(shù)據(jù)集合中住房公積金提取、住房契稅繳納和公積金貸款的相關(guān)數(shù)據(jù)按一周為統(tǒng)計單位匯總,繪制出趨勢曲線,如圖12所示。
相關(guān)性檢驗
圖12 趨勢曲線
圖12 中有兩個突出的部分,分別是8 ~16 周和37 ~ 45 周,對應(yīng)著每年的3、4 月和8、9 月,是每年買房的高峰期,但對比契稅繳納和公積金貸款曲線,住房公積金提取的趨勢曲線上第17 周和第22 周數(shù)據(jù)有異樣,可以認為這是重大審計線索,需要重點審計,如果被審計單位沒有相關(guān)資料輔證,則可以判斷出此期間公積金提取不合規(guī)。
面對大數(shù)據(jù),若采用普通的審計工作模式,需要對每個核心數(shù)據(jù)逐個檢驗,針對每個存疑數(shù)據(jù)都要對被審計單位做驗證性分析,即使在數(shù)據(jù)已經(jīng)高效集成的基礎(chǔ)上,其工作量也是極其巨大且低效的。傳統(tǒng)環(huán)境下的趨勢分析對數(shù)據(jù)進行抽樣,建立分析模型,對比參照行業(yè),得到趨勢結(jié)果。參照行業(yè)的選取存在很大的隨機性,而且數(shù)據(jù)抽樣誤差大,得到的趨勢結(jié)果不嚴謹。而大數(shù)據(jù)環(huán)境下的信息系統(tǒng)趨勢審計利用大數(shù)據(jù)集中處理技術(shù)和統(tǒng)計技術(shù)代替?zhèn)鹘y(tǒng)的數(shù)據(jù)抽樣,誤差得以控制,并且可與本行業(yè)和上下游單位數(shù)據(jù)進行綜合分析,形成的趨勢更科學,審計線索能夠更快地被發(fā)現(xiàn),得到的審計結(jié)果更有說服力。
趨勢審計技術(shù)可以在發(fā)現(xiàn)審計線索、行業(yè)綜合判斷、事后審計、績效審計、經(jīng)濟責任審計、審計驗證等多個方面得到應(yīng)用,提高審計工作的效率和準確率,借以糾正錯誤和防止弊病,并根據(jù)審計結(jié)果,提出改進建議和措施。大數(shù)據(jù)環(huán)境下審計數(shù)據(jù)最顯著的特征是其多種類型的來源、多樣化的形態(tài)、持續(xù)快速地產(chǎn)生和演變,以及對深度分析能力的高度依賴。因此,審計機構(gòu)對大數(shù)據(jù)的統(tǒng)計和分析,其核心并不在于采集并整合出大規(guī)模的數(shù)據(jù),而是能否對來自被審計單位內(nèi)外部多樣化的數(shù)據(jù)進行高效的集成和篩選,并通過深度分析發(fā)現(xiàn)其審計價值。本文提出的基于數(shù)據(jù)交換的信息系統(tǒng)趨勢審計成功地實現(xiàn)了這一點,在理論上提出了信息系統(tǒng)趨勢審計的定義,總結(jié)了趨勢審計的應(yīng)用范圍和類型,在實踐上使用數(shù)據(jù)交換模式提高數(shù)據(jù)預(yù)處理速度,構(gòu)建了實施框架并將多個關(guān)鍵技術(shù)加以整合,其工作效率和準確率高于傳統(tǒng)的審計工作方式,建立的分析模型可直接應(yīng)用于其他相似單位的審計工作,并針對不同時期、不同審計需求反復(fù)使用。
大數(shù)據(jù)趨勢技術(shù)的應(yīng)用環(huán)境要求較高,審計機構(gòu)需要額外收集上下游單位數(shù)據(jù)以及行業(yè)數(shù)據(jù)。另外,審計人員一般需要經(jīng)過嚴格的培訓(xùn)后才能掌握復(fù)雜的大數(shù)據(jù)技術(shù)。隨著社會各行業(yè)信息化工作的開展和審計人員操作能力的提高,以及數(shù)據(jù)交換模式的開啟,大數(shù)據(jù)趨勢技術(shù)使用的桎梏將會逐漸被打破,從而實現(xiàn)高效的信息系統(tǒng)審計。