劉曉寧 馬 西 曾 航 胡陽華
維克托·爾耶·舍恩伯格在《大數(shù)據(jù)時代》中前瞻性地指出,大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,迎來了新時代的思維變革、商業(yè)變革和管理變革。信息技術(shù)、大數(shù)據(jù)、云計算、區(qū)塊鏈、物聯(lián)網(wǎng)、人工智能已經(jīng)引發(fā)了全球新的商業(yè)模式。
在我國財務(wù)管理領(lǐng)域,用友財務(wù)云采用領(lǐng)先的智能技術(shù),基于會計理論,以業(yè)務(wù)事項為基礎(chǔ),打造智能財務(wù)為核心理念,構(gòu)建國內(nèi)具備實時、智能、精細、多維、可視、生態(tài)的企業(yè)數(shù)智化財務(wù)云服務(wù)平臺,助力用戶財務(wù)數(shù)字化轉(zhuǎn)型。這些商業(yè)模式改變了交易的記錄和存儲方式,顛覆了信息數(shù)據(jù)收集、整理、分析、應(yīng)用的方法。電子化、無紙化使得用戶對財務(wù)信息的要求也上升到了實時化和在線化階段。由于管理環(huán)境的變化,尤其是薩班斯-奧克斯利(Sarbanes-Oxley)法案的實施,很多政府審計部門、會計師事務(wù)所、公司和企業(yè)不得不高度重視審計技術(shù)的效率和效果。在這種大環(huán)境下,也就應(yīng)運而生了大數(shù)據(jù)、云計算審計技術(shù)。
近幾年來,建立與信息時代、知識社會相適應(yīng)的面向服務(wù)、以用戶為中心、以人為本的開放的社會創(chuàng)新形態(tài)正在形成。尤其在審計領(lǐng)域,2021年10月,第十三屆全國人民代表大會常務(wù)委員會第三十一次會議通過《關(guān)于修改<中華人民共和國審計法>的決定》。新修訂的《審計法》重點強調(diào)要升級技術(shù)手段,強化智慧監(jiān)督,為審計監(jiān)督利用大數(shù)據(jù)、云計算、人工智能等先進數(shù)字技術(shù)提供了良好的政策保障。
目前,我國數(shù)字化建設(shè)發(fā)展迅猛,“東數(shù)西算”工程正式全面啟動,全國一體化大數(shù)據(jù)中心體系完成總體布局設(shè)計。加快推動算力建設(shè),將有效激發(fā)數(shù)據(jù)要素創(chuàng)新活力,加速數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化進程,催生新技術(shù)、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式,支撐經(jīng)濟高質(zhì)量發(fā)展。截至2020年,我國數(shù)據(jù)中心機架規(guī)模達到500萬架,預(yù)計“十四五”末期達到1 800萬架,近五年年均增速逾30%,或?qū)⑿略?.95萬億元投資。同時,隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、區(qū)塊鏈等技術(shù)應(yīng)用于財務(wù)、審計領(lǐng)域的研究越來越多,大數(shù)據(jù)、云計算審計技術(shù)也漸漸被認為是未來替代現(xiàn)代審計技術(shù)的必然趨勢。
國內(nèi)外學術(shù)界近年來高度關(guān)注大數(shù)據(jù)、云計算、區(qū)塊鏈在審計領(lǐng)域里的應(yīng)用。AICPA(2014)初步分析了大數(shù)據(jù)環(huán)境對審計工作的影響;Earley(2015)分析了大數(shù)據(jù)技術(shù)給審計工作帶 來 的 機 遇 和 挑 戰(zhàn);Chen (2014)、Melnik(2010)、Gulisano(2012)認為,大數(shù)據(jù)分析需要一些能在有限的時間內(nèi)對大量數(shù)據(jù)進行有效分析的技術(shù),這些技術(shù)覆蓋了計算機科學、統(tǒng)計學、經(jīng)濟學、會計學、審計學等學科。同時,一些用于分析大數(shù)據(jù)的工具也被開發(fā)出來。
國內(nèi)研究大數(shù)據(jù)、云計算審計的項目類型繁雜,徐超(2021)從大數(shù)據(jù)審計采集技術(shù)、存儲技術(shù)、分析技術(shù)以及可視化技術(shù)描述了大數(shù)據(jù)審計技術(shù)核心因素及具體的應(yīng)用過程。陳偉(2019)介紹了目前已有的大數(shù)據(jù)分析技術(shù)與工具,以及大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)可視化技術(shù)的電子數(shù)據(jù)審計方法原理。在此基礎(chǔ)上,學者們還專門研究了基于數(shù)據(jù)可視化技術(shù)的電子數(shù)據(jù)審計方法,并與目前常用的基于SQL的數(shù)據(jù)查詢方法,以及基于審計軟件的分析方法進行對比分析。鄭金秀(2022)介紹了大數(shù)據(jù)審計技術(shù)的三個基本步驟,并以某集團公司銷售業(yè)務(wù)專項審計為例,闡述了大數(shù)據(jù)審計技術(shù)的運用,提出了加強大數(shù)據(jù)審計技術(shù)運用的思考建議。夏軍等(2021)著重就大數(shù)據(jù)技術(shù)在經(jīng)濟責任審計中應(yīng)用的必要性、在具體審計項目中的應(yīng)用展開分析,并結(jié)合具體案例說明該技術(shù)的應(yīng)用途徑和方法,然后就應(yīng)用中遇到的問題進行思考,以提高大數(shù)據(jù)技術(shù)運用成效。
綜上所述,目前對大數(shù)據(jù)、云計算審計技術(shù)的研究,基本都停留在理論探討層面,而對技術(shù)層面的研究并不多,尤其在實際操作應(yīng)用領(lǐng)域進展緩慢,主要是計算機硬件接口不兼容、軟件技術(shù)不匹配等原因所致。為此,本文從大數(shù)據(jù)、云計算審計技術(shù)層面進行探討,借以推進該技術(shù)在審計領(lǐng)域的應(yīng)用。
大數(shù)據(jù)處理主要分以下幾個步驟:
1.數(shù)據(jù)的收集。(1)抓取或者爬取,例如搜索引擎就是這么做的。(2)推送,利用終端收集數(shù)據(jù)。
2.數(shù)據(jù)的傳輸。一般會通過隊列方式進行,因為數(shù)據(jù)量實在是太大了,必須經(jīng)過處理才會有用。
3.數(shù)據(jù)的存儲。大數(shù)據(jù)是歷史的交易數(shù)據(jù),需要存儲下來。對于數(shù)據(jù)的存儲,需要一個很大的分布式文件系統(tǒng)來做處理,把多臺機器的硬盤打成一塊大的文件系統(tǒng)。
4.數(shù)據(jù)的處理和分析。上面存儲的數(shù)據(jù)是原始數(shù)據(jù),原始數(shù)據(jù)多是雜亂無章的,有很多垃圾數(shù)據(jù)在里面,因而需要清洗和過濾,得到一些高質(zhì)量的數(shù)據(jù)進行分析。對于數(shù)據(jù)分析,需要對大量的數(shù)據(jù)做分解、統(tǒng)計、匯總,一般采用分布式計算方法,將大量的數(shù)據(jù)分成小份,每臺機器處理一小份,多臺機器并行處理。
5.數(shù)據(jù)的檢索和挖掘。檢索就是搜索,Google、百度兩大搜索引擎都是將分析后的數(shù)據(jù)放入搜索引擎。另外就是挖掘,僅僅將數(shù)據(jù)搜索出來已經(jīng)不能滿足人們的要求,還需要從信息中挖掘出其間相互的關(guān)系。所以通過各種算法挖掘數(shù)據(jù)中的關(guān)系,形成知識庫。
大數(shù)據(jù)十分雜亂,經(jīng)過梳理和清洗,才能夠稱為信息。信息會包含很多規(guī)律,我們需要從信息中將規(guī)律總結(jié)出來,稱為知識(Knowledge)。有了知識,然后利用這些知識去應(yīng)用于實踐,這就叫做智慧(Intelligence)。
根據(jù)大數(shù)據(jù)、云計算審計的概念,對海量的數(shù)據(jù)處理方式可以分為:
1.計算機輔助大數(shù)據(jù)處理方式。它是通過人工采集或獲取非電子數(shù)據(jù),然后將人工采集的數(shù)據(jù)錄入計算機,通過本地專業(yè)計算機軟件進行鑒別、分析的一種處理方式。這種方式處理結(jié)果比較準確,但由于軟件比較落后,且計算機處理能力有限,所以速度和質(zhì)量也難以保證,對非結(jié)構(gòu)化數(shù)據(jù)仍然需要結(jié)合人腦并用進行。
2.聯(lián)網(wǎng)大數(shù)據(jù)處理方式。它是利用計算機聯(lián)網(wǎng)方式遠程采集大數(shù)據(jù)并采用本地軟件進行數(shù)據(jù)處理,聯(lián)網(wǎng)大數(shù)據(jù)審計具有非現(xiàn)場審計、實時審計(或亞實時審計)、遠程審計、數(shù)據(jù)采集效率高等特征,但由于數(shù)據(jù)量巨大,對數(shù)據(jù)存儲、處理需要的硬件和軟件是一個巨大的挑戰(zhàn)。
3.云平臺大數(shù)據(jù)處理方式。它是基于云平臺采用相關(guān)軟件采集、識別、鑒證、挖掘和分析來自于物理世界的非結(jié)構(gòu)化數(shù)據(jù),包括音頻、視頻、射頻、文本、圖片等數(shù)據(jù)。這種處理方式采用集成數(shù)據(jù)、模型和各種數(shù)據(jù)采集技術(shù)的云平臺技術(shù),數(shù)據(jù)存儲和處理能力強,尤其是集成了智能技術(shù)和物聯(lián)網(wǎng)技術(shù)的云平臺效率更高。這也是今后用來作為研究樣本的一種大數(shù)據(jù)、云計算審計技術(shù)的數(shù)據(jù)處理方式。
利用大數(shù)據(jù)、云計算進行審計工作,首先是獲得數(shù)據(jù),大數(shù)據(jù)、云計算審計所獲得的數(shù)據(jù)和傳統(tǒng)調(diào)查數(shù)據(jù)不同,起初是零亂的,面對混亂,如何處理,這就需要大數(shù)據(jù)挖掘的方法。其基本思路是,將雜亂無章的大數(shù)據(jù)先歸類,再降低它的維度,降維為若干類別以后,便讓大數(shù)據(jù)和調(diào)查數(shù)據(jù)的形態(tài)差不多。這里我們把數(shù)據(jù)挖掘流程的步驟歸納一下。
1.獲得數(shù)據(jù):通過映射-降維,形成可分析的數(shù)據(jù)。
2.選擇要分析的降維數(shù)據(jù),選擇變量,降維以后的數(shù)據(jù)變量是可選的。
3.進行數(shù)據(jù)變換:包括數(shù)據(jù)類型的變換、數(shù)據(jù)模式的變換等等。
4.模式發(fā)現(xiàn):數(shù)據(jù)挖掘就是要發(fā)現(xiàn)模式。
5.模式評估:對已經(jīng)發(fā)現(xiàn)的模式,評估其信度和效度。
6.知識表達:大數(shù)據(jù)、云計算審計的最終結(jié)果。
(二)大數(shù)據(jù)、云計算審計的描述性分析
所謂大數(shù)據(jù)、云計算審計的描述性分析,就是對審計對象進行描述性的刻畫,也是用數(shù)據(jù)刻畫,獲得審計對象的數(shù)字畫像。
1.特征分析。特征分析就是點分析,類似于針對調(diào)查數(shù)據(jù)做的單變量分析,刻畫審計對象的基本特征。
2.關(guān)聯(lián)分析??梢岳斫鉃殡p變量和多變量之間關(guān)系的分析。關(guān)聯(lián)分析類似于調(diào)查數(shù)據(jù)的雙變量、多變量分析,是基于事物不同特征之間的相關(guān)性分析。不過,其分析的基本思路和統(tǒng)計學的相關(guān)性分析方法大不相同。
3.聚類分析。這原本就是調(diào)查數(shù)據(jù)統(tǒng)計分析方法的一種,用分類原則篩選因子,減少變量的數(shù)量,又稱“降維”。在大數(shù)據(jù)挖掘中,點集數(shù)據(jù)是適合聚類分析的數(shù)據(jù)類型,通過聚類,讓原本混雜的數(shù)據(jù)歸入各自的類。聚類主要是做多特征的綜合聚類。
4.離群點分析。這在調(diào)查數(shù)據(jù)時叫極值,在大數(shù)據(jù)里叫離群點,兩個不一樣。
預(yù)測分析技術(shù)是系統(tǒng)工程、運籌學的范疇,這里不再列舉,只講與調(diào)查數(shù)據(jù)分析根本不同的部分。傳統(tǒng)的調(diào)查數(shù)據(jù)是先建模再搜集數(shù)據(jù),最后檢驗?zāi)P汀6髷?shù)據(jù)、云計算審計分析是先有數(shù)據(jù),建模的基礎(chǔ)是數(shù)據(jù),因此被稱為數(shù)據(jù)建模。數(shù)據(jù)建模是基于數(shù)據(jù)歸納的,在數(shù)據(jù)里發(fā)現(xiàn)、挖掘,通過描述性分析建立簡單模型,用簡單模型讓機器學習。
大數(shù)據(jù)的數(shù)據(jù)建模通常有兩類。一類是分類模型,一類是回歸模型。分類模型分析事物的類別,關(guān)注特征值;回歸模型分析變量之間的關(guān)系模式,為預(yù)測分析而準備。在這個基礎(chǔ)上,數(shù)據(jù)建模是多種技術(shù)的應(yīng)用。首先是數(shù)學建模技術(shù),其次是統(tǒng)計學原理和方法,再次是算法。如何讓機器可計算并達到計算的有效率,在算法中還涉及一系列的理論與技術(shù)。如:數(shù)據(jù)庫、可視化、機器學習、模式識別技術(shù)等等。
大數(shù)據(jù)、云計算審計技術(shù)的語言和算法相對復雜一些,這也是數(shù)據(jù)建模中的核心,它不僅用于建庫,也用于做所有與數(shù)據(jù)挖掘、建模相關(guān)的工作,比如說機器學習,從初始數(shù)據(jù)建模到模型迭代、穩(wěn)健,都依靠算法的效率。
再比如,R語言。R語言作為統(tǒng)計學一門語言,一直在小眾領(lǐng)域閃耀著光芒。直到大數(shù)據(jù)的爆發(fā),R語言變成了一門炙手可熱的數(shù)據(jù)分析利器。我們從數(shù)據(jù)可視化角度出發(fā),了解統(tǒng)計計算與繪圖功能集于一身的R語言。首先,它作為大數(shù)據(jù)分析工具,在分析數(shù)據(jù)時有其得天獨厚的優(yōu)勢,而且R語言在審計領(lǐng)域應(yīng)用的可行性,為審計人員更直觀、便利地分析數(shù)據(jù)提供基礎(chǔ)的理論參考。其次,針對海量的審計數(shù)據(jù)分析,R語言提出了大數(shù)據(jù)、云計算審計分析的新模式。在開展R語言統(tǒng)計模型應(yīng)用研究時,先建立從統(tǒng)計模型、指標提取到統(tǒng)計模型檢驗與優(yōu)化、統(tǒng)計模型重寫、數(shù)據(jù)可視化的一套方法。在此基礎(chǔ)上,具體針對BI工具發(fā)現(xiàn)問題,應(yīng)用R語言進行異常數(shù)據(jù)指標的相關(guān)因素分析。
(三)大數(shù)據(jù)可視化數(shù)據(jù)模型
大數(shù)據(jù)可視化需要數(shù)據(jù)分析模型。一般數(shù)據(jù)模型可以從兩個角度來區(qū)分:數(shù)據(jù)和業(yè)務(wù)。我們在進行大數(shù)據(jù)、云計算審計時,主要采用數(shù)據(jù)模型。所謂數(shù)據(jù)模型是從統(tǒng)計數(shù)據(jù)視角而言的實體模型,通常指統(tǒng)計分析、大數(shù)據(jù)挖掘、深度學習、人工智能技術(shù)等種類的實體模型,這些模型是從科學研究的視角界定的。
1.降維模型。對海量的大數(shù)據(jù)和大規(guī)模的數(shù)據(jù)進行數(shù)據(jù)挖掘時,數(shù)據(jù)集的維度往往在無限地增加,但計算機的處理能力和速度有限。此外,數(shù)據(jù)集的多個維度之間可能存在共同的線性關(guān)系,這會造成學習模型的可擴展性不足,乃至優(yōu)化算法結(jié)果無效。因此,人們必須減少層面總數(shù)并減少層面間共線性危害。
2.回歸模型。回歸分析模型是一種數(shù)據(jù)分析方法,它是研究變量X對因變量Y的數(shù)據(jù)分析。
3.聚類分析模型。聚類分析法是大數(shù)據(jù)挖掘和測算中的基礎(chǔ)任務(wù),它是將很多統(tǒng)計數(shù)據(jù)集中化,具備“類似”特點的統(tǒng)計數(shù)據(jù)點區(qū)劃為一致類型,并最后轉(zhuǎn)化成好幾個類的方式。海量數(shù)據(jù)集中必須有相似的數(shù)據(jù)點。基于這一假設(shè),可以區(qū)分數(shù)據(jù),并且可以找到每個數(shù)據(jù)集(分類)的特征。
4.分類模型。分類算法根據(jù)對已知類型訓練集的測算和剖析,從文中發(fā)掘類型標準,為此分析新統(tǒng)計數(shù)據(jù)類型的類別優(yōu)化算法。分類算法是解決分類問題的一種方法,是數(shù)據(jù)挖掘、機器學習和模式識別的一個重要研究領(lǐng)域。
5.關(guān)聯(lián)模型。關(guān)聯(lián)規(guī)則,是根據(jù)尋找最能解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,在大量多元數(shù)據(jù)集中找到有用的關(guān)聯(lián)規(guī)則。這是一種從大量數(shù)據(jù)中找出各種數(shù)據(jù)之間關(guān)系的方法。此外,它還可以挖掘基于時間序列的各種數(shù)據(jù)之間的關(guān)系。
6.時間序列模型。時間序列是一種用于研究數(shù)據(jù)隨時間變化的算法模型,是一種常用的回歸預(yù)測方法,原則是有關(guān)事物的連續(xù)性。
大數(shù)據(jù)、云計算審計技術(shù)的主要任務(wù)是通過構(gòu)建一個支撐平臺,實現(xiàn)對審計數(shù)據(jù)的分析和處理。云平臺中的審計需要應(yīng)用數(shù)據(jù)挖掘技術(shù),將審計系統(tǒng)和數(shù)據(jù)挖掘技術(shù)結(jié)合起來,找到結(jié)合的突破口。運用數(shù)據(jù)挖掘技術(shù)對被審計單位信息系統(tǒng)在運行過程中產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù)與財務(wù)數(shù)據(jù)進行深入分析,對審計數(shù)據(jù)進行初步挖掘與篩選,形成可疑數(shù)據(jù),運用分析方法以及操作方法,對被審計單位經(jīng)濟活動進行判斷,獲取審計線索。
根據(jù)目前我國大數(shù)據(jù)、云計算審計的實踐,我們有針對性提出以下建議:一是通過線上講座等方式,對審計人員進行培訓,學習大數(shù)據(jù)、云計算審計技術(shù)課程,提高業(yè)內(nèi)人員專業(yè)水平;二是提高審計專用便攜機和服務(wù)器的硬件配置和性能,實現(xiàn)數(shù)據(jù)接口的統(tǒng)一和數(shù)據(jù)標準的規(guī)范化。
為了使大數(shù)據(jù)、云計算審計工作更加規(guī)范,提高審計工作質(zhì)量和效率,實現(xiàn)審計數(shù)據(jù)接口統(tǒng)一,以方便數(shù)據(jù)的讀取、交換和錄入,我國計算機軟件協(xié)會和財政部發(fā)布過接口的標準,但標準化程度的推廣卻不理想,會計數(shù)據(jù)接口類型仍然很多,多種原因疊加形成了如今復雜多樣的審計數(shù)據(jù)接口。對此,我們還需要進一步努力改進。