(博士),,(副教授)
近年來,我國出臺的一系列文件表明:審計監(jiān)督已成為行政監(jiān)督體系中八個獨立的組成部分之一,其職能已基本擴大到了國家治理的全領(lǐng)域(劉家義,2015),并要求實現(xiàn)審計監(jiān)督的全覆蓋。與此同時,審計對象在大數(shù)據(jù)時代所產(chǎn)生的數(shù)據(jù)量日益龐大,其違規(guī)行為日趨隱蔽,國家審計所關(guān)注的體制機制性等重大問題也呈現(xiàn)綜合性特征。
審計職能的擴展和審計對象的新變化對現(xiàn)有的審計數(shù)據(jù)基礎(chǔ)和分析方法提出了新的要求。相關(guān)文件、審計署領(lǐng)導(dǎo)都指出:應(yīng)推進以大數(shù)據(jù)為核心的審計信息化建設(shè),構(gòu)建大數(shù)據(jù)審計工作模式,積極開展審計大數(shù)據(jù)的綜合利用。相關(guān)領(lǐng)域的學(xué)者也認為,大數(shù)據(jù)有助于實現(xiàn)審計監(jiān)督全覆蓋,數(shù)據(jù)綜合分析可以幫助提升揭示審計問題和風(fēng)險的深度與廣度(秦榮生,2014)。各級審計機關(guān)也積極地建立數(shù)據(jù)分析職能部門或?qū)I(yè)分析團隊,如我國審計署2015年成立了電子數(shù)據(jù)審計司。
但是,仍有一些基礎(chǔ)性課題亟待解答。如國家審計需要使用哪些大數(shù)據(jù)?審計大數(shù)據(jù)有無自身特色?現(xiàn)有的大數(shù)據(jù)分析理念和手段能否滿足審計需求,尤其是實現(xiàn)審計大數(shù)據(jù)的綜合分析?對此,一些研究或是傾向于將審計大數(shù)據(jù)等同于大數(shù)據(jù),或是試圖將大數(shù)據(jù)分析技術(shù)直接應(yīng)用于審計實踐。這些都制約了我們深入理解審計大數(shù)據(jù)的本質(zhì),阻礙了審計技術(shù)方法的創(chuàng)新。當前,管理科學(xué)和社會科學(xué)也在探索、甚至在爭論大數(shù)據(jù)如何服務(wù)于社會治理(梁玉成,2014)。但是,現(xiàn)有技術(shù)主要針對互聯(lián)網(wǎng)大數(shù)據(jù),極少開展對多個領(lǐng)域政府大數(shù)據(jù)的綜合分析?,F(xiàn)有的少量實踐也表明,科學(xué)的公共管理需要綜合利用多領(lǐng)域大數(shù)據(jù)和互聯(lián)網(wǎng)等新興媒體中的社會大數(shù)據(jù)。
為此,本文一方面基于學(xué)科視野,從運用大數(shù)據(jù)服務(wù)公共治理相關(guān)領(lǐng)域的最新進展中汲取有益經(jīng)驗,并在相互比較中辨析審計大數(shù)據(jù)研究的特點;另一方面立足審計實踐,結(jié)合國家審計案例和審計調(diào)查結(jié)果,理清審計大數(shù)據(jù)誕生的背景和范圍,進而探究審計大數(shù)據(jù)的特征及其帶來的挑戰(zhàn)。由于整個學(xué)術(shù)界對于大數(shù)據(jù)概念的界定及其影響的探討仍處于爭論與發(fā)展并存的階段,對于審計大數(shù)據(jù)的探討和實踐也必然需要較長的時間才能達成共識,文中觀點僅供國家審計研究者和實踐者參考。
利用大數(shù)據(jù)支撐國家審計并服務(wù)于國家治理,是大數(shù)據(jù)服務(wù)于公共管理的一個子命題。梳理大數(shù)據(jù)服務(wù)公共管理的研究進展,有助于辨析審計大數(shù)據(jù)的特色,并從中汲取有益的經(jīng)驗。
1.大數(shù)據(jù)的特征。近年來,信息技術(shù)以前所未有的廣度和深度記錄了人類社會的方方面面,也對各個領(lǐng)域使用的數(shù)據(jù)基礎(chǔ)、理念和方法產(chǎn)生了重大影響。以信息科學(xué)為代表的自然科學(xué)學(xué)者較早注意到這種變化,提出并倡導(dǎo)大數(shù)據(jù)的理念。雖然不同學(xué)者對大數(shù)據(jù)的界定有所不同,但是一般都認同大數(shù)據(jù)應(yīng)該具備高體量(Volume)、多類型(Variety)、高處理速度(Velocity)和價值密度低(Value)這四種特征中的全部或多數(shù),即4V特征(Victor等,2013)。
管理科學(xué)和社會科學(xué)學(xué)者也注意到大數(shù)據(jù)及其分析方法對于公共管理的精細化、科學(xué)化的重要意義。有別于以往采用的田野調(diào)查、訪談和抽樣資料,大數(shù)據(jù)以更大的范圍、更細的粒度描述對象的行為,其采集過程幾乎不受霍桑效應(yīng)的影響(羅瑋,2015),這被總結(jié)為大數(shù)據(jù)的第五個特征,即真實性(Veracity)。因此,大數(shù)據(jù)被認為能夠更為全面、客觀、真實地描述人類社會的行為。表1總結(jié)了相關(guān)研究中傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)之間的差異。很多學(xué)者認為大數(shù)據(jù)是這些學(xué)科數(shù)據(jù)基礎(chǔ)的重大變革,其對于管理和社會科學(xué)研究的意義,堪比顯微鏡對于化學(xué)的意義(Vindu Goel,2014)。為此,2009年,15名頂級學(xué)者在《Science》雜志發(fā)表論文,正式提出了“計算社會科學(xué)”(Computational Social Science)這一嶄新的研究領(lǐng)域(David Lazer等,2009)。在此之前,我國學(xué)者王飛躍(2005)也提出了與之類似的社會計算(Social Computing)的思想。
表1 傳統(tǒng)調(diào)查統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的對比
2.大數(shù)據(jù)如何服務(wù)于公共管理。目前,對于大數(shù)據(jù)如何服務(wù)于公共管理仍處于探索階段,相關(guān)成果集中在輿情分析、衛(wèi)生、交通等少數(shù)領(lǐng)域。一個代表性應(yīng)用是:Google Flu利用大量用戶在Google搜索引擎中輸入的檢索關(guān)鍵詞監(jiān)測流感的傳播情況,該系統(tǒng)已在美國、荷蘭等多個國家作為公共衛(wèi)生管理的重要手段得到實際應(yīng)用。而以往對流行病的監(jiān)測主要依賴美國疾病控制和預(yù)防中心(CDC)等政府機構(gòu)收集各個醫(yī)療機構(gòu)的診療信息,時效性較差。兩相比較,Google Flu在最初運行階段能夠提前兩周左右就獲得與CDC數(shù)據(jù)相接近的監(jiān)測結(jié)果,大大提高了流感監(jiān)測的時效性。
眾多研究者和以Google Flu為代表的系統(tǒng)都較為重視利用互聯(lián)網(wǎng)大數(shù)據(jù)服務(wù)公共管理,而相對忽視政府部門所掌握的政務(wù)大數(shù)據(jù)。產(chǎn)生這一現(xiàn)象的原因,一方面是此前互聯(lián)網(wǎng)公司和信息技術(shù)人員對互聯(lián)網(wǎng)大數(shù)據(jù)開展了大量的研究,形成了較有活力、更為開放和較成熟的技術(shù)基礎(chǔ);另一方面,政務(wù)大數(shù)據(jù)的獲取較為困難,其實際應(yīng)用效果和技術(shù)分析手段敏感性強,制約了對其的探索。但是,政務(wù)大數(shù)據(jù)對經(jīng)濟運行、社會生活等國家治理問題具有更為重大和直接的影響(鮑靜等,2016)。正如李克強總理所指出的,中國政府部門所掌握的大數(shù)據(jù)占全國數(shù)據(jù)資源的80%。政務(wù)大數(shù)據(jù)也是我國新近發(fā)布的《促進大數(shù)據(jù)發(fā)展行動綱要》關(guān)注的焦點之一,并不應(yīng)當在公共管理中缺席。
3.科學(xué)的公共管理需要綜合利用政務(wù)大數(shù)據(jù)和互聯(lián)網(wǎng)中的社會大數(shù)據(jù)。2014年,《Science》和《Nature》雜志接連發(fā)文指出:Google Flu近期的監(jiān)測結(jié)果高出傳統(tǒng)CDC數(shù)據(jù)近一倍,出現(xiàn)了重大偏差,而其系統(tǒng)性的偏差早已出現(xiàn)。David Lazer等(2014)認為:這不能簡單地認為是媒體宣傳對人類行為的影響,而是反映了互聯(lián)網(wǎng)大數(shù)據(jù)在內(nèi)容、處理方法等方面的內(nèi)在缺欠。這一情況表明:僅僅依靠社會大數(shù)據(jù)就進行公共管理決策,仍然存在較大風(fēng)險。鑒于國家治理的高度復(fù)雜性、公共決策的巨大影響和其效果的不可逆性,在利用社會大數(shù)據(jù)時有必要保持一定的審慎性。
從技術(shù)角度看,對不同領(lǐng)域的大數(shù)據(jù)進行綜合分析的技術(shù)方法也仍然稀缺,且與領(lǐng)域高度相關(guān)?,F(xiàn)有技術(shù)所用的大數(shù)據(jù)或是屬于高度相關(guān)的2~3個領(lǐng)域,集中于社交媒體、交通等少數(shù)領(lǐng)域;或僅針對互聯(lián)網(wǎng)大數(shù)據(jù),而極少出現(xiàn)對多個領(lǐng)域政務(wù)大數(shù)據(jù)的分析。近兩年的一些研究成果有Chen等(2016)利用交通數(shù)據(jù)和GPS記錄,分析人們的移動與交通事故之間的關(guān)系。Wang等(2015)利用投宿登記信息、出租車的GPS軌跡以及公共交通數(shù)據(jù)以分析位移。
綜上,利用大數(shù)據(jù)服務(wù)國家治理是當前各個學(xué)科普遍關(guān)注的前沿課題之一,這決定了審計大數(shù)據(jù)研究的前沿性和挑戰(zhàn)性。對公共管理等相關(guān)領(lǐng)域的探索表明,傳統(tǒng)數(shù)據(jù)、社會大數(shù)據(jù)和政府大數(shù)據(jù)相結(jié)合,才能更好地服務(wù)于公共管理,這一趨勢與國家審計當前的發(fā)展方向一致。但是,這些領(lǐng)域只圍繞與自身相關(guān)的政務(wù)大數(shù)據(jù)展開研究。與之相比,國家審計對象包括各級政府部門、各行業(yè)的國有企事業(yè)單位、領(lǐng)導(dǎo)干部經(jīng)濟責(zé)任等,這就從源頭上決定了審計大數(shù)據(jù)不能局限于單一領(lǐng)域,而應(yīng)側(cè)重于對多領(lǐng)域政務(wù)大數(shù)據(jù)的綜合利用。
相比于其他公共管理領(lǐng)域,審計大數(shù)據(jù)的主要特色在于對眾多領(lǐng)域政務(wù)大數(shù)據(jù)的覆蓋。相比于自身,審計大數(shù)據(jù)是否具有了與以往不同的內(nèi)涵?審計所用數(shù)據(jù)基礎(chǔ)的變化與其他領(lǐng)域相比有何區(qū)別?基于此,本文首先回顧以往對審計數(shù)據(jù)的使用方式,而后再剖析審計大數(shù)據(jù)產(chǎn)生的外在條件和內(nèi)在原因。
1.審計大數(shù)據(jù)是在原有數(shù)據(jù)基礎(chǔ)上的一次拓展。審計案例和實踐都表明,國家審計以往所用的數(shù)據(jù)已經(jīng)初步具備了大數(shù)據(jù)的海量性、多樣性、異構(gòu)性、真實性等關(guān)鍵特征。審計所用數(shù)據(jù)主要源自審計對象,其自身除了少量的審計公告和管理數(shù)據(jù)外,幾乎不產(chǎn)生任何數(shù)據(jù)。在20世紀90年代,相關(guān)審計研究就已經(jīng)開始剖析審計對象所產(chǎn)生的大量數(shù)據(jù)?!吨袊鴮徲嫛肥菍徲媽崉?wù)界比較權(quán)威的一家公開發(fā)表物,本文統(tǒng)計了其2013~2014年發(fā)表的審計案例中的數(shù)據(jù)來源,如表2所示。表2列出的《中國審計》2013~2014年間所公開報道的48個經(jīng)典的審計案例中,有26個案例使用了銀行數(shù)據(jù),銀行數(shù)據(jù)的記錄條數(shù)一般超過億條。在政府性債務(wù)、社保、國土等歷次全國性大型審計項目中,所使用的數(shù)據(jù)也常常超過T級。這些數(shù)據(jù)已經(jīng)基本滿足了大數(shù)據(jù)對數(shù)據(jù)海量性的要求。
國家審計對象的多樣性,決定了審計數(shù)據(jù)的多樣性。不同領(lǐng)域的審計對象產(chǎn)生了內(nèi)容高度差異化的信息,即使是同領(lǐng)域的審計對象也可能使用不同的信息系統(tǒng),從而導(dǎo)致審計數(shù)據(jù)的高度異構(gòu)性。文中異構(gòu)性是指同類型信息在記錄方式(如字節(jié)長度)、數(shù)據(jù)庫設(shè)計模式、數(shù)據(jù)庫版本等方面的差異性。
國家審計也一直強調(diào)數(shù)據(jù)的真實性。在管理、社科等領(lǐng)域中,對數(shù)據(jù)真實性的擔(dān)憂主要源于分析對象可能受到調(diào)查問題、環(huán)境等因素的影響,導(dǎo)致所獲得的數(shù)據(jù)出現(xiàn)偏差。但是,這種偏差很少源于分析對象故意提供的欺騙性信息。與之相比,審計對象卻有充足的理由偽造數(shù)據(jù),以掩蓋違規(guī)行為。因此,“假賬真審”始終是一項重大的審計風(fēng)險。為此,國家審計一直從立法和實踐兩個層面確保審計數(shù)據(jù)的真實性?!秶鴦?wù)院關(guān)于加強審計工作的意見》(國發(fā)[2014]48號文)中規(guī)定:“提供完整準確真實的電子數(shù)據(jù)?!睂徲媽嵺`中,會通過現(xiàn)場核查、數(shù)據(jù)比對等手段遏制數(shù)據(jù)造假。
可見,審計所用數(shù)據(jù)早已超越了統(tǒng)計和抽樣調(diào)查數(shù)據(jù),且以多樣、海量、異構(gòu)、真實的政務(wù)數(shù)據(jù)為主要分析對象,并具備了大數(shù)據(jù)的一些關(guān)鍵特征。從這個角度來看,審計大數(shù)據(jù)應(yīng)該是在原有數(shù)據(jù)基礎(chǔ)上的一次拓展,而不應(yīng)當視為一種顛覆。這與其他領(lǐng)域有著明顯的差異。
2.大數(shù)據(jù)更為全面地記錄了審計對象的信息,為開展更大規(guī)模的審計數(shù)據(jù)利用提供了外在條件。
20世紀九十年代,會計電算化剛剛開始普及。當時,只有審計對象的財務(wù)信息能夠被較為完整地記錄下來,審計數(shù)據(jù)利用的主要任務(wù)就是“打開電子賬”。而后,伴隨著整個國家的信息化進程,審計對象的業(yè)務(wù)、管理信息也被逐漸納入信息化管理;審計數(shù)據(jù)的利用也隨之逐步擴展到業(yè)務(wù)和管理信息。
大數(shù)據(jù)時代,隨著移動互聯(lián)、云計算、物聯(lián)網(wǎng)等技術(shù)的進一步普及,審計對象的信息得到了更為全面的記錄。這種全面性既體現(xiàn)在可以記錄審計對象每時每刻的行為,又體現(xiàn)在這種記錄不僅被審計對象自身所保存,同時也被其他對象所保存。例如,一筆交易的相關(guān)信息既被交易雙方所記錄,也被銀行等金融機構(gòu)、稅務(wù)等監(jiān)管部門所記錄,如果采用了云技術(shù)則數(shù)據(jù)的實際保管者就可能是云存儲服務(wù)商。從這個角度來看,大數(shù)據(jù)時代審計對象的任何行為都將留下電子痕跡,但其數(shù)據(jù)的量級更大、來源更多、非結(jié)構(gòu)化信息更普遍。當審計對象步入大數(shù)據(jù)時代時,國家審計的手段也不能停留在過去,否則最終只會導(dǎo)致新時代的“刀耕火種”,這就對審計數(shù)據(jù)的利用提出了新的要求。
3.審計對象的新變化和審計職能、審計方式的發(fā)展,是提出審計大數(shù)據(jù)的內(nèi)在動因,最終決定了將以何種方式利用審計大數(shù)據(jù)。
表2 《中國審計》2013~2014年發(fā)表的審計案例的分析結(jié)果
(1)審計對象的違規(guī)行為日趨隱蔽和復(fù)雜,合規(guī)性審計所用的數(shù)據(jù)越來越多源化、多樣化。國家審計與審計對象間的博弈始終處于“魔高一尺,道高一丈”的螺旋上升狀態(tài)。現(xiàn)有審計實踐表明,僅僅依靠審計對象自身提供的財務(wù)數(shù)據(jù)早已不能滿足審計需要。很多審計人員感慨:“對會計資料進行逐一審查,未發(fā)現(xiàn)有明顯的違紀違法現(xiàn)象”,“整本賬目上數(shù)字工整清晰,毫無違法違規(guī)現(xiàn)象”(許偉等,2013)。表2的審計案例中,有5個審計案例只使用了財務(wù)數(shù)據(jù),占9.43%,其余90%以上的案例均使用了至少兩個領(lǐng)域的數(shù)據(jù);部分案例還使用了與審計對象存在經(jīng)濟活動往來的其他對象的數(shù)據(jù)。
(2)國家審計日益關(guān)注的體制機制、潛在風(fēng)險、政策效果等重大績效問題均涉及大量的審計對象,并具有高度的綜合性特征,所需數(shù)據(jù)的領(lǐng)域更多、覆蓋范圍也更廣。2013年世界審計組織《北京宣言》指出最高審計機關(guān)在促進良治、提高公共行政效率和效益等方面的作用。劉家義審計長(2012)也指出:國家審計要發(fā)揮在促進改革體制、完善制度、規(guī)范機制方面的作用。雖然國內(nèi)績效審計的探索和審計實踐并不樂觀,但是各方都已經(jīng)認識到在經(jīng)濟社會高度復(fù)雜的現(xiàn)實下,績效審計所關(guān)注的很多重大問題都受到多種因素的綜合影響。這就需要使用多個領(lǐng)域、全國性的大數(shù)據(jù)開展綜合性分析。例如,政府性債務(wù)審計、全國社保資金審計中都將審計數(shù)據(jù)的采集和分析范圍擴大到全國。
(3)審計監(jiān)督的職能正在不斷擴大,黨和國家對審計工作的要求也越來越高。黨的十八屆四中全會和國務(wù)院《關(guān)于加強審計工作的意見》表明,審計監(jiān)督的地位得到了提升,其職能也進一步擴大到國有資源等方面,目前已基本涵蓋了國家治理的全領(lǐng)域,導(dǎo)致審計對象更為廣泛和普遍(劉家義,2015)。尤其是“全覆蓋”要求,使得以往“幾年審一次、一次審幾年”的工作方式已經(jīng)落后,加強審計工作的信息化、自動化水平被普遍認為是破解審計人力短缺的主要手段,其核心是對審計數(shù)據(jù)的有效利用。近三年的全國審計工作會議都提出,以大數(shù)據(jù)為核心的審計信息化建設(shè)是應(yīng)對未來挑戰(zhàn)的重要法寶。
綜上,大數(shù)據(jù)時代提供了審計大數(shù)據(jù)所需的外在條件,國家審計職能的擴展、審計對象的豐富和其行為的日益復(fù)雜化,都要求國家審計在原有審計數(shù)據(jù)的基礎(chǔ)上進一步拓展數(shù)據(jù)的使用范圍、加強對各領(lǐng)域數(shù)據(jù)的綜合利用,使得審計大數(shù)據(jù)的類型、內(nèi)容更為豐富,量級更大,真實性要求更高?;谏鲜龇治觯疚膶徲嫶髷?shù)據(jù)定義為:在大數(shù)據(jù)時代,開展審計監(jiān)督所需的審計對象自身的或與其相關(guān)對象的各類數(shù)據(jù)及其分析手段的統(tǒng)稱。這一界定也指出,討論審計大數(shù)據(jù)時也應(yīng)涵蓋相應(yīng)的大數(shù)據(jù)分析手段。另外,本文將審計大數(shù)據(jù)與原有審計數(shù)據(jù)進行了對比,具體見表3。
表3 審計大數(shù)據(jù)的若干拓展
1.審計大數(shù)據(jù)的范圍。在認清審計大數(shù)據(jù)的特色和內(nèi)涵后,本文進一步界定審計大數(shù)據(jù)的范圍。以往研究多從個別案例和個別領(lǐng)域出發(fā),分析審計數(shù)據(jù)需求情況,并不利于給出審計大數(shù)據(jù)的全貌。相關(guān)實踐也嚴重缺乏理論指導(dǎo),導(dǎo)致一些領(lǐng)域的數(shù)據(jù)被不同審計機關(guān)重復(fù)采集,一些數(shù)據(jù)卻從未被利用。為此,本文針對某審計機構(gòu)的審計數(shù)據(jù)需求進行了調(diào)研,試圖框定審計大數(shù)據(jù)的大致范圍。調(diào)查關(guān)注了不同審計領(lǐng)域所需使用的國務(wù)院79個下屬部委及其機構(gòu)數(shù)據(jù)的情況,見圖1。
圖1 不同審計領(lǐng)域履職所需的國務(wù)院下屬部門情況
圖1依據(jù)調(diào)研結(jié)果給出了各領(lǐng)域?qū)徲嫶髷?shù)據(jù)需求的概貌,無明確審計數(shù)據(jù)需求的國務(wù)院部門未在圖中列示。圖中位于中央的節(jié)點代表某審計領(lǐng)域,上下兩側(cè)的節(jié)點代表某部門,兩類節(jié)點間連邊表明該審計領(lǐng)域需要使用相應(yīng)部門的數(shù)據(jù),實線邊表示已獲取過數(shù)據(jù),虛線邊表示尚未取得數(shù)據(jù)。
可見,審計大數(shù)據(jù)的范圍基本是對各領(lǐng)域政務(wù)大數(shù)據(jù)的全覆蓋,以及與審計對象相關(guān)的社會大數(shù)據(jù)。而且每個審計領(lǐng)域都需要綜合使用不同部門的數(shù)據(jù),如企業(yè)審計需要使用近20個部門的數(shù)據(jù)。這印證了前文的分析。由于審計大數(shù)據(jù)在其數(shù)據(jù)范圍、提出背景等方面的獨特性,審計大數(shù)據(jù)的特征也不應(yīng)當是大數(shù)據(jù)特征的簡單映射。此前,邁爾·舍恩伯格等(2013)將大數(shù)據(jù)及其分析技術(shù)的影響,凝練為大數(shù)據(jù)的三大特征:①全集而不是采樣;②擁抱混雜性,無須精確性;③相關(guān)性,不必有因果性。這一觀點對以互聯(lián)網(wǎng)大數(shù)據(jù)為代表的各個領(lǐng)域的研究都產(chǎn)生了重大影響,也引發(fā)了較大爭議(梁玉成,2014)。但是對于以政務(wù)大數(shù)據(jù)為核心的公共管理和決策領(lǐng)域,其適用性存疑。
2.審計大數(shù)據(jù)的特征。以下結(jié)合大數(shù)據(jù)的三大特征,著重闡釋審計大數(shù)據(jù)的特征:
(1)審計大數(shù)據(jù)對“全體”的界定。審計的分析對象就是審計對象,大數(shù)據(jù)能夠涵蓋分析對象的“全體”。但是,對于審計大數(shù)據(jù)而言,其“全體”不僅指全部審計對象,也包括與審計對象相關(guān)的其他對象的部分數(shù)據(jù)。
審計大數(shù)據(jù)所界定的“全體”之所以大于審計對象的全集,是由兩方面審計需求導(dǎo)致的:一方面,審計對象的違法違紀行為日趨隱蔽、狡猾,利用審計對象自身的數(shù)據(jù)已不足以發(fā)現(xiàn)有價值的審計線索,而必須借助與其存在經(jīng)濟活動往來的其他對象的數(shù)據(jù)。表2中的大量審計案例就利用了相關(guān)部門以及外部對象所掌握的相關(guān)數(shù)據(jù)。另一方面,政策執(zhí)行、體制風(fēng)險等具有綜合性特征的審計目標也需要利用多領(lǐng)域數(shù)據(jù)。如對住房空置率的審計中,就綜合利用了與審計目標直接相關(guān)的售房數(shù)據(jù)與看似相關(guān)度不高的電力數(shù)據(jù)。
圖2給出了審計大數(shù)據(jù)所指“全體”的示意圖及一種典型的審計大數(shù)據(jù)分析策略。由圖可知,審計大數(shù)據(jù)不僅包含審計對象A、B的數(shù)據(jù),也包括對象C所記錄的與A、B有關(guān)的數(shù)據(jù)。通過比對不同對象所掌握的數(shù)據(jù),就可以揭示審計對象很多隱蔽的違規(guī)行為,這已成為實際審計工作中一種重要的數(shù)據(jù)分析手段。例如圖2中從三個不同對象處采集了與審計對象A有關(guān)的數(shù)據(jù),此時A對自身所擁有信息的篡改不僅不能干擾審計工作,反而暴露了其企圖。
圖中實線圓圈中的數(shù)據(jù)為某個對象所有,圓圈中不同區(qū)塊的數(shù)據(jù)為該對象所掌握的與其他對象相關(guān)的數(shù)據(jù)。例如審計對象A除掌握與自身有關(guān)的數(shù)據(jù)外,還掌握與對象B、C、D、E相關(guān)的數(shù)據(jù)。因此在開展對審計對象A的審計時,不僅需要利用A所掌握的全部數(shù)據(jù),還應(yīng)包括B、C所掌握的與A有關(guān)的數(shù)據(jù),圖中用短虛線示意其數(shù)據(jù)范圍。當對象A和B構(gòu)成審計對象的全集時,審計大數(shù)據(jù)的范圍如長虛線所示。
(2)審計大數(shù)據(jù)分析對精確性的要求。由于大數(shù)據(jù)所固有的高噪音特點,導(dǎo)致單一個體的數(shù)據(jù)價值低、大量個體的聚合數(shù)據(jù)價值高。即使是政務(wù)信息系統(tǒng)也會由于建設(shè)歷史、經(jīng)辦人員水平等原因,存在大量的信息缺失和不規(guī)范現(xiàn)象。在這一現(xiàn)實條件下,大數(shù)據(jù)分析技術(shù)只追求一定置信概率下的宏觀準確度。正是這一特征使得很多一線審計人員對大數(shù)據(jù)分析抱有疑慮。
目前的審計工作要求兼顧針對整體的政策跟蹤、體制風(fēng)險審計,和針對個體的合法合規(guī)性審計。在開展針對總體規(guī)律的審計分析時,個體精確性的弱化并不會對結(jié)果產(chǎn)生較大影響。例如筆者前期對參保人待遇調(diào)整績效的分析時,由于使用了239萬人的待遇信息進行測算,因此少量參保人待遇信息的不準確,并不會對宏觀分析結(jié)果產(chǎn)生顛覆性影響。此時,如果苛求每個參保人信息的精確性,將面臨大數(shù)據(jù)所固有的高噪音特征的巨大挑戰(zhàn),反而干擾了分析者對宏觀規(guī)律的把握。但是,在開展針對個體的合法合規(guī)性審計時,精確性的弱化就帶來了巨大的審計風(fēng)險。審計工作流程要求審計人員必須在公布結(jié)果前與審計對象交換意見,這類交流很少是“和風(fēng)細雨”的。仍以參保人待遇信息為例,如果依據(jù)錯誤的待遇信息,指證參保人違規(guī)領(lǐng)取待遇,可以想象這類分析結(jié)果會置審計人員于何種境地,最終將影響審計工作的權(quán)威性。因此,審計大數(shù)據(jù)分析必須依據(jù)審計目標的不同,在個體精確性和宏觀準確度中做出取舍。
(3)審計大數(shù)據(jù)分析對因果關(guān)系的要求。大數(shù)據(jù)分析善于發(fā)現(xiàn)數(shù)據(jù)中潛藏的相關(guān)關(guān)系,而不善于推斷因果關(guān)系。這與現(xiàn)有分析手段的數(shù)學(xué)基礎(chǔ)有關(guān)。以經(jīng)典的“啤酒-尿布”規(guī)則為例,其發(fā)現(xiàn)過程是在對被同時購買的商品進行統(tǒng)計時,如果不同商品被同時購買的頻次高于某一閾值且商品之間滿足一定的條件概率約束,即為有效規(guī)則。由此可以簡單地推算,n件商品可能出現(xiàn)此類規(guī)則的總數(shù)是(2n-n-1)。因此,對大量對象的相關(guān)性分析結(jié)果通常會有幾千條被算法認可的有效規(guī)則,其中固然有真正的知識,但更多的是無意義的垃圾,甚至包括類似“蓖麻子開花導(dǎo)致麻疹病爆發(fā)”之類的荒誕結(jié)論。很多學(xué)者也對大數(shù)據(jù)分析的這一特征頗有詬病(梁玉成,2014)。
與之類似,僅依賴相關(guān)性分析的審計結(jié)果也極難在審計工作中被采納。審計大數(shù)據(jù)分析從相關(guān)走向因果是審計工作的必然要求。這里有兩層含義:一是在專家因果判斷的指導(dǎo)下開展相關(guān)性分析;二是結(jié)合專家經(jīng)驗判定相關(guān)性分析結(jié)果的有效性。事實上,完全脫離專家的大數(shù)據(jù)分析方法并不存在。如筆者此前利用聚類方法分析上市公司財報疑點時,在最初的分析指標選取和最終審計疑點解釋時都需要借助專家經(jīng)驗。
綜上,本文認為審計大數(shù)據(jù)的范圍基本是各領(lǐng)域政務(wù)大數(shù)據(jù)的全集,并拓展到與審計對象相關(guān)的社會大數(shù)據(jù)。本文將審計大數(shù)據(jù)的特征凝煉為:拓展的“全體”,個體和宏觀精確性的取舍,因果指導(dǎo)下的相關(guān)分析。這些特征最終決定了:不宜將以互聯(lián)網(wǎng)大數(shù)據(jù)分析為代表的其他領(lǐng)域的技術(shù)方法簡單地移植到審計大數(shù)據(jù)分析。
構(gòu)建大數(shù)據(jù)審計的工作模式已成為當前國家審計發(fā)展的必經(jīng)之路。但是,審計大數(shù)據(jù)的研究隸屬于當前科學(xué)研究的前沿課題之一。我們不僅缺少成熟的理論指引,更缺乏可靠的實踐經(jīng)驗,將面臨多方面的挑戰(zhàn)。本文現(xiàn)結(jié)合筆者的經(jīng)驗提出一些淺顯的建議。
1.審計大數(shù)據(jù)的采集。審計大數(shù)據(jù)的采集是開展大數(shù)據(jù)利用的前提。隨著《審計法》《審計法實施條例》的頒布執(zhí)行,尤其是《國務(wù)院關(guān)于加強審計工作的意見》的實施,以往審計數(shù)據(jù)采集所面臨的行政阻力將隨之弱化,因此本文著重探討審計大數(shù)據(jù)采集的技術(shù)障礙。
從覆蓋范圍來看,審計大數(shù)據(jù)的采集涵蓋多個領(lǐng)域,一個領(lǐng)域中又包含大量的審計對象,而且這類采集日趨常態(tài)化。例如,2012年全國社保資金審計中,就對社會保障這一大領(lǐng)域中涉及13種資金類別的子領(lǐng)域數(shù)據(jù)進行了全國范圍內(nèi)的采集,涉及審計對象(以參保人計算)十幾億個,處理了3000多個行政區(qū)劃的近千個異構(gòu)信息系統(tǒng)。這明顯有別于以往與審計項目相結(jié)合的針對單一審計對象的數(shù)據(jù)采集工作。傳統(tǒng)的審計數(shù)據(jù)采集傾向于采用全庫備份的采集方式,其優(yōu)勢是數(shù)據(jù)無遺漏,降低了審計風(fēng)險。但是,這種方式明顯不適合對多領(lǐng)域、大量審計對象的數(shù)據(jù)同時進行采集。如何采集數(shù)據(jù)已成為各級審計機關(guān)面臨的迫在眉睫的課題。從技術(shù)角度來看,其關(guān)鍵是破解信息的差異性和異構(gòu)性問題。
數(shù)據(jù)標準已被實踐證明是解決信息差異性和異構(gòu)性的有效途徑。標準化數(shù)據(jù)采集的優(yōu)勢是可以確保不同審計對象所提供的數(shù)據(jù)內(nèi)容統(tǒng)一、格式一致,有效降低了數(shù)據(jù)采集的工作量,也有利于對不同對象的數(shù)據(jù)開展統(tǒng)一分析。但是,任何數(shù)據(jù)標準都不可能涵蓋審計對象的全部數(shù)據(jù),而只能在不同對象的信息差異中追求共性信息,這就決定了數(shù)據(jù)標準必然對信息有所刪減,變相提高了審計風(fēng)險。審計人員應(yīng)該轉(zhuǎn)變“眉毛胡子一把抓”的數(shù)據(jù)采集思路,結(jié)合審計目標,采取“有所取舍”的數(shù)據(jù)標準接口的采集方式。
2.審計大數(shù)據(jù)的整合。審計大數(shù)據(jù)的整合是實現(xiàn)大數(shù)據(jù)利用的基礎(chǔ),所面臨的主要技術(shù)挑戰(zhàn)是同領(lǐng)域數(shù)據(jù)的異構(gòu)性和跨領(lǐng)域數(shù)據(jù)間的壁壘。審計大數(shù)據(jù)的異構(gòu)性使得同一領(lǐng)域的不同信息系統(tǒng)的數(shù)據(jù)之間相互割裂,無法形成良好的數(shù)據(jù)分析基礎(chǔ)。不同領(lǐng)域數(shù)據(jù)的整合路徑更是當前科學(xué)界的前沿課題之一。目前,各級審計機關(guān)現(xiàn)有的審計數(shù)據(jù)中心,不同領(lǐng)域、不同對象的數(shù)據(jù)往往分別存放,即使是同一領(lǐng)域的數(shù)據(jù)之間,其記錄格式、數(shù)據(jù)庫設(shè)計模式也各不相同,不同領(lǐng)域數(shù)據(jù)間的整合更是無從談起。這導(dǎo)致審計分析人員必須成為掌握不同信息系統(tǒng)底層結(jié)構(gòu)的通才,但在實踐中其知識和經(jīng)驗的更新速度也遠遠跟不上大量審計對象信息系統(tǒng)變化的步伐。
該問題的解決需要先利用數(shù)據(jù)標準破解同領(lǐng)域數(shù)據(jù)的差異性問題,而后再給出不同領(lǐng)域數(shù)據(jù)整合的基礎(chǔ)模型。其基本思想類似于異構(gòu)數(shù)據(jù)匹配研究中的全局模式。圖3給出了傳統(tǒng)數(shù)據(jù)整合思路與新思路的對比示意圖,一個形狀代表一種結(jié)構(gòu)或一個領(lǐng)域的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)整合只有通過逐對實現(xiàn)不同格式或領(lǐng)域數(shù)據(jù)間的整合,才能實現(xiàn)全部審計大數(shù)據(jù)的整合。如圖3(a)所示,當我們面臨5個不同領(lǐng)域的數(shù)據(jù)時,依據(jù)傳統(tǒng)的數(shù)據(jù)整合路徑就需要進行10次領(lǐng)域數(shù)據(jù)間的整合,其總工作量隨著領(lǐng)域數(shù)據(jù)的增加而呈現(xiàn)爆炸性的增長,明顯不適合用于眾多政務(wù)領(lǐng)域數(shù)據(jù)的整合。但是,一旦確定了基礎(chǔ)整合模型,就只需要5次領(lǐng)域數(shù)據(jù)間的整合,且其總工作量僅僅隨著領(lǐng)域數(shù)的增加線性增長,如圖3(b)所示。同領(lǐng)域異構(gòu)數(shù)據(jù)的整合思路也與之類似。
圖3 異構(gòu)或不同領(lǐng)域數(shù)據(jù)整合的不同思路對比
3.審計大數(shù)據(jù)的分析手段。審計大數(shù)據(jù)因其量大、多樣,而對分析技術(shù)提出了更高的要求。以往的計算機審計手段主要以關(guān)系數(shù)據(jù)庫為基礎(chǔ),采用SQL語句、多維分析等手段展開分析,其數(shù)學(xué)基礎(chǔ)為關(guān)系代數(shù)。這類手段在分析審計大數(shù)據(jù)時存在三類缺欠:①不適合分析非結(jié)構(gòu)化數(shù)據(jù);②不適合分析因?qū)徲媽ο箝g的互動性行為所形成的網(wǎng)絡(luò)關(guān)系;③SQL語句本質(zhì)上是審計人員已有知識的表達,不善于發(fā)現(xiàn)以往所不知曉的知識。
因此,面向非結(jié)構(gòu)化信息、面向?qū)ο箝g網(wǎng)狀關(guān)系的智能分析方法是未來審計技術(shù)創(chuàng)新的重要方向(趙琛,2016)。圖4以投資關(guān)系、業(yè)務(wù)往來、資金往來三種重要的審計對象間關(guān)系為例,給出了對象間網(wǎng)狀關(guān)系分析方法的一個示例。圖中用Ci編號的節(jié)點代表一家企業(yè)、用Pj編號的節(jié)點代表一個自然人、不同網(wǎng)絡(luò)間通過虛線連接的節(jié)點表示其對應(yīng)同一個審計對象。一般而言,社會網(wǎng)絡(luò)是表達大量對象間的互動性關(guān)系的重要范式,圖4中的示例就利用社會網(wǎng)絡(luò)方法,給出了跨領(lǐng)域?qū)ο箝g的關(guān)系,即給出了同一領(lǐng)域中審計對象間的關(guān)系,例如基于工商數(shù)據(jù)的對象間投資關(guān)系,也給出了對象間在不同領(lǐng)域中的多重而復(fù)雜的關(guān)系,如企業(yè)C1和C3之間同時存在直接的投資和業(yè)務(wù)往來關(guān)系以及通過C2和P1而間接存在的資金往來關(guān)系。這非常有利于發(fā)現(xiàn)審計對象依賴其社會關(guān)系網(wǎng)所開展的隱蔽性違規(guī)行為。筆者參與開發(fā)的這類審計分析工具也已經(jīng)開始在審計實踐中得到應(yīng)用,并得到公開報道。
圖4 審計對象間社會網(wǎng)絡(luò)關(guān)系
4.審計大數(shù)據(jù)的人才隊伍。創(chuàng)新的關(guān)鍵是人才。20世紀90年代,審計數(shù)據(jù)在由紙質(zhì)賬簿向電子賬簿轉(zhuǎn)變的過程中,審計人員面臨著喪失審計資格的威脅,大數(shù)據(jù)時代的審計研究者和實踐者也面臨著類似的理念與方法變革。從審計數(shù)據(jù)分析理念來看,針對一時、一地、一個對象的傳統(tǒng)審計方式,已不能滿足當前審計全覆蓋和針對體制、政策的審計任務(wù)要求。實現(xiàn)這些任務(wù)需要對海量審計對象開展歷時性、全局性、綜合性的分析。一種“立足微觀、面向宏觀”“不苛求個體精確性,擁抱統(tǒng)計準確率”的審計理念或許是對審計大數(shù)據(jù)時代最好的回應(yīng)。從審計數(shù)據(jù)分析方法來看,本文已經(jīng)指出傳統(tǒng)的審計數(shù)據(jù)采集、整合和分析只是當前歷史背景下針對一個對象、小規(guī)模數(shù)據(jù)的產(chǎn)物,并不適應(yīng)以多對象、跨領(lǐng)域、巨量數(shù)據(jù)為代表的大數(shù)據(jù)時代。
在人才隊伍的建設(shè)中,急需破除門戶之見,建立“政產(chǎn)學(xué)研用”多方面的人才培養(yǎng)體系。與其他學(xué)科相類似,審計大數(shù)據(jù)研究也具有跨學(xué)科創(chuàng)新性、理論與實踐相結(jié)合的特點。對于審計大數(shù)據(jù)的探索也需要審計、計算機、政策科學(xué)等諸多學(xué)科學(xué)者的協(xié)同創(chuàng)新。在以往的研究中,高??蒲性核膶W(xué)者極難接觸真實的、多領(lǐng)域的審計大數(shù)據(jù),導(dǎo)致相關(guān)成果“不接地氣”;審計人員則受限于繁重的審計任務(wù),無暇跟蹤前沿進展、很難將個體經(jīng)驗?zāi)殲橐?guī)律總結(jié)。只有建立融合不同領(lǐng)域、不同專長的人才隊伍,才能破解審計大數(shù)據(jù)的挑戰(zhàn)。需要認識到,審計大數(shù)據(jù)研究所面臨的問題是當前前沿科學(xué)問題的具體體現(xiàn),很難依賴少量的審計人員獨立解決。應(yīng)當在安全、保密的前提下,打開大門,歡迎社會力量尤其是科研和信息廠商參與到審計大數(shù)據(jù)研究中。
劉家義.國家治理現(xiàn)代化進程中的國家審計:制度保障與實踐邏輯[J].中國社會科學(xué),2015(9).
秦榮生.大數(shù)據(jù)、云計算技術(shù)對審計的影響研究[J].審計研究,2014(6).
隋學(xué)深,奚冬梅.國家審計與國家治理哲學(xué)關(guān)系辨析[J].審計月刊,2014(8).
David Lazer et al..The parable of Google Flu traps in big data analysis[J].Science,2014(343).
梁玉成.大數(shù)據(jù)不能代替理性思考[N].社會科學(xué)報,2015-02-12.
Declan Butler.When Google got flu wrong[J].Nature,2013(494).
David Lazer et al..Computational social science[J].Science,2009(323).
鮑靜,賈凌民等.我國政府數(shù)據(jù)開放頂層設(shè)計研究[J].中國行政管理,2016(11).
羅瑋,羅教講.新計算社會學(xué):大數(shù)據(jù)時代的社會學(xué)研究[J].社會學(xué)研究,2015(3).
許偉,雷玥.狼狽為奸終現(xiàn)形[J].中國審計,2013(24).
劉家義.論國家治理與國家審計[J].中國社會科學(xué),2012(6).
劉家義.中國特色社會主義審計理論研究[M].北京:中國時代經(jīng)濟出版社,2015.
宋常,胡家俊,陳宋生.關(guān)于績效審計研究的新思考[J].審計與經(jīng)濟研究,2006(1).
維克托·邁爾·舍恩伯格,肯尼思·庫克耶著.盛楊燕,周濤譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
Jiawei Han,Micheline Kamber著.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)(第2版)[M].北京:機械工業(yè)出版社,2006.
邱玉慧,呂天陽,楊蘊毅.基于大數(shù)據(jù)的企業(yè)基本養(yǎng)老保險待遇調(diào)整績效審計分析——以X省為例[J].審計研究,2014(3).
趙琛.審計對象關(guān)系網(wǎng)絡(luò)構(gòu)建方法研究[J].審計研究,2016(6).
楊蘊毅,孫中和,盧靖.基于迭代式聚類的審計疑點發(fā)現(xiàn)——以上市公司財報數(shù)據(jù)為例[J].審計研究,2015(4).
王飛躍.社會計算——科學(xué)、技術(shù)與人文的數(shù)字化動態(tài)交融[J].中國基礎(chǔ)科學(xué),2005(5).
呂天陽,邱玉慧,楊蘊毅.社會保險數(shù)據(jù)碎片化現(xiàn)狀分析——基于對A省11種基金的調(diào)研[J].社會保障研究,2015(4).
審計署蘭州特派辦理論研究會課題組.大型審計項目組織方式的實踐經(jīng)驗和創(chuàng)新思路[J].審計研究,2015(2).