[摘 要] 大數(shù)據(jù)時(shí)代的到來,給國(guó)家審計(jì)模式、取證方法等方面都帶來一定程度的改變,大數(shù)據(jù)審計(jì)也因此應(yīng)運(yùn)而生。研究?jī)?nèi)容旨在從數(shù)據(jù)可視化角度出發(fā),以專門將統(tǒng)計(jì)計(jì)算與繪圖功能集于一身的R作為分析工具,探索其在分析數(shù)據(jù)時(shí)的原理、優(yōu)勢(shì),以及R在審計(jì)領(lǐng)域應(yīng)用的可行性,為審計(jì)人員更直觀、便利地分析數(shù)據(jù)提供基礎(chǔ)的理論參考。
[關(guān)鍵詞] 大數(shù)據(jù);大數(shù)據(jù)審計(jì);數(shù)據(jù)可視化;R
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 022
[中圖分類號(hào)] F239.1 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2016)21- 0046- 04
0 引 言
隨著信息技術(shù)的發(fā)展,大數(shù)據(jù)(Big Data)時(shí)代的到來為大數(shù)據(jù)審計(jì)的開展帶來了機(jī)遇和挑戰(zhàn)。因?yàn)殡S著被審計(jì)單位信息化的日益普及,審計(jì)對(duì)象的信息化使得審計(jì)信息化成為必然,審計(jì)信息化對(duì)審計(jì)人員和審計(jì)工作的開展也因此提出了更高的要求。對(duì)我國(guó)來說,在信息化環(huán)境下如何審計(jì)被審計(jì)單位的電子數(shù)據(jù),發(fā)現(xiàn)大案、要案,是國(guó)家審計(jì)的一項(xiàng)重要任務(wù)。本文將通過研究R分析數(shù)據(jù)時(shí)的原理,同時(shí)與其他分析工具進(jìn)行比較,總結(jié)R自身特點(diǎn)以及優(yōu)勢(shì),探究R在實(shí)施大數(shù)據(jù)審計(jì)中的實(shí)際應(yīng)用價(jià)值,為審計(jì)人員更直觀地分析大數(shù)據(jù)提供支持。
1 大數(shù)據(jù)審計(jì)的主要技術(shù)方法
1.1 大數(shù)據(jù)技術(shù)的分類
由于信息化水平的提高,國(guó)家審計(jì)人員能否獲得審計(jì)線索越來越依賴于他們所接觸到的被審計(jì)單位數(shù)據(jù),因?yàn)樵诜治鰯?shù)據(jù)過程中,審計(jì)人員通過對(duì)數(shù)據(jù)的篩查、比對(duì)和分析,可以通過發(fā)現(xiàn)明顯不同尋常的數(shù)據(jù)或分析數(shù)據(jù)之間的相關(guān)關(guān)系,進(jìn)而獲得審計(jì)線索或確立審計(jì)重點(diǎn),而因此提高審計(jì)效率效果。而相關(guān)審計(jì)線索的獲得依賴于大數(shù)據(jù)技術(shù)的應(yīng)用??偟膩碚f,大數(shù)據(jù)技術(shù)主要分為8類:數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測(cè)以及結(jié)果呈現(xiàn)。
而按照不同的計(jì)算模式,大數(shù)據(jù)技術(shù)又可以以批處理、流處理以及交互分析分為三類。
1.1.1 離線批處理(Batch Processing)技術(shù)
批處理是指數(shù)據(jù)分析者將一批作業(yè)提交給操作系統(tǒng)后就不再干預(yù),由操作系統(tǒng)控制它們自動(dòng)運(yùn)行。這類數(shù)據(jù)處理技術(shù)以MapReduce和Hadoop系統(tǒng)為代表。
1.1.2 實(shí)時(shí)流處理(Stream Processing)技術(shù)
流處理是應(yīng)對(duì)流數(shù)據(jù)(大多是日志流)實(shí)時(shí)分析的數(shù)據(jù)處理模式,包括數(shù)據(jù)實(shí)時(shí)采集到數(shù)據(jù)實(shí)時(shí)計(jì)算,以及最終實(shí)現(xiàn)實(shí)時(shí)查詢服務(wù)三個(gè)階段,代表系統(tǒng)有Yahoo的S4系統(tǒng)、Twitter的Storm系統(tǒng)等。
1.1.3 交互式分析(Interactive Analysis)技術(shù)
應(yīng)用交互式分析技術(shù)可允許使用者以圖表的方式查詢、比較以及分析數(shù)據(jù),方便數(shù)據(jù)使用者更直觀地獲取數(shù)據(jù)所傳達(dá)的信息,具有前瞻性,以谷歌的Dremel系統(tǒng)、R等為代表。
大數(shù)據(jù)技術(shù)眾多,大數(shù)據(jù)分析工具更是不勝枚舉。本文旨在針對(duì)大數(shù)據(jù)可視化技術(shù),對(duì)R語言的原理、特點(diǎn)等進(jìn)行分析,特別是探索其在審計(jì)領(lǐng)域中對(duì)數(shù)據(jù)可視化方面的實(shí)際應(yīng)用價(jià)值。
眾所周知,伴隨著信息化水平的不斷提高,大數(shù)據(jù)時(shí)代的不可逆轉(zhuǎn),審計(jì)人員面對(duì)著日益龐雜的數(shù)據(jù),如何從已獲得的原始數(shù)據(jù)中提煉分析其背后隱藏的信息,獲得所需要的審計(jì)證據(jù),這成為當(dāng)今審計(jì)工作的熱議話題。包括筆者有幸參與的審計(jì)署駐濟(jì)南特派員辦事處的審計(jì)工作中,在開展審計(jì)項(xiàng)目時(shí),審計(jì)項(xiàng)目組會(huì)成立專門的數(shù)據(jù)分析組,同時(shí)審計(jì)人員都首先從數(shù)據(jù)分析過程中查找問題,并因此作為審計(jì)線索或確立審計(jì)重點(diǎn),為后續(xù)的審計(jì)工作樹立了更明確的目標(biāo)。
可視化技術(shù)是大數(shù)據(jù)應(yīng)用的重點(diǎn)之一。研究表明,人類從外界獲得的信息約有80%以上來自于視覺系統(tǒng),當(dāng)大數(shù)據(jù)以圖形的方式直觀地呈現(xiàn)在審計(jì)人員面前時(shí),無論從審計(jì)效率還是審計(jì)效果角度來說,二者都得到進(jìn)一步的提高,可視化審計(jì)分析方式能夠以其直觀的展現(xiàn)方式幫助審計(jì)人員快速有效地交互分析大量的數(shù)據(jù),所提供的洞察力有助于審計(jì)人員更快、更準(zhǔn)確地從復(fù)雜的被審計(jì)數(shù)據(jù)中發(fā)現(xiàn)審計(jì)線索。
2 R語言的原理、特點(diǎn)及其優(yōu)勢(shì)
2.1 R語言進(jìn)行數(shù)據(jù)分析的原理
R(官網(wǎng):http://www.r-project.org)是S語言(S語言是由ATT?貝爾實(shí)驗(yàn)室開發(fā)的一種用來進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析、作圖的解釋型語言)的一種實(shí)現(xiàn),最初S語言的實(shí)現(xiàn)版本主要是S-PLUS,但S-PLUS作為一種商業(yè)統(tǒng)計(jì)軟件,因其昂貴的價(jià)格并不被廣泛接受。后來由Auckland大學(xué)的Robert Gentleman和Ross Ihaka及其他志愿者開發(fā)出R語言,作為S語言的另一種實(shí)現(xiàn)并免費(fèi)供數(shù)據(jù)分析者使用共享。此外,R作為軟件包統(tǒng)計(jì)軟件,目前已包含多達(dá)5 000+的包(packages)供使用者選擇運(yùn)行不同功能。同時(shí)任何人都可以在R平臺(tái)開發(fā)包,提交給R語言官方,通過測(cè)試后便可發(fā)布網(wǎng)絡(luò)供全球的R語言使用者分享。包的功能包羅萬象,涵蓋數(shù)學(xué)算法、數(shù)據(jù)挖掘、生物學(xué)、社會(huì)學(xué)、神經(jīng)網(wǎng)絡(luò)等不同領(lǐng)域,可在鏡像(CRAN)上根據(jù)需要自行下載使用,CRAN除了可以下載R本身軟件包以外,也可以下載各種擴(kuò)展包。
圖1描述了數(shù)據(jù)分析的基本流程以及各個(gè)環(huán)節(jié)所需的基礎(chǔ)技術(shù)方法,以圖示箭頭方向,首先通過對(duì)原始數(shù)據(jù)的獲取,儲(chǔ)存至數(shù)據(jù)倉庫或者數(shù)據(jù)集市(指規(guī)模較小的數(shù)據(jù)倉庫)中,之后利用統(tǒng)計(jì)學(xué)、查詢等分析方法,進(jìn)行數(shù)據(jù)挖掘,獲取重要信息,展現(xiàn)最終結(jié)果,比如可視化技術(shù)的應(yīng)用,以圖表或者報(bào)表的呈現(xiàn)方式供信息使用者進(jìn)行分析決策。而數(shù)據(jù)分析與數(shù)據(jù)挖掘的最大區(qū)別在于:前者所應(yīng)用的統(tǒng)計(jì)學(xué)方法清楚,分析目標(biāo)比較明確,而后者因?yàn)槠淠繕?biāo)、技術(shù)、手段等的模糊而增大了處理難度。
R進(jìn)行數(shù)據(jù)分析時(shí),主要涉及圖1中,數(shù)據(jù)分析—數(shù)據(jù)挖掘—數(shù)據(jù)展示三個(gè)步驟。在進(jìn)入大數(shù)據(jù)時(shí)代的今天,R能將其分析結(jié)果通過圖形方式展現(xiàn),因其強(qiáng)大的數(shù)據(jù)可視化功能而備受關(guān)注。
2.2 R語言的特點(diǎn)及其處理大數(shù)據(jù)的優(yōu)勢(shì)
在2016年第17屆KDNuggets網(wǎng)站(數(shù)據(jù)挖掘的專業(yè)網(wǎng)站,專門用于大數(shù)據(jù)、數(shù)據(jù)挖掘以及分析信息等方面知識(shí)共享)年度投票選舉最佳數(shù)據(jù)分析軟件中,所拋出的一個(gè)問題:在過去的12個(gè)月中,你所使用的用于數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等項(xiàng)目的分析工具是什么?該項(xiàng)投票吸引了很多參與者,包括數(shù)據(jù)分析和數(shù)據(jù)挖掘等社區(qū)網(wǎng)站的學(xué)者專家以及一些軟件供應(yīng)商等,參與的2 895人將從多達(dá)102種不同軟件的列表中選出他們所青睞使用的工具。相比較Python、SQL、Excel等常用統(tǒng)計(jì)軟件,R以49%的投票結(jié)果高居榜首,2015年KDNuggets網(wǎng)站投票結(jié)果中,R同樣成為最受青睞的數(shù)據(jù)分析工具。
雖然選取的參與人群或者選取規(guī)??赡茉谝欢ǔ潭壬嫌惺H,但其投票結(jié)果畢竟代表了在數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域的分析工具的不同流行程度,尤其在語言角度代表了某一人群的使用偏好。從投票結(jié)果來看,R以大比重的優(yōu)勢(shì)穩(wěn)居第一,與其強(qiáng)大的數(shù)據(jù)分析以及數(shù)據(jù)可視化能力是分不開的。
大數(shù)據(jù)時(shí)代,海量的政府服務(wù)數(shù)據(jù)在云端匯集,層出不窮的大數(shù)據(jù)使得審計(jì)人員在開展審計(jì)工作時(shí)很容易就陷入信息盲區(qū)。如何有效處理和理解這些數(shù)據(jù),成為人們無法回避的挑戰(zhàn)之一。目前市場(chǎng)上存在各種挖掘軟件,主流的商用挖掘工具如Unica、SAS/EM、Insightful Miner、IBM IM和SPSS等,這些軟件面向通用挖掘問題,功能較為完善,具備較好的性能。但一般都存在可擴(kuò)展性不強(qiáng)、成本較高等缺點(diǎn)。同時(shí),目前市場(chǎng)上也還沒有針對(duì)審計(jì)專用的可視化數(shù)據(jù)分析軟件,當(dāng)前可視化數(shù)據(jù)分析軟件往往側(cè)重于具體的應(yīng)用領(lǐng)域。比如Excel操作簡(jiǎn)單,提供了基本二維圖形分析能力,但能處理的數(shù)據(jù)量有限。而R軟件是一款集成了數(shù)據(jù)操作、統(tǒng)計(jì)和可視化功能的優(yōu)秀開源軟件,有效克服了商用數(shù)據(jù)挖掘工具的缺點(diǎn),同時(shí)具備強(qiáng)大的數(shù)據(jù)可視展現(xiàn)能力。R軟件的一大優(yōu)勢(shì)是分析人員可利用簡(jiǎn)單的R程序語言描述處理過程,構(gòu)建強(qiáng)大的分析功能,并應(yīng)用其可視化技術(shù)以更直觀地方式展示分析結(jié)果??偨Y(jié)來說,R具備以下特征:
(1)R是完全免費(fèi)的共享資源。由于日前數(shù)據(jù)的急速膨脹,對(duì)數(shù)據(jù)分析工具的需求也隨之增長(zhǎng),但市場(chǎng)上一些商業(yè)軟件由于其高昂的價(jià)格常常讓許多數(shù)據(jù)分析者望而卻步。R語言作為免費(fèi)資源,同時(shí)以其強(qiáng)大的數(shù)據(jù)分析以及圖表展現(xiàn)的強(qiáng)大功能而廣受好評(píng);
(2)R 軟件有RGui和RStudio兩種不同的常用界面,足以滿足不同數(shù)據(jù)分析者的使用偏好。與RGui比較而言,RStudio的使用界面相對(duì)較為友好,使用也較為方便,而RGui界面則較為精簡(jiǎn),使用者能夠依據(jù)自身喜好進(jìn)行不同選擇。
(3)R的軟件包短小精悍,R只需占50Mb左右的內(nèi)存,相比之下,很多商業(yè)統(tǒng)計(jì)軟件都非常龐大,下載有2-3G之大,占較多內(nèi)存空間的同時(shí),給系統(tǒng)運(yùn)行也帶來一定負(fù)荷。
(4)R作為開源軟件,開放性好,此外,R與其他程序的兼容性也非常理想。比如,使用者可通過C語言、Java開發(fā)R的一些子程序,這些子程序又可在R里面無障礙運(yùn)行。同時(shí),R的開放性也反映在具有不同功能的包上,比如目前同樣使用廣泛的具有強(qiáng)大查詢功能的SQL語句,對(duì)于有SQL背景的R語言學(xué)習(xí)者而言,R的sqldf包可幫助使用者在R中使用SQL命令。此外,R的函數(shù)和各種包的透明性極好,使用者只需調(diào)出各種包的使用說明,便可掌握該包的基礎(chǔ)運(yùn)行操作。
(5)作為本就專門為統(tǒng)計(jì)和數(shù)據(jù)分析目的而開發(fā)的R軟件,除了具備各種強(qiáng)大的不同功能的包以及函數(shù)幫助運(yùn)行程序進(jìn)行數(shù)據(jù)分析之外,R還可繪出很多漂亮且靈活的圖形,具備強(qiáng)大的可視化功能,為便利使用者更直觀地分析數(shù)據(jù)。
R的可視化功能強(qiáng)大源于其擁有眾多的繪圖軟件包,比如被廣泛接受且使用的“ggplot2”包?!癵gplot2”由一系列獨(dú)立的圖形部件組成,并能以多種不同的方式進(jìn)行組合,這使得“ggplot2”不會(huì)局限于一些已經(jīng)定義好的統(tǒng)計(jì)圖形,而是可以根據(jù)使用者不同的需要量身定做。在具備繪制很多美觀的圖形之外,“ggplot2”還可以避免諸多繁瑣的細(xì)節(jié),例如添加圖例等。用“ggplot2”繪圖時(shí),圖形的每個(gè)部分可以依次進(jìn)行構(gòu)建,之后還可以進(jìn)行編輯。此外,“ggplot2”還精心挑選了一系列預(yù)設(shè)圖形,因此在大部分的情形下使用者可以快速地繪制出許多高質(zhì)量的圖形。如果在格式上還有額外的需求,也可以利用“ggplot2”中的主題系統(tǒng)進(jìn)行定制。R因其功能強(qiáng)大、設(shè)計(jì)人性化的軟件包,使得R在實(shí)際應(yīng)用中作為數(shù)據(jù)可視化的工具越來越被數(shù)據(jù)分析者所廣泛認(rèn)同及青睞。
在數(shù)據(jù)日益龐雜的今天,審計(jì)領(lǐng)域也受到大數(shù)據(jù)的沖擊。如果審計(jì)人員掌握數(shù)據(jù)可視化技術(shù),從視覺角度直觀感知,利用圖形展現(xiàn)數(shù)據(jù)之間相關(guān)關(guān)系,更能做到對(duì)獲取的數(shù)據(jù)一個(gè)整體、宏觀的把握。而R語言就作為一門專門用于統(tǒng)計(jì)計(jì)算和作圖的工具,能夠滿足審計(jì)人員對(duì)于數(shù)據(jù)分析的諸多基礎(chǔ)預(yù)期。通過R的數(shù)據(jù)可視化處理技術(shù)可將被審計(jì)數(shù)據(jù)轉(zhuǎn)化為審計(jì)人員可以分析觀察的圖形和圖像,同時(shí)審計(jì)人員再結(jié)合自己的審計(jì)背景知識(shí),通過視覺系統(tǒng)對(duì)可視化的圖形和圖像進(jìn)行分析、觀察和認(rèn)知,從而從總體上系統(tǒng)地理解和分析被審計(jì)數(shù)據(jù)的內(nèi)涵和特征。另外,審計(jì)人員交互地改變輸出的可視化圖形和圖像,從不同的方面獲得對(duì)被審計(jì)數(shù)據(jù)的理解,從而全面地分析被審計(jì)數(shù)據(jù)。
3 結(jié) 語
由于經(jīng)濟(jì)社會(huì)的不斷發(fā)展,數(shù)據(jù)可視化技術(shù)的優(yōu)勢(shì)及其需求被不斷放大,同樣,在審計(jì)領(lǐng)域,也越來越受到國(guó)家審計(jì)的高度重視。筆者在參與的多個(gè)審計(jì)署視頻會(huì)議以及工作培訓(xùn)中,培訓(xùn)中都談到R語言在可視化方面所創(chuàng)造的巨大價(jià)值,在實(shí)際審計(jì)應(yīng)用工作中,審計(jì)人員通過R語言建模,對(duì)數(shù)據(jù)分析結(jié)果所繪制出的精美圖形,足以讓人眼前一亮,審計(jì)線索也更加清晰明了,無疑給審計(jì)工作的開展提供了強(qiáng)有力的支持。當(dāng)然,R語言擁有眾多其他統(tǒng)計(jì)軟件無法匹及的優(yōu)勢(shì)之外,也有自身固有的缺陷,但它與其他工具之間良好的兼容性足以彌補(bǔ)這些不足,而且R獨(dú)特且堪稱完美的數(shù)據(jù)可視化功能也足以使其成為數(shù)據(jù)分析者青睞的理由。雖然,日前R語言應(yīng)用于審計(jì)實(shí)踐的案例還不是很多,但有理由相信,它完全可以憑借其勢(shì)不可當(dāng)?shù)膬?yōu)勢(shì)在審計(jì)行業(yè)中得到越來越多的推廣與使用。
主要參考文獻(xiàn)
[1]陳偉.計(jì)算機(jī)輔助審計(jì)原理及應(yīng)用[M].北京:清華大學(xué)出版社,2016.
[2]陳明奇.大數(shù)據(jù)國(guó)家發(fā)展戰(zhàn)略呼之欲出——中美兩國(guó)大數(shù)據(jù)發(fā)展戰(zhàn)略對(duì)比分析[J].人民論壇,2013(15):28-29.
[3]張卓,宣蕾,郝樹勇.可視化技術(shù)研究與比較[J].軟件學(xué)報(bào),2003(10):1717-1727.
[4]任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014(9):1909-1936.
[5]陳偉,SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計(jì):機(jī)遇、挑戰(zhàn)與方法[J].計(jì)算機(jī)科學(xué),2016(1):8-13.