曾堯
【摘 要】目前,我國(guó)審計(jì)領(lǐng)域的大數(shù)據(jù)技術(shù)和方法僅停留在理論上的呼吁與倡導(dǎo)層面,社會(huì)審計(jì)亟待運(yùn)用科學(xué)的大數(shù)據(jù)分析方法創(chuàng)新現(xiàn)有審計(jì)分析思維,以適應(yīng)海量數(shù)據(jù)的持續(xù)增長(zhǎng)。文章應(yīng)用最流行的大數(shù)據(jù)分析語言和成熟的統(tǒng)計(jì)分析、數(shù)據(jù)挖掘算法,為審計(jì)業(yè)務(wù)部門提供探索性的數(shù)據(jù)分析思路,為審計(jì)數(shù)據(jù)分析的拓展做出貢獻(xiàn)。
【關(guān)鍵詞】統(tǒng)計(jì)模型;大數(shù)據(jù);數(shù)據(jù)可視化
【中圖分類號(hào)】F239 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2018)07-0033-03
1 目的和意義
伴隨國(guó)家審計(jì)大數(shù)據(jù)的逐漸形成,傳統(tǒng)審計(jì)的思維方式和數(shù)據(jù)分析方法成為現(xiàn)出效率低、范圍窄的弊端,探索大數(shù)據(jù)環(huán)境下的審計(jì)方法已是當(dāng)務(wù)之急。隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的不斷推廣,全球社會(huì)經(jīng)濟(jì)發(fā)展迎來了新機(jī)遇和新挑戰(zhàn),大數(shù)據(jù)時(shí)代的來臨,不僅是體量的擴(kuò)充,更是數(shù)據(jù)思維的轉(zhuǎn)變,面對(duì)因數(shù)據(jù)思維轉(zhuǎn)變所帶來的分析模式及分析要求的變化,審計(jì)人員需應(yīng)時(shí)而變以適應(yīng)大數(shù)據(jù)導(dǎo)致的新變革。
2 使用的軟件及研究方法介紹
本文主要使用R語言處理數(shù)據(jù)。一方面,由于被審計(jì)單位多樣,數(shù)據(jù)標(biāo)準(zhǔn)不一,所以審計(jì)人員必須做大量的數(shù)據(jù)處理和清洗工作(統(tǒng)稱審計(jì)預(yù)處理),而R語言對(duì)數(shù)據(jù)處理的強(qiáng)大性能可以滿足多樣的審計(jì)預(yù)處理需求。此外,審計(jì)預(yù)處理往往需要多個(gè)步驟,審計(jì)人員在數(shù)據(jù)庫中保存為中間表的傳統(tǒng)做法對(duì)大數(shù)據(jù)表進(jìn)行操作時(shí),不僅占用存儲(chǔ)空間,效率也較低,而R語言可以通過多種形式靈活保存中間結(jié)果,十分快捷、方便。另一方面,R語言具備強(qiáng)大的數(shù)據(jù)可視化功能,被公認(rèn)為行業(yè)中的佼佼者,可以滿足一般圖形展示要求。對(duì)于高級(jí)數(shù)據(jù)圖形展示,會(huì)用到gplot2數(shù)據(jù)包,其理念是將繪圖與數(shù)據(jù)分離,以圖層作圖的理念,并把常見的統(tǒng)計(jì)變換融入繪圖中,可以創(chuàng)建優(yōu)雅、信息豐富、定制化的圖形。
3 樣本的選擇實(shí)證分析
3.1 對(duì)A市高速公路數(shù)據(jù)的描述
通過對(duì)A市高速現(xiàn)場(chǎng)的各個(gè)路口采樣,我們對(duì)A市高速公路的各個(gè)收費(fèi)站出現(xiàn)的問題數(shù)進(jìn)行分類與匯總,首先繪制箱線圖(如圖1所示),直觀明了地表明在某一方面表現(xiàn)極其異常的收費(fèi)站名稱。其次可以將各收費(fèi)站按照其所屬中心進(jìn)行匯總,繪制星圖,不僅可以觀察與比較各個(gè)所屬中心的表現(xiàn)情況,還可以直觀地看到各個(gè)所屬中心在不同問題方面的表現(xiàn)情況。此外,對(duì)于不同貨車車型在不同時(shí)間段內(nèi)的超限比率進(jìn)行分析時(shí),我們也可以使用箱線圖(如圖2所示)。
由圖1可知,該收費(fèi)站在入口大客車出口變小客車問題上極為異常,需要重點(diǎn)檢查與加強(qiáng)管理。由圖2的雷達(dá)圖我們可以直觀地了解到所屬中心為1號(hào)、4號(hào)、10號(hào)、18號(hào)、19號(hào)、22號(hào)、24號(hào)、28號(hào)、30號(hào)、40號(hào)、50號(hào)的問題很少,而26號(hào)問題最多,具體又可以表現(xiàn)為入口貨車出口變客車、車型貨車變客車及車型大客車變小客車問題較為嚴(yán)重,23號(hào)所屬中心只是入口貨車出口變客車問題嚴(yán)重。
對(duì)24個(gè)行車時(shí)段進(jìn)行了聚合,按照1~6、7~12、13~18、19~24時(shí)段分為深夜、上午、下午和晚上4個(gè)分類變量。由此對(duì)某月份所有超載記錄的貨車進(jìn)行了箱線圖繪畫(如圖3所示),并在途中顯示了各個(gè)分類下的均值點(diǎn),可以看到貨車15號(hào)的超限比率最高,而所有車型都是在深夜超限率最高,這也對(duì)高速部門整治有了精確方向。
散點(diǎn)圖分析時(shí),我們選取其中某個(gè)收費(fèi)站某一天(2月27日)的數(shù)據(jù),分車型畫出收費(fèi)與里程關(guān)系的散點(diǎn)圖(如圖4所示),擬合曲線并將置信區(qū)間設(shè)置為90%,追蹤具體到車牌號(hào)的異常值的信息(如圖5所示)。
從圖4中可以看出1、2、3、4類車型擬合曲線最好,因其代表車型為客車,是按照里程數(shù)計(jì)費(fèi),所以很少存在偏差,而其他車型在擬合的曲線外仍存在較多離散的點(diǎn),因其代表車型為貨車,收費(fèi)標(biāo)準(zhǔn)不僅依據(jù)里程數(shù),更受到載重量及是否超限的影響,而擬合曲線時(shí)僅考慮了里程數(shù),所以擬合效果不是特別好,針對(duì)離散最為嚴(yán)重的紫色圓圈內(nèi)的點(diǎn)追蹤車牌后可以得到圖5,不難看出車型全為大貨車,經(jīng)查詢也發(fā)現(xiàn)其大都是超限所致,從而也印證了前面的說法。
3.2 對(duì)A市高速公路數(shù)據(jù)的實(shí)證分析
3.2.1 因子分析模型
應(yīng)用因子分析模型,對(duì)314個(gè)收費(fèi)站進(jìn)行降維處理:將9個(gè)變量合并為2個(gè)復(fù)合因子,且重新命名為免費(fèi)問題因子和收費(fèi)問題因子。根據(jù)擬合的統(tǒng)計(jì)公式得到了在2個(gè)因子上的得分,畫出散點(diǎn)圖(如圖6所示),直觀地展示出314個(gè)收費(fèi)站中特別異常的收費(fèi)站。根據(jù)各個(gè)收費(fèi)站的年通行次數(shù)即權(quán)重,原點(diǎn)的大小代表了收費(fèi)站的年通行量大??;藍(lán)色深淺表示了各個(gè)收費(fèi)站免費(fèi)軍車通行次數(shù)的等級(jí)。免費(fèi)軍車通行次數(shù)等級(jí)的劃分標(biāo)準(zhǔn)是選取了上下四分位數(shù)和中位數(shù)為劃分依據(jù)。X坐標(biāo)軸代表了收費(fèi)問題因子的得分大小,Y坐標(biāo)軸表示了免費(fèi)因子的得分。得到了問題比較多的9個(gè)收費(fèi)站。收費(fèi)站在坐標(biāo)軸得分大于0表示該收費(fèi)站的問題大于平均水平,小于0表示低于平均水平,可以看出年通行量較大的收費(fèi)站收費(fèi)問題更大。
3.2.2 Kmeans模型聚類分析
如今,信息技術(shù)飛速發(fā)展,大多數(shù)企業(yè)、機(jī)關(guān)、事業(yè)單位及其他組織的財(cái)務(wù)、業(yè)務(wù)信息早已實(shí)現(xiàn)了電算化,脫離了傳統(tǒng)的紙質(zhì)記錄。在此背景下,審計(jì)工作也日益依賴計(jì)算機(jī)的協(xié)助。在計(jì)算機(jī)審計(jì)中,傳統(tǒng)的查找異常、發(fā)現(xiàn)審計(jì)線索的方法主要有排序、篩選、查找重號(hào)、查找斷號(hào)、分類、分層等。但在當(dāng)下數(shù)據(jù)量越來越大、數(shù)據(jù)維度越來越復(fù)雜的情況下,許多異常數(shù)據(jù)混雜在海量的數(shù)據(jù)中,要用這些略顯原始的方法將它們一一找出來,多少顯得力不從心。因此,我們希望能夠通過將統(tǒng)計(jì)方法引入審計(jì)工作中,利用統(tǒng)計(jì)模型對(duì)數(shù)據(jù)有一個(gè)宏觀的把握,從而查出異常,進(jìn)而發(fā)現(xiàn)審計(jì)線索。
我們?nèi)市高速2017年某一個(gè)月的出口收費(fèi)站流水?dāng)?shù)據(jù),共2 000余萬條記錄進(jìn)行試驗(yàn),考慮到計(jì)算機(jī)內(nèi)存處理能力的限制,需要對(duì)這些數(shù)據(jù)進(jìn)行壓縮。于是使用R語言取其中所有超限記錄,再選取出口站編號(hào)、最終車種、最終車型3個(gè)變量作為分類變量,對(duì)分得的每一類都計(jì)算其行駛里程、車貨總重、通行次數(shù),得到壓縮后的數(shù)據(jù)記錄約4 000條,之后采用Kmeans聚類算法進(jìn)行聚類,結(jié)果如圖7所示。
圖7中文字表示坐標(biāo)軸含義,如第一行各圖的縱坐標(biāo)和第一列各圖的橫坐標(biāo)是“行駛里程”,以此規(guī)律可讀出其他各圖的橫、縱坐標(biāo)含義。圖1中的圓點(diǎn)即壓縮后的數(shù)據(jù)點(diǎn),它們的顏色表示它們?cè)贙means聚類算法中被歸入的類別(見表1)。
3.2.3 面板模型分析
根據(jù)各收費(fèi)站2017年的最終收費(fèi)金額及總的通行次數(shù)先建立面板數(shù)據(jù)進(jìn)行動(dòng)態(tài)分析(如圖8所示)。
由圖8可知,各收費(fèi)站最終收費(fèi)金額一年中整體走勢(shì)較平穩(wěn),在2月份(春節(jié)期間)全部收費(fèi)站收費(fèi)金額均下降,縱向比較來說有幾個(gè)收費(fèi)站的收費(fèi)金額明顯高于其他收費(fèi)站。這是由很多因素決定的,其中經(jīng)濟(jì)因素是最不容忽視的,從中我們可以看出區(qū)域經(jīng)濟(jì)發(fā)展的不均衡性及需要加強(qiáng)管理的地區(qū)。
下面我們將各收費(fèi)站2017年1年間的最終收費(fèi)金額對(duì)通行次數(shù)、車貨總重、行駛里程等變量進(jìn)行了建模分析。
最終收費(fèi)金額=X1×通行次數(shù);R方=39.43%。
最終收費(fèi)金額=X2×車貨總重;R方=69.57%。
最終收費(fèi)金額=X2×行駛里程;R方=61.95%。
說明通行次數(shù)每增加1次,各收費(fèi)站收費(fèi)平均增加X1元。其中,通行次數(shù)的變化可以解釋最終收費(fèi)金額變化的39.43%;車貨總重的變化可以解釋最終收費(fèi)金額變化的69.57%;行駛里程的變化可以解釋最終收費(fèi)金額變化的61.59%;說明收費(fèi)站的最終收費(fèi)金額與車貨總重關(guān)系最密切。
4 結(jié)論與啟發(fā)
大數(shù)據(jù)時(shí)代的審計(jì)方法應(yīng)該結(jié)合我國(guó)社會(huì)審計(jì)的信息化條件,一方面將傳統(tǒng)成熟的數(shù)據(jù)分析方法繼續(xù)融入審計(jì)實(shí)踐中,形成面向數(shù)字化平臺(tái)的海量數(shù)據(jù)分析機(jī)制,另一方面結(jié)合科學(xué)的統(tǒng)計(jì)數(shù)據(jù)分析方法與工具特征研究如何將這些技術(shù)應(yīng)用到審計(jì)創(chuàng)新,為將來社會(huì)審計(jì)使用這些技術(shù)提供前期積累和準(zhǔn)備。通過實(shí)證分析發(fā)現(xiàn),年通行量較大的收費(fèi)站收費(fèi)問題更大,行駛里程、車貨總重、通行次數(shù)3個(gè)指標(biāo)都顯著大于其他類別,應(yīng)作為審計(jì)重點(diǎn)加以審查。通過面板分析發(fā)現(xiàn),收費(fèi)站的最終收費(fèi)金額與車貨總重關(guān)系最密切。收費(fèi)站流量預(yù)測(cè)是一個(gè)很值得分析的問題,統(tǒng)計(jì)學(xué)上所提到的很多模型都可以用來對(duì)其進(jìn)行預(yù)測(cè),我們嘗試過采用一些其他模型,時(shí)間問題還沒有形成系統(tǒng)的結(jié)果,沒有辦法呈現(xiàn)。后期若條件允許,在流量預(yù)測(cè)方向上還有很多可以深入分析拓展的內(nèi)容。我們對(duì)高速數(shù)據(jù)的分析,目前僅限于微觀層面上,后期若結(jié)合宏觀數(shù)據(jù)分析一些收費(fèi)站問題出現(xiàn)的原因,會(huì)是一個(gè)很好的思路。
參 考 文 獻(xiàn)
[1]邵松長(zhǎng).淺議大數(shù)據(jù)環(huán)境下企業(yè)內(nèi)部審計(jì)工作的轉(zhuǎn)型提升[J].財(cái)會(huì)學(xué)習(xí),2018(11):145,147.
[2]馬志娟,梁思源.大數(shù)據(jù)背景下政府環(huán)境責(zé)任審計(jì)監(jiān)督全覆蓋的路徑研究[J].審計(jì)研究,2015(5):28-34.
[3]周霞,林津翹,華峰.大數(shù)據(jù)時(shí)代企業(yè)內(nèi)部審計(jì)新常態(tài)研究[J].中國(guó)內(nèi)部審計(jì),2017(3):13-17.
[4]王茂森.大數(shù)據(jù)背景下政府審計(jì)工作的挑戰(zhàn)及解決策略研究[J].財(cái)會(huì)學(xué)習(xí),2018(13):168.
[5]王昊,趙越,石楷文,等.審計(jì)方法于大數(shù)據(jù)時(shí)代的革新[J].市場(chǎng)周刊,2018(5):123-124.
[責(zé)任編輯:鄧進(jìn)利]