陳 偉
大數(shù)據(jù)環(huán)境下基于模糊匹配的審計方法
陳偉
隨著大數(shù)據(jù)時代的到來,電子數(shù)據(jù)審計的研究與應(yīng)用成為審計領(lǐng)域的熱點問題。本文首先分析了大數(shù)據(jù)環(huán)境下開展電子數(shù)據(jù)審計的重要性以及電子數(shù)據(jù)審計的原理。在此基礎(chǔ)上,針對大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)審計的需要,提出了一種基于模糊匹配的審計方法,并分析了該方法的原理。最后,借助于自主研發(fā)的電子數(shù)據(jù)審計模擬實驗室軟件,以某稅收數(shù)據(jù)審計為例,分析了該方法的應(yīng)用。
大數(shù)據(jù)電子數(shù)據(jù)審計模糊匹配審計風(fēng)險審計軟件
隨著信息技術(shù)的發(fā)展,大數(shù)據(jù)(Big data)時代的到來為電子數(shù)據(jù)審計提供了機遇和挑戰(zhàn)。2015年8月31日,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》。2015年12月8日,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于實行審計全覆蓋的實施意見》等文件,該文件指出,對公共資金、國有資產(chǎn)、國有資源和領(lǐng)導(dǎo)干部履行經(jīng)濟責(zé)任情況實行審計全覆蓋,是黨中央、國務(wù)院對審計工作提出的明確要求。其中,創(chuàng)新審計技術(shù)方法是實現(xiàn)審計全覆蓋的一個重要手段,要求構(gòu)建大數(shù)據(jù)審計工作模式,提高審計能力、質(zhì)量和效率,擴大審計監(jiān)督的廣度和深度。國際審計機關(guān)也高度關(guān)注大數(shù)據(jù)環(huán)境下的審計方法創(chuàng)新,2016年6月24日,金磚國家最高審計機關(guān)領(lǐng)導(dǎo)人會議在北京召開,會上指出:金磚國家最高審計機關(guān)應(yīng)適應(yīng)國家治理發(fā)展變化需要,加強頂層設(shè)計和戰(zhàn)略規(guī)劃,以審計方式方法創(chuàng)新,提升審計效能,更好發(fā)揮審計作用。在審計技術(shù)方法上,加強大數(shù)據(jù)技術(shù)運用,積極應(yīng)用“云計算”、數(shù)據(jù)挖掘、智能分析等新興技術(shù),提高審計效率和質(zhì)量。
國內(nèi)外學(xué)術(shù)界也高度關(guān)注大數(shù)據(jù)在審計中的應(yīng)用,AICPA(2014)初步分析了大數(shù)據(jù)環(huán)境對審計工作的影響;Earley(2015)分析了大數(shù)據(jù)技術(shù)給審計工作帶來的機遇和挑戰(zhàn)。筆者分析了大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)審計的機遇、挑戰(zhàn)與方法(陳偉,2016)。
綜上所述,研究大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計問題具有重要的理論意義和應(yīng)用價值。本文結(jié)合目前大數(shù)據(jù)的研究與應(yīng)用現(xiàn)狀,研究了大數(shù)據(jù)環(huán)境下基于模糊匹配的電子數(shù)據(jù)審計方法。
(一)大數(shù)據(jù)概述
目前,大數(shù)據(jù)的研究與應(yīng)用已經(jīng)成為國內(nèi)外的熱點(Science,2011)。Gartner把大數(shù)據(jù)定義為:大數(shù)據(jù)是具有大容量、快速、和(或)多樣性等特點的信息資產(chǎn),為了能提高決策、洞察發(fā)現(xiàn)和流程優(yōu)化,這種信息資產(chǎn)需要新形式的處理方法(Gartner,2012)。2015年國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》文件中指出:大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)。因此,為了充分從大數(shù)據(jù)中挖掘有用的信息,需要研究不同種類的大數(shù)據(jù)技術(shù)。目前,一些大數(shù)據(jù)技術(shù)以及用于分析大數(shù)據(jù)的工具正在被研究(Chen,2014;Melnik,2010;Gulisano,2012)。
(二)現(xiàn)有的電子數(shù)據(jù)審計方法
電子數(shù)據(jù)審計一般可以理解為“對被審計單位的電子數(shù)據(jù)進(jìn)行采集、預(yù)處理以及分析,從而發(fā)現(xiàn)審計線索,獲得審計證據(jù)的過程”,其原理如圖1所示(陳偉,2012;陳偉,2016)。在實際的審計工作中,為了避免影響被審計單位信息系統(tǒng)的正常運行,并保持審計的獨立性,規(guī)避審計風(fēng)險,審計人員在開展電子數(shù)據(jù)審計時,一般不直接使用被審計單位的信息系統(tǒng)進(jìn)行查詢分析和檢查,而是將所需的被審計單位的電子數(shù)據(jù)采集到審計人員的計算機中,利用相關(guān)軟件進(jìn)行分析。
由圖1可知: 審計數(shù)據(jù)采集和審計數(shù)據(jù)預(yù)處理的目的是為審計數(shù)據(jù)分析做準(zhǔn)備,通過審計數(shù)據(jù)分析,發(fā)現(xiàn)審計線索,獲得審計證據(jù),形成審計結(jié)論才是審計的最終目的。因此,審計數(shù)據(jù)分析是電子數(shù)據(jù)審計的關(guān)鍵。一般來說,常用的審計數(shù)據(jù)分析方法主要包括:賬表分析、數(shù)據(jù)查詢、審計抽樣、統(tǒng)計分析、數(shù)值分析等,其中,數(shù)據(jù)查詢的應(yīng)用最為普遍。通過采用這些方法對被審計數(shù)據(jù)進(jìn)行分析,可以發(fā)現(xiàn)審計線索,獲得審計證據(jù)。
(三)基于模糊匹配的審計方法原理
大數(shù)據(jù)環(huán)境下從不同地方采集來的被審計數(shù)據(jù)中可能含有相似重復(fù)的數(shù)據(jù),這些相似重復(fù)數(shù)據(jù)可能就是審計過程中要查找的可疑數(shù)據(jù),如何對這些相似數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析是大數(shù)據(jù)分析過程中的一個重要問題。目前常用的電子數(shù)據(jù)審計方法,如SQL數(shù)據(jù)查詢、數(shù)值分析(重號分析)等,只能查找完全符合查詢條件的數(shù)據(jù)(陳偉,2016)。為了查找被審計數(shù)據(jù)中的相似重復(fù)數(shù)據(jù),解決SQL數(shù)據(jù)查詢計的不足,本文提出了一種基于模糊匹配的審計方法,該方法的原理描述如下:
1.選取模糊匹配字段
根據(jù)對被審計數(shù)據(jù)的分析,選取要比較的字段。
2.進(jìn)行模糊匹配
選用合適的字段相似檢測算法,根據(jù)所選取的比較字段,執(zhí)行數(shù)據(jù)表中各字段之間的比較,在此基礎(chǔ)上,綜合所有比較字段的相似檢測結(jié)果,計算整條數(shù)據(jù)記錄的相似度,并根據(jù)預(yù)定義的字段和記錄的閾值,檢測出相似重復(fù)數(shù)據(jù),即為可疑數(shù)據(jù)。其中,字段相似檢測算法如下:
(1)字符型字段相似度計算方法。對于字符型字段,一個字段可以看成是一個字符串,字符串的相似檢測也稱字符串匹配,一般通過采用編輯距離算法,可以計算出兩個字段間的編輯距離。由于編輯距離值為整數(shù),為了把字段間的編輯距離轉(zhuǎn)換成字段間的相似度,提出轉(zhuǎn)換方法如表1所示。表1中的對應(yīng)關(guān)系也可以由審計人員根據(jù)對被審計數(shù)據(jù)的分析進(jìn)行調(diào)整,從而更準(zhǔn)確地檢測相似重復(fù)數(shù)據(jù)。
(2)布爾型字段相似度計算方法。對于布爾型字段,如果兩字段相等,則相似度取0,如果不同,則相似度取1。
(3)數(shù)值型字段相似度計算方法。對于數(shù)值型字段,可以采用計算數(shù)字的相對差異算法:
圖1 電子數(shù)據(jù)審計的原理
3.確認(rèn)模糊匹配結(jié)果
對檢測出的每一組相似重復(fù)數(shù)據(jù)(可疑數(shù)據(jù)),由審計人員通過對可疑數(shù)據(jù)的調(diào)查和分析,最終獲得審計證據(jù)。
由以上分析可以看出:當(dāng)該方法分析字符型字段時,無論該字段中字符的位置怎樣,只要出現(xiàn)該字符即可。同樣,當(dāng)該方法分析數(shù)值型字段時,也不要求待比較的數(shù)值型字段的值完全一樣,只要相近即可。所以,本文所提出的方法稱之為模糊匹配。相對于模糊匹配,精確匹配指只有所比較的字符型字段中整個字段相同,或者所比較的數(shù)值型字段的值完全一樣時才匹配。
表1 編輯距離和相似度的對應(yīng)關(guān)系定義
根據(jù)前文對基于模糊匹配的審計方法的分析,筆者在電子數(shù)據(jù)審計模擬實驗室軟件中設(shè)計并實現(xiàn)了這種審計數(shù)據(jù)分析方法,其界面如圖2所示。主要功能介紹如下:
1.功能菜單區(qū)
功能菜單區(qū)主要提供電子數(shù)據(jù)審計模擬實驗室軟件的功能菜單,包括分析結(jié)果導(dǎo)出、審計日志導(dǎo)出、數(shù)據(jù)采集、審計數(shù)據(jù)分析(數(shù)據(jù)查詢、數(shù)值分析、統(tǒng)計分析、審計抽樣、數(shù)據(jù)匹配、相似數(shù)據(jù)查詢)、關(guān)于本系統(tǒng)等。其中,相似數(shù)據(jù)查詢和數(shù)據(jù)匹配功能菜單即為基于模糊匹配的審計方法。
2.狀態(tài)區(qū)
狀態(tài)區(qū)用來顯示當(dāng)前數(shù)據(jù)預(yù)覽及結(jié)果顯示區(qū)中數(shù)據(jù)記錄的數(shù)量,以及用來選擇和顯示采集來的待分析數(shù)據(jù)表,用戶可以在狀態(tài)區(qū)選擇要分析的數(shù)據(jù)。
3.相似查詢參數(shù)設(shè)置區(qū)
相似查詢參數(shù)設(shè)置區(qū)主要用來選擇待分析的字段、設(shè)置相應(yīng)字段的權(quán)重,以及選擇每個相似查詢字段的相似檢測算法。
4.閾值參數(shù)設(shè)置區(qū)
閾值參數(shù)設(shè)置區(qū)主要用來設(shè)置字段間閾值和記錄閾值。字段間閾值表示每個字段之間的相似度,記錄閾值表示整個數(shù)據(jù)記錄之間的相似度。
5.相似度與編輯距離對應(yīng)關(guān)系設(shè)置區(qū)
相似度與編輯距離對應(yīng)關(guān)系設(shè)置區(qū)用來設(shè)置相似度與編輯距離之間的對應(yīng)關(guān)系。相似度與編輯距離對應(yīng)關(guān)系可以由審計人員根據(jù)對被審計數(shù)據(jù)源的分析進(jìn)行調(diào)整,從而更準(zhǔn)確地檢測相似重復(fù)數(shù)據(jù)。
6.數(shù)據(jù)預(yù)覽及結(jié)果顯示區(qū)
數(shù)據(jù)預(yù)覽及結(jié)果顯示區(qū)用來顯示當(dāng)前待分析數(shù)據(jù)表中的數(shù)據(jù),用戶可以通過該區(qū)預(yù)覽當(dāng)前待分析數(shù)據(jù)表中的數(shù)據(jù)。同時,一般相似查詢功能的數(shù)據(jù)分析結(jié)果也在該區(qū)中顯示,用戶可以通過單擊菜單“文件”→“分析結(jié)果導(dǎo)出”完成分析結(jié)果的導(dǎo)出和保存。
由于模糊匹配方法的不精準(zhǔn)性,如何評價該方法的審計風(fēng)險非常重要。國際審計與鑒證準(zhǔn)則委員會(International Audit and Assurance Standards Board,IAASB)把審計風(fēng)險的模型定義為:
審計風(fēng)險 = 重大錯報風(fēng)險 × 檢查風(fēng)險
在審計風(fēng)險模型中,審計人員所能控制的只有檢查風(fēng)險,重大錯報風(fēng)險與被審計單位有關(guān),審計人員對其無能為力,只能對其水平進(jìn)行評估,以便確定可接受的檢查風(fēng)險水平。根據(jù)以上審計風(fēng)險模型,不難發(fā)現(xiàn):可以通過采用合適的審計方法來降低檢查風(fēng)險。
目前,國內(nèi)對信息化環(huán)境下計算機輔助審計風(fēng)險的研究多是從理論層面分析計算機輔助審計風(fēng)險的成因與規(guī)避,在審計風(fēng)險控制這方面的研究也多是從定性的角度進(jìn)行分析,沒有從定量的角度對其進(jìn)行深入的研究。為了從定量的角度分析審計數(shù)據(jù)分析方法的審計風(fēng)險,筆者定義相應(yīng)的查全率R(Recall)和查準(zhǔn)率P(Precision),分別為:
1.查全率R
查全率是指可疑數(shù)據(jù)被正確識別的百分率,即:
圖2 電子數(shù)據(jù)審計模擬實驗室軟件中的相似查詢功能界面
圖3 字段閾值為0.8和記錄閾值為0.7時的模糊匹配分析結(jié)果示例
2.查準(zhǔn)率P
查準(zhǔn)率是指審計方法識別可疑數(shù)據(jù)的正確率,即:
通過以上兩個指標(biāo),可以定量地評價基于模糊匹配的審計方法的審計檢查風(fēng)險。比如,通過靈活地設(shè)置字段和數(shù)據(jù)的閾值,以及字段的權(quán)重,可以改變系統(tǒng)的查全率和查準(zhǔn)率,從而控制基于模糊匹配的審計方法的檢查風(fēng)險。
(一)案例介紹
以給定的某稅收征收電子數(shù)據(jù)(文件名為“稅收征收.mdb”,數(shù)據(jù)表名為“征收表”)為例,查找該數(shù)據(jù)中“納稅人名稱”和“稅務(wù)登記號”兩字段相似的數(shù)據(jù),要求從查全率和查準(zhǔn)率的角度考慮審計檢查風(fēng)險。
(二)案例操作
要檢查某稅收征收電子數(shù)據(jù)中“納稅人名稱”和“稅務(wù)登記號”兩字段相似的數(shù)據(jù),可采用電子數(shù)據(jù)審計模擬實驗室軟件中的“相似數(shù)據(jù)查詢”功能,根據(jù)“納稅人名稱”和“稅務(wù)登記號”這兩個字段對該數(shù)據(jù)中相似的數(shù)據(jù)進(jìn)行分析。對于審計檢查風(fēng)險,可以通過設(shè)置字段閾值和記錄閾值來控制。
假設(shè)該稅收征收電子數(shù)據(jù)已被采集到電子數(shù)據(jù)審計模擬實驗室軟件中,打開電子數(shù)據(jù)審計模擬實驗室軟件的相似查詢功能,如圖2所示。然后,在圖2中相似查詢的字段分別為“納稅人名稱”和“稅務(wù)登記號”,考慮到“納稅人名稱”字段較為重要,“納稅人名稱”的權(quán)重設(shè)為0.7,“稅務(wù)登記號”的權(quán)重設(shè)為0.3;“納稅人名稱”和“稅務(wù)登記號”的相似查詢算法都選擇字符型;相似度與編輯距離的對應(yīng)關(guān)系保持系統(tǒng)默認(rèn)值不變。主要分析結(jié)果如下:
1.當(dāng)選擇字段閾值為0.8,記錄閾值為0.7時。單擊“執(zhí)行相似查詢”按鈕,其相似查詢結(jié)果如圖3所示。
2.當(dāng)選擇字段閾值為0.9,記錄閾值為0.8時。單擊“執(zhí)行相似查詢”按鈕,其相似查詢結(jié)果如圖4所示。
3.當(dāng)選擇字段閾值為0.8,記錄閾值為0.8時。單擊“執(zhí)行相似查詢”按鈕,其相似查詢結(jié)果如圖5所示。
4.當(dāng)選擇字段閾值為0.9,記錄閾值為0.9時。單擊“執(zhí)行相似查詢”按鈕,其相似查詢結(jié)果如圖6所示。
以上分析的結(jié)果可以另存為數(shù)據(jù)文件,然后做進(jìn)一步的分析。
圖4 字段閾值為0.9和記錄閾值為0.8時的模糊匹配分析結(jié)果示例
圖5 字段閾值為0.8和記錄閾值為0.8時的模糊匹配分析結(jié)果示例
(三)案例分析
由以上案例可以看出:
圖6 字段閾值為0.9和記錄閾值為0.9時的模糊匹配分析結(jié)果示例
1.通過設(shè)置不同的字段閾值和記錄閾值,相似數(shù)據(jù)查詢結(jié)果會有所不同。當(dāng)設(shè)置的字段閾值和記錄閾值較低時,查出的相似數(shù)據(jù)較全,但準(zhǔn)確率較低;當(dāng)設(shè)置的字段閾值和記錄閾值較高時,查出的相似數(shù)據(jù)會有遺漏,但準(zhǔn)確率較高。
2.當(dāng)查全率高時,分析出的結(jié)果較多,查出的相似數(shù)據(jù)較全,審計檢查風(fēng)險減少,但審計人員需要更多的時間去確認(rèn)這些相似重復(fù)數(shù)據(jù),從而降低審計效率;當(dāng)查準(zhǔn)率高時,分析出的結(jié)果較少,分析結(jié)果較準(zhǔn)確,審計人員不需要更多的時間去確認(rèn)這些相似重復(fù)數(shù)據(jù),從而提高審計效率,但查出的相似數(shù)據(jù)會有遺漏,審計檢查風(fēng)險增加。
3.審計人員可以根據(jù)所需要控制的審計風(fēng)險水平,來確定合適的查全率和查準(zhǔn)率,然后確定合適的字段閾值和記錄閾值,從而可以控制審計檢查風(fēng)險。
4.基于模糊匹配的審計方法可以有效地對被審計數(shù)據(jù)進(jìn)行分析,查找出被審計數(shù)據(jù)中的相似重復(fù)數(shù)據(jù),滿足大數(shù)據(jù)環(huán)境下審計數(shù)據(jù)分析的需要。
本文根據(jù)目前大數(shù)據(jù)環(huán)境下開展電子數(shù)據(jù)審計的需要,提出了一種基于模糊匹配的審計方法,并在自主研發(fā)的電子數(shù)據(jù)審計模擬實驗室軟件中實現(xiàn)了這種方法。在此基礎(chǔ)上,以某稅收數(shù)據(jù)審計為例,分析了該方法的應(yīng)用。本文研究認(rèn)為,審計人員借助電子數(shù)據(jù)審計模擬實驗室軟件,可以方便地使用基于模糊匹配的審計方法,并能通過在系統(tǒng)中設(shè)置合適的字段閾值和記錄閾值,以及相似度與編輯距離的對應(yīng)關(guān)系,有效地控制該方法的審計風(fēng)險??傊谀:ヅ涞膶徲嫹椒苡行У貪M足大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)審計的需要。
作者單位:南京審計大學(xué)審計科學(xué)研究院
主要參考文獻(xiàn)
1.陳偉.電子數(shù)據(jù)審計模擬實驗. 清華大學(xué)出版社.2016
2.陳偉.計算機輔助審計原理及應(yīng)用(第三版).清華大學(xué)出版社.2016
3.陳偉, Wally Smieliauskas. 大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計:機遇、挑戰(zhàn)與方法.計算機科學(xué).2016 (1)
4.陳偉.電子數(shù)據(jù)審計模擬實驗室研究.中國注冊會計師.2015(7)
5.陳偉, Smieliauskas W.云計算環(huán)境下的聯(lián)網(wǎng)審計實現(xiàn)方法探析.審計研究.2012(3)
6.AICPA. 2014. Reimagining Auditing in a Wired World[EB/OL]. http://www. aicpa.org
7.Chen C L P, Zhang C Y. 2014. Data-intensive applications, challenges, techniques and technologies A survey on Big Data[J]. Information Sciences, 275:314-347
8.Chen W, Liu S F, Smieliauskas W, etc. 2012. Influence factors analysis of online auditing performance assessment: a combined use between AHP and GIA[J]. Kybernetes, 41(5/6): 587-598
9.Earley C E. 2015. Data analytics in auditing: Opportunities and challenges [J]. Business Horizons, 58(5): 493-500
10.Gartner E S. 2012. 10 Critical Tech Trends for the Next Five Years [EB/OL]. http://www. forbes.com/ sites/ericsavitz/ 2012/10/22/gartner-10-critical-tech-trends-for-the-nextfive-years/
11.Gulisano V, Ricardo J P, Marta P M, etc. 2012. Streamcloud: an elastic and scalable data streaming system[J]. IEEE Transactions on Parallel and Distributed Systems, 23 (12) :2351-2365
12.Lambrechts A J, Lourens J E, Millar P B,etc. 2011. Global technology audit guide (GTAG):Data analysis technologies[M]. The Institute of Internal Auditors
13.Melnik S, Gubarev A, Long J J, etc. 2010. Dremel: interactive analysis of webscale datasets[C].Proceeding of the 36th International Conference on Very Large Data Bases. 3(1):330-339
14.Science.2011. Dealing with data [J]. Science, 331(6018): 639-806
國家自然科學(xué)基金(71572080);教育部人文社會科學(xué)研究規(guī)劃基金(14YJAZH006);江蘇省社會科學(xué)基金(13GLC016);江蘇省“六大人才高峰”高層次人才項目(2014-XXRJ-015)