王若凡
摘? 要:審計抽樣是指審計人員對具有審計相關(guān)性的部分項目實施審計程序,根據(jù)抽樣結(jié)果推斷總體情況。非統(tǒng)計抽樣作為廣泛使用的審計抽樣方法主要依據(jù)審計人員主觀經(jīng)驗判斷,抽樣風(fēng)險高且缺乏理論基礎(chǔ)。本文將機器學(xué)習(xí)領(lǐng)域簡單高效的樸素貝葉斯算法應(yīng)用于審計抽樣問題,以專項資金審計為例,提出貝葉斯算法審計抽樣模型。通過抽樣率與“三因素”分析法對模型抽樣結(jié)果進行評估,驗證貝葉斯算法審計抽樣模型的可靠性。模型將審計人員職業(yè)經(jīng)驗判斷與概率統(tǒng)計知識相結(jié)合,能夠降低審計成本、提高審計效率、控制審計風(fēng)險,并為人工智能審計、在線審計提供新思路。
關(guān)鍵詞:樸素貝葉斯算法? 審計抽樣? 機器學(xué)習(xí)? 分類
中圖分類號:TP311? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)12(c)-0172-03
Abstract: Audit sampling refers to that auditors implement audit procedures on some projects with audit relevance and infer the overall situation according to the sampling results. As a widely used audit sampling method, non statistical sampling is mainly based on auditors' subjective experience judgment, with high sampling risk and lack of theoretical basis. In this paper, the simple and efficient naive Bayesian algorithm in machine learning field is applied to audit sampling problem. Taking special fund audit as an example, the Bayesian algorithm audit sampling model is proposed. Through the sampling rate and "three factors" analysis method to evaluate the model sampling results, verify the reliability of Bayesian algorithm audit sampling model. The model can reduce audit cost, improve audit efficiency, control audit risk, and provide new ideas for artificial intelligence audit and online audit.
Key Words: Naive Bayesian algorithm; Audit sampling; Machine learning; Classification
審計抽樣方法分為統(tǒng)計抽樣和非統(tǒng)計抽樣。統(tǒng)計抽樣在樣本選擇上具有隨機性,通過概率法則量化審計風(fēng)險。非統(tǒng)計抽樣依靠審計人員個人經(jīng)驗確定審計樣本。這些傳統(tǒng)的方法選取樣本時未考慮樣本本身的屬性且大都是事后審計。
貝葉斯算法作為機器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的分類算法,基于樣本屬性值進行決策分類,有著堅實的理論基礎(chǔ)和良好的分類性能。目前,貝葉斯算法在審計上的相關(guān)應(yīng)用研究主要圍繞風(fēng)險導(dǎo)向評估。文獻[1]利用貝葉斯算法對風(fēng)險環(huán)節(jié)的風(fēng)險等級權(quán)重進行修正。文獻[2]運用貝葉斯網(wǎng)絡(luò)解釋風(fēng)險導(dǎo)向?qū)徲嬐评磉^程。此外,文獻[3]利用貝葉斯推斷方法量化、修正先驗信息并在此基礎(chǔ)上決定樣本容量。
本文研究的抽樣模型優(yōu)勢在于:(1)與傳統(tǒng)的審計抽樣相比有著更加堅實的理論基礎(chǔ);(2)綜合考慮多因素,樣本更具代表性;(3)既能事后抽樣,又能實時動態(tài)抽樣,實現(xiàn)在線審計和動態(tài)監(jiān)控。
1? 樸素貝葉斯分類算法
貝葉斯算法是機器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的一種簡單高效的分類方法。本文應(yīng)用樸素貝葉斯算法,假定各屬性相互獨立,基于概率和誤判損失來選擇最優(yōu)的類別標記。
本文應(yīng)用場景為二分類問題,樣本標記為抽樣和不抽樣,樣本a誤分類為c的誤判損失為R(c│a)=1-P(c|a)。
樸素貝葉斯分類器假設(shè)所有屬性相互獨立,因此貝葉斯公式(1)可改寫為(2),其中m是屬性個數(shù),ai是樣本a在第i個屬性上的取值。
最小化分類錯誤率的貝葉斯分類器為對每個樣本a選擇使誤判損失最小即P(c|a)最大的類別標記。樣本a的標記判定準則h(a)如下,其中y是樣本標記集合:
2? 審計抽樣
本文以2015—2018年專項資金使用為案例對審計數(shù)據(jù)進行實驗,用2015年數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2016年數(shù)據(jù)作為測試數(shù)據(jù)評估驗證模型,在2017、2018年數(shù)據(jù)上進行抽樣實驗,具體流程為數(shù)據(jù)準備、數(shù)據(jù)訓(xùn)練、測試評估和模型應(yīng)用。
2.1 數(shù)據(jù)準備
樣本屬性特征包括:經(jīng)濟內(nèi)容、金額區(qū)間、可行性研究、立項、調(diào)劑檢查、招標、合同、驗收和臺帳,如表1所示。
2.2 數(shù)據(jù)訓(xùn)練
審計專家根據(jù)經(jīng)驗在2015年的247條數(shù)據(jù)記錄中抽樣75條數(shù)據(jù)記錄。計算屬性的條件概率作為先驗經(jīng)驗,具體情況如下:
(1)記錄標記為抽樣的概率為30.36%,不抽樣概率為69.64%;
(2)根據(jù)計算屬性的條件概率,具體值如表2所示。
2.3 測試評估
選取2016年276條數(shù)據(jù)記錄進行抽樣測試,貝葉斯算法審計抽樣模型抽取樣本77條,抽樣率P(c)=77/276 = 27.90% ,與2015年訓(xùn)練期抽樣率30.36%相比相差2.46%。同時用“三因素”分析法,根據(jù)樣本量公式計算得到可靠程度95%(概率度t=1.96)、預(yù)計差錯率P=5%、精確度p=4.1%的樣本量77.91,與2016年貝葉斯算法實驗結(jié)果相當,模型可靠。
2.4 模型應(yīng)用
2.4.1 屬性抽樣結(jié)果
對2017年429條審計數(shù)據(jù)、2018年420條審計數(shù)據(jù)進行審計抽樣實驗,結(jié)果如表3所示。
2017、2018年抽樣率測試結(jié)果與訓(xùn)練期2015年抽樣率30.36%、2016年測試期抽樣率27.90%比較,抽樣率相當。
2.4.2 “三因素”計算樣本量驗證貝葉斯算法模型抽樣結(jié)果
貝葉斯分類模型抽樣樣本量與根據(jù)樣本量公式計算得到的樣本量大小相當,從而貝葉斯分類模型抽樣結(jié)果可靠程度95%(概率度t=1.96),預(yù)計差錯率5%、精確度達到3.1%~4.1%。如表4所示。
3? 結(jié)語
本文提出的樸素貝葉斯審計抽樣模型抽樣率在30%左右,達到預(yù)期要求,與“三因素”樣本量的計算結(jié)果相當,模型可靠。模型滿足風(fēng)險導(dǎo)向?qū)徲嬕螅_到控制風(fēng)險、提高效率的目的,還可應(yīng)用于在線審計,隨著審計數(shù)據(jù)的更新跟蹤是否抽樣檢查,實現(xiàn)動態(tài)監(jiān)控。
本文研究還存在一定的局限性,一是數(shù)據(jù)屬性結(jié)構(gòu)有待優(yōu)化調(diào)整,二是樸素貝葉斯分類器是基于“屬性條件獨立性假設(shè)”,但實際上此假設(shè)往往很難成立,可以采取基于屬性增益率、關(guān)聯(lián)度的加權(quán)方法來調(diào)整屬性變量的影響,這將是今后進一步研究提高的方向。
參考文獻
[1] 董麗虹.風(fēng)險導(dǎo)向?qū)徲嬛酗L(fēng)險環(huán)節(jié)權(quán)重的重構(gòu)與修正研究——基于條件概率和貝葉斯定理[J].當代經(jīng)濟,2014(14):113-115.
[2] 王旭.基于貝葉斯網(wǎng)絡(luò)的審計風(fēng)險管理模型構(gòu)建[J].財會通訊,2013(22):97-99.
[3] 朱新玲,黎鵬.貝葉斯推斷在抽樣審計中的應(yīng)用研究[J].統(tǒng)計教育,2005(12):50-52.
[4] 王鹿,李志偉,朱成德,等.基于樸素貝葉斯算法的垃圾郵件過濾研究[J].傳感器與微系統(tǒng),2020,39(9):46-48,52.
[5] 彭子豪,譚欣.并行化改進的樸素貝葉斯算法在中文文本分類上的應(yīng)用[J].科學(xué)技術(shù)創(chuàng)新,2020(26):176-178.
[6] 楊文華.大數(shù)據(jù)在保障性安居工程跟蹤審計中的應(yīng)用[D].天津:天津財經(jīng)大學(xué),2019.
[7] 景鵬飛.審計全覆蓋視角下的預(yù)算執(zhí)行審計問題研究[D].昆明:云南財經(jīng)大學(xué),2018.
[8] 常志鵬,徐娟.基于樸素貝葉斯算法的網(wǎng)絡(luò)教學(xué)平臺響應(yīng)時間研究[J].數(shù)字技術(shù)與應(yīng)用,2019,37(12):112-115.