陳偉 勾東升 徐發(fā)亮
近年來,大數(shù)據(jù)技術(shù)的研究與發(fā)展為審計(jì)工作帶來了機(jī)遇和挑戰(zhàn),目前國(guó)內(nèi)外高度關(guān)注大數(shù)據(jù)技術(shù)在審計(jì)工作中的應(yīng)用,探索在審計(jì)實(shí)踐中運(yùn)用大數(shù)據(jù)技術(shù)具有重要的應(yīng)用價(jià)值和理論意義。由于目前被審計(jì)單位信息化程度高,信息系統(tǒng)復(fù)雜,需要采集和審計(jì)的各類數(shù)據(jù)較多,且不僅僅是數(shù)據(jù)庫中的電子數(shù)據(jù),還包括一些政策文件、項(xiàng)目信息、董事會(huì)會(huì)議記錄、董事會(huì)會(huì)議決議、總經(jīng)理辦公會(huì)記錄、會(huì)議決議單、辦公會(huì)通知、辦公文件,以及內(nèi)部控制手冊(cè)、信息系統(tǒng)使用手冊(cè)等非結(jié)構(gòu)化材料。因此,如何對(duì)文本格式的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析是開展大數(shù)據(jù)審計(jì)的一項(xiàng)重要內(nèi)容。本文結(jié)合目前大數(shù)據(jù)審計(jì)的研究與應(yīng)用現(xiàn)狀,探索基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法。
常用的審計(jì)數(shù)據(jù)分析方法包括賬表分析、數(shù)據(jù)查詢、審計(jì)抽樣、統(tǒng)計(jì)分析、數(shù)值分析、數(shù)據(jù)相似檢測(cè)等,這些方法多是針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,而對(duì)于文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)則不能進(jìn)行有效的分析。以統(tǒng)計(jì)分析方法和數(shù)據(jù)相似檢測(cè)分析為例,其特點(diǎn)分析如下:
1.統(tǒng)計(jì)分析方法
常用的統(tǒng)計(jì)分析方法的應(yīng)用示例如圖1所示,這種統(tǒng)計(jì)分析方法多是針對(duì)數(shù)值型字段進(jìn)行分析,而不能針對(duì)字符型字段中的文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
2.結(jié)構(gòu)化數(shù)據(jù)的相似檢測(cè)方法
對(duì)于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)相似檢測(cè),可以判斷兩個(gè)數(shù)據(jù)表中的兩條數(shù)據(jù)是不是相似重復(fù)數(shù)據(jù),目前在審計(jì)中已有相關(guān)應(yīng)用,例如,大數(shù)據(jù)環(huán)境下從不同地方采集來的被審計(jì)數(shù)據(jù)中,被審計(jì)數(shù)據(jù)A中出現(xiàn)的數(shù)據(jù)不應(yīng)該出現(xiàn)在被審計(jì)數(shù)據(jù)B中。通過數(shù)據(jù)相似檢測(cè)技術(shù)可以有效地發(fā)現(xiàn)舞弊案件。其中,兩個(gè)數(shù)據(jù)表中對(duì)應(yīng)字段的相似度計(jì)算是關(guān)鍵,對(duì)于不同類型的字段,一般采用如下不同的計(jì)算方法:
(1)布爾型字段相似度計(jì)算方法:對(duì)于布爾型字段,如果兩字段相等,則相似度取0,如果不同,則相似度取1。
(2)數(shù)值型字段相似度計(jì)算方法:對(duì)于數(shù)值型字段,可以采用計(jì)算數(shù)字的相對(duì)差異算法:
(3)字符型字段相似度計(jì)算方法:對(duì)于字符型字段,一個(gè)字段可以看成是一個(gè)字符串,字符串的相似檢測(cè)最主要的方法是基于編輯距離算法。通過采用編輯距離算法,可以計(jì)算出兩個(gè)字段間的編輯距離,進(jìn)而計(jì)算出字符型字段的相似度(圖1)。
綜上可知,目前常用的審計(jì)數(shù)據(jù)分析方法多是針對(duì)結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)環(huán)境下,需要審計(jì)的不僅僅是數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),還包括一些政策文件、項(xiàng)目信息等非結(jié)構(gòu)化數(shù)據(jù)。因此,常用的審計(jì)方法不能滿足大數(shù)據(jù)環(huán)境下審計(jì)工作的需要,其中,研究如何對(duì)文本數(shù)據(jù)進(jìn)行審計(jì)非常重要。
大數(shù)據(jù)環(huán)境下大量的文本數(shù)據(jù)使審計(jì)人員分析的難度越來越大,傳統(tǒng)的瀏覽和篩選等方法無法滿足大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)審計(jì)的需要,對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行可視化分析,是大數(shù)據(jù)審計(jì)研究與應(yīng)用的重要內(nèi)容。將文本數(shù)據(jù)中的內(nèi)容或規(guī)律以視覺符號(hào)的形式展示給審計(jì)人員,有助于審計(jì)人員利用視覺感知的優(yōu)勢(shì)來快速獲取大數(shù)據(jù)中蘊(yùn)涵的重要信息,從而發(fā)現(xiàn)審計(jì)線索。對(duì)大數(shù)據(jù)審計(jì)來說,文本內(nèi)容可視化主要是為了快速獲取文本數(shù)據(jù)內(nèi)容的重點(diǎn),快速理解文本的主要內(nèi)容,可以采用基于詞頻的可視化技術(shù),如采用TFIDF技術(shù)、標(biāo)簽云的可視化形式進(jìn)行展示。
基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理可概述為:根據(jù)對(duì)被審計(jì)單位的調(diào)查,在訪談和現(xiàn)場(chǎng)觀察等基礎(chǔ)上,采集被審計(jì)單位的內(nèi)外部相關(guān)信息如政策文件、項(xiàng)目信息、董事會(huì)會(huì)議記錄、董事會(huì)會(huì)議決議、總經(jīng)理辦公會(huì)記錄、會(huì)議決議單、辦公會(huì)通知、辦公文件、項(xiàng)目安排、相關(guān)年度資金計(jì)劃安排、項(xiàng)目工作總結(jié)、相關(guān)項(xiàng)目績(jī)效評(píng)價(jià)報(bào)告等非結(jié)構(gòu)化數(shù)據(jù),以及從外部網(wǎng)上公開數(shù)據(jù)源采集來的相關(guān)文本數(shù)據(jù);然后,在審計(jì)大數(shù)據(jù)預(yù)處理的基礎(chǔ)上,基于“總體分析、發(fā)現(xiàn)疑點(diǎn)、分散核查、系統(tǒng)研究”的審計(jì)思路,采用大數(shù)據(jù)工具對(duì)相關(guān)文本數(shù)據(jù)進(jìn)行分析,審計(jì)人員通過對(duì)可視化的分析結(jié)果進(jìn)行觀察,快速從被審計(jì)大數(shù)據(jù)信息中發(fā)現(xiàn)異常數(shù)據(jù),獲得審計(jì)線索;在此基礎(chǔ)上,通過對(duì)這些結(jié)果數(shù)據(jù)做進(jìn)一步的延伸審計(jì)和審計(jì)事實(shí)確認(rèn),最終獲得審計(jì)證據(jù)。綜上分析,基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理如圖2所示。
1.相似度分析方法的原理
圖1 統(tǒng)計(jì)分析方法的應(yīng)用示例
圖2 基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理
大數(shù)據(jù)環(huán)境下,相似度分析是目前有效的一種文本數(shù)據(jù)審計(jì)方法。大數(shù)據(jù)審計(jì)環(huán)境下,有時(shí)需要分析文本數(shù)據(jù)之間是否相似,成熟可行的方法可以采用 T FIDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)技術(shù),它是一種常用的自然語言處理(NLP,Natural Language Processing)方法,TF-IDF的主要思想是:根據(jù)字詞的在文本中出現(xiàn)的頻率和在整個(gè)文本庫中出現(xiàn)的頻率來計(jì)算一個(gè)字詞在整個(gè)文本庫中的重要程度。如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文本中出現(xiàn)的很少,則認(rèn)為該詞或者短語具有很好的代表性,適合用來分類。TF-IDF可用于比較兩個(gè)文本文件相似程度、文本聚類、文本分類等方面。 TF-IDF的計(jì)算步驟如下:
(1)計(jì)算TF(詞頻)
TF(Term Frequency,詞頻)表示某個(gè)詞組在整個(gè)文本中出現(xiàn)的頻率,其計(jì)算公式如下:
(2)計(jì)算IDF(逆文檔頻率)
IDF(Inverse Document Frequency,逆文檔頻率)計(jì)算逆文檔頻率。文檔頻率是指某個(gè)關(guān)鍵詞在整個(gè)文本庫所有文件中出現(xiàn)的次數(shù)。逆文檔頻率又稱為倒文檔頻率,它是文檔頻率的倒數(shù),主要用于降低所有文檔中一些常見卻對(duì)文檔影響不大的詞語的作用。為防止分母為0(即詞語在文本庫中不存在),使用“包含該詞的文本數(shù)+1”作為分母。IDF的計(jì)算公式如下:
(3)計(jì)算TF-IDF(詞頻-逆文檔頻率)
綜上,T F-I D F的計(jì)算方法如下:
不難發(fā)現(xiàn):TF-IDF值越大,表示該特征詞對(duì)這個(gè)文本的重要性越大。
由以上分析可知,TF-IDF的優(yōu)點(diǎn)是能過濾掉一些常見的卻無關(guān)緊要的詞語,同時(shí)保留影響整個(gè)文本的重要詞語,該方法簡(jiǎn)單快速,結(jié)果比較符合實(shí)際情況;缺點(diǎn)是有時(shí)重要的詞語可能出現(xiàn)次數(shù)并不多,僅僅以詞頻衡量一個(gè)詞的重要性還不夠全面,另外,這種算法無法體現(xiàn)詞語的位置信息。
圖3 基于Python語言的文本數(shù)據(jù)相似檢測(cè)方法運(yùn)行代碼示例
圖4 基于Python語言的標(biāo)簽云分析方法運(yùn)行代碼示例
表1 某省2014-2017年扶貧項(xiàng)目?jī)?nèi)容相似度分析結(jié)果
綜上分析,如果同時(shí)計(jì)算一個(gè)文件中所有詞組的TF-IDF,將這些詞的TF-IDF相加,可以得到整個(gè)文本文件的值,從而可用于文本文件的相似度比較。
2.相似度分析方法的實(shí)現(xiàn)
根據(jù)前文對(duì)TF-IDF方法的分析,采用Python語言實(shí)現(xiàn)了文本數(shù)據(jù)相似檢測(cè)方法,運(yùn)行代碼實(shí)現(xiàn)示例如圖3所示。
1.標(biāo)簽云分析方法原理分析
標(biāo)簽云(Tag Cloud)是常用的可視化分析方式之一,它由一組相關(guān)的標(biāo)簽以及與標(biāo)簽相對(duì)應(yīng)的權(quán)重組成,這些標(biāo)簽按字母順序或其他順序,或者再結(jié)合顏色深淺進(jìn)行排列,呈現(xiàn)出來供用戶瀏覽的文本可視化方法。其中,權(quán)重值的大小決定標(biāo)簽的字體大小、顏色或其他視覺效果。
通過對(duì)被審計(jì)文本數(shù)據(jù)進(jìn)行標(biāo)簽云可視化分析,可以整體把握被審計(jì)文本數(shù)據(jù)的主要內(nèi)容。實(shí)現(xiàn)標(biāo)簽云分析的主要步驟包括:(1)分詞;(2)統(tǒng)計(jì)詞頻;(3)根據(jù)詞頻自動(dòng)設(shè)置顏色深淺、字體大小并進(jìn)行可視化展示。
2.標(biāo)簽云分析方法的實(shí)現(xiàn)
基于以上分析,采用Python語言實(shí)現(xiàn)了文本數(shù)據(jù)的標(biāo)簽云分析方法,其運(yùn)行代碼示例如圖4所示。
扶貧審計(jì)是目前審計(jì)領(lǐng)域研究與應(yīng)用的一個(gè)重點(diǎn),為了便于審計(jì)人員從整體上把握扶貧項(xiàng)目?jī)?nèi)容等情況,快速發(fā)現(xiàn)可疑問題,提高審計(jì)效率,實(shí)現(xiàn)“集中分析、分散核查”的審計(jì)方式,本節(jié)以扶貧審計(jì)為例,分析如何應(yīng)用基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法。其基本思路為:為了總體了解被審計(jì)單位對(duì)扶貧政策的執(zhí)行情況,可以通過對(duì)某一時(shí)期內(nèi)每年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行相似度分析,檢測(cè)每年扶貧項(xiàng)目?jī)?nèi)容的變化情況,如果每年的項(xiàng)目?jī)?nèi)容相似度高,說明扶貧項(xiàng)目?jī)?nèi)容變化不大,在此基礎(chǔ)上,進(jìn)行扶貧項(xiàng)目?jī)?nèi)容標(biāo)簽云分析,檢查相關(guān)扶貧項(xiàng)目關(guān)注的重點(diǎn),檢測(cè)關(guān)注的重點(diǎn)是否有變化。另外,對(duì)扶貧資金使用情況進(jìn)行標(biāo)簽云分析,檢查是否存在違規(guī)使用的問題
基于以上分析,以某省扶貧項(xiàng)目審計(jì)為例,采用本文研究的基于文本數(shù)據(jù)的相似度分析方法分別對(duì)該省2014到2017年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行相似度分析,分析結(jié)果如表1所示。
圖5 2014年項(xiàng)目?jī)?nèi)容分析示例
圖6 2015年項(xiàng)目?jī)?nèi)容分析示例
圖7 2016年項(xiàng)目?jī)?nèi)容分析示例
由表2不難發(fā)現(xiàn):2014年、2015年、2016年項(xiàng)目?jī)?nèi)容相似度較高,與2014年、2015年、2016年項(xiàng)目?jī)?nèi)容相比,2017年項(xiàng)目?jī)?nèi)容變化較大。由此可見,該省2017年扶貧項(xiàng)目?jī)?nèi)容發(fā)生了重大變化,值得審計(jì)人員進(jìn)一步關(guān)注。
圖8 2017年項(xiàng)目?jī)?nèi)容分析示例
圖9 某地污染高能耗項(xiàng)目分析示例
圖10 某省扶貧資金使用情況內(nèi)容分析示例
在扶貧項(xiàng)目?jī)?nèi)容相似度分析的基礎(chǔ)上,為了進(jìn)一步了解該省2014-2017年扶貧項(xiàng)目的主要內(nèi)容,掌握扶貧政策的變化情況,審計(jì)人員可以采用標(biāo)簽云對(duì)采集來的扶貧項(xiàng)目數(shù)據(jù)進(jìn)行綜合分析,總體掌握扶貧項(xiàng)目?jī)?nèi)容情況,以及某一時(shí)期內(nèi)扶貧項(xiàng)目?jī)?nèi)容的變化情況,從而可以幫助審計(jì)人員判斷被審計(jì)單位的扶貧政策執(zhí)行情況。
1.扶貧政策執(zhí)行情況分析
基于以上分析,以某省扶貧項(xiàng)目審計(jì)為例,采用基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)該省2014到2017年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行標(biāo)簽云分析,其示例結(jié)果如圖5—8所示,其中,標(biāo)簽云中字體的大小表示扶貧項(xiàng)目?jī)?nèi)容出現(xiàn)的次數(shù)情況。圖5—8的分析結(jié)果表明,與前文的相似度分析結(jié)果一致,該省2017年扶貧項(xiàng)目?jī)?nèi)容發(fā)生了變化,比如,建檔立卡等工作成為2017年扶貧項(xiàng)目關(guān)注的重點(diǎn),從而表明被審計(jì)單位有效地執(zhí)行了國(guó)家的扶貧政策。
2.扶貧內(nèi)容合理性分析
通過對(duì)扶貧項(xiàng)目?jī)?nèi)容進(jìn)行分析,可以整體把握一些扶貧項(xiàng)目?jī)?nèi)容是否符合國(guó)家產(chǎn)業(yè)政策,例如,分析扶貧項(xiàng)目是否投向一些高污染、高能耗等國(guó)家禁止的行業(yè)項(xiàng)目,如果存在,則需要審計(jì)人員進(jìn)一步關(guān)注。
基于以上分析,以某地扶貧項(xiàng)目審計(jì)為例,采用基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)該地扶貧項(xiàng)目?jī)?nèi)容進(jìn)行標(biāo)簽云分析,其示例結(jié)果如圖9所示。分析結(jié)果表明,該省扶貧項(xiàng)目?jī)?nèi)容中存在“制革”、“有色”、“冶煉”等關(guān)鍵詞,從而表明被審計(jì)單位可能存在扶貧項(xiàng)目?jī)?nèi)容屬于高污染、高能耗行業(yè),需要審計(jì)人員做進(jìn)一步的延伸分析。
為了掌握扶貧資金的整體使用情況,確認(rèn)扶貧資金的使用是否合理、合規(guī)和合法,需要對(duì)某一時(shí)期內(nèi)扶貧資金使用內(nèi)容進(jìn)行總體分析。針對(duì)這一需要,基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)從被審計(jì)單位采集來的相關(guān)扶貧資金支出數(shù)據(jù)進(jìn)行分析,根據(jù)分析結(jié)果可以初步發(fā)現(xiàn)扶貧資金是否存在違規(guī)使用的問題。例如,采用標(biāo)簽云對(duì)從某省采集來的扶貧資金進(jìn)行綜合分析,其示例結(jié)果如圖10所示。
圖10的分析結(jié)果表明,該被審計(jì)單位一部分扶貧資金用在了餐費(fèi)、高爾夫、中介費(fèi)、煙酒等方面。根據(jù)這一分析,審計(jì)人員可以對(duì)這些扶貧資金數(shù)據(jù)做進(jìn)一步的詳細(xì)分析,查找所有含有“餐費(fèi)、高爾夫、中介費(fèi)、煙酒”等方面的支出,從而發(fā)現(xiàn)審計(jì)線索。
對(duì)文本數(shù)據(jù)進(jìn)行分析是大數(shù)據(jù)審計(jì)的一項(xiàng)重要內(nèi)容,但由于目前常用審計(jì)軟件中缺少針對(duì)文本數(shù)據(jù)的審計(jì)方法,審計(jì)人員無法采用這一方法進(jìn)行審計(jì)。本文采用易于實(shí)現(xiàn)的大數(shù)據(jù)開源分析語言Python實(shí)現(xiàn)了文本數(shù)據(jù)審計(jì)方法,包括文本相似度分析和標(biāo)簽云分析,采用該方法不需要開發(fā)或購買專門的審計(jì)軟件,審計(jì)人員能夠在低成本、易實(shí)現(xiàn)的情況下實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的分析,從而為大數(shù)據(jù)審計(jì)的廣泛應(yīng)用打下了基礎(chǔ)。
中國(guó)注冊(cè)會(huì)計(jì)師2018年11期