亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究

2018-11-28 13:05:00陳偉勾東升徐發(fā)亮

中國(guó)注冊(cè)會(huì)計(jì)師 2018年11期

陳偉勾東升徐發(fā)亮

一、引言

近年來，大數(shù)據(jù)技術(shù)的研究與發(fā)展為審計(jì)工作帶來了機(jī)遇和挑戰(zhàn)，目前國(guó)內(nèi)外高度關(guān)注大數(shù)據(jù)技術(shù)在審計(jì)工作中的應(yīng)用，探索在審計(jì)實(shí)踐中運(yùn)用大數(shù)據(jù)技術(shù)具有重要的應(yīng)用價(jià)值和理論意義。由于目前被審計(jì)單位信息化程度高，信息系統(tǒng)復(fù)雜，需要采集和審計(jì)的各類數(shù)據(jù)較多，且不僅僅是數(shù)據(jù)庫中的電子數(shù)據(jù)，還包括一些政策文件、項(xiàng)目信息、董事會(huì)會(huì)議記錄、董事會(huì)會(huì)議決議、總經(jīng)理辦公會(huì)記錄、會(huì)議決議單、辦公會(huì)通知、辦公文件，以及內(nèi)部控制手冊(cè)、信息系統(tǒng)使用手冊(cè)等非結(jié)構(gòu)化材料。因此，如何對(duì)文本格式的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析是開展大數(shù)據(jù)審計(jì)的一項(xiàng)重要內(nèi)容。本文結(jié)合目前大數(shù)據(jù)審計(jì)的研究與應(yīng)用現(xiàn)狀，探索基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法。

二、常用審計(jì)方法的不足

常用的審計(jì)數(shù)據(jù)分析方法包括賬表分析、數(shù)據(jù)查詢、審計(jì)抽樣、統(tǒng)計(jì)分析、數(shù)值分析、數(shù)據(jù)相似檢測(cè)等，這些方法多是針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析，而對(duì)于文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)則不能進(jìn)行有效的分析。以統(tǒng)計(jì)分析方法和數(shù)據(jù)相似檢測(cè)分析為例，其特點(diǎn)分析如下：

1．統(tǒng)計(jì)分析方法

常用的統(tǒng)計(jì)分析方法的應(yīng)用示例如圖1所示，這種統(tǒng)計(jì)分析方法多是針對(duì)數(shù)值型字段進(jìn)行分析，而不能針對(duì)字符型字段中的文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。

2．結(jié)構(gòu)化數(shù)據(jù)的相似檢測(cè)方法

對(duì)于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)，通過數(shù)據(jù)相似檢測(cè)，可以判斷兩個(gè)數(shù)據(jù)表中的兩條數(shù)據(jù)是不是相似重復(fù)數(shù)據(jù)，目前在審計(jì)中已有相關(guān)應(yīng)用，例如，大數(shù)據(jù)環(huán)境下從不同地方采集來的被審計(jì)數(shù)據(jù)中，被審計(jì)數(shù)據(jù)A中出現(xiàn)的數(shù)據(jù)不應(yīng)該出現(xiàn)在被審計(jì)數(shù)據(jù)B中。通過數(shù)據(jù)相似檢測(cè)技術(shù)可以有效地發(fā)現(xiàn)舞弊案件。其中，兩個(gè)數(shù)據(jù)表中對(duì)應(yīng)字段的相似度計(jì)算是關(guān)鍵，對(duì)于不同類型的字段，一般采用如下不同的計(jì)算方法：

（1）布爾型字段相似度計(jì)算方法：對(duì)于布爾型字段，如果兩字段相等，則相似度取0，如果不同，則相似度取1。

（2）數(shù)值型字段相似度計(jì)算方法：對(duì)于數(shù)值型字段，可以采用計(jì)算數(shù)字的相對(duì)差異算法：

（3）字符型字段相似度計(jì)算方法：對(duì)于字符型字段，一個(gè)字段可以看成是一個(gè)字符串，字符串的相似檢測(cè)最主要的方法是基于編輯距離算法。通過采用編輯距離算法，可以計(jì)算出兩個(gè)字段間的編輯距離，進(jìn)而計(jì)算出字符型字段的相似度（圖1）。

綜上可知，目前常用的審計(jì)數(shù)據(jù)分析方法多是針對(duì)結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)環(huán)境下，需要審計(jì)的不僅僅是數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)，還包括一些政策文件、項(xiàng)目信息等非結(jié)構(gòu)化數(shù)據(jù)。因此，常用的審計(jì)方法不能滿足大數(shù)據(jù)環(huán)境下審計(jì)工作的需要，其中，研究如何對(duì)文本數(shù)據(jù)進(jìn)行審計(jì)非常重要。

三、基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法

（一）基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理

大數(shù)據(jù)環(huán)境下大量的文本數(shù)據(jù)使審計(jì)人員分析的難度越來越大，傳統(tǒng)的瀏覽和篩選等方法無法滿足大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)審計(jì)的需要，對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行可視化分析，是大數(shù)據(jù)審計(jì)研究與應(yīng)用的重要內(nèi)容。將文本數(shù)據(jù)中的內(nèi)容或規(guī)律以視覺符號(hào)的形式展示給審計(jì)人員，有助于審計(jì)人員利用視覺感知的優(yōu)勢(shì)來快速獲取大數(shù)據(jù)中蘊(yùn)涵的重要信息，從而發(fā)現(xiàn)審計(jì)線索。對(duì)大數(shù)據(jù)審計(jì)來說，文本內(nèi)容可視化主要是為了快速獲取文本數(shù)據(jù)內(nèi)容的重點(diǎn)，快速理解文本的主要內(nèi)容，可以采用基于詞頻的可視化技術(shù)，如采用TFIDF技術(shù)、標(biāo)簽云的可視化形式進(jìn)行展示。

基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理可概述為：根據(jù)對(duì)被審計(jì)單位的調(diào)查，在訪談和現(xiàn)場(chǎng)觀察等基礎(chǔ)上，采集被審計(jì)單位的內(nèi)外部相關(guān)信息如政策文件、項(xiàng)目信息、董事會(huì)會(huì)議記錄、董事會(huì)會(huì)議決議、總經(jīng)理辦公會(huì)記錄、會(huì)議決議單、辦公會(huì)通知、辦公文件、項(xiàng)目安排、相關(guān)年度資金計(jì)劃安排、項(xiàng)目工作總結(jié)、相關(guān)項(xiàng)目績(jī)效評(píng)價(jià)報(bào)告等非結(jié)構(gòu)化數(shù)據(jù)，以及從外部網(wǎng)上公開數(shù)據(jù)源采集來的相關(guān)文本數(shù)據(jù)；然后，在審計(jì)大數(shù)據(jù)預(yù)處理的基礎(chǔ)上，基于“總體分析、發(fā)現(xiàn)疑點(diǎn)、分散核查、系統(tǒng)研究”的審計(jì)思路，采用大數(shù)據(jù)工具對(duì)相關(guān)文本數(shù)據(jù)進(jìn)行分析，審計(jì)人員通過對(duì)可視化的分析結(jié)果進(jìn)行觀察，快速從被審計(jì)大數(shù)據(jù)信息中發(fā)現(xiàn)異常數(shù)據(jù)，獲得審計(jì)線索；在此基礎(chǔ)上，通過對(duì)這些結(jié)果數(shù)據(jù)做進(jìn)一步的延伸審計(jì)和審計(jì)事實(shí)確認(rèn)，最終獲得審計(jì)證據(jù)。綜上分析，基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理如圖2所示。

（二）相似度分析

1.相似度分析方法的原理

圖1 統(tǒng)計(jì)分析方法的應(yīng)用示例

圖2 基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理

大數(shù)據(jù)環(huán)境下，相似度分析是目前有效的一種文本數(shù)據(jù)審計(jì)方法。大數(shù)據(jù)審計(jì)環(huán)境下，有時(shí)需要分析文本數(shù)據(jù)之間是否相似，成熟可行的方法可以采用 T FIDF（Term Frequency-Inverse Document Frequency，詞頻-逆文檔頻率）技術(shù)，它是一種常用的自然語言處理（NLP，Natural Language Processing）方法，TF-IDF的主要思想是：根據(jù)字詞的在文本中出現(xiàn)的頻率和在整個(gè)文本庫中出現(xiàn)的頻率來計(jì)算一個(gè)字詞在整個(gè)文本庫中的重要程度。如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高，并且在其他文本中出現(xiàn)的很少，則認(rèn)為該詞或者短語具有很好的代表性，適合用來分類。TF-IDF可用于比較兩個(gè)文本文件相似程度、文本聚類、文本分類等方面。 TF-IDF的計(jì)算步驟如下：

（1）計(jì)算TF（詞頻）

TF（Term Frequency，詞頻）表示某個(gè)詞組在整個(gè)文本中出現(xiàn)的頻率，其計(jì)算公式如下：

（2）計(jì)算IDF（逆文檔頻率）

IDF（Inverse Document Frequency，逆文檔頻率）計(jì)算逆文檔頻率。文檔頻率是指某個(gè)關(guān)鍵詞在整個(gè)文本庫所有文件中出現(xiàn)的次數(shù)。逆文檔頻率又稱為倒文檔頻率，它是文檔頻率的倒數(shù)，主要用于降低所有文檔中一些常見卻對(duì)文檔影響不大的詞語的作用。為防止分母為0（即詞語在文本庫中不存在），使用“包含該詞的文本數(shù)+1”作為分母。IDF的計(jì)算公式如下：

（3）計(jì)算TF-IDF（詞頻-逆文檔頻率）

綜上，T F-I D F的計(jì)算方法如下：

不難發(fā)現(xiàn)：TF-IDF值越大，表示該特征詞對(duì)這個(gè)文本的重要性越大。

由以上分析可知，TF-IDF的優(yōu)點(diǎn)是能過濾掉一些常見的卻無關(guān)緊要的詞語，同時(shí)保留影響整個(gè)文本的重要詞語，該方法簡(jiǎn)單快速，結(jié)果比較符合實(shí)際情況；缺點(diǎn)是有時(shí)重要的詞語可能出現(xiàn)次數(shù)并不多，僅僅以詞頻衡量一個(gè)詞的重要性還不夠全面，另外，這種算法無法體現(xiàn)詞語的位置信息。

圖3 基于Python語言的文本數(shù)據(jù)相似檢測(cè)方法運(yùn)行代碼示例

圖4 基于Python語言的標(biāo)簽云分析方法運(yùn)行代碼示例

表1 某省2014-2017年扶貧項(xiàng)目?jī)?nèi)容相似度分析結(jié)果

綜上分析，如果同時(shí)計(jì)算一個(gè)文件中所有詞組的TF-IDF，將這些詞的TF-IDF相加，可以得到整個(gè)文本文件的值，從而可用于文本文件的相似度比較。

2.相似度分析方法的實(shí)現(xiàn)

根據(jù)前文對(duì)TF-IDF方法的分析，采用Python語言實(shí)現(xiàn)了文本數(shù)據(jù)相似檢測(cè)方法，運(yùn)行代碼實(shí)現(xiàn)示例如圖3所示。

（三）標(biāo)簽云分析

1.標(biāo)簽云分析方法原理分析

標(biāo)簽云（Tag Cloud）是常用的可視化分析方式之一，它由一組相關(guān)的標(biāo)簽以及與標(biāo)簽相對(duì)應(yīng)的權(quán)重組成，這些標(biāo)簽按字母順序或其他順序，或者再結(jié)合顏色深淺進(jìn)行排列，呈現(xiàn)出來供用戶瀏覽的文本可視化方法。其中，權(quán)重值的大小決定標(biāo)簽的字體大小、顏色或其他視覺效果。

通過對(duì)被審計(jì)文本數(shù)據(jù)進(jìn)行標(biāo)簽云可視化分析，可以整體把握被審計(jì)文本數(shù)據(jù)的主要內(nèi)容。實(shí)現(xiàn)標(biāo)簽云分析的主要步驟包括：（1）分詞；（2）統(tǒng)計(jì)詞頻；（3）根據(jù)詞頻自動(dòng)設(shè)置顏色深淺、字體大小并進(jìn)行可視化展示。

2.標(biāo)簽云分析方法的實(shí)現(xiàn)

基于以上分析，采用Python語言實(shí)現(xiàn)了文本數(shù)據(jù)的標(biāo)簽云分析方法，其運(yùn)行代碼示例如圖4所示。

四、基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法應(yīng)用

（一）應(yīng)用思路分析

扶貧審計(jì)是目前審計(jì)領(lǐng)域研究與應(yīng)用的一個(gè)重點(diǎn)，為了便于審計(jì)人員從整體上把握扶貧項(xiàng)目?jī)?nèi)容等情況，快速發(fā)現(xiàn)可疑問題，提高審計(jì)效率，實(shí)現(xiàn)“集中分析、分散核查”的審計(jì)方式，本節(jié)以扶貧審計(jì)為例，分析如何應(yīng)用基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法。其基本思路為：為了總體了解被審計(jì)單位對(duì)扶貧政策的執(zhí)行情況，可以通過對(duì)某一時(shí)期內(nèi)每年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行相似度分析，檢測(cè)每年扶貧項(xiàng)目?jī)?nèi)容的變化情況，如果每年的項(xiàng)目?jī)?nèi)容相似度高，說明扶貧項(xiàng)目?jī)?nèi)容變化不大，在此基礎(chǔ)上，進(jìn)行扶貧項(xiàng)目?jī)?nèi)容標(biāo)簽云分析，檢查相關(guān)扶貧項(xiàng)目關(guān)注的重點(diǎn)，檢測(cè)關(guān)注的重點(diǎn)是否有變化。另外，對(duì)扶貧資金使用情況進(jìn)行標(biāo)簽云分析，檢查是否存在違規(guī)使用的問題

（二）扶貧項(xiàng)目?jī)?nèi)容相似度分析

基于以上分析，以某省扶貧項(xiàng)目審計(jì)為例，采用本文研究的基于文本數(shù)據(jù)的相似度分析方法分別對(duì)該省2014到2017年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行相似度分析，分析結(jié)果如表1所示。

圖5 2014年項(xiàng)目?jī)?nèi)容分析示例

圖6 2015年項(xiàng)目?jī)?nèi)容分析示例

圖7 2016年項(xiàng)目?jī)?nèi)容分析示例

由表2不難發(fā)現(xiàn)：2014年、2015年、2016年項(xiàng)目?jī)?nèi)容相似度較高，與2014年、2015年、2016年項(xiàng)目?jī)?nèi)容相比，2017年項(xiàng)目?jī)?nèi)容變化較大。由此可見，該省2017年扶貧項(xiàng)目?jī)?nèi)容發(fā)生了重大變化，值得審計(jì)人員進(jìn)一步關(guān)注。

圖8 2017年項(xiàng)目?jī)?nèi)容分析示例

圖9 某地污染高能耗項(xiàng)目分析示例

圖10 某省扶貧資金使用情況內(nèi)容分析示例

（三）扶貧項(xiàng)目?jī)?nèi)容標(biāo)簽云分析

在扶貧項(xiàng)目?jī)?nèi)容相似度分析的基礎(chǔ)上，為了進(jìn)一步了解該省2014-2017年扶貧項(xiàng)目的主要內(nèi)容，掌握扶貧政策的變化情況，審計(jì)人員可以采用標(biāo)簽云對(duì)采集來的扶貧項(xiàng)目數(shù)據(jù)進(jìn)行綜合分析，總體掌握扶貧項(xiàng)目?jī)?nèi)容情況，以及某一時(shí)期內(nèi)扶貧項(xiàng)目?jī)?nèi)容的變化情況，從而可以幫助審計(jì)人員判斷被審計(jì)單位的扶貧政策執(zhí)行情況。

1.扶貧政策執(zhí)行情況分析

基于以上分析，以某省扶貧項(xiàng)目審計(jì)為例，采用基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)該省2014到2017年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行標(biāo)簽云分析，其示例結(jié)果如圖5—8所示，其中，標(biāo)簽云中字體的大小表示扶貧項(xiàng)目?jī)?nèi)容出現(xiàn)的次數(shù)情況。圖5—8的分析結(jié)果表明，與前文的相似度分析結(jié)果一致，該省2017年扶貧項(xiàng)目?jī)?nèi)容發(fā)生了變化，比如，建檔立卡等工作成為2017年扶貧項(xiàng)目關(guān)注的重點(diǎn)，從而表明被審計(jì)單位有效地執(zhí)行了國(guó)家的扶貧政策。

2.扶貧內(nèi)容合理性分析

通過對(duì)扶貧項(xiàng)目?jī)?nèi)容進(jìn)行分析，可以整體把握一些扶貧項(xiàng)目?jī)?nèi)容是否符合國(guó)家產(chǎn)業(yè)政策，例如，分析扶貧項(xiàng)目是否投向一些高污染、高能耗等國(guó)家禁止的行業(yè)項(xiàng)目，如果存在，則需要審計(jì)人員進(jìn)一步關(guān)注。

基于以上分析，以某地扶貧項(xiàng)目審計(jì)為例，采用基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)該地扶貧項(xiàng)目?jī)?nèi)容進(jìn)行標(biāo)簽云分析，其示例結(jié)果如圖9所示。分析結(jié)果表明，該省扶貧項(xiàng)目?jī)?nèi)容中存在“制革”、“有色”、“冶煉”等關(guān)鍵詞，從而表明被審計(jì)單位可能存在扶貧項(xiàng)目?jī)?nèi)容屬于高污染、高能耗行業(yè)，需要審計(jì)人員做進(jìn)一步的延伸分析。

（四）扶貧資金使用情況的標(biāo)簽云分析

為了掌握扶貧資金的整體使用情況，確認(rèn)扶貧資金的使用是否合理、合規(guī)和合法，需要對(duì)某一時(shí)期內(nèi)扶貧資金使用內(nèi)容進(jìn)行總體分析。針對(duì)這一需要，基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)從被審計(jì)單位采集來的相關(guān)扶貧資金支出數(shù)據(jù)進(jìn)行分析，根據(jù)分析結(jié)果可以初步發(fā)現(xiàn)扶貧資金是否存在違規(guī)使用的問題。例如，采用標(biāo)簽云對(duì)從某省采集來的扶貧資金進(jìn)行綜合分析，其示例結(jié)果如圖10所示。

圖10的分析結(jié)果表明，該被審計(jì)單位一部分扶貧資金用在了餐費(fèi)、高爾夫、中介費(fèi)、煙酒等方面。根據(jù)這一分析，審計(jì)人員可以對(duì)這些扶貧資金數(shù)據(jù)做進(jìn)一步的詳細(xì)分析，查找所有含有“餐費(fèi)、高爾夫、中介費(fèi)、煙酒”等方面的支出，從而發(fā)現(xiàn)審計(jì)線索。

五、總結(jié)

對(duì)文本數(shù)據(jù)進(jìn)行分析是大數(shù)據(jù)審計(jì)的一項(xiàng)重要內(nèi)容，但由于目前常用審計(jì)軟件中缺少針對(duì)文本數(shù)據(jù)的審計(jì)方法，審計(jì)人員無法采用這一方法進(jìn)行審計(jì)。本文采用易于實(shí)現(xiàn)的大數(shù)據(jù)開源分析語言Python實(shí)現(xiàn)了文本數(shù)據(jù)審計(jì)方法，包括文本相似度分析和標(biāo)簽云分析，采用該方法不需要開發(fā)或購買專門的審計(jì)軟件，審計(jì)人員能夠在低成本、易實(shí)現(xiàn)的情況下實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的分析，從而為大數(shù)據(jù)審計(jì)的廣泛應(yīng)用打下了基礎(chǔ)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究

一、引 言

二、常用審計(jì)方法的不足

三、基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法

（一 ）基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理

（二 ）相似度分析

（三 ）標(biāo)簽云分析

四、基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法應(yīng)用

（一 ）應(yīng)用思路分析

（二 ）扶貧項(xiàng)目?jī)?nèi)容相似度分析

（三 ）扶貧項(xiàng)目?jī)?nèi)容標(biāo)簽云分析

（四 ）扶貧資金使用情況的標(biāo)簽云分析

五、總 結(jié)