亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究

        2018-11-28 13:05:00陳偉勾東升徐發(fā)亮
        關(guān)鍵詞:文本內(nèi)容分析

        陳偉 勾東升 徐發(fā)亮

        一、引 言

        近年來,大數(shù)據(jù)技術(shù)的研究與發(fā)展為審計(jì)工作帶來了機(jī)遇和挑戰(zhàn),目前國(guó)內(nèi)外高度關(guān)注大數(shù)據(jù)技術(shù)在審計(jì)工作中的應(yīng)用,探索在審計(jì)實(shí)踐中運(yùn)用大數(shù)據(jù)技術(shù)具有重要的應(yīng)用價(jià)值和理論意義。由于目前被審計(jì)單位信息化程度高,信息系統(tǒng)復(fù)雜,需要采集和審計(jì)的各類數(shù)據(jù)較多,且不僅僅是數(shù)據(jù)庫中的電子數(shù)據(jù),還包括一些政策文件、項(xiàng)目信息、董事會(huì)會(huì)議記錄、董事會(huì)會(huì)議決議、總經(jīng)理辦公會(huì)記錄、會(huì)議決議單、辦公會(huì)通知、辦公文件,以及內(nèi)部控制手冊(cè)、信息系統(tǒng)使用手冊(cè)等非結(jié)構(gòu)化材料。因此,如何對(duì)文本格式的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析是開展大數(shù)據(jù)審計(jì)的一項(xiàng)重要內(nèi)容。本文結(jié)合目前大數(shù)據(jù)審計(jì)的研究與應(yīng)用現(xiàn)狀,探索基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法。

        二、常用審計(jì)方法的不足

        常用的審計(jì)數(shù)據(jù)分析方法包括賬表分析、數(shù)據(jù)查詢、審計(jì)抽樣、統(tǒng)計(jì)分析、數(shù)值分析、數(shù)據(jù)相似檢測(cè)等,這些方法多是針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,而對(duì)于文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)則不能進(jìn)行有效的分析。以統(tǒng)計(jì)分析方法和數(shù)據(jù)相似檢測(cè)分析為例,其特點(diǎn)分析如下:

        1.統(tǒng)計(jì)分析方法

        常用的統(tǒng)計(jì)分析方法的應(yīng)用示例如圖1所示,這種統(tǒng)計(jì)分析方法多是針對(duì)數(shù)值型字段進(jìn)行分析,而不能針對(duì)字符型字段中的文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。

        2.結(jié)構(gòu)化數(shù)據(jù)的相似檢測(cè)方法

        對(duì)于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)相似檢測(cè),可以判斷兩個(gè)數(shù)據(jù)表中的兩條數(shù)據(jù)是不是相似重復(fù)數(shù)據(jù),目前在審計(jì)中已有相關(guān)應(yīng)用,例如,大數(shù)據(jù)環(huán)境下從不同地方采集來的被審計(jì)數(shù)據(jù)中,被審計(jì)數(shù)據(jù)A中出現(xiàn)的數(shù)據(jù)不應(yīng)該出現(xiàn)在被審計(jì)數(shù)據(jù)B中。通過數(shù)據(jù)相似檢測(cè)技術(shù)可以有效地發(fā)現(xiàn)舞弊案件。其中,兩個(gè)數(shù)據(jù)表中對(duì)應(yīng)字段的相似度計(jì)算是關(guān)鍵,對(duì)于不同類型的字段,一般采用如下不同的計(jì)算方法:

        (1)布爾型字段相似度計(jì)算方法:對(duì)于布爾型字段,如果兩字段相等,則相似度取0,如果不同,則相似度取1。

        (2)數(shù)值型字段相似度計(jì)算方法:對(duì)于數(shù)值型字段,可以采用計(jì)算數(shù)字的相對(duì)差異算法:

        (3)字符型字段相似度計(jì)算方法:對(duì)于字符型字段,一個(gè)字段可以看成是一個(gè)字符串,字符串的相似檢測(cè)最主要的方法是基于編輯距離算法。通過采用編輯距離算法,可以計(jì)算出兩個(gè)字段間的編輯距離,進(jìn)而計(jì)算出字符型字段的相似度(圖1)。

        綜上可知,目前常用的審計(jì)數(shù)據(jù)分析方法多是針對(duì)結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)環(huán)境下,需要審計(jì)的不僅僅是數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),還包括一些政策文件、項(xiàng)目信息等非結(jié)構(gòu)化數(shù)據(jù)。因此,常用的審計(jì)方法不能滿足大數(shù)據(jù)環(huán)境下審計(jì)工作的需要,其中,研究如何對(duì)文本數(shù)據(jù)進(jìn)行審計(jì)非常重要。

        三、基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法

        (一 )基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理

        大數(shù)據(jù)環(huán)境下大量的文本數(shù)據(jù)使審計(jì)人員分析的難度越來越大,傳統(tǒng)的瀏覽和篩選等方法無法滿足大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)審計(jì)的需要,對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行可視化分析,是大數(shù)據(jù)審計(jì)研究與應(yīng)用的重要內(nèi)容。將文本數(shù)據(jù)中的內(nèi)容或規(guī)律以視覺符號(hào)的形式展示給審計(jì)人員,有助于審計(jì)人員利用視覺感知的優(yōu)勢(shì)來快速獲取大數(shù)據(jù)中蘊(yùn)涵的重要信息,從而發(fā)現(xiàn)審計(jì)線索。對(duì)大數(shù)據(jù)審計(jì)來說,文本內(nèi)容可視化主要是為了快速獲取文本數(shù)據(jù)內(nèi)容的重點(diǎn),快速理解文本的主要內(nèi)容,可以采用基于詞頻的可視化技術(shù),如采用TFIDF技術(shù)、標(biāo)簽云的可視化形式進(jìn)行展示。

        基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理可概述為:根據(jù)對(duì)被審計(jì)單位的調(diào)查,在訪談和現(xiàn)場(chǎng)觀察等基礎(chǔ)上,采集被審計(jì)單位的內(nèi)外部相關(guān)信息如政策文件、項(xiàng)目信息、董事會(huì)會(huì)議記錄、董事會(huì)會(huì)議決議、總經(jīng)理辦公會(huì)記錄、會(huì)議決議單、辦公會(huì)通知、辦公文件、項(xiàng)目安排、相關(guān)年度資金計(jì)劃安排、項(xiàng)目工作總結(jié)、相關(guān)項(xiàng)目績(jī)效評(píng)價(jià)報(bào)告等非結(jié)構(gòu)化數(shù)據(jù),以及從外部網(wǎng)上公開數(shù)據(jù)源采集來的相關(guān)文本數(shù)據(jù);然后,在審計(jì)大數(shù)據(jù)預(yù)處理的基礎(chǔ)上,基于“總體分析、發(fā)現(xiàn)疑點(diǎn)、分散核查、系統(tǒng)研究”的審計(jì)思路,采用大數(shù)據(jù)工具對(duì)相關(guān)文本數(shù)據(jù)進(jìn)行分析,審計(jì)人員通過對(duì)可視化的分析結(jié)果進(jìn)行觀察,快速從被審計(jì)大數(shù)據(jù)信息中發(fā)現(xiàn)異常數(shù)據(jù),獲得審計(jì)線索;在此基礎(chǔ)上,通過對(duì)這些結(jié)果數(shù)據(jù)做進(jìn)一步的延伸審計(jì)和審計(jì)事實(shí)確認(rèn),最終獲得審計(jì)證據(jù)。綜上分析,基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理如圖2所示。

        (二 )相似度分析

        1.相似度分析方法的原理

        圖1 統(tǒng)計(jì)分析方法的應(yīng)用示例

        圖2 基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法原理

        大數(shù)據(jù)環(huán)境下,相似度分析是目前有效的一種文本數(shù)據(jù)審計(jì)方法。大數(shù)據(jù)審計(jì)環(huán)境下,有時(shí)需要分析文本數(shù)據(jù)之間是否相似,成熟可行的方法可以采用 T FIDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)技術(shù),它是一種常用的自然語言處理(NLP,Natural Language Processing)方法,TF-IDF的主要思想是:根據(jù)字詞的在文本中出現(xiàn)的頻率和在整個(gè)文本庫中出現(xiàn)的頻率來計(jì)算一個(gè)字詞在整個(gè)文本庫中的重要程度。如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文本中出現(xiàn)的很少,則認(rèn)為該詞或者短語具有很好的代表性,適合用來分類。TF-IDF可用于比較兩個(gè)文本文件相似程度、文本聚類、文本分類等方面。 TF-IDF的計(jì)算步驟如下:

        (1)計(jì)算TF(詞頻)

        TF(Term Frequency,詞頻)表示某個(gè)詞組在整個(gè)文本中出現(xiàn)的頻率,其計(jì)算公式如下:

        (2)計(jì)算IDF(逆文檔頻率)

        IDF(Inverse Document Frequency,逆文檔頻率)計(jì)算逆文檔頻率。文檔頻率是指某個(gè)關(guān)鍵詞在整個(gè)文本庫所有文件中出現(xiàn)的次數(shù)。逆文檔頻率又稱為倒文檔頻率,它是文檔頻率的倒數(shù),主要用于降低所有文檔中一些常見卻對(duì)文檔影響不大的詞語的作用。為防止分母為0(即詞語在文本庫中不存在),使用“包含該詞的文本數(shù)+1”作為分母。IDF的計(jì)算公式如下:

        (3)計(jì)算TF-IDF(詞頻-逆文檔頻率)

        綜上,T F-I D F的計(jì)算方法如下:

        不難發(fā)現(xiàn):TF-IDF值越大,表示該特征詞對(duì)這個(gè)文本的重要性越大。

        由以上分析可知,TF-IDF的優(yōu)點(diǎn)是能過濾掉一些常見的卻無關(guān)緊要的詞語,同時(shí)保留影響整個(gè)文本的重要詞語,該方法簡(jiǎn)單快速,結(jié)果比較符合實(shí)際情況;缺點(diǎn)是有時(shí)重要的詞語可能出現(xiàn)次數(shù)并不多,僅僅以詞頻衡量一個(gè)詞的重要性還不夠全面,另外,這種算法無法體現(xiàn)詞語的位置信息。

        圖3 基于Python語言的文本數(shù)據(jù)相似檢測(cè)方法運(yùn)行代碼示例

        圖4 基于Python語言的標(biāo)簽云分析方法運(yùn)行代碼示例

        表1 某省2014-2017年扶貧項(xiàng)目?jī)?nèi)容相似度分析結(jié)果

        綜上分析,如果同時(shí)計(jì)算一個(gè)文件中所有詞組的TF-IDF,將這些詞的TF-IDF相加,可以得到整個(gè)文本文件的值,從而可用于文本文件的相似度比較。

        2.相似度分析方法的實(shí)現(xiàn)

        根據(jù)前文對(duì)TF-IDF方法的分析,采用Python語言實(shí)現(xiàn)了文本數(shù)據(jù)相似檢測(cè)方法,運(yùn)行代碼實(shí)現(xiàn)示例如圖3所示。

        (三 )標(biāo)簽云分析

        1.標(biāo)簽云分析方法原理分析

        標(biāo)簽云(Tag Cloud)是常用的可視化分析方式之一,它由一組相關(guān)的標(biāo)簽以及與標(biāo)簽相對(duì)應(yīng)的權(quán)重組成,這些標(biāo)簽按字母順序或其他順序,或者再結(jié)合顏色深淺進(jìn)行排列,呈現(xiàn)出來供用戶瀏覽的文本可視化方法。其中,權(quán)重值的大小決定標(biāo)簽的字體大小、顏色或其他視覺效果。

        通過對(duì)被審計(jì)文本數(shù)據(jù)進(jìn)行標(biāo)簽云可視化分析,可以整體把握被審計(jì)文本數(shù)據(jù)的主要內(nèi)容。實(shí)現(xiàn)標(biāo)簽云分析的主要步驟包括:(1)分詞;(2)統(tǒng)計(jì)詞頻;(3)根據(jù)詞頻自動(dòng)設(shè)置顏色深淺、字體大小并進(jìn)行可視化展示。

        2.標(biāo)簽云分析方法的實(shí)現(xiàn)

        基于以上分析,采用Python語言實(shí)現(xiàn)了文本數(shù)據(jù)的標(biāo)簽云分析方法,其運(yùn)行代碼示例如圖4所示。

        四、基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法應(yīng)用

        (一 )應(yīng)用思路分析

        扶貧審計(jì)是目前審計(jì)領(lǐng)域研究與應(yīng)用的一個(gè)重點(diǎn),為了便于審計(jì)人員從整體上把握扶貧項(xiàng)目?jī)?nèi)容等情況,快速發(fā)現(xiàn)可疑問題,提高審計(jì)效率,實(shí)現(xiàn)“集中分析、分散核查”的審計(jì)方式,本節(jié)以扶貧審計(jì)為例,分析如何應(yīng)用基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法。其基本思路為:為了總體了解被審計(jì)單位對(duì)扶貧政策的執(zhí)行情況,可以通過對(duì)某一時(shí)期內(nèi)每年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行相似度分析,檢測(cè)每年扶貧項(xiàng)目?jī)?nèi)容的變化情況,如果每年的項(xiàng)目?jī)?nèi)容相似度高,說明扶貧項(xiàng)目?jī)?nèi)容變化不大,在此基礎(chǔ)上,進(jìn)行扶貧項(xiàng)目?jī)?nèi)容標(biāo)簽云分析,檢查相關(guān)扶貧項(xiàng)目關(guān)注的重點(diǎn),檢測(cè)關(guān)注的重點(diǎn)是否有變化。另外,對(duì)扶貧資金使用情況進(jìn)行標(biāo)簽云分析,檢查是否存在違規(guī)使用的問題

        (二 )扶貧項(xiàng)目?jī)?nèi)容相似度分析

        基于以上分析,以某省扶貧項(xiàng)目審計(jì)為例,采用本文研究的基于文本數(shù)據(jù)的相似度分析方法分別對(duì)該省2014到2017年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行相似度分析,分析結(jié)果如表1所示。

        圖5 2014年項(xiàng)目?jī)?nèi)容分析示例

        圖6 2015年項(xiàng)目?jī)?nèi)容分析示例

        圖7 2016年項(xiàng)目?jī)?nèi)容分析示例

        由表2不難發(fā)現(xiàn):2014年、2015年、2016年項(xiàng)目?jī)?nèi)容相似度較高,與2014年、2015年、2016年項(xiàng)目?jī)?nèi)容相比,2017年項(xiàng)目?jī)?nèi)容變化較大。由此可見,該省2017年扶貧項(xiàng)目?jī)?nèi)容發(fā)生了重大變化,值得審計(jì)人員進(jìn)一步關(guān)注。

        圖8 2017年項(xiàng)目?jī)?nèi)容分析示例

        圖9 某地污染高能耗項(xiàng)目分析示例

        圖10 某省扶貧資金使用情況內(nèi)容分析示例

        (三 )扶貧項(xiàng)目?jī)?nèi)容標(biāo)簽云分析

        在扶貧項(xiàng)目?jī)?nèi)容相似度分析的基礎(chǔ)上,為了進(jìn)一步了解該省2014-2017年扶貧項(xiàng)目的主要內(nèi)容,掌握扶貧政策的變化情況,審計(jì)人員可以采用標(biāo)簽云對(duì)采集來的扶貧項(xiàng)目數(shù)據(jù)進(jìn)行綜合分析,總體掌握扶貧項(xiàng)目?jī)?nèi)容情況,以及某一時(shí)期內(nèi)扶貧項(xiàng)目?jī)?nèi)容的變化情況,從而可以幫助審計(jì)人員判斷被審計(jì)單位的扶貧政策執(zhí)行情況。

        1.扶貧政策執(zhí)行情況分析

        基于以上分析,以某省扶貧項(xiàng)目審計(jì)為例,采用基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)該省2014到2017年的扶貧項(xiàng)目?jī)?nèi)容進(jìn)行標(biāo)簽云分析,其示例結(jié)果如圖5—8所示,其中,標(biāo)簽云中字體的大小表示扶貧項(xiàng)目?jī)?nèi)容出現(xiàn)的次數(shù)情況。圖5—8的分析結(jié)果表明,與前文的相似度分析結(jié)果一致,該省2017年扶貧項(xiàng)目?jī)?nèi)容發(fā)生了變化,比如,建檔立卡等工作成為2017年扶貧項(xiàng)目關(guān)注的重點(diǎn),從而表明被審計(jì)單位有效地執(zhí)行了國(guó)家的扶貧政策。

        2.扶貧內(nèi)容合理性分析

        通過對(duì)扶貧項(xiàng)目?jī)?nèi)容進(jìn)行分析,可以整體把握一些扶貧項(xiàng)目?jī)?nèi)容是否符合國(guó)家產(chǎn)業(yè)政策,例如,分析扶貧項(xiàng)目是否投向一些高污染、高能耗等國(guó)家禁止的行業(yè)項(xiàng)目,如果存在,則需要審計(jì)人員進(jìn)一步關(guān)注。

        基于以上分析,以某地扶貧項(xiàng)目審計(jì)為例,采用基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)該地扶貧項(xiàng)目?jī)?nèi)容進(jìn)行標(biāo)簽云分析,其示例結(jié)果如圖9所示。分析結(jié)果表明,該省扶貧項(xiàng)目?jī)?nèi)容中存在“制革”、“有色”、“冶煉”等關(guān)鍵詞,從而表明被審計(jì)單位可能存在扶貧項(xiàng)目?jī)?nèi)容屬于高污染、高能耗行業(yè),需要審計(jì)人員做進(jìn)一步的延伸分析。

        (四 )扶貧資金使用情況的標(biāo)簽云分析

        為了掌握扶貧資金的整體使用情況,確認(rèn)扶貧資金的使用是否合理、合規(guī)和合法,需要對(duì)某一時(shí)期內(nèi)扶貧資金使用內(nèi)容進(jìn)行總體分析。針對(duì)這一需要,基于文本數(shù)據(jù)的標(biāo)簽云分析方法對(duì)從被審計(jì)單位采集來的相關(guān)扶貧資金支出數(shù)據(jù)進(jìn)行分析,根據(jù)分析結(jié)果可以初步發(fā)現(xiàn)扶貧資金是否存在違規(guī)使用的問題。例如,采用標(biāo)簽云對(duì)從某省采集來的扶貧資金進(jìn)行綜合分析,其示例結(jié)果如圖10所示。

        圖10的分析結(jié)果表明,該被審計(jì)單位一部分扶貧資金用在了餐費(fèi)、高爾夫、中介費(fèi)、煙酒等方面。根據(jù)這一分析,審計(jì)人員可以對(duì)這些扶貧資金數(shù)據(jù)做進(jìn)一步的詳細(xì)分析,查找所有含有“餐費(fèi)、高爾夫、中介費(fèi)、煙酒”等方面的支出,從而發(fā)現(xiàn)審計(jì)線索。

        五、總 結(jié)

        對(duì)文本數(shù)據(jù)進(jìn)行分析是大數(shù)據(jù)審計(jì)的一項(xiàng)重要內(nèi)容,但由于目前常用審計(jì)軟件中缺少針對(duì)文本數(shù)據(jù)的審計(jì)方法,審計(jì)人員無法采用這一方法進(jìn)行審計(jì)。本文采用易于實(shí)現(xiàn)的大數(shù)據(jù)開源分析語言Python實(shí)現(xiàn)了文本數(shù)據(jù)審計(jì)方法,包括文本相似度分析和標(biāo)簽云分析,采用該方法不需要開發(fā)或購買專門的審計(jì)軟件,審計(jì)人員能夠在低成本、易實(shí)現(xiàn)的情況下實(shí)現(xiàn)對(duì)文本數(shù)據(jù)的分析,從而為大數(shù)據(jù)審計(jì)的廣泛應(yīng)用打下了基礎(chǔ)。

        猜你喜歡
        文本內(nèi)容分析
        內(nèi)容回顧溫故知新
        隱蔽失效適航要求符合性驗(yàn)證分析
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        婷婷伊人久久大香线蕉av| 五月激情综合婷婷六月久久| 国产偷国产偷亚洲高清视频| 高h小月被几个老头调教| 少妇被粗大的猛烈进出免费视频| 无码任你躁久久久久久| 伊人久久大香线蕉免费视频| 亚洲中文有码字幕青青| 国产精品青草视频免费播放| 无码成年性午夜免费网站蜜蜂| 久久综合久中文字幕青草| 亚洲天堂亚洲天堂亚洲色图| 综合偷自拍亚洲乱中文字幕| 亚欧美日韩香蕉在线播放视频| 国内老熟妇对白xxxxhd| 国产在线精品一区二区在线看 | 中文字幕乱码亚洲一区二区三区| 亚洲乱码国产乱码精品精| 国产一女三男3p免费视频| 亚洲综合性色一区| 高清亚洲成av人片乱码色午夜 | av在线免费高清观看| 无码熟妇人妻av在线影片最多| 男女裸交无遮挡啪啪激情试看| 精品国产高清a毛片无毒不卡| 午夜福利影院不卡影院| 区二区三区亚洲精品无| 日本免费视频| 国产精品一区二区无线| 国产jizzjizz视频免费看| 国产一区二区a毛片色欲 | 亚洲av无码专区在线观看下载| 午夜成人精品福利网站在线观看| 国产成年无码V片在线| 午夜av内射一区二区三区红桃视| 国产精品国产三级国产an不卡| 亚洲综合另类小说色区| 国产成人无码免费看片软件| 久久AⅤ天堂Av无码AV| 亚洲国产精品高清在线| 性一交一乱一乱一视频|