亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹(shù)算法的審計(jì)數(shù)據(jù)分析研究

        2020-07-09 03:37:50王晨陽(yáng)
        會(huì)計(jì)之友 2020年13期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        王晨陽(yáng)

        【摘 要】 大數(shù)據(jù)時(shí)代的海量信息對(duì)審計(jì)工作的強(qiáng)度和技術(shù)性提出了更高的要求,如何對(duì)審計(jì)數(shù)據(jù)進(jìn)行分析,是審計(jì)人員面臨的挑戰(zhàn)。文章以Weka分析軟件作為實(shí)驗(yàn)平臺(tái),分別應(yīng)用決策樹(shù)分類(lèi)算法中典型的ID3算法和C4.5算法,以UCI數(shù)據(jù)庫(kù)中的Balloons數(shù)據(jù)集為例進(jìn)行分類(lèi)算法預(yù)測(cè)功能的闡述,并結(jié)合實(shí)例,提出決策樹(shù)算法在審計(jì)中的有效應(yīng)用。隨后探討了審計(jì)數(shù)據(jù)分析的發(fā)展趨勢(shì):云計(jì)算審計(jì)應(yīng)用;開(kāi)源機(jī)器學(xué)習(xí)算法融入審計(jì);云安全審計(jì);非結(jié)構(gòu)化數(shù)據(jù)文本挖掘?qū)徲?jì);特高壓、新能源汽車(chē)充電樁、5G網(wǎng)絡(luò)、大數(shù)據(jù)中心、人工智能等為代表的新基建數(shù)據(jù)挖掘應(yīng)用等。

        【關(guān)鍵詞】 數(shù)據(jù)挖掘; 決策樹(shù); 審計(jì)數(shù)據(jù)分析; Weka軟件

        【中圖分類(lèi)號(hào)】 F239.1 ?【文獻(xiàn)標(biāo)識(shí)碼】 A ?【文章編號(hào)】 1004-5937(2020)13-0139-05

        一、引言

        如今,我們正處于大數(shù)據(jù)的時(shí)代,面對(duì)數(shù)量龐大、內(nèi)容和存儲(chǔ)方式多種多樣的信息資產(chǎn),審計(jì)工作者需要使用全新的處理模式才能夠更加迅速地進(jìn)行數(shù)據(jù)分析,高效地發(fā)現(xiàn)更多有價(jià)值的審計(jì)線索。大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的不斷增加,一方面給審計(jì)工作提供了更加堅(jiān)實(shí)的基礎(chǔ),另一方面,對(duì)審計(jì)工作的強(qiáng)度和技術(shù)都提出了更高的要求。如何運(yùn)用日益增長(zhǎng)的數(shù)據(jù)?如何運(yùn)用更多的模型和算法為審計(jì)服務(wù)?這些問(wèn)題都將成為審計(jì)部門(mén)以及審計(jì)人員面臨的挑戰(zhàn)。

        處理大數(shù)據(jù)最為實(shí)用的審計(jì)方法之一就是發(fā)掘型分析審計(jì)。發(fā)掘型分析是指用戶(hù)通過(guò)對(duì)大量數(shù)據(jù)的分析研究,從中找出隱藏的規(guī)律,從而對(duì)數(shù)據(jù)或行為未來(lái)的趨勢(shì)進(jìn)行預(yù)測(cè)的一種數(shù)據(jù)分析模式[1]。而要想實(shí)現(xiàn)發(fā)掘型分析,目前最為有效的手段就是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘一共有四類(lèi)比較常用的分析方法,分別是聚簇分析、分類(lèi)分析、序列分析和關(guān)聯(lián)分析,而決策樹(shù)則是最常見(jiàn)的分類(lèi)方法。我們將數(shù)據(jù)進(jìn)行分類(lèi)主要是為了根據(jù)每組數(shù)據(jù)不同的屬性將它們歸類(lèi)到不同的分組中,分析每個(gè)分組中各類(lèi)數(shù)據(jù)的不同屬性,找出符合該數(shù)據(jù)屬性的模型,再建立相對(duì)應(yīng)的模型對(duì)已有的數(shù)據(jù)進(jìn)行分析以及對(duì)新數(shù)據(jù)未來(lái)的趨勢(shì)進(jìn)行預(yù)測(cè)。

        本研究簡(jiǎn)要介紹了決策樹(shù)算法及決策樹(shù)算法分類(lèi)模型實(shí)例,討論了該算法在審計(jì)中的應(yīng)用,探討了數(shù)據(jù)挖掘技術(shù)在對(duì)審計(jì)數(shù)據(jù)進(jìn)行分析的過(guò)程中應(yīng)用程度的發(fā)展趨勢(shì)。

        二、決策樹(shù)算法簡(jiǎn)介

        決策樹(shù),是一種跟多叉樹(shù)很相似的樹(shù)型結(jié)構(gòu),又稱(chēng)判定樹(shù),主要對(duì)數(shù)據(jù)的離散或連續(xù)屬性進(jìn)行分析并進(jìn)行建模及預(yù)測(cè)[2]。決策樹(shù)是按照從上到下依次進(jìn)行分類(lèi)的方法構(gòu)造的模型,從最基礎(chǔ)的訓(xùn)練元組集以及與之相關(guān)的類(lèi)標(biāo)號(hào)進(jìn)行分類(lèi),訓(xùn)練數(shù)據(jù)集隨著決策樹(shù)模型的構(gòu)建,以遞歸的方式被分成了幾個(gè)小的子集。決策樹(shù)內(nèi)部的每一個(gè)結(jié)點(diǎn)都代表了利用其某個(gè)屬性進(jìn)行相關(guān)的試驗(yàn),而從結(jié)點(diǎn)衍生出的每一個(gè)分支則意為在該試驗(yàn)基礎(chǔ)上的屬性結(jié)果的輸出,每一個(gè)葉結(jié)點(diǎn)代表的是所存儲(chǔ)的一個(gè)類(lèi)標(biāo)號(hào)的信息。其基本思想是:如果訓(xùn)練樣本集中的所有樣本都屬于同一種類(lèi)型,那么便將這個(gè)樣本集作為一個(gè)葉結(jié)點(diǎn),且標(biāo)識(shí)為該類(lèi);如果不是,那么就先根據(jù)某種方法確定一個(gè)屬性進(jìn)行測(cè)試,按照測(cè)試出的不同的值把整個(gè)樣本集劃分為多個(gè)子集,形成內(nèi)部結(jié)點(diǎn),這樣就能夠保證在同一個(gè)子集上,不同的樣本能具有相同的屬性值。接著反復(fù)處理各個(gè)子集,直到得到滿(mǎn)意或滿(mǎn)足條件的分類(lèi)屬性即停止。最后,在所有的樣本中間,信息量最大的屬性成為根結(jié)點(diǎn),而中間結(jié)點(diǎn)則是以此結(jié)點(diǎn)作為樹(shù)根的分支中所包括的樣本中信息量最大的那一個(gè)屬性[2]。

        決策樹(shù)算法可以針對(duì)不同類(lèi)別的因變量,從多個(gè)不同的預(yù)測(cè)變量中,預(yù)測(cè)出其中單個(gè)變量的未來(lái)趨勢(shì)的變化。目前決策樹(shù)的算法有很多種,本文采用的是其中最經(jīng)典的兩種算法——ID3算法和C4.5算法。

        三、設(shè)計(jì)思路與方案概述

        (一)實(shí)驗(yàn)基本方案

        1.建立模型,描述預(yù)定數(shù)據(jù)分類(lèi)集和概念集。假設(shè)每一個(gè)元組都?xì)w于一個(gè)預(yù)先定義好的類(lèi),通過(guò)類(lèi)標(biāo)號(hào)屬性進(jìn)行判定。在典型情況下,學(xué)習(xí)模型可以通過(guò)判定樹(shù)、分類(lèi)規(guī)則或者數(shù)學(xué)公式的方法建立[3]。

        2.使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類(lèi)。將每一個(gè)測(cè)試實(shí)例的學(xué)習(xí)模型類(lèi)和已知的類(lèi)標(biāo)號(hào)進(jìn)行比較,在分析對(duì)比的基礎(chǔ)上合理預(yù)測(cè)相關(guān)信息。學(xué)習(xí)模型在預(yù)先已給測(cè)試數(shù)據(jù)集上的正確率等于準(zhǔn)確被模型進(jìn)行分類(lèi)的實(shí)例數(shù)占測(cè)試實(shí)例總數(shù)的百分比。測(cè)試數(shù)據(jù)集必須具有獨(dú)立性,一定要避免產(chǎn)生“過(guò)分適應(yīng)數(shù)據(jù)”的不良情況。

        實(shí)驗(yàn)以Weka軟件作為實(shí)踐平臺(tái)對(duì)數(shù)據(jù)進(jìn)行挖掘處理,分別對(duì)ID3算法、C4.5算法的分析預(yù)測(cè)性能進(jìn)行總結(jié)評(píng)價(jià)。

        (二)實(shí)驗(yàn)步驟

        1.數(shù)據(jù)準(zhǔn)備。使用對(duì)不同的試驗(yàn)條件做出T/F判斷的數(shù)據(jù)集Balloons.arff,數(shù)據(jù)集包含4個(gè)屬性,分別是Color、Size、Act、Age共76個(gè)實(shí)例,如表1所示。

        取“Balloons.arff”文件的76條數(shù)據(jù)中前50條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,另存為文件“Balloons-train”,取后26條數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,另存為文件“Balloons-test”。

        2.訓(xùn)練過(guò)程。打開(kāi)Weka軟件,用“Explorer”打開(kāi)訓(xùn)練集,觀察訓(xùn)練集是否已按照要求進(jìn)行處理。切換到“Classify”選項(xiàng)卡的“ID3”或“J48”選項(xiàng),看左中的“Test Option”。為確保生成模型的準(zhǔn)確性而不至于出現(xiàn)過(guò)擬合(overfitting)的現(xiàn)象,有必要采用10折交叉驗(yàn)證(10-fold cross validation)來(lái)選擇和評(píng)估模型[4],點(diǎn)擊“Start”按鈕生成Bayes模型。該模型關(guān)于誤差或分析等結(jié)果將在“Classifier output”中生成展示。

        3.測(cè)試過(guò)程。必須保證訓(xùn)練數(shù)據(jù)集及待測(cè)數(shù)據(jù)集中各屬性的設(shè)置相同,在“Test Opion”中選擇“Supplied test set”作為測(cè)試文件,觀察預(yù)測(cè)的結(jié)果以及混淆矩陣。

        四、分類(lèi)模型的建立

        (一)ID3算法

        1.ID3算法的描述與實(shí)驗(yàn)過(guò)程

        ID3算法是數(shù)據(jù)挖掘決策樹(shù)分類(lèi)算法中最為基礎(chǔ)及影響深刻的,它主要用于解決屬性選擇方面的相關(guān)問(wèn)題。ID3算法的主要思想是在每一次分裂之前用給定算法計(jì)算得出一個(gè)分裂屬性,并按照該屬性劃分訓(xùn)練數(shù)據(jù)集,得到一些子集,從而形成若干個(gè)“樹(shù)枝”。ID3算法的最終目的是能夠得到一個(gè)規(guī)模最小的決策樹(shù)。信息增益是ID3算法中極其重要的數(shù)據(jù)量,選擇具有最高信息增益的屬性作為分裂屬性,可以促使結(jié)果分區(qū)對(duì)元組分類(lèi)所需要的信息量達(dá)到可選范圍內(nèi)最小,得出的結(jié)果最為準(zhǔn)確。

        (5)重復(fù)步驟4,依次對(duì)outlook的overcast分支、rain分支建立子樹(shù),最后得到能夠?qū)ξ粗?lèi)標(biāo)號(hào)的樣本進(jìn)行合理預(yù)測(cè)的決策樹(shù)。

        (6)利用已得到的決策樹(shù)對(duì)類(lèi)標(biāo)號(hào)未知的樣本進(jìn)行合理預(yù)測(cè)。

        基于ID3算法得到的Balloons數(shù)據(jù)集的分析結(jié)果如圖1所示。

        由分析結(jié)果可知,該模型正確率為76%。原本應(yīng)該是T的實(shí)例,有15個(gè)判斷正確,9個(gè)判斷錯(cuò)誤;原本應(yīng)該是F的實(shí)例,有23個(gè)判斷正確,3個(gè)判斷錯(cuò)誤。實(shí)例總數(shù)=15+9+23+3=50。

        得到的決策樹(shù)如圖2所示。

        該模型的精度可通過(guò)改進(jìn)算法進(jìn)一步提高,之后可利用得到的決策樹(shù)對(duì)測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證。

        2.ID3算法的總結(jié)

        ID3算法是一種自上而下、貪婪的遍歷方法,其核心是在每一次分裂之前用給定算法計(jì)算得出一個(gè)分裂屬性,并按照該屬性劃分訓(xùn)練數(shù)據(jù)集,最終構(gòu)建與訓(xùn)練數(shù)據(jù)集一致的決策樹(shù)。ID3算法的優(yōu)點(diǎn)在于算法簡(jiǎn)單易懂,便于實(shí)踐操作。缺點(diǎn)在于算法對(duì)于待處理的數(shù)據(jù)有局限性,只能處理分類(lèi)數(shù)據(jù)而不能處理連續(xù)性數(shù)據(jù);算法會(huì)由于對(duì)測(cè)試子集的劃分規(guī)模過(guò)小導(dǎo)致統(tǒng)計(jì)特征缺乏,分類(lèi)過(guò)程中止;算法中使用信息增益作為決策樹(shù)結(jié)點(diǎn)屬性選擇的標(biāo)準(zhǔn),因此決策樹(shù)算法的選擇可能具有多分支的屬性,可能出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的不良情況,弱化分類(lèi)意義,對(duì)決策不提供有效支持。

        (二)C4.5算法

        1.C4.5算法簡(jiǎn)介

        C4.5是基于ID3算法的改進(jìn)版本,選擇信息增益率作為確定決策樹(shù)結(jié)點(diǎn)屬性的標(biāo)準(zhǔn)。C4.5算法克服了ID3算法中可能出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況,并能夠?qū)B續(xù)屬性數(shù)據(jù)進(jìn)行處理。C4.5中采用后剪枝的方法對(duì)樹(shù)的結(jié)點(diǎn)進(jìn)行修剪,有效應(yīng)對(duì)決策樹(shù)分類(lèi)學(xué)習(xí)過(guò)程的過(guò)度擬合問(wèn)題。應(yīng)用C4.5算法時(shí),首先選擇具有最高信息增益率的屬性作為分裂屬性,可以有效地降低偏袒概率。

        2.C4.5算法的總結(jié)

        C4.5算法的優(yōu)點(diǎn):(1)決策樹(shù)方法結(jié)構(gòu)簡(jiǎn)單,便于理解;(2)決策樹(shù)模型使用效率高,非常適用于訓(xùn)練數(shù)據(jù)集數(shù)據(jù)量大的情況;(3)決策樹(shù)一般不必接受外部知識(shí);(4)決策樹(shù)方法的分類(lèi)精確度較高;(5)對(duì)ID3算法進(jìn)行改進(jìn),能夠?qū)B續(xù)值、不完整值進(jìn)行處理,對(duì)樹(shù)進(jìn)行剪枝,避免過(guò)擬合問(wèn)題的出現(xiàn)。

        C4.5算法的缺點(diǎn):(1)處理連續(xù)屬性比較耗時(shí);(2)對(duì)訓(xùn)練實(shí)例數(shù)據(jù)質(zhì)量要求較高,算法不夠穩(wěn)定,精度不夠高。

        五、決策樹(shù)算法應(yīng)用于審計(jì)數(shù)據(jù)分析

        在計(jì)算機(jī)數(shù)據(jù)審計(jì)中,分類(lèi)是對(duì)各類(lèi)數(shù)據(jù)按照一定規(guī)則和特質(zhì)分為不同類(lèi)別,并根據(jù)不同類(lèi)別采用適合的審計(jì)策略[5]。決策樹(shù)算法對(duì)于審計(jì)而言最重要的意義之一在于提取海量數(shù)據(jù)中的規(guī)則,并預(yù)測(cè)數(shù)據(jù)記錄的真實(shí)性,應(yīng)用時(shí)一般遵循以下步驟:第一,將待分析數(shù)據(jù)隨機(jī)分為兩組,一組為測(cè)試數(shù)據(jù)集(如上文中實(shí)例的26條測(cè)試數(shù)據(jù)集),另一組為訓(xùn)練數(shù)據(jù)集(如上文中實(shí)例的50條訓(xùn)練數(shù)據(jù)集);第二,選擇適當(dāng)?shù)臎Q策樹(shù)分類(lèi)算法(如上文中實(shí)例的Weka軟件中的ID3算法),利用訓(xùn)練數(shù)據(jù)集來(lái)創(chuàng)建數(shù)據(jù)挖掘模型;第三,利用創(chuàng)建的模型對(duì)測(cè)試數(shù)據(jù)集的分類(lèi)真實(shí)性進(jìn)行預(yù)測(cè),得出預(yù)測(cè)結(jié)果與實(shí)際情況不一樣的記錄;第四,通過(guò)對(duì)決策樹(shù)算法改進(jìn)的研究(如上文中實(shí)例的Weka軟件中的C4.5等優(yōu)化算法),優(yōu)化算法思想,最終得出改進(jìn)后的結(jié)果,和原有結(jié)果進(jìn)行對(duì)比并評(píng)估其準(zhǔn)確率;第五,若存在預(yù)測(cè)結(jié)果與實(shí)際情況不一樣的記錄,則可認(rèn)為可疑數(shù)據(jù),作為異常情況處理,進(jìn)行深入審計(jì)分析調(diào)查[6]。

        基于分類(lèi)算法的特點(diǎn),待分析數(shù)據(jù)集各屬性之間應(yīng)當(dāng)存在與區(qū)分類(lèi)別有關(guān)的邏輯關(guān)聯(lián)關(guān)系,例如工程項(xiàng)目物料供應(yīng)商分類(lèi)中區(qū)分合格供應(yīng)商和不合格供應(yīng)商,數(shù)據(jù)表中供應(yīng)商的推薦單位、營(yíng)業(yè)執(zhí)照規(guī)定的經(jīng)營(yíng)范圍、企業(yè)資質(zhì)類(lèi)別及等級(jí)、財(cái)務(wù)狀況等屬性間應(yīng)當(dāng)存在判定合格與否的規(guī)則關(guān)系,審計(jì)人員在對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等預(yù)處理操作后,應(yīng)用分類(lèi)算法,建立分類(lèi)模型,對(duì)原始數(shù)據(jù)進(jìn)行分析,篩選出與分類(lèi)模型不相適應(yīng)的數(shù)據(jù)記錄,確定審計(jì)疑點(diǎn)做進(jìn)一步查證,對(duì)疑似不合格供應(yīng)商的交易往來(lái)記錄重點(diǎn)審計(jì)。

        在審計(jì)實(shí)踐中,面對(duì)業(yè)務(wù)數(shù)據(jù)較多、不同業(yè)務(wù)系統(tǒng)使用率高的客戶(hù)單位,審計(jì)人員必須考慮審計(jì)的時(shí)間限制和審計(jì)結(jié)果的風(fēng)險(xiǎn)程度。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),我們需要考慮如何提高數(shù)據(jù)的準(zhǔn)確度以及怎樣提高挖掘分析的速度,采用合適的統(tǒng)計(jì)數(shù)據(jù)和處理方法。我們通常使用的分類(lèi)方法有統(tǒng)計(jì)方法和決策樹(shù)分類(lèi)法等等。運(yùn)用這些不同的分類(lèi)方法可以很大程度上減小審計(jì)所帶來(lái)的工作量,降低其帶來(lái)的審計(jì)風(fēng)險(xiǎn)[5]。

        隨著大數(shù)據(jù)的出現(xiàn)以及數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,審計(jì)信息化的進(jìn)程得到了大幅的提升,對(duì)審計(jì)工作來(lái)說(shuō),大數(shù)據(jù)技術(shù)并不僅僅是一種技術(shù)手段,更是為審計(jì)全覆蓋的實(shí)現(xiàn)提供了最基本的技術(shù)支持[7]。

        六、結(jié)論與展望

        利用決策樹(shù)分類(lèi)算法可以有效地對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)預(yù)測(cè)。ID3算法使用自上而下的貪婪搜索對(duì)所有可能的決策樹(shù)控空間進(jìn)行遍歷,算法簡(jiǎn)單易懂,便于學(xué)習(xí)實(shí)踐,是其他決策樹(shù)分類(lèi)算法的基礎(chǔ),該算法可達(dá)到局部最優(yōu)的效果,然而不一定全局最優(yōu)。當(dāng)屬性取值很多時(shí)最好優(yōu)先考慮C4.5算法,C4.5算法將信息增益改為信息增益比,以解決偏向取值較多的屬性問(wèn)題,從而反饋以較為合理準(zhǔn)確的分析預(yù)測(cè)結(jié)果,另外它可以處理連續(xù)型屬性。

        數(shù)據(jù)挖掘技術(shù)在審計(jì)中的應(yīng)用在快速發(fā)展,它的應(yīng)用還存在一些局限性,例如被審單位數(shù)據(jù)質(zhì)量存在嚴(yán)重問(wèn)題、利用數(shù)據(jù)挖掘技術(shù)進(jìn)行審計(jì)取證的成本問(wèn)題、專(zhuān)業(yè)技術(shù)人員素質(zhì)要求等。盡管如此,在全面信息化的外部環(huán)境要求下,為有效發(fā)揮審計(jì)風(fēng)險(xiǎn)預(yù)警和防范功能,審計(jì)人員必須充分利用被審計(jì)單位的電子數(shù)據(jù),借助數(shù)據(jù)挖掘技術(shù)對(duì)被審計(jì)單位的海量數(shù)據(jù)進(jìn)行分析,獲得審計(jì)線索,發(fā)現(xiàn)審計(jì)疑點(diǎn),提高審計(jì)效率和效果,有效控制審計(jì)風(fēng)險(xiǎn)[8]。計(jì)算機(jī)審計(jì)已顯示出傳統(tǒng)審計(jì)方法無(wú)法比擬的巨大優(yōu)勢(shì),數(shù)據(jù)挖掘技術(shù)應(yīng)用的廣闊前景是不容忽視的。審計(jì)署“十三五”規(guī)劃指出,我國(guó)將推進(jìn)大數(shù)據(jù)為核心的審計(jì)信息化建設(shè),到2020年實(shí)現(xiàn)對(duì)經(jīng)濟(jì)社會(huì)各類(lèi)主要信息數(shù)據(jù)的全歸集。大數(shù)據(jù)給新時(shí)代審計(jì)帶來(lái)前所未有的挑戰(zhàn),審計(jì)人員如何將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)相融合,如何在PB量級(jí)數(shù)據(jù)中快速而精準(zhǔn)地提取有價(jià)值的信息,如何習(xí)慣并熟練獲取及處理非結(jié)構(gòu)化數(shù)據(jù),這些都是“大數(shù)據(jù)驅(qū)動(dòng)的審計(jì)”中亟待解決的難題,未來(lái)數(shù)據(jù)挖掘技術(shù)將成為審計(jì)方法創(chuàng)新的重要內(nèi)容[9]。

        除了決策樹(shù)分類(lèi)算法外,聚類(lèi)和深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法在審計(jì)中的應(yīng)用也在不斷探索中。其中一個(gè)趨勢(shì)是將開(kāi)源的R和Python等算法不斷融入審計(jì)應(yīng)用中,開(kāi)源軟件由于其開(kāi)源特性,成本低,具有開(kāi)放性,各種新算法可以不斷拓展和融入。特別是爬蟲(chóng)算法等新算法對(duì)非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)的支持,將數(shù)據(jù)挖掘的審計(jì)應(yīng)用程度帶入新的階段。另一個(gè)趨勢(shì)是依托大公司大平臺(tái)的產(chǎn)品進(jìn)行審計(jì)應(yīng)用,比如SAS統(tǒng)計(jì)軟件數(shù)據(jù)挖掘分析,Tabular的可視化數(shù)據(jù)分析,阿里云、華為云、騰訊云、微軟Azure云機(jī)器學(xué)習(xí)工具,亞馬遜AWS云計(jì)算工具等等。大型軟件公司的軟件產(chǎn)品穩(wěn)定,又有強(qiáng)大的研發(fā)背景和實(shí)力,還有可靠的客戶(hù)服務(wù)支持等優(yōu)勢(shì),前途不可限量。但隨著以云技術(shù)為支持與多源大數(shù)據(jù)相融合的政務(wù)服務(wù)云建設(shè)等的開(kāi)始,云服務(wù)同時(shí)面臨著嚴(yán)峻的安全問(wèn)題,大數(shù)據(jù)泄露、外部侵襲以及技術(shù)漏洞等諸多風(fēng)險(xiǎn)將逐漸常見(jiàn),基于風(fēng)險(xiǎn)導(dǎo)向模式開(kāi)展政務(wù)云安全審計(jì)也將逐步提上日程[10]。

        另外,文本挖掘?qū)Σ杉姆墙Y(jié)構(gòu)化原始審計(jì)數(shù)據(jù)進(jìn)行挖掘,并且根據(jù)明確的審計(jì)需求建立不同的文本挖掘模型,從而發(fā)現(xiàn)審計(jì)疑點(diǎn),形成審計(jì)證據(jù)和審計(jì)線索也是一個(gè)趨勢(shì),而且文本挖掘可以結(jié)合非結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)庫(kù)NoSQL或Hbase分布式存儲(chǔ)系統(tǒng)和HDFS分布式文件系統(tǒng),生成文本摘要,并進(jìn)行分類(lèi)和關(guān)聯(lián)分析[11]。

        在數(shù)據(jù)挖掘的行業(yè)應(yīng)用方面,基礎(chǔ)數(shù)據(jù)的質(zhì)量和行業(yè)需求驅(qū)動(dòng)力將是不同行業(yè)的差別關(guān)鍵所在。金融行業(yè)中銀行保險(xiǎn)證券的數(shù)據(jù)質(zhì)量極高、投入大,其數(shù)據(jù)挖掘?qū)徲?jì)應(yīng)用將走在各行業(yè)前列。中國(guó)經(jīng)濟(jì)發(fā)展的三駕馬車(chē)是投資、消費(fèi)和出口,消費(fèi)數(shù)據(jù)分析,比如信用卡消費(fèi)數(shù)據(jù)挖掘分析等將異軍突起;投資依然是拉動(dòng)中國(guó)經(jīng)濟(jì)發(fā)展和保就業(yè)的重要?jiǎng)恿?,特別是以特高壓、新能源汽車(chē)充電樁、5G網(wǎng)絡(luò)、大數(shù)據(jù)中心、人工智能、公共衛(wèi)生等為代表的新基建。而其中的電力能源服務(wù)行業(yè)投資工程,基礎(chǔ)數(shù)據(jù)質(zhì)量好,前期積累多,數(shù)據(jù)挖掘?qū)徲?jì)應(yīng)用也將大跨步發(fā)展,走在各大型央企前列。

        【參考文獻(xiàn)】

        [1] 應(yīng)里孟.數(shù)據(jù)式審計(jì)常用的數(shù)據(jù)分析方法[J].中國(guó)農(nóng)業(yè)會(huì)計(jì),2011(9):14-15.

        [2] 陶帥.基于決策樹(shù)算法的保障房審計(jì)分類(lèi)規(guī)則研究[D].鄭州:華北水利水電大學(xué)碩士學(xué)位論文,2017.

        [3] 李梅.基于決策樹(shù)的中職學(xué)生體質(zhì)測(cè)試成績(jī)分析研究[D].蘭州:西北師范大學(xué)碩士學(xué)位論文,2018.

        [4] 張瑩.基于決策樹(shù)的網(wǎng)絡(luò)學(xué)院學(xué)生學(xué)業(yè)影響因素研究[D].開(kāi)封:河南大學(xué)碩士學(xué)位論文,2013.

        [5] 陳丹萍.數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計(jì)中的運(yùn)用研究[J].南京審計(jì)學(xué)院學(xué)報(bào),2009,6(2):57-61.

        [6] 張成.數(shù)據(jù)挖掘技術(shù)在金融審計(jì)中的研究與應(yīng)用[D].合肥:安徽大學(xué)碩士學(xué)位論文,2014.

        [7] 劉國(guó)常,胡楓.大數(shù)據(jù)助推政府審計(jì)全覆蓋路徑研究[J].會(huì)計(jì)之友,2018(18):98-101.

        [8] 胡珊珊.數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計(jì)中的應(yīng)用研究[J].老區(qū)建設(shè),2015(8):44-45.

        [9] 劉國(guó)城,陳正升.大數(shù)據(jù)審計(jì)的發(fā)展態(tài)勢(shì)、總體策劃與流程分析[J].會(huì)計(jì)之友,2019(8):30-35.

        [10] 王會(huì)金,劉國(guó)城.大數(shù)據(jù)時(shí)代政務(wù)云安全風(fēng)險(xiǎn)估計(jì)及其審計(jì)運(yùn)行研究[J].審計(jì)與經(jīng)濟(jì)研究,2018(5):1-11.

        [11] 張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計(jì)數(shù)據(jù)分析框架[J].會(huì)計(jì)之友,2017(16):117-120.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
        最新国产精品拍自在线观看| 亚洲人成绝费网站色www| 亚洲一区二区三区美女av| 中文字幕av长濑麻美| 成人午夜特黄aaaaa片男男| 欧美日韩精品一区二区在线视频| WWW拍拍拍| 免费观看日本一区二区三区| 女人18毛片a级毛片| 国产老熟女狂叫对白| 亚洲一区二区自拍偷拍| 五月天婷婷综合网| 黄色网页在线观看一区二区三区| 亚洲成人精品久久久国产精品| 精品精品国产自在97香蕉| aaaaa级少妇高潮大片免费看| 99精品一区二区三区免费视频| 日韩人妻系列在线视频| 粉嫩av最新在线高清观看| 久久香蕉国产线熟妇人妻| 国产女精品| av在线网站一区二区| 日本最新视频一区二区| 亚洲熟女www一区二区三区| 精品亚洲成a人在线观看青青| 在线观看国产内射视频| 日本精品人妻一区二区| 亚洲av综合色区| 一区二区三区国产亚洲网站| 日本a在线播放| 国产毛片一区二区三区| 亚洲一区二区在线观看网址| 中国老熟妇自拍hd发布| 国产乱子伦精品免费女| 亚洲最黄视频一区二区| 亚洲综合极品美女av| 午夜精品久久久久久久久久久久| 成人国产永久福利看片| 男女啪啪在线视频网站| 一本大道无码人妻精品专区| 宅男噜噜噜|