亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析研究

        2020-02-08 08:46:01趙瀏洋
        中國商論 2020年20期
        關(guān)鍵詞:聚類算法數(shù)據(jù)挖掘

        趙瀏洋

        摘 要:針對(duì)由于初始變量數(shù)據(jù)過多,導(dǎo)致金融審計(jì)數(shù)據(jù)挖掘精度不足的問題,進(jìn)行基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析研究。本文首先從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取所需數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理,包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等,其次利用主成分分析方法解決初始變量數(shù)據(jù)過多問題,降低數(shù)據(jù)維度,最后選取聚類算法作為挖掘方法,實(shí)現(xiàn)金融審計(jì)異常數(shù)據(jù)分析。結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法相比,本方法精度更高,以期為后續(xù)研究提供參考。

        關(guān)鍵詞:數(shù)據(jù)挖掘;金融審計(jì)數(shù)據(jù);聚類算法;數(shù)據(jù)維度

        中圖分類號(hào):F239.65 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2020)10(b)-055-03

        審計(jì)機(jī)關(guān)是推動(dòng)完善公共治理的重要力量,它可以通過提供以證據(jù)為基礎(chǔ)的解決系統(tǒng)性問題的意見及建議,促進(jìn)、完善政策和方案,發(fā)揮審計(jì)的監(jiān)督、洞察和前瞻功能,推動(dòng)改善公共治理[1]。近年來,審計(jì)機(jī)關(guān)通過開展金融審計(jì)工作,有效地發(fā)揮了監(jiān)督、洞察與前瞻功能,在促進(jìn)防范和化解金融風(fēng)險(xiǎn),提高金融服務(wù)實(shí)體經(jīng)濟(jì)質(zhì)量和效益,完善金融監(jiān)管體制,推動(dòng)金融體制改革和金融領(lǐng)域反腐倡廉等方面發(fā)揮了重要作用。然而,在審計(jì)機(jī)構(gòu)進(jìn)行金融審計(jì)時(shí),面臨海量的數(shù)據(jù),僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和方法是遠(yuǎn)遠(yuǎn)不夠的,存在審計(jì)效率低下等問題。

        在上述背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)用成為審計(jì)領(lǐng)域研究的重點(diǎn)課題。利用數(shù)據(jù)挖掘技術(shù)尋找數(shù)據(jù)間潛在的關(guān)聯(lián),關(guān)鍵在于挖掘算法的選擇上。常用的挖掘算法有很多,如Desaietal利用神經(jīng)網(wǎng)絡(luò)分類挖掘算法對(duì)3000個(gè)觀察數(shù)據(jù)進(jìn)行分析;孫北伐、張高煜、徐倩蓉等在《大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在審計(jì)中的分析與應(yīng)用》中介紹決策樹算法和隨機(jī)森林算法的數(shù)據(jù)分析過程。此外,數(shù)據(jù)挖掘還包括聚類算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等[2]。本文在已有研究經(jīng)驗(yàn)的基礎(chǔ)上,以聚類算法為基礎(chǔ),進(jìn)行數(shù)據(jù)挖掘研究。研究過程如下:首先進(jìn)行金融審計(jì)數(shù)據(jù)采集并進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量,然后選取聚類算法作為挖掘算法,設(shè)置挖掘條件,進(jìn)行模式匹配,找尋可疑數(shù)據(jù)。通過這些可疑數(shù)據(jù),審計(jì)機(jī)構(gòu)可以以此為依據(jù)進(jìn)行追蹤,探尋企業(yè)違法犯罪行為,為金融領(lǐng)域反腐倡廉工作提供依據(jù)。

        1 基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法

        隨著計(jì)算機(jī)網(wǎng)絡(luò)以及信息技術(shù)的不斷發(fā)展,各行各業(yè)對(duì)信息系統(tǒng)的依賴程度越來越深,其中金融審計(jì)就是其中一個(gè)。金融審計(jì)就是在海量數(shù)據(jù)中尋找異常數(shù)據(jù),從而發(fā)現(xiàn)問題,得出各種金融機(jī)構(gòu)的經(jīng)營狀況,以便避免出現(xiàn)金融風(fēng)險(xiǎn),揭露隱藏的違法違規(guī)行為,推進(jìn)反腐倡廉工作?,F(xiàn)代金融審計(jì)人員面對(duì)的不再是簡單的紙質(zhì)賬目,而是存儲(chǔ)在計(jì)算機(jī)系統(tǒng)數(shù)據(jù)庫中的種類繁多的電子數(shù)據(jù),要想通過人工完成數(shù)據(jù)分析是不現(xiàn)實(shí)的,因此本文通過數(shù)據(jù)挖掘技術(shù)進(jìn)行金融審計(jì)數(shù)據(jù)分析。

        1.1 金融審計(jì)數(shù)據(jù)采集

        金融審計(jì)數(shù)據(jù)采集進(jìn)行數(shù)據(jù)挖掘的第一步,也是后續(xù)進(jìn)行數(shù)據(jù)分析的基礎(chǔ)和前提。金融審計(jì)數(shù)據(jù)采集是指審計(jì)人員在利用計(jì)算機(jī)審計(jì)時(shí),需要根據(jù)審計(jì)要求從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取數(shù)據(jù)文件的過程[3]。目前,采集方式主要有三種,即直接讀取數(shù)據(jù)的方式、數(shù)據(jù)庫連接性的方式以及數(shù)據(jù)傳輸?shù)姆绞?,三種方式特點(diǎn)比較如表1所示。

        1.2 金融審計(jì)數(shù)據(jù)預(yù)處理

        從各個(gè)金融機(jī)構(gòu)系統(tǒng)數(shù)據(jù)采集得到的數(shù)據(jù)受到人為因素、系統(tǒng)因素等的影響,數(shù)據(jù)質(zhì)量并不高,若直接用于后續(xù)數(shù)據(jù)挖掘,將會(huì)導(dǎo)致數(shù)據(jù)分析準(zhǔn)確性降低。為此,需要對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理,具體包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等[4]。

        1.2.1 缺失值處理

        采集得到的原始數(shù)據(jù)極有可能存在缺失值,但是缺失值并不意味數(shù)據(jù)有錯(cuò)誤。缺失值在整個(gè)數(shù)據(jù)集若是一個(gè)關(guān)鍵值,就需要進(jìn)行填補(bǔ)。缺失值填補(bǔ)的方法有很多,如人工填寫、平均值填充、最鄰近方法填充、期望值最大化方法填充、貝葉斯Boostrap方法填充、回歸法填充等。

        1.2.2 重復(fù)數(shù)據(jù)處理

        在采集到的原始金融審計(jì)數(shù)據(jù)中還存在一些重復(fù)記錄的數(shù)據(jù),這些數(shù)據(jù)也被稱為冗余數(shù)據(jù)。冗余數(shù)據(jù)的存在會(huì)增加后續(xù)數(shù)據(jù)挖掘和分析的計(jì)算量,降低數(shù)據(jù)分析效率。對(duì)于重復(fù)數(shù)據(jù)的處理,需要進(jìn)行記錄排序,即根據(jù)關(guān)鍵字、詞等進(jìn)行排序,然后識(shí)別重復(fù)記錄,將重復(fù)的數(shù)據(jù)進(jìn)行合并。對(duì)于重復(fù)記錄識(shí)別,可以通過簡單的模糊匹配或各個(gè)角度的相似度計(jì)算來完成。

        1.2.3 噪聲數(shù)據(jù)處理

        由于各種原因?qū)е聦傩灾挡徽_或不一致的數(shù)據(jù)被稱為噪聲數(shù)據(jù)。對(duì)于噪聲數(shù)據(jù),處理方法主要有三種:分箱、回歸以及聚類,如表2所示。

        1.2.4 數(shù)據(jù)變換

        采集到的原始金融審計(jì)數(shù)據(jù)可能來自被審計(jì)金融機(jī)構(gòu)的不同類型的數(shù)據(jù)庫,而不同類型的數(shù)據(jù)庫的數(shù)據(jù)是不同的,無法進(jìn)行比較分析,因此需要將不同形式的金融審計(jì)數(shù)據(jù)轉(zhuǎn)換成適合的審計(jì)分析軟件處理所需要的形式,將數(shù)據(jù)規(guī)范成相對(duì)統(tǒng)計(jì)的形式,去除量綱,即數(shù)據(jù)規(guī)范化。數(shù)據(jù)規(guī)范化方法主要有以下三種。

        (1)Min-Max標(biāo)準(zhǔn)化(Min-Max normalization)

        Min-Max標(biāo)準(zhǔn)化,也稱為最小-最大規(guī)范化,基本原理是對(duì)原始金融審計(jì)數(shù)據(jù)進(jìn)行線性變換,使變換后的結(jié)果落到[0,1]區(qū)間內(nèi)。Min-Max標(biāo)準(zhǔn)化表達(dá)式如下:

        1.3 金融審計(jì)數(shù)據(jù)降維

        以往利用數(shù)據(jù)挖掘算法進(jìn)行直接金融審計(jì)數(shù)據(jù)分析時(shí),往往存在計(jì)算量大、分析不準(zhǔn)確的問題,而導(dǎo)致這一現(xiàn)象的主要原因是后續(xù)輸入到數(shù)據(jù)挖掘算法中初始變量數(shù)據(jù)過多。對(duì)于上述問題,將數(shù)據(jù)降維十分必要。

        數(shù)據(jù)降維是指在保證原始數(shù)據(jù)損失量最小的前提下,優(yōu)化數(shù)據(jù)組成,降低數(shù)據(jù)維度,減少數(shù)據(jù)規(guī)模。

        對(duì)于數(shù)據(jù)降維問題,解決方法有很多,大致分為線性映射和非線性映射方法兩大類。在本文中選擇主成分分析方法進(jìn)行金融審計(jì)數(shù)據(jù)降維。具體過程如下:

        步驟1:假設(shè)待分析原始金融審計(jì)數(shù)據(jù)的形式是一個(gè)X包含n個(gè)樣本的樣本集。

        步驟2:對(duì)樣本集中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理方法見1.2.4中數(shù)據(jù)變換處理方法,最后得到的標(biāo)準(zhǔn)化矩陣Z。

        步驟3: 計(jì)算標(biāo)準(zhǔn)化矩陣Z的相關(guān)系數(shù)矩陣R。

        步驟4:用雅克比方法解矩陣R的特征方程,得特征根和特征向量(主成分)。

        步驟5:計(jì)算主成分累計(jì)貢獻(xiàn)率,一般選擇超過85%貢獻(xiàn)率的主成分作為重要主成分。

        步驟6:重要主成分即為降維后數(shù)據(jù)。

        1.4 金融審計(jì)數(shù)據(jù)挖掘分析

        數(shù)據(jù)挖掘的概念是在20世紀(jì)80年代提出的,其定義是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中找尋價(jià)值信息和知識(shí)的過程,因此數(shù)據(jù)挖掘也被稱為“知識(shí)發(fā)現(xiàn)”,一般分為以下幾個(gè)過程,如圖1所示。

        從圖1中可以看出,前文已經(jīng)介紹了數(shù)據(jù)挖掘的準(zhǔn)備環(huán)節(jié),現(xiàn)進(jìn)行數(shù)據(jù)挖掘分析。在數(shù)據(jù)挖掘中,關(guān)鍵在于算法的選擇上。數(shù)據(jù)挖掘算法有很多,如聚類算法、神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、遺傳算法等。選擇聚類算法進(jìn)行數(shù)據(jù)挖掘,其理由是該算法具有可伸縮性,圖形數(shù)據(jù)集的劃分效果良好,并且十分高效。聚類算法是指按照某種數(shù)據(jù)特征進(jìn)行分類,同一類的數(shù)據(jù)具有相同的特征,從而從中分辨出不同特征的數(shù)據(jù),即異常數(shù)據(jù)。具體過程大致分為以下五個(gè)步驟。

        步驟1:從金融審計(jì)數(shù)據(jù)中隨機(jī)選定K個(gè)樣本數(shù)據(jù)點(diǎn)作為初始聚類中心;

        步驟2:計(jì)算這K個(gè)初始聚類中心到其他樣本數(shù)據(jù)點(diǎn)的距離,包括閔可夫斯基距離、歐式距離、曼哈頓距離等;

        步驟3:根據(jù)距離計(jì)算結(jié)果對(duì)每一個(gè)樣本數(shù)據(jù)點(diǎn)進(jìn)行分類;

        步驟4:重新計(jì)算每個(gè)類的類中心;

        步驟5:判斷得到的新聚類中心是否與原來的初始聚類中心相同。若相同,聚類結(jié)束,輸出聚類結(jié)果;否則回到步驟2,重新進(jìn)行聚類,直到目標(biāo)函數(shù)收斂。

        2 實(shí)驗(yàn)分析

        本文為測試基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法的性能,以神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等數(shù)據(jù)挖掘方法作為對(duì)比項(xiàng),進(jìn)行實(shí)驗(yàn)分析。

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        保險(xiǎn)公司是我國重要的金融機(jī)構(gòu)之一,關(guān)系國計(jì)民生,關(guān)系社會(huì)生活中的每一分子,因此本文就選取某保險(xiǎn)公司業(yè)務(wù)及管理費(fèi)的核算數(shù)據(jù)作為仿真實(shí)驗(yàn)數(shù)據(jù)。利用本文章節(jié)1.1數(shù)據(jù)采集方法,從該公司財(cái)務(wù)系統(tǒng)中獲取2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)。

        據(jù)統(tǒng)計(jì),獲取的某保險(xiǎn)公司2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)數(shù)據(jù)共計(jì)1268825條,全部為正常數(shù)據(jù),因此本實(shí)驗(yàn)通過手動(dòng)篡改其中1562條數(shù)據(jù),作為異常數(shù)據(jù),用于后續(xù)數(shù)據(jù)挖掘。

        2.2 數(shù)據(jù)挖掘工具

        本文數(shù)據(jù)預(yù)處理、降維以及挖掘分析都通過SPSS公司開發(fā)的Clementine12.0數(shù)據(jù)挖掘軟件來實(shí)現(xiàn)。通過Clementine12.0,可以將數(shù)據(jù)放到軟件上進(jìn)行分析,從而利用內(nèi)置的強(qiáng)大算法以及圖形功能預(yù)測未來數(shù)據(jù)的走勢,提前定制公司項(xiàng)目計(jì)劃,定制未來開發(fā)的具體流程,并且可以將分析結(jié)果建立模型或流程圖,方便整個(gè)數(shù)據(jù)挖掘過程將數(shù)據(jù)部署到企業(yè)開發(fā)計(jì)劃上,從而完善企業(yè)后期決策計(jì)劃。

        2.3 數(shù)據(jù)挖掘評(píng)價(jià)指標(biāo)

        數(shù)據(jù)挖掘目標(biāo)是從正常數(shù)據(jù)中找出異常數(shù)據(jù),因此數(shù)據(jù)有兩類,即為正例(positive)和負(fù)例(negtive),構(gòu)建混淆矩陣如表3所示。

        根據(jù)混淆矩陣,計(jì)算數(shù)據(jù)挖掘精度,公式如下:

        2.4 結(jié)果分析

        利用Clementine12.0數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)挖掘,并統(tǒng)計(jì)挖掘結(jié)果,如表4所示。

        從表4中可以看出,利用本文方法進(jìn)行數(shù)據(jù)挖掘后,從1268825條正常數(shù)據(jù)中找尋1562條異常數(shù)據(jù)的精度達(dá)到96.38%,高于神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法三種挖掘方法,證明了本研究的有效性。

        3 結(jié)語

        綜上所述,面對(duì)海量的金融審計(jì)數(shù)據(jù),如何有效地從中挖掘出有價(jià)值的潛在信息對(duì)于審計(jì)部門來說至關(guān)重要,為此本文基于數(shù)據(jù)挖掘進(jìn)行金融審計(jì)數(shù)據(jù)分析研究,并取得了一定的成果,但是由于個(gè)人能力有限,還存在不足之處,如在進(jìn)行仿真研究時(shí),樣本數(shù)量并不符合數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的要求,且財(cái)務(wù)指標(biāo)不夠全面,因此得出的結(jié)果可能與實(shí)際結(jié)果存在一定的誤差,因此有待進(jìn)一步的探討和研究。

        參考文獻(xiàn)

        [1] 趙圣偉,吳雨橫.基于金融審計(jì)大數(shù)據(jù)的證券市場異常交易模型探討[J].審計(jì)研究,2018,205(05).

        [2] 朱蕊,田晨,高岑.基于數(shù)據(jù)挖掘的熨法干預(yù)肩周炎藥物使用規(guī)律研究[J].時(shí)珍國醫(yī)國藥,2018,29(09).

        [3] 陳偉,勾東升,徐發(fā)亮.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究[J].中國注冊(cè)會(huì)計(jì)師,2018,234(11).

        [4] 鐘若武,王惠平.基于數(shù)據(jù)挖掘的高校云計(jì)算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù)[J].現(xiàn)代電子技術(shù),2018,41(02).

        猜你喜歡
        聚類算法數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
        K—Means聚類算法在MapReduce框架下的實(shí)現(xiàn)
        基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
        大規(guī)模風(fēng)電場集中接入對(duì)電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于暫態(tài)特征聚類的家用負(fù)荷識(shí)別
        久久婷婷色综合一区二区| 大陆老熟女自拍自偷露脸| 久久精品国产亚洲av麻豆图片| 欧美日韩中文国产一区发布| 国产亚洲精品日韩综合网| 日本加勒比一区二区在线观看| 中文字幕本久久精品一区| 亚洲精品天堂成人片av在线播放| 亚洲国产精品无码久久电影| 精品国产你懂的在线观看| 国产免费操美女逼视频| 挺进邻居丰满少妇的身体| 亚洲暴爽av天天爽日日碰| 国产精品制服一区二区| 中文字幕亚洲在线第一页| 精品九九人人做人人爱| 久久中文精品无码中文字幕| 国产精品不卡无码AV在线播放| 日本人妻97中文字幕| 鲁丝片一区二区三区免费| 亚洲av熟妇高潮30p| 亚洲中文字幕无线乱码va| 邻居美少妇张开腿让我爽了一夜| 国产综合无码一区二区辣椒 | 国模吧无码一区二区三区| 久久久久99人妻一区二区三区| 极品新婚夜少妇真紧| 国产主播在线 | 中文| 一区二区三区国产天堂| 少妇裸体性生交| 最新亚洲av日韩av二区| 日韩精品中文字幕综合| 一道本久久综合久久鬼色| 精品av天堂毛片久久久| 2021国产精品一区二区在线| 一区二区三区在线观看人妖| 国产精品久久久久久久| 毛片网站视频| 久久这黄色精品免费久| 内射人妻无套中出无码| 国产熟妇搡bbbb搡bbbb搡|