亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類分析視角下審計(jì)對(duì)象分類與抽樣研究

        2019-09-10 13:38:55李鋒
        中國內(nèi)部審計(jì) 2019年5期

        李鋒

        [摘要]通過聚類分析法收集機(jī)構(gòu)所在區(qū)域金融風(fēng)險(xiǎn)、內(nèi)部控制、內(nèi)部審計(jì)等相關(guān)數(shù)據(jù),使用Python語言將機(jī)構(gòu)分成群組,研究各群組內(nèi)部各機(jī)構(gòu)間的異同,從而分析全行經(jīng)營管理情況,較好地平衡審計(jì)對(duì)象抽樣數(shù)量和審計(jì)覆蓋的有效性,降低審計(jì)風(fēng)險(xiǎn)。

        [關(guān)鍵詞]聚類分析 審計(jì)對(duì)象 內(nèi)部審計(jì) Python

        編制審計(jì)計(jì)劃時(shí),有必要對(duì)審計(jì)對(duì)象進(jìn)行合理

        分類,再基于分類配置審計(jì)資源,在保證審計(jì)覆蓋率的基礎(chǔ)上,提高審計(jì)投入產(chǎn)出效率,有效降低審計(jì)風(fēng)險(xiǎn)。在審計(jì)對(duì)象特征值的維度為個(gè)位數(shù)時(shí),分類相對(duì)比較簡單,人工處理也比較直觀。但當(dāng)審計(jì)對(duì)象的特征維度增多,特征的量綱差異變大時(shí),簡單的分類方法就難以奏效,需要借助數(shù)據(jù)挖掘中的聚類分析方法進(jìn)行分類。

        一、聚類分析概述

        聚類分析是把數(shù)據(jù)分類成子集或簇的過程,每個(gè)簇中的對(duì)象相似而與其他簇中的對(duì)象相異,這些子集或簇的集合叫聚類。聚類分析是一種無監(jiān)督學(xué)習(xí),又稱自動(dòng)分類,具有鮮明的數(shù)據(jù)挖掘功能,即事先并不需要知道聚類分析后形成的簇群個(gè)數(shù)或?qū)哟谓Y(jié)構(gòu),而是自動(dòng)根據(jù)不同維度特征值之間的距離,通過無監(jiān)督學(xué)習(xí)和自動(dòng)收斂,發(fā)現(xiàn)事先不能預(yù)見的聚類,從而較大程度地避免主觀判斷對(duì)分類的影響。

        基本的聚類算法包括劃分方法、層次方法、基于密度和基于網(wǎng)格的方法等。不論采用哪種方法,對(duì)聚類的可行性和聚類結(jié)果的質(zhì)量進(jìn)行評(píng)估至關(guān)重要。評(píng)估包括三個(gè)方面:一是估計(jì)聚類的趨勢(shì)。即評(píng)估數(shù)據(jù)集均勻分布的概率,因?yàn)閿?shù)據(jù)如果均勻分布,聚類沒有任何意義,換句話說,數(shù)據(jù)應(yīng)該具有非隨機(jī)結(jié)構(gòu),一般可以用霍普金斯統(tǒng)計(jì)量來檢驗(yàn)變量的空間隨機(jī)性。二是選擇最優(yōu)的分類簇?cái)?shù)。假設(shè)數(shù)據(jù)集有n個(gè)樣本,那么簇?cái)?shù)應(yīng)該在1和n之間,決定聚類后的簇?cái)?shù)實(shí)際上就是一個(gè)顆粒度大小的問題,最適宜的簇?cái)?shù)依賴于數(shù)據(jù)集分布的形狀和尺度。三是評(píng)估聚類結(jié)果的質(zhì)量。在有基準(zhǔn)可用的情況下,可以采用外在方法(監(jiān)督方法)將聚類與基準(zhǔn)比較;若沒有基準(zhǔn)可用,可以用輪廓系數(shù)等工具來衡量簇的分離情況和緊湊情況。

        二、聚類分析在審計(jì)對(duì)象分類與抽樣中的應(yīng)用

        商業(yè)銀行內(nèi)部審計(jì)部門在年初制訂審計(jì)計(jì)劃時(shí),需要考慮審計(jì)時(shí)間、人力等資源的限制,需要平衡審計(jì)對(duì)象的抽樣數(shù)量和審計(jì)覆蓋面,既保證審計(jì)評(píng)價(jià)的有效性,又要降低審計(jì)風(fēng)險(xiǎn)。比如,在規(guī)劃確定信用風(fēng)險(xiǎn)重點(diǎn)檢查機(jī)構(gòu)時(shí),首先需要根據(jù)機(jī)構(gòu)所處的區(qū)域環(huán)境、資產(chǎn)規(guī)模、資產(chǎn)質(zhì)量、風(fēng)險(xiǎn)隱患程度、主管部門的考核排名、上一年度審計(jì)報(bào)告揭示的重大問題數(shù)量等維度,對(duì)機(jī)構(gòu)進(jìn)行全方位的風(fēng)險(xiǎn)評(píng)估和分級(jí)分類,然后基于風(fēng)險(xiǎn)導(dǎo)向原則確定審計(jì)對(duì)象。由于描述機(jī)構(gòu)的特征值維度較多,每個(gè)維度指標(biāo)僅能刻畫審計(jì)對(duì)象的某個(gè)方面,所有指標(biāo)相互配合共同刻畫審計(jì)對(duì)象的特征。指標(biāo)變量選擇越準(zhǔn)確、測(cè)量越可靠,得到的分類結(jié)果就越能準(zhǔn)確地描述審計(jì)對(duì)象間的本質(zhì)區(qū)別,簡單的篩選和分類無法進(jìn)行全面完整的處理,而機(jī)器學(xué)習(xí)算法中的聚類分析可以根據(jù)多維空間距離對(duì)審計(jì)對(duì)象進(jìn)行分組。

        (一)聚類分析指標(biāo)設(shè)計(jì)和數(shù)據(jù)處理

        1.指標(biāo)體系設(shè)計(jì)。對(duì)信用風(fēng)險(xiǎn)審計(jì)對(duì)象的選擇,不僅要考慮機(jī)構(gòu)發(fā)展與風(fēng)險(xiǎn)的平衡能力、內(nèi)部控制情況,還要考慮第三方監(jiān)督、所在區(qū)域的總體風(fēng)險(xiǎn)狀況。綜合考量,選取5個(gè)維度9類指標(biāo),如表1所示。

        2.數(shù)據(jù)分析工具。Python是一種解釋型、面向?qū)ο?、?dòng)態(tài)數(shù)據(jù)類型的高級(jí)程序設(shè)計(jì)語言,具有豐富強(qiáng)大的庫,功能全面。其中Pandas庫可用于Excel文件的讀寫,Matplotlib庫可以可視化展現(xiàn)數(shù)據(jù)分析結(jié)果,Sklearn和Scipy庫包含大量機(jī)器學(xué)習(xí)的算法,包括各類聚類分析算法。本文基于Python環(huán)境引入Pandas、Matplotlib、Sklearn和Scipy庫,對(duì)機(jī)構(gòu)的多維度數(shù)據(jù)進(jìn)行聚類分析,在此基礎(chǔ)上進(jìn)行審計(jì)對(duì)象抽樣。

        3.數(shù)據(jù)處理和檢驗(yàn)。

        (1)對(duì)數(shù)據(jù)進(jìn)行歸一化處理。從上述9類指標(biāo)的數(shù)據(jù)類型看,有的是余額,有的是百分比,有的是排名,量綱差異比較大,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,減少量綱差異對(duì)結(jié)果的影響。采用常見的Z-Score方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理,代碼如下:

        #讀取數(shù)據(jù)

        import pandas as pd

        df0=pd.read_excel(u'機(jī)構(gòu)多維度數(shù)據(jù).xlsx')

        #對(duì)數(shù)據(jù)進(jìn)行歸一化處理

        df_zscore=(df0-df0.mean( ))/df0.std( )

        處理后的指標(biāo)數(shù)據(jù)前5條記錄如圖1所示。

        (2)分析指標(biāo)的相關(guān)程度。由于涉及的數(shù)據(jù)類別較多,還需分析指標(biāo)之間的相關(guān)程度,避免過擬合。用Pandas庫自帶的相關(guān)系數(shù)計(jì)算函數(shù)指標(biāo)間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)。代碼如下:

        #計(jì)算指標(biāo)間的相關(guān)系數(shù)

        df_zscore.corr()

        指標(biāo)間的相關(guān)系數(shù)如圖2所示。

        從數(shù)據(jù)看,除了不良率與綜合競(jìng)爭力呈現(xiàn)較高的負(fù)相關(guān)(-0.858859),其他指標(biāo)間的相關(guān)程度較弱??紤]到不良率與綜合競(jìng)爭力相關(guān)有其業(yè)務(wù)合理性,故所有指標(biāo)都參與最后的分析。

        (3)選擇最優(yōu)的分類簇?cái)?shù)。聚類分類是一種無監(jiān)督的分類方法,但在不同的分類簇?cái)?shù)情況下,簇之間的特征差異不同,分類的區(qū)分度也不同。一般選用輪廓系數(shù)法來評(píng)估不同簇?cái)?shù)分類的區(qū)分度,在合理分組的情況下,平均輪廓系數(shù)最大的就是最優(yōu)的分類簇?cái)?shù)。

        #通過輪廓系數(shù)法計(jì)算最優(yōu)簇?cái)?shù)k

        from sklearn.metrics import silhouette_score

        Scores=[ ]#存放輪廓系數(shù)

        for k in range(2,18):

        estimator=Agglomerative Clustering(n_clusters=k,affinity='euclidean',linkage='ward')

        estimator.fit(df_zscore)

        Scores.append(silhouette_score(df_zscore,

        estimator.labels_,metric='euclidean'))

        plt.xlabel(u'簇?cái)?shù)k')

        plt.ylabel(u'輪廓系數(shù)')

        plt.plot(range(2,18),Scores,'o-')

        plt.axvline(Scores.index(max(Scores))+2,color='red',linestyle='--')

        plt.annotate(u'最優(yōu)簇6',xy=(6.3,0.23),xytext=(9.3,0.19),arrowprops=dict(facecolor='red',shrink=0.01))

        plt.title(u'輪廓系數(shù)計(jì)算\n')

        plt.xlim(2,18)

        plt.show( )

        從結(jié)果看,采取層次聚類法,將機(jī)構(gòu)分成2到18簇的情況下,最優(yōu)簇?cái)?shù)為6,輪廓系數(shù)法計(jì)算結(jié)果如圖3所示。

        (二)聚類分析結(jié)果及評(píng)價(jià)

        根據(jù)上述對(duì)數(shù)據(jù)集簇?cái)?shù)的計(jì)算,確定將聚類分成6個(gè)簇(群組)進(jìn)行分析較為合適,每一簇內(nèi)的機(jī)構(gòu)在內(nèi)外部風(fēng)險(xiǎn)形勢(shì)、內(nèi)控水平和綜合競(jìng)爭力等方面的特征相似。分層聚類并可視化展現(xiàn)的代碼如下:

        from sklearn import metrics

        fig,ax=plt.subplots(figsize=(10,8))

        Z=hierarchy.linkage(df_zscore,method='ward',metric='euclidean')

        P=hierarchy.dendrogram(Z,orientation="left",labels=df_zscore.index)

        plt.axvline(4.8,color='yellow',label='66')

        plt.title(u"機(jī)構(gòu)分層聚類分析結(jié)果\n",{'fontname':'SimHei','fontsize':18})

        plt.show( )

        運(yùn)行后得到的聚類分析譜系圖如圖4所示。垂直黃線為最優(yōu)分組閾值,黃線右側(cè)莖葉及其子葉為同一簇(群組)的機(jī)構(gòu)。

        依據(jù)聚類分析譜系圖,將20家機(jī)構(gòu)分類進(jìn)一步整理成表格,如表2所示。

        第一簇包括機(jī)構(gòu)04、機(jī)構(gòu)03、機(jī)構(gòu)17和機(jī)構(gòu)16,都處于經(jīng)濟(jì)欠發(fā)達(dá)地區(qū),區(qū)域金融風(fēng)險(xiǎn)等級(jí)為低,綜合競(jìng)爭力和內(nèi)控水平較低,業(yè)務(wù)規(guī)模較小,審計(jì)發(fā)現(xiàn)問題較多。其中,機(jī)構(gòu)04和機(jī)構(gòu)03所在的兩省地域相連、資源稟賦相近,分在一起具有合理性。

        第二簇包括機(jī)構(gòu)09、機(jī)構(gòu)08、機(jī)構(gòu)15和機(jī)構(gòu)10。其中機(jī)構(gòu)08和機(jī)構(gòu)09位于同一地區(qū),所在區(qū)域經(jīng)濟(jì)處于上行階段、償債率指標(biāo)低、區(qū)域金融風(fēng)險(xiǎn)處于中低程度,兩家機(jī)構(gòu)的綜合競(jìng)爭力和內(nèi)控排名靠前,審計(jì)發(fā)現(xiàn)的重要問題也比較多。機(jī)構(gòu)15和機(jī)構(gòu)10分在一起出乎意料,機(jī)構(gòu)15業(yè)務(wù)發(fā)展和內(nèi)控水平都處于中游;機(jī)構(gòu)10綜合競(jìng)爭力排名靠前,但內(nèi)控排名相對(duì)落后。

        第三簇包括機(jī)構(gòu)14和機(jī)構(gòu)13,都是資產(chǎn)規(guī)模較大、內(nèi)控評(píng)級(jí)靠前、資產(chǎn)質(zhì)量優(yōu)質(zhì)的大型機(jī)構(gòu),區(qū)域經(jīng)濟(jì)發(fā)達(dá)、金融風(fēng)險(xiǎn)等級(jí)為中,但兩家機(jī)構(gòu)的綜合競(jìng)爭力近年來出現(xiàn)下滑趨勢(shì)。

        第四簇包括機(jī)構(gòu)07、機(jī)構(gòu)06和機(jī)構(gòu)12,三家機(jī)構(gòu)這幾年經(jīng)營比較困難,資產(chǎn)質(zhì)量較差,綜合競(jìng)爭力和內(nèi)控排名靠后,審計(jì)發(fā)現(xiàn)的問題數(shù)量處于平均水平。

        第五簇包括機(jī)構(gòu)11、機(jī)構(gòu)01、機(jī)構(gòu)02和機(jī)構(gòu)05,四家機(jī)構(gòu)位于同一地區(qū),其中機(jī)構(gòu)11和機(jī)構(gòu)01規(guī)模相近,管理基礎(chǔ)較薄弱,內(nèi)控水平較差;機(jī)構(gòu)02的規(guī)模明顯小于其他三家,審計(jì)發(fā)現(xiàn)問題較少,綜合競(jìng)爭力和內(nèi)控排名不是很靠前;機(jī)構(gòu)05所在區(qū)域經(jīng)濟(jì)發(fā)達(dá)、金融風(fēng)險(xiǎn)程度為中,前幾年不良貸款暴露較多,但經(jīng)過前期清收和處置后,不良率已降到較低水平。

        第六簇包括機(jī)構(gòu)19、機(jī)構(gòu)18和機(jī)構(gòu)20,三家機(jī)構(gòu)地域相鄰,面臨相同的區(qū)域風(fēng)險(xiǎn)形勢(shì)和金融生態(tài),金融風(fēng)險(xiǎn)等級(jí)為高,尤其是信貸缺口高,表明金融系統(tǒng)對(duì)損失的化解能力差;三家機(jī)構(gòu)存量資產(chǎn)的質(zhì)量差,內(nèi)部綜合競(jìng)爭力和內(nèi)控排名靠后。

        三、研究結(jié)論和應(yīng)用建議

        (一)研究結(jié)論

        1.從聚類分簇看,20家機(jī)構(gòu)具有明顯的聚集特征,機(jī)構(gòu)之間具有簇內(nèi)相似性和簇間相異性,結(jié)合持續(xù)審計(jì)掌握的情況,聚類結(jié)果具有較強(qiáng)的準(zhǔn)確性。

        2.聚類結(jié)果顛覆了對(duì)一些機(jī)構(gòu)的傳統(tǒng)認(rèn)識(shí),一些機(jī)構(gòu)情況已經(jīng)發(fā)生了實(shí)質(zhì)性變化,需要調(diào)整審計(jì)策略,有效降低審計(jì)風(fēng)險(xiǎn)。

        3.聚類結(jié)果有助于預(yù)估各家機(jī)構(gòu)的審計(jì)風(fēng)險(xiǎn)、審計(jì)開展的難易程度及審計(jì)工作量,可以根據(jù)各級(jí)審計(jì)機(jī)構(gòu)的能力范圍和業(yè)務(wù)專長,合理搭配和安排審計(jì)項(xiàng)目。

        (二)應(yīng)用建議

        聚類分析應(yīng)盡可能選擇有代表性的指標(biāo),如果指標(biāo)變量過多、關(guān)聯(lián)度高,容易導(dǎo)致分類不精確。在一些研究中采用因子分析降低維數(shù),選取重點(diǎn)的有代表性的指標(biāo)作聚類分析,以保證分類結(jié)果的精確性。還有一些研究采用主成分分析和因子分析的多元統(tǒng)計(jì)方法,計(jì)算提取主成分和公共因子,然后再進(jìn)行聚類分析。

        (作者單位:交通銀行總行審計(jì)監(jiān)督局,郵政編碼:200120,電子郵箱:158845434@qq.com)

        主要參考文獻(xiàn)

        曹曉俊.對(duì)我國上市銀行經(jīng)營業(yè)績的分析:基于主成分分析、因子分析和聚類分析的方法[J].宿州學(xué)院學(xué)報(bào), 2016(7):25-29

        丁紅艷,陳建,張敏.基于因子分析和聚類分析的新疆各地區(qū)經(jīng)濟(jì)發(fā)展水平綜合評(píng)價(jià)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2016(4):36-43

        彭振江,楊李娟.金融周期視角下區(qū)域金融風(fēng)險(xiǎn)差異化防控研究[J].金融監(jiān)管研究, 2017(5):50-67

        Jiawei Han, Micheline Kamber, Jian Pei.范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社, 2012

        亚洲精品一区二区在线免费观看 | 综合久久青青草免费观看视频| 亚洲精品中字在线观看| 日韩av无码一区二区三区不卡| 亚洲国产av导航第一福利网| 日本在线观看不卡| 国产成人影院一区二区| 亚洲av一区二区国产精品| 激情视频在线观看好大| 国产精品乱码人妻一区二区三区 | 优优人体大尺大尺无毒不卡 | 国产人成午夜免电影观看| 国产亚洲三级在线视频| 亚洲国产色婷婷久久精品| 久久久久久亚洲av无码蜜芽| 久久中文字幕乱码免费| 日本久久精品在线播放| 亚洲精品一品区二品区三区| 插b内射18免费视频| 国产人在线成免费视频麻豆| 国产99视频一区二区三区 | 高清少妇一区二区三区| 少妇人妻精品久久888| 疯狂做受xxxx高潮视频免费| 厨房玩丰满人妻hd完整版视频| 无码av专区丝袜专区| 日本视频一区二区三区在线观看| 亚洲精品久久一区二区三区777| 免费观看国产精品| 国产精品毛片av一区二区三区| 久久精品国产亚洲av精东| 伊人狠狠色丁香婷婷综合| 91亚洲国产三上悠亚在线播放| 丰满少妇av一区二区三区 | 国产精品无码人妻在线| 国产真实乱人偷精品人妻| 亚洲国产一区久久yourpan| 亚洲麻豆视频免费观看| 国产精品无圣光一区二区| 国产精品久久国产三级国电话系列| 在线观看一区二区三区国产|