亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的異常財(cái)務(wù)數(shù)據(jù)識(shí)別方法研究

        2021-11-10 05:27:08金恒過文俊
        電子設(shè)計(jì)工程 2021年21期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        金恒,過文俊

        (西安航空職業(yè)技術(shù)學(xué)院,陜西西安710089)

        隨著我國(guó)經(jīng)濟(jì)的發(fā)展,上市公司的數(shù)量不斷增多,上市公司提供的財(cái)務(wù)會(huì)計(jì)信息是市場(chǎng)參與者進(jìn)行投資決策的重要依據(jù)。但近年來,上市公司進(jìn)行財(cái)務(wù)數(shù)據(jù)舞弊的行為屢見不鮮。這對(duì)市場(chǎng)和投資者均造成了極大的傷害,破壞了資本市場(chǎng)公平、公正的原則。從市場(chǎng)和投資者的角度出發(fā),如何識(shí)別異常的財(cái)務(wù)數(shù)據(jù),及時(shí)發(fā)現(xiàn)公司的舞弊行為具有重要意義[1-7]。

        對(duì)于異常財(cái)務(wù)數(shù)據(jù)的識(shí)別通常包含兩種模式:一種是基于基礎(chǔ)財(cái)務(wù)知識(shí)的統(tǒng)計(jì)識(shí)別模式,該模式在經(jīng)濟(jì)學(xué)理論的基礎(chǔ)上對(duì)公司進(jìn)行財(cái)務(wù)審計(jì),這種方法更注重于財(cái)務(wù)模型的精確性和共性,而忽略了公司的個(gè)性;另一種是基于數(shù)據(jù)挖掘思想的數(shù)據(jù)分析方法,該模式更注重對(duì)于財(cái)務(wù)數(shù)據(jù)本身的取樣和特征的提取,側(cè)重于數(shù)據(jù)的實(shí)驗(yàn)。該文基于數(shù)據(jù)挖掘的模型,進(jìn)行了財(cái)務(wù)數(shù)據(jù)的分析。在模型的構(gòu)建上,為了解決上市公司成立時(shí)間不同導(dǎo)致數(shù)據(jù)格式在時(shí)間粒度累計(jì)的差異性,和由此引發(fā)的數(shù)據(jù)挖掘模型實(shí)用性差的問題,采用動(dòng)態(tài)時(shí)間規(guī)整算法計(jì)算時(shí)間序列的相似度,對(duì)K 鄰近算法的輸入樣本進(jìn)行了格式統(tǒng)一。仿真結(jié)果表明,文中提出的基于DTW算法的異常財(cái)務(wù)數(shù)據(jù)模型,具有較樸素貝葉斯算法更高的識(shí)別精度[8-15]。

        1 模型設(shè)計(jì)

        1.1 動(dòng)態(tài)時(shí)間規(guī)整算法

        對(duì)于財(cái)務(wù)數(shù)據(jù)的處理和分析需要依托于公司的財(cái)務(wù)數(shù)據(jù),由于公司的成立時(shí)間不同,不同公司間財(cái)務(wù)數(shù)據(jù)的采集時(shí)間粒度不同。這導(dǎo)致了數(shù)據(jù)格式在時(shí)間維度上的累積不同,時(shí)間跨度無法做到統(tǒng)一。一般的數(shù)據(jù)挖掘模型難以在該場(chǎng)景下發(fā)揮自身的性能,因此該文引入動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)進(jìn)行財(cái)務(wù)數(shù)據(jù)的處理與分析。其基本原理如下:

        設(shè)測(cè)試數(shù)據(jù)集為R,訓(xùn)練數(shù)據(jù)集為T,各個(gè)數(shù)據(jù)集樣本的維度分別是m和n。對(duì)于監(jiān)督性學(xué)習(xí)算法,需要比對(duì)測(cè)試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集間的相似度。此時(shí),可通過計(jì)算樣本間的歐式距離D來衡量樣本的相似度,當(dāng)n=m時(shí):

        當(dāng)n≠m時(shí),需要引入動(dòng)態(tài)規(guī)劃的思想進(jìn)行D的計(jì)算。

        如圖1所示,將測(cè)試樣本的序號(hào)在直角坐標(biāo)系的x軸上標(biāo)注;將訓(xùn)練樣本在y軸上標(biāo)注。此時(shí),可以在坐標(biāo)軸上形成縱橫交錯(cuò)的網(wǎng)格,網(wǎng)格的交叉點(diǎn)是測(cè)試樣本與訓(xùn)練樣本的交匯。同時(shí)需要尋找一條從坐標(biāo)軸左下角出發(fā)右上角結(jié)束的路徑,將這條路徑經(jīng)過的第i個(gè)點(diǎn)記為(ni,mi),路徑函數(shù)記為:

        圖1 DTW算法路徑搜索原理

        在路徑搜索時(shí),需要對(duì)斜率進(jìn)行約束,以保證路徑的走向,通常斜率的變化范圍是0.5~2。當(dāng)路徑在當(dāng)前時(shí)刻通過的點(diǎn)為(ni-1,mi-1)時(shí),其下一點(diǎn)的所有可能情況為:

        此時(shí),將式(3)作為約束條件,求解式(1)中的最佳路徑,以最短路徑為優(yōu)化目標(biāo),得到目標(biāo)函數(shù):

        對(duì)于坐標(biāo)軸中的任意點(diǎn),在路徑搜索的過程中,最終只有一條路徑可以穿過。因此對(duì)于(ni,mi),其路徑上的前一點(diǎn)也只有3種情況,即(ni-1,mi)、(ni-1,mi-1-1)或(ni-1,mi-2)。此時(shí),需要選擇(ni,mi)點(diǎn)到這3 種情況下兩點(diǎn)距離最短的點(diǎn)作為路徑上的前一節(jié)點(diǎn)。此時(shí),可以得到路徑的總距離為:

        其中,ni-1和mi-1的確定方式如下:

        此時(shí),可以通過逐點(diǎn)前向迭代的方式得到整條路徑。

        1.2 基于動(dòng)態(tài)彎折的改進(jìn)DTW算法

        在上文中,DTW 算法在路徑搜索過程中對(duì)于路徑彎折的斜率進(jìn)行了限制。但實(shí)際的迭代過程中,存在著無法滿足該限制條件的點(diǎn)。以圖2為例,圖2中的菱形在進(jìn)行距離匹配時(shí),其格點(diǎn)之外的距離無需計(jì)算。由于菱形的幾何特性,在計(jì)算中也無需保存所有步驟的累計(jì)距離。因此,可以在計(jì)算時(shí)間和計(jì)算開銷上對(duì)1.1 節(jié)中的算法進(jìn)行優(yōu)化。

        圖2 算法路徑約束示意圖

        在圖2中,將實(shí)際的彎折劃分為3 個(gè)路徑段,分別是(1,Xa)、(Xa+1,Xb)、(Xb+1,N),其坐標(biāo)存在以下關(guān)系:

        將Xa與Xb取為相近的整數(shù),此時(shí)可以得到動(dòng)態(tài)彎折匹配的約束條件:

        引入動(dòng)態(tài)彎折后,無需再將X軸上的特征向量與Y軸點(diǎn)對(duì)應(yīng)的特征向量進(jìn)行比對(duì)。只需要與[ymin,ymax]內(nèi)的特征向量分別進(jìn)行比對(duì)即可,這個(gè)區(qū)間端點(diǎn)的計(jì)算方式如下:

        此時(shí),距離累計(jì)的更新方法如下:

        根據(jù)式(11)所示,當(dāng)X軸上的時(shí)間標(biāo)號(hào)逐步前進(jìn)時(shí),只需要關(guān)注前一列的累計(jì)距離即可。因此,該算法無需保存全部的距離矩陣,從而實(shí)現(xiàn)節(jié)省運(yùn)行所需內(nèi)存的目的。具體的更新方法如圖3所示。

        圖3 累計(jì)距離更新方法

        2 方法實(shí)現(xiàn)

        2.1 實(shí)驗(yàn)設(shè)計(jì)

        為了評(píng)估算法的性能,需要進(jìn)行公司財(cái)務(wù)數(shù)據(jù)的搜集與清洗。該文選取了RESSET 金融數(shù)據(jù)庫中對(duì)外公布的上市公司相關(guān)數(shù)據(jù)。在2010-2020年的所有公司中,剔除數(shù)據(jù)缺失的相關(guān)公司,篩選了100家上市公司。同時(shí),該文還從該時(shí)間段內(nèi)存在財(cái)務(wù)舞弊的公司中,篩選了100 家公司及其財(cái)務(wù)數(shù)據(jù),共同組成了包含200 家公司的數(shù)據(jù)集。

        該文實(shí)現(xiàn)算法的仿真平臺(tái)參數(shù)如表1所示。

        表1 計(jì)算環(huán)境參數(shù)

        圖4給出了基于DTW 算法的財(cái)務(wù)數(shù)據(jù)分析處理流程。

        由圖4可以看出,該文算法需要將財(cái)務(wù)數(shù)據(jù)表示為時(shí)間序列。對(duì)于一個(gè)單位,分別使用式(12)、式(13)作為訓(xùn)練樣本和測(cè)試樣本的時(shí)間序列標(biāo)號(hào):

        圖4 算法流程

        其中,m、n分別是訓(xùn)練樣本和測(cè)試樣本的時(shí)序標(biāo)號(hào),M、N分別是訓(xùn)練樣本與測(cè)試樣本對(duì)應(yīng)的年份總數(shù)。在機(jī)器學(xué)習(xí)算法中,為了保障算法的性能,需要引入合適的特征對(duì)測(cè)試集、訓(xùn)練集的數(shù)據(jù)進(jìn)行描述,這些特征組合為數(shù)據(jù)集的特征向量。特征向量的維度,對(duì)于算法的訓(xùn)練測(cè)試效果具有深刻的影響。在異常財(cái)務(wù)數(shù)據(jù)的識(shí)別中,需要引入表征財(cái)務(wù)特征的相關(guān)數(shù)據(jù),該文引入的表征財(cái)務(wù)特征的數(shù)據(jù)如表2所示。

        表2 算法使用的財(cái)務(wù)數(shù)據(jù)信息

        根據(jù)圖4所示的算法流程,基于DTW 算法計(jì)算時(shí)間序列的間距,然后使用K 鄰近算法得到序列的分類結(jié)果。當(dāng)同一公司正常的財(cái)務(wù)數(shù)據(jù)數(shù)大于異常數(shù)時(shí),將該公司的狀態(tài)置為正常;當(dāng)該公司正常的財(cái)務(wù)數(shù)據(jù)數(shù)小于異常數(shù)時(shí),將該公司的狀態(tài)置為異常。

        2.2 算法仿真結(jié)果

        在進(jìn)行算法的仿真時(shí),為了提高獲取的數(shù)據(jù)集的利用效率,文中使用k重交叉驗(yàn)證的方式進(jìn)行算法的訓(xùn)練與測(cè)試。在k重交叉驗(yàn)證時(shí),首先將所有的數(shù)據(jù)劃分為維度相同的k個(gè)子集。在劃分過程中,需要保證子集之間互不相交,且有同樣的概率分布。然后選擇其中的一個(gè)作為測(cè)試集,其余的作為訓(xùn)練集。交叉驗(yàn)證后,可以得到混淆矩陣。該文得到的混淆矩陣形式如表3所示。

        表3 交叉驗(yàn)證混淆矩陣

        在表3中,A 代表公司為異常、算法預(yù)測(cè)結(jié)果也是異常的公司;B 代表公司為異常、算法預(yù)測(cè)為正常的公司;C 代表公司為正常、算法預(yù)測(cè)為異常的公司;D 代表公司為正常、算法預(yù)測(cè)為正常的公司。該文在進(jìn)行k重交叉驗(yàn)證時(shí),取k為10,這樣就得到了10 組預(yù)測(cè)結(jié)果。為了更優(yōu)地評(píng)估算法性能,使用樸素貝葉斯分類算法進(jìn)行對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

        表4 基于BP神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果

        從表4可以看出,該文算法在進(jìn)行異常財(cái)務(wù)數(shù)據(jù)的識(shí)別時(shí),每組數(shù)據(jù)的正確識(shí)別率基本都達(dá)到了80%,且均明顯高于樸素貝葉斯算法的識(shí)別準(zhǔn)確率。表4的結(jié)果證明了文中算法相較于現(xiàn)有的貝葉斯算法,在異常財(cái)務(wù)數(shù)據(jù)的識(shí)別上具有更優(yōu)的性能和應(yīng)用前景。

        3 結(jié)束語

        文中針對(duì)公司財(cái)務(wù)數(shù)據(jù)分析需求,從時(shí)間序列處理的角度進(jìn)行了研究。基于動(dòng)態(tài)時(shí)間規(guī)整算法,解決了不同時(shí)間維度下時(shí)間序列處理的問題?;趧?dòng)態(tài)彎折的思想,算法在迭代過程中無需存儲(chǔ)所有的距離矩陣,從而節(jié)約了算法運(yùn)行時(shí)的存儲(chǔ)需求。最終通過對(duì)比仿真,驗(yàn)證了文中算法可以取得比貝葉斯算法更優(yōu)的識(shí)別正確率,說明該文算法可以應(yīng)用到異常財(cái)務(wù)數(shù)據(jù)識(shí)別的場(chǎng)景中。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        国产亚洲一区二区三区成人| 成在人线av无码免观看麻豆| 78成人精品电影在线播放| 日本熟妇精品一区二区三区| 精品三级国产一区二区三| 一本精品99久久精品77| 精品久久久久久久中文字幕| 国产成人啪精品视频免费网| 精品麻豆一区二区三区乱码| 日日拍夜夜嗷嗷叫国产| 亚洲另类精品无码专区| 亚洲国产日韩在线精品频道| 国产三级av大全在线爽| 乱中年女人伦av三区| 精品一区二区三区在线观看 | 男人的天堂av一二三区| 人妻少妇精品专区性色anvn| 韩国三级中文字幕hd| 在线综合网| 一本色道久久综合亚州精品| 国产内射一级一片内射视频| 亚洲av日韩专区在线观看| 日本一区二区啪啪视频| 在线女同免费观看网站| 东北少妇不戴套对白第一次| 国产成a人亚洲精v品无码性色| 91精品欧美综合在线观看| 国产精品亚洲综合久久系列| 亚洲日韩久久综合中文字幕| 亚洲精品你懂的在线观看| 亚洲一区二区三区成人在线| 国产人成精品免费久久久| 国产在线精品成人一区二区三区 | 亚洲毛片av一区二区三区| 国产桃色一区二区三区| 精品少妇人妻av无码久久| 国产精品无码久久久一区蜜臀 | 成人偷拍自拍视频在线观看| 国产精品无圣光一区二区| 日韩精品成人无码AV片| 亚洲白嫩少妇在线喷水|