董亞曉,楊寒冰,樊浩
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
企業(yè)的財(cái)務(wù)狀況時(shí)刻發(fā)生著變化,面臨著內(nèi)部與外部的多重因素影響。如何迅速、精確地智能化分析企業(yè)的財(cái)務(wù)數(shù)據(jù),并準(zhǔn)確判斷企業(yè)的運(yùn)營(yíng)情況,對(duì)于資本市場(chǎng)具有重要的實(shí)用價(jià)值[1-5]。
當(dāng)前,隨著人工智能技術(shù)的發(fā)展,借助計(jì)算機(jī)技術(shù)構(gòu)建智能化的財(cái)務(wù)數(shù)據(jù)分析模型,實(shí)現(xiàn)異常財(cái)務(wù)數(shù)據(jù)的識(shí)別與告警是“金融+計(jì)算機(jī)”融合趨勢(shì)的重要表現(xiàn)之一,但現(xiàn)有的分析算法存在效率低、準(zhǔn)確率差的缺點(diǎn)。為了克服這些缺點(diǎn),文中對(duì)分布式強(qiáng)化學(xué)習(xí)算法進(jìn)行了研究。通過(guò)建立合理的財(cái)務(wù)數(shù)據(jù)分析指標(biāo)體系,實(shí)現(xiàn)了對(duì)異常財(cái)務(wù)數(shù)據(jù)的識(shí)別[6-12]。
強(qiáng)化學(xué)習(xí)的靈感來(lái)源于人類對(duì)動(dòng)物學(xué)習(xí)行為的觀察,強(qiáng)化學(xué)習(xí)是一個(gè)典型的人工智能系統(tǒng)。該系統(tǒng)通過(guò)感知環(huán)境的變化,采取試探性動(dòng)作。同時(shí)系統(tǒng)感知這一動(dòng)作的反饋結(jié)果,以評(píng)判狀態(tài)的適應(yīng)度。系統(tǒng)不斷重復(fù)這一反饋的過(guò)程,從而得到該環(huán)境下的最優(yōu)反應(yīng)行為。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的學(xué)習(xí)載體通常只有一個(gè),近年來(lái),隨著計(jì)算機(jī)運(yùn)算能力的增強(qiáng),多個(gè)學(xué)習(xí)單元的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)成為了研究的熱點(diǎn)之一。分布式強(qiáng)化學(xué)習(xí)系統(tǒng)包含:中央強(qiáng)化學(xué)習(xí)、獨(dú)立強(qiáng)化學(xué)習(xí)、群體強(qiáng)化學(xué)習(xí)等多個(gè)類別,文中使用了中央強(qiáng)化學(xué)習(xí)系統(tǒng)[13-16]。
圖1 給出了中央強(qiáng)化學(xué)習(xí)的體系結(jié)構(gòu)圖。對(duì)于中央強(qiáng)化學(xué)習(xí)方法,可以用數(shù)學(xué)形式表述為:
圖1 中央強(qiáng)化學(xué)習(xí)體系結(jié)構(gòu)圖
其中,W代表RLC系統(tǒng)環(huán)境變量的集合,L是學(xué)習(xí)單元的集合,E是執(zhí)行單元的集合。W、E各自的定義形式如下:
在環(huán)境變量集合W的定義中,S是這一環(huán)境下所有可能出現(xiàn)的不同狀態(tài);Δ由若干個(gè)轉(zhuǎn)移向量組成,代表S中不同狀態(tài)的轉(zhuǎn)移概率;T是狀態(tài)環(huán)境的轉(zhuǎn)移映射集合,根據(jù)W中變量的定義,可以得到式(3)所示的關(guān)系:
W中包含了環(huán)境強(qiáng)化模塊R。該模塊通過(guò)<環(huán)境,動(dòng)作>這樣的指令對(duì),映射成如下所示的實(shí)數(shù)型激勵(lì):
在RLC系統(tǒng)中,L是系統(tǒng)的學(xué)習(xí)單元,其定義如式(6)所示。
其中,X={x1,x2,…,xn}是學(xué)習(xí)單元輸入的集合,I是從環(huán)境狀態(tài)S到學(xué)習(xí)單元的映射,P是L的學(xué)習(xí)測(cè)率,根據(jù)這些定義可以得到式(7):
對(duì)于RLC系統(tǒng),其學(xué)習(xí)模塊并不具有主動(dòng)學(xué)習(xí)的能力,因此可以被動(dòng)執(zhí)行所得到的任務(wù),通過(guò)相關(guān)的學(xué)習(xí)算法對(duì)策略模塊的參數(shù)進(jìn)行優(yōu)化。
對(duì)于強(qiáng)化系統(tǒng)而言,某一次對(duì)于系統(tǒng)的激勵(lì)是存在延遲的,所以系統(tǒng)的某一次響應(yīng)可能是由于很早之前的某次動(dòng)作引起。為了解決這種延遲問(wèn)題,文中引入了瞬時(shí)差分(Temporal Difference,TD)算法,該算法可以在學(xué)習(xí)中同步之前狀態(tài)的經(jīng)驗(yàn)。對(duì)于具體的TD 算法而言,首先定義了m+1 個(gè)不同時(shí)刻的狀態(tài)si,觀測(cè)數(shù)據(jù)以及每個(gè)狀態(tài)的預(yù)測(cè)值Vi:
在TD 算法的學(xué)習(xí)過(guò)程中,對(duì)于t時(shí)刻,無(wú)需等到獲得最終預(yù)測(cè)值y后再進(jìn)行狀態(tài)修正,而在t+1 時(shí)刻即可進(jìn)行更新,即:
在實(shí)現(xiàn)TD 算法時(shí),需要引入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)V(st)進(jìn)行記錄。此時(shí),TD 算法中的學(xué)習(xí)過(guò)程可以使用規(guī)則,如式(10)所示。
的修正需要依據(jù)“預(yù)測(cè)值-實(shí)際值”誤差的反向傳播,首先定義誤差函數(shù),如式(11)所示。
對(duì)企業(yè)的財(cái)務(wù)進(jìn)行實(shí)時(shí)分析,及時(shí)發(fā)現(xiàn)異常財(cái)務(wù)數(shù)據(jù)并發(fā)出預(yù)警,是資本市場(chǎng)的需求之一。因此,在構(gòu)建財(cái)務(wù)指標(biāo)體系時(shí)需要遵循真實(shí)性、系統(tǒng)性、科學(xué)性與可行性等多個(gè)原則。所以,指標(biāo)的選擇需要綜合反應(yīng)公司的償債、營(yíng)運(yùn)、盈利、成長(zhǎng)等多個(gè)方面。此外,企業(yè)的運(yùn)行數(shù)據(jù)并非僅包含財(cái)務(wù)指標(biāo),非財(cái)務(wù)指標(biāo)也可以反映公司的財(cái)務(wù)狀況。因此,在建立指標(biāo)體系時(shí)也能夠適當(dāng)引入。綜合以上討論,文中建立了圖2 所示的財(cái)務(wù)指標(biāo)體系。
從圖2 中可以看出,指標(biāo)體系包含財(cái)務(wù)類與非財(cái)務(wù)類指標(biāo)。財(cái)務(wù)類指標(biāo)除了可以反映企業(yè)的償債、營(yíng)運(yùn)、盈利、發(fā)展等能力之外,還能反映出企業(yè)的現(xiàn)金流量,此外,財(cái)務(wù)指標(biāo)還引入了上市企業(yè)的每股指標(biāo)。非財(cái)務(wù)類指標(biāo)主要體現(xiàn)了企業(yè)的治理結(jié)構(gòu)、股權(quán)結(jié)構(gòu)以及財(cái)務(wù)的審計(jì)意見(jiàn),可以從側(cè)面反映公司的財(cái)務(wù)狀況。
圖2 財(cái)務(wù)分析指標(biāo)體系
數(shù)據(jù)測(cè)試與分析過(guò)程中,在算法的數(shù)據(jù)采集上,文中篩選了300 家公司2016~2019 年的真實(shí)財(cái)務(wù)數(shù)據(jù)。在這些數(shù)據(jù)中,2019 年包含ST 公司150 家,非ST公司150家,ST與非ST的比例為1∶1。對(duì)于每個(gè)企業(yè),這份數(shù)據(jù)包含了其T、T-1、T-2、T-3 年的數(shù)據(jù)。
如表1 所示,由于每家公司因財(cái)務(wù)數(shù)據(jù)異常成為ST 公司的年份不同,因此在該份數(shù)據(jù)集中,每個(gè)公司的數(shù)據(jù)屬性也不相同。若某公司2019 年才成為ST 公司,則文中將有足夠的數(shù)據(jù)分析其T、T-1、T-2、T-3 的變化狀態(tài)。根據(jù)表1 可知,有20 家公司可以分析3 年的數(shù)據(jù)變化。
表1 仿真數(shù)據(jù)結(jié)構(gòu)
在進(jìn)行數(shù)據(jù)分析時(shí),文中分別使用T-1、T-2、T-3的數(shù)據(jù)在上文所設(shè)計(jì)的算法模型上進(jìn)行仿真。為了更優(yōu)地評(píng)估時(shí)間、財(cái)務(wù)數(shù)據(jù)等多個(gè)維度變化對(duì)于算法性能的影響,文中設(shè)計(jì)了多組實(shí)驗(yàn),每組實(shí)驗(yàn)使用不同年份的財(cái)務(wù)數(shù)據(jù)。實(shí)驗(yàn)的設(shè)計(jì)如表2~4所示。
表2 實(shí)驗(yàn)一
表3 實(shí)驗(yàn)二
表4 實(shí)驗(yàn)三
文中進(jìn)行仿真實(shí)驗(yàn)的軟硬件環(huán)境如表5 所示。
表5 算法仿真環(huán)境
基于圖2 所示的指標(biāo)體系,構(gòu)建基于TD 算法的RLC 系統(tǒng)。在進(jìn)行算法的仿真前,需要先確定RLC系統(tǒng)中執(zhí)行模塊的數(shù)量。文中在實(shí)驗(yàn)1 的模式下通過(guò)遍歷的方式,計(jì)算出不同執(zhí)行模塊數(shù)量下的算法正確率及運(yùn)行時(shí)間,分別如圖3(a)與圖3(b)所示。
從圖3(a)可以看出,當(dāng)模塊數(shù)量小于8 時(shí),算法的正確率增長(zhǎng)迅速,從45%左右增長(zhǎng)到了近80%;當(dāng)執(zhí)行模塊數(shù)量大于8 時(shí),算法的正確率增長(zhǎng)緩慢,維持在80%左右。從圖3(b)可以看出,當(dāng)執(zhí)行模塊小于7 時(shí),算法的運(yùn)行時(shí)間增長(zhǎng)緩慢,維持在大約1.8×105s;當(dāng)執(zhí)行模塊數(shù)大于7 時(shí),運(yùn)算時(shí)間增長(zhǎng)迅速,綜合考慮圖3(a)和圖3(b),文中最終確定使用的執(zhí)行模塊數(shù)量為8 個(gè)。
圖3 執(zhí)行模塊數(shù)量對(duì)于算法正確率和運(yùn)算時(shí)間的影響
表6 給出了在分布式強(qiáng)化學(xué)習(xí)下的不同實(shí)驗(yàn)結(jié)果。為了對(duì)比,文中還引入了BP 神經(jīng)網(wǎng)絡(luò),如表7 所示。從計(jì)算結(jié)果可以看出,對(duì)于異常財(cái)務(wù)數(shù)據(jù)的分析,分布式加強(qiáng)學(xué)習(xí)算法對(duì)ST 公司的識(shí)別正確率在各個(gè)實(shí)驗(yàn)場(chǎng)景下均優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)。其中,實(shí)驗(yàn)三的計(jì)算精度提升了4.6%。從算法本身來(lái)看,實(shí)驗(yàn)三的正確率優(yōu)于實(shí)驗(yàn)二,實(shí)驗(yàn)二的正確率優(yōu)于實(shí)驗(yàn)一。這一結(jié)果說(shuō)明,通過(guò)多個(gè)不同年度的財(cái)務(wù)數(shù)據(jù)累計(jì),可以更優(yōu)地分析出企業(yè)的財(cái)務(wù)狀態(tài)。
表6 基于分布式強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)結(jié)果
表7 基于BP神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果
企業(yè)的財(cái)務(wù)數(shù)據(jù)分析,是一項(xiàng)較為復(fù)雜的系統(tǒng)工程。文中將分布式強(qiáng)化學(xué)習(xí)方法引入企業(yè)的財(cái)務(wù)數(shù)據(jù)分析中,通過(guò)構(gòu)建合理的財(cái)務(wù)評(píng)價(jià)指標(biāo)體系實(shí)現(xiàn)了對(duì)企業(yè)經(jīng)營(yíng)狀態(tài)的精準(zhǔn)評(píng)估。采用真實(shí)數(shù)據(jù)集進(jìn)行的數(shù)據(jù)測(cè)試與仿真實(shí)驗(yàn)結(jié)果表明,在該場(chǎng)景下分布式強(qiáng)化學(xué)習(xí)算法的性能優(yōu)于普通的反向傳播神經(jīng)網(wǎng)絡(luò)。