吳小菁
福建江夏學(xué)院電子信息科學(xué)學(xué)院,福州 350108
智能知識(shí)地圖挖掘數(shù)據(jù)的金融危機(jī)早期預(yù)警
吳小菁
福建江夏學(xué)院電子信息科學(xué)學(xué)院,福州 350108
模糊認(rèn)知圖(Fuzzy Cognitive Map,F(xiàn)CM)是知識(shí)表示和管理的有效方法[1],由一系列節(jié)點(diǎn)和連接這些節(jié)點(diǎn)的加權(quán)弧組成,節(jié)點(diǎn)代表概念或變量,加權(quán)弧[2]代表概念或變量間的因果關(guān)系。目前模糊認(rèn)知圖已廣泛應(yīng)用于建模、分類及預(yù)測(cè)[3]。
最初,模糊認(rèn)知圖主要根據(jù)專家的認(rèn)識(shí)構(gòu)建,由于忽略了主要的原始數(shù)據(jù)資源,構(gòu)建的地圖帶有主觀性和局限性,效果并不理想。目前已提出許多建立模糊認(rèn)知圖的學(xué)習(xí)算法,例如,文獻(xiàn)[4]提出一種簡(jiǎn)單的差分赫布學(xué)習(xí)算法(Differential Hebbian Learning,DHL),通過(guò)迭代更新權(quán)值直到權(quán)重匯聚到某個(gè)預(yù)先定義的狀態(tài)。文獻(xiàn)[5]描述了一種自動(dòng)構(gòu)建模糊認(rèn)知圖的方法,其中由數(shù)據(jù)矢量表示的兩個(gè)概念間的關(guān)聯(lián)強(qiáng)度由它們的相似性決定。文獻(xiàn)[6]描述了運(yùn)用粒子群優(yōu)化(Particle Swarm Optimization,PSO)學(xué)習(xí)的方法。然而隨著節(jié)點(diǎn)數(shù)和弧數(shù)增多,使用優(yōu)化算法構(gòu)建模糊認(rèn)知圖,迭代至權(quán)重矩陣達(dá)到最佳狀態(tài)需要花費(fèi)大量時(shí)間,同時(shí)產(chǎn)生的模糊認(rèn)知圖也十分復(fù)雜,可讀性差。為解決這一問(wèn)題,文獻(xiàn)[7]引入由模糊認(rèn)知圖(Fuzzy Cognitive Map,F(xiàn)CM)衍生知識(shí)地圖(Knowledge Map,KM),文獻(xiàn)[8]描述了一種基于歷史數(shù)據(jù)產(chǎn)生知識(shí)地圖的方法,并開(kāi)發(fā)了商用軟件OntoSpaceTM,該方法的核心思想是從數(shù)據(jù)源自動(dòng)提取特定知識(shí),以改善地圖的性能,使用戶可以迅速了解信息在變量間的流動(dòng)情況。盡管上述方法都取得了一定的預(yù)測(cè)效果,但是實(shí)際應(yīng)用中的預(yù)測(cè)準(zhǔn)確性仍然不夠高。
針對(duì)上述問(wèn)題,提出了基于智能知識(shí)地圖的數(shù)據(jù)挖掘方法,與上述各方法不同的是,它采用無(wú)模型的方式,根據(jù)歷史數(shù)據(jù)生成智能知識(shí)地圖,對(duì)KM進(jìn)行靜態(tài)分析和時(shí)域分析,從而實(shí)現(xiàn)對(duì)系統(tǒng)內(nèi)部結(jié)構(gòu)和關(guān)系的深入剖析,準(zhǔn)確預(yù)測(cè)系統(tǒng)的發(fā)展趨勢(shì)。所提方法的可靠性通過(guò)對(duì)上證50指公司的金融數(shù)據(jù)分析得到了驗(yàn)證,分析結(jié)果表明,基于智能知識(shí)地圖挖掘數(shù)據(jù)的方法能夠在早期準(zhǔn)確預(yù)警金融危機(jī)。
作為FCM的延伸,知識(shí)地圖是一種在復(fù)雜系統(tǒng)中描述知識(shí)并將知識(shí)模型化的技術(shù),也稱做過(guò)程圖。
KM可以用一個(gè)三元組U來(lái)表示,U=(V,L,C)。V= {v1,v2,…,vn}是代表變量或概念的節(jié)點(diǎn)集合,L代表參加組對(duì)節(jié)點(diǎn)的連接,例如vi和vj(vi,vj∈V)。連接包括所有用來(lái)描述變量間的因果關(guān)系的模糊規(guī)則,C代表一組連接器,它們將集合(vi,vj)映射到(λij,Eij)。λij是vi和vj間的廣義交叉相關(guān)系數(shù),Eij是相應(yīng)散布圖上的圖像熵,連接符可以看做知識(shí)地圖和模糊認(rèn)知圖的關(guān)鍵性區(qū)別,相關(guān)系數(shù)和相關(guān)熵定量描述了系統(tǒng)中規(guī)則模糊和混亂的程度。
如圖1所示為一幅典型的知識(shí)地圖,所有的節(jié)點(diǎn)沿對(duì)角線排成一條直線,它們的連接顯示為兩個(gè)垂直段或者水平段,不同集合的節(jié)點(diǎn),如輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn),用不同的顏色標(biāo)出。與其他節(jié)點(diǎn)有密切關(guān)系的中樞節(jié)點(diǎn)以圓形顯示,不活動(dòng)節(jié)點(diǎn)以白色正方形顯示。在設(shè)計(jì)結(jié)構(gòu)矩陣?yán)碚摚―esign Structure Matrix,DSM)[9]中,段布局避免了冗余,也使得知識(shí)地圖可讀性更強(qiáng)。
圖1 典型的知識(shí)地圖
知識(shí)地圖為用戶提供了大量信息,可概括為:(1)識(shí)別變量間的因果關(guān)系;(2)可視化給定系統(tǒng)中的信息流動(dòng);(3)將變量分級(jí)排列,變量的重要性由中樞節(jié)點(diǎn)和不活動(dòng)節(jié)點(diǎn)顯示。
發(fā)揮知識(shí)地圖優(yōu)勢(shì)的主要任務(wù)是得到一張客觀、精確的知識(shí)地圖,正如引言中提到的,比起根據(jù)專家的看法建立的知識(shí)地圖,從歷史數(shù)據(jù)挖掘的地圖更有效,丟失的信息更少。挖掘過(guò)程應(yīng)無(wú)模型[10],不使用統(tǒng)計(jì)學(xué)方法或回歸方法,以保留數(shù)據(jù)中隱藏的所有信息。不同于之前的FCM的學(xué)習(xí)算法,Marczyk提出的KM挖掘方法省略了耗時(shí)的迭代步驟,通過(guò)分析數(shù)據(jù)資源直接構(gòu)建知識(shí)地圖,后面將會(huì)詳細(xì)介紹。
給出一組龐大的數(shù)值數(shù)據(jù):
上式中,xkj表示第j個(gè)變量vj的第k個(gè)樣本,目的是通過(guò)挖掘數(shù)據(jù)矩陣X生成知識(shí)地圖,所提方法可劃分為四個(gè)步驟:構(gòu)建散布圖、生成模糊規(guī)則、構(gòu)建知識(shí)地圖、識(shí)別中樞節(jié)點(diǎn)及不活動(dòng)節(jié)點(diǎn)。
2.1 構(gòu)建散布圖
利用成對(duì)變量vi和vj(1≤i≤j≤n)用來(lái)畫(huà)出整體為n(n-1)/2的散布圖,每張散布圖的兩個(gè)關(guān)鍵屬性之一是在0至1區(qū)間內(nèi)的廣義相關(guān)系數(shù)[11],計(jì)算如下:
上式中,I(vi,vj)代表共同信息,用來(lái)衡量vi與vj間總體線性和非線性相關(guān)度:
上式中,每個(gè)變量經(jīng)過(guò)離散、映射到時(shí)距上,這樣,相關(guān)性被量化以清楚顯示這兩個(gè)變量如何相互影響。如果λij達(dá)到0,那么vi不包含vj信息,相反,λij=1則表示,vi與vj間相關(guān)性很高,從而其中一個(gè)可以完全由另外一個(gè)確定。
它可以衡量散布圖中的信息,雜亂無(wú)序的散布圖包含大量不確定性,通常有大的熵值,因此如果一張散布圖的圖像熵相對(duì)很高,而廣義相關(guān)系數(shù)很小,那么變量間關(guān)系也就不密切,散布圖沒(méi)有顯著的模糊規(guī)則,最終生成的知識(shí)地圖上兩個(gè)變量間將不會(huì)創(chuàng)建連接。
2.2 生成模糊規(guī)則
所提方法采用的從數(shù)據(jù)生成模糊規(guī)則的方法與文獻(xiàn)[13]提出的關(guān)聯(lián)規(guī)則聚類系統(tǒng)(Association Rule Clustering System,ARCS)在本質(zhì)上是一致的,但它們生成規(guī)則的形式大不相同。這里的目的是找出一個(gè)變量在另外一個(gè)變量發(fā)生變化時(shí)做出何種反應(yīng)。因而,定義了如下四種規(guī)則:IF+DeltaX,THEN DeltaY;IF-DeltaX,THEN DeltaY;IF+DeltaY,THEN DeltaX;IF-DeltaY,THEN DeltaX,可表達(dá)為四元組,例如,(+1,-1,+1,-1)意味著如果變量X增加或減少一個(gè)單位,Y變量同時(shí)也相應(yīng)增加或減少一個(gè)單位,反之亦然。
圖2 CMB知識(shí)地圖
圖3 CMBC知識(shí)地圖
圖4 SPDB知識(shí)地圖
首先假定一個(gè)模糊水平(通常是3、5或7),并將整個(gè)變量空間劃分區(qū)域,以3為例,根據(jù)抽樣值,變量劃分成低、中、高三種類型來(lái)將數(shù)據(jù)矩陣中的數(shù)值矢量轉(zhuǎn)化成模糊矢量,原始數(shù)據(jù)中的每個(gè)抽樣屬于特定的模糊格。然后,分析所有有效的散布圖。由于散布圖是二維的,投射到平面上的格數(shù)是預(yù)先定義的模糊水平的平方,每個(gè)模糊格應(yīng)包含構(gòu)成該圖的足夠的樣本。最后,將每個(gè)格設(shè)為坐標(biāo)原點(diǎn),在該散布圖中,向右移動(dòng)為(+DeltaX),向左移動(dòng)為(-DeltaX),向上移動(dòng)為(+DeltaX),向下移動(dòng)為(-DeltaX)來(lái)確定最可能達(dá)到的格,以表明另外一個(gè)變量的變化程度。如果沒(méi)有主導(dǎo)趨勢(shì)或者到達(dá)幾個(gè)格的可能性相同,那么將不會(huì)產(chǎn)生規(guī)則,記錄趨勢(shì)并把結(jié)果轉(zhuǎn)換成模糊規(guī)則,最終標(biāo)記為四元組。
2.3 構(gòu)建知識(shí)地圖
知識(shí)地圖由節(jié)點(diǎn)、連接和連接器組成。首先,所有的n變量由沿對(duì)角線排列的n節(jié)點(diǎn)來(lái)表示,輸入變量和輸出變量由節(jié)點(diǎn)顏色加以區(qū)別。
然后,在第二步產(chǎn)生模糊規(guī)則的基礎(chǔ)上確定連接。如果一張散布圖中至少存在一個(gè)四元組,那么通過(guò)交換信息可以在變量間創(chuàng)建一個(gè)連接,反之,節(jié)點(diǎn)間將不產(chǎn)生連接。每個(gè)連接顯示為兩個(gè)垂直段或水平段。這些段在連接器內(nèi)交叉使地圖更加簡(jiǎn)潔明了,稱為DSM理論[14],在沒(méi)有連接器時(shí),它將段的重疊數(shù)量最小化。衡量連接器的兩個(gè)關(guān)鍵屬性,即廣義相關(guān)系數(shù)和圖像熵用來(lái)說(shuō)明兩個(gè)變量相互影響的程度和該關(guān)系中的不確定性的量。
最后,計(jì)算這些包含四元組的散布圖中所有圖像熵的總和,并將其作為地圖的總熵[15]記錄下來(lái):
2.4 識(shí)別中樞節(jié)點(diǎn)和不活動(dòng)節(jié)點(diǎn)
在調(diào)出的3109份病歷中,以《中國(guó)老年人潛在不適當(dāng)用藥目錄》[3]為依據(jù),對(duì)老年患者的用藥潛在風(fēng)險(xiǎn)情況進(jìn)行評(píng)價(jià),共有2545份病歷存在潛在不適當(dāng)用藥的風(fēng)險(xiǎn),占81.9%。按藥品類別和名稱分類,涉及12類36種藥物共計(jì)5516例次存在潛在不適當(dāng)用藥的風(fēng)險(xiǎn)(1份病歷可能同時(shí)存在多種藥物的潛在不適當(dāng)用藥的風(fēng)險(xiǎn)),其中占前四位的是呼吸系統(tǒng)用藥、血液系統(tǒng)用藥、內(nèi)分泌系統(tǒng)用藥和神經(jīng)系統(tǒng)用藥,見(jiàn)表2、表3。
第三步中構(gòu)建的知識(shí)地圖用來(lái)推斷出哪一變量對(duì)系統(tǒng)產(chǎn)生的影響最大,哪些相對(duì)獨(dú)立。一個(gè)節(jié)點(diǎn)的重要性通過(guò)計(jì)算從該節(jié)點(diǎn)產(chǎn)生多少連接來(lái)確定。關(guān)聯(lián)最多的節(jié)點(diǎn)叫做中樞節(jié)點(diǎn),而沒(méi)有連接的節(jié)點(diǎn)是不活動(dòng)節(jié)點(diǎn)。這兩種節(jié)點(diǎn)都清晰地表示在地圖中,連接的總數(shù)l用來(lái)計(jì)算地圖的密度。
上式中,q代表活動(dòng)節(jié)點(diǎn)的數(shù)量,這就完成了知識(shí)地圖的挖掘過(guò)程。
所有實(shí)驗(yàn)均在4 GB內(nèi)存Intel?CoreTM2.93 GHz Windows XP機(jī)器上完成,使用商業(yè)軟件OntoSpaceTM分析上證50指數(shù)的成員狀況。
3.1 數(shù)據(jù)集
上證50指數(shù)是包括上海證券交易所中最具代表性、最有影響力50只股票,具有很強(qiáng)的流動(dòng)性。在試圖描述這些公司的復(fù)雜情況時(shí),實(shí)驗(yàn)使用資產(chǎn)負(fù)債表、收入報(bào)表、現(xiàn)金流報(bào)表及股市數(shù)據(jù)四種類型的數(shù)據(jù)表。金融行業(yè)的公司共294個(gè)參數(shù),其中資產(chǎn)負(fù)債表中有96個(gè),收入報(bào)表中有51個(gè),現(xiàn)金流報(bào)表中有97個(gè),股市數(shù)據(jù)中有50個(gè)。金融行業(yè)外的公司有238個(gè)參數(shù),分布在以上四種數(shù)據(jù)表的參數(shù)數(shù)量分別為75、33、80、50。這些歷史樣本跨越了2002年至2010年九年時(shí)間,它們均公布在網(wǎng)站上?;谶@些完整的數(shù)據(jù),數(shù)據(jù)矩陣將有36條線,294列或238列,從這些數(shù)據(jù)中挖掘出KM,并作靜態(tài)分析和時(shí)域分析。
3.2 靜態(tài)分析
靜態(tài)分析利用所有2002年至2010年間的歷史數(shù)據(jù)構(gòu)建一幅知識(shí)地圖,呈現(xiàn)這些公司的完整面貌,模糊水平都設(shè)定為5。為簡(jiǎn)潔起見(jiàn),圖中只呈現(xiàn)了三家金融行業(yè)公司的分析結(jié)果:中國(guó)商業(yè)銀行(CMB)、中國(guó)民生銀行股份有限公司(CMBC)及上海浦東發(fā)展銀行(SPDB),選定這三家公司是因?yàn)樗鼈冊(cè)谶@九年間的財(cái)務(wù)報(bào)表比其他金融機(jī)構(gòu)的更加完整,而數(shù)據(jù)的完整性會(huì)極大地影響結(jié)果的準(zhǔn)確性。
如圖2~圖4所示為CMB、CMBC和SPDB根據(jù)財(cái)務(wù)數(shù)據(jù)生成的KM,資產(chǎn)負(fù)債表和現(xiàn)金流報(bào)表中的參數(shù)以紅色正方形表示,另外兩張報(bào)表中的參數(shù)以藍(lán)色正方形表示,地圖的四個(gè)關(guān)鍵特征:活動(dòng)節(jié)點(diǎn)數(shù)、連接數(shù)、密度和總熵如表1所示,三張圖中活動(dòng)節(jié)點(diǎn)的數(shù)量差別不大。
表1 CMB,CMBC和SPDB知識(shí)地圖的關(guān)鍵特征
從圖2至圖4、表1可以看出,在CMB知識(shí)圖中,連接數(shù)和密度均辨明變量間的關(guān)系最緊密,意味著控制該公司相對(duì)困難,因?yàn)橐粋€(gè)節(jié)點(diǎn)的輕微干擾將迅速傳送到其他節(jié)點(diǎn),而CMB的KM中的總熵也最高,說(shuō)明它的內(nèi)部結(jié)構(gòu)更容易崩潰,規(guī)則和模式更容易消失在混亂的環(huán)境中。
總體來(lái)說(shuō),CMB的結(jié)構(gòu)最復(fù)雜,而在如此復(fù)雜的系統(tǒng)中它的不確定性也最多,因而CMB能夠執(zhí)行更多的功能的同時(shí),該公司良好的運(yùn)營(yíng)狀況也更容易被瓦解。如果環(huán)境發(fā)生變化,不確定性增多,公司將變得不可控制。其他兩家銀行的復(fù)雜性與之類似,但比CMB相對(duì)簡(jiǎn)單,CMBC的關(guān)系更疏遠(yuǎn)些,SPDB的不確定性相對(duì)來(lái)說(shuō)最少。此外,根據(jù)圖2至圖4及表1可作出如下推斷:資產(chǎn)負(fù)債表和股市數(shù)據(jù)對(duì)地圖的貢獻(xiàn)最大,這兩個(gè)參數(shù)與其他參數(shù)聯(lián)系緊密,因而產(chǎn)生了大量的連接。實(shí)驗(yàn)發(fā)現(xiàn),CMB知識(shí)地圖中,資產(chǎn)負(fù)債表中的“資產(chǎn)總額”、“負(fù)債總額”和值為0.91的廣義相關(guān)系數(shù)的關(guān)系最為緊密,0.91十分接近1。這兩個(gè)變量組成的散布圖的圖像熵是1.63,變量之間相互協(xié)調(diào),與所提規(guī)定為(+1,-1,+1,-1)的模糊關(guān)聯(lián)規(guī)則相一致,將這些模糊規(guī)則儲(chǔ)存為知識(shí)可以幫助決策者更好地了解公司的運(yùn)營(yíng)狀況。
實(shí)驗(yàn)中,這三家公司最重要的10個(gè)參數(shù)通過(guò)節(jié)點(diǎn)產(chǎn)生的連接數(shù)衡量出來(lái),如表2~表4所示。例如,S4-v14,即第4個(gè)數(shù)據(jù)集合中的第14個(gè)變量,是CMB知識(shí)圖中最重要的參數(shù)。
表2 中國(guó)商業(yè)銀行CMB的10個(gè)最重要參數(shù)
表3 中國(guó)民生銀行股份CMBC 10個(gè)最重要參數(shù)
從表2~表4可以看出,盡管中樞節(jié)點(diǎn)不盡相同,三家公司都與許多重要節(jié)點(diǎn)有聯(lián)系,包括“資產(chǎn)總額”、“負(fù)債總額”及“存款”。因而這些參數(shù)頗有影響力,并且值得決策者密切關(guān)注。8/10的重要變量來(lái)自資產(chǎn)負(fù)債表,因而可以得出結(jié)論:資產(chǎn)負(fù)債表在系統(tǒng)中發(fā)揮主導(dǎo)作用。知識(shí)圖中的中樞節(jié)點(diǎn)明確標(biāo)識(shí)最脆弱的位置,公司應(yīng)該密切關(guān)注這些變化,因?yàn)樗鼈兛赡軐?dǎo)致整個(gè)系統(tǒng)的崩潰。
表4 上海浦東開(kāi)發(fā)銀行SPDB 10個(gè)最重要的參數(shù)
3.3 時(shí)域分析
在時(shí)域分析中,樣本分成幾個(gè)連續(xù)的周期或者窗口,每一步僅有一個(gè)窗口接受檢驗(yàn),窗口相互重疊以使得每一步的結(jié)果不會(huì)有太大差異。窗口寬度設(shè)為12,重疊的一步是11。12個(gè)四元組的金融報(bào)表和股市數(shù)據(jù)被用來(lái)挖掘知識(shí)地圖,共生成25張地圖,以跟蹤各公司的效益,并在結(jié)構(gòu)和不確定性方面監(jiān)控系統(tǒng)運(yùn)營(yíng)情況。
下面分析了來(lái)自制造業(yè)、原油開(kāi)采和房地產(chǎn)三個(gè)非金融行業(yè)的三家典型的公司,國(guó)家工商管理總局(SAIC)、中國(guó)石化(Sinopec)和金地集團(tuán)(Gemdale)。所用的2002—2010年間的金融數(shù)據(jù)完整,這使分析結(jié)果更為可信。
圖5顯示對(duì)應(yīng)7年里7步構(gòu)建知識(shí)地圖的4個(gè)關(guān)鍵特征的演變過(guò)程。前三張圖從不同的角度描述了這些公司結(jié)構(gòu)上的變化,最后一張圖則展現(xiàn)了其不確定性的變化趨勢(shì)。
如圖5(a)所示,SAIC和Sinopec在2006年至2007年間的活動(dòng)節(jié)點(diǎn)數(shù)量急速增長(zhǎng),而Gemdale的增長(zhǎng)則沒(méi)有如此劇烈。圖5(b)顯示在2007年,三家公司連接的數(shù)量都迅速上升至較高水平。圖5(c)中,同一年Sinopec和Gemdale的地圖密度達(dá)到各自的最高點(diǎn),而SAIC的地圖密度保持相對(duì)穩(wěn)定。連接數(shù)量的增長(zhǎng)表明三家公司的結(jié)構(gòu)都在2007年變得更加復(fù)雜。圖5(d)的總熵趨勢(shì)圖進(jìn)一步表明三家公司的不確定性在2007年前一直保持增長(zhǎng),尤其是SAIC。
復(fù)雜的結(jié)構(gòu)加上不明朗的形勢(shì)可能造成控制和管理公司方面的困難,連接數(shù)量和總熵的突變應(yīng)作為危機(jī)的征兆謹(jǐn)慎對(duì)待。為確定2007年的劇增是否是特殊的案例,對(duì)2002年至2010年間所有上證50指股份公司進(jìn)行全面的金融和股票數(shù)據(jù)分析,共有12家公司滿足這種情況,包括靜態(tài)分析中涉及的三家銀行。將2006年和2007年各家公司知識(shí)地圖中連接數(shù)和總熵及其增長(zhǎng)率列在表5中,其中,75%的公司在2007年連接數(shù)量猛增,平均增長(zhǎng)率為13%,此外,總熵平均增長(zhǎng)了9%,12家公司中有9家出現(xiàn)增長(zhǎng)。
從表5可以看出,知識(shí)地圖的關(guān)鍵屬性在2007年總體上呈現(xiàn)增長(zhǎng)勢(shì)頭。眾多因素可能導(dǎo)致這一狀況,其中全球經(jīng)濟(jì)大環(huán)境扮演著一個(gè)關(guān)鍵角色。隨著全球經(jīng)濟(jì)日趨惡化,這些公司的不確定性勢(shì)必大增,功能性趨于復(fù)雜,這與公司結(jié)構(gòu)變化有直接關(guān)系。知識(shí)地圖的主要特征不僅反映了金融系統(tǒng)的運(yùn)營(yíng)情況,也在某種程度上映射整個(gè)經(jīng)濟(jì)大環(huán)境。與公司結(jié)構(gòu)和不確定性保持一致的連接數(shù)量和總熵的猛增是2008年金融危機(jī)的預(yù)警信號(hào)。
圖5 SAIC,Sinopec和Gemdale三家公司知識(shí)地圖的4個(gè)關(guān)鍵特征的演變過(guò)程
表5 2006年、2007年12家公司知識(shí)地圖中的連接數(shù)和總熵
假如2006年至2007年的異常變化能及時(shí)報(bào)告給各公司管理者,他們將能為經(jīng)濟(jì)危機(jī)作更好的準(zhǔn)備,并在危機(jī)發(fā)生之前采取適當(dāng)?shù)拇胧┮詼p少和避免虧損,因此智能知識(shí)地圖挖掘是一個(gè)十分有效的危機(jī)預(yù)警工具。
綜上所述,時(shí)域分析使管理者可以從結(jié)構(gòu)和不確定性方面監(jiān)控公司的運(yùn)營(yíng)情況,公司知識(shí)地圖復(fù)雜性的陡增預(yù)示著該公司將遭遇動(dòng)蕩,并可能由于系統(tǒng)內(nèi)部趨于復(fù)雜和脆弱的聯(lián)系而崩潰。
3.4 比較及分析
為了更好地體現(xiàn)所提方法的優(yōu)越性,將所提方法的時(shí)域分析結(jié)果與其他幾種較為先進(jìn)的模糊認(rèn)知圖和知識(shí)地圖進(jìn)行了對(duì)比,包括基于信任知識(shí)庫(kù)的概率模糊認(rèn)知圖(TKL-PFCM)[1]、基于神經(jīng)網(wǎng)絡(luò)的知識(shí)地圖(NN-KM)[4]、復(fù)雜系統(tǒng)模糊認(rèn)知圖(CS-FCM)[5]、基于屬性的知識(shí)地圖漸進(jìn)式增量模型(AKM-GIM)[10]、XTM知識(shí)地圖(XTM-KM)[11],實(shí)驗(yàn)對(duì)2006年、2007年上述12家公司知識(shí)地圖的連接數(shù)、總熵及增長(zhǎng)率進(jìn)行了計(jì)算分析,如表6所示為記錄的平均結(jié)果。
表6 各方法的知識(shí)地圖平均連接數(shù)和平均總熵比較
從表6可以看出,在所有的方法中,本文所提方法的平均連接數(shù)、總熵的增長(zhǎng)率均為最高,甚至有的方法取得的增長(zhǎng)率是負(fù)的,如TKL-PFCM、CS-FCM。在所有的比較方法中,XTM-KM表現(xiàn)最為出色,平均連接數(shù)增長(zhǎng)率僅比所提方法低2個(gè)百分點(diǎn),但是,它的總熵增長(zhǎng)率卻比所提方法低5個(gè)百分點(diǎn)。由此可見(jiàn),考慮知識(shí)地圖連接數(shù)及總熵的增長(zhǎng)率作為預(yù)警金融危機(jī)的兩個(gè)重要因素,所提方法明顯優(yōu)于其他幾種較為先進(jìn)的模糊認(rèn)知圖和知識(shí)地圖。
針對(duì)傳統(tǒng)模糊認(rèn)知圖和知識(shí)地圖數(shù)據(jù)挖掘效率偏低且預(yù)測(cè)準(zhǔn)確性偏差的問(wèn)題,提出了一種在沒(méi)有相關(guān)領(lǐng)域?qū)<医槿氲那闆r下通過(guò)挖掘金融數(shù)據(jù)構(gòu)建智能知識(shí)地圖的方法。通過(guò)OntoSpaceTM軟件運(yùn)用這種方法分析上證50指公司運(yùn)營(yíng)狀況。靜態(tài)分析結(jié)果顯示KM能夠通過(guò)給定的模糊規(guī)則、相互依賴性、中樞節(jié)點(diǎn)和不活動(dòng)節(jié)點(diǎn)找到接受監(jiān)測(cè)系統(tǒng)的結(jié)構(gòu),并由總熵來(lái)衡量識(shí)別不確定性。時(shí)域分析揭示了知識(shí)地圖主要特征的演變,決策者可以利用這一點(diǎn)來(lái)監(jiān)控公司的運(yùn)營(yíng)狀況。實(shí)驗(yàn)結(jié)果表明,從金融數(shù)據(jù)挖掘構(gòu)建智能知識(shí)地圖有其重要價(jià)值,跟蹤知識(shí)地圖的主要特征演變可以準(zhǔn)確地預(yù)警金融危機(jī),而運(yùn)用慣常的模糊認(rèn)知圖和知識(shí)地圖難以做到這一點(diǎn)。
未來(lái)會(huì)將所提數(shù)據(jù)挖掘方法運(yùn)用到其他金融數(shù)據(jù)集上,進(jìn)一步增加預(yù)測(cè)的準(zhǔn)確度,從而更好地應(yīng)用到實(shí)際的危機(jī)預(yù)警系統(tǒng)中。
[1]駱祥峰,高雋,張旭東.基于信任知識(shí)庫(kù)的概率模糊認(rèn)知圖[J].計(jì)算機(jī)研究與發(fā)展,2003,40(7):925-933.
[2]彭珍,楊炳儒,劉春梅,等.一種模糊認(rèn)知圖分類器的研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(5):4205-4208.
[3]馬楠,楊炳儒,鮑泓,等.模糊認(rèn)知圖研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2011,38(10):23-28.
[4]Hong T,Han I.Knowledge-based data mining of news information on the Internet using cognitive maps and neural networks[J].Expert Systems with Applications,2002,23(1):1-8.
[5]張桂蕓,馬希榮,楊炳儒.復(fù)雜系統(tǒng)模糊認(rèn)知圖的分解研究[J].計(jì)算機(jī)科學(xué),2007,34(4):129-132.
[6]李岱.模糊認(rèn)知圖優(yōu)化算法與幾何圖形識(shí)別應(yīng)用研究[D].蘭州:蘭州理工大學(xué),2012.
[7]翟東升,張娟.模糊認(rèn)知圖在上市公司信用風(fēng)險(xiǎn)評(píng)價(jià)中的應(yīng)用[J].統(tǒng)計(jì)與決策,2008(2):161-163.
[8]Wu W W,Lee Y T,Tseng M L,et al.Data mining for exploring hidden patterns between KM and its performance[J].Knowledge-Based Systems,2010,23(5):397-401.
[9]徐蘭,方志耕,劉思峰.基于設(shè)計(jì)結(jié)構(gòu)矩陣的復(fù)雜產(chǎn)品供應(yīng)鏈管理優(yōu)化[J].運(yùn)籌與管理,2013(1):106-111.
[10]潘星,王君.一種基于屬性的知識(shí)地圖漸進(jìn)式增量模型[J].系統(tǒng)工程學(xué)報(bào),2012,27(2):169-176.
[11]夏立新,王忠義,張進(jìn).圖書(shū)館專家知識(shí)地圖的XTM構(gòu)建方法研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2009,35(2):47-52.
[12]陳宇飛,吳啟迪,趙衛(wèi)東,等.基于圖像熵的快速Chan-Vese模型分割算法[J].同濟(jì)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,39(5):22-32.
[13]沈斌,姚敏,劉艷彬.基于帶語(yǔ)義差別的模糊Taxonomy的交易數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則聚類[J].情報(bào)學(xué)報(bào),2010(2):246-253.
[14]文杏梓,羅新星.基于設(shè)計(jì)結(jié)構(gòu)矩陣的可信軟件非功能需求評(píng)估模型[J].計(jì)算機(jī)應(yīng)用研究,2012,29(10):3787-3790.
[15]Lu H,Zhang H,Yang S,et al.A novel camera parameters auto-adjusting method based on image entropy[M]//RoboCup 2009:Robot Soccer World Cup XIII.Berlin,Heidelberg:Springer,2010:192-203.
WU Xiaojing
College of Electronics and Information Science,Fujian Jiangxia University,Fuzhou 350108,China
For the issue that the traditional fuzzy cognitive map and knowledge map have inefficient data mining and low predictability,data mining based on intelligent Knowledge Map(KM)is proposed.Paired variables are used to construct scatter diagram by discrete and mapping from original data.Quad fuzzy association rules are defined based on which knowledge map is constructed.Numbers of linked nodes are used to recognize central node and inactive nodes.Uncertainty of the system structure is estimated by static analysis,and evaluation process of major KM attributes is uncovered by time-domain analysis.Then efficiency of proposed method has been verified by analysis on financial data of 50 index companies in Shanghai Stock.Experiments results show that the proposed method has perfect predicting effect on financial crisis warning,which provides a powerful crisis warning tool for deciders controlling operating condition of company.
intelligent knowledge map;data mining;financial crisis warning;static analysis;time-domain analysis
針對(duì)傳統(tǒng)模糊認(rèn)知圖和知識(shí)地圖數(shù)據(jù)挖掘效率偏低且預(yù)測(cè)準(zhǔn)確性不高的問(wèn)題,提出了基于智能知識(shí)地圖的數(shù)據(jù)挖掘方法。利用成對(duì)變量的離散、映射從原始數(shù)據(jù)構(gòu)建散布圖;定義四元組模糊關(guān)聯(lián)規(guī)則,在此基礎(chǔ)上構(gòu)建智能知識(shí)地圖;根據(jù)關(guān)聯(lián)節(jié)點(diǎn)數(shù)目識(shí)別中樞節(jié)點(diǎn)和不活動(dòng)節(jié)點(diǎn)。實(shí)驗(yàn)利用靜態(tài)分析評(píng)估了系統(tǒng)結(jié)構(gòu)的不確定性,通過(guò)時(shí)域分析揭示了知識(shí)地圖主要屬性的演變過(guò)程,對(duì)上證50指數(shù)公司的金融數(shù)據(jù)分析驗(yàn)證了所提方法的有效性,實(shí)驗(yàn)結(jié)果表明,所提方法在金融危機(jī)預(yù)警方面取得非常準(zhǔn)確的預(yù)測(cè)效果,為決策者掌控公司運(yùn)營(yíng)狀況提供了強(qiáng)有力的危機(jī)預(yù)警工具。
智能知識(shí)地圖;數(shù)據(jù)挖掘;金融危機(jī)預(yù)警;靜態(tài)分析;時(shí)域分析
A
TP399
10.3778/j.issn.1002-8331.1308-0005
WU Xiaojing.Data mining based on intelligent knowledge map for financial crisis early warning.Computer Engineering and Applications,2013,49(24):116-121.
福建省科技支撐計(jì)劃項(xiàng)目(No.102102210419)。
吳小菁(1977—),女,講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、智能計(jì)算及應(yīng)用。
2013-08-02
2013-09-16
1002-8331(2013)24-0116-06