亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多目標進化聚類的信用風險特征識別

        2022-07-15 07:16:00李元睿
        運籌與管理 2022年6期
        關鍵詞:信用風險年度權重

        劉 超, 李元睿, 謝 菁

        (1.北京工業(yè)大學 經(jīng)濟與管理學院,北京 100124; 2.北京現(xiàn)代制造業(yè)發(fā)展研究基地,北京 100124)

        0 引言

        當今世界的金融市場呈現(xiàn)出電子化、全球化和虛擬化的特點,逐漸走向數(shù)量化和信息化時代[1]。具有無實體性、高效性、風險性和難量化特征的金融大數(shù)據(jù)逐漸涌現(xiàn)。但這些數(shù)據(jù)并沒有被有效利用,造成了“數(shù)據(jù)資源充足但產(chǎn)出不足”的現(xiàn)象。這一現(xiàn)象引發(fā)了對海量金融數(shù)據(jù)的數(shù)據(jù)挖掘需求,從而進一步將數(shù)據(jù)資源轉化為高附加值信息資源[2]。

        信用風險是一種具有較大危害且易于大范圍傳播的金融風險,泛指由于信用資產(chǎn)質量降低而直接引發(fā)金融資產(chǎn)損失嚴重的一種可能性[3]。與金融信用風險相關的數(shù)據(jù)往往呈現(xiàn)出高維度、大規(guī)模和不對稱等特點[4]。其中,數(shù)據(jù)的高維度特點是在數(shù)據(jù)挖掘中最突出的問題[5]。因此針對具有高維度特征的信用風險數(shù)據(jù),設計適用于此類數(shù)據(jù)的數(shù)據(jù)挖掘技術,對處理金融信用風險相關問題具有重要意義。

        聚類是一種不需要數(shù)據(jù)標簽,便能深入挖掘數(shù)據(jù)內部結構特征的數(shù)據(jù)挖掘技術,在上市公司的信用風險評價問題中具有廣泛的應用[6]。但在具體實踐中,傳統(tǒng)的聚類算法在處理具有高維特征的信用風險問題時暴露出兩方面不足:①大量冗余特征導致類簇可能分布在高維空間的某一個特征子空間內。②稀疏的高維空間使得樣本的相似度難以衡量[7]。因此,如果將每個特征維度的權重視為均等的,那么所得到的數(shù)據(jù)的相似度將不再準確。利用低維特征子空間表征高維數(shù)據(jù)已被證明是一種降低高維數(shù)據(jù)復雜性的可行方法[8]。目前此類研究已形成了一系列經(jīng)典子空間聚類算法[9~11]。然而,現(xiàn)有算法尚存在一些缺點,如:①目標函數(shù)不足以支持特征子空間的搜索;②使用貪心策略進行搜索,易陷入局部最優(yōu)[12]。使用進化算法能夠在上述問題中有效改進子空間聚類。同時,采用多種聚類目標函數(shù)能夠使結果更具有豐富的意義,增強了對不同應用場景的魯棒性[13]。

        1 問題描述

        1.1 子空間與特征識別

        在具有高維特征的信用風險數(shù)據(jù)聚類過程中,可能存在以下難點[14]:①從全局特征來來看,樣本中可能混雜噪聲和冗余的特征;②從局部特征來看,類簇的特征可能由不同的一組屬性表示。傳統(tǒng)方法通常采用全局性的視角,對數(shù)據(jù)進行統(tǒng)一的降維處理,但無法體現(xiàn)和區(qū)分樣本之間的局部特征差異[15]。子空間聚類算法與采用全局視角的傳統(tǒng)聚類方法有明顯差異。為了體現(xiàn)研究數(shù)據(jù)在全局和局部的特征,引入權重向量,對不同數(shù)據(jù)維度賦權。同時,在目標函數(shù)中采用加權距離,可增強類內樣本的相似度和類間樣本的差異度。

        1.2 子空間聚類目標函數(shù)

        子空間聚類將數(shù)據(jù)劃分建模為一類優(yōu)化問題,其優(yōu)化模型可以概括為[16]:

        (1)

        式中,變量U代表每個樣本點被分配給各個類簇中心的隸屬度,變量V是類簇中心的坐標,變量W代表體現(xiàn)類簇特征的權重。該模型包含N個維度為D的樣本,通過優(yōu)化該模型,將樣本劃分為C個類。樣本與類簇中心的距離由d(vik,xjk)表示。H(U,W)表示額外添加項,各類子空間聚類算法的變種主要根據(jù)該項的變化以得到不同聚類效果??傮w上,子空間聚類算法的主要思想是在將特征權重作為優(yōu)化變量之一,同時優(yōu)化聚類中心的位置,使分配到同一類的樣本與聚類中心的相似度最小,從而完成對樣本的劃分。

        2 算法提出

        2.1 目標函數(shù)

        傳統(tǒng)的子空間聚類算法使用加權求和的途徑將各個評價準則統(tǒng)一至單一目標函數(shù)中,從而追求各準則之間的折衷[17]。本文同時考慮多個聚類準則,其中包括:同類樣本間的緊湊性,不同類樣本間的分散性和特征權重的負熵。構建子空間聚類的三目標優(yōu)化模型:

        (2)

        其中,f1表示樣本與類簇中心的差異。最小化f1將使得聚類結果中,差異小的樣本被劃分為同一類。f2衡量類間分離性。f3通過對特征權重負熵的最小化,來避免特征權重分配時的極端不平衡狀況。

        2.2 算法流程

        使用基于分解的方法求解公式(2)中的子空間聚類三目標優(yōu)化問題。設計基于分解的多目標子空間聚類算法(Decomposition-based Multi-Objective Subspace Clustering, DMOSC)。整體流程如算法1所示。首先對數(shù)據(jù)進行標準化,并隨機初始化種群(算法1步驟3,4)。之后,使用交叉、變異算子對個體產(chǎn)生擾動,使其產(chǎn)生新解[18,19](算法1步驟7)。并進行局部搜索,提高算法效率(算法1步驟8)。在擴大的種群中采用精英選擇機制,將優(yōu)秀個體選擇進下一次迭代。達到停止條件后,得到樣本的聚類劃分結果。

        算法1 DMOSC算法整體流程

        2.3 染色體編碼

        DMOSC使用基于原型的染色體編碼[20]。類簇中心作為該編碼方式的基本基因片段,使染色體長度不隨樣本規(guī)模擴大而提高[21]。如圖1所示,染色體中包含所有類簇中心的坐標,即矩陣V的每一行向量,根據(jù)染色體信息可以計算得到聚類變量U,W。

        圖1 DMOSC染色體編碼

        2.4 局部搜索

        為提高算法性能,本文借鑒MOEA/D[22]算法的分解思想,將整個目標空間進行分解,得到若干個互不相交的區(qū)域,在每個分解后的空間內進行目標函數(shù)的標量化處理,從而實現(xiàn)局部搜索。具體步驟如算法2。

        算法2 DMOSC局部搜索

        具體來講,首先生成若干個子目標空間,使這些子目標空間是目標空間的均勻劃分。然后將每個個體分配給不同的子目標空間,該步驟通過衡量個體與參考向量的距離完成(算法2步驟1,2)。圖2展示了第n個子目標空間的局部搜索:陰影區(qū)域表示子目標空間,使用該空間內參考向量的坐標(αn,βn,γn)作為目標函數(shù)權重,生成如公式(3)所示的各局部搜索空間的標量化目標函數(shù)。

        (3)

        圖2 局部搜索標量化目標函數(shù)

        局部搜索的實現(xiàn)途徑是對該局部標量化目標函數(shù)的迭代優(yōu)化(算法2步驟5~7)。各聚類變量的更新公式由定理1,定理2和定理3給出。

        定理1對公式(3)所示的優(yōu)化問題,若給定V和W,且有m>1,則U的局部最優(yōu)解為:

        (4)

        定理2對公式(3)所示的優(yōu)化問題,若給定U和W,且有m>1,則V的局部最優(yōu)解為:

        (5)

        定理3對公式(3)所示的優(yōu)化問題,若給定U和V,且有m>1,則W的局部最優(yōu)解為:

        (6)

        3 實證分析

        3.1 樣本選取

        本文選取上市公司為樣本,最終評價聚類結果的判定標準是對比證券交易所執(zhí)行的特別處理機制(Special Treamtment,ST)。即,收集帶有標簽的兩類數(shù)據(jù),分別代表具有高、低風險的樣本。樣本標簽僅用于對聚類結果的評價,依據(jù)是否被執(zhí)行ST來確定,ST機制使用評價年份之前兩年的財務數(shù)據(jù),對財務困境進行識別和分析。

        收集的數(shù)據(jù)來源為2017年度,其中,共有48家A股上市公司被執(zhí)行ST。將這些公司納入本研究中的高信用風險樣本。為保證公平性,低風險樣本的選取規(guī)則為:對每個高風險樣本,選取兩個近似行業(yè)和經(jīng)營規(guī)模的未被執(zhí)行ST的樣本。則本研究的總樣本個數(shù)為144,兩類數(shù)據(jù)樣本數(shù)量的比例為1:2。這些樣本在2017年是否被實施ST是根據(jù)前兩年的經(jīng)營情況進行評判的。根據(jù)與信用風險相關的財務數(shù)據(jù)構建指標體系,然后將2015年度和2016年度的數(shù)據(jù)收集整理,作為DMOSC算法的輸入,以此來識別并區(qū)分不同風險等級的樣本,并與真實標簽進行比較。

        3.2 信用風險指標體系

        測度信用風險需要使用合理的信用風險指標數(shù)據(jù),是其能夠全面地反映信用風險,并具備一定的層級性[23]。本研究將基本財務因素、現(xiàn)金流量因素和長期發(fā)展?jié)撃芤蛩厝糠肿鳛樵u價信用風險的主要宏觀因素。根據(jù)這些因素進一步設立描述這些影響因素的能力體現(xiàn)。在每類能力體現(xiàn)下,分別繼續(xù)進行細分,設立體現(xiàn)信用風險因素的具體指標。如表1所示。

        表1 信用風險指標體系

        3.3 信用風險評價實驗描述

        根據(jù)所建立的信用風險指標體系收集實驗數(shù)據(jù)。數(shù)據(jù)來源為萬得(Wind)數(shù)據(jù)庫。并對樣本分配標簽,作為評價算法結果的標桿。樣本標簽來源為2017年證監(jiān)會公布的風險警示名單。運用其前兩年的公司運營數(shù)據(jù)判斷本年度上市公司股票是否被歸為ST股。但各指標在每個年度的重要程度并不一定是一致的,因此,對各個年度分別進行研究,即數(shù)據(jù)集D1表示第一年度的數(shù)據(jù),數(shù)據(jù)集D2表示第二年度的數(shù)據(jù),數(shù)據(jù)集D3表示兩個年度的數(shù)據(jù)。

        在所有數(shù)據(jù)集上應用DMOSC算法進行實驗。并使用全空間聚類算法和其他子空間聚類算法變種進行對比,包括:FCM[24],K-means[25],EWKM[16],ESSC[8],MOEASSC[26]。最終結果的準確性通過將各算法的結果與實際是否被實施ST進行對比得到。使用RI指數(shù)[27]、NMI指數(shù)[28]和Kappa指數(shù)[29]衡量聚類結果的準確度。在取值范圍上,RI與NMI指標是介于0和1之間的實數(shù),Kappa理論上在[-1,1]上取值,但在實際應用場景中通常落在[0,1]內。在這些指標的評價方面,數(shù)值越大越符合實際,即表示更加精確的聚類結果。

        實驗參數(shù)設置如表2所示。DMOSC以及其他對比算法分別在D1,D2和D3數(shù)據(jù)集上進行聚類,為避免算法隨機性的干擾,每組測試運行20次,記錄每次運行得到的聚類結果,計算聚類結果與真實標簽的差異,采用指標的均值和標準差作為每組測試的評價結果。

        表2 實驗參數(shù)設置

        3.4 聚類結果分析

        在三個數(shù)據(jù)集上的聚類結果由表3,表4和表5展示,包括了三種聚類評價指數(shù),橫向對比中,加粗展示最優(yōu)結果。如在D1數(shù)據(jù)集中,DMOSC的RI指標表現(xiàn)最好,則加粗強調該結果。

        表3 D1數(shù)據(jù)集聚類結果

        表4 D2數(shù)據(jù)集聚類結果

        表5 D3數(shù)據(jù)集聚類結果

        由表3所示的D1數(shù)據(jù)集的表現(xiàn)可以看出,在Kappa指數(shù)和RI指數(shù)上,DMOSC得到了最高的數(shù)值。而在NMI指數(shù)上,雖然ESSC算法取得最好結果,但DMOSC與其差距非常微小。從魯棒性方面來看,經(jīng)典聚類算法如K-means和FCM所得到的結果具有較小的標準差,領先于其他以子空間聚類為基礎的變種算法。例如基于單目標優(yōu)化的EWKM算法,其在RI指數(shù)和NMI指數(shù)上得到相對較不穩(wěn)定的結果,且在Kappa指標上的聚類準確度明顯劣于其他算法,這是由于該算法的目標函數(shù)缺少類間分離性的平衡,因此容易將大量樣本歸入同一類。而RI指標和NMI指標對不平衡數(shù)據(jù)的評價存在偏差,但被Kappa指標捕捉到這一現(xiàn)象。由表4所示的D2數(shù)據(jù)集的表現(xiàn)可以看出,DMOSC在RI,NMI以及Kappa等指標上都得到了最好的結果。從標準差所反映的結果穩(wěn)定性方面,經(jīng)典的全空間聚類算法優(yōu)勢明顯,但在子空間聚類的各類變種中,DMOSC具有最好的魯棒性。由表5可以看出,DMOSC以及其他對比算法在D3數(shù)據(jù)集的表現(xiàn)均比其他數(shù)據(jù)集上更優(yōu),并且DMOSC,EWKM和K-means在每次運行中均得到了于實際情況完全一致的劃分。

        對不同數(shù)據(jù)集進行縱向對比,可以看到,數(shù)據(jù)集的差異也是導致聚類結果精度的原因之一。總體來看,D3數(shù)據(jù)集上的結果最好,且與真實情況十分接近,D2數(shù)據(jù)集次之,D1數(shù)據(jù)集最差。這說明D3能夠提供充足且有效的信息,以得到正確的劃分。這與證監(jiān)會評判上市公司是否被實施ST的準則相符,即綜合考慮最近兩年的財務數(shù)據(jù)。而在兩年度的數(shù)據(jù)中,第二年度的財務數(shù)據(jù)(數(shù)據(jù)集D2)比第一年度的財務數(shù)據(jù)(數(shù)據(jù)集D1)更具有參考意義。

        3.5 信用風險特征分析

        DMOSC在聚類時對每個財務指標進行賦權,并在算法運行中自適應調整權重,以獲得類簇內最小的加權距離。且在兩類數(shù)據(jù)中,各財務指標的權重分布不同。權重的大小體現(xiàn)了不同指標的重要程度,進一步通過權重可以識別出反映信用風險的相對重要的財務指標。在D3數(shù)據(jù)集上,DMOSC對兩年度的各財務指標的最終權重如表6所示。

        表6 兩類樣本信用風險指標特征權重

        表6所展示的特征權重中,高信用風險樣本和低信用風險樣本所呈現(xiàn)的特征是不完全相同的。

        高風險樣本的指標權重特征在不同年份的差異明顯,普遍地,第二年度的指標較第一年度指標具有更高的權重。具體來看,指標R1和R13在2015年的權重較高;指標R2、R4、R5、R7、R9、R17和R18在第二年的權重較高,其中,最顯著的是R2、R7、R9和R18。因此,第二年度的諸多指標在信用風險評價中較第一年度相應指標具有更高的參考價值,其中體現(xiàn)盈利能力的包括R2,R4和R5,體現(xiàn)償債能力的包括R7和R9,體現(xiàn)成長能力的包括R17和R18,體現(xiàn)出這些指標在評價信用風險時的重要性。第一年度的相對重要指標中,體現(xiàn)盈利能力的包括一個指標,體現(xiàn)現(xiàn)金流的包括一個指標。

        低風險樣本中,不同財務指標的權重差異性相對較小。但在第二年度,仍然能夠凸顯出一些重要指標,如R2、R7、R9、R17和R18等;第一年度中,只突顯出單一重要指標R1。因此,第二年度的一些信用風險評價指標更具能夠區(qū)分兩類樣本,包括償債能力的相關指標、盈利能力的相關指標以及成長能力的相關指標。而在第一年度,盈利能力也具有一定的參考意義。

        4 結論

        信用風險評價需要從多個維度進行,每個維度又可能包含了若干不同的指標,因此具有數(shù)據(jù)維度高的特點。而其中某些指標并不一定起到關鍵作用,這使得風險特征往往存在于整個特征空間的某個子空間中。因此本文同時考慮加權的類間分離項、加權的類內緊湊項和權重向量的負熵以建立多目標優(yōu)化模型。在求解階段,使用基于分解的思想設計啟發(fā)式算法以及局部搜索方法,并進行了評價上市公司信用風險的應用實驗。分析兩類樣本的信用風險特征可得到如下啟示:綜合評價年度之前兩個年度的數(shù)據(jù)進行判斷,有助于信用風險樣本的識別。在后續(xù)研究中,可將DMOSC算法拓展至信用風險時間序列的聚類問題研究,考慮時間維度對信用風險特征的影響,探究在動態(tài)環(huán)境下風險特征的演化規(guī)律。

        猜你喜歡
        信用風險年度權重
        年度新銳之星
        年度創(chuàng)意之星
        年度
        權重常思“浮名輕”
        當代陜西(2020年17期)2020-10-28 08:18:18
        為黨督政勤履職 代民行權重擔當
        人大建設(2018年5期)2018-08-16 07:09:00
        年度采購盛典
        中國寶玉石(2017年6期)2018-01-13 07:32:07
        淺析我國商業(yè)銀行信用風險管理
        基于公約式權重的截短線性分組碼盲識別方法
        電信科學(2017年6期)2017-07-01 15:44:57
        京東商城電子商務信用風險防范策略
        個人信用風險評分的指標選擇研究
        久久久精品亚洲一区二区国产av| 国产 中文 制服丝袜 另类| 天天躁日日躁狠狠躁av| 免费一区二区三区在线视频| 在线观看国产精品自拍| 亚洲av香蕉一区二区三区av| 久久午夜av一区二区三区| 亚洲av午夜福利精品一区二区| 99久久久久国产| 视频一区中文字幕亚洲| 久久精品女人av一区二区| 亚州国产av一区二区三区伊在| 国产成人精品av| 中文字幕亚洲好看有码| av男人天堂网在线观看| 亚洲毛片一区二区在线| 欧美亚洲熟妇一区二区三区| 91免费永久国产在线观看| 日本红怡院东京热加勒比| 蜜桃一区二区在线视频| 在线视频观看免费视频18| 国产精品99久久久久久98AV| 成人一区二区三区蜜桃| 妃光莉中文字幕一区二区| 国产h视频在线观看| 福利一区在线观看| 日韩精品中文字幕人妻中出| 精品亚洲天堂一区二区三区| 日本无码欧美一区精品久久| 亚洲av综合av国产av| 97久久久久国产精品嫩草影院| 日美韩精品一区二区三区| 亚洲中文字幕久久精品品| 国产真实老熟女无套内射| 999精品免费视频观看| 亚洲国产精品成人av| 偷拍偷窥女厕一区二区视频| 国产亚洲av综合人人澡精品| 亚洲av成人在线网站| 蕾丝女同一区二区三区| 人人妻人人狠人人爽|