王寧 王澍 張江 陶鵬
摘? ?要:國網(wǎng)大數(shù)據(jù)中心泛在電力物聯(lián)網(wǎng)建設(shè)對電網(wǎng)金融數(shù)據(jù)分析的范圍、模式和方法提出了更高要求。面向大數(shù)據(jù)樣本研究,如何將大樣本相比于小樣本的獨有特征體現(xiàn)在分類模型中值得深入探索。以供應(yīng)鏈的金融數(shù)據(jù)的分布特征為出發(fā)點,研究了影響信用風險分類模型的主要因素,進而概括出信用數(shù)據(jù)的分布特征,并探討了進一步的解決策略。通過電網(wǎng)供應(yīng)鏈金融大數(shù)據(jù)分布特征的分析,旨在研究出電網(wǎng)全業(yè)務(wù)數(shù)據(jù)后隱含的信息,以此來為信用風險模型的構(gòu)建提供了前提條件。
關(guān)鍵詞:泛在電力物聯(lián)網(wǎng);供應(yīng)鏈金融;信用風險;國網(wǎng)大數(shù)據(jù);全業(yè)務(wù)數(shù)據(jù)中心;離群點;多維
中圖分類號:F276.3? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2019)35-0131-02
引言
大數(shù)據(jù)(Big Data,BD)是經(jīng)濟發(fā)展到一定階段的產(chǎn)物,是時代的烙印。尤其是數(shù)字時代的今天,它促使具有多重媒介的電網(wǎng)業(yè)務(wù)數(shù)據(jù)出現(xiàn)大幅上漲。國際數(shù)據(jù)公司IDC(International Data Corporation)在《2018—2019年產(chǎn)業(yè)發(fā)展研究報告》中指出,2018年全球超大規(guī)模數(shù)據(jù)中心為430個,較2017年增長11%;全球業(yè)務(wù)市場整體規(guī)模達到6 253.1億元人民幣,較2017年增長23.6%。大數(shù)據(jù)的到來在很大程度上改變了電網(wǎng)業(yè)務(wù)的發(fā)展,通過研究電網(wǎng)業(yè)務(wù)數(shù)據(jù)來側(cè)面反映出用戶行為規(guī)律,從而進一步挖掘潛在的商業(yè)價值以及社會效益,也創(chuàng)造了更多具有價值的信息。Gantz等描述了包含體積(Volume)、變化(Variety)、速度(Velocity)、準確性(Ve-racity)和價值(Value)五個方面內(nèi)容構(gòu)成的大數(shù)據(jù)5V理論。其在闡述5V理論時指出數(shù)據(jù)的準確性及價值對于大數(shù)據(jù)而言是非常重要的,如果沒有數(shù)據(jù)分析出存儲、管理等方面的內(nèi)容的話,它將不會產(chǎn)生更多價值。
一、國家電網(wǎng)供應(yīng)鏈金融大數(shù)據(jù)分析的現(xiàn)狀
電網(wǎng)供應(yīng)鏈金融是以核心企業(yè)為中心的,并通過管理物資流、現(xiàn)金流以及信息流來將其上、下游各級供應(yīng)商及終端客戶緊密聯(lián)系在一起的一個網(wǎng)絡(luò)結(jié)構(gòu)。它是國家電網(wǎng)公司落實支持實體經(jīng)濟和小微企業(yè)的央企責任的重要手段,有助于優(yōu)化產(chǎn)業(yè)鏈條生態(tài)環(huán)境,提高供貨的穩(wěn)定性,降低網(wǎng)省公司經(jīng)營風險,同時,供應(yīng)鏈金融作為新興信貸服務(wù)模式,將成為國家電網(wǎng)公司金融業(yè)務(wù)新的重要增長點。電網(wǎng)供應(yīng)鏈融資比傳統(tǒng)的融資模式具有很多的不同點,例如,評價指標動態(tài)多樣化、資金關(guān)系復(fù)雜等,這也使得電網(wǎng)供應(yīng)鏈融資的風險及風險評價有其獨特之處。通過大數(shù)據(jù)形成的多維評價機制能有效的對融資企業(yè)的數(shù)據(jù)進行準確、客觀的分析出其的資信狀況,這也在很大程度上為多數(shù)風險型的企業(yè)提供資金融通,從而推動電網(wǎng)公司與融資企業(yè)的和諧發(fā)展。
二、融資企業(yè)信用數(shù)據(jù)的分布特征
(一)信用數(shù)據(jù)的非對稱性與不平衡性
信用評估其實可以直接將其看成是一個二元的客戶分類問題,信用樣本的獲取具有涌現(xiàn)性的特征,指的是在眾多樣本中往往很少發(fā)現(xiàn)具有價值的樣本點,而且這類樣本明顯少于其他類樣本的集合被稱為不均衡樣本,總而言之,信用評估問題具有很多特性,譬如類別分布不平衡與不對稱等,這些對供應(yīng)鏈金融風險評價形成了較大制約。
(二)信用數(shù)據(jù)噪聲和離群點問題
在信用風險評價領(lǐng)域的發(fā)展中,噪聲和離群點會直接導(dǎo)致信息、周期性的統(tǒng)計誤差以及報告偏倚出現(xiàn)錯誤。噪音離群點又被稱為孤立點,它的存在會直接影響分類精度。而引起噪音離群點產(chǎn)生的原因有多種,例如異類、數(shù)據(jù)變量的固有變化、數(shù)據(jù)誤差等。因此,加強高維空間的數(shù)據(jù)稀疏問題處理力度,并采用合適的度量方法,能有效促進離群點的發(fā)展。
3.3信用數(shù)據(jù)的非線性多維特征
信用風險評估具有多個特點,如高維、非線性等,而現(xiàn)有的分類方法都是一句數(shù)據(jù)間的相似度來區(qū)分的,但是,如果是在高維的情況下,由于數(shù)據(jù)比較稀疏,會使得數(shù)據(jù)間的距離及區(qū)域米密度不再明顯,再加上高維度的數(shù)據(jù)對樣本數(shù)量的要求較高,當數(shù)據(jù)維度大于樣本數(shù)量時,就會出現(xiàn)擬合現(xiàn)象,因此,完善高維數(shù)據(jù)的本質(zhì)低維結(jié)構(gòu),就必須首先解決數(shù)據(jù)低維問題。
三、解決信用數(shù)據(jù)分布特征的相關(guān)策略
(一)非均衡樣本的解決策略
1.基于數(shù)據(jù)分布的調(diào)整
數(shù)據(jù)準備階段是進行數(shù)據(jù)分布調(diào)整的基礎(chǔ),因此,必須做好數(shù)據(jù)準備,才能通過數(shù)據(jù)分組或者數(shù)據(jù)采樣等方式促使類別的平衡,以此來消除類別的不平衡問題。由于利用重抽樣算法來擴充少量樣本會直接產(chǎn)生擬合問題,無法得到理想的效果,于是Pierri等人就采用了案例控制匹配的Logistic回歸、平衡樣本的Logistic回歸和ROSE(Random Over Sampling)平衡樣本回歸這三種方法來解決非均衡信用數(shù)據(jù)所產(chǎn)生的分級問題,并取得了很好的效果。這也同樣能適用于供應(yīng)商的信用評級問題的解決。
2.基于監(jiān)督模型的策略
隨著機器研究的不斷發(fā)展,非均衡樣本通過采用神經(jīng)網(wǎng)絡(luò)算法、支持向量機等方法也有了新的發(fā)展結(jié)果。Li等人通過在子空間與貝葉斯神經(jīng)網(wǎng)絡(luò)集成方面采用有別于傳統(tǒng)算法的深度方差網(wǎng)絡(luò)算法,使得非均衡樣本分類產(chǎn)生了很好的識別效果。主要區(qū)別在于考慮了樣本數(shù)據(jù)的異類以及類間的異構(gòu)性,從而將貝葉斯模型引入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架中,將每次得到的特征聚類到與判別相關(guān)子空間中,進而使得非平衡訓(xùn)練數(shù)據(jù)上的同質(zhì)性以及異質(zhì)性得到自行調(diào)整。
3.基于半監(jiān)督模型的策略
上述方法都屬于監(jiān)督式分類建模的研究范式,也就是通過研究前進行有效架設(shè),將已存在一定數(shù)量的標簽樣本用于建立風險評價模型中,但是,由于供應(yīng)鏈融資具有很強的復(fù)雜性,使得在此過程中難以得到大量的準確標簽樣本,而只能依靠少量的標簽數(shù)據(jù)是難以得到數(shù)據(jù)分布規(guī)律的。肖進等人提出了可在隨機子空間的半監(jiān)督模型,它是通過采用RSS的方法來得到基本分類器,繼而從大部分的無類別標簽中通過選擇性的標記適合的樣本加入到原始訓(xùn)練集中,從而在最終的訓(xùn)練集中得出訓(xùn)練分類模型,進而進行有效分類。通過在三個客戶信用評估數(shù)據(jù)集的分析顯示RSSCI模型具有監(jiān)督式集成信用評估模型與半監(jiān)督協(xié)同訓(xùn)練信用評估模型所沒有的優(yōu)勢。
4.基于集成處理的策略
實驗表明,通過對多個分類器的分類結(jié)果進行有效集成,使每個分類模型都發(fā)揮自身的優(yōu)勢,比進行單個分類模型更能提高客戶信用評估模型的準確性。集成處理策略時通過大量的弱分類器組成的一個強分類器。Sun等人認為,特征選擇與非均衡數(shù)據(jù)處理在信用分析評價中都占據(jù)著至關(guān)重要的地位,為此提出了以T-test和分支定界(B&B)為基礎(chǔ)的動態(tài)特征選擇模型,并以SSVMS和多重判別分析為基分類器進行集成以處理非均衡樣本模型(IOMCE)。通過實驗表明IOMCE模型對于處理分均衡信用樣本的分類問題具有積極作用,而且通過特征選擇模型進行分類數(shù)據(jù)維度的降低也能很好地提高非均衡信用樣本的評價精度。
(二)噪聲離群點的解決策略
1.基于統(tǒng)計學(xué)的探測方法
偏離平均值μ超過3σ的數(shù)據(jù)點指的是在正態(tài)分布中的一個具有代表性的離群點,由于其與標準差存在很大的差異,對此賈潤達等人認為,可通過一種叫做魯棒M估計的間歇過程離群點檢測方法來進行檢測,進而將積分方程離散化將問題轉(zhuǎn)換成最小二乘優(yōu)化問題,并通過Tikhonov正則化方法及魯棒M估計來減少對參數(shù)的影響,然后分析出各個樣本點的權(quán)值,從進而實現(xiàn)對離群點的檢測。研究表明,即使在不確定的市場環(huán)境中,創(chuàng)造性的財務(wù)與自由裁量權(quán)所造成的噪聲與違約概率會自然形成同向關(guān)系,反之則會形成反向關(guān)系。
2.基于聚類的探測方法
聚類的方法使用來檢測對象與簇之間的關(guān)系的,因此,可將數(shù)據(jù)集分成類簇,如若出現(xiàn)一個對象不屬于任何類簇,可以將其視為基于聚類的離群點。Jiang等[6]人認為可通過兩階段聚類離群檢測算法進行檢測,這一算法認為可在第一階段運用K-means算法將所有的數(shù)據(jù)集轉(zhuǎn)變成若干個干聚類,然后在第二階段運用多個簇類將其質(zhì)心代替后形成新的數(shù)據(jù)庫,進而使質(zhì)心間的距離作為權(quán)值成為最小生成樹,去掉長邊,形成多棵子樹,將較少結(jié)點的樹對應(yīng)的小簇類可將其視為離群點。
3.基于距離的探測方法
為了彌補以上算法的不足,王習(xí)特等[7]人通過新型的分布式計算方法,通過運用BDSP(Balance Driven Spatial Partitioning)空間數(shù)據(jù)的方法來處理數(shù)據(jù),再通過采用BDSP算法引出一種BOD(BDSP-basedOutlierDetection)離群點檢測算法得出每個計算結(jié)點本地。該算法是通過R樹索引從而進行大量過濾得出本地離群點進而得出候選集,然后采用BDSP的快編碼規(guī)則確定相鄰塊,從而得出最終結(jié)果。
4.基于密度的探測方法
上述關(guān)于離群點的含義及剔除都是縱觀全局得到的,由于實際數(shù)據(jù)集結(jié)構(gòu)更加復(fù)雜,由此還存在數(shù)據(jù)觀察異常的現(xiàn)象,它被稱為局部離群點。Breunig等[8]認為可通過離群點的檢測算法,將其鄰域的考察數(shù)據(jù)點與其近鄰“密度”的差異來斷定其是否是離群點,從而將這種存在的差異點稱為局部離群因子(LocalOutlierFactor,LOF)。
結(jié)語
綜上所述,信貸增量控制導(dǎo)致實體經(jīng)濟缺乏充分發(fā)展的條件,尤其是供應(yīng)商融資方面的影響,國家電網(wǎng)公司的供應(yīng)鏈金融發(fā)展的實質(zhì)就是解決發(fā)展處于劣勢地位的供應(yīng)商的融資問題,是“三型兩網(wǎng)”世界一流能源互聯(lián)網(wǎng)企業(yè)建設(shè)的重要探索,是提高金融業(yè)務(wù)創(chuàng)新活力、推進產(chǎn)融協(xié)同、服務(wù)公司高質(zhì)量發(fā)展的重要舉措。由于供應(yīng)鏈融資具有評估指標靈活多樣以及資金關(guān)系較為復(fù)雜等特點,加上我國供應(yīng)商的密集性、多樣性從而使得數(shù)據(jù)分析方法較為復(fù)雜。大數(shù)據(jù)是通過分析供應(yīng)商的信用特征,從而梳理出主要影響因素,進而對評估數(shù)據(jù)中的的內(nèi)在信息與研究價值進行分析,最終為構(gòu)建更優(yōu)越的電網(wǎng)供應(yīng)鏈金融平臺奠定理論基礎(chǔ)。
參考文獻:
[1]? 肖進,薛書田,黃靜,等.客戶信用評估半監(jiān)督協(xié)同訓(xùn)練模型研究[J].中國管理科學(xué),2016,24(6):124-131.
[2]? 賈潤達,劉俊豪,毛志忠,等.基于魯棒M估計的間歇過程離群點檢測[J].儀器儀表學(xué)報,2013,34(8):1726-1731.
[3]? 王習(xí)特,申德榮,白梅,等.BOD:一種高效的分布式離群點檢測算法[J].計算機學(xué)報,2016,39(1):36-50.