陳日成
在大數(shù)據(jù)時代,知識圖譜將互聯(lián)網(wǎng)上碎片化的知識通過網(wǎng)絡(luò)化的形式整合,為我們提供了一種新型的數(shù)據(jù)獲取方式,便于人們進(jìn)行數(shù)據(jù)的檢索與分析,從中獲取更有價值的信息。在知識圖譜技術(shù)發(fā)展的同時,信息抽取技術(shù)也在逐漸發(fā)展,人們不再局限于在結(jié)構(gòu)化的數(shù)據(jù)中抽取數(shù)據(jù),對于半結(jié)構(gòu)及非結(jié)構(gòu)化的數(shù)據(jù),人們也開始在其中挖掘知識。事件數(shù)據(jù)則屬于半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)中的一種,事件數(shù)據(jù)中包含著多方主體,蘊(yùn)含著眾多信息。同時,事件也不只是作為個體而單獨(dú)存在的,事件與事件之間還存在著眾多的聯(lián)系,如因果、順承、遞進(jìn)等,這些關(guān)系都展示了事件數(shù)據(jù)的“動態(tài)性”。本文以金融領(lǐng)域的事件作為研究點,從開放的半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)中抽取知識,構(gòu)建知識圖譜,并進(jìn)行其在語義及結(jié)構(gòu)上的演化分析。
一、金融風(fēng)險相關(guān)內(nèi)容
近些年金融風(fēng)險事件頻發(fā),由單一個體發(fā)現(xiàn)風(fēng)險而引發(fā)的群體風(fēng)險事件眾多,學(xué)術(shù)界也越來越關(guān)注金融風(fēng)險預(yù)警這一熱點,根據(jù)不同的研究視角,金融風(fēng)險預(yù)警研究可以分為系統(tǒng)總體風(fēng)險預(yù)警和系統(tǒng)內(nèi)部風(fēng)險預(yù)警,而對于檢測金融風(fēng)險水平通常用的是經(jīng)驗指標(biāo)分析法及綜合指數(shù)法。對金融體系內(nèi)部分金融機(jī)構(gòu)的風(fēng)險監(jiān)測常用的方法是基于市場數(shù)據(jù)的模型法,如條件風(fēng)險價值法(Co-VaR)、Hapley值、Srisk、Copula函數(shù)方法等。上述方法可以實時跟蹤和監(jiān)控金融機(jī)構(gòu)的系統(tǒng)性風(fēng)險,具有良好的時效性。缺陷在于往往以單一市場的金融機(jī)構(gòu)為研究對象,當(dāng)涉及多個金融機(jī)構(gòu)相互影響和聯(lián)系的情況時,這些方法則失去了優(yōu)勢。
二、知識圖譜基礎(chǔ)
按照維基百科的定義,知識圖譜的最早應(yīng)用是作為提高搜索引擎效率的知識庫,表達(dá)實體之間的語義信息網(wǎng)絡(luò)關(guān)系是它的本質(zhì),采用的是三元組的形式來揭示實體自身以及實體之間的關(guān)系。
三元組信息是知識圖譜的基礎(chǔ),眾多三元組構(gòu)成了一張知識大網(wǎng),三元組包含實體、關(guān)系、屬性、屬性值等信息。在金融知識圖譜中,例如企業(yè)實體,則會有,法人、代碼、董事等屬性,通過其屬性又關(guān)聯(lián)到另一個企業(yè)實體,以此構(gòu)建成知識圖譜大網(wǎng),同時為了避免信息冗余,每一個實體在知識庫中都有一個唯一的標(biāo)識ID,如“8a0f3fa0-019c-4c91-86dd-3c20c946d09d”是一個法人的唯一標(biāo)識ID。金融知識圖譜屬于領(lǐng)域知識圖。
三、金融事件的演化分析
(一)金融風(fēng)險事件數(shù)據(jù)收集概況
經(jīng)過爬蟲和數(shù)據(jù)清理,目前共獲得包含擔(dān)保交易、股權(quán)凍結(jié)、股權(quán)質(zhì)押、關(guān)聯(lián)交易、立案調(diào)查、訴訟仲裁、違規(guī)事件約105600條事件數(shù)據(jù),包含公司、股東、法定代表人、金融機(jī)構(gòu)約152000個實體,包含企業(yè)名稱、ID、股票代碼、交易類型、時間信息、金額、股份等約263000條屬性。
(二)數(shù)據(jù)處理
對于上述爬取的數(shù)據(jù),利用python正則表達(dá)式工具,將實驗所需要的實體、時間、關(guān)系等數(shù)據(jù)提取出來。并于MySQL關(guān)系型數(shù)據(jù)庫接口進(jìn)行對接,將數(shù)據(jù)存入數(shù)據(jù)庫。為了便于詞表的構(gòu)建,利用python工具統(tǒng)計實體、時間的詞頻,金融事件網(wǎng)絡(luò)形成的基礎(chǔ)是一個事件涉及多個實體,實體與其他實體又存在關(guān)系,那么,各實體之間就形成了關(guān)聯(lián)關(guān)系。本文的金融關(guān)聯(lián)指的是:擔(dān)保交易、股權(quán)凍結(jié)、股權(quán)質(zhì)押、關(guān)聯(lián)交易、立案調(diào)查、訴訟仲裁、違規(guī)事件。為了得出他們之間的具體關(guān)系,將2008年-2019年的事件數(shù)據(jù)劃分為2008年-2011年、2012年-2015年和2016年-2019年份三個時間段,對各個時間段的共現(xiàn)詞頻進(jìn)行統(tǒng)計,為了避免數(shù)據(jù)量過于龐大,影響實驗的速度,僅僅選取各個時間段內(nèi)事件數(shù)量大于等于10的實體進(jìn)行可視化展示,從而降低個別不典型數(shù)據(jù)對實驗結(jié)果的影響。根據(jù)具體的實驗結(jié)果分析,事件數(shù)量小于10的實體不具有代表性,并且數(shù)量眾多,對實驗結(jié)果的影響并不顯著。對于上述三個時間段分別設(shè)定三個CSV文件,文件第一行為表頭列名(source、target、weight),其中,前兩列為關(guān)聯(lián)節(jié)點名稱,最后一列為權(quán)重(即雙方關(guān)聯(lián)頻次)。不同時間段實體與實體共現(xiàn)統(tǒng)計結(jié)果詳見表4.9(數(shù)據(jù)只部分展示)。
(三)時間序列金融事件網(wǎng)絡(luò)特征分析
將三個時間段2008年-2011年、2012年-2015年和2016年-2019年的數(shù)據(jù)用Gephi工具進(jìn)行社會網(wǎng)絡(luò)分析,得到如下表所示的分析數(shù)據(jù),具體情況詳見后續(xù)的網(wǎng)絡(luò)密度、點度中心度、中心中間性、網(wǎng)絡(luò)具體分析。
1.網(wǎng)絡(luò)密度
通過上述金融事件網(wǎng)絡(luò)特征分析結(jié)果可知,金融事件網(wǎng)絡(luò)密度從第一階段2008.01-2011.12的0.017變?yōu)榈诙A段2012.01-2015.12的0.018,最終變化為到第三階段2016.01-2019.12的0.015,無論是從單個階段看還是從整體來看,整個金融事件網(wǎng)絡(luò)密度遠(yuǎn)遠(yuǎn)小于1,這一數(shù)據(jù)表明實體與實體之間的事件關(guān)聯(lián)不是很密切,事件之間的關(guān)聯(lián)性不是非常明顯。下面對其原因進(jìn)行具體分析:首先,在金融事件網(wǎng)絡(luò)中各實體處于不同的行業(yè)、地區(qū),如果要進(jìn)行關(guān)聯(lián),則需要跨行業(yè)、跨區(qū)域,如此進(jìn)行事件關(guān)聯(lián)會消耗巨大的時間成本和經(jīng)濟(jì)成本;其次,金融領(lǐng)域具有封閉性特征,各實體更愿意與同行業(yè)、地區(qū)的實體進(jìn)行關(guān)聯(lián),其目的也是為了避免潛在的風(fēng)險。
最終,通過對比上述金融事件網(wǎng)絡(luò)特征不同時間段的網(wǎng)絡(luò)密度可以發(fā)現(xiàn),網(wǎng)絡(luò)密度的波動僅有0.001至0.002,總體的趨勢呈現(xiàn)平穩(wěn)的態(tài)勢,表明在互聯(lián)網(wǎng)時代的浪潮下,倒逼各實體進(jìn)行金融交流,各個金融實體也難以避免與其他實體發(fā)生關(guān)聯(lián)關(guān)系。
2.點度中心度
通過上述金融事件網(wǎng)絡(luò)特征分析結(jié)果可知,萬科企業(yè)股份有限公司、湖北宜化化工股份有限公司、飛亞達(dá)(集團(tuán))股份有限公司、中國大唐集團(tuán)公司、武漢東湖高新集團(tuán)股份有限公司等實體名列點度中心度的前列,深圳長城開發(fā)科技股份有限公司、蘇州長城開發(fā)科技有限公司、金融街控股股份有限公司等實體處于點度中心度排名的末端,由此可見整個金融事件網(wǎng)絡(luò)中,點度中心度的差異較大。下面對其原因進(jìn)行具體分析:首先,實驗結(jié)果表明上述實體在金融事件中所處的地位不同,具體表現(xiàn)為在點度中心度前列的實體處于金融事件的核心并且知名度較大,資源優(yōu)勢強(qiáng),從而與其他實體發(fā)生較多的關(guān)聯(lián)關(guān)系,產(chǎn)生較大的凝聚效應(yīng);其次,對于處于點度中心度末端的實體,在網(wǎng)絡(luò)中所處地位也較低,他們一方面自身體量相對較小、所掌控的資源不夠充足,或者是缺乏一定的核心競爭力,因此較難與其他實體形成關(guān)聯(lián)關(guān)系。
最終,通過上述金融事件網(wǎng)絡(luò)特征分析對比三個時間段的點度中心度可以發(fā)現(xiàn),整個網(wǎng)絡(luò)的點度中心度呈上升趨勢,從0.215、0.264上升至0.282,同時各實體之間的點度中心度的數(shù)值差異在逐漸縮小,這一現(xiàn)象反映了在金融事件關(guān)聯(lián)的過程中,實體在不斷地與其他實體建立更密集、更廣泛的關(guān)聯(lián),使得實體自己在金融事件網(wǎng)絡(luò)中的地位進(jìn)一步加強(qiáng)。
3.中心中間性
通過上述金融事件網(wǎng)絡(luò)特征分析結(jié)果可知,中海集裝箱運(yùn)輸股份有限公司、中國大唐集團(tuán)公司、武漢東湖高新集團(tuán)股份有限公司等實體處于中心中間性的前列,深圳能源集團(tuán)股份有限公司、中興通訊股份有限公司、深圳市民德電子科技股份有限公司等實體處于中心中間性的末端,并且中心中間性的值差異較大,其最大差值超過0.1。由此可見,在整個金融事件網(wǎng)絡(luò)中,處于核心地位的實體與處于“偏僻”地位的實體差異較大,作為核心地位的實體位于多個實體連接路徑的中間節(jié)點上。下面對其原因進(jìn)行具體分析:首先,是因為這些實體的所在行業(yè)大多為服務(wù)型,與其他實體的關(guān)聯(lián)關(guān)系更為緊密。另一方面,這些實體在行業(yè)內(nèi)市場份額較大,掌握著該行業(yè)的優(yōu)勢資源,具有核心競爭力,從而能夠在金融合作過程更便于與其他實體形成關(guān)聯(lián)關(guān)系。
最終,通過金融事件網(wǎng)絡(luò)特征分析結(jié)果對比不同時間段的中心中間性數(shù)據(jù)可以發(fā)現(xiàn),整個網(wǎng)絡(luò)的中心中間性在逐漸增加,從最開始的0.312到0.424最后到0.527,最大跨度接近0.2,這一現(xiàn)象反映了各實體在金融關(guān)聯(lián)的過程中,在不斷尋求與其他實體進(jìn)行關(guān)聯(lián)從而擴(kuò)大自身的“結(jié)點”作用,與其他實體關(guān)聯(lián)數(shù)量多,也屬于實體自身的一種資源,從而便于建立更多、更廣泛的關(guān)聯(lián),使實體自身在金融合作中“橋梁”的作用進(jìn)一步加強(qiáng),從而使得自己在金融事件網(wǎng)絡(luò)中的地位進(jìn)一步提高。
4.網(wǎng)絡(luò)距離
從上述金融事件網(wǎng)絡(luò)特征分析結(jié)果可知,三個不同時間段2008年-2011年、2012年-2015年和2016年-2019年的金融合作網(wǎng)絡(luò)的平均距離分別是3.172、4.021和5.252,由此可以得知,在整個金融事件網(wǎng)絡(luò)中,任意一個實體平均需要通過3個或者4個實體才能與另一個實體取得關(guān)聯(lián)。下面對其原因進(jìn)行具體分析:我國地域遼闊,省份眾多,各實體在我國分布范圍較廣,所以,雖然平均網(wǎng)絡(luò)距離較大,但是結(jié)合實際情況而言,這一平均距離的結(jié)果是可以為大多數(shù)實體所接受的。
最終,在三個時間段所得出的網(wǎng)絡(luò)距離值的基礎(chǔ)上,得到響應(yīng)時間段的凝聚力指數(shù)分別為0.0643、0.0532和0.0589,從該數(shù)據(jù)可以發(fā)現(xiàn),我國金融事件網(wǎng)絡(luò)實體之間總體聯(lián)系并不緊密,有著各自為政的趨勢,因此建議,我國各金融實體緊密程度有待提升,凝聚力需要加強(qiáng),從三個階段的凝聚力指數(shù)總體態(tài)勢分析,在第一階段2008年-2011年,自經(jīng)濟(jì)危機(jī)爆發(fā)以來,各實體開始注意到金融事件對其自身風(fēng)險的影響,導(dǎo)致凝聚力較強(qiáng);隨著時間的推移2012年-2015年,各實體在逐漸增加,數(shù)量上提升迅速,量變導(dǎo)致質(zhì)變,從而導(dǎo)致凝聚力開始下降;近些年來2016年-2019年,隨著金融行業(yè)的穩(wěn)定與成熟,國家政策的逐漸完善,各實體也逐步意識到金融合作的重要性,開始大規(guī)模尋求金融合作,從而促使凝聚力又穩(wěn)步回升。
結(jié) 語
我國對于知識圖譜的研究最開始是通過人工構(gòu)建的方式進(jìn)行的,因此存在許多的弊端,如規(guī)模小、覆蓋少、應(yīng)用狹窄等,這種人工規(guī)則構(gòu)建的知識圖譜難以擴(kuò)展為大規(guī)模的知識圖譜,例如中科院計算所設(shè)計的知網(wǎng)(HowNet)就屬于這種范疇。國內(nèi)工業(yè)界和學(xué)術(shù)界也對知識圖譜展開了一系列的研究。在我國工業(yè)界,眾多互聯(lián)網(wǎng)公司也加入到知識圖譜的研究中來,例如百度知識圖譜、阿里巴巴電商知識圖譜,美團(tuán)大腦、搜狗知立方等。在金融領(lǐng)域,同樣有海智大數(shù)據(jù)、天眼查等比較成熟的金融知識圖譜。目前,無論是國內(nèi)還是國外,對行業(yè)和領(lǐng)域知識圖譜(也稱作垂直領(lǐng)域的知識圖譜)的研究還較少,投入到實際應(yīng)用中的也還待開發(fā)。領(lǐng)域知識圖譜在許多行業(yè)都有應(yīng)用價值,例如行業(yè)智能知識服務(wù)、問答系統(tǒng)、行業(yè)語義搜索、大數(shù)據(jù)關(guān)聯(lián)分析等方面都有廣泛的研究與應(yīng)用價值。
(作者單位:湖北商貿(mào)學(xué)院)