張 磊 任敬斌 魏 麗
(國網(wǎng)甘肅信通公司,甘肅 蘭州 730050)
在市場(chǎng)體制快速改革的大背景下,參與跨行業(yè)、跨區(qū)域經(jīng)營活動(dòng)的企業(yè)數(shù)目有快速增長趨勢(shì),電網(wǎng)行業(yè)精確掌握企業(yè)生產(chǎn)實(shí)況的難度相應(yīng)增加,很可能使授信工作推進(jìn)階段面對(duì)諸多阻礙。為了解除以上問題,合理地應(yīng)用大數(shù)據(jù)技術(shù),利用官方及相關(guān)數(shù)據(jù)建設(shè)模型于關(guān)聯(lián)圖譜。與常規(guī)圖譜相比,關(guān)聯(lián)圖譜能真切地勾畫出不同主體間形成的關(guān)聯(lián)網(wǎng)絡(luò),特別是為帶電網(wǎng)數(shù)據(jù)主體勾畫出完整的“自畫像”,在三維空間還原實(shí)際狀況。
從本質(zhì)上分析,知識(shí)圖譜為一類結(jié)構(gòu)化、語義化的知識(shí)庫,其以符號(hào)為載體闡述客觀存在事物的定義、特性及其相關(guān)性。實(shí)體、相關(guān)性及與之相關(guān)的屬性為只是圖譜的基本構(gòu)成單元,基于關(guān)系鏈條不同實(shí)體間形成一張知識(shí)網(wǎng)絡(luò)。
在Hadoop 以后較為流行的新大數(shù)據(jù)處理平臺(tái)——Spark平臺(tái),也可以將其看成是一個(gè)快捷的測(cè)算引擎,當(dāng)下應(yīng)用較為廣泛。Spark 吸納了Hadoop 的優(yōu)勢(shì),在設(shè)計(jì)方面進(jìn)行完善,和Hadoop 相比,其效率提升了100 倍左右,因此,在有Map Reduce 迭代需求的情景內(nèi)適用性更強(qiáng),數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)是典型代表。
首先,剖析建設(shè)知識(shí)圖譜的模式與目標(biāo)對(duì)象,會(huì)涉及頂層定義、頂層事件內(nèi)容,兩者在社交、物權(quán)、運(yùn)營等方面存在一定的相關(guān)性。其次,把持有的信息轉(zhuǎn)型為對(duì)應(yīng)的實(shí)體,存儲(chǔ)于圖數(shù)據(jù)庫內(nèi)并建設(shè)圖節(jié)點(diǎn);提獲不同本體間的相關(guān)性并細(xì)化其所屬類別,然后整體存于圖數(shù)據(jù)庫內(nèi),這是關(guān)聯(lián)邊建設(shè)的重要基礎(chǔ)。這樣一個(gè)知識(shí)圖譜的大體輪廓隨之形成,但是該圖譜需要在他類數(shù)據(jù)的協(xié)助下拓展內(nèi)容[1]。
在該系統(tǒng)內(nèi),數(shù)據(jù)源發(fā)揮了邏輯核心功能,結(jié)合數(shù)據(jù)需求差異性,本系統(tǒng)涵蓋授權(quán)、爬蟲及自有數(shù)據(jù)。
因該系統(tǒng)內(nèi)有很多類型有別的數(shù)據(jù)源,持有高價(jià)值、權(quán)威性強(qiáng)的結(jié)構(gòu)化數(shù)據(jù),為了滿足系統(tǒng)后續(xù)階段提供的拓展需求與考評(píng)數(shù)據(jù)異構(gòu)屬性,該系統(tǒng)擬定整合NoSQL 與SQL 數(shù)據(jù)庫的形式存儲(chǔ)數(shù)據(jù),NoSQL 內(nèi)未設(shè)置有嚴(yán)格要求的表結(jié)構(gòu),簡化了數(shù)據(jù)集表結(jié)構(gòu)整改流程[2]。
計(jì)算層主要針對(duì)存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)完成抽取信息、挖掘數(shù)據(jù)等任務(wù)。構(gòu)建系統(tǒng)過程中需要綜合應(yīng)用數(shù)據(jù)挖掘、圖計(jì)算和機(jī)器學(xué)習(xí)等諸多技術(shù)。
這是系統(tǒng)將自身核心價(jià)值充分體現(xiàn)出來的層級(jí)依托,促進(jìn)多個(gè)用于闡述企業(yè)相關(guān)信息的模型產(chǎn)出過程,進(jìn)而達(dá)到整體呈現(xiàn)企業(yè)數(shù)據(jù)“自畫像”的目的。
內(nèi)、外部都是獲得數(shù)據(jù)的重要渠道,前者包括上級(jí)企業(yè)傳送的數(shù)據(jù)、電子檔案影像、視頻及視頻資料等;外部數(shù)據(jù)多是微博、網(wǎng)站等上發(fā)布的動(dòng)態(tài)結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)、將來集中式購置的數(shù)據(jù)等。在ETL 工具的幫襯下,每日或定時(shí)收集平臺(tái)有關(guān)數(shù)據(jù)源。
以Hadoop 的處置集群為基礎(chǔ)建設(shè)數(shù)據(jù)平臺(tái),存儲(chǔ)、測(cè)算被采集數(shù)據(jù)信息是平臺(tái)的核心功能。Hadoop 聚集了多種功能性構(gòu)件;HDFS 作為分布式文件系統(tǒng),以分布式形成存儲(chǔ)大數(shù)據(jù)文件;在大批量數(shù)據(jù)測(cè)算過程中,YARN 發(fā)揮管理與調(diào)控資源的作用;Hbase 是持有拓展功能的NoSQL 數(shù)據(jù)庫,結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)均可存儲(chǔ)于其內(nèi);針對(duì)存留于HBase 內(nèi)的數(shù)據(jù),可采用Hve 查找、解讀數(shù)據(jù);Spark 作為快速通用型測(cè)算引擎,通用性、適用性均處于較高層次上(如圖1 所示)[3]。
平臺(tái)數(shù)據(jù)處理層整合、加工、測(cè)算大批量數(shù)據(jù)后,產(chǎn)出面向主題的數(shù)據(jù)集與多樣化分析模型。對(duì)多源異構(gòu)數(shù)據(jù)信息予以整合處理后,可以建設(shè)有闡述企業(yè)有關(guān)信息的數(shù)據(jù)模型,常見的有關(guān)系圖譜、物理方位、訴訟懲罰等,進(jìn)而整體呈現(xiàn)出活躍在資本市場(chǎng)環(huán)境內(nèi)的企業(yè)數(shù)據(jù)“自畫像”。
圖1 資產(chǎn)關(guān)聯(lián)模型圖示
很多企業(yè)間建設(shè)的關(guān)聯(lián)關(guān)系具有極為顯著的隱匿性特征,從表象上難以觀察到,合理應(yīng)用大數(shù)據(jù)分析系統(tǒng)能促進(jìn)企業(yè)關(guān)系網(wǎng)復(fù)原過程。利用數(shù)據(jù)挖掘技術(shù)分析企業(yè)對(duì)內(nèi)部、外部真實(shí)的擔(dān)保狀況、與訴訟相關(guān)的信息,結(jié)合不同企業(yè)之間發(fā)生的大型、不均等交易活動(dòng)以及大事紀(jì)等諸多信息,歷經(jīng)互為印證過程判別企業(yè)間存在的關(guān)聯(lián)性。當(dāng)確定大數(shù)據(jù)分析系統(tǒng)全面掌握了不同電力公司間塑造的關(guān)聯(lián)性行為后,就能夠關(guān)聯(lián)知識(shí)圖譜內(nèi)建設(shè)出不同主體之間的聯(lián)系網(wǎng)絡(luò),同時(shí)將數(shù)值分別賦予各類關(guān)聯(lián)聯(lián)系,例如,賦予互為擔(dān)保關(guān)系賦一個(gè)較大數(shù)值;小額度賬戶資金往來關(guān)聯(lián)關(guān)系,通常賦予低值;而針對(duì)間接關(guān)聯(lián)關(guān)系,通常分流程測(cè)算出關(guān)聯(lián)關(guān)系值,最后測(cè)算出2 個(gè)不同主體間的相關(guān)性程度,并智能化做出標(biāo)識(shí),逾越預(yù)設(shè)閾值時(shí)將會(huì)智能傳送出預(yù)警信號(hào),披露企業(yè)之間存在的關(guān)聯(lián)關(guān)系。
在辦理授信審批業(yè)務(wù)過程中,對(duì)現(xiàn)場(chǎng)實(shí)地考評(píng)、結(jié)構(gòu)化數(shù)據(jù)集審批人員的主觀判斷表現(xiàn)出高度依賴性,以無多維度、多樣性數(shù)據(jù)為支撐,很難準(zhǔn)確地辨識(shí)出客戶群體的償債能力。在知識(shí)圖譜關(guān)聯(lián)的協(xié)助下,能夠減輕企業(yè)之間信息不對(duì)稱的問題,協(xié)助企業(yè)能在短時(shí)間內(nèi)快速了解客戶的真實(shí)運(yùn)營狀況、經(jīng)濟(jì)效益、資金需求量。可以在資產(chǎn)關(guān)系模型的支撐下建設(shè)實(shí)時(shí)監(jiān)測(cè)機(jī)制,通過挖掘信貸企業(yè)電表、水表、工資表等諸多信息,辨識(shí)出反常動(dòng)向,依照現(xiàn)金流與上下游交易數(shù)據(jù)拓展對(duì)反常動(dòng)向成因分析的深度性,特殊情況可通過自覺退離、調(diào)控抵押物等形式降低風(fēng)險(xiǎn)等級(jí)。
例如,在處置人員案頭分析過程中,需要通過多種渠道采集和債務(wù)人相關(guān)的基本信息,常規(guī)方法是于數(shù)個(gè)系統(tǒng)內(nèi)逐一搜查。可以從企業(yè)內(nèi)部系統(tǒng)探查信息,而訴訟與實(shí)施信息可以從法院系統(tǒng)內(nèi)捕獲,行中數(shù)據(jù)庫是查找信息的主要渠道。以上信息來源渠道繁多,并且需要符合某些條件后方可捕獲一些信息源,耗用大量的人力與時(shí)間資源。而大數(shù)據(jù)系統(tǒng)能深度挖掘數(shù)個(gè)數(shù)據(jù)庫,并建設(shè)其間的關(guān)聯(lián)性,這樣相關(guān)人員就能在一個(gè)界面上快捷、精確的查詢到以上所有數(shù)據(jù)源,明顯降低了工作人員的作業(yè)量。
知識(shí)圖譜將多個(gè)類別的信息銜接為一而產(chǎn)出的關(guān)系網(wǎng)絡(luò),其提供站在實(shí)體“關(guān)系”視角去解讀問題的能力,在闡述客觀環(huán)境中不同實(shí)體之間相關(guān)性的基礎(chǔ)上,還能為用戶群體提供更多有實(shí)用價(jià)值的檢索結(jié)果。該文在大數(shù)據(jù)技術(shù)的支配下,以數(shù)據(jù)建設(shè)關(guān)聯(lián)圖譜為支撐建設(shè)了資產(chǎn)關(guān)聯(lián)模型,該模型對(duì)信息運(yùn)維管理、完善網(wǎng)絡(luò)過程均有一定促進(jìn)作用,值得推廣。