韓 超,羅釗航
(中國(guó)核動(dòng)力研究設(shè)計(jì)院,四川 成都 610213)
多源異構(gòu)數(shù)據(jù)是大數(shù)據(jù)時(shí)代的產(chǎn)物,有著多元化、非結(jié)構(gòu)化的特點(diǎn),大數(shù)據(jù)應(yīng)用的基礎(chǔ)是多源異構(gòu)數(shù)據(jù)管理。目前,多源異構(gòu)數(shù)據(jù)管理在網(wǎng)絡(luò)安全[2]、氣象系統(tǒng)[3]、電網(wǎng)工程[4]等眾多領(lǐng)域有廣泛應(yīng)用。核電數(shù)據(jù)具有數(shù)據(jù)來(lái)源多方面、數(shù)據(jù)類型、特征多樣的特點(diǎn),是典型的多源異構(gòu)數(shù)據(jù)[1]。
目前,針對(duì)核電數(shù)據(jù)多源異構(gòu)的特點(diǎn),為解決核電數(shù)據(jù)的數(shù)據(jù)規(guī)范、數(shù)據(jù)采集、數(shù)據(jù)融合、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析應(yīng)用等多方面問(wèn)題,提出多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)。系統(tǒng)主要功能有:原始數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)互聯(lián)互通、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘。
核電站產(chǎn)生的各專業(yè)數(shù)據(jù)來(lái)源廣泛,結(jié)構(gòu)不同,為多源異構(gòu)數(shù)據(jù),擬提出多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)建設(shè)方案,解決多源異構(gòu)反應(yīng)堆數(shù)據(jù)的原始數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘問(wèn)題,實(shí)現(xiàn)滿足統(tǒng)一平臺(tái)、容災(zāi)備份、安全控制、接口調(diào)用的專業(yè)平臺(tái)。
圖1 展示了多源異構(gòu)核電實(shí)驗(yàn)數(shù)據(jù)管理系統(tǒng)建設(shè)的總體技術(shù)路線和總體框架,關(guān)鍵技術(shù)主要包括:
(1)制定原始數(shù)據(jù)產(chǎn)生規(guī)范,設(shè)計(jì)實(shí)驗(yàn)裝備接口管理方案,設(shè)計(jì)原始實(shí)驗(yàn)數(shù)據(jù)的不同粒度的編碼規(guī)則,設(shè)計(jì)數(shù)據(jù)全生命周期管理系統(tǒng),設(shè)計(jì)適應(yīng)于數(shù)據(jù)采集組件和數(shù)據(jù)存儲(chǔ)組件的多源核電數(shù)據(jù)融合機(jī)制和方案。
(2)從原始數(shù)據(jù)產(chǎn)生設(shè)備中采集不同專業(yè)類型,不同平臺(tái)來(lái)源的多專業(yè)、多平臺(tái)的多源實(shí)驗(yàn)數(shù)據(jù),提供設(shè)備數(shù)據(jù)庫(kù)采集組件,工控機(jī)網(wǎng)絡(luò)接口采集組件、實(shí)時(shí)數(shù)據(jù)采集組件和文件數(shù)據(jù)采集組件。
(3)在高性能存儲(chǔ)集群上設(shè)計(jì)多專業(yè)、多平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)庫(kù),滿足核電各個(gè)專業(yè)數(shù)據(jù)庫(kù)的數(shù)據(jù)共享和數(shù)據(jù)融合,滿足各專業(yè)數(shù)據(jù)庫(kù)模式多樣化,支持靜態(tài)數(shù)據(jù)存儲(chǔ)和實(shí)時(shí)數(shù)據(jù)存儲(chǔ)。
(4)在多源異構(gòu)數(shù)據(jù)庫(kù)基礎(chǔ)上,提供數(shù)據(jù)索引、數(shù)據(jù)治理、數(shù)據(jù)建模、數(shù)據(jù)查詢、數(shù)據(jù)計(jì)算和數(shù)據(jù)可視化功能,為數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)支撐。
(5)結(jié)合多源異構(gòu)數(shù)據(jù)庫(kù)和數(shù)據(jù)服務(wù)內(nèi)容,提供專業(yè)領(lǐng)域知識(shí)下的關(guān)聯(lián)分析、時(shí)序分析、文本挖掘、表征學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),為實(shí)驗(yàn)人員提供實(shí)驗(yàn)決策支持。
自從我國(guó)經(jīng)濟(jì)進(jìn)入“新常態(tài)”時(shí)期以后,企業(yè)更加注重可持續(xù)化的發(fā)展和持續(xù)的經(jīng)濟(jì)增長(zhǎng),很多程度上推動(dòng)了財(cái)務(wù)公司的快速發(fā)展。產(chǎn)業(yè)鏈金融作為財(cái)務(wù)公司現(xiàn)階段重要的金融服務(wù),能夠?qū)ζ髽I(yè)集團(tuán)的資源進(jìn)行科學(xué)地整合與配置,同時(shí)還能夠根據(jù)企業(yè)集團(tuán)的運(yùn)營(yíng)特點(diǎn)來(lái)拓展運(yùn)營(yíng)的業(yè)務(wù)范圍,進(jìn)一步延長(zhǎng)和拓寬企業(yè)集團(tuán)運(yùn)營(yíng)相關(guān)的產(chǎn)業(yè)鏈,有利于企業(yè)集團(tuán)提高整體的競(jìng)爭(zhēng)能力同時(shí)為集團(tuán)企業(yè)戰(zhàn)略發(fā)展提供條件。財(cái)務(wù)公司應(yīng)當(dāng)加強(qiáng)對(duì)產(chǎn)業(yè)鏈金融的研究并明確產(chǎn)業(yè)鏈金融的服務(wù)定位和細(xì)節(jié),通過(guò)科學(xué)的產(chǎn)業(yè)鏈金融服務(wù)來(lái)幫助企業(yè)集團(tuán)和上下游企業(yè)的完成融資和適當(dāng)?shù)陌l(fā)展計(jì)劃制定,提高企業(yè)集團(tuán)的資源利用效率并推動(dòng)企業(yè)集團(tuán)更高水平地發(fā)展。
在多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)中,利用數(shù)據(jù)采集組件獲取實(shí)驗(yàn)臺(tái)架等數(shù)據(jù)產(chǎn)生裝備的多源數(shù)據(jù),利用多源數(shù)據(jù)進(jìn)行數(shù)據(jù)服務(wù),利用數(shù)據(jù)融合技術(shù)進(jìn)行數(shù)據(jù)挖掘。其次,多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)具有容災(zāi)備份、安全控制和接口調(diào)用的能力(如圖1)。在第2 節(jié),將重點(diǎn)介紹各個(gè)功能的設(shè)計(jì)思路和設(shè)計(jì)方案。
圖1 多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)技術(shù)路線
根據(jù)實(shí)驗(yàn)數(shù)據(jù)多專業(yè)、多平臺(tái)的特點(diǎn),數(shù)據(jù)采集擬采用數(shù)據(jù)庫(kù)采集、工控接口采集、實(shí)驗(yàn)數(shù)據(jù)采集和文件數(shù)據(jù)采集多種采集方式融合的方案,采集具體過(guò)程如下:
(1)數(shù)據(jù)庫(kù)采集
若各個(gè)實(shí)驗(yàn)裝備系統(tǒng)有各自數(shù)據(jù)庫(kù),可考慮進(jìn)行數(shù)據(jù)庫(kù)采集,根據(jù)數(shù)據(jù)庫(kù)是否在同一服務(wù)器上可分為直接融合和鏈接融合。在同一服務(wù)器上的數(shù)據(jù)庫(kù),配置其訪問(wèn)權(quán)限,直接進(jìn)行數(shù)據(jù)融合;在不同服務(wù)器上的數(shù)據(jù)庫(kù),利用外圍數(shù)據(jù)庫(kù)進(jìn)行鏈接,配置其訪問(wèn)權(quán)限進(jìn)行數(shù)據(jù)融合,從而獲取完整的實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)庫(kù)采集流程如圖2 所示。
(2)工控接口采集
若各個(gè)實(shí)驗(yàn)裝備系統(tǒng)有各自數(shù)據(jù)接口,可考慮進(jìn)行工控接口采集。如圖2 所示,根據(jù)各個(gè)數(shù)據(jù)庫(kù)接口的協(xié)議和模式設(shè)計(jì),確定接口對(duì)接和數(shù)據(jù)融合方案,并進(jìn)行測(cè)試和驗(yàn)證數(shù)據(jù)的正確性。
(3)實(shí)時(shí)數(shù)據(jù)采集
圖2 數(shù)據(jù)采集流程
針對(duì)實(shí)驗(yàn)臺(tái)架實(shí)時(shí)數(shù)據(jù)傳輸?shù)奶攸c(diǎn),考慮采用基于專用緩存的實(shí)時(shí)數(shù)據(jù)采集方案。引入專用緩存的目的是為了避免并發(fā)存儲(chǔ)大導(dǎo)致服務(wù)器崩潰,因此專用緩存的設(shè)計(jì)是實(shí)時(shí)數(shù)據(jù)采集的重點(diǎn)。擬計(jì)劃采用增量采集的專用緩存方案,關(guān)鍵步驟有:首先實(shí)時(shí)數(shù)據(jù)形成消息隊(duì)列,每次以增量形式進(jìn)入緩存區(qū);其次當(dāng)緩存區(qū)存滿后,向數(shù)據(jù)庫(kù)寫入數(shù)據(jù);當(dāng)緩存區(qū)有空閑容量時(shí),實(shí)時(shí)數(shù)據(jù)繼續(xù)存儲(chǔ),直到存儲(chǔ)完畢。具體流程如圖3 所示。
(4)文件數(shù)據(jù)采集
實(shí)驗(yàn)數(shù)據(jù)包括大量的設(shè)計(jì)系統(tǒng)和仿真系統(tǒng)產(chǎn)生的測(cè)試數(shù)據(jù)和仿真運(yùn)算數(shù)據(jù),通過(guò)常用的PDF、圖片等電子文檔格式保存,因此考慮基于OCR 識(shí)別及機(jī)器學(xué)習(xí)技術(shù),定制開發(fā)OCR 文件采集功能,針對(duì)文件數(shù)據(jù)的收、管、存、用等管理操作,完成文件掃描檔案的文本信息識(shí)別、特征提取、數(shù)據(jù)檢索與應(yīng)用,達(dá)到真正的數(shù)字化檔案應(yīng)用。利用OCR 識(shí)別技術(shù)自動(dòng)判斷、拆分、識(shí)別和還原各種通用型印刷體表格,自動(dòng)分析文稿的版面布局,識(shí)別結(jié)果還原成掃描文稿,支持文檔轉(zhuǎn)換,使得文件非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)庫(kù)可存儲(chǔ)、存儲(chǔ)節(jié)點(diǎn)可計(jì)算的結(jié)構(gòu)化數(shù)據(jù)。
圖3 實(shí)時(shí)數(shù)據(jù)采集流程
(1)數(shù)據(jù)索引
在多源異構(gòu)數(shù)據(jù)庫(kù)基礎(chǔ)上,建立專業(yè)領(lǐng)域知識(shí)下的數(shù)據(jù)索引,如建立各專業(yè)知識(shí)下的核電數(shù)據(jù)概念層次網(wǎng)絡(luò)HNNE(Hierarchical Network of Concepts on Nuclear Reactor Experimental Data),進(jìn)而可以保障數(shù)據(jù)查詢、數(shù)據(jù)分析的效率。在核電數(shù)據(jù)中,按照學(xué)科類型和實(shí)驗(yàn)類型進(jìn)行第一層劃分,得到第一層層次節(jié)點(diǎn);在第一層的層次節(jié)點(diǎn)上,按照設(shè)備、實(shí)驗(yàn)工控等進(jìn)行第二層劃分,得到第二層層次節(jié)點(diǎn),根據(jù)需要可拓展更多層的層次節(jié)點(diǎn)。
(2)數(shù)據(jù)治理
在多源異構(gòu)數(shù)據(jù)庫(kù)基礎(chǔ)上,為實(shí)現(xiàn)核電數(shù)據(jù)治理和核電數(shù)據(jù)質(zhì)量評(píng)價(jià),建立數(shù)據(jù)生命周期管理體系,主要包含:數(shù)據(jù)質(zhì)量評(píng)價(jià)模型,數(shù)據(jù)風(fēng)險(xiǎn)分析模型,數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范模型。數(shù)據(jù)質(zhì)量評(píng)價(jià)模型主要對(duì)于實(shí)驗(yàn)序列數(shù)據(jù)和實(shí)驗(yàn)非序列數(shù)據(jù)進(jìn)行評(píng)價(jià)。利用Markov 等機(jī)器學(xué)習(xí)模型對(duì)實(shí)驗(yàn)序列數(shù)據(jù)異常點(diǎn)、孤立點(diǎn)進(jìn)行質(zhì)量評(píng)價(jià),利用深度神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)驗(yàn)非序列模型進(jìn)行數(shù)據(jù)相似匹配。結(jié)合設(shè)備、工況等,建立數(shù)據(jù)風(fēng)險(xiǎn)分析模型,滿足實(shí)驗(yàn)數(shù)據(jù)偏離預(yù)警、實(shí)驗(yàn)數(shù)據(jù)存儲(chǔ)優(yōu)化等。數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范模型是元數(shù)據(jù)規(guī)范、數(shù)據(jù)融合規(guī)范、數(shù)據(jù)字典等內(nèi)容,支持粗粒度和細(xì)粒度的數(shù)據(jù)清洗和預(yù)處理。
(3)數(shù)據(jù)查詢
多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)一方面提供數(shù)據(jù)庫(kù)查詢中的精準(zhǔn)查詢、模糊查詢功能。另一方面,利用推薦系統(tǒng)算法進(jìn)行用戶畫像,提供相似查詢,如一用戶持續(xù)關(guān)注熱工水力方面的實(shí)驗(yàn)數(shù)據(jù),則利用Doc2Vec 等模型對(duì)核電數(shù)據(jù)表征學(xué)習(xí),利用相似度計(jì)算在數(shù)據(jù)庫(kù)中找出相似的實(shí)驗(yàn)數(shù)據(jù),然后給用戶推薦合法合規(guī)的相似數(shù)據(jù)。需要指出的是,相似查詢和精準(zhǔn)查詢、模糊查詢不同,相似查詢依賴于用戶操作數(shù)據(jù)庫(kù)的記錄,推薦結(jié)果因不同興趣的用戶也不同,有著較強(qiáng)的專業(yè)性、安全性。
結(jié)合多源異構(gòu)數(shù)據(jù)庫(kù)和數(shù)據(jù)服務(wù)內(nèi)容,提供專業(yè)領(lǐng)域知識(shí)下的數(shù)據(jù)挖掘,設(shè)計(jì)實(shí)驗(yàn)序列數(shù)據(jù)中頻繁模式挖掘、周期模式挖掘、對(duì)比模式挖掘、閉合模式挖掘的關(guān)聯(lián)分析組件,設(shè)計(jì)時(shí)序數(shù)據(jù)中的時(shí)序關(guān)系挖掘、時(shí)序預(yù)測(cè)等的時(shí)序分析組件,設(shè)計(jì)文本數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)處理、文本語(yǔ)義分析等的文本挖掘組件,設(shè)計(jì)多專業(yè)、多平臺(tái)實(shí)驗(yàn)數(shù)據(jù)的特征提取、特征學(xué)習(xí)、高維特征降維等的表征學(xué)習(xí)組件,設(shè)計(jì)多專業(yè)、多平臺(tái)的回歸模型、分類模型、聚類模型等機(jī)器學(xué)習(xí)方案,設(shè)計(jì)實(shí)驗(yàn)圖像分析、實(shí)驗(yàn)音頻處理等多場(chǎng)景的深度學(xué)習(xí)模型。
為解決多源異構(gòu)核電數(shù)據(jù)的數(shù)據(jù)規(guī)范、數(shù)據(jù)采集、數(shù)據(jù)融合、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析應(yīng)用等多方面問(wèn)題,本文提出多源異構(gòu)核電管理系統(tǒng),并對(duì)各個(gè)模塊功能進(jìn)行設(shè)計(jì)。在未來(lái),將結(jié)合實(shí)際核電實(shí)驗(yàn)對(duì)多源異構(gòu)核電數(shù)據(jù)管理系統(tǒng)進(jìn)行實(shí)施和廣泛驗(yàn)證。