張新陽(yáng) 張梅 馬文 程永新
摘 要 當(dāng)前數(shù)據(jù)資產(chǎn)梳理以及數(shù)據(jù)標(biāo)準(zhǔn)建立過(guò)程中,對(duì)其中所遇到的數(shù)據(jù)命名不統(tǒng)一、中文語(yǔ)義復(fù)雜、難以建立數(shù)據(jù)關(guān)聯(lián)等難點(diǎn)問(wèn)題進(jìn)行分析,提出了一套基于中文智能分詞及大數(shù)據(jù)字符串分析技術(shù)的數(shù)據(jù)用語(yǔ)標(biāo)準(zhǔn)建立方法以及建立數(shù)據(jù)關(guān)聯(lián)的方法。通過(guò)將該方法應(yīng)用的數(shù)據(jù)資產(chǎn)管理項(xiàng)目中,實(shí)現(xiàn)了對(duì)某企業(yè)45套業(yè)務(wù)系統(tǒng),10萬(wàn)多張表、70余萬(wàn)數(shù)據(jù)字段以及數(shù)百個(gè)業(yè)務(wù)接口的全自動(dòng)梳理,建立了跨業(yè)務(wù)系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)體系和數(shù)據(jù)關(guān)聯(lián)地圖,為企業(yè)的數(shù)據(jù)資產(chǎn)進(jìn)一步分析、挖掘、變現(xiàn)提供了有利支撐。
關(guān)鍵詞 數(shù)據(jù)治理;數(shù)據(jù)關(guān)聯(lián);智能分詞;數(shù)據(jù)標(biāo)準(zhǔn)
中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2018)223-0121-03
隨著IT技術(shù)的發(fā)展,未來(lái)10年內(nèi),數(shù)據(jù)將成為一個(gè)重要的財(cái)富創(chuàng)造來(lái)源,并且將越來(lái)越多地被視為一項(xiàng)值得重視的企業(yè)資產(chǎn),數(shù)據(jù)資產(chǎn)日益成為企業(yè)的重要利潤(rùn)潛力增長(zhǎng)點(diǎn)。為此,各企業(yè)急需梳理沉淀十?dāng)?shù)年以來(lái)各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),希望從中整理出屬于數(shù)據(jù)資產(chǎn)的有價(jià)值數(shù)據(jù),并面向數(shù)據(jù)應(yīng)用建立起相應(yīng)的數(shù)據(jù)模型,為大數(shù)據(jù)平臺(tái)的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供支撐服務(wù),麥肯錫認(rèn)為“大數(shù)據(jù)是指其大小超出典型數(shù)據(jù)軟件抓取、儲(chǔ)存、管理和分析范圍的數(shù)據(jù)集合”。在創(chuàng)建和應(yīng)用大數(shù)據(jù)的這個(gè)過(guò)程中,以下這些問(wèn)題尤為凸顯,成為數(shù)據(jù)資產(chǎn)梳理的難點(diǎn)。
1)企業(yè)內(nèi)各業(yè)務(wù)平臺(tái)系統(tǒng)建設(shè)跨越時(shí)間長(zhǎng),系統(tǒng)復(fù)雜,且由多個(gè)項(xiàng)目實(shí)施建成。IT系統(tǒng)的建設(shè)目標(biāo)以實(shí)現(xiàn)業(yè)務(wù)需求為首要目標(biāo),未考慮后期的數(shù)據(jù)集成需要。因此各業(yè)務(wù)平臺(tái)系統(tǒng)中存在對(duì)同一個(gè)業(yè)務(wù)術(shù)語(yǔ)的不同定義形式,造成跨系統(tǒng)的數(shù)據(jù)難以建立關(guān)聯(lián),甚至同一業(yè)務(wù)系統(tǒng)中都存在對(duì)相同業(yè)務(wù)術(shù)語(yǔ)的不同定義。
2)雖然企業(yè)已經(jīng)開始對(duì)數(shù)據(jù)標(biāo)準(zhǔn)體系做建設(shè),但是針對(duì)既有業(yè)務(wù)系統(tǒng),出于經(jīng)濟(jì)考慮,不可能做大面積的重構(gòu)處理,只能對(duì)新上線系統(tǒng)做規(guī)范化要求。而大量的對(duì)企業(yè)有重要價(jià)值的數(shù)據(jù)資產(chǎn)是沉淀在原有業(yè)務(wù)系統(tǒng)中的,如何將數(shù)據(jù)標(biāo)準(zhǔn)與現(xiàn)有系統(tǒng)中的數(shù)據(jù)做關(guān)聯(lián)成為一個(gè)難點(diǎn)問(wèn)題。
3)中文語(yǔ)言的博大精深,一方面豐富了人們的語(yǔ)言表達(dá),但也因此存在大量的近似用語(yǔ)。不同環(huán)境背景下的語(yǔ)言和組詞均有差異,這也是造成制訂數(shù)據(jù)標(biāo)準(zhǔn)困難的主要原因,難以形成一套適應(yīng)所有環(huán)境的統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)體系。
以上問(wèn)題在建立企業(yè)內(nèi)部或跨行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)體系并盤活現(xiàn)有企業(yè)數(shù)據(jù)資產(chǎn)時(shí)成為數(shù)據(jù)管理者所面臨的難點(diǎn),如何建立不同業(yè)務(wù)系統(tǒng),甚至不同行業(yè)之間的數(shù)據(jù)標(biāo)準(zhǔn)體系,并將數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用到既有系統(tǒng),成為建立跨系統(tǒng)的數(shù)據(jù)集成平臺(tái)所需跨越的鴻溝。
1 正文
本文基于中文的智能分詞技術(shù),論述一種基于數(shù)據(jù)標(biāo)準(zhǔn)用語(yǔ)智能分詞的跨系統(tǒng)數(shù)據(jù)關(guān)聯(lián)梳理方法,并說(shuō)明應(yīng)用此方法的梳理展現(xiàn)效果。
1.1 梳理數(shù)據(jù)用語(yǔ)字典
數(shù)據(jù)梳理的第一步是建立起企業(yè)內(nèi)或行業(yè)內(nèi)業(yè)務(wù)術(shù)語(yǔ)的數(shù)據(jù)用語(yǔ)字典。數(shù)據(jù)用語(yǔ)字典包括數(shù)據(jù)庫(kù)中的表名用語(yǔ)、字段名用語(yǔ)、系統(tǒng)的接口用語(yǔ)、報(bào)表中的指標(biāo)用語(yǔ)等。用語(yǔ)的來(lái)源可以是系統(tǒng)建設(shè)時(shí)的需求規(guī)范、設(shè)計(jì)規(guī)范、接口規(guī)范等文檔,也可以從現(xiàn)有系統(tǒng)的表結(jié)構(gòu)逆向采集獲取。用語(yǔ)字典的形式可以用如下形式體現(xiàn),如圖1。
用語(yǔ)物理名是用語(yǔ)在數(shù)據(jù)庫(kù)字段或數(shù)據(jù)庫(kù)表命名時(shí)的體現(xiàn),而用語(yǔ)邏輯名是具備某個(gè)特定業(yè)務(wù)術(shù)語(yǔ)描述的中文體現(xiàn)。
這個(gè)數(shù)據(jù)用語(yǔ)字典,將是我們要作為跨系統(tǒng)數(shù)據(jù)關(guān)聯(lián)的數(shù)據(jù)基礎(chǔ)。
1.2 建立數(shù)據(jù)用語(yǔ)單詞庫(kù)
對(duì)于已建立的數(shù)據(jù)用語(yǔ)字典,其用語(yǔ)的定義是面向某個(gè)具體的業(yè)務(wù)術(shù)語(yǔ)的描述,其中包含了一個(gè)或多個(gè)中文詞語(yǔ)。
通過(guò)智能分詞技術(shù),可以實(shí)現(xiàn)將用語(yǔ)自動(dòng)拆分為多個(gè)詞語(yǔ)的組合。例如“年收入額”可以拆分為“年”和“收入”“額”三個(gè)有具體涵義的字或詞語(yǔ),拆解出的詞語(yǔ)或字,可以命名為詞素或單詞。
收集整理拆分出的單詞或詞素,可以得到一個(gè)涵蓋行業(yè)或者企業(yè)所有業(yè)務(wù)系統(tǒng)的用語(yǔ)單詞庫(kù)。其展現(xiàn)形式如圖3。
單詞物理名為一個(gè)詞語(yǔ)在業(yè)務(wù)系統(tǒng)中使用時(shí)的名稱,用語(yǔ)數(shù)據(jù)庫(kù)表、字段、接口、接口屬性、口徑等定義使用。單詞邏輯名作為一個(gè)詞語(yǔ)的中文名稱,用語(yǔ)面向用戶的可視化涵義展現(xiàn),單詞全稱作為中文名稱的英文全名備注。
1.3 建立單詞同義詞庫(kù)
建立上述步驟的用語(yǔ)單詞庫(kù)后,分析發(fā)現(xiàn)對(duì)于每個(gè)詞語(yǔ)在語(yǔ)言使用都可以存在多個(gè)同義詞或近義詞,又或者同一個(gè)單詞的邏輯名存在多個(gè)不同的單詞物理名的情況。在不同的業(yè)務(wù)系統(tǒng)中,由于系統(tǒng)設(shè)計(jì)開發(fā)人員的習(xí)慣不同,造成其使用的名稱不一致。例如“額”這一業(yè)務(wù)術(shù)語(yǔ),在某些業(yè)務(wù)系統(tǒng)中可能會(huì)命名為“金額”,“管理員”這一詞語(yǔ),在另一系統(tǒng)中也可能定義為“管理者”,而同一個(gè)單詞“區(qū)域”,有些系統(tǒng)會(huì)命名其物理名為“AREA”,而另一些系統(tǒng)可能會(huì)命名為“ZONE”或“REGION”。這些都會(huì)造成不同的系統(tǒng)的使用人員或數(shù)據(jù)分析人員在數(shù)據(jù)集成時(shí)數(shù)據(jù)無(wú)法直接建立關(guān)聯(lián)。
實(shí)現(xiàn)不同系統(tǒng)之間能對(duì)具有同樣含義的詞語(yǔ)建立起關(guān)聯(lián),需要將每個(gè)詞語(yǔ)可能存在的同義詞或近義詞進(jìn)行整理。這一步驟可以借助于行業(yè)專業(yè)詞典以及同義詞典等工具書籍的電子版本,通過(guò)大數(shù)據(jù)分析技術(shù)獲取單詞庫(kù)中各單詞的同義詞列表。如圖4的物理名同義詞列表。
1.4 推舉數(shù)據(jù)標(biāo)準(zhǔn)單詞
當(dāng)一個(gè)業(yè)務(wù)在各業(yè)務(wù)系統(tǒng)中或行業(yè)中有規(guī)范做數(shù)據(jù)標(biāo)準(zhǔn)定義時(shí),可以將行業(yè)規(guī)范作為數(shù)據(jù)標(biāo)準(zhǔn)的來(lái)源。但目前有很多行業(yè)或企業(yè)并無(wú)統(tǒng)一規(guī)范的數(shù)據(jù)標(biāo)準(zhǔn)定義,而各業(yè)務(wù)系統(tǒng)也在各自的專屬功能領(lǐng)域運(yùn)行上10年之久,如何形成一套符合絕大多數(shù)人習(xí)慣的標(biāo)準(zhǔn)術(shù)語(yǔ)描述則成為一大難點(diǎn)。
基于前面所述的數(shù)據(jù)用語(yǔ)單詞庫(kù)以及單詞同義詞庫(kù),可以建立起在用語(yǔ)單詞中的同義詞關(guān)聯(lián)關(guān)系。當(dāng)一個(gè)單詞具有多各同義詞時(shí),通過(guò)檢索這個(gè)單詞及同義詞在所有業(yè)務(wù)系統(tǒng)中的用語(yǔ)使用次數(shù),獲取應(yīng)用得最多的一個(gè)詞語(yǔ),并將此詞語(yǔ)作為暫定數(shù)據(jù)標(biāo)準(zhǔn)單詞,而具有同義詞含義的其他單詞則作為此數(shù)據(jù)標(biāo)準(zhǔn)單詞的同義詞。
1.5 建立數(shù)據(jù)標(biāo)準(zhǔn)用語(yǔ)檔案庫(kù)
數(shù)據(jù)標(biāo)準(zhǔn)單詞確定后,可以將前面梳理出的系統(tǒng)中使用的用語(yǔ)字典做標(biāo)準(zhǔn)化處理。將用語(yǔ)智能分詞為單詞,對(duì)每個(gè)單詞獲取其標(biāo)準(zhǔn)化單詞后,重新組裝為符合數(shù)據(jù)標(biāo)準(zhǔn)定義的用語(yǔ),其過(guò)程如圖6所示。
1.6 建立數(shù)據(jù)關(guān)聯(lián)
通過(guò)建立數(shù)據(jù)標(biāo)準(zhǔn)用語(yǔ)檔案庫(kù),也可以得到每個(gè)用語(yǔ)與數(shù)據(jù)標(biāo)準(zhǔn)用語(yǔ)之間的對(duì)應(yīng)關(guān)系。當(dāng)存在多個(gè)系統(tǒng)中的不同用語(yǔ)對(duì)應(yīng)同一個(gè)數(shù)據(jù)標(biāo)準(zhǔn)用語(yǔ)時(shí),可以認(rèn)定這兩個(gè)用語(yǔ)不管是不是在同一個(gè)業(yè)務(wù)系統(tǒng)中,其數(shù)據(jù)應(yīng)具備相關(guān)性,具備數(shù)據(jù)關(guān)聯(lián)分析及進(jìn)一步關(guān)聯(lián)數(shù)據(jù)挖掘使用的價(jià)值。
2 結(jié)論
隨著電力業(yè)務(wù)集約化、精益化、標(biāo)準(zhǔn)化的要求越來(lái)越高和信息化支撐能力的不斷提升,數(shù)據(jù)治理已成為電力企業(yè)信息系統(tǒng)集中建設(shè)(一級(jí)部署)、大數(shù)據(jù)應(yīng)用、智能分析決策應(yīng)用的重要基石。企業(yè)在進(jìn)行跨業(yè)務(wù)系統(tǒng)數(shù)據(jù)梳理時(shí),面對(duì)大量沉淀數(shù)據(jù)往往不知如何下手,各數(shù)據(jù)的命名規(guī)范性問(wèn)題作為長(zhǎng)期影響企業(yè)進(jìn)一步挖掘數(shù)據(jù)價(jià)值的攔路虎存在,本文應(yīng)用當(dāng)前已經(jīng)成熟的大數(shù)據(jù)字符串處理技術(shù)以及中文智能分詞技術(shù),將系統(tǒng)中原本需要靠繁重的人工識(shí)別的數(shù)據(jù)關(guān)聯(lián),賦予系統(tǒng)自動(dòng)化處理的能力,能夠大幅提升數(shù)據(jù)資產(chǎn)梳理的效率,減少人工成本,為挖掘各業(yè)務(wù)系統(tǒng)中的健在數(shù)據(jù)資產(chǎn)價(jià)值提供有力的幫助。
參考文獻(xiàn)
[1]張志剛,楊棟樞,吳紅霞.數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估模型研究與應(yīng)用[J].現(xiàn)在電子技術(shù),2015,38(20):44-51.
[2]Gartner.Top ten strategic technology trend for 2012[EB/OL].[2011-11-05].http://www.gartner.com.
[3]巨克真,魏珍珍.電力企業(yè)級(jí)數(shù)據(jù)治理體系的研究[J].電力信息與通信技術(shù),2014,12(1):7-11.
[4]成于,思施云濤.面向?qū)I(yè)領(lǐng)域的中文分詞方法[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(17):30-34,109.
[5]張生,杰霍丹.基于語(yǔ)義信息的中文分詞研究[J].電腦知識(shí)與技術(shù),2018,14(22):184-186.