亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BKR體系下的數(shù)據(jù)加工規(guī)范設(shè)計

        2021-03-07 07:57:58王樹明吳時清吳蓓蓓
        電子技術(shù)與軟件工程 2021年24期
        關(guān)鍵詞:規(guī)范體系系統(tǒng)

        王樹明 吳時清 吳蓓蓓

        (1.中國煙草總公司湖北省煙草專賣局信息中心 湖北省武漢市 430030 2.武漢楚煙信息技術(shù)有限公司 湖北省武漢市 430030)

        1 引言

        大數(shù)據(jù)時代,數(shù)據(jù)治理是所有公司面臨的巨大挑戰(zhàn)。沒有數(shù)據(jù),企業(yè)缺乏用于做決策的數(shù)據(jù)的支持,可是有了越來越多的數(shù)據(jù),必然增加了管理數(shù)據(jù)的成本。將數(shù)據(jù)有效的組織起來,并讓其產(chǎn)生價值,成為一個亟待解決的問題[1]。數(shù)據(jù)治理的核心問題就是數(shù)據(jù)加工規(guī)范,所有的治理工作都是圍繞這個核心進行的,正因如此,建立起適應(yīng)企業(yè)需求的數(shù)據(jù)加工規(guī)范對于企業(yè)變得越來越重要。

        2 湖北煙草數(shù)據(jù)的現(xiàn)狀

        隨著湖北省煙草數(shù)據(jù)信息化工作的快速推進,數(shù)據(jù)中心在數(shù)據(jù)采集、加工、共享等方面的管理工作日顯滯后,導致以下問題長期存在:

        (1)數(shù)據(jù)質(zhì)量不高,“臟數(shù)據(jù)”、錯數(shù)據(jù)不斷產(chǎn)生,既包括源端業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù),也包括入庫后因加工過程不規(guī)范而產(chǎn)生的分析型數(shù)據(jù)。

        (2)數(shù)據(jù)接口混亂,由于數(shù)據(jù)獲取與開發(fā)不規(guī)范、數(shù)據(jù)接口管理措施缺失等原因,數(shù)據(jù)接口泛濫,“數(shù)入多庫、據(jù)出多門”的現(xiàn)象比比皆是[2]。

        為支撐湖北煙草數(shù)字化轉(zhuǎn)型,支撐日益普遍的創(chuàng)新應(yīng)用和數(shù)據(jù)運營的服務(wù)需求,湖北省局(公司)重新梳理了整個系統(tǒng)的數(shù)據(jù)分布,如圖1所示。數(shù)據(jù)從源端業(yè)務(wù)系統(tǒng)進入數(shù)據(jù)中心后,經(jīng)歷了BKR體系的清洗轉(zhuǎn)換、匯聚加工、分級存儲,最后向不同的主題提供數(shù)據(jù)服務(wù)。BKR體系是數(shù)據(jù)中心實現(xiàn)數(shù)據(jù)治理的核心理念。

        圖1:湖北煙草數(shù)據(jù)總體分布框架

        3 數(shù)據(jù)中心內(nèi)的BKR體系

        描述數(shù)據(jù)匯聚加工的模型有多種,結(jié)合湖北煙草數(shù)據(jù)加工、管理的現(xiàn)狀,立足于統(tǒng)一、規(guī)范的管理目標,設(shè)計并采用了BKR體系,建立了湖北煙草數(shù)據(jù)中心數(shù)據(jù)加工規(guī)范,其中包括庫內(nèi)數(shù)據(jù)表分層規(guī)范、數(shù)據(jù)表命名規(guī)范、數(shù)據(jù)表共享規(guī)范、血緣分析規(guī)范等。

        3.1 分層規(guī)范

        數(shù)據(jù)中心內(nèi)的表分三個層級,并嚴格遵守數(shù)據(jù)分層存儲、層級間加工轉(zhuǎn)換的規(guī)則。這三個層級分別為是B 層、K 層、R 層。

        B 層(Base):基礎(chǔ)業(yè)務(wù)數(shù)據(jù)層,主要存放基礎(chǔ)業(yè)務(wù)數(shù)據(jù)(即B 表)。它是數(shù)據(jù)中心的數(shù)據(jù)基礎(chǔ)和數(shù)據(jù)緩沖。B 層數(shù)據(jù)一般保留“范式化”結(jié)構(gòu),也被稱為“貼源”層。

        K 層(KPI,Key Performance Indicators):匯聚加工層,B 層的數(shù)據(jù)通過轉(zhuǎn)換和整合,得到加工過程數(shù)據(jù)(即K 表)。K 層數(shù)據(jù)有三種來源:

        (1)B 層數(shù)據(jù)整合或者聚合得到,這是K 層數(shù)據(jù)最基本的來源;

        (2)B 層和K 層數(shù)據(jù)進行二次或者多次整合得到;

        (3)多個K 層數(shù)據(jù)進行再次整合得到。

        R 層(Reports):報備指標層,是可直接對外提供服務(wù)的數(shù)據(jù),可直接支撐各類數(shù)據(jù)應(yīng)用。其數(shù)據(jù)來源于B 層或者K 層數(shù)據(jù)的整合或聚合,其主要服務(wù)對象是數(shù)據(jù)分析、統(tǒng)計報表、駕駛艙等應(yīng)用。

        每個服務(wù)主題均對應(yīng)一個或多個B 表或K 表,但是B 表、K表粒度細、數(shù)據(jù)量龐大,不利于在線查詢分析。所以在此基礎(chǔ)上定義數(shù)據(jù)的維度、粒度屬性,建立數(shù)據(jù)匯集路徑,形成維度降低的R表,以提高查詢分析的效率,并滿足最大程度的復(fù)用性要求。另外,R 層數(shù)據(jù)不可由R 層自身數(shù)據(jù)表整合而來。庫內(nèi)數(shù)據(jù)表的分層/轉(zhuǎn)換規(guī)范如圖2所示。

        圖2:庫內(nèi)數(shù)據(jù)表分層/轉(zhuǎn)換規(guī)范

        3.2 命名規(guī)范

        3.2.1 B 表

        B 表來源于源端業(yè)務(wù)系統(tǒng),即基礎(chǔ)業(yè)務(wù)層的原始粒度數(shù)據(jù),因此B 表命名必須反映源端業(yè)務(wù)屬性。B 表命名規(guī)則是:

        實體編碼 = T_B_業(yè)務(wù)域編碼_實體代碼

        如:零售戶客戶訂單(T_B_FN_CUSTOMER_ORDER)。

        3.2.2 K 表

        B 表經(jīng)加工后形成共享程度高,可支撐核心指標與業(yè)務(wù)報表的中間表,即K表,因此K表命名必須反映指標主題和字段/維度屬性。K 表命名規(guī)則是:

        實體編碼 = T_K_主題代碼_維度組合

        如:T_K_銷售_日_單位_卷煙(T_K_SELL_DAY_CORP_CIG)。

        3.2.3 R 表

        將數(shù)據(jù)按業(yè)務(wù)單元、服務(wù)主題進行加工整合,最終形成指標并對外提供數(shù)據(jù)服務(wù)的數(shù)據(jù)表為R 表,因此R 表命名必須反映報表主題和應(yīng)用概述。R 表命名規(guī)則:

        實體編碼 = T_R_報表主題_分析應(yīng)用簡寫

        如:T_R_ 領(lǐng)導首頁_ 卷煙市場動態(tài)分析(T_R_LD_CIG_MARKET_DYNAMIC_ANALYSE)。

        有了命名規(guī)范以后,可以定期利用逆向工程導出數(shù)據(jù)中心的sql 腳本,并進行文法分析,以自動的篩選出不符合BKR 分層規(guī)范的模式和表格。

        3.3 共享規(guī)范

        從溯源的視角來審視湖北煙草數(shù)據(jù)加工模型,即為每張表添加從“主鍵”到“外鍵”或從“分散”到“匯總”的邏輯索引,用索引的“入度”和“出度”衡量每張數(shù)據(jù)表的生成代價和共享程度。其中,“入度”表示數(shù)據(jù)表的加工復(fù)雜程度,理論上講,“入度”值大,表示該數(shù)據(jù)表的加工過程所依賴的數(shù)據(jù)表多,加工消耗資源大,即生成代價大;反之,“入度”值小,表示生成代價小。“出度”表示數(shù)據(jù)表的共享程度,“出度”值大,表示該數(shù)據(jù)表的共享程度高;“出度”值小,表示該數(shù)據(jù)表的共享程度低。數(shù)據(jù)表匯聚加工應(yīng)滿足“入度”足夠簡單,“出度”足夠?qū)?,體現(xiàn)數(shù)據(jù)加工過程高內(nèi)聚、松耦合、高復(fù)用的優(yōu)化原則。

        單純以“入度”和“出度”來判斷每張表的共享程度,只能反應(yīng)局部特性,湖北煙草加工模型從BKR體系的整體視角提出了互為對偶的兩個全局指標——“共享度”和“依賴度”。通過改進的PageRank 算法可以評估每張表的這兩個指標,并為不斷迭代的數(shù)據(jù)模型提供重要的參考依據(jù)。

        3.4 BKR血緣關(guān)系

        厘清BKR 三層數(shù)據(jù)間的血緣關(guān)系[3],展現(xiàn)數(shù)據(jù)從源端業(yè)務(wù)系統(tǒng)到當前位置的完整路徑。當鏈條中某一數(shù)據(jù)表發(fā)生變化時,向上評估其變化的影響范圍,包括但不限于相關(guān)的K 表及表內(nèi)數(shù)據(jù)、R表及表內(nèi)數(shù)據(jù)、數(shù)據(jù)服務(wù)內(nèi)容等;向下追溯其變化的來源,包括但不限于B 表及表內(nèi)數(shù)據(jù)、源端業(yè)務(wù)系統(tǒng)等。

        4 支撐BKR體系的接口規(guī)范

        BKR 三層體系是數(shù)據(jù)中心的核心模塊,為了能夠穩(wěn)定可靠的運營和維護這個體系,還需要建立一套完善的接口規(guī)范,并對接口進行統(tǒng)一管理。原則上各業(yè)務(wù)系統(tǒng)只與數(shù)據(jù)中心進行數(shù)據(jù)交換,業(yè)務(wù)系統(tǒng)間不直接進行數(shù)據(jù)交換。數(shù)據(jù)接口有三種類型:

        (1)數(shù)據(jù)入庫接口,即數(shù)據(jù)從業(yè)務(wù)系統(tǒng)流入數(shù)據(jù)中心的數(shù)據(jù)接口;

        (2)數(shù)據(jù)出庫接口,即數(shù)據(jù)從數(shù)據(jù)中心流出到業(yè)務(wù)系統(tǒng)的數(shù)據(jù)接口;

        (3)庫間接口,即數(shù)據(jù)在數(shù)據(jù)中心各庫間流轉(zhuǎn)的數(shù)據(jù)接口。

        4.1 接口設(shè)計規(guī)范

        接口設(shè)計應(yīng)滿足以下要求:

        (1)充分理由:任何接口存在應(yīng)有充分的理由,盡可能避免出現(xiàn)無意義接口。

        (2)職責明確:一個接口只負責一類數(shù)據(jù)傳輸,盡可能避免同一接口傳輸內(nèi)容過于復(fù)雜。

        (3)高內(nèi)聚低耦合:一個接口包含一類完整數(shù)據(jù),不同接口之間的業(yè)務(wù)、數(shù)據(jù)關(guān)聯(lián)應(yīng)盡可能小。

        (4)分析角度明確:設(shè)計接口分析的角度要統(tǒng)一明確,應(yīng)按照業(yè)務(wù)域、業(yè)務(wù)環(huán)節(jié)角度分析設(shè)計。

        (5)數(shù)據(jù)量控制:一個接口不宜返回過多數(shù)據(jù)量,為減少數(shù)據(jù)處理及傳輸壓力,應(yīng)對接口進行合理劃分。

        4.2 接口編碼規(guī)范

        數(shù)據(jù)中心通過建立標準的接口模型,規(guī)范數(shù)據(jù)從業(yè)務(wù)系統(tǒng)到數(shù)據(jù)中心的采集轉(zhuǎn)換過程。接口模型包含業(yè)務(wù)域?qū)嶓w、業(yè)務(wù)系統(tǒng)實體、接口目錄實體、接口單實體和接口文件實體,如圖3所示。

        圖3:數(shù)據(jù)接口模型

        接口單元編碼規(guī)則是由10 位字符表示,如圖4所示。

        圖4:采集接口單元編碼規(guī)則

        4.3 接口實現(xiàn)規(guī)范

        數(shù)據(jù)中心常用的接口實現(xiàn)方式有四類。

        4.3.1 庫表復(fù)制

        是使用ETL(Extract-Transform-Load,數(shù)據(jù)抽取、轉(zhuǎn)換和加載)工具,基于SQL 數(shù)據(jù)庫復(fù)制批量數(shù)據(jù)的技術(shù),是源端業(yè)務(wù)系統(tǒng)數(shù)據(jù)進入數(shù)據(jù)中心的主要方式。庫表復(fù)制適用于大多數(shù)情況下批量數(shù)據(jù)非實時、準實時的數(shù)據(jù)傳輸與轉(zhuǎn)換。

        4.3.2 HTTP 接口

        是一種基于HTTP 服務(wù)的API,是系統(tǒng)之間交互的一種約定。HTTP 接口適用于跨系統(tǒng)的實時數(shù)據(jù)交互。通過HTTP 接口方式進行數(shù)據(jù)對接,要明確接口基本信息、請求參數(shù)和返回數(shù)據(jù)等內(nèi)容。

        4.3.3 文件方式

        是輸入和輸出以文件或文本方式進行的數(shù)據(jù)接口實現(xiàn)方式,適用于對時效性要求較低,超大批量數(shù)據(jù)導入、導出。通過文件方式進行數(shù)據(jù)對接,需明確文件名和文件格式。

        4.3.4 其它方式

        用于未來更多類型數(shù)據(jù)(如非結(jié)構(gòu)化數(shù)據(jù))與數(shù)據(jù)中心交互擴展。

        4.4 接口管理規(guī)范

        數(shù)據(jù)運維團隊是數(shù)據(jù)架構(gòu)和業(yè)務(wù)數(shù)據(jù)的維護和管理者,負責按照數(shù)據(jù)主管部門要求,開展數(shù)據(jù)接口的統(tǒng)一管理、運行監(jiān)控、策略維護等工作,響應(yīng)數(shù)據(jù)接口新增、變更及刪除(作廢)需求,進行數(shù)據(jù)需求分析、接口影響分析,并牽頭制定接口維護方案,執(zhí)行維護操作,發(fā)布并更新接口資源目錄。

        5 總結(jié)

        湖北煙草數(shù)據(jù)治理的工作核心是在數(shù)據(jù)中心建立完善的BKR體系,并圍繞該體系建立起一系列標準和規(guī)范。該體系已經(jīng)在湖北省公司的煙葉系統(tǒng)中逐步展開,并取得了初步成效。今后將繼續(xù)完善和細化該體系,并進一步推廣到煙草的營銷、物流、專賣、審計等其它業(yè)務(wù)領(lǐng)域。

        猜你喜歡
        規(guī)范體系系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        來稿規(guī)范
        來稿規(guī)范
        PDCA法在除顫儀規(guī)范操作中的應(yīng)用
        來稿規(guī)范
        WJ-700無人機系統(tǒng)
        構(gòu)建體系,舉一反三
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        “曲線運動”知識體系和方法指導
        人妻少妇精品中文字幕专区| 日韩AV无码中文无码AV| 中文字幕亚洲乱码熟女在线| 亚洲乱码中文字幕视频| 午夜福利理论片在线观看| 亚洲日韩乱码中文无码蜜桃臀| av天堂线上| 午夜影院免费观看小视频| 亚洲欧洲成人精品香蕉网| 欧美freesex黑人又粗又大| 久久综合给合久久狠狠狠9| 一区二区激情偷拍老牛视频av| 亚洲狠狠婷婷综合久久久久 | 男女真人后进式猛烈视频网站 | 91亚洲国产成人精品一区.| 亚洲人成人无码www影院| 欧美性猛交xxxx乱大交蜜桃| 久久精品有码中文字幕1| 日韩高清不卡一区二区三区| 久久国产亚洲高清观看| 水蜜桃久久| 亚洲美女av二区在线观看| 日本中文一区二区在线观看| 欧美日韩一区二区综合| 伊人亚洲综合网色AV另类| 在线观看国产自拍视频| 国产精品videossex久久发布| 999久久久免费精品国产| 无码精品人妻一区二区三区98| 在线免费观看蜜桃视频| 天天爽夜夜爽人人爽一区二区| 乱码一二区在线亚洲| 日韩精品少妇专区人妻系列| 老女老肥熟女一区二区| 丁香五香天堂网| 亚洲第一免费播放区| 亚洲第一黄色免费网站| 亚洲成在人网站av天堂| 91久久精品无码人妻系列| 青青操视频手机在线免费观看| 亚洲精品~无码抽插|