亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源通用數(shù)據(jù)標準管理平臺的設(shè)計和應(yīng)用

        2018-05-22 07:18:56李雪凝劉豐源李明航
        計算機應(yīng)用與軟件 2018年5期
        關(guān)鍵詞:詞素分詞用語

        李雪凝 劉豐源 王 凌 李明航

        (上海計算機軟件技術(shù)開發(fā)中心 上海 201112)

        0 引 言

        隨著各行業(yè)的信息化進程急速推進,導致底層數(shù)據(jù)源多樣且復(fù)雜、分散而異構(gòu)。而目前海量的數(shù)據(jù)缺乏統(tǒng)一的標準,導致數(shù)據(jù)標準的共享性十分低下。單企業(yè)內(nèi)部分系統(tǒng)由不同開發(fā)商開發(fā)都會導致數(shù)據(jù)標準的不統(tǒng)一,行業(yè)內(nèi)更是沒有統(tǒng)一的數(shù)據(jù)標準,數(shù)據(jù)標準的管理是實現(xiàn)新共享時代的必經(jīng)之路。

        現(xiàn)在國內(nèi)外絕大多數(shù)的工具和管理方法都是針對單個企業(yè)、單個數(shù)據(jù)源或者單個行業(yè)的數(shù)據(jù)標準的管理。目前比較成熟的管理行業(yè)是金融行業(yè),針對金融業(yè)的管理工具和方法相對較多[2],但是仍然缺少跨越多種數(shù)據(jù)源、面向各行各業(yè)通用的統(tǒng)一的數(shù)據(jù)標準管理工具和方法論。

        本文提出完整的數(shù)據(jù)標準制定、管理、維護的理論體系,并采用模板采集或元數(shù)據(jù)采集雙線采集模式,為使用者提供更豐富的選擇。利用與元數(shù)據(jù)的交互提升數(shù)據(jù)采集的自動化程度,同時提供合理的數(shù)據(jù)標準全生命周期管理流程,使數(shù)據(jù)的共享程度大大增加[3]。

        1 數(shù)據(jù)標準管理理論體系

        1.1 數(shù)據(jù)標準管理要素

        數(shù)據(jù)標準化是對分散在各系統(tǒng)中的數(shù)據(jù)提供一套統(tǒng)一的數(shù)據(jù)命名、數(shù)據(jù)定義、數(shù)據(jù)類型、賦值規(guī)則等的定義基準[4]。數(shù)據(jù)標準管理的基本要素包括:

        (1) 詞素。詞素是數(shù)據(jù)標準管理理論體系中的最小組成元素,也是單詞的過渡階段,是尚未申請成為標準單詞的備選單詞,其余所有元素都由多個詞素組合而成,通常由用語分割而來。

        (2) 單詞。詞素申請成為標準單詞后成為單詞,也是數(shù)據(jù)標準管理要素的最小單位,與詞素同級。將詞素中含義模糊、重復(fù)、無用的個體剔除掉以后,剩余的詞素經(jīng)過申請即可成為單詞。

        (3) 用語。用語時業(yè)務(wù)系統(tǒng)中采集而來的最原始的個體,是多個單詞按照一定的規(guī)則組合而成的,經(jīng)過分割可以獲得多個詞素的個體。

        (4) 域。域是單詞的一部分特殊的可以表示實體特征和定義的個體。用語被分割為詞素并申請成為單詞后,該組單詞中最后一個單詞就是域,其余的單詞都是普通單詞。域區(qū)別于其他普通單詞的屬性在于數(shù)據(jù)類型和長度,用語的數(shù)據(jù)類型和長度應(yīng)當遵從對應(yīng)域的并保持一致。

        1.2 數(shù)據(jù)標準管理流程

        依據(jù)國內(nèi)外現(xiàn)有的數(shù)據(jù)標準管理方法,可以歸納出通用的流程如圖1所示。數(shù)據(jù)標準管理的流程可以分為四大部分,涵蓋了四大管理要素在內(nèi),按照順序分別是:標準化對象選定、單詞標準化、域標準化、用語標準化[5]。

        圖1 數(shù)據(jù)標準管理流程圖

        標準化對象選定主要是對若干企業(yè)底層系統(tǒng)進行范圍的選定以及標準化原則的制定,并進行跨越多源底層數(shù)據(jù)源的采集。其次是對采集的數(shù)據(jù)進行單詞的標準化,即按照采集的數(shù)據(jù)分類選取已有的數(shù)據(jù)標準單詞詞典作為基準,并進行詞素分析,判斷是否為域。對于普通的單詞在與基準詞典比對后,對于不存在的單詞進行補全定義,包括補全邏輯名、英文名、注釋等,并經(jīng)過申請與審核的流程成為新的標準單詞。對于判斷為域的單詞應(yīng)當按照域詞典制作流程進行標準,域標準的定義相較于單詞定義需要額外增加數(shù)據(jù)類型與數(shù)據(jù)長度等內(nèi)容。最后,對判斷為用語的數(shù)據(jù)進行詞素分割,分割后的內(nèi)容與域詞典和單詞詞典進行比對判斷是否標準,對不標準的進行修改并申請成為新用語。在經(jīng)過以上四步操作后,最終獲得單詞、域、用語三大詞典,其中標準用語詞典最為重要。

        1.3 標準數(shù)據(jù)定義原則

        數(shù)據(jù)標準化的過程核心在于如何定制數(shù)據(jù)標準,如何最大限度地符合行業(yè)標準的通用性和規(guī)范性,以及如何通過規(guī)范定義原則來最大程度優(yōu)化數(shù)據(jù)的質(zhì)量。因此數(shù)據(jù)標準的定義過程需要遵循一定的通用原則,這也是實現(xiàn)共享統(tǒng)一的必經(jīng)之路。標準數(shù)據(jù)定義的原則應(yīng)當包括通用性、實用性及適用性三大原則[6]。

        1) 通用性。為保證通用性,應(yīng)當在標準化過程中優(yōu)先使用國際通用單詞和用語,保證與國際標準不沖突;優(yōu)先選用該行業(yè)內(nèi)各企業(yè)和組織慣用的業(yè)務(wù)用語;在同等用語條件下應(yīng)當優(yōu)先選用國內(nèi)語境慣用語;針對不同行業(yè)應(yīng)當使用適當?shù)膶I(yè)用語;應(yīng)當結(jié)合企業(yè)與外部機構(gòu)合作的情況,考慮到外部合作方企業(yè)內(nèi)部的標準情況,最大化雙方數(shù)據(jù)標準重合點,便于數(shù)據(jù)的共享和調(diào)用。

        2) 實用性。為保證實用性,應(yīng)當在標準化過程中對實際現(xiàn)行系統(tǒng)進行充分的調(diào)研,保證一切標準化工作都是基于現(xiàn)有系統(tǒng)而非理論上的可行性,且保證一切標準化工作在后續(xù)系統(tǒng)的持續(xù)改進中確實可用;在標準化過程中應(yīng)當規(guī)避一切難以理解、語義模糊、存在歧義的用語成為標準用語;在選定成為標準用語的審核過程中,需要由審核專員審核用語,保證標準用語的直觀可理解,避免出現(xiàn)需要猜測語義的用語。

        3) 便利性。為保證實用性,應(yīng)當在標準化過程中做好已有標準化成果的調(diào)研和采集,盡可能直接利用企業(yè)現(xiàn)有的運標準化規(guī)章制度、方法體系和成果物,因為上述是最適合于企業(yè)或組織現(xiàn)有系統(tǒng)運行環(huán)境的標準化原則。

        2 主要技術(shù)原理

        基于當前主流技術(shù)和框架,本平臺的主要實現(xiàn)技術(shù)如下:

        1) IKAnalyzer。IK Analyzer是基于java語言開發(fā)的輕量級的中文分詞工具包,是結(jié)合詞典分詞和文法分析算法的中文分詞組件[7]。它在平臺中主要用于詞素分割,目前最新版的IK Analyze已經(jīng)獨立的作為了單獨完善的組件面向java使用,由于該組件可以實現(xiàn)160萬字/秒(3 000 KB/s)的效率,因此在追求時效的情況下適合使用。目前的平臺中只單獨應(yīng)用到了中文分詞功能,而IK Analyzer還支持包含英文字母、數(shù)字、韓文、日文在內(nèi)的多語言的分詞功能,并支持多語言混合分詞。它采用了多子處理器分析模式,實現(xiàn)了簡單的分詞歧義排除算法,采用了特有的正向迭代最細粒度切分算法[8],支持細粒度和智能分詞兩種切分模式[9]。

        2) SSM框架。SSM是Spring+SpringMVC+Mybatis的縮寫,是當前Web開發(fā)中常用的基礎(chǔ)框架之一。第一部分是Spring,輔助開發(fā)人員集合各個層次,進行事務(wù)的托管和持久化工作。SpringMVC續(xù)寫了Spring,將C、V、M分隔開,即隔離控制器、視圖與業(yè)務(wù)三大模塊[8]。Mybatis的存在避免了設(shè)置參數(shù),跳過JDBC代碼實現(xiàn),僅通過配置文件的映射實現(xiàn)數(shù)據(jù)庫的更新。

        3) Extjs。Extjs是當前比較流行且效果豐富的Ajax框架,用于客戶端Web應(yīng)用程序界面的開發(fā),適用于現(xiàn)在多數(shù)主流開發(fā)語言。Extjs有著良好的互動界面和異常處理機制,且對于跨瀏覽器處理有著極大的優(yōu)勢,因此在平臺開發(fā)的實現(xiàn)上成為首選前端開發(fā)框架。

        3 數(shù)據(jù)標準管理平臺設(shè)計與實現(xiàn)

        3.1 功能流程設(shè)計

        平臺功能流程的設(shè)計符合完整的數(shù)據(jù)標準管理生命周期,全過程分為兩條支路,一條起源于元數(shù)據(jù)采集,另一條起源于Excel模板采集。在用Excel模板采集的過程中,先進行詞素分割,以紅黑顏色作為驗證通過與否的標識,若標紅則需要申請成為新的標準用語。申請時需要先驗證是否已經(jīng)在標準詞典中存在,驗證后自動將驗證反饋信息填入備注欄中,由審核專員手動點擊通過或者不通過,申請者可以在申請頁面刷新查看。元數(shù)據(jù)采集的支路與上述流程類似,只在采集過后增加補全信息的過程。功能流程設(shè)計如圖2所示。

        圖2 功能流程設(shè)計圖

        此平臺系統(tǒng)功能統(tǒng)分為七個模塊,具體如下:

        3.1.1 采集信息管理

        (1) 從元數(shù)據(jù)導入。與元數(shù)據(jù)管理系統(tǒng)交互,可以直接從現(xiàn)有的元數(shù)據(jù)庫中導入元數(shù)據(jù)作為原始的備選用語[10]。

        (2) 從Excel文件中導入。對于沒有整理完善的Excel文件中,往往只有用語名,可以從采集信息管理模塊導入后手動選擇需要申請成為標準用語的部分。

        3.1.2 用語管理

        (1) 從Excel文件導入。從整理完整的文件中直接導入成為備選用語。

        (2) 從采集信息導入。從采集信息管理模塊中的篩選出來的備選用語導入后,需要在本模塊進行信息補全。

        (3) 詞素分割。將已經(jīng)是信息完整的備選用語選中進行詞素分割,后臺會自動驗證各詞素是否已經(jīng)在標準單詞詞典中存在,若存在則為黑色,否則標紅,對紅色的可以申請成為新的標準單詞。

        (4) 申請成為標準用語。對于分割的各個詞素都是黑色的備選用語可以申請成為標準用語,進入待審核狀態(tài)。

        3.1.3 標準用語審核

        (1) 驗證。待審核用語需要驗證是否已在標準用語中存在,并再次驗證是否每個詞素都是標準單詞,驗證結(jié)果會以備注的形式填充。

        (2) 通過/不通過。依據(jù)驗證結(jié)果手動選擇。通過的單詞存儲入標準用語庫,不通過的用語會連帶駁回原因反饋會用語管理頁面。

        3.1.4 單詞管理

        (1) 單詞定義補全。對于申請成為標準單詞的個體需要將短語名、物理意義、物理名、同義詞等信息補全然后方可提交申請。

        (2) 申請成為標準單詞。選中完整的備選單詞進行申請,申請的單詞會轉(zhuǎn)入待審核狀態(tài)。

        3.1.5 標準單詞審核

        (1) 驗證。待審核單詞需要驗證是否已在標準詞典中存在,驗證結(jié)果會以備注的形式填充。

        (2) 通過/不通過。依據(jù)驗證結(jié)果手動選擇。通過的單詞存儲入標準單詞庫,不通過的單詞會連帶駁回原因反饋回單詞管理頁面。

        3.1.6 標準體系管理

        對于標準分類需要一個單獨的模塊進行管理,標準體系包括行業(yè)、企業(yè)、公用/專用等分類標準。

        3.1.7 標準數(shù)據(jù)查詢

        通過對短語名、物理名、英文名、同義詞、中文名、備注等多種條件的篩選,并輸入關(guān)鍵詞和標準分類,進行全局模糊查詢。

        3.2 架構(gòu)設(shè)計

        多源通用數(shù)據(jù)標準管理平臺系統(tǒng)架構(gòu)設(shè)計如圖3所示。

        圖3 系統(tǒng)架構(gòu)圖

        技術(shù)架構(gòu)分為五個層面,分別是數(shù)據(jù)源層、數(shù)據(jù)采集層、數(shù)據(jù)存儲和管理層、應(yīng)用服務(wù)層和門戶管理與用戶層[11]。其中數(shù)據(jù)源層主要包括各個數(shù)據(jù)來源,分別來源于不同的層面,包括業(yè)務(wù)系統(tǒng)、外部數(shù)據(jù)、手工補錄三個來源。從這三個來源中,我們主要由兩條途徑可以采集信息,一條是直接從元數(shù)據(jù)管理系統(tǒng)各種導入現(xiàn)有的元數(shù)據(jù)作為備選標準,另一條途徑是通過業(yè)務(wù)人員手工整理以Excel模板的形式采集。然后進入到存儲和管理層,此處的存儲主要是基于DBMS存儲,并合理進行標準的分類管理,在此層主要涵蓋了標準分類信息。應(yīng)用服務(wù)層基于Web服務(wù)器和內(nèi)部服務(wù)器,將標準數(shù)據(jù)檢索信息和審批狀態(tài)信息等同步更新到平臺中,提供便捷友好的應(yīng)用服務(wù)[12]。最后通過門戶管理與用戶層將包含安全認證、訪問控制、幫助文檔在內(nèi)的多種服務(wù)部署在門戶服務(wù)器上,便于統(tǒng)一把控訪問數(shù)據(jù)的角色權(quán)限信息,并對用戶輔以安全訪問的幫助。

        3.3 平臺效果展示

        圖4 excel模板導入用語頁面

        圖5 數(shù)據(jù)標準檢索

        圖6 元數(shù)據(jù)導入用語頁面

        圖7 標準用語詞典

        4 應(yīng)用案例及分析

        在金融行業(yè)中數(shù)據(jù)的共享性和精確性要求較高,而國內(nèi)的證券金融公司由于數(shù)據(jù)治理的概念發(fā)展較晚,因此缺乏數(shù)據(jù)標準統(tǒng)一的意識。2017年,上海計算機軟件技術(shù)開發(fā)中心將數(shù)據(jù)標準管理平臺應(yīng)用于某大型證券公司的合作中,通過由該公司按照固定的Excel模板進行備選標準數(shù)據(jù)的采集,并依據(jù)業(yè)務(wù)經(jīng)驗進行相應(yīng)信息的補全。利用本平臺將采集的超過400張的Excel表單后臺調(diào)度自動導入系統(tǒng)中,由該公司的業(yè)務(wù)人員和技術(shù)人員共同合作在本平臺上完成數(shù)據(jù)信息補全,并申請成為數(shù)據(jù)標準。經(jīng)過該公司業(yè)務(wù)專家和技術(shù)部門負責人在平臺上在線審核后,形成超過4 000條數(shù)據(jù)的標準詞典,同時實現(xiàn)了利用本平臺對這4 000余條數(shù)據(jù)的全局檢索,為該公司日后的新系統(tǒng)的開發(fā)工作提供了完整的參考體系,也為同行業(yè)的數(shù)據(jù)標準的制定起到了一定的參考作用。

        5 結(jié) 語

        數(shù)據(jù)共享是新時代行業(yè)發(fā)展的必經(jīng)之路,雖然目前大多數(shù)企業(yè)的數(shù)據(jù)標準尚未形成,但是統(tǒng)一數(shù)據(jù)標準、提升數(shù)據(jù)的共享能力已成為大數(shù)據(jù)時代數(shù)據(jù)管理能力提升的不可回避的問題。多源通用數(shù)據(jù)標準管理平臺旨在幫助尚未開展數(shù)據(jù)治理的企業(yè)實現(xiàn)治理的根基,即實現(xiàn)數(shù)據(jù)的標準化建設(shè)。這將為后續(xù)的數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等一系列數(shù)據(jù)治理的工作打下良好的基礎(chǔ),同時也為新的業(yè)務(wù)系統(tǒng)的開發(fā)和擴展提供了統(tǒng)一的入口和模板規(guī)范,對于提高數(shù)據(jù)共享能力意義非凡。本文通過對數(shù)據(jù)標準管理的理論體系和技術(shù)原理進行了分析,開發(fā)了多源通用數(shù)據(jù)標準管理工具,通過提供統(tǒng)一的管理方法和流程管控,利用分詞技術(shù)和表單技術(shù),使得用戶可以與傳統(tǒng)人工梳理工作相結(jié)合,大大提高了數(shù)據(jù)標準制定的規(guī)范性和合理性,使標準制定工作從線下轉(zhuǎn)為線上,從釘在墻上的規(guī)章制度轉(zhuǎn)化為切實可查的標準詞典。對各行業(yè)的數(shù)據(jù)標準管理打開了通用的通道,并為同類產(chǎn)品的設(shè)計和實現(xiàn)提供了借鑒。

        參考文獻

        [1] 朱紅磊.基于節(jié)能降耗系統(tǒng)平臺的數(shù)據(jù)處理中間件的研究[D].河南理工大學,2010.

        [2] 陳恒有.中國金融業(yè)行政管理制度研究[D].首都經(jīng)濟貿(mào)易大學,2012.

        [3] 蔣東興,郭大勇,羅念龍,等.清華大學新一代數(shù)字校園建設(shè)規(guī)劃與實踐[J].廈門大學學報(自然科學版),2007,81(S2):173-178.

        [4] 白麗銳,楊友朋,王春新.數(shù)據(jù)標準化在電力物聯(lián)網(wǎng)綜合業(yè)務(wù)平臺的應(yīng)用[J].物聯(lián)網(wǎng)技術(shù),2013,3(8):41-45.

        [5] 萬文琪.裝飾工程施工工藝管理流程標準化研究及其設(shè)計[D].東南大學,2014.

        [6] 郭曙綸.漢語語料庫應(yīng)用教程[M].上海:上海交通大學出版社,2013.

        [7] 朱潛,吳辰鈮,朱志良,等.Hadoop云平臺下Nutch中文分詞的研究與實現(xiàn)[J].小型微型計算機系統(tǒng),2013,34(12):2772-2776.

        [8] 彭婧.一種用戶交互的智能答疑系統(tǒng)的設(shè)計與實現(xiàn)[D].湖南大學,2012.

        [9] 黃翼彪.實現(xiàn)Lucene接口的中文分詞器的比較研究[J].科技信息,2012,28(12):246-247.

        [10] 朱麗娟.基于空間數(shù)據(jù)集成共享技術(shù)的土地勘測成果管理應(yīng)用與研究[D].電子科技大學,2012.

        [11] 黃小華.基于數(shù)據(jù)倉庫的稅務(wù)風險預(yù)警系統(tǒng)設(shè)計與實現(xiàn)[D].電子科技大學,2007.

        [12] 賀艷偉.基于WebGIS的城鎮(zhèn)地籍管理信息系統(tǒng)的研究與實現(xiàn)[D].河北工程大學,2010.

        猜你喜歡
        詞素分詞用語
        深度思考之常用邏輯用語
        常用邏輯用語的八個易錯點
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        詞素配價理論與應(yīng)用
        亞太教育(2018年5期)2018-12-01 04:58:23
        從詞素來源看現(xiàn)代漢語詞素同一性問題
        辭書研究(2017年3期)2017-05-22 14:04:16
        值得重視的分詞的特殊用法
        禮貌用語大家學!
        詞素溶合與溶合詞素
        高考分詞作狀語考點歸納與疑難解析
        俄語詞素及其意義探究
        东风日产车是不是国产的| 国产人成精品免费视频| www.日本一区| 亚洲视频在线免费观看一区二区 | 视频一区视频二区亚洲免费观看| 在线视频一区二区国产| 中文人妻熟女乱又乱精品| 天堂√中文在线bt| 91久久国产情侣真实对白| 精品国产亚洲av高清日韩专区 | 亚洲成a人片在线网站| 国产极品嫩模大尺度在线播放| 国产精品一区二区三区在线蜜桃| 国产莉萝无码av在线播放| 亚洲区小说区图片区| 国产一区二区三区经典| 国产自拍视频在线观看网站| 欧美天天综合色影久久精品| 国产精品一区二区久久乐下载| 亚洲中文字幕免费精品| 午夜熟女插插xx免费视频| 黄色视频免费在线观看| 午夜爽毛片| 亚洲一区二区三区视频免费看| 性无码专区无码| 午夜婷婷国产麻豆精品| 久久夜色精品国产亚洲av老牛| 狂猛欧美激情性xxxx大豆行情| 亚洲精品无码乱码成人| 免费国产h视频在线观看86| 亚洲av调教捆绑一区二区三区| 亚洲精品无码av人在线观看| 夜色阁亚洲一区二区三区| 久久亚洲精品一区二区| 午夜少妇高潮在线观看| 又爽又黄又无遮挡的激情视频| 在线成人tv天堂中文字幕| 亚洲av激情一区二区| wwww亚洲熟妇久久久久| 国产无码swag专区| 在线视频免费自拍亚洲|