亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項匹配算法

        2016-03-22 13:29:29李敏
        電腦知識與技術(shù) 2016年1期
        關(guān)鍵詞:匹配數(shù)據(jù)項特征詞

        李敏

        摘要:目前的數(shù)據(jù)元與數(shù)據(jù)項的匹配算法主要思想是基于字面相似程度實現(xiàn)匹配,這種算法對數(shù)據(jù)項命名結(jié)構(gòu)規(guī)范有較強依賴,且大多業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)項沒有加入中文名,故無法實現(xiàn)匹配。該文提出一種數(shù)據(jù)元與數(shù)據(jù)項匹配算法,從數(shù)據(jù)項的歸屬實體名稱、數(shù)據(jù)項名稱、類型、長度、數(shù)據(jù)特征等多個角度設(shè)計算法,有較強的通用性,能夠在數(shù)據(jù)項名稱不規(guī)范或無中文名的情況下實現(xiàn)有效匹配。

        關(guān)鍵詞: 數(shù)據(jù)元;數(shù)據(jù)項;匹配;特征詞

        中圖分類號:TP312 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)01-0005-02

        An Algorithm of Matching Data Elements and Data Items

        LI Min

        (Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

        Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

        Key words: data element; data items; matching; feature words

        隨著數(shù)據(jù)元標(biāo)準(zhǔn)的建立,數(shù)據(jù)元在各行各業(yè)的數(shù)據(jù)集成過程中擔(dān)任著重要角色,用于規(guī)范數(shù)據(jù)庫、報表中的數(shù)據(jù)項。目前數(shù)據(jù)元標(biāo)準(zhǔn)多以文檔形式出現(xiàn),主要依靠研發(fā)人員自覺遵守數(shù)據(jù)元標(biāo)準(zhǔn)進行系統(tǒng)設(shè)計。在數(shù)據(jù)大集中體系下,業(yè)務(wù)系統(tǒng)彼此之間的數(shù)據(jù)依賴關(guān)系日益提高,數(shù)據(jù)質(zhì)量關(guān)系到業(yè)務(wù)系統(tǒng)能否正常運行。依據(jù)標(biāo)準(zhǔn)數(shù)據(jù)元對數(shù)據(jù)質(zhì)量進行有效核查,能進一步保障數(shù)據(jù)質(zhì)量。標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項建立匹配映射關(guān)系是數(shù)據(jù)核查的前提。手工匹配費時費力,采用自動匹配算法可有效提高工作效率。目前的數(shù)據(jù)元與數(shù)據(jù)項的匹配算法主要利用字面相似程度實現(xiàn)匹配,這種算法對數(shù)據(jù)項命名結(jié)構(gòu)規(guī)范有較強依賴,且大多業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)項沒有加入中文名,故無法實現(xiàn)匹配。

        現(xiàn)有的數(shù)據(jù)元與數(shù)據(jù)項的匹配算法主要思想是基于字面相似程度實現(xiàn)匹配,這種算法對數(shù)據(jù)項命名結(jié)構(gòu)的規(guī)范化有較強依賴,另外大多業(yè)務(wù)數(shù)據(jù)庫中數(shù)據(jù)項沒有加入中文名,故采用現(xiàn)有算法無法實現(xiàn)匹配。

        現(xiàn)提出一種三級匹配算法,從數(shù)據(jù)項的歸屬實體名稱、數(shù)據(jù)項名稱、類型、長度、數(shù)據(jù)值特征等多個角度進行比對,對數(shù)據(jù)項命名是否規(guī)范性沒有嚴(yán)格要求,在數(shù)據(jù)項無中文名稱的情況下,根據(jù)數(shù)據(jù)特征也可實現(xiàn)有效匹配,通用性較強。

        1 類型匹配

        從數(shù)據(jù)類型轉(zhuǎn)換表中讀取數(shù)據(jù)元和數(shù)據(jù)項類型映射信息,在數(shù)據(jù)項信息上打上數(shù)據(jù)元類型標(biāo)識,數(shù)據(jù)類型匹配運算主要為了縮小運算范圍,提高運算效率,在進行第二級、第三級匹配運算時,只針對某種類型的數(shù)據(jù)項進行運算處理。數(shù)據(jù)類型轉(zhuǎn)換表主要存放了標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項的類型映射關(guān)系。數(shù)據(jù)元一般表示為字符、數(shù)字、日期等,數(shù)據(jù)項表達的是數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)類型,包括varchar、char、int、float等多種類型。

        2 語義匹配

        語義匹配運算主要從數(shù)據(jù)元和數(shù)據(jù)項的語義層進行匹配處理。數(shù)據(jù)元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數(shù)據(jù)項語義層包括數(shù)據(jù)項名稱(M)、歸屬實體名稱(T)。在這些信息完整的情況下,本級運算可實現(xiàn)較高比率的匹配效果。未實現(xiàn)匹配的數(shù)據(jù)項將放入第三級運算中。

        公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運算中,如果匹配值Probability大于0.5,可達到很高的有效匹配率。

        3 數(shù)據(jù)特征匹配

        第三級運算是針對第二級運算中匹配值小于0.5的數(shù)據(jù)項。本級運算的主要思想是實現(xiàn)以標(biāo)準(zhǔn)數(shù)據(jù)元為中心的聚類分析,能夠適用算法的數(shù)據(jù)元其數(shù)值必定是有一定特征的,特征包括:

        1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現(xiàn)一些常見姓氏。

        2) 是否枚舉值,獲取具體枚舉項。一般引用數(shù)據(jù)字典的數(shù)據(jù)項其 值必定是枚舉值。

        3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。

        4) 是否定長值、定長值是什么。

        5) 數(shù)值是否有取值范圍,最大值、最小值分別是什么。

        6) 數(shù)據(jù)是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

        參見表2,數(shù)據(jù)元信息表。本步驟對數(shù)據(jù)元的信息完整性有較高要求,但考慮到如果使用數(shù)據(jù)元作為標(biāo)準(zhǔn)檢測數(shù)據(jù)質(zhì)量,對其約束信息的全面性完整性原本就會提出較高要求。

        參見表3,數(shù)據(jù)項信息處理后如表所示。需要按照以上特征屬性對于已有數(shù)據(jù)進行預(yù)處理,得到數(shù)據(jù)項信息,標(biāo)識出其具有的特征和特征值。待處理的數(shù)據(jù)質(zhì)量應(yīng)盡量準(zhǔn)確,可以采取異常點檢測和平滑處理方法對數(shù)據(jù)進行清洗,目前已有很多此類算法,本專利不再贅述。數(shù)據(jù)項的特征詞不在數(shù)據(jù)預(yù)處理階段檢測,只在與標(biāo)準(zhǔn)數(shù)據(jù)元進行聚類分析時按照數(shù)據(jù)元的特征詞進行檢索。

        計算方法主要是對特征屬性進行比對,如果數(shù)據(jù)項特征屬性值在數(shù)據(jù)元特征屬性值的取值范圍內(nèi),則為1,否則為0。公式如下:

        [Probability=0.2L+j=160.4Pj]

        在數(shù)據(jù)元信息完整的情況下,匹配值大于0.6的數(shù)據(jù)項可到達到較高的有效匹配率。

        4 總結(jié)

        本算法通過對數(shù)據(jù)元類型長度、語義說明、數(shù)據(jù)特征等信息的充分利用,實現(xiàn)了數(shù)據(jù)元與數(shù)據(jù)項的有效匹配;且三級運算架構(gòu)中每級運算縮小數(shù)據(jù)范圍,提高運算效率;算法有較強的適用性,對于命名不規(guī)范或無中文名的數(shù)據(jù)項也可實現(xiàn)與數(shù)據(jù)元的有效匹配。

        參考文獻:

        [1] 冉婕,孫瑜. 語義檢索中的詞語相似度計算研究[J]. 計算機技術(shù)與發(fā)展,2011(4).

        [2] 文必龍, 任秀英,李乃峰,等. 基于數(shù)據(jù)元的數(shù)據(jù)模型語義映射技術(shù)研究[J]. 計算機技術(shù)與發(fā)展,2014(11).

        [3] 文必龍,付玥. 數(shù)據(jù)集成中數(shù)據(jù)項與數(shù)據(jù)元匹配算法[J]. 計算機系統(tǒng)應(yīng)用,2012(3).

        [4] 時貴英,文必龍,王志寶. 基于數(shù)據(jù)元的數(shù)據(jù)集成技術(shù)研究[J]. 科學(xué)技術(shù)與工程,2011(18).

        [5] 文必龍,史春波,關(guān)翔瑞. 一種數(shù)據(jù)元語義描述方法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報:自然科學(xué)版,2010(1).

        [6] 秦善華,史春波,邵慶. 基于數(shù)據(jù)元的數(shù)據(jù)模型語義描述[J]. 大慶石油學(xué)院學(xué)報,2009(3).

        [7] 劉敏超,劉衛(wèi)東. 數(shù)據(jù)集成系統(tǒng)關(guān)鍵問題研究[J]. 計算機應(yīng)用,2006(7).

        [8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關(guān)系數(shù)據(jù)庫的查詢方法[J]. 大慶石油學(xué)院學(xué)報,2004(2).

        [9]尚云云. IT運維服務(wù)管理支撐系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京交通大學(xué),2009.

        [10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學(xué)院學(xué)報,2004(1).

        [11] 魏宏,章建方. 數(shù)據(jù)元在電子政務(wù)標(biāo)準(zhǔn)體系中的概念與實踐[J]. 信息技術(shù)與標(biāo)準(zhǔn)化,2004(5).

        [12] 王斌君,孫丕龍. 數(shù)據(jù)元標(biāo)準(zhǔn)在信息化中作用的再認(rèn)識——標(biāo)準(zhǔn)在信息化中的作用之二[J]. 中國人民公安大學(xué)學(xué)報:自然科學(xué)版,2005(3).

        [13] 劉羽飛,李健. 電子政務(wù)體系中數(shù)據(jù)元標(biāo)準(zhǔn)的概念與應(yīng)用[J]. 微計算機信息,2008(15).

        [14] 高貴錦,龍翔. 基于數(shù)據(jù)元的交換數(shù)據(jù)標(biāo)準(zhǔn)維護[J]. 吉林大學(xué)學(xué)報:信息科學(xué)版,2005(1).

        [15] 劉慶河,郝文寧,韓憲勇,等. 基于數(shù)據(jù)元的數(shù)據(jù)交換規(guī)范研究[J]. 電腦知識與技術(shù),2010(10).

        [16] 趙作鵬,尹志民,王潛平,等. 一種改進的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J]. 計算機應(yīng)用,2009(2).

        [17] 姚遠(yuǎn),李林,馮丹. 數(shù)據(jù)元管理及其網(wǎng)絡(luò)化管理平臺的設(shè)計[J]. 中國衛(wèi)生信息管理雜志,2012(1).

        [18] 袁滿,陳永恒. 一種新型的面向信息化應(yīng)用的數(shù)據(jù)元支撐元模型[J]. 計算機應(yīng)用研究,2008(7).

        猜你喜歡
        匹配數(shù)據(jù)項特征詞
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計與實現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
        基于改進TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        中職學(xué)生職業(yè)性向測評維度與就業(yè)崗位匹配研究
        基于新型雙頻匹配電路的雙頻低噪聲放大器設(shè)計
        移動通信(2016年20期)2016-12-10 09:37:34
        工程車輛柴油機與液力變矩器的功率匹配及優(yōu)化分析
        氣質(zhì)類型在檔案工作中的應(yīng)用
        面向文本分類的特征詞選取方法研究與改進
        色天使综合婷婷国产日韩av| 国产精品人成在线观看不卡| 一区二区三区视频亚洲| 无码色av一二区在线播放| 亚洲乱亚洲乱少妇无码99p| 亚洲VA中文字幕欧美VA丝袜| 国产精品av网站在线| 久久久精品视频网站在线观看| 国产av麻豆mag剧集| 911国产精品| 加勒比亚洲视频在线播放| 一区二区视频中文字幕| 久久精品99久久香蕉国产| 在线高清精品第一区二区三区| 抖射在线免费观看视频网站| 99精品国产一区二区三区| 国产喷水1区2区3区咪咪爱av| 三上悠亚免费一区二区在线| 国产一区二区三区免费主播| 亚洲永久国产中文字幕| 一本无码av中文出轨人妻| 欧美a在线播放| 国产av熟女一区二区三区蜜臀| 东北女人啪啪对白| 国产午夜亚洲精品午夜鲁丝片| 丁香六月久久| 伊人久久亚洲精品中文字幕| 欧美日韩一区二区三区在线观看视频 | 亚洲 国产 哟| 国产午夜在线观看视频| 色综合久久久久综合体桃花网| 国产精品美女一区二区三区| 国内精品91久久久久| 中文字幕女同人妖熟女| 免费看黑人男阳茎进女阳道视频| 九九免费在线视频| 91国产视频自拍在线观看| 夫妻免费无码v看片| 久久久久久久性潮| av网站影片在线观看| 久久久亚洲熟妇熟女av|