亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法

        2016-03-22 13:29:29李敏
        電腦知識與技術(shù) 2016年1期
        關(guān)鍵詞:匹配數(shù)據(jù)項(xiàng)特征詞

        李敏

        摘要:目前的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要思想是基于字面相似程度實(shí)現(xiàn)匹配,這種算法對數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)規(guī)范有較強(qiáng)依賴,且大多業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)沒有加入中文名,故無法實(shí)現(xiàn)匹配。該文提出一種數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法,從數(shù)據(jù)項(xiàng)的歸屬實(shí)體名稱、數(shù)據(jù)項(xiàng)名稱、類型、長度、數(shù)據(jù)特征等多個角度設(shè)計(jì)算法,有較強(qiáng)的通用性,能夠在數(shù)據(jù)項(xiàng)名稱不規(guī)范或無中文名的情況下實(shí)現(xiàn)有效匹配。

        關(guān)鍵詞: 數(shù)據(jù)元;數(shù)據(jù)項(xiàng);匹配;特征詞

        中圖分類號:TP312 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)01-0005-02

        An Algorithm of Matching Data Elements and Data Items

        LI Min

        (Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

        Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

        Key words: data element; data items; matching; feature words

        隨著數(shù)據(jù)元標(biāo)準(zhǔn)的建立,數(shù)據(jù)元在各行各業(yè)的數(shù)據(jù)集成過程中擔(dān)任著重要角色,用于規(guī)范數(shù)據(jù)庫、報表中的數(shù)據(jù)項(xiàng)。目前數(shù)據(jù)元標(biāo)準(zhǔn)多以文檔形式出現(xiàn),主要依靠研發(fā)人員自覺遵守數(shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行系統(tǒng)設(shè)計(jì)。在數(shù)據(jù)大集中體系下,業(yè)務(wù)系統(tǒng)彼此之間的數(shù)據(jù)依賴關(guān)系日益提高,數(shù)據(jù)質(zhì)量關(guān)系到業(yè)務(wù)系統(tǒng)能否正常運(yùn)行。依據(jù)標(biāo)準(zhǔn)數(shù)據(jù)元對數(shù)據(jù)質(zhì)量進(jìn)行有效核查,能進(jìn)一步保障數(shù)據(jù)質(zhì)量。標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)建立匹配映射關(guān)系是數(shù)據(jù)核查的前提。手工匹配費(fèi)時費(fèi)力,采用自動匹配算法可有效提高工作效率。目前的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要利用字面相似程度實(shí)現(xiàn)匹配,這種算法對數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)規(guī)范有較強(qiáng)依賴,且大多業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)沒有加入中文名,故無法實(shí)現(xiàn)匹配。

        現(xiàn)有的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要思想是基于字面相似程度實(shí)現(xiàn)匹配,這種算法對數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)的規(guī)范化有較強(qiáng)依賴,另外大多業(yè)務(wù)數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)沒有加入中文名,故采用現(xiàn)有算法無法實(shí)現(xiàn)匹配。

        現(xiàn)提出一種三級匹配算法,從數(shù)據(jù)項(xiàng)的歸屬實(shí)體名稱、數(shù)據(jù)項(xiàng)名稱、類型、長度、數(shù)據(jù)值特征等多個角度進(jìn)行比對,對數(shù)據(jù)項(xiàng)命名是否規(guī)范性沒有嚴(yán)格要求,在數(shù)據(jù)項(xiàng)無中文名稱的情況下,根據(jù)數(shù)據(jù)特征也可實(shí)現(xiàn)有效匹配,通用性較強(qiáng)。

        1 類型匹配

        從數(shù)據(jù)類型轉(zhuǎn)換表中讀取數(shù)據(jù)元和數(shù)據(jù)項(xiàng)類型映射信息,在數(shù)據(jù)項(xiàng)信息上打上數(shù)據(jù)元類型標(biāo)識,數(shù)據(jù)類型匹配運(yùn)算主要為了縮小運(yùn)算范圍,提高運(yùn)算效率,在進(jìn)行第二級、第三級匹配運(yùn)算時,只針對某種類型的數(shù)據(jù)項(xiàng)進(jìn)行運(yùn)算處理。數(shù)據(jù)類型轉(zhuǎn)換表主要存放了標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的類型映射關(guān)系。數(shù)據(jù)元一般表示為字符、數(shù)字、日期等,數(shù)據(jù)項(xiàng)表達(dá)的是數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)類型,包括varchar、char、int、float等多種類型。

        2 語義匹配

        語義匹配運(yùn)算主要從數(shù)據(jù)元和數(shù)據(jù)項(xiàng)的語義層進(jìn)行匹配處理。數(shù)據(jù)元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數(shù)據(jù)項(xiàng)語義層包括數(shù)據(jù)項(xiàng)名稱(M)、歸屬實(shí)體名稱(T)。在這些信息完整的情況下,本級運(yùn)算可實(shí)現(xiàn)較高比率的匹配效果。未實(shí)現(xiàn)匹配的數(shù)據(jù)項(xiàng)將放入第三級運(yùn)算中。

        公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運(yùn)算中,如果匹配值Probability大于0.5,可達(dá)到很高的有效匹配率。

        3 數(shù)據(jù)特征匹配

        第三級運(yùn)算是針對第二級運(yùn)算中匹配值小于0.5的數(shù)據(jù)項(xiàng)。本級運(yùn)算的主要思想是實(shí)現(xiàn)以標(biāo)準(zhǔn)數(shù)據(jù)元為中心的聚類分析,能夠適用算法的數(shù)據(jù)元其數(shù)值必定是有一定特征的,特征包括:

        1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現(xiàn)一些常見姓氏。

        2) 是否枚舉值,獲取具體枚舉項(xiàng)。一般引用數(shù)據(jù)字典的數(shù)據(jù)項(xiàng)其 值必定是枚舉值。

        3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。

        4) 是否定長值、定長值是什么。

        5) 數(shù)值是否有取值范圍,最大值、最小值分別是什么。

        6) 數(shù)據(jù)是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

        參見表2,數(shù)據(jù)元信息表。本步驟對數(shù)據(jù)元的信息完整性有較高要求,但考慮到如果使用數(shù)據(jù)元作為標(biāo)準(zhǔn)檢測數(shù)據(jù)質(zhì)量,對其約束信息的全面性完整性原本就會提出較高要求。

        參見表3,數(shù)據(jù)項(xiàng)信息處理后如表所示。需要按照以上特征屬性對于已有數(shù)據(jù)進(jìn)行預(yù)處理,得到數(shù)據(jù)項(xiàng)信息,標(biāo)識出其具有的特征和特征值。待處理的數(shù)據(jù)質(zhì)量應(yīng)盡量準(zhǔn)確,可以采取異常點(diǎn)檢測和平滑處理方法對數(shù)據(jù)進(jìn)行清洗,目前已有很多此類算法,本專利不再贅述。數(shù)據(jù)項(xiàng)的特征詞不在數(shù)據(jù)預(yù)處理階段檢測,只在與標(biāo)準(zhǔn)數(shù)據(jù)元進(jìn)行聚類分析時按照數(shù)據(jù)元的特征詞進(jìn)行檢索。

        計(jì)算方法主要是對特征屬性進(jìn)行比對,如果數(shù)據(jù)項(xiàng)特征屬性值在數(shù)據(jù)元特征屬性值的取值范圍內(nèi),則為1,否則為0。公式如下:

        [Probability=0.2L+j=160.4Pj]

        在數(shù)據(jù)元信息完整的情況下,匹配值大于0.6的數(shù)據(jù)項(xiàng)可到達(dá)到較高的有效匹配率。

        4 總結(jié)

        本算法通過對數(shù)據(jù)元類型長度、語義說明、數(shù)據(jù)特征等信息的充分利用,實(shí)現(xiàn)了數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的有效匹配;且三級運(yùn)算架構(gòu)中每級運(yùn)算縮小數(shù)據(jù)范圍,提高運(yùn)算效率;算法有較強(qiáng)的適用性,對于命名不規(guī)范或無中文名的數(shù)據(jù)項(xiàng)也可實(shí)現(xiàn)與數(shù)據(jù)元的有效匹配。

        參考文獻(xiàn):

        [1] 冉婕,孫瑜. 語義檢索中的詞語相似度計(jì)算研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2011(4).

        [2] 文必龍, 任秀英,李乃峰,等. 基于數(shù)據(jù)元的數(shù)據(jù)模型語義映射技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2014(11).

        [3] 文必龍,付玥. 數(shù)據(jù)集成中數(shù)據(jù)項(xiàng)與數(shù)據(jù)元匹配算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2012(3).

        [4] 時貴英,文必龍,王志寶. 基于數(shù)據(jù)元的數(shù)據(jù)集成技術(shù)研究[J]. 科學(xué)技術(shù)與工程,2011(18).

        [5] 文必龍,史春波,關(guān)翔瑞. 一種數(shù)據(jù)元語義描述方法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報:自然科學(xué)版,2010(1).

        [6] 秦善華,史春波,邵慶. 基于數(shù)據(jù)元的數(shù)據(jù)模型語義描述[J]. 大慶石油學(xué)院學(xué)報,2009(3).

        [7] 劉敏超,劉衛(wèi)東. 數(shù)據(jù)集成系統(tǒng)關(guān)鍵問題研究[J]. 計(jì)算機(jī)應(yīng)用,2006(7).

        [8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關(guān)系數(shù)據(jù)庫的查詢方法[J]. 大慶石油學(xué)院學(xué)報,2004(2).

        [9]尚云云. IT運(yùn)維服務(wù)管理支撐系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2009.

        [10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學(xué)院學(xué)報,2004(1).

        [11] 魏宏,章建方. 數(shù)據(jù)元在電子政務(wù)標(biāo)準(zhǔn)體系中的概念與實(shí)踐[J]. 信息技術(shù)與標(biāo)準(zhǔn)化,2004(5).

        [12] 王斌君,孫丕龍. 數(shù)據(jù)元標(biāo)準(zhǔn)在信息化中作用的再認(rèn)識——標(biāo)準(zhǔn)在信息化中的作用之二[J]. 中國人民公安大學(xué)學(xué)報:自然科學(xué)版,2005(3).

        [13] 劉羽飛,李健. 電子政務(wù)體系中數(shù)據(jù)元標(biāo)準(zhǔn)的概念與應(yīng)用[J]. 微計(jì)算機(jī)信息,2008(15).

        [14] 高貴錦,龍翔. 基于數(shù)據(jù)元的交換數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)[J]. 吉林大學(xué)學(xué)報:信息科學(xué)版,2005(1).

        [15] 劉慶河,郝文寧,韓憲勇,等. 基于數(shù)據(jù)元的數(shù)據(jù)交換規(guī)范研究[J]. 電腦知識與技術(shù),2010(10).

        [16] 趙作鵬,尹志民,王潛平,等. 一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2009(2).

        [17] 姚遠(yuǎn),李林,馮丹. 數(shù)據(jù)元管理及其網(wǎng)絡(luò)化管理平臺的設(shè)計(jì)[J]. 中國衛(wèi)生信息管理雜志,2012(1).

        [18] 袁滿,陳永恒. 一種新型的面向信息化應(yīng)用的數(shù)據(jù)元支撐元模型[J]. 計(jì)算機(jī)應(yīng)用研究,2008(7).

        猜你喜歡
        匹配數(shù)據(jù)項(xiàng)特征詞
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        中職學(xué)生職業(yè)性向測評維度與就業(yè)崗位匹配研究
        基于新型雙頻匹配電路的雙頻低噪聲放大器設(shè)計(jì)
        移動通信(2016年20期)2016-12-10 09:37:34
        工程車輛柴油機(jī)與液力變矩器的功率匹配及優(yōu)化分析
        氣質(zhì)類型在檔案工作中的應(yīng)用
        面向文本分類的特征詞選取方法研究與改進(jìn)
        亚洲中文av中文字幕艳妇| 国产成人精品亚洲午夜| 国产精品自拍首页在线观看| 日日高潮夜夜爽高清视频| 少妇被爽到高潮喷水久久欧美精品| 少妇人妻偷人精品视频| 久久国产国内精品对话对白| 亚洲激情一区二区三区视频| 亚洲av丰满熟妇在线播放| 边做边流奶水的人妻| 国产91对白在线观看| 国产主播一区二区三区在线观看| 国产欧美在线观看不卡| 18分钟处破好疼哭视频在线观看 | 亚洲欧洲日产国码久在线观看| 少妇又色又爽又刺激的视频| 尤物yw午夜国产精品视频| 国产97色在线 | 亚洲| 久久亚洲国产成人亚| 国内国外日产一区二区| 久久综合99re88久久爱| 精品午夜福利无人区乱码一区| 日韩精品成人无码AV片| 亚洲av网一区二区三区成人| 手机看黄av免费网址| 欧美黑人巨大xxxxx| 国产香蕉尹人在线视频你懂的| 在线观看午夜视频国产| 亚洲精品无码久久久影院相关影片| 宅男噜噜噜| 中文字幕视频二区三区| 国产欧美精品aaaaaa片| 中文人妻av久久人妻18| 爆乳日韩尤物无码一区| 日本高清视频在线观看一区二区| 日日噜噜夜夜狠狠va视频| 麻豆AV免费网站| 91精品蜜桃熟女一区二区| 国产麻豆精品精东影业av网站| 国产精品后入内射日本在线观看| 国产91精品丝袜美腿在线|