亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法

        2016-03-22 13:29:29李敏
        電腦知識與技術(shù) 2016年1期
        關(guān)鍵詞:匹配數(shù)據(jù)項(xiàng)特征詞

        李敏

        摘要:目前的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要思想是基于字面相似程度實(shí)現(xiàn)匹配,這種算法對數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)規(guī)范有較強(qiáng)依賴,且大多業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)沒有加入中文名,故無法實(shí)現(xiàn)匹配。該文提出一種數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法,從數(shù)據(jù)項(xiàng)的歸屬實(shí)體名稱、數(shù)據(jù)項(xiàng)名稱、類型、長度、數(shù)據(jù)特征等多個角度設(shè)計(jì)算法,有較強(qiáng)的通用性,能夠在數(shù)據(jù)項(xiàng)名稱不規(guī)范或無中文名的情況下實(shí)現(xiàn)有效匹配。

        關(guān)鍵詞: 數(shù)據(jù)元;數(shù)據(jù)項(xiàng);匹配;特征詞

        中圖分類號:TP312 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)01-0005-02

        An Algorithm of Matching Data Elements and Data Items

        LI Min

        (Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

        Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

        Key words: data element; data items; matching; feature words

        隨著數(shù)據(jù)元標(biāo)準(zhǔn)的建立,數(shù)據(jù)元在各行各業(yè)的數(shù)據(jù)集成過程中擔(dān)任著重要角色,用于規(guī)范數(shù)據(jù)庫、報表中的數(shù)據(jù)項(xiàng)。目前數(shù)據(jù)元標(biāo)準(zhǔn)多以文檔形式出現(xiàn),主要依靠研發(fā)人員自覺遵守數(shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行系統(tǒng)設(shè)計(jì)。在數(shù)據(jù)大集中體系下,業(yè)務(wù)系統(tǒng)彼此之間的數(shù)據(jù)依賴關(guān)系日益提高,數(shù)據(jù)質(zhì)量關(guān)系到業(yè)務(wù)系統(tǒng)能否正常運(yùn)行。依據(jù)標(biāo)準(zhǔn)數(shù)據(jù)元對數(shù)據(jù)質(zhì)量進(jìn)行有效核查,能進(jìn)一步保障數(shù)據(jù)質(zhì)量。標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)建立匹配映射關(guān)系是數(shù)據(jù)核查的前提。手工匹配費(fèi)時費(fèi)力,采用自動匹配算法可有效提高工作效率。目前的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要利用字面相似程度實(shí)現(xiàn)匹配,這種算法對數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)規(guī)范有較強(qiáng)依賴,且大多業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)沒有加入中文名,故無法實(shí)現(xiàn)匹配。

        現(xiàn)有的數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的匹配算法主要思想是基于字面相似程度實(shí)現(xiàn)匹配,這種算法對數(shù)據(jù)項(xiàng)命名結(jié)構(gòu)的規(guī)范化有較強(qiáng)依賴,另外大多業(yè)務(wù)數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)沒有加入中文名,故采用現(xiàn)有算法無法實(shí)現(xiàn)匹配。

        現(xiàn)提出一種三級匹配算法,從數(shù)據(jù)項(xiàng)的歸屬實(shí)體名稱、數(shù)據(jù)項(xiàng)名稱、類型、長度、數(shù)據(jù)值特征等多個角度進(jìn)行比對,對數(shù)據(jù)項(xiàng)命名是否規(guī)范性沒有嚴(yán)格要求,在數(shù)據(jù)項(xiàng)無中文名稱的情況下,根據(jù)數(shù)據(jù)特征也可實(shí)現(xiàn)有效匹配,通用性較強(qiáng)。

        1 類型匹配

        從數(shù)據(jù)類型轉(zhuǎn)換表中讀取數(shù)據(jù)元和數(shù)據(jù)項(xiàng)類型映射信息,在數(shù)據(jù)項(xiàng)信息上打上數(shù)據(jù)元類型標(biāo)識,數(shù)據(jù)類型匹配運(yùn)算主要為了縮小運(yùn)算范圍,提高運(yùn)算效率,在進(jìn)行第二級、第三級匹配運(yùn)算時,只針對某種類型的數(shù)據(jù)項(xiàng)進(jìn)行運(yùn)算處理。數(shù)據(jù)類型轉(zhuǎn)換表主要存放了標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的類型映射關(guān)系。數(shù)據(jù)元一般表示為字符、數(shù)字、日期等,數(shù)據(jù)項(xiàng)表達(dá)的是數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)類型,包括varchar、char、int、float等多種類型。

        2 語義匹配

        語義匹配運(yùn)算主要從數(shù)據(jù)元和數(shù)據(jù)項(xiàng)的語義層進(jìn)行匹配處理。數(shù)據(jù)元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數(shù)據(jù)項(xiàng)語義層包括數(shù)據(jù)項(xiàng)名稱(M)、歸屬實(shí)體名稱(T)。在這些信息完整的情況下,本級運(yùn)算可實(shí)現(xiàn)較高比率的匹配效果。未實(shí)現(xiàn)匹配的數(shù)據(jù)項(xiàng)將放入第三級運(yùn)算中。

        公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運(yùn)算中,如果匹配值Probability大于0.5,可達(dá)到很高的有效匹配率。

        3 數(shù)據(jù)特征匹配

        第三級運(yùn)算是針對第二級運(yùn)算中匹配值小于0.5的數(shù)據(jù)項(xiàng)。本級運(yùn)算的主要思想是實(shí)現(xiàn)以標(biāo)準(zhǔn)數(shù)據(jù)元為中心的聚類分析,能夠適用算法的數(shù)據(jù)元其數(shù)值必定是有一定特征的,特征包括:

        1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現(xiàn)一些常見姓氏。

        2) 是否枚舉值,獲取具體枚舉項(xiàng)。一般引用數(shù)據(jù)字典的數(shù)據(jù)項(xiàng)其 值必定是枚舉值。

        3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。

        4) 是否定長值、定長值是什么。

        5) 數(shù)值是否有取值范圍,最大值、最小值分別是什么。

        6) 數(shù)據(jù)是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

        參見表2,數(shù)據(jù)元信息表。本步驟對數(shù)據(jù)元的信息完整性有較高要求,但考慮到如果使用數(shù)據(jù)元作為標(biāo)準(zhǔn)檢測數(shù)據(jù)質(zhì)量,對其約束信息的全面性完整性原本就會提出較高要求。

        參見表3,數(shù)據(jù)項(xiàng)信息處理后如表所示。需要按照以上特征屬性對于已有數(shù)據(jù)進(jìn)行預(yù)處理,得到數(shù)據(jù)項(xiàng)信息,標(biāo)識出其具有的特征和特征值。待處理的數(shù)據(jù)質(zhì)量應(yīng)盡量準(zhǔn)確,可以采取異常點(diǎn)檢測和平滑處理方法對數(shù)據(jù)進(jìn)行清洗,目前已有很多此類算法,本專利不再贅述。數(shù)據(jù)項(xiàng)的特征詞不在數(shù)據(jù)預(yù)處理階段檢測,只在與標(biāo)準(zhǔn)數(shù)據(jù)元進(jìn)行聚類分析時按照數(shù)據(jù)元的特征詞進(jìn)行檢索。

        計(jì)算方法主要是對特征屬性進(jìn)行比對,如果數(shù)據(jù)項(xiàng)特征屬性值在數(shù)據(jù)元特征屬性值的取值范圍內(nèi),則為1,否則為0。公式如下:

        [Probability=0.2L+j=160.4Pj]

        在數(shù)據(jù)元信息完整的情況下,匹配值大于0.6的數(shù)據(jù)項(xiàng)可到達(dá)到較高的有效匹配率。

        4 總結(jié)

        本算法通過對數(shù)據(jù)元類型長度、語義說明、數(shù)據(jù)特征等信息的充分利用,實(shí)現(xiàn)了數(shù)據(jù)元與數(shù)據(jù)項(xiàng)的有效匹配;且三級運(yùn)算架構(gòu)中每級運(yùn)算縮小數(shù)據(jù)范圍,提高運(yùn)算效率;算法有較強(qiáng)的適用性,對于命名不規(guī)范或無中文名的數(shù)據(jù)項(xiàng)也可實(shí)現(xiàn)與數(shù)據(jù)元的有效匹配。

        參考文獻(xiàn):

        [1] 冉婕,孫瑜. 語義檢索中的詞語相似度計(jì)算研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2011(4).

        [2] 文必龍, 任秀英,李乃峰,等. 基于數(shù)據(jù)元的數(shù)據(jù)模型語義映射技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2014(11).

        [3] 文必龍,付玥. 數(shù)據(jù)集成中數(shù)據(jù)項(xiàng)與數(shù)據(jù)元匹配算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2012(3).

        [4] 時貴英,文必龍,王志寶. 基于數(shù)據(jù)元的數(shù)據(jù)集成技術(shù)研究[J]. 科學(xué)技術(shù)與工程,2011(18).

        [5] 文必龍,史春波,關(guān)翔瑞. 一種數(shù)據(jù)元語義描述方法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報:自然科學(xué)版,2010(1).

        [6] 秦善華,史春波,邵慶. 基于數(shù)據(jù)元的數(shù)據(jù)模型語義描述[J]. 大慶石油學(xué)院學(xué)報,2009(3).

        [7] 劉敏超,劉衛(wèi)東. 數(shù)據(jù)集成系統(tǒng)關(guān)鍵問題研究[J]. 計(jì)算機(jī)應(yīng)用,2006(7).

        [8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關(guān)系數(shù)據(jù)庫的查詢方法[J]. 大慶石油學(xué)院學(xué)報,2004(2).

        [9]尚云云. IT運(yùn)維服務(wù)管理支撐系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2009.

        [10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學(xué)院學(xué)報,2004(1).

        [11] 魏宏,章建方. 數(shù)據(jù)元在電子政務(wù)標(biāo)準(zhǔn)體系中的概念與實(shí)踐[J]. 信息技術(shù)與標(biāo)準(zhǔn)化,2004(5).

        [12] 王斌君,孫丕龍. 數(shù)據(jù)元標(biāo)準(zhǔn)在信息化中作用的再認(rèn)識——標(biāo)準(zhǔn)在信息化中的作用之二[J]. 中國人民公安大學(xué)學(xué)報:自然科學(xué)版,2005(3).

        [13] 劉羽飛,李健. 電子政務(wù)體系中數(shù)據(jù)元標(biāo)準(zhǔn)的概念與應(yīng)用[J]. 微計(jì)算機(jī)信息,2008(15).

        [14] 高貴錦,龍翔. 基于數(shù)據(jù)元的交換數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)[J]. 吉林大學(xué)學(xué)報:信息科學(xué)版,2005(1).

        [15] 劉慶河,郝文寧,韓憲勇,等. 基于數(shù)據(jù)元的數(shù)據(jù)交換規(guī)范研究[J]. 電腦知識與技術(shù),2010(10).

        [16] 趙作鵬,尹志民,王潛平,等. 一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用,2009(2).

        [17] 姚遠(yuǎn),李林,馮丹. 數(shù)據(jù)元管理及其網(wǎng)絡(luò)化管理平臺的設(shè)計(jì)[J]. 中國衛(wèi)生信息管理雜志,2012(1).

        [18] 袁滿,陳永恒. 一種新型的面向信息化應(yīng)用的數(shù)據(jù)元支撐元模型[J]. 計(jì)算機(jī)應(yīng)用研究,2008(7).

        猜你喜歡
        匹配數(shù)據(jù)項(xiàng)特征詞
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        中職學(xué)生職業(yè)性向測評維度與就業(yè)崗位匹配研究
        基于新型雙頻匹配電路的雙頻低噪聲放大器設(shè)計(jì)
        移動通信(2016年20期)2016-12-10 09:37:34
        工程車輛柴油機(jī)與液力變矩器的功率匹配及優(yōu)化分析
        氣質(zhì)類型在檔案工作中的應(yīng)用
        面向文本分類的特征詞選取方法研究與改進(jìn)
        蜜臀av一区二区三区| 亚洲综合国产精品一区二区99| 亚洲国产成人精品激情资源9| 国产精品二区三区在线观看| 久久精品免费中文字幕| 亚洲午夜福利在线视频| 国产欧美成人| 国产精品99久久精品女同| 干日本少妇一区二区三区| 男ji大巴进入女人的视频小说| 欧美日本亚洲国产一区二区| 婷婷成人亚洲综合国产| 久久亚洲中文字幕精品熟| 欧美日韩国产精品自在自线| 男人天堂网在线视频| 亚洲av粉色一区二区三区| 大香蕉av一区二区三区| 特级a欧美做爰片第一次| 日韩精品电影在线观看| 91国内偷拍一区二区三区| 久久久久人妻精品一区二区三区| 国产综合无码一区二区色蜜蜜| 亚洲第一无码精品久久| 一区二区三区四区国产亚洲| 高清午夜福利电影在线| 日韩在线一区二区三区免费视频 | 国产欧美日韩专区| 国产av区亚洲av毛片| 免费久久99精品国产| 无码精品人妻一区二区三区影院| 高清国产美女一级a毛片在线| 国产中文字幕一区二区视频| 欧洲多毛裸体xxxxx| 狠狠色婷婷久久一区二区| 在线视频一区二区在线观看| 国产91传媒一区二区三区| 人人妻人人澡人人爽精品欧美| 四虎成人精品国产一区a| av一区二区在线免费观看| 国产无套粉嫩白浆在线观看| 91精品国产综合成人|