亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)下的實(shí)體識(shí)別算法研究

        2015-09-10 11:37:30張風(fēng)榮
        考試周刊 2015年90期
        關(guān)鍵詞:數(shù)據(jù)質(zhì)量

        張風(fēng)榮

        摘 要: 大數(shù)據(jù)下的實(shí)體識(shí)別是提高數(shù)據(jù)實(shí)體同一性的關(guān)鍵步驟。本文概述了實(shí)體識(shí)別問題,介紹了不同類型的實(shí)體識(shí)別算法,重點(diǎn)分析了復(fù)雜數(shù)據(jù)類型的大數(shù)據(jù)實(shí)體識(shí)別算法,最后對(duì)實(shí)體識(shí)別算法的相關(guān)研究進(jìn)行了展望。

        關(guān)鍵詞: 數(shù)據(jù)質(zhì)量 數(shù)據(jù)清洗 實(shí)體識(shí)別

        1.引言

        在現(xiàn)實(shí)信息應(yīng)用系統(tǒng)中如:多媒體、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等諸多領(lǐng)域每天都積累了ZB級(jí)的大數(shù)據(jù),這些數(shù)據(jù)具有規(guī)模龐大、涌現(xiàn)的速度快、可挖掘的價(jià)值大等特點(diǎn),但同時(shí)有大量劣質(zhì)數(shù)據(jù)存在,這些數(shù)據(jù)具有重復(fù)性、不完整性、陳舊性等特點(diǎn)。有關(guān)大數(shù)據(jù)質(zhì)量的系列問題已經(jīng)引起產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注和重視。劣質(zhì)數(shù)據(jù)降低了信息的可用性,給用戶提供錯(cuò)誤的信息,誤導(dǎo)用戶做出錯(cuò)誤的決策,從而給用戶造成損失。統(tǒng)計(jì)數(shù)據(jù)顯示,50%以上的數(shù)據(jù)倉庫項(xiàng)目由于數(shù)據(jù)質(zhì)量問題而不得不取消或延遲。在典型的信息系統(tǒng)項(xiàng)目中,時(shí)間和成本預(yù)算的30%~80%實(shí)際用于清理數(shù)據(jù)而非系統(tǒng)開發(fā)。專家估算目前數(shù)據(jù)質(zhì)量問題平均給每個(gè)企業(yè)增加的成本是企業(yè)收入的10%~20%。

        目前,并沒有統(tǒng)一的數(shù)據(jù)質(zhì)量的定義形式。有關(guān)文獻(xiàn)從六個(gè)維度闡述了數(shù)據(jù)質(zhì)量的定義標(biāo)準(zhǔn),包括:精確性(accuracy)、完整性(completeness)、時(shí)效性(timeliness)、一致性(consistency)、實(shí)體同一性(entityidentity)及相關(guān)性(relevancy)。其中,實(shí)體同一性指的是數(shù)據(jù)同應(yīng)用需求的契合程度,描述同一個(gè)現(xiàn)實(shí)世界事物的數(shù)據(jù)冗余程度。實(shí)體識(shí)別在數(shù)據(jù)質(zhì)量管理中有重要作用,是數(shù)據(jù)質(zhì)量管理的主流研究方向之一。本文主要從針對(duì)各種數(shù)據(jù)模型總結(jié)數(shù)據(jù)質(zhì)量中實(shí)體識(shí)別的算法的相關(guān)工作,并就其中的相關(guān)算法展開論述。

        2.實(shí)體識(shí)別問題

        大數(shù)據(jù)中的實(shí)體識(shí)別是指在給定的大數(shù)據(jù)集中準(zhǔn)確發(fā)現(xiàn)屬于同一實(shí)體的不同記錄并將其聚類,使得每個(gè)實(shí)體簇在現(xiàn)實(shí)世界中表示同一對(duì)象的過程。實(shí)體識(shí)別是提高數(shù)據(jù)實(shí)體同一性方面質(zhì)量的關(guān)鍵步驟。從形式化角度定義實(shí)體統(tǒng)一性:給定一個(gè)數(shù)據(jù)實(shí)體的集合D和一個(gè)物理實(shí)體集合O,求解一個(gè)集合D的劃分P(其中P是由一系列D的不相交子集合構(gòu)成,且P中所有集合并的結(jié)果與D相同)及P與O之間的一一對(duì)應(yīng)關(guān)系。在實(shí)際應(yīng)用中,數(shù)據(jù)實(shí)體D很容易獲得,而物理實(shí)體集合O很難獲得。因此在數(shù)據(jù)量大的情況下評(píng)價(jià)給定實(shí)體解析算法的優(yōu)劣非常困難。也就是說,只要求將表示同一物理實(shí)體的數(shù)據(jù)實(shí)體放入一個(gè)集合,而不要求建立P與O之間的關(guān)系,該問題則稱為實(shí)體識(shí)別問題。因此,根據(jù)實(shí)際具體的需求,借助不同的方法學(xué),針對(duì)適合的問題定義,給出系統(tǒng)的解決方案。

        在不同的應(yīng)用領(lǐng)域,有不同的方法描述實(shí)體識(shí)別的過程。在單數(shù)據(jù)源中,內(nèi)部實(shí)體使用唯一標(biāo)識(shí)符或特征屬性精確匹配來區(qū)別。在分布式系統(tǒng)中,由于不同的設(shè)計(jì)目的和角度,現(xiàn)實(shí)世界中的同一個(gè)實(shí)體也不可能有相同的標(biāo)識(shí)符或者是相同的特征屬性,因此,必須采樣合適的方法實(shí)現(xiàn)實(shí)體識(shí)別。

        3.實(shí)體識(shí)別過程

        實(shí)體識(shí)別包括預(yù)處理階段、特征向量的選取、比較函數(shù)的選取、搜索空間的優(yōu)化、決策模型的選取和結(jié)果評(píng)估六個(gè)階段。

        預(yù)處理階段是實(shí)體識(shí)別過程的關(guān)鍵階段,在該階段中要實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化處理包括空格處理、字符大小寫轉(zhuǎn)換、復(fù)雜數(shù)據(jù)結(jié)構(gòu)的解析和格式轉(zhuǎn)換、上下文異構(gòu)的消除等。隱馬爾科夫模型是在該過程中對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的常用方法。

        特征向量是指能夠識(shí)別實(shí)體的屬性的集合。特征向量的選取方法包括領(lǐng)域?qū)<沂止ぶ付ê蜋C(jī)器學(xué)習(xí)方法。決策模型是在搜索空間中進(jìn)行特征向量比較中判斷實(shí)體是否匹配的決策模型的選取。一種是概率模型如Fellegiandsunter模型,另一種是基于經(jīng)驗(yàn)的模型,根據(jù)領(lǐng)域?qū)<业慕?jīng)驗(yàn)設(shè)置門限值。

        評(píng)估結(jié)果有匹配、不匹配和可能匹配。不能確定的匹配結(jié)果需要人工進(jìn)行評(píng)審,對(duì)評(píng)審過程中發(fā)現(xiàn)的問題進(jìn)行調(diào)整或者改進(jìn)決策模型,以期獲得更高精度的實(shí)體識(shí)別效果。

        4.實(shí)體識(shí)別相關(guān)研究

        早期的實(shí)體識(shí)別算法主要是利用記錄之間的相似性進(jìn)行比較,運(yùn)用規(guī)則的方法和閾值確定兩條記錄是否為同一個(gè)實(shí)體。在機(jī)器學(xué)習(xí)方法中動(dòng)態(tài)生成相似性函數(shù)獲取一個(gè)分類器,有效結(jié)合多個(gè)屬性的相似性并且較準(zhǔn)確地判定每對(duì)記錄是否能被匹配為同一實(shí)體?;谝?guī)則的方法是根據(jù)規(guī)則確定不同記錄是否描述同一實(shí)體。有學(xué)者提出了一個(gè)基于Map-Reduce框架的大數(shù)據(jù)實(shí)體識(shí)別算法,該算法首先通過屬性值計(jì)算記錄間的相似程度,而后基于圖聚類的方法實(shí)現(xiàn)實(shí)體識(shí)別。

        復(fù)雜數(shù)據(jù)是指在現(xiàn)實(shí)應(yīng)用中產(chǎn)生的如XML數(shù)據(jù)、圖數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)等。同一實(shí)體具有不同的復(fù)雜的數(shù)據(jù)描述方式,為了有效對(duì)這些數(shù)據(jù)實(shí)施質(zhì)量管理,必須對(duì)復(fù)雜數(shù)據(jù)進(jìn)行快速有效的實(shí)體識(shí)別。復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別可以分為成對(duì)識(shí)別和成組識(shí)別。根據(jù)識(shí)別對(duì)象的不同,復(fù)雜數(shù)據(jù)的實(shí)體識(shí)別分為XML數(shù)據(jù)實(shí)體識(shí)別、圖結(jié)構(gòu)數(shù)據(jù)實(shí)體識(shí)別和復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的實(shí)體識(shí)別。

        5.大數(shù)據(jù)下的實(shí)體識(shí)別算法展望

        單數(shù)據(jù)源的實(shí)體識(shí)別算法已經(jīng)趨于成熟,但在大數(shù)據(jù)環(huán)境下的實(shí)體識(shí)別技術(shù)還是比較少。同時(shí),針對(duì)大數(shù)據(jù)環(huán)境下的復(fù)雜結(jié)構(gòu)數(shù)據(jù)的研究剛剛起步,海量復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù),特別是圖數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)的研究還處于初級(jí)階段,大規(guī)模圖集合上的數(shù)據(jù)實(shí)體識(shí)別的工作尚未開展。

        需要支持更新復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù),不斷更新互聯(lián)網(wǎng)、社會(huì)網(wǎng)信息要求設(shè)計(jì)更新紛繁復(fù)雜數(shù)據(jù)上的增量實(shí)體識(shí)別技術(shù),為更新的數(shù)據(jù)確定其所描述的實(shí)體。

        6.結(jié)語

        多類型的復(fù)雜數(shù)據(jù)要求設(shè)計(jì)實(shí)體識(shí)別技術(shù)。對(duì)互聯(lián)網(wǎng)信息、進(jìn)行有效的查詢、集成和分析需要多類型復(fù)雜數(shù)據(jù)的實(shí)體識(shí)別技術(shù)。

        參考文獻(xiàn):

        [1]王宏志,樊文飛.復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)研究[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1843-1852.

        [2]霍然,王宏志,等.基于Map-Reduce的大數(shù)據(jù)實(shí)體識(shí)別算法[J].計(jì)算機(jī)研究與發(fā)展2013,11:170-179.

        [3]劉顯敏,李建中.實(shí)體識(shí)別問題的相關(guān)研究[J].智能計(jì)算機(jī)與應(yīng)用,2013,2(3):2-4.

        [4]李明達(dá),王宏志,張佳程,等.PEIF:基于并行機(jī)群的大數(shù)據(jù)實(shí)體識(shí)別算法[J].2013,11:211-220.

        [5]張建中,方正,等.對(duì)基于SNM數(shù)據(jù)清洗算法的優(yōu)化[J].華南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,41(6):2240-2245.

        基金項(xiàng)目:山東省科技計(jì)劃(J15ln78),院級(jí)課題:2015LG001。

        猜你喜歡
        數(shù)據(jù)質(zhì)量
        電子商務(wù)平臺(tái)數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
        基于大數(shù)據(jù)背景下提高供電局?jǐn)?shù)據(jù)質(zhì)量對(duì)策分析
        強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
        淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
        中國市場(2016年40期)2016-11-28 04:58:19
        金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實(shí)踐
        淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
        提高政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,增強(qiáng)政府公信力
        企業(yè)統(tǒng)計(jì)工作之我見
        統(tǒng)計(jì)學(xué)在質(zhì)量管理中的應(yīng)用研究
        商(2016年13期)2016-05-20 09:28:35
        關(guān)于突發(fā)環(huán)境事件應(yīng)急監(jiān)測的問題分析及措施
        国产精品美女久久久久久 | 久久AⅤ无码精品为人妻系列| 亚洲成aⅴ人片在线观看天堂无码| av男人天堂网在线观看| 新婚少妇无套内谢国语播放| 中文字幕在线播放| 337p日本欧洲亚洲大胆色噜噜| 青青青视频手机在线观看| 天堂视频在线观看一二区| 日本高清h色视频在线观看| 国产精品毛片无码久久| 精品在线视频免费在线观看视频 | 亚洲精品有码日本久久久| 午夜理论片yy44880影院| 人妻无码中文人妻有码| 亚洲精品一区二区在线播放| 9久久婷婷国产综合精品性色| 少妇高潮喷水久久久影院| 国产高中生在线| 日本高清免费播放一区二区| 国产一品二品三品精品在线| 无码人妻精品一区二区三区不卡| 国产成人免费一区二区三区| 久久国产精品精品国产色| 日韩欧美在线综合网另类| 亚洲日本va午夜在线电影| 激情 一区二区| 亚洲综合视频一区二区| 啦啦啦中文在线观看日本| 在线观看91精品国产免费免费| 中文字幕人妻少妇久久| 中文字幕无码乱人伦| 少妇人妻偷人精品视频| 老熟女一区二区免费| 婷婷色精品一区二区激情| 国产成人亚洲精品青草天美| 男人j进女人p免费视频| 国产伦精品一区二区三区| 亚洲国产aⅴ成人精品无吗| 亚洲永久无码动态图| 都市激情亚洲综合一区|