亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)下的實(shí)體識(shí)別算法研究

2015-09-10 11:37:30張風(fēng)榮

考試周刊 2015年90期

張風(fēng)榮

摘要：大數(shù)據(jù)下的實(shí)體識(shí)別是提高數(shù)據(jù)實(shí)體同一性的關(guān)鍵步驟。本文概述了實(shí)體識(shí)別問題，介紹了不同類型的實(shí)體識(shí)別算法，重點(diǎn)分析了復(fù)雜數(shù)據(jù)類型的大數(shù)據(jù)實(shí)體識(shí)別算法，最后對(duì)實(shí)體識(shí)別算法的相關(guān)研究進(jìn)行了展望。

關(guān)鍵詞：數(shù)據(jù)質(zhì)量數(shù)據(jù)清洗實(shí)體識(shí)別

1.引言

在現(xiàn)實(shí)信息應(yīng)用系統(tǒng)中如：多媒體、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等諸多領(lǐng)域每天都積累了ZB級(jí)的大數(shù)據(jù)，這些數(shù)據(jù)具有規(guī)模龐大、涌現(xiàn)的速度快、可挖掘的價(jià)值大等特點(diǎn)，但同時(shí)有大量劣質(zhì)數(shù)據(jù)存在，這些數(shù)據(jù)具有重復(fù)性、不完整性、陳舊性等特點(diǎn)。有關(guān)大數(shù)據(jù)質(zhì)量的系列問題已經(jīng)引起產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注和重視。劣質(zhì)數(shù)據(jù)降低了信息的可用性，給用戶提供錯(cuò)誤的信息，誤導(dǎo)用戶做出錯(cuò)誤的決策，從而給用戶造成損失。統(tǒng)計(jì)數(shù)據(jù)顯示，50%以上的數(shù)據(jù)倉庫項(xiàng)目由于數(shù)據(jù)質(zhì)量問題而不得不取消或延遲。在典型的信息系統(tǒng)項(xiàng)目中，時(shí)間和成本預(yù)算的30%～80%實(shí)際用于清理數(shù)據(jù)而非系統(tǒng)開發(fā)。專家估算目前數(shù)據(jù)質(zhì)量問題平均給每個(gè)企業(yè)增加的成本是企業(yè)收入的10%～20%。

目前，并沒有統(tǒng)一的數(shù)據(jù)質(zhì)量的定義形式。有關(guān)文獻(xiàn)從六個(gè)維度闡述了數(shù)據(jù)質(zhì)量的定義標(biāo)準(zhǔn)，包括：精確性（accuracy）、完整性（completeness）、時(shí)效性（timeliness）、一致性（consistency）、實(shí)體同一性（entityidentity）及相關(guān)性（relevancy）。其中，實(shí)體同一性指的是數(shù)據(jù)同應(yīng)用需求的契合程度，描述同一個(gè)現(xiàn)實(shí)世界事物的數(shù)據(jù)冗余程度。實(shí)體識(shí)別在數(shù)據(jù)質(zhì)量管理中有重要作用，是數(shù)據(jù)質(zhì)量管理的主流研究方向之一。本文主要從針對(duì)各種數(shù)據(jù)模型總結(jié)數(shù)據(jù)質(zhì)量中實(shí)體識(shí)別的算法的相關(guān)工作，并就其中的相關(guān)算法展開論述。

2.實(shí)體識(shí)別問題

大數(shù)據(jù)中的實(shí)體識(shí)別是指在給定的大數(shù)據(jù)集中準(zhǔn)確發(fā)現(xiàn)屬于同一實(shí)體的不同記錄并將其聚類，使得每個(gè)實(shí)體簇在現(xiàn)實(shí)世界中表示同一對(duì)象的過程。實(shí)體識(shí)別是提高數(shù)據(jù)實(shí)體同一性方面質(zhì)量的關(guān)鍵步驟。從形式化角度定義實(shí)體統(tǒng)一性：給定一個(gè)數(shù)據(jù)實(shí)體的集合D和一個(gè)物理實(shí)體集合O，求解一個(gè)集合D的劃分P（其中P是由一系列D的不相交子集合構(gòu)成，且P中所有集合并的結(jié)果與D相同）及P與O之間的一一對(duì)應(yīng)關(guān)系。在實(shí)際應(yīng)用中，數(shù)據(jù)實(shí)體D很容易獲得，而物理實(shí)體集合O很難獲得。因此在數(shù)據(jù)量大的情況下評(píng)價(jià)給定實(shí)體解析算法的優(yōu)劣非常困難。也就是說，只要求將表示同一物理實(shí)體的數(shù)據(jù)實(shí)體放入一個(gè)集合，而不要求建立P與O之間的關(guān)系，該問題則稱為實(shí)體識(shí)別問題。因此，根據(jù)實(shí)際具體的需求，借助不同的方法學(xué)，針對(duì)適合的問題定義，給出系統(tǒng)的解決方案。

在不同的應(yīng)用領(lǐng)域，有不同的方法描述實(shí)體識(shí)別的過程。在單數(shù)據(jù)源中，內(nèi)部實(shí)體使用唯一標(biāo)識(shí)符或特征屬性精確匹配來區(qū)別。在分布式系統(tǒng)中，由于不同的設(shè)計(jì)目的和角度，現(xiàn)實(shí)世界中的同一個(gè)實(shí)體也不可能有相同的標(biāo)識(shí)符或者是相同的特征屬性，因此，必須采樣合適的方法實(shí)現(xiàn)實(shí)體識(shí)別。

3.實(shí)體識(shí)別過程

實(shí)體識(shí)別包括預(yù)處理階段、特征向量的選取、比較函數(shù)的選取、搜索空間的優(yōu)化、決策模型的選取和結(jié)果評(píng)估六個(gè)階段。

預(yù)處理階段是實(shí)體識(shí)別過程的關(guān)鍵階段，在該階段中要實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化處理包括空格處理、字符大小寫轉(zhuǎn)換、復(fù)雜數(shù)據(jù)結(jié)構(gòu)的解析和格式轉(zhuǎn)換、上下文異構(gòu)的消除等。隱馬爾科夫模型是在該過程中對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的常用方法。

特征向量是指能夠識(shí)別實(shí)體的屬性的集合。特征向量的選取方法包括領(lǐng)域?qū)＜沂止ぶ付ê蜋C(jī)器學(xué)習(xí)方法。決策模型是在搜索空間中進(jìn)行特征向量比較中判斷實(shí)體是否匹配的決策模型的選取。一種是概率模型如Fellegiandsunter模型，另一種是基于經(jīng)驗(yàn)的模型，根據(jù)領(lǐng)域?qū)＜业慕?jīng)驗(yàn)設(shè)置門限值。

評(píng)估結(jié)果有匹配、不匹配和可能匹配。不能確定的匹配結(jié)果需要人工進(jìn)行評(píng)審，對(duì)評(píng)審過程中發(fā)現(xiàn)的問題進(jìn)行調(diào)整或者改進(jìn)決策模型，以期獲得更高精度的實(shí)體識(shí)別效果。

4.實(shí)體識(shí)別相關(guān)研究

早期的實(shí)體識(shí)別算法主要是利用記錄之間的相似性進(jìn)行比較，運(yùn)用規(guī)則的方法和閾值確定兩條記錄是否為同一個(gè)實(shí)體。在機(jī)器學(xué)習(xí)方法中動(dòng)態(tài)生成相似性函數(shù)獲取一個(gè)分類器，有效結(jié)合多個(gè)屬性的相似性并且較準(zhǔn)確地判定每對(duì)記錄是否能被匹配為同一實(shí)體?；谝?guī)則的方法是根據(jù)規(guī)則確定不同記錄是否描述同一實(shí)體。有學(xué)者提出了一個(gè)基于Map-Reduce框架的大數(shù)據(jù)實(shí)體識(shí)別算法，該算法首先通過屬性值計(jì)算記錄間的相似程度，而后基于圖聚類的方法實(shí)現(xiàn)實(shí)體識(shí)別。

復(fù)雜數(shù)據(jù)是指在現(xiàn)實(shí)應(yīng)用中產(chǎn)生的如XML數(shù)據(jù)、圖數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)等。同一實(shí)體具有不同的復(fù)雜的數(shù)據(jù)描述方式，為了有效對(duì)這些數(shù)據(jù)實(shí)施質(zhì)量管理，必須對(duì)復(fù)雜數(shù)據(jù)進(jìn)行快速有效的實(shí)體識(shí)別。復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別可以分為成對(duì)識(shí)別和成組識(shí)別。根據(jù)識(shí)別對(duì)象的不同，復(fù)雜數(shù)據(jù)的實(shí)體識(shí)別分為XML數(shù)據(jù)實(shí)體識(shí)別、圖結(jié)構(gòu)數(shù)據(jù)實(shí)體識(shí)別和復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的實(shí)體識(shí)別。

5.大數(shù)據(jù)下的實(shí)體識(shí)別算法展望

單數(shù)據(jù)源的實(shí)體識(shí)別算法已經(jīng)趨于成熟，但在大數(shù)據(jù)環(huán)境下的實(shí)體識(shí)別技術(shù)還是比較少。同時(shí)，針對(duì)大數(shù)據(jù)環(huán)境下的復(fù)雜結(jié)構(gòu)數(shù)據(jù)的研究剛剛起步，海量復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)，特別是圖數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)的研究還處于初級(jí)階段，大規(guī)模圖集合上的數(shù)據(jù)實(shí)體識(shí)別的工作尚未開展。

需要支持更新復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)，不斷更新互聯(lián)網(wǎng)、社會(huì)網(wǎng)信息要求設(shè)計(jì)更新紛繁復(fù)雜數(shù)據(jù)上的增量實(shí)體識(shí)別技術(shù)，為更新的數(shù)據(jù)確定其所描述的實(shí)體。

6.結(jié)語

多類型的復(fù)雜數(shù)據(jù)要求設(shè)計(jì)實(shí)體識(shí)別技術(shù)。對(duì)互聯(lián)網(wǎng)信息、進(jìn)行有效的查詢、集成和分析需要多類型復(fù)雜數(shù)據(jù)的實(shí)體識(shí)別技術(shù)。

參考文獻(xiàn)：

[1]王宏志，樊文飛.復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)研究[J].計(jì)算機(jī)學(xué)報(bào)，2011，34（10）：1843-1852.

[2]霍然，王宏志，等.基于Map-Reduce的大數(shù)據(jù)實(shí)體識(shí)別算法[J].計(jì)算機(jī)研究與發(fā)展2013，11：170-179.

[3]劉顯敏，李建中.實(shí)體識(shí)別問題的相關(guān)研究[J].智能計(jì)算機(jī)與應(yīng)用，2013，2（3）：2-4.

[4]李明達(dá)，王宏志，張佳程，等.PEIF：基于并行機(jī)群的大數(shù)據(jù)實(shí)體識(shí)別算法[J].2013，11：211-220.

[5]張建中，方正，等.對(duì)基于SNM數(shù)據(jù)清洗算法的優(yōu)化[J].華南大學(xué)學(xué)報(bào)：自然科學(xué)版，2010，41（6）：2240-2245.

基金項(xiàng)目：山東省科技計(jì)劃（J15ln78），院級(jí)課題：2015LG001。