亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于距離度量的實(shí)體識(shí)別算法

2014-04-29 23:47:36黎玲利高宏

智能計(jì)算機(jī)與應(yīng)用 2014年6期

黎玲利　高宏

摘要：傳統(tǒng)的實(shí)體識(shí)別中，往往是利用字符串相似性函數(shù)來(lái)計(jì)算元組對(duì)在每個(gè)屬性值上的相似度從而來(lái)判斷它們總的相似性（例如，元組對(duì)的相似性等于每個(gè)屬性值上的相似度的加權(quán)求和）。然而這一類(lèi)相似性測(cè)度不能夠反映屬性值內(nèi)部不同的詞在元組對(duì)相似性計(jì)算中的不同重要性。由于不能區(qū)分哪些詞對(duì)元組對(duì)匹配更重要，就導(dǎo)致仍然存在某些匹配的元組相似性不高，而不匹配的元組相似性高的情況，故很難將匹配元組對(duì)和不匹配元組對(duì)有效區(qū)分開(kāi)。為了解決這個(gè)問(wèn)題，我們提出了以詞為特征的距離度量函數(shù)，設(shè)計(jì)了基于詞特征的距離度量學(xué)習(xí)算法，和基于距離度量的實(shí)體識(shí)別算法。擴(kuò)展性實(shí)驗(yàn)對(duì)我們所提出的算法的有效性進(jìn)行了驗(yàn)證。

關(guān)鍵詞：實(shí)體識(shí)別；相似性測(cè)度；距離度量；度量學(xué)習(xí)

中圖分類(lèi)號(hào)：TP704.25

Abstract： Traditional entity resolution methods always use string-based similarity functions to compute the similarities of attribute-values between records and then compute the similarity between records based on these similarities， i.e.， the similarity between records is the weighted sum of the similarities of all the attribute-values. However， these metrics cannot represent the importance of each word in attribute-values. Since they cannot distinguish which word is more important for record matching， there might be some matching records have low similarities while some non-matching records have high similarities. Therefore it is difficult to distinguish the matchings and the non-matchings effectively. To address this problem， the paper presents a distance metric based on word-feature， and proposes a distance metric learning algorithm and an entity resolution method based on the metric. Extensive experiments have verified the effectiveness of the proposed algorithms.

Keywords： Entity Resolution； Similarity Metrics； Distance Metric； Metric Learning

0 引言

實(shí)體識(shí)別即是識(shí)別數(shù)據(jù)集中描述同一真實(shí)實(shí)體的元組，且是數(shù)據(jù)清洗領(lǐng)域的一個(gè)重要問(wèn)題。在很多應(yīng)用中，由于數(shù)據(jù)錯(cuò)誤，表達(dá)不一致等原因，使得在不同數(shù)據(jù)源的指代同一實(shí)體的元組在同一屬性上的描述存在不同，常常發(fā)生一些指代相同實(shí)體的元組對(duì)的相似度很低，而一些指代不同實(shí)體的元組對(duì)的相似性則很高的情況。如何定義元組之間的相似性測(cè)度即是識(shí)別實(shí)體的關(guān)鍵技術(shù)。傳統(tǒng)的實(shí)體識(shí)別中，往往是利用字符串相似性函數(shù)來(lái)計(jì)算元組對(duì)在每個(gè)屬性值上的相似度，以此來(lái)判斷元組對(duì)的總體相似性。

在實(shí)際應(yīng)用中，由于字符串中詞和詞的相關(guān)性，以及不同詞所表達(dá)的實(shí)體特征信息的重要性不同，常常存在許多匹配的元組對(duì)的相似度很低，而不匹配的元組對(duì)的相似度卻很高的情況，故利用傳統(tǒng)的相似性度量函數(shù)很難將匹配元組對(duì)和不匹配元組對(duì)做到有效的區(qū)分。

為了解決這些問(wèn)題，相應(yīng)考察后得出如下結(jié)果：

（1）字符串中詞和詞之間具有相關(guān)性。例如，一個(gè)品牌和商品種類(lèi)往往是相關(guān)的，例如iphone6是apple公司推出的產(chǎn)品，因此iphone6和apple就是相關(guān)的。還有，一些商品描述則決定了其歸屬類(lèi)型，例如 “quickbooks”是一種軟件，即可知道，“quickbooks”和“software”也是相關(guān)的。因此，對(duì)字符串的相似度計(jì)算應(yīng)該考慮詞和詞的相似性。

（2）字符串中不同的詞所具有的重要性并不相同。例如對(duì)于一件商品來(lái)說(shuō)，商品號(hào)可以用來(lái)將該實(shí)體和其他所有實(shí)體進(jìn)行明確的區(qū)分；商品的品牌也可以用來(lái)區(qū)分與其品牌不同的實(shí)體，類(lèi)似的，商品顏色則可以用來(lái)區(qū)別與其顏色不同的實(shí)體，而與其相反的描述是，一些常見(jiàn)的詞，例如“in”，“for”卻不能有效地用于識(shí)別實(shí)體。

研究詞之間的相關(guān)性以及不同詞在實(shí)體識(shí)別中的重要性可有助于提升實(shí)體識(shí)別的精確度。而以此為契機(jī)，提出了實(shí)體識(shí)別上以詞作為特征的距離度量。這即引發(fā)了如下課題方向的確立：

（1）如何避免詞之間的相關(guān)性對(duì)元組相似性計(jì)算的影響以及如何發(fā)現(xiàn)詞在實(shí)體識(shí)別中的重要性？

（2）如何定義適合于元組對(duì)上的實(shí)體識(shí)別和元組集合上的實(shí)體識(shí)別的距離度量函數(shù)以及如何學(xué)習(xí)度量？

本文旨在解決上述問(wèn)題，且以詞作為特征，提出了實(shí)體識(shí)別的度量學(xué)習(xí)算法。本文的后續(xù)內(nèi)容結(jié)構(gòu)安排如下：第1節(jié)提出了基于詞特征的距離度量和度量學(xué)習(xí)的框架；第2節(jié)提出了基于距離度量的實(shí)體識(shí)別方法；第3節(jié)通過(guò)模擬實(shí)驗(yàn)驗(yàn)證了文中所提算法的有效性；第4節(jié)是相關(guān)工作，最后是總結(jié)。

1 實(shí)體識(shí)別的度量學(xué)習(xí)算法

在描述算法之前，先給出下列相關(guān)定義。

定義1 實(shí)體識(shí)別給定一個(gè)元組集合U，實(shí)體識(shí)別輸出U的一個(gè)劃分R，R中在同一類(lèi)中的元組被判定為指代同一實(shí)體，在不同類(lèi)中的元組被判定為指代不同實(shí)體。4 相關(guān)工作

最初，實(shí)體識(shí)別問(wèn)題是由文獻(xiàn)[1]首度提出，并由于其重要性，一直以來(lái)即吸引了多個(gè)領(lǐng)域研究人員的廣泛關(guān)注。文獻(xiàn)[2-3]則是對(duì)其早期研究工作的綜述。下面本文將介紹幾種傳統(tǒng)的相似性測(cè)度。

首先，基于編輯距離的近似字符串比較函數(shù)使得將一個(gè)字符串轉(zhuǎn)化成另一個(gè)字符串所需要的編輯操作個(gè)數(shù)能夠達(dá)到最少[4]。兩個(gè)字符串之間的轉(zhuǎn)化所需要的最小操作個(gè)數(shù)即可看作兩個(gè)字符串的距離。

其次，基于q-gram的近似字符串比較的基本思想是將輸入的兩個(gè)字符串利用滑動(dòng)窗口的方法分解為長(zhǎng)度為q的子串，而后計(jì)算有多少q-gram出現(xiàn)在兩個(gè)輸入字符串中。q-gram也可稱(chēng)為n-gram[5]。

再次，由Jaro和Winkler所提出的近似字符串比較函數(shù)[6-7]專(zhuān)門(mén)用于人名的比較。Jaro比較函數(shù)是將編輯距離和基于q-gram的比較函數(shù)相結(jié)合而獲得實(shí)現(xiàn)的。

還有，Monge-Elkan相似性測(cè)度[8-9]則是主要用于計(jì)算包含多個(gè)詞的字符的相似度。這種字符串往往出現(xiàn)在商業(yè)名字，地址或者沒(méi)有標(biāo)準(zhǔn)化的人名中。該方法的基本思想是首先將由空格符所分隔的詞從兩個(gè)輸入的字符串中抽取出來(lái)，再利用第二個(gè)相似性函數(shù)找到兩個(gè)字符串所對(duì)應(yīng)的詞集合的最優(yōu)匹配。

最后，Cohen[10]也提出了一個(gè)名為WHIRL的系統(tǒng)，通過(guò)將信息檢索中的cosine相似性測(cè)度和tf.idf權(quán)重模式相結(jié)合來(lái)計(jì)算兩個(gè)字符串的相似度。

5 結(jié)束語(yǔ)

本文首次以詞作為描述實(shí)體的特征，針對(duì)實(shí)體識(shí)別問(wèn)題提出了一種度量學(xué)習(xí)算法。為了保證結(jié)果的有效性，又分別定義了特征向量和樣本距離函數(shù)。實(shí)驗(yàn)驗(yàn)證了本文所提出的實(shí)體識(shí)別度量學(xué)習(xí)算法的有效性。

參考文獻(xiàn)：

[1] H. Newcombe， J. Kennedy， S. Axford， et al. Automatic Linkage of Vital Records[M]. 1959.

[2] ELMAGARMID A K， IPEROTIS P G， VERYKIOS V S. Duplicate record detection： A survey[J]. Knowledge and Data Engineering， IEEE Transactions on， 2007， 19（1）： 1-16.

[3] KOUDAS N ， SARAWAGI S， SRIVASTAVA D. Record linkage： Similarity measures and algorithms[C]//Proceedings of the 2006 ACM SIGMOD international conference on Management of data. 2006：802–803.

[4] NAVARRO G. A guided tour to approximate String Matching[J]. ACM computing surveys （CSUR）， 2001， 33（1）：31–88.

[5] KUKICH K. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys， 1992， 24（4）：377-439.

[6] JARO M A. Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa， Florida[J]. Journal of the American Statistical Association， 1989， 84（406）：414–420.

[7] WINKLER W E. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-sunter Model of Record Linkage.[J]. 1990.

[8] MONGE A E， ELKAN C， et al. The field matching problem： algorithms and applications[C]//KDD， 1996：267–270.

[9] MOREAU E， YVON F， CAPPE O. Robust similarity measures for Named Entities Matching[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. 2008：593–600.

[10] COHEN W W. Integration of heterogeneous databases without Common Domains using queries based on textual similarity[C]//ACM SIGMOD Record， 1998， 27：201–212.

智能計(jì)算機(jī)與應(yīng)用2014年6期

智能計(jì)算機(jī)與應(yīng)用的其它文章: 基于云計(jì)算的只能資源中心設(shè)計(jì)研究; Excel在實(shí)踐教學(xué)工作量統(tǒng)計(jì)中的應(yīng)用1; 關(guān)于無(wú)線網(wǎng)絡(luò)“釣魚(yú)”問(wèn)題的研究; 基于BPA算法的軟件測(cè)試方法研究; 物聯(lián)網(wǎng)在不發(fā)達(dá)地區(qū)醫(yī)學(xué)專(zhuān)科院校圖書(shū)館的應(yīng)用1; 基于VRRP協(xié)議實(shí)現(xiàn)路由冗余和負(fù)載均衡的應(yīng)用研究1