亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于距離度量的實(shí)體識(shí)別算法

        2014-04-29 23:47:36黎玲利高宏

        黎玲利 高宏

        摘 要:傳統(tǒng)的實(shí)體識(shí)別中,往往是利用字符串相似性函數(shù)來(lái)計(jì)算元組對(duì)在每個(gè)屬性值上的相似度從而來(lái)判斷它們總的相似性(例如,元組對(duì)的相似性等于每個(gè)屬性值上的相似度的加權(quán)求和)。然而這一類(lèi)相似性測(cè)度不能夠反映屬性值內(nèi)部不同的詞在元組對(duì)相似性計(jì)算中的不同重要性。由于不能區(qū)分哪些詞對(duì)元組對(duì)匹配更重要,就導(dǎo)致仍然存在某些匹配的元組相似性不高,而不匹配的元組相似性高的情況,故很難將匹配元組對(duì)和不匹配元組對(duì)有效區(qū)分開(kāi)。為了解決這個(gè)問(wèn)題,我們提出了以詞為特征的距離度量函數(shù),設(shè)計(jì)了基于詞特征的距離度量學(xué)習(xí)算法,和基于距離度量的實(shí)體識(shí)別算法。擴(kuò)展性實(shí)驗(yàn)對(duì)我們所提出的算法的有效性進(jìn)行了驗(yàn)證。

        關(guān)鍵詞:實(shí)體識(shí)別;相似性測(cè)度;距離度量;度量學(xué)習(xí)

        中圖分類(lèi)號(hào):TP704.25

        Abstract: Traditional entity resolution methods always use string-based similarity functions to compute the similarities of attribute-values between records and then compute the similarity between records based on these similarities, i.e., the similarity between records is the weighted sum of the similarities of all the attribute-values. However, these metrics cannot represent the importance of each word in attribute-values. Since they cannot distinguish which word is more important for record matching, there might be some matching records have low similarities while some non-matching records have high similarities. Therefore it is difficult to distinguish the matchings and the non-matchings effectively. To address this problem, the paper presents a distance metric based on word-feature, and proposes a distance metric learning algorithm and an entity resolution method based on the metric. Extensive experiments have verified the effectiveness of the proposed algorithms.

        Keywords: Entity Resolution; Similarity Metrics; Distance Metric; Metric Learning

        0 引 言

        實(shí)體識(shí)別即是識(shí)別數(shù)據(jù)集中描述同一真實(shí)實(shí)體的元組,且是數(shù)據(jù)清洗領(lǐng)域的一個(gè)重要問(wèn)題。在很多應(yīng)用中,由于數(shù)據(jù)錯(cuò)誤,表達(dá)不一致等原因,使得在不同數(shù)據(jù)源的指代同一實(shí)體的元組在同一屬性上的描述存在不同,常常發(fā)生一些指代相同實(shí)體的元組對(duì)的相似度很低,而一些指代不同實(shí)體的元組對(duì)的相似性則很高的情況。如何定義元組之間的相似性測(cè)度即是識(shí)別實(shí)體的關(guān)鍵技術(shù)。傳統(tǒng)的實(shí)體識(shí)別中,往往是利用字符串相似性函數(shù)來(lái)計(jì)算元組對(duì)在每個(gè)屬性值上的相似度,以此來(lái)判斷元組對(duì)的總體相似性。

        在實(shí)際應(yīng)用中,由于字符串中詞和詞的相關(guān)性,以及不同詞所表達(dá)的實(shí)體特征信息的重要性不同,常常存在許多匹配的元組對(duì)的相似度很低,而不匹配的元組對(duì)的相似度卻很高的情況,故利用傳統(tǒng)的相似性度量函數(shù)很難將匹配元組對(duì)和不匹配元組對(duì)做到有效的區(qū)分。

        為了解決這些問(wèn)題,相應(yīng)考察后得出如下結(jié)果:

        (1) 字符串中詞和詞之間具有相關(guān)性。例如,一個(gè)品牌和商品種類(lèi)往往是相關(guān)的,例如iphone6是apple公司推出的產(chǎn)品,因此iphone6和apple就是相關(guān)的。還有,一些商品描述則決定了其歸屬類(lèi)型,例如 “quickbooks”是一種軟件,即可知道,“quickbooks”和“software”也是相關(guān)的。因此,對(duì)字符串的相似度計(jì)算應(yīng)該考慮詞和詞的相似性。

        (2) 字符串中不同的詞所具有的重要性并不相同。例如對(duì)于一件商品來(lái)說(shuō),商品號(hào)可以用來(lái)將該實(shí)體和其他所有實(shí)體進(jìn)行明確的區(qū)分;商品的品牌也可以用來(lái)區(qū)分與其品牌不同的實(shí)體,類(lèi)似的,商品顏色則可以用來(lái)區(qū)別與其顏色不同的實(shí)體,而與其相反的描述是,一些常見(jiàn)的詞,例如“in”,“for”卻不能有效地用于識(shí)別實(shí)體。

        研究詞之間的相關(guān)性以及不同詞在實(shí)體識(shí)別中的重要性可有助于提升實(shí)體識(shí)別的精確度。而以此為契機(jī),提出了實(shí)體識(shí)別上以詞作為特征的距離度量。這即引發(fā)了如下課題方向的確立:

        (1) 如何避免詞之間的相關(guān)性對(duì)元組相似性計(jì)算的影響以及如何發(fā)現(xiàn)詞在實(shí)體識(shí)別中的重要性?

        (2) 如何定義適合于元組對(duì)上的實(shí)體識(shí)別和元組集合上的實(shí)體識(shí)別的距離度量函數(shù)以及如何學(xué)習(xí)度量?

        本文旨在解決上述問(wèn)題,且以詞作為特征,提出了實(shí)體識(shí)別的度量學(xué)習(xí)算法。本文的后續(xù)內(nèi)容結(jié)構(gòu)安排如下:第1節(jié)提出了基于詞特征的距離度量和度量學(xué)習(xí)的框架;第2節(jié)提出了基于距離度量的實(shí)體識(shí)別方法;第3節(jié)通過(guò)模擬實(shí)驗(yàn)驗(yàn)證了文中所提算法的有效性;第4節(jié)是相關(guān)工作,最后是總結(jié)。

        1 實(shí)體識(shí)別的度量學(xué)習(xí)算法

        在描述算法之前,先給出下列相關(guān)定義。

        定義1 實(shí)體識(shí)別 給定一個(gè)元組集合U,實(shí)體識(shí)別輸出U的一個(gè)劃分R,R中在同一類(lèi)中的元組被判定為指代同一實(shí)體,在不同類(lèi)中的元組被判定為指代不同實(shí)體。4 相關(guān)工作

        最初,實(shí)體識(shí)別問(wèn)題是由文獻(xiàn)[1]首度提出,并由于其重要性,一直以來(lái)即吸引了多個(gè)領(lǐng)域研究人員的廣泛關(guān)注。文獻(xiàn)[2-3]則是對(duì)其早期研究工作的綜述。下面本文將介紹幾種傳統(tǒng)的相似性測(cè)度。

        首先,基于編輯距離的近似字符串比較函數(shù)使得將一個(gè)字符串轉(zhuǎn)化成另一個(gè)字符串所需要的編輯操作個(gè)數(shù)能夠達(dá)到最少[4]。兩個(gè)字符串之間的轉(zhuǎn)化所需要的最小操作個(gè)數(shù)即可看作兩個(gè)字符串的距離。

        其次,基于q-gram的近似字符串比較的基本思想是將輸入的兩個(gè)字符串利用滑動(dòng)窗口的方法分解為長(zhǎng)度為q的子串,而后計(jì)算有多少q-gram出現(xiàn)在兩個(gè)輸入字符串中。q-gram也可稱(chēng)為n-gram[5]。

        再次,由Jaro和Winkler所提出的近似字符串比較函數(shù)[6-7]專(zhuān)門(mén)用于人名的比較。Jaro比較函數(shù)是將編輯距離和基于q-gram的比較函數(shù)相結(jié)合而獲得實(shí)現(xiàn)的。

        還有,Monge-Elkan相似性測(cè)度[8-9]則是主要用于計(jì)算包含多個(gè)詞的字符的相似度。這種字符串往往出現(xiàn)在商業(yè)名字,地址或者沒(méi)有標(biāo)準(zhǔn)化的人名中。該方法的基本思想是首先將由空格符所分隔的詞從兩個(gè)輸入的字符串中抽取出來(lái),再利用第二個(gè)相似性函數(shù)找到兩個(gè)字符串所對(duì)應(yīng)的詞集合的最優(yōu)匹配。

        最后,Cohen[10]也提出了一個(gè)名為WHIRL的系統(tǒng),通過(guò)將信息檢索中的cosine相似性測(cè)度和tf.idf權(quán)重模式相結(jié)合來(lái)計(jì)算兩個(gè)字符串的相似度。

        5 結(jié)束語(yǔ)

        本文首次以詞作為描述實(shí)體的特征,針對(duì)實(shí)體識(shí)別問(wèn)題提出了一種度量學(xué)習(xí)算法。為了保證結(jié)果的有效性,又分別定義了特征向量和樣本距離函數(shù)。實(shí)驗(yàn)驗(yàn)證了本文所提出的實(shí)體識(shí)別度量學(xué)習(xí)算法的有效性。

        參考文獻(xiàn):

        [1] H. Newcombe, J. Kennedy, S. Axford, et al. Automatic Linkage of Vital Records[M]. 1959.

        [2] ELMAGARMID A K, IPEROTIS P G, VERYKIOS V S. Duplicate record detection: A survey[J]. Knowledge and Data Engineering, IEEE Transactions on, 2007, 19(1): 1-16.

        [3] KOUDAS N , SARAWAGI S, SRIVASTAVA D. Record linkage: Similarity measures and algorithms[C]//Proceedings of the 2006 ACM SIGMOD international conference on Management of data. 2006:802–803.

        [4] NAVARRO G. A guided tour to approximate String Matching[J]. ACM computing surveys (CSUR), 2001, 33(1):31–88.

        [5] KUKICH K. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24(4):377-439.

        [6] JARO M A. Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida[J]. Journal of the American Statistical Association, 1989, 84(406):414–420.

        [7] WINKLER W E. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-sunter Model of Record Linkage.[J]. 1990.

        [8] MONGE A E, ELKAN C, et al. The field matching problem: algorithms and applications[C]//KDD, 1996:267–270.

        [9] MOREAU E, YVON F, CAPPE O. Robust similarity measures for Named Entities Matching[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. 2008:593–600.

        [10] COHEN W W. Integration of heterogeneous databases without Common Domains using queries based on textual similarity[C]//ACM SIGMOD Record, 1998, 27:201–212.

        最新国产成人在线网站| 国精品人妻无码一区免费视频电影| 国产国拍精品av在线观看按摩| 亚洲精品第一国产麻豆| 蜜臀av人妻一区二区三区 | 亚洲美女av一区二区在线| 亚洲国产精品毛片av不卡在线| 亚洲一区二区三区偷拍女厕| 久九九久视频精品网站| 亚洲精品国产亚洲av| 精品一区二区三区免费视频| 国产精品久久久久久人妻精品| 亚洲香蕉毛片久久网站老妇人| 91色综合久久熟女系列| 国产片精品av在线观看夜色| 无码人妻一区二区三区免费| 亚洲精品综合在线影院| 亚洲天堂久久午夜福利| 久久99精品久久水蜜桃| 亚洲无毛片| 黑丝国产精品一区二区| 免费国产自拍在线观看| 免费特级毛片| 国产一区二区三区精品久久呦| 亚洲精品中文字幕一二三| 狠狠躁18三区二区一区| 99re久久精品国产| 极品美女尤物嫩模啪啪| 日本a级特级黄色免费| 日韩吃奶摸下aa片免费观看| 国产精品天堂avav在线| 白白色发布视频在线播放| 小说区激情另类春色| 伴郎粗大的内捧猛烈进出视频观看| 国产成人精品视频网站| 青青草在线免费播放视频| 免费人妻无码不卡中文字幕18禁| 亚洲无码a∨在线视频| 国产一区二区三区在线观看黄| 久久精品国产只有精品96| 日韩在线无|