亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于中文Deep Web的屬性相似度計算方法

        2014-12-30 15:12:32高華玲
        科技創(chuàng)新導(dǎo)報 2014年32期
        關(guān)鍵詞:相似度模式匹配

        高華玲

        摘 ?要:隨著中文網(wǎng)站數(shù)量的日益龐大,中文的Deep Web信息集成已成為網(wǎng)絡(luò)信息領(lǐng)域的焦點。屬性相似度計算是Deep Web信息集成中模式匹配的關(guān)鍵一步。該文根據(jù)中文查詢接口中的屬性詞匯常常表現(xiàn)為1-3個詞語構(gòu)成的短語的特點,提出一種更有效的基于《知網(wǎng)》的屬性相似度計算的方法,使屬性匹配的準(zhǔn)確率得到大幅度提高。

        關(guān)鍵詞:深網(wǎng) ?模式匹配 ?相似度 ?屬性相似度

        中圖分類號:TP301.6 文獻標(biāo)識碼:A 文章編號:1674-098X(2014)11(b)-0058-02

        A Calculation Method of Attribute Similarity based on Deep Web in Chinese

        Gao Hualing

        (Computer Public Education Department, SanYa University,SanYa,Hainan,572022,China)

        Abstract:With the increasing amount of the Chinese website, Deep Web information integration in Chinese has become the focus of the net information field. The Attribute similarity computation is a key step of schema matching in Deep Web information integration. In this passage ,According to the characteristics of Chinese query interface attribute vocabulary which often shows of 1-3 words to form phrases, provides a more effective attribute similarity calculating method based on the “HowNet”, in this way, the attribute matching accuracy has been greatly improved.

        Key Words:Deep Web; Schema matching; Similarity; Attribute similarity

        1 問題的提出

        隨著中文Deep Web信息數(shù)據(jù)量的急速增長,如何利用中文語言的特點做好Deep Web信息集成已成為這一領(lǐng)域的研究熱點。

        Deep Web信息集成基本過程可分為三個模塊:第一,Deep web查詢接口的發(fā)現(xiàn)、分類和模式抽取等;第二,接口集成、查詢處理和數(shù)據(jù)庫選擇等;第三,查詢結(jié)果抽取和標(biāo)注、合并、去重等。中國人民大學(xué)信息學(xué)院孟小峰教授對不確定的查詢接口的模式匹配[1]做了深入研究,提出了中文屬性相似度的定義和計算方法。

        在中文Deep Web查詢接口中,常常涉及的屬性匹配是1~3個詞匯構(gòu)成的中文短語之間的匹配,如果沿用英文接口的屬性匹配方法進行計算將出現(xiàn)明顯的誤差。例如文獻[2][3]的屬性相似度計算方法:對于兩個屬性A1和A2,如果A1可劃分成n個詞語:A11,A12,…,A1n,A2可劃分成m個詞語: A21,A22,…,A2n,則A1和A2的相似度是各個詞語的相似度之最大值,即

        當(dāng)兩個短語中都包含同一個詞語“城市”,屬性相似度為所有詞語相似度的最大值,得到“出發(fā)城市”和“到達城市”的相似度相等且等于1,即認(rèn)為“出發(fā)城市”和“到達城市”兩個屬性短語語義一致,這樣無法對此類屬性短語做出準(zhǔn)確的語義相似度計算結(jié)果。該文考慮到查詢接口屬性詞大多以1~3個詞語構(gòu)成的短語形式出現(xiàn),故提出了一種新的屬性語義相似度計算公式,大大提高了屬性相似度計算的準(zhǔn)確度。

        2 中文Deep Web查詢接口屬性相似度

        2.1 方法的提出

        義原和義項是HowNet中兩個最主要的概念。義原是用來描述一個義項的最小意義單位,一個詞語可以表達為幾個義項。本文計算兩個詞語之間的語義相似度,采用基于《知網(wǎng)》的中文詞匯語義相似度計算方法[4],這與文獻[2][3]是相同的。

        定義1:詞語相似度:對于兩個漢語詞語,其中有m個義項:,有n個義項:,規(guī)定的相似度為各個義項相似度的最大值,也就是說:

        定義2義項相似度:兩個義項相似度記為:,其中是可調(diào)節(jié)的參數(shù),且有:。

        定義3 義原相似度:兩個義原的相似度定義為兩個義原之間的語義距離:,其中表示兩個義原,d是在義原層次體系中的路徑長度,是一個正整數(shù)。是一個可調(diào)節(jié)的參數(shù)。

        該文將屬性名的短語劃分成若干詞語,根據(jù)中文查詢接口中屬性的特征,提出這種屬性相似度計算方法,此方法源自于2005年的一種文本相似度算法[5],但略有不同。

        定義4 屬性相似度:對于兩個屬性,可劃分為m個詞語:,可劃分為n個詞語:,令t=min(m,n),將各個詞語之間的相似度排列成矩陣,得到一個m×n階的矩陣:,記錄矩陣中相似度值最大的一個,同時刪除其值的所在行和列,然后再記錄剩余矩陣中的相似度最大值,刪除所在行和列,不斷重復(fù)上述操作,直到矩陣為空。按照這樣的方法取出的相似度的值為t個,規(guī)定的相似度為這t個詞語相似度的平均值,表示為:

        2.2 實例驗證過程

        將上述定義中的參數(shù)設(shè)定為常用參數(shù),設(shè)定相似度閾值,其他參數(shù)取值為:,計算屬性值A(chǔ)(出發(fā)城市)與B(起飛地),以及A(出發(fā)城市)與C(目的地)的相似度。endprint

        第一步,計算詞語相似度。

        屬性A“出發(fā)城市”,含兩個詞語:出發(fā),城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

        “出發(fā)”有一個義項:V start|開始,content=leave|離開

        “城市”有一個義項:N place|地方,city|市

        “起飛”有一個義項:V start|開始,content=fly|飛

        “地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質(zhì)3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

        “目的”有一個義項:1)N purpose|目的

        對于文獻[1]中的示例“出發(fā)城市”和“起飛地”以及“出發(fā)城市”和“目的地”的屬性匹配得到了較為合理的計算結(jié)果。如表1、表2:

        第二步,計算屬性相似度。

        即屬性A(出發(fā)城市)和屬性B(起飛地)相似。,即屬性A(出發(fā)城市)與屬性C(目的地)不相似。

        在對本文開始提出的“出發(fā)城市”和“到達城市”進行計算,結(jié)果如下:

        ,這里注意需要設(shè)定更為合理的閾值,一般要在0.5以上才能區(qū)分開具有相同詞語的短語,具體的閾值需要大量數(shù)據(jù)實驗總結(jié)出更為合理的值,這里使用閾值0.6即可區(qū)分“出發(fā)城市”和“到達城市”,這樣可以得到更為合理準(zhǔn)確的計算結(jié)果。

        3 結(jié)語

        該文對中文Deep Web信息集成中模式匹配關(guān)鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網(wǎng)》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應(yīng)用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

        該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

        參考文獻

        [1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

        (姜芳,孟小峰,賈琳琳,Deep Web集成服務(wù)的不確定模式匹配[J].計算機學(xué)報,2008,31(8):1412-1421.)

        [2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

        (洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學(xué),2008,35(3):61-64.

        [3] Jin yu,F(xiàn)an Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

        (金玉,范學(xué)峰,基于《知網(wǎng)》的中文Deep Web模式匹配算法研究[J].計算機應(yīng)用研究,2009,26(10):3750-3753)

        [4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

        (劉群,李素建,基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002/

        [5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

        (金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報,2005(2):291-297.endprint

        第一步,計算詞語相似度。

        屬性A“出發(fā)城市”,含兩個詞語:出發(fā),城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

        “出發(fā)”有一個義項:V start|開始,content=leave|離開

        “城市”有一個義項:N place|地方,city|市

        “起飛”有一個義項:V start|開始,content=fly|飛

        “地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質(zhì)3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

        “目的”有一個義項:1)N purpose|目的

        對于文獻[1]中的示例“出發(fā)城市”和“起飛地”以及“出發(fā)城市”和“目的地”的屬性匹配得到了較為合理的計算結(jié)果。如表1、表2:

        第二步,計算屬性相似度。

        即屬性A(出發(fā)城市)和屬性B(起飛地)相似。,即屬性A(出發(fā)城市)與屬性C(目的地)不相似。

        在對本文開始提出的“出發(fā)城市”和“到達城市”進行計算,結(jié)果如下:

        ,這里注意需要設(shè)定更為合理的閾值,一般要在0.5以上才能區(qū)分開具有相同詞語的短語,具體的閾值需要大量數(shù)據(jù)實驗總結(jié)出更為合理的值,這里使用閾值0.6即可區(qū)分“出發(fā)城市”和“到達城市”,這樣可以得到更為合理準(zhǔn)確的計算結(jié)果。

        3 結(jié)語

        該文對中文Deep Web信息集成中模式匹配關(guān)鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網(wǎng)》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應(yīng)用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

        該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

        參考文獻

        [1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

        (姜芳,孟小峰,賈琳琳,Deep Web集成服務(wù)的不確定模式匹配[J].計算機學(xué)報,2008,31(8):1412-1421.)

        [2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

        (洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學(xué),2008,35(3):61-64.

        [3] Jin yu,F(xiàn)an Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

        (金玉,范學(xué)峰,基于《知網(wǎng)》的中文Deep Web模式匹配算法研究[J].計算機應(yīng)用研究,2009,26(10):3750-3753)

        [4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

        (劉群,李素建,基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002/

        [5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

        (金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報,2005(2):291-297.endprint

        第一步,計算詞語相似度。

        屬性A“出發(fā)城市”,含兩個詞語:出發(fā),城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。

        “出發(fā)”有一個義項:V start|開始,content=leave|離開

        “城市”有一個義項:N place|地方,city|市

        “起飛”有一個義項:V start|開始,content=fly|飛

        “地”有七個義項:1)N attribute|屬性,circumstances|境況,&entity|實體2)N attribute|屬性,scene|景象,&physical|物質(zhì)3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方

        “目的”有一個義項:1)N purpose|目的

        對于文獻[1]中的示例“出發(fā)城市”和“起飛地”以及“出發(fā)城市”和“目的地”的屬性匹配得到了較為合理的計算結(jié)果。如表1、表2:

        第二步,計算屬性相似度。

        即屬性A(出發(fā)城市)和屬性B(起飛地)相似。,即屬性A(出發(fā)城市)與屬性C(目的地)不相似。

        在對本文開始提出的“出發(fā)城市”和“到達城市”進行計算,結(jié)果如下:

        ,這里注意需要設(shè)定更為合理的閾值,一般要在0.5以上才能區(qū)分開具有相同詞語的短語,具體的閾值需要大量數(shù)據(jù)實驗總結(jié)出更為合理的值,這里使用閾值0.6即可區(qū)分“出發(fā)城市”和“到達城市”,這樣可以得到更為合理準(zhǔn)確的計算結(jié)果。

        3 結(jié)語

        該文對中文Deep Web信息集成中模式匹配關(guān)鍵問題——屬性相似度的計算提出了一種更加有效的計算方法。該方法基于《知網(wǎng)》的詞語相似度計算,同時考慮到中文Deep Web查詢接口的屬性特征,實驗證明該方法應(yīng)用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。

        該文提出的屬性相似度計算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運用描述邏輯強大的知識表示能力進行屬性匹配和實例匹配。

        參考文獻

        [1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)

        (姜芳,孟小峰,賈琳琳,Deep Web集成服務(wù)的不確定模式匹配[J].計算機學(xué)報,2008,31(8):1412-1421.)

        [2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)

        (洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計算機科學(xué),2008,35(3):61-64.

        [3] Jin yu,F(xiàn)an Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)

        (金玉,范學(xué)峰,基于《知網(wǎng)》的中文Deep Web模式匹配算法研究[J].計算機應(yīng)用研究,2009,26(10):3750-3753)

        [4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)

        (劉群,李素建,基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002/

        [5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)

        (金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報,2005(2):291-297.endprint

        猜你喜歡
        相似度模式匹配
        儲氫場景與氫氣儲運系統(tǒng)的多維度模式匹配優(yōu)化研究
        基于模式匹配的計算機網(wǎng)絡(luò)入侵防御系統(tǒng)
        電子制作(2019年13期)2020-01-14 03:15:32
        具有間隙約束的模式匹配的研究進展
        移動信息(2018年1期)2018-12-28 18:22:52
        OIP-IOS運作與定價模式匹配的因素、機理、機制問題
        改進的協(xié)同過濾推薦算法
        模糊Petri網(wǎng)在油田開發(fā)設(shè)計領(lǐng)域的應(yīng)用研究
        相似度算法在源程序比較中的應(yīng)用
        基于灰度的圖像邊緣檢測與匹配算法的研究
        影響母線負(fù)荷預(yù)測的因素及改進措施
        科技視界(2016年10期)2016-04-26 11:40:14
        基于粗糙集的麗江房價研究
        国产成人午夜无码电影在线观看| 东北妇女xx做爰视频| 婷婷亚洲久悠悠色悠在线播放| 婷婷综合缴情亚洲| 仙女白丝jk小脚夹得我好爽| 亚洲av一区二区三区网站| 日本女优激情四射中文字幕| 欧美顶级少妇作爱| 亚洲国产精品成人精品无码区在线 | 国产经典免费视频在线观看| 久久久国产精品首页免费| 国产激情小视频在线观看| 人妻少妇精品视频专区vr| 国产乱子伦农村xxxx| ā片在线观看| 日韩Va亚洲va欧美Ⅴa久久| 丰满少妇一区二区三区专区| 青青草视频在线观看绿色| 亚洲中文av中文字幕艳妇| 少妇人妻中文字幕hd| 午夜福利92国语| 国产美女高潮流白浆在线观看 | 无码尹人久久相蕉无码| .精品久久久麻豆国产精品| 最新国产精品精品视频| 午夜亚洲精品视频在线 | 国产大屁股熟女流白浆一区二区| 中文无码av一区二区三区| 久久久久久国产精品免费免费男同| 久久se精品一区精品二区国产| 精品国产一品二品三品| 精品一区二区三区婷婷| 国产精品无码v在线观看| 色综合无码av网站| 国产不卡一区二区三区视频| 青青草原综合久久大伊人精品| 成人试看120秒体验区| 免费人成视频x8x8| 亚洲成a人片在线观看中| 亚洲精品中字在线观看| 亚洲av无一区二区三区久久|