亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交通領(lǐng)域知識(shí)網(wǎng)絡(luò)的詞匯語(yǔ)義相似度計(jì)算①

        2017-10-13 14:48:07陳懷新
        關(guān)鍵詞:語(yǔ)義詞匯

        黃 浩, 陳懷新

        ?

        基于交通領(lǐng)域知識(shí)網(wǎng)絡(luò)的詞匯語(yǔ)義相似度計(jì)算①

        黃 浩, 陳懷新

        (中國(guó)電子科技集團(tuán)第十研究所, 成都 610036)

        針對(duì)傳統(tǒng)基于wordnet的詞匯語(yǔ)義相似度計(jì)算方法中隔離抽象詞匯和具象詞匯, 以及片面依賴上下義關(guān)系的不足, 提出了基于交通領(lǐng)域知識(shí)網(wǎng)絡(luò)的詞匯語(yǔ)義相似度計(jì)算方法. 基于上下義、工具-工具對(duì)象、部件-整體等概念關(guān)系準(zhǔn)則構(gòu)建了交通詞匯的知識(shí)網(wǎng)絡(luò)圖譜, 提出了修正的平均路徑長(zhǎng)度參量計(jì)算網(wǎng)絡(luò)中詞匯的語(yǔ)義相似度, 得到更高的語(yǔ)義一致性結(jié)果. 實(shí)驗(yàn)表明, 在Finkelstein的353對(duì)詞匯集上, 本文算法能夠獲得比傳統(tǒng)方法更符合人工判斷的語(yǔ)義相似度.

        詞匯語(yǔ)義相似度; 領(lǐng)域知識(shí)網(wǎng)絡(luò); 平均路徑長(zhǎng)度; wordnet; 概念關(guān)系準(zhǔn)則

        隨著語(yǔ)義相似度是兩個(gè)語(yǔ)言對(duì)象在各種語(yǔ)言互動(dòng)類型下的語(yǔ)義互動(dòng)強(qiáng)度[1]. 詞匯作為自然語(yǔ)言最基本的單位, 它們之間的語(yǔ)義相似度計(jì)算是一項(xiàng)十分重要的基礎(chǔ)工作, 在信息檢索、機(jī)器翻譯、圖像標(biāo)簽排序和圖像標(biāo)簽推薦等領(lǐng)域都有著廣泛的應(yīng)用.

        語(yǔ)義相似度的計(jì)算共有兩類方法: 基于分布相似性統(tǒng)計(jì)的相似度計(jì)算和基于知識(shí)資源結(jié)構(gòu)分析的相似度計(jì)算. 前者基于這樣一個(gè)假設(shè): 相似的詞匯出現(xiàn)在相似的上下文中. 統(tǒng)計(jì)詞匯對(duì)在語(yǔ)料庫(kù)文本窗口(通常為句子、段落或者篇章)中共同出現(xiàn)的頻次, 頻次越大, 相似度越大. 孫叔琦[2]和Mohammad[3]分別采用共生關(guān)系和平均互信息方法來(lái)計(jì)算詞匯對(duì)的語(yǔ)義相似度. 但是, 這種方法計(jì)算結(jié)果的準(zhǔn)確性受到語(yǔ)料庫(kù)規(guī)模和所選計(jì)算公式的影響.

        基于知識(shí)資源結(jié)構(gòu)分析的相似度計(jì)算方法通過(guò)分析專家知識(shí)庫(kù)組織結(jié)構(gòu)的規(guī)律, 提出合理計(jì)算公式來(lái)量化知識(shí)庫(kù)中詞匯的相似關(guān)系. wordnet是其中應(yīng)用最為廣泛的知識(shí)庫(kù), 由普林斯頓的語(yǔ)言學(xué)家和心理學(xué)家編撰, 涵蓋了近117000的英文詞匯. wordnet以義項(xiàng)為單元, 通過(guò)上下義和整體部分關(guān)系連接所有義項(xiàng), 構(gòu)成了一個(gè)有層次結(jié)構(gòu)的詞匯網(wǎng)絡(luò). 其中, 上下義關(guān)系占比90%以上, 生成了以“entity(事物)”為根節(jié)點(diǎn)的大型樹(shù)結(jié)構(gòu). 目前, 絕大多數(shù)相似度計(jì)算方法都是基于樹(shù)得到的, 常見(jiàn)的有基于義項(xiàng)間路徑長(zhǎng)度的方法[4], 基于最深公共父節(jié)點(diǎn)信息內(nèi)容的方法[5]和基于義項(xiàng)釋義重合度[6]的方法等. 但是, 在實(shí)際應(yīng)用中, 許多詞匯的計(jì)算結(jié)果并不符合人的語(yǔ)義判斷, 存在以下不足: 第一, wordnet分為“抽象事物”和“具象事物”兩個(gè)子樹(shù), 造成了抽象概念和具體事物的天然隔離, 使“交通”-“汽車(chē)”的相似度遠(yuǎn)小于“交通”-“亞洲”的相似度; 第二, 即使在具象名詞分支, “汽車(chē)”-“輪子”、“公路”-“汽車(chē)”等關(guān)系緊密的詞匯也因?yàn)閱我坏纳狭x下義關(guān)系而變得相似度很低.

        針對(duì)以上不足, 本文提出了基于交通領(lǐng)域知識(shí)網(wǎng)絡(luò)的詞匯語(yǔ)義相似度計(jì)算方法. 該方法首先搜集某一領(lǐng)域的常用詞匯, 通過(guò)上下義、工具-工具對(duì)象、場(chǎng)所-事件等10種關(guān)系準(zhǔn)則多角度表達(dá)領(lǐng)域知識(shí)潛在聯(lián)系, 然后基于詞匯在關(guān)系網(wǎng)絡(luò)中的路徑長(zhǎng)度計(jì)算它們的語(yǔ)義相似度, 使計(jì)算結(jié)果更符合人的語(yǔ)義判斷.

        1 基于wordnet的詞匯語(yǔ)義相似度

        Wordnet是以上下義關(guān)系為主的分類關(guān)系樹(shù). 傳統(tǒng)的方法多基于義項(xiàng)在樹(shù)中的結(jié)構(gòu)關(guān)系來(lái)計(jì)算語(yǔ)義相似度, 共分為2類: 基于路徑長(zhǎng)度的算法和基于公共父節(jié)點(diǎn)信息內(nèi)容的算法.

        1.1 基于路徑長(zhǎng)度的義項(xiàng)語(yǔ)義相似度

        圖1 Wordnet分類樹(shù)中部分義項(xiàng)的組織結(jié)構(gòu)

        路徑長(zhǎng)度指的是兩個(gè)義項(xiàng)在分類樹(shù)中形成的一條通路上所包含邊的個(gè)數(shù). 在圖1中, “摩托”和“拖拉機(jī)”的一條通路由黑色加粗的線段表示, 路徑長(zhǎng)度為3. Hirst[7]指出義項(xiàng)在分類樹(shù)中的最短路徑越短, 相似度越大, 并直接利用路徑長(zhǎng)度計(jì)算相似度, 公式如下:

        其中, snetsim(1,2)表示義項(xiàng)1和2的語(yǔ)義相似度, len(1,2)表示和2的路徑長(zhǎng)度.

        Yu[8]認(rèn)為相似度的大小不僅與路徑長(zhǎng)度相聯(lián)系, 還與該節(jié)點(diǎn)在分類樹(shù)中的深度有關(guān). 在相等路徑長(zhǎng)度的條件下, 義項(xiàng)的深度越大, 概念越具體, 它們之間的區(qū)別也越小, 語(yǔ)義相似度需要加強(qiáng). 計(jì)算公式如下:

        其中,為義項(xiàng)1和2的最深公共父節(jié)點(diǎn),()表示義項(xiàng)的深度.

        Leacock和chodorow[9]則以wordnet中最大的深度作參考, 提出如下計(jì)算公式:

        其中,表示W(wǎng)ordnet分類樹(shù)的全局最深節(jié)點(diǎn)的深度.

        1.2 基于信息內(nèi)容的義項(xiàng)語(yǔ)義相似度

        借鑒信息論中信息熵的概念, 基于信息內(nèi)容(Information Content, IC)的算法將兩個(gè)義項(xiàng)的最深公共父節(jié)點(diǎn)(Least Common Ancestors, LCA)所包含的信息量作為兩者之間的語(yǔ)義相似度. 計(jì)算公式如下:

        其中,為義項(xiàng)的LCA,()表示s的信息熵,()表示在語(yǔ)料庫(kù)中出現(xiàn)的頻率,s表示的子節(jié)點(diǎn). 義項(xiàng)的信息內(nèi)容由它本身以及所有的子節(jié)點(diǎn)概率和表示. LCA的深度越淺, 包含的子節(jié)點(diǎn)越多, 計(jì)算結(jié)果越小. 這正符合wordnet樹(shù)結(jié)構(gòu)的特點(diǎn), 樹(shù)中每一層節(jié)點(diǎn)都是對(duì)下一層子節(jié)點(diǎn)概念的抽象. 概念越抽象, 所含的信息量越小. Lin[10]直接使用LCA的信息量作為相似度的大小. Formica[11]在計(jì)算中加入了節(jié)點(diǎn)各自的信息內(nèi)容, 公式如下:

        Jiang的計(jì)算方式避免了結(jié)果中過(guò)多的小值:

        一般地, 詞語(yǔ)由多個(gè)義項(xiàng)構(gòu)成, 如何從義項(xiàng)的語(yǔ)義相似度得到詞匯的相似度, 常用的方法是取所有義項(xiàng)組合中語(yǔ)義相似度的最大值作為詞匯的語(yǔ)義相似度. 該方法計(jì)算簡(jiǎn)單, 在很多應(yīng)用中也符合詞義模糊處理的需要. 假設(shè)詞匯1的義項(xiàng)為s(0<≤),2的義項(xiàng)為s(0<≤),1和2的詞匯語(yǔ)義相似度計(jì)算公式如下:

        2 本文算法

        傳統(tǒng)的方法雖然在相似度計(jì)算上取得了一定的效果, 但也存在著很多的問(wèn)題:

        1) 基于信息內(nèi)容的算法同時(shí)需要專家知識(shí)庫(kù)和語(yǔ)料庫(kù)的支持, 加大了計(jì)算開(kāi)支. 而且, 詞匯信息量的計(jì)算嚴(yán)重依賴于語(yǔ)料庫(kù)的質(zhì)量. 不同的語(yǔ)料庫(kù)所計(jì)算的結(jié)果可能相差很大.

        圖2 Wordnet中具體事物與抽象事物的部分結(jié)構(gòu)

        2) 如圖2所示, 對(duì)于抽象詞匯和具象詞匯的相似度計(jì)算, 無(wú)論是基于路徑長(zhǎng)度還是基于信息內(nèi)容的方法, 都存在天然的“弱相似性”, 這在許多場(chǎng)合下并不合理.

        圖3 Wordnet中具體事物分支部分結(jié)構(gòu)

        3) 如圖3所示, 即使都為具象詞匯, 片面依賴分類學(xué)的關(guān)系, 許多在內(nèi)涵上有很強(qiáng)關(guān)聯(lián)性的詞匯(汽車(chē)-車(chē)輪、出租車(chē)-乘客等)也無(wú)法獲得符合人工判斷的相似度.

        4) wordnet中的詞匯雖然覆蓋面廣, 但在某個(gè)領(lǐng)域內(nèi)并不詳盡, 很多術(shù)語(yǔ)不在其列, 而且詞匯分布發(fā)散, 相互關(guān)系不易管理.

        針對(duì)以上不足, 構(gòu)造了交通領(lǐng)域的知識(shí)關(guān)系網(wǎng)絡(luò)用以計(jì)算詞匯的語(yǔ)義相似度. 改進(jìn)如下:

        1) 采用不依賴語(yǔ)料庫(kù)的基于路徑長(zhǎng)度的算法;

        2) 不再區(qū)分抽象和具象事物的詞匯, 而是采用包含著語(yǔ)義信息的“情景發(fā)生”方式重新組織詞匯網(wǎng)絡(luò);

        3) 在上下義關(guān)系的基礎(chǔ)上, 增加了部件-整體、屬性-宿主等9種關(guān)系, 從不同角度還原人工語(yǔ)義判斷的依據(jù);

        4) 搜集單個(gè)領(lǐng)域內(nèi)完善的專業(yè)知識(shí), 按照上述方法構(gòu)建詞匯網(wǎng)絡(luò), 并推廣至其它的領(lǐng)域.

        2.1 交通詞匯知識(shí)網(wǎng)絡(luò)的構(gòu)建

        為了打破抽象詞匯和具象詞匯的天然壁壘, 不再按照抽象事物和具體事物的標(biāo)準(zhǔn)劃分詞匯, 而是根據(jù)“情景發(fā)生”的方式組織詞匯網(wǎng)絡(luò). 本文模擬事件發(fā)生的三要素(對(duì)象, 行為和環(huán)境), 將常用的交通領(lǐng)域詞匯按照交通主體(包括人和交通工具)、交通行為和交通環(huán)境(交通地點(diǎn)、交通發(fā)生時(shí)間等)劃分.

        董振強(qiáng)在編撰知網(wǎng)[12]時(shí), 曾指出詞匯之間除了簡(jiǎn)單的分類學(xué)關(guān)系外, 還有部件-整體關(guān)系、屬性-宿主關(guān)系、關(guān)系主體-事件關(guān)系、場(chǎng)所-事件關(guān)系、時(shí)間-事件關(guān)系、值-屬性、實(shí)體-值和工具-工具對(duì)象關(guān)系等. 這些關(guān)系反映了我們感知詞匯語(yǔ)義關(guān)系的不同側(cè)面. 比如“汽車(chē)”和“駕駛”是一種關(guān)系主體-事件的關(guān)系, 但在wordnet中, 它們分別屬于具體事物和抽象事物, 相關(guān)性很低. “賽車(chē)”和“快”在wordnet中分屬于不同的詞性樹(shù), 無(wú)法進(jìn)行相似度計(jì)算, 而實(shí)體-值的關(guān)系體現(xiàn)了它們語(yǔ)義相關(guān)的一面. 交通領(lǐng)域詞匯在這10種關(guān)系的實(shí)例如表1所示. 值得指出的是, 這些關(guān)系概括了人們語(yǔ)義判斷時(shí)一般性的詞匯關(guān)聯(lián)模式, 不止適用于交通運(yùn)輸領(lǐng)域, 借助相應(yīng)的專業(yè)知識(shí), 可以方便地推廣至其它領(lǐng)域.

        表1 10種基本語(yǔ)義關(guān)系以及交通詞匯實(shí)例

        交通領(lǐng)域知識(shí)網(wǎng)絡(luò)的構(gòu)造分為兩步. 首先利用上義和下義關(guān)系將交通領(lǐng)域的詞匯組織為網(wǎng)絡(luò)的基本骨架, 然后依次考察每對(duì)詞匯之間是否存在其它的聯(lián)系, 如果存在, 則在詞匯對(duì)之間添加新的關(guān)系連線. 圖4展示了本文構(gòu)建的部分詞匯的關(guān)系網(wǎng)絡(luò)圖.

        圖4 交通領(lǐng)域關(guān)系網(wǎng)絡(luò)圖部分結(jié)構(gòu)

        相比傳統(tǒng)的wordnet分類樹(shù)結(jié)構(gòu), 交通詞匯知識(shí)網(wǎng)絡(luò)具有四點(diǎn)優(yōu)勢(shì): 第一, 打破了抽象詞匯和具象詞匯的壁壘, 從多種角度發(fā)掘詞匯的語(yǔ)義聯(lián)系, 第二, 領(lǐng)域內(nèi)的詞匯意義明確, 避免了一詞多義的現(xiàn)象; 第三, 可以方便地根據(jù)實(shí)際應(yīng)用的要求動(dòng)態(tài)增減領(lǐng)域詞匯的規(guī)模; 第四, 能夠快速推廣到其它領(lǐng)域的詞匯.

        2.2 基于平均路徑長(zhǎng)度的相似度計(jì)算

        基于信息內(nèi)容的相似度算法需要額外的語(yǔ)料庫(kù)支撐, 不利于海量數(shù)據(jù)的計(jì)算. 本文基于路徑長(zhǎng)度計(jì)算詞匯的語(yǔ)義相似度. 與wordnet中單一的上下義關(guān)系不同, 領(lǐng)域詞匯網(wǎng)絡(luò)中每種“線形”的路徑都代表了一種在2.1節(jié)中新加入的語(yǔ)義關(guān)系, 如果仍然以最短路徑計(jì)算相似度, 將忽略詞匯間多元的語(yǔ)義聯(lián)系, 不符合人工語(yǔ)義判斷的規(guī)律. 式(3)中的路徑長(zhǎng)度不再是節(jié)點(diǎn)間的最短路徑長(zhǎng)度, 而是由節(jié)點(diǎn)間各類型的路徑長(zhǎng)度平均得到. 此外, 基于平均路徑長(zhǎng)度的算法使得路徑長(zhǎng)度參數(shù)的取值范圍由整數(shù)擴(kuò)大為實(shí)數(shù), 計(jì)算的語(yǔ)義相似度將粒度更細(xì), 更加平滑. 計(jì)算公式如下:

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)指標(biāo)

        結(jié)合圖像標(biāo)簽排序的實(shí)際應(yīng)用需求, 從圖像分享網(wǎng)站Flickr上下載了帶有“traffic”或者“vehicle”標(biāo)簽的圖像1000幅. 預(yù)處理后, 這1000幅圖像一共包含2016個(gè)不重復(fù)的標(biāo)簽, 我們將出現(xiàn)次數(shù)排在前300的標(biāo)簽作為構(gòu)造領(lǐng)域知識(shí)網(wǎng)絡(luò)的常用詞匯, 具體包括traffic、vehicle、car、people、street等. 為了直觀評(píng)價(jià)相似度的計(jì)算結(jié)果, 分別采用基于路徑長(zhǎng)度的Wu和Palmer算法(以下稱WP算法)、基于信息內(nèi)容的Jiang和Conrath算法(以下稱JC算法)以及本文算法來(lái)計(jì)算“vehicle”與其它交通詞匯的語(yǔ)義相似度. 圖5展示了歸一化后的相似度變化曲線:

        圖5 “vehicle”與部分交通詞匯的語(yǔ)義相似度曲線

        由圖5可知, 1)WP算法和JC算法的相似度曲線除了偏置量的差別, 變化趨勢(shì)基本一致; 2)本文算法由于引入了多種詞匯關(guān)系, 領(lǐng)域知識(shí)的相似度得到加強(qiáng), 整體高于WP和JC算法; 3)與交通主體和交通地點(diǎn)中的詞匯相比, WP和JC算法中交通行為詞匯(多為抽象事物)與“汽車(chē)”的相似度值偏小, 而本文算法采用的關(guān)系主體-事件和場(chǎng)所-事件等關(guān)系克服了抽象事物和具象事物之間的天然“弱相似性”, 使結(jié)果明顯增大.

        Finkelstein給出了一個(gè)包含353對(duì)詞匯的語(yǔ)義相似度測(cè)試集, 測(cè)試集中的每對(duì)詞匯都是由專家精心挑選, 涵蓋了從“高語(yǔ)義相關(guān)”到“語(yǔ)義不相關(guān)”的類型. 為了得到真實(shí)的人工評(píng)價(jià), 邀請(qǐng)了51個(gè)受試者相互獨(dú)立的對(duì)這353對(duì)詞匯的“意義相似性”進(jìn)行打分, 分值從0.0到4.0變化. 受試者打分的平均值即為該測(cè)試集的真實(shí)值. 皮爾森關(guān)聯(lián)度[13]是評(píng)價(jià)一個(gè)詞匯相似度算法的好壞常用標(biāo)準(zhǔn). 它反映了算法所得的相似度值和Finkelstein測(cè)試集中人工判斷的結(jié)果的符合程度, 關(guān)聯(lián)度越高, 算法越好. 計(jì)算公式如下:

        從Finkelstein測(cè)試集中選取了56對(duì)交通相關(guān)的詞匯, 采用wp算法、resnik算法、Lch算法、Lin算法和本文算法計(jì)算相似度, 各算法的皮爾森關(guān)聯(lián)度和部分計(jì)算結(jié)果如圖6和表2所示.

        圖6 各算法的皮爾森關(guān)聯(lián)度

        表2 部分Finkelstein詞匯對(duì)不同算法的相似度值

        整體而言, 本文算法的計(jì)算結(jié)果更接近真實(shí)值, 有著更高的皮爾森關(guān)聯(lián)度值. 如表2所示, 在抽象詞匯與具體詞匯對(duì)(比如car-journey和car-driving等)的相似度計(jì)算中, 本文算法的結(jié)果明顯優(yōu)于lch算法. 而在lch算法中關(guān)系不大的steering和vehicle, 由于部件-整體關(guān)系的引入, 本文算法獲得了更符合人工判斷的相似度值.

        3.2 在圖像標(biāo)簽排序中的應(yīng)用

        圖像標(biāo)簽排序是根據(jù)標(biāo)簽與圖像內(nèi)容的相關(guān)程度由大到小重新排列標(biāo)簽. 詞匯語(yǔ)義相似度體現(xiàn)了標(biāo)簽之間的親疏關(guān)系, 是圖像標(biāo)簽排序的重要依據(jù). 從新加坡國(guó)立大學(xué)提供的NUS-WIDE測(cè)試集[14]中選取了“traffic”類別的圖像300幅用于標(biāo)簽排序. 語(yǔ)義相似度分別由Lin、Lch和本文算法得到. 實(shí)驗(yàn)采用歸一化折損累積增益值(Normalized Discounted Cumulative Gain, NDCG)作為評(píng)價(jià)指標(biāo). 實(shí)驗(yàn)前, 由志愿者基于標(biāo)簽與圖像的相關(guān)度, 對(duì)測(cè)試集中每個(gè)標(biāo)簽進(jìn)行打分, 分值共有5個(gè)等級(jí), 為0至4的整數(shù), 數(shù)值越大, 相關(guān)度越大. 圖像標(biāo)簽的NDCG值的計(jì)算公式如下:

        其中Z是在最佳排序時(shí), 使NDCG值歸一化為1的系數(shù),()表示第個(gè)標(biāo)簽的相關(guān)度得分. 圖7為各種算法取得的平均NDCG值. 圖8展示了排序前后的標(biāo)注情況.

        圖7 原始標(biāo)簽和各種算法排序后的NDCG值

        由圖可知, 原始標(biāo)注的順序很隨意, 一些與圖像內(nèi)容無(wú)直接關(guān)系的標(biāo)簽往往占據(jù)著靠前的位置. 三種方法都不同程度地改善了標(biāo)簽的排列順序. 相比于Lin算法, 本文算法在抽象詞匯與具象詞匯相似度計(jì)算上的修正, 使得諸如“traffic-jam”、“car-crash”和“accident”等表示交通行為的詞匯得到“重視”, 排到了前列, 取得了更高的NDCG值. 這些詞匯連同其它表示交通主體、交通地點(diǎn)的詞匯一起立體地描繪了圖像中的“交通場(chǎng)景”.

        4 結(jié)語(yǔ)

        詞匯的語(yǔ)義相似度計(jì)算是信息檢索和圖像標(biāo)簽處理等中的基本問(wèn)題. 常用的計(jì)算方法有基于wordnet樹(shù)結(jié)構(gòu)的路徑長(zhǎng)度法和信息內(nèi)容法. 針對(duì)傳統(tǒng)算法的不足, 本文提出了基于交通領(lǐng)域知識(shí)網(wǎng)絡(luò)的詞匯語(yǔ)義相似度算法. 在上下義關(guān)系的基礎(chǔ)上, 增加了部件-整體、屬性-宿主和工具-工具對(duì)象等9種關(guān)系將交通領(lǐng)域內(nèi)的常用詞匯重新構(gòu)造為互相聯(lián)系的知識(shí)網(wǎng)絡(luò). 網(wǎng)絡(luò)中的每條通路都代表了通路上節(jié)點(diǎn)的一種語(yǔ)義關(guān)聯(lián), 基于這些通路的平均路徑長(zhǎng)度, 我們定義了一種新的詞匯的語(yǔ)義相似度算法. 在Finkelstein測(cè)試集和NUS-WIDE圖像集上的實(shí)驗(yàn)表明, 本文算法可以取得更符合人工判斷的詞匯語(yǔ)義相似度.

        1 Pedersen T, Pakhomov SVS, Patwardhan S, et al. Measures of semantic similarity and relatedness in the biomedical domain. Journal of Biomedical Informatics, 2007, 40(3): 288–99.

        2 孫叔琦.基于統(tǒng)計(jì)的詞匯語(yǔ)義相關(guān)計(jì)算研究[博士學(xué)位論文].哈爾濱:哈爾濱工業(yè)大學(xué),2014.

        3 Mohammad SM, Hirst G. Distributional measures of semantic distance: A survey. Computer Science, 2012.

        4 Adhikari A, Singh S, Dutta A. A novel information theoretic approach for finding semantic similarity in WordNet. TENCON. Macao, China. IEEE. 2015. 1–6.

        5 Harispe S, Ranwez S, Janaqi S, et al. Semantic measures for the comparison of units of language, concepts or instances from text and knowledge base analysis. Computer Science, 2013.

        6 Hoffart J, Seufert S, Nguyen D B, et al. KORE: Keyphrase overlap relatedness for entity disambiguation. 21st ACM International Conference on Information and Knowledge Management. CIKM. NY, USA. ACM. 2012. 545–554.

        7 Hirst G, St-Onge D. Lexical chains as representations of context for the detection and correction of malapropisms. Fellbaum C. WordNet: An Electronic Lexical Database. Cambridge, MA, USA: MIT Press, 1998: 305–332.

        8 Yu X, Sun Y, Norick B. User guided entity similarity search using meta-path selection in heterogeneous information networks. Proc. of the 21st ACM International Conference on Information and Knowledge Management. NY, USA. ACM. 2012. 2025–2029.

        9 王桐,王磊,吳吉義.wordnet中的綜合概念語(yǔ)義相似度計(jì)算方法.北京郵電大學(xué)學(xué)報(bào),2013,36(2): 98–101.

        10 Lin D. An information-theoretic definition of similarity. Proc. of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. 1998. 296–304.

        11 Formica A. Concept similarity in formal concept analysis, Information Science, 2006, 176(18): 2624–2641.

        12 董強(qiáng),董振東.知網(wǎng)簡(jiǎn)介. http://www.keenage.com/.

        13 劉宏哲,須德.基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述.計(jì)算機(jī)科學(xué),2012,39(2): 8–13.

        14 Chua TS, Tang J, Hong R, et al. NUS-WIDE: A real-world web image database from National University of Singapore. ACM International Conference on Image and Video Retrieval. ACM. 2009. 1–9.

        Measuring Semantic Similarity of Words Based on Traffic Field Knowledge Network

        HUANG Hao, CHEN Huai-Xin

        (China Electronics Technology Group Corporation No.10 Research Institute, Chengdu 610036, China)

        The traditional way of calculating word semantic similarity is based on wordnet structure, which has a huge gap between physical concept and abstract concept, and only considering concepts’ hyponymy. To solve the problem, a novel word similarity calculation algorithm based on traffic field words relation network is proposed in the paper. 10 kinds of concept relationships, including concepts of hyponymy, tool-tool object relationship, standard parts-overall and so on, are used to build traffic words knowledge network. Then modified average path length parameter is used to calculate words’ semantic similarity, which accords with people’s judgement. The experiment based on Finkelstein’s 353 word pairs shows that the algorithm achieves more accurate word semantic similarity.

        word semantic similarity; field knowledge network; average path length; wordnet; concept relationship rule

        2016-06-21;

        2016-08-08

        [10.15888/j.cnki.csa.005652]

        猜你喜歡
        語(yǔ)義詞匯
        本刊可直接用縮寫(xiě)的常用詞匯
        一些常用詞匯可直接用縮寫(xiě)
        語(yǔ)言與語(yǔ)義
        本刊可直接用縮寫(xiě)的常用詞匯
        一些常用詞匯可直接用縮寫(xiě)
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        本刊可直接用縮寫(xiě)的常用詞匯
        本刊一些常用詞匯可直接用縮寫(xiě)
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        男人天堂亚洲天堂av| 人妻少妇不满足中文字幕| 亚洲成人av一区二区三区| 丰满人妻一区二区三区精品高清| av一区二区三区观看| 亚洲av丰满熟妇在线播放| 精品人妻无码一区二区三区蜜桃一 | 日日噜狠狠噜天天噜av| 97色伦图片97综合影院久久| 国产毛片A啊久久久久| 视频区一区二在线观看| 久久亚洲日韩精品一区二区三区| 男人扒开女人下面狂躁小视频 | 特级毛片a级毛片在线播放www| 国产亚洲日本人在线观看| aa日韩免费精品视频一| 国产av国片精品有毛| 久久久久亚洲精品无码网址| 国产精品久久久久久久y| 亚洲国产精品激情综合色婷婷| 国产婷婷色一区二区三区| 亚洲日韩精品欧美一区二区一| 人妻精品一区二区三区视频| 偷拍视频十八岁一区二区三区 | 免费无码中文字幕a级毛片| 亚洲男人天堂2019| 男人的av天堂狠狠操| 国产高潮流白浆视频在线观看| 丰满少妇人妻无码专区| 欧韩视频一区二区无码| 国产精品一区二区三区蜜臀| 日本免费大片一区二区| 中国老熟妇自拍hd发布| 亚洲两性视频一三区| 久久中文字幕av一区二区不卡| 少妇高潮惨叫久久久久电影69| 亚洲视频一区| 太大太粗太爽免费视频| 国产日产在线视频一区| 特级做a爰片毛片免费看108| 精品国产一区二区三区亚洲人|