亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于石油領域本體的概念相似度級聯(lián)模型①

        2018-07-18 06:07:06趙國梁宮法明
        計算機系統(tǒng)應用 2018年7期
        關鍵詞:相似性度量本體

        趙國梁, 宮法明

        (中國石油大學(華東) 計算機與通信工程學院, 青島 266580)

        1 概述

        概念的語義相似度計算已經(jīng)成為數(shù)據(jù)挖掘和信息檢索領域的基本問題, 而且是自然語言處理的核心問題[1]. 例如, 語義相似性度量已應用于詞義消歧[2]、信息提取[3]、文本相似度計算[4]以及文本聚類[5].

        目前, 語義相似度的計算方法大致可分為兩類:(1)依賴于分類中術語間的層次關系的基于路徑的度量; (2)根據(jù)概念的特異性分類, 基于語料庫信息內(nèi)容(IC)的測度. 許多相似度計算是建立在本體的內(nèi)在結構上, 在本文中, 我們首先考慮在查詢概念對在本體中的路徑信息, 然后我們不僅考慮了相關概念的父類集合, 并考慮了子代集合. 這種方法可以獲取進行相似性度量的概念對間更多、更具體的信息. 事實上, 不同的度量方法從不同的角度刻畫了兩個對象的相似性或相異性, 這可能有助于整合各種相似性度量以獲得更好的結果.

        我們引入了一個新的級聯(lián)模型進行高效的概念相似度排名. 與以前的方法不同, 級聯(lián)模型能夠逐步修剪本體和細化排名順序. 通過級聯(lián), 可以產(chǎn)生更高質(zhì)量的結果和更快的查詢執(zhí)行時間. (1)在粗計算階段, 我們的方法是針對整個本體使用基于路徑的訓練措施獲來計算過兩個概念間的相似度得分; (2)精確計算及擴展階段, 我們使用不同的IC算法從不同的方面來計算每一個概念的相似度得分. 為了充分考慮概念中的可用信息, 將目標概念使用其子代和父代概念集進行擴展,然后用于下一個階段的訓練; (3)利用權重來平衡粗計算和精確計算的相似度得分; (4)最后通過訓練BP神經(jīng)網(wǎng)絡得到概念的相似性排名. 我們在石油本體模型和Babel-net上對本文的模型進行了測試, 實驗結果表明我們的方法提高了相似度計算的準確度.

        圖1 概念相似度計算的模型體系結構

        2 相關工作

        語義相似度估計是自然語言處理(NLP)的一個重要組成部分, 在許多NLP應用中得到了成功的應用.基于路徑的方法主要考慮概念在本體中的路徑距離來確定它們的語義相似度[6]. 基于IC的方法主要比較所涉及的概念及其父代或子代的屬性[7]. 與基于路徑的方法相比, 基于IC的度量對可變語義距離的問題不敏感[8].此外, 基于IC的方法強調(diào)了本體的同一層次上的術語并不總是等價的思想, 因為它們在本體中的重要性或特異性是由它們的信息量來衡量的[9]. Alexopoulou[10]提出了“Closest Sense”的方法, 該方法計算了可能的概念語義類型與目標詞周圍的語義類型之間的平均最短距離. Garla[11]使用 Patwardhan[12]提出的語義關系算法對基于路徑和基于分類的相似性度量進行評價.Resnik[8]和Jiang[13]提出的語義相似度算法被廣泛的使用. Rada[14]提出了一種基于兩個目標詞間最短路徑的相似度計算方法. Wu[9]定義一個相似性度量由三部分組成: 概念在本體中的公共子集, 概念間的公共屬性以及它們的最近公共父代距離.

        最近, Dang[15]提出了一種新的兩階段學習模型.Dang使用一組有限的特征集合, 包括加權詞語、相鄰性和擴展項來訓練整個檢索的排名函數(shù). Wang[16]提出了一種級聯(lián)模型, 通過逐步細化和精煉候選文檔集來盡可能減少檢索中的不利因素, 提高檢索的質(zhì)量. 朱新華等[17]提出了一種綜合的詞語語義相似度計算方法,算法通過特殊的單調(diào)遞減曲線的邊權重策略, 并且采用以詞語距離為主要因素、分支節(jié)點數(shù)和分支間隔為微調(diào)節(jié)參數(shù)的方法, 改進了現(xiàn)有的詞林詞語相似度算法. 李陽等[18]提出一種通用的實體相似度計算方法, 通過清洗噪聲數(shù)據(jù), 對數(shù)值、列表以及文本等不同數(shù)據(jù)類型進行預處理, 使用SVM、隨機森林等集成學習模型以及排序?qū)W習模型進行建模. Pesquita[19]考慮了影響相似度的內(nèi)在和外在問題, 以及如何處理這些問題, 強調(diào)了不同環(huán)境下的最佳措施, 并比較了不同的實施策略及其使用效果.

        3 模型

        在這部分, 我們介紹計算概念相似度的級聯(lián)模型的具體細節(jié). 模型的體系結構如圖1所示.

        3.1 粗計算階段: 基于路徑的相似度算法

        粗計算階段是模型的第一階段, 我們使用基于路徑的相似計算方法來計算概念間的相似度得分, 然后將該得分以及路徑集合作為后續(xù)階段輸入數(shù)據(jù), 以生成最終的查詢結果.

        Leacock[20]最先提出了一種基于路徑的本體相似度計算方法, 并且被廣泛的使用. 假設c1和c2是兩個概念, 他們考慮了概念的最大深度, 定義了公式(1):

        本文考慮到不同本體領域存在許多差異性, 采用Batet[21]提出的特定領域的相似性度量模型, 它充分考慮了本體的特性以及多重繼承的關系, 與石油領域本體基本相似, 如公式(2)所示:

        本文使用公式(1)對公式(2)進行了改進, 如公式(3)所示:

        3.2 精確計算階段: 基于IC相似度計算

        在精確計算階段, 本文使用基于IC的相似度算法去計算從擴建階段獲得的所有結果集中每個概念的得分. 每個概念的得分將被作為構建成特征向量. 本階段將采用5種目前使用最為廣泛的基于IC的相似度算法作為精確計算階段的方法, 先使用這5種去獲取概念在本體上部(概念與其父代集合)的相似度得分, 并且通過擴展階段重新定義公式, 來獲取概念在本體下部(概念與其子代集合)的相似度得分. 以下五種算法都是基于概念在本體上部的相似度計算方法.

        Resnik首先把概念信息量(IC)應用到相似度計算中. 在Resnik的模型中, 相似度通過兩個概念的最小公共集合的IC進行計算, 公式定義如下:

        Lin[22]在Resnik相似度算法的基礎上, 額外考慮了概念和概念的IC信息量值. 模型(Lin)定義如下:

        Jiang和Conrath提出的模型根據(jù)公式(6)進行量化:

        Sánchez和Batet提出了一種新的語義相似度度量方法, 定義如公式(7)所示:

        通過考慮到本體中概念對之間的語義距離以及概念在本體中的深度, Wu提出的相似度計算模型定義如公式(8):

        3.3 擴展階段

        為了能夠獲取概念的更多屬性, 以便獲得更好的數(shù)據(jù)進行訓練, 使最終計算結果的準確性更高、更具潛力. 因此, 我們擴展本體概念集合以獲得更多信息.

        Zhang[23]發(fā)現(xiàn)兩個概念的共同子集同樣影響相似性得分. 本文中, 我們認為兩個概念的下一代子集影響兩個概念間的相似度得分, 如圖2所示.

        圖2 概念子集圖

        這意味著兩個概念的子代集合也可以用來描述它們的相似性度量. 我們在下面的公式中重新定義子代公共部分的IC值:

        最終, Resnik提出的相似的計算模型就被重新定義為如下:

        其余四種相似度算法以同樣的方式重新定義.

        3.4 相似度特征

        本文把兩個概念之間的相似度得分作為是每一對概念的特征值, 通過構造基于本體的不同相似度模型獲取相似性得分值來進一步構造特征向量來表示概念對, 相似度特征表示為公式(11):

        3.5 得分權重

        基于路徑的相似度算法只考慮到概念對在本體中的路徑長度, 忽略了每個概念的信息量. 相反, 基于IC的相似度算法只考慮到每個概念的信息量, 忽略了每個概念對在本體中的路徑長度. 為了充分利用這兩種信息, 本文通過使用得分門網(wǎng)絡來實現(xiàn)的, 該網(wǎng)絡為每個概念生成聚合權重, 控制兩種相似度算法計算的的相似度得分對最終相似度得分的貢獻. 綜合特征向量被改寫為公式(14).

        3.6 BP神經(jīng)網(wǎng)絡

        BP神經(jīng)網(wǎng)絡是誤差反向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡, 是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一.BP網(wǎng)絡可以學習和存儲大量的輸入輸出映射關系, 而不需要揭示描述映射關系的數(shù)學方程. BP神經(jīng)網(wǎng)絡的結構由輸入層、隱層和輸出層, 在神經(jīng)元的連接權值和閾值, 輸入層和輸出層只有一個, 它的單位數(shù)量與實際輸入輸出參數(shù)一致; 隱層可以是一個或多個神經(jīng)元參與, 數(shù)字必須重復計算. 由于三層神經(jīng)網(wǎng)絡具有很好的函數(shù)逼近功能, 結構設計簡單, 運算能力強. 在本文中, 我們是用三層BP神經(jīng)網(wǎng)絡, 如圖3所示.

        隱藏層節(jié)點的數(shù)目由公式(15)確定:

        圖3 三層 BP 神經(jīng)網(wǎng)絡

        訓練BP神經(jīng)網(wǎng)絡時, 我們將最終的相似度特征向量作為BP神經(jīng)網(wǎng)絡的輸入, 將兩個概念對應的相似度分類作為輸出.

        對于輸出結果, 我們期望BP神經(jīng)網(wǎng)絡將兩個概念的相似性分數(shù)劃分為10個類別, 0個代表不相似, 9個代表極其相似 (相同), 值越高, 相似度越高.

        4 實驗評估

        4.1 數(shù)據(jù)集

        在本文中, 石油本體和BabelNet[24]用來作為數(shù)據(jù)集測試本文的方法. 我們收集了石油領域的數(shù)據(jù), 建立了自己的石油領域本體. BabelNet 是一個多語言語義網(wǎng)絡, 其概念和關系是利用自動映射算法從英語中最大的有效語義詞典WordNet[25]和最大的覆蓋面的百科全書Wikipedia中獲得的.

        4.2 評判基準

        為了得到一個比較基準, 我們的實驗標準類似于Miller和Charlest提出的基準, 給予五十名受試者(四十名石油工程學生和十名石油領域教授)相同的330個名詞對(30個名詞對與Miller和Charles相同,300個名詞對是關于石油的). 這些操作和Miller和Charles的用法完全一樣. 一半的受試者以隨機順序收到單詞對的列表, 另一半接受固定順序的列表. 對于同一概念對, Miller和Charles基準的平均評分和本文中評價基準的平均評分之間的相關程度為95%, 說明我們的基準是有效的.

        4.3 實驗結果

        為了驗證所提出方法的有效性, 本研究采用十倍交叉驗證, 并以精確度作為驗證指標. 在十次交叉驗證中, 數(shù)據(jù)集被隨機劃分為十個相等的子集, 驗證過程重復十次. 每次保留其中一個子集作為驗證數(shù)據(jù), 其余四個子集作為訓練數(shù)據(jù). 交叉驗證的十個結果的平均值產(chǎn)生一個總體估計. 使用公式(17)表示的準確率和召回率來判斷實驗結果,

        表1和表2列出了實驗的預測結果特點, 在石油本體和babelnet上采用了不同的相似性度量策略. 從表格中, 我們可以看出, 采用基于路徑、基于概念父代、子代擴展集合的信息量相似度計算方法相結合的特征通常比只采用其中一種策略對應的綜合特征具有更高的精度.

        表1 不同相似性算法在石油本體中的精度得分

        表2 不同相似性算法在 BabelNet中的精度得分

        從表2中的結果可以得出幾個結論. 本文中的相似度計算方法在石油本體和BabelNet獲得最高的精確度得分, 分別為90.44%和92.33%. 這表明我們從本體中獲得的信息越多, 分類器的預測能力就越好. 本文中的算法在不同的本體上表現(xiàn)出良好的性能.

        5 結論

        在本文的研究中, 我們提出了一種基于石油本體的概念對語義相似性的計算方法. 將不同相似性測度得到的信息作為BP神經(jīng)網(wǎng)絡的輸入. 我們相信, 基于路徑的、基于IC和擴展的基于IC的測度的更多信息可以提高預測性能, 我們的方法的缺點是計算量大, 預測性能會受到BP神經(jīng)網(wǎng)絡的影響. 將來, 我們計劃采用一種更全面的方法來預測兩個概念的相似性.

        猜你喜歡
        相似性度量本體
        有趣的度量
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        一類上三角算子矩陣的相似性與酉相似性
        模糊度量空間的強嵌入
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        淺析當代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        低滲透黏土中氯離子彌散作用離心模擬相似性
        《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
        文學教育(2016年27期)2016-02-28 02:35:15
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
        91精品一区国产高清在线gif| 免费人成黄页网站在线观看国产| 日本av在线精品视频| 琪琪av一区二区三区| 加勒比东京热中文字幕| 国产精品永久在线观看| 人妻无码中文字幕| 韩国无码av片在线观看网站| 亚洲电影一区二区三区| 日本一区免费喷水| 伊人久久大香线蕉av最新午夜| 色吧噜噜一区二区三区| 国产无夜激无码av毛片| 4444亚洲人成无码网在线观看| 级毛片无码av| 中文字幕专区一区二区| 国产成人综合久久久久久| 成在线人免费视频| 国产精品国产三级农村妇女| 午夜福利不卡无码视频| 亚洲午夜精品国产一区二区三区 | 亚洲乱妇熟女爽到高潮视频高清| 艳z门照片无码av| 在线看片无码永久免费aⅴ| 老熟妇高潮av一区二区三区啪啪 | 中文少妇一区二区三区| 国产精华液一区二区三区| 无码人妻av一区二区三区蜜臀 | 久久久亚洲欧洲日产国码aⅴ| 国产色综合天天综合网| 亚洲男人的天堂精品一区二区| 精品国产麻豆免费人成网站| 国产老熟女精品一区二区| 亚洲精品无码永久在线观看| 日韩av高清无码| 亚洲精品美女自拍偷拍 | 久久精品国产亚洲av麻豆床戏| av鲁丝一区鲁丝二区鲁丝三区| 一本无码人妻在中文字幕免费| 欧美成人小视频| 久久AⅤ无码精品色午麻豆|