亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于分布式rough本體的語義相似度計算方法

        2014-05-26 06:32:32常寶嫻陳瑋瑋李素娟
        揚州大學學報(自然科學版) 2014年1期
        關鍵詞:子域三元組謂語

        常寶嫻,陳瑋瑋,李素娟

        (南京工業(yè)大學理學院,南京 211816)

        一種基于分布式rough本體的語義相似度計算方法

        常寶嫻,陳瑋瑋,李素娟*

        (南京工業(yè)大學理學院,南京 211816)

        針對傳統(tǒng)的語義相似度計算方法缺少相應領域本體和精確知識支撐等缺陷,提出一種基于分布式rough本體的語義相似度計算方法.通過半自動構建領域本體保證語義相似度計算的準確度,采用rough的上下近似提高語義相似度計算的精確性,并通過實例驗證了該算法的有效性.結果表明:該文方法不僅可減弱對領域專家的依賴,而且還能大幅提高語義相似度計算的查全率和準確率.

        rough本體;語義相似度;分布式;遠程教育

        互聯網作為人們獲取信息的重要渠道,其規(guī)模在不斷擴大,如何提高信息的準確度成為目前研究的熱點之一.針對現有的網絡信息難以運用計算機進行處理的現狀,Bemers-Lee[1-2]提出了語義網的概念.而作為語義網基礎的本體則采用了規(guī)范化語言對概念和關系進行形式化說明,使得計算機理解及互操作成為可能[3-4].與基于語法的信息檢索不同,本體在信息檢索中的應用能夠顯著提高檢索的精確率和返回率[5].本體信息檢索領域中概念的語義相似度計算起著重要的作用.語義相似度的計算通過對本體要素的語義距離或者貼近度的度量,能綜合評價本體的復用及重用的可能性,也可作為本體融合與集成等任務的前期評估[6].近年來,國內外出現的語義相似度計算的相關研究成果大多根據某種分類體系來計算,或利用大規(guī)模的語料庫進行統(tǒng)計,如李鵬等[7]提出基于語義詞典的樹狀層次結構中的路徑長度計算語義相似度;夏天[8]提出基于詞語空間向量模型統(tǒng)計并計算特征詞向量間的相似度.然而,由于分類體系受主觀因素影響較大,難以反映客觀性能,語料庫統(tǒng)計法則因依賴于語料庫的優(yōu)劣而存在數據稀疏的問題,并伴有噪聲干擾;因此,Slowinski[9],Ishizu[10]等提出利用rough集擴展本體,以rough關系作為概念的上下近似,從原始語義和數據層面規(guī)避了主觀性和稀疏性等問題.本文應用rough本體改善基于經典本體的信息檢索方法,探討了rough本體的構建、計算、匹配等關鍵技術,采用分布式計算方法從現有網頁頁面提取并構建rough領域本體,建立rough本體語義相似度計算模型,設計相關語義相似度計算算法,并通過遠程教育領域語義相似度的計算驗證該方法的可行性和有效性.

        1 基于分布式rough本體的語義相似度計算

        基本步驟:首先根據基于主題相似度判定的垂直搜索引擎框架Nutch算法從初始地址集合中搜集出與研究主題相關的網頁集合,然后采用自然語言處理(natural language processing,NLP)處理網頁內容,得出資源描述框架(resource description framework,RDF)數據并存入已設計的分布式非關系數據庫HBASE(Hadoop database),最后通過本文語義相似度計算算法計算概念間的語義相似度.

        1.1 Nutch垂直搜索

        采用Nutch搜索引擎框架,有針對性地建立初始網頁地址集,利用Nutch垂直搜索算法對網頁進行抓取,創(chuàng)建動態(tài)判定矩陣

        進行主題相關性識別,其中wURL(u)為頁面u對應的地址的權值,wCLK(u)為頁面u的點擊次數對應的權值.wURL(u)=w(u)[δ+(1-δ)S(T,Q)],w(u)為頁面的PageRank值,S(T,Q)為所得鏈接文本T和主題詞集Q的相似度,δ為調整參數,一般取0.4~0.8.

        1.2 NLP 文本處理

        資源描述框架可通過斷言三元組表示為

        下文簡稱SPO.斷言的主語必須通過通用資源標識符 (uniform resource identifier,URI)識別.謂語必須在詞匯表中定義,以便與詞匯表的名稱空間URI關聯.賓語可以通過URI或文本識別,如果該賓語是另一個斷言的主語,則其必須通過URI識別.謂語的主要作用是定義主語和賓語之間的關系.通過NLP文本處理工具處理大量文本數據得到相應的斷言三元組.

        1.3 HBASE存儲

        根據斷言三元組設計成不同的HBASE表結構:SPO(主謂賓)、POS(謂賓主)與OSP(賓主謂).3張表的表定義相同,每張表只包含一個簇列(分布式數據庫的訪問控制單元),每行數據均存儲在一個簇列中.區(qū)別在于所存放的數據不同,SPO表的分布式數據庫的主鍵是(主語,謂語),簇列中存放賓語值;POS表的分布式數據庫的主鍵是(謂語,賓語),簇列中存放主語值;OSP表的分布式數據庫的主鍵是(賓語,主語),簇列中存放謂語值.將NLP文本處理得到的斷言三元組,根據其位置關系及內容存儲至對應的SPO、POS或OSP表中.

        1.4 基于rough本體的分布式語義相似度計算算法

        將處理得到的SPO近似空間的整個個體全集U劃分成等價類集合,即以屬性集Q作為等價關系構造近似空間所得到的結果.

        定義1 對于概念A,其等價概念集R(A)為所有(S,P,O)三元組中P(O,S)=A的概念的集合,即

        定義2 概念A的上近似概念集

        定義3 概念A的下近似概念集

        定義4 概念A與概念B的粗糙相似度S(A,B)為概念A、B的上近似概念集的交集與概念A、B下近似概念集的交集之和,即

        通過上下近似關系可進一步得到

        其中sum(·)表示概念出現的次數.

        本文算法具體步驟如下:

        步驟1 通過HBASE簇分割數據至HBASE每個子域.

        步驟2 映射.

        1)通過各個子域U i計算概念A,B的等價概念子集R i(A),Ri(B);

        2)參考定義2,3計算概念A,B在每個子域里的上下近似概念集R*i(A),(A),R*i(B),(B);

        3)計算在每個子域里概念A,B的相似度

        步驟3 約簡.統(tǒng)計所有子域的相似度,加權求和得到概念A,B的相似度

        2 實驗結果與分析

        通過遠程教育領域的相關數據測試本文算法,初始網頁地址集合選取了教育領域內比較著名的幾個網站,如中國現代遠程與繼續(xù)教育網、中國遠程教育網、21互聯遠程教育網、中國農村遠程教育網等,將其網址作為Nutch搜索的輸入.抓取網站中涉及遠程教育資源的頁面,參考幾個主要網站中重要詞匯表選取遠程教育資源的重要概念,如課件、試題、教案、素材、問題、答疑、名師、測評、名師課堂、教學視頻、試聽課程、論文、備課筆記、聽課筆記、教育禮儀、教學媒體、學習難點、相似課程、隨堂問題、課堂反饋、輔導、信譽評價、學員動態(tài)、學生作品、教育評估、模擬考試、技能培訓等.根據Nutch垂直搜索算法,篩選出有效頁面1 235個,然后對這些頁面采用SPO三元組參考重要概念進行數據提取,得到37 542個三元組存入HBASE,依據公式(8)分為10個子域循環(huán)計算每兩個重要概念間的相似度,最后對每個子域的計算值進行加權求和得到每兩個概念的相似度,并與基于Word Net語義相似度[11]的計算結果進行比較,部分結果如表1所示.

        由表1可見,本文算法相比簡單的關鍵詞匹配算法相似度較高,且在進行大量數據處理時效率較高.

        表1 語義相似度計算結果Tab.1 Result of computation

        3 結語

        本文提出了一種基于分布式rough本體的語義相似度計算方法,其相似度計算準確率較一般語義相似度計算方法高,且處理效率高,為大量數據的查詢處理提供了新的方法,對于構建領域本體具備較強的借鑒意義.然而,本文在進行SPO三元組數據提取時,未考慮謂語詞匯對概念的影響,一定程度上影響了概念間相似度的準確值,今后將在謂語詞匯對語義相似度的影響及領域本體的自動化構建方面作進一步的研究.

        [1]BERNERS-LEE T.Long live the web:a call for continued open standards and neutrality[J].Sci Am,2010,303(6):80-85.

        [2]BERNERS-LEE T,HENDLER J,LASSILA O.The semantic web:a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities[J].Sci Am,2001,284(5):34-43.

        [3]HITZLER P,HARMELEN F V.A reasonable semantic web[J].Semant Web,2010,1(1):39-44.

        [4]孫茂圣,朱俊武,李斌.一個基于agent組織的web服務集成框架 [J].揚州大學學報:自然科學版,2009,12(4):60-65.

        [5]TAGARELLI A,GULLO F.Evaluating PageRank methods for structural sense ranking in labeled tree data[C]//Proceedings of the 2nd International Conference on Web Intelligence,Mining and Semantics.New York,USA:ACM,2012:129-174.

        [6]徐健,方安,洪娜.一種基于詞語相似度計算的本體映射方法 [J].現代圖書情報技術,2013,29(2):36-42.

        [7]李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應用 [J].計算機工程與設計,2007,28(1):227-229.

        [8]夏天.漢語詞語語義相似度計算研究 [J].計算機工程,2007,33(6):191-194.

        [9]SLOWINSKI R,GRECO S,MATARAZZO B.Rough sets in decision making[M]//MEYERS R A.Encyclopedia of complexity and systems science.New York:Springer,2009:7753-7787.

        [10]ISHIZU S,GEHRMANN A,NAGAI Y,et al.Rough ontology:Extension of ontologies by rough sets[M]//HUTCHISON D,KANADE T,KITTLER J,et al.Lecture notes in computer science.Berlin:Springer-Verlag,2007,4557:456-462.

        [11]ZHAO Lihua,ICHISE R.Aggregation of similarity measures in ontology matching[C]//The 5th International Workshop on Ontology Matching.Shanghai:[s.n.],2010:423-441.

        A distributed computing method of semantic similarity based on rough ontology

        CHANG Baoxian,CHEN Weiwei,LI Sujuan*

        (Coll of Sci,Nanjing Univ of Technol,Nanjing 211816,China)

        This paper presents a distributed computing method of semantic similarity based on rough ontology and improves the precision according to ontology,the completeness according to the upper approximation and low approximation of rough theory.It also improves the independence according to distributed data processing.An experiment of gathering web pages automatically of remote education is used to construct domain rough ontology and compute the semantic similarity.The experiment shows that the algorithm not only reduces the dependence of domain experts,but also greatly enhances the rates of completeness and precision.

        rough ontology;semantic similarity;distributed;remote education

        TP 311.51

        A

        1007-824X(2014)01-0060-03

        2013-09-05.* 聯系人,E-mail:lisujuan1978@126.com.

        江蘇省高校自然科學基金資助項目(11KJB520006).

        常寶嫻,陳瑋瑋,李素娟.一種基于分布式rough本體的語義相似度計算方法 [J].揚州大學學報:自然科學版,2014,17(1):60-62,66.

        (責任編輯 林 子)

        猜你喜歡
        子域三元組謂語
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
        非謂語動詞
        基于鏡像選擇序優(yōu)化的MART算法
        電子學報(2022年2期)2022-04-18 14:42:24
        基于子域解析元素法的煤礦疏降水量預測研究
        煤炭工程(2021年7期)2021-07-27 09:34:20
        非謂語動詞
        關于余撓三元組的periodic-模
        一種基于壓縮感知的三維導體目標電磁散射問題的快速求解方法
        物理學報(2018年10期)2018-06-14 08:48:48
        非謂語動詞題不難答 石娟
        非謂語動詞
        亚洲精品无码乱码成人| 日本人妻系列中文字幕| 国产欧美va欧美va香蕉在线| 粗大猛烈进出高潮视频| 亚洲欧美国产日韩天堂在线视| 久久精品美女久久| 久久精品国产亚洲av天美| 国产毛多水多高潮高清| 越南女子杂交内射bbwxz| 亚洲ⅤA中文字幕无码| 亚洲精品综合一区二区| 超碰国产精品久久国产精品99| 欧美a级情欲片在线观看免费| 欧美日韩中文制服有码| 五月婷婷激情六月开心| 日本男人精品一区二区| 人妻聚色窝窝人体www一区| 亚洲综合无码| 亚洲国产不卡免费视频| 久久午夜精品人妻一区二区三区| 99久久人妻精品免费二区| 国产精品成人午夜久久| 国产亚洲精品综合一区二区| 国产精品国产三级国产aⅴ下载| 8av国产精品爽爽ⅴa在线观看| 日本久久久久| 中文字幕一区二区三区| 大ji巴好深好爽又大又粗视频| 国产亚洲av片在线观看18女人| 午夜无码片在线观看影院y | 精品中文字幕制服中文| 色婷婷久久综合中文久久一本| 99久久精品免费看国产| 欧美丰满熟妇乱xxxxx图片| 欧美亚洲另类国产18p| 亚洲av迷人一区二区三区| 亚洲av无码国产精品色软件下戴 | 免费看av网站在线亚洲| 国产一区二区三区乱码| 欧美激情五月| 日本一区二区啪啪视频|