亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)站結(jié)構(gòu)的領(lǐng)域本體學(xué)習(xí)方法

        2014-12-31 00:00:00馬莉陳志新

        摘 要:為了完善問答系統(tǒng)、搜索平臺等信息檢索系統(tǒng)對本體的應(yīng)用需求,提出了一種基于網(wǎng)站結(jié)構(gòu)的領(lǐng)域本體學(xué)習(xí)方法,該方法對網(wǎng)站結(jié)構(gòu)進(jìn)行分析,通過挖掘網(wǎng)站結(jié)構(gòu)中所隱藏的知識進(jìn)行本體學(xué)習(xí),實踐證明該方法可以更快、更準(zhǔn)確地獲取特定領(lǐng)域中的概念、概念層次以及概念間的非分類關(guān)系,最終幫助構(gòu)建本體。

        關(guān)鍵詞:本體學(xué)習(xí);網(wǎng)站結(jié)構(gòu);非分類關(guān)系

        中圖分類號:TP181

        本體是目前知識表示和知識推理的一個重要研究課題,已在眾多領(lǐng)域得到應(yīng)用。本體構(gòu)建是本體應(yīng)用的基礎(chǔ),目前已經(jīng)有許多本體構(gòu)建工具(如0ntoligua、WebOnto、Protégé、OntoEdit等),雖然這些工具提供了友好的圖形界面,為本體構(gòu)建提供了方便,但總的來說仍然是一種手工構(gòu)建的方式。為了降低本體建立的開銷,自動或者半自動地構(gòu)建本體成為了本體研究領(lǐng)域的一個重要方向——本體學(xué)習(xí)(Ontology Learning)。

        本體學(xué)習(xí)是利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),自動或半自動地從不同結(jié)構(gòu)的數(shù)據(jù)源中獲取領(lǐng)域中的概念、關(guān)系和公理[1]。國內(nèi)外已有許多專家學(xué)者展開了對它的研究,且出現(xiàn)了一些本體學(xué)習(xí)工具:如OntoLearn[2]、OntoBuilder、Text-To-Onto、Hasti。本文主要研究這種基于網(wǎng)站結(jié)構(gòu)的領(lǐng)域本體學(xué)習(xí)方法。

        1 本體學(xué)習(xí)

        本體學(xué)習(xí)可以分為三個部分:本體學(xué)習(xí)的數(shù)據(jù)源、本體學(xué)習(xí)的方法、本體的學(xué)習(xí)對象。根據(jù)數(shù)據(jù)源的結(jié)構(gòu)化程度將本體學(xué)習(xí)的數(shù)據(jù)源分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。針對不同的數(shù)據(jù)源應(yīng)采用不一樣的學(xué)習(xí)技術(shù)。本體學(xué)習(xí)對象即利用本體學(xué)習(xí)方法從數(shù)據(jù)源中學(xué)到的對象,主要包括概念、概念間關(guān)系以及公理。通常又將概念間的關(guān)系分為分類關(guān)系與非分類關(guān)系,分類關(guān)系即概念層次關(guān)系[1]。目前大部分本體學(xué)習(xí)的方法主要有三個步驟:(1)獲取領(lǐng)域中概念;(2)獲取概念的分類關(guān)系,即得到概念層次結(jié)構(gòu);(3)獲取概念間的非分類關(guān)系。

        2 基于網(wǎng)站結(jié)構(gòu)的本體學(xué)習(xí)方法

        已有的基于Web的本體學(xué)習(xí)方法大都以網(wǎng)頁中的文本作為學(xué)習(xí)的數(shù)據(jù)源,其中一種思路是利用自然語言處理、統(tǒng)計分析、模式匹配等技術(shù)從文本中獲取概念、關(guān)系,另一種思路則是利用形式概念分析技術(shù),將網(wǎng)頁中的文本看作形式背景,利用形式概念分析技術(shù)獲取領(lǐng)域的概念及概念的層次關(guān)系。事實上,網(wǎng)站作為一種特殊的語料庫,相比于百科全書等靜態(tài)知識,它不僅有文本描述,還具有一定的結(jié)構(gòu),在網(wǎng)站的結(jié)構(gòu)中已經(jīng)隱含了許多領(lǐng)域知識,不需要十分復(fù)雜的技術(shù)和過程就可以提取這些知識,從而可以幫助更快地構(gòu)建本體。

        2.1 總體架構(gòu)?;诰W(wǎng)站結(jié)構(gòu)的本體學(xué)習(xí)方法的框架包含如下幾個步驟:首先分析某特定領(lǐng)域的多個網(wǎng)站的結(jié)構(gòu),分別得到網(wǎng)站的層次結(jié)構(gòu)圖,該圖中包含了領(lǐng)域的基本術(shù)語及層次關(guān)系,對網(wǎng)站層次結(jié)構(gòu)圖中的術(shù)語進(jìn)行修剪、合并,得到領(lǐng)域中的概念,形成領(lǐng)域的輕量級本體;然后分析網(wǎng)站層次結(jié)構(gòu)最底層的對象(實例)頁面的結(jié)構(gòu),得到概念的數(shù)值屬性;接下來分析對象(實例)頁面的內(nèi)容,確定擁有關(guān)系的概念對,并給這些概念對打上語義標(biāo)簽。最后領(lǐng)域的概念、概念的層次關(guān)系、概念的非分類關(guān)系構(gòu)建了最終的領(lǐng)域本體。

        2.2 構(gòu)建輕量級本體(Lightweight Ontologies)。通過觀察、總結(jié)眾多的特定領(lǐng)域網(wǎng)站(如汽車、手機(jī)、旅游),筆者發(fā)現(xiàn),大多數(shù)網(wǎng)站都擁有像地圖一樣的結(jié)構(gòu),這種結(jié)構(gòu)按層次從上到下,引導(dǎo)用戶從主頁逐步瀏覽網(wǎng)站的各個頁面,本文將這種結(jié)構(gòu)稱為網(wǎng)站的層次結(jié)構(gòu)。這種層次結(jié)構(gòu)是開發(fā)者使用分類學(xué)(Taxonomy)方法將領(lǐng)域信息進(jìn)行層次劃分,每層確定一個主題而得到的。在知識分類中,本體與分類學(xué)(Taxonomy)本來就具有相通性,所以以分類學(xué)為基礎(chǔ)的網(wǎng)站層次結(jié)構(gòu)實際上已經(jīng)擁有了領(lǐng)域本體中的基本概念和概念層次知識,所以可以利用網(wǎng)站的層次結(jié)構(gòu)來構(gòu)建領(lǐng)域的輕量級本體。以“太平洋汽車網(wǎng)”為例,該網(wǎng)站的層次結(jié)構(gòu)如圖1所示,由此層次結(jié)構(gòu)而形成的汽車商務(wù)領(lǐng)域的輕量級本體如圖2所示:

        2.3 獲取數(shù)值屬性。在語料庫里屬性一般用來描述某一對象(實例)的特性,通過分析網(wǎng)站結(jié)構(gòu),對象(實例)頁面已經(jīng)分離出來,所以利用網(wǎng)站的層次結(jié)構(gòu)可以迅速地找到實例對象(實例),為獲取概念的屬性提供了方便。數(shù)值屬性是描述對象與數(shù)值之間的關(guān)系,這類知識在網(wǎng)頁中較容易被發(fā)現(xiàn)。通過分析網(wǎng)站中網(wǎng)頁結(jié)構(gòu),數(shù)值屬性在網(wǎng)頁中多以某個實例的參數(shù)表的形式體現(xiàn),如在“太平洋汽車網(wǎng)”中,對象“騰翼C30 1.5L MT標(biāo)準(zhǔn)型”的發(fā)動機(jī)、底盤、外觀等參數(shù)均以參數(shù)表的形式體現(xiàn)在網(wǎng)頁上,這些參數(shù)即“汽車車型”這個概念的數(shù)值屬性,所以通過在對象(實例)頁面中搜索具有表格結(jié)構(gòu)特點的網(wǎng)頁再進(jìn)行分析可以快速找到某個概念的數(shù)值屬性。

        2.4 獲取非分類關(guān)系(對象屬性)。對象屬性是用來描述兩個對象之間的關(guān)系,從第2節(jié)可知對象屬性就是概念間的非分類關(guān)系,常見的非分類關(guān)系如“部分與整體關(guān)系”、“上下位關(guān)系”、“等價關(guān)系”等。概念間非分類關(guān)系的獲取一直是是本體學(xué)習(xí)的難點,也是研究的重點。國內(nèi)外已有對非分類關(guān)系學(xué)習(xí)的相關(guān)研究,但總的來說目前該方向還處于探索階段。通過總結(jié),概念間非分類關(guān)系的學(xué)習(xí)可以定義為一個四元組(C,K,A,R),其中C是領(lǐng)域中概念的集合,K是語料庫、知識源,A是非分類關(guān)系學(xué)習(xí)算法,R是通過算法得到的非分類關(guān)系結(jié)果集,R={(a,b)|a C,b C且滿足has_relation(a,c)}。

        3 實驗

        為了驗證本文方法的有效性,本文以“太平洋汽車網(wǎng)”、“汽車之家”、“易車網(wǎng)”等網(wǎng)站作為本體學(xué)習(xí)的數(shù)據(jù)源。通過網(wǎng)站的層次結(jié)構(gòu)分析獲得“汽車商務(wù)領(lǐng)域”的輕量級本體,該本體含有“汽車商務(wù)領(lǐng)域”的36個概念;通過對網(wǎng)站對象頁面的結(jié)構(gòu)分析,獲得了該領(lǐng)域127個數(shù)值屬性;使用本文的非分類關(guān)系獲取方法獲得28個概念間的非分類關(guān)系。最后筆者將構(gòu)建好的“汽車商務(wù)領(lǐng)域本體”應(yīng)用到了“汽車商務(wù)領(lǐng)域問答系統(tǒng)”當(dāng)中,該系統(tǒng)可以很好回答用戶對“汽車商務(wù)領(lǐng)域”的自然語言提問。

        4 結(jié)束語

        本文提出了一種基于網(wǎng)站結(jié)構(gòu)的本體學(xué)習(xí)方法,利用網(wǎng)站結(jié)構(gòu)逐步從網(wǎng)站中挖掘本體的概念、概念層次、非分類關(guān)系。此方法實用性較強(qiáng),但主要針對一些主題比較鮮明的網(wǎng)站,不具有通用性,且在本體學(xué)習(xí)的過程中,需要知識工程師的輔助才能完成最終本體的生成,今后的工作要進(jìn)一步提高本體學(xué)習(xí)的自動化程度。

        參考文獻(xiàn):

        [1]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報,2006(09):1838-1839.

        [2]Navigli R,Velardi P,Gangemi A.Ontology learning and it s application to automated terminology translation[J].IEEE IntelligentSystems,2003(01):22-31.

        作者簡介:馬莉(1985-),女,講師,碩士,研究方向:問答系統(tǒng)、本體;陳志新(1982-),男,講師,碩士,研究方向:知識建模。

        作者單位:桂林電子科技大學(xué) 信息科技學(xué)院,廣西桂林 541004

        基金項目:本文受廣西教育廳科研項目——基于旅游問答系統(tǒng)的手機(jī)短信平臺(項目編號:201106LX189)資助。

        亚洲影院在线观看av| 综合久久给合久久狠狠狠97色| 国产精品久久久久尤物| 亚洲黄色一插一抽动态图在线看| 日本免费在线一区二区三区| 蜜桃日本免费看mv免费版| 欧美午夜精品久久久久免费视| 亚洲蜜芽在线精品一区| 五月婷婷开心六月激情| 国产两女互慰高潮视频在线观看 | 97丨九色丨国产人妻熟女| 性生交大片免费看淑女出招| 精品欧美久久99久久久另类专区| 在线亚洲国产一区二区三区| 麻豆精品国产av在线网址| 国产精品自在线拍国产| 亚洲精品国产国语| 亚洲一区二区日韩精品| 国产激情无码视频在线播放性色| 乱人伦中文字幕成人网站在线| 毛片一级精油按摩无码| 一本色道久久88加勒比| 毛片免费视频在线观看| 香蕉色香蕉在线视频| 亚洲国产不卡免费视频| 图片小说视频一区二区| 国产午夜精品一区二区三区不卡| 日韩最新在线不卡av| 国产蜜桃传媒在线观看| 久久国产免费观看精品3| 亚洲欧美精品91| 久久综合老鸭窝色综合久久 | 成在线人免费视频| 久久免费大片| 久久99国产精品久久99密桃| av无码一区二区三区| 亚洲肥老太bbw中国熟女| 亚洲av第一区综合激情久久久| 精品人妻码一区二区三区剧情| 欧美大黑帍在线播放| 人人爽亚洲aⅴ人人爽av人人片|