亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義標(biāo)注的數(shù)據(jù)資源庫(kù)元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估方法研究

        2018-07-05 02:42:24郭曉明馬良荔孫煜飛海軍工程大學(xué)計(jì)算機(jī)工程系湖北武漢430033
        關(guān)鍵詞:語(yǔ)義數(shù)據(jù)庫(kù)

        郭曉明 馬良荔 蘇 凱 孫煜飛(海軍工程大學(xué)計(jì)算機(jī)工程系 湖北 武漢 430033)

        0 引 言

        元數(shù)據(jù)因其可以描述海量原始數(shù)據(jù)信息,起到簡(jiǎn)化問(wèn)題的作用,是各領(lǐng)域信息資源常用的組織方式。在語(yǔ)義網(wǎng)中,存在大量的面向應(yīng)用的各種數(shù)據(jù)庫(kù),蘊(yùn)涵著數(shù)量巨大的重復(fù)和語(yǔ)義異構(gòu)元數(shù)據(jù)信息[1],那么提高元數(shù)據(jù)質(zhì)量成為數(shù)據(jù)集成應(yīng)考慮的重點(diǎn),如何使元數(shù)據(jù)描述信息更加全面、高效可用,基于本體的語(yǔ)義標(biāo)注方法給元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估提供了思路。本體的類(lèi)、子類(lèi)對(duì)應(yīng)與元數(shù)據(jù)的元素、子元素,本體也可以按照元數(shù)據(jù)的方式進(jìn)行描述。同樣,元數(shù)據(jù)也可作為本體的描述對(duì)象,對(duì)關(guān)系型數(shù)據(jù)庫(kù)元數(shù)據(jù)進(jìn)行基于本體的語(yǔ)義標(biāo)注,通過(guò)元數(shù)據(jù)與本體之間的自動(dòng)映射轉(zhuǎn)換為具有統(tǒng)一標(biāo)識(shí)的語(yǔ)義數(shù)據(jù)[2],將生成語(yǔ)義元數(shù)據(jù)存放數(shù)據(jù)庫(kù)中??捎糜跇?biāo)注的元數(shù)據(jù)為可用元數(shù)據(jù),標(biāo)記后生成的語(yǔ)義元數(shù)據(jù)更能表達(dá)數(shù)據(jù)庫(kù)表的語(yǔ)義信息,從而提高數(shù)據(jù)資源庫(kù)元數(shù)據(jù)的質(zhì)量。因此,本文在基于元數(shù)據(jù)信息組織的基礎(chǔ)上,研究關(guān)系型數(shù)據(jù)庫(kù)元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估方法,提出了基于相似度計(jì)算的數(shù)據(jù)庫(kù)元數(shù)據(jù)語(yǔ)義標(biāo)注算法進(jìn)行元數(shù)據(jù)自動(dòng)語(yǔ)義標(biāo)注。通過(guò)對(duì)數(shù)據(jù)庫(kù)關(guān)系表元數(shù)據(jù)和本體類(lèi)之間的相似度計(jì)算來(lái)實(shí)現(xiàn)數(shù)據(jù)庫(kù)元數(shù)據(jù)的自動(dòng)語(yǔ)義標(biāo)注。經(jīng)標(biāo)注后生成的語(yǔ)義元數(shù)據(jù)單獨(dú)存放,作為數(shù)據(jù)庫(kù)中關(guān)系表的語(yǔ)義標(biāo)簽。

        1 相關(guān)工作

        對(duì)關(guān)系型數(shù)據(jù)庫(kù)自動(dòng)語(yǔ)義標(biāo)注的研究隨著本體研究展開(kāi),現(xiàn)有的方法多是研究關(guān)系型數(shù)據(jù)庫(kù)模式和本體模式之間的模式轉(zhuǎn)換[3-4],常用方法及已有的轉(zhuǎn)換工具如下:

        (1) 關(guān)系數(shù)據(jù)庫(kù)模式轉(zhuǎn)換成本體模型 FDR2# Kit[5]工具是關(guān)系數(shù)據(jù)庫(kù)模式和本體間映射早期研究的代表,許多后續(xù)工作繼承了它的基本思想。主要工作是先自動(dòng)地將關(guān)系數(shù)據(jù)庫(kù)模式轉(zhuǎn)換為本體的形式表達(dá),然后手工構(gòu)建兩者之間的簡(jiǎn)單對(duì)應(yīng)。浙江大學(xué)開(kāi)發(fā)的一套針對(duì)中醫(yī)藥領(lǐng)域的集成系統(tǒng)DartGrid[6]是其具體應(yīng)用。文獻(xiàn)[7]提出了基于本體和Karma建模的快速集成方法,通過(guò)Karma建模構(gòu)建語(yǔ)義模型,發(fā)布成統(tǒng)一RDF數(shù)據(jù)和R2RML模型。文獻(xiàn)[8]采用模式映射的方法從裝備數(shù)據(jù)庫(kù)中生成初始局部本體,通過(guò)本體映射對(duì)領(lǐng)域本體進(jìn)行規(guī)范化處理。

        (2) 利用中間模型轉(zhuǎn)換 關(guān)系數(shù)據(jù)庫(kù)到一個(gè)中間模型的映射和本體到另一個(gè)中間模型映射,通過(guò)兩中間模型之間的映射,實(shí)現(xiàn)兩模式之間的轉(zhuǎn)換[9]。以Web-PDDL 語(yǔ)言描述的中間模型為媒介的OntoGrate系統(tǒng)[10];以樹(shù)狀結(jié)構(gòu)模型為中間轉(zhuǎn)換模型的MAPONTO映射工具[11]。文獻(xiàn)[12]提出基于中間模型的映射算法,通過(guò)模型解析轉(zhuǎn)換、映射規(guī)則設(shè)計(jì)、映射策略選擇、映射關(guān)系表達(dá)等最終獲得二者的映射關(guān)系。

        (3) 本體模式與數(shù)據(jù)庫(kù)模式語(yǔ)義映射 建立數(shù)據(jù)庫(kù)模式和本體模式之間的語(yǔ)義映射,生成語(yǔ)義元數(shù)據(jù)作為語(yǔ)義映射的模板,以文件的形式存放在模板庫(kù)中,實(shí)現(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù)實(shí)例到本體實(shí)例的自動(dòng)轉(zhuǎn)換。文獻(xiàn)[13]提出一種對(duì)Web數(shù)據(jù)庫(kù)查詢結(jié)果進(jìn)行語(yǔ)義標(biāo)注的方法。文獻(xiàn)[14]提出了構(gòu)建能夠描述語(yǔ)義映射信息的語(yǔ)義元數(shù)據(jù);文獻(xiàn)[15]提出利用領(lǐng)域本體對(duì)關(guān)系型數(shù)據(jù)庫(kù)的元數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注的方法實(shí)現(xiàn)兩模式之間的轉(zhuǎn)換。文獻(xiàn)[16]提出一種面向領(lǐng)域本體非分類(lèi)關(guān)系的語(yǔ)義相關(guān)度計(jì)算方法。該方法在數(shù)據(jù)屬性和對(duì)象屬性兩個(gè)方面分別計(jì)算語(yǔ)義相關(guān)度的方法。

        上述方法多是以手工建立數(shù)據(jù)庫(kù)模式和本體模式之間的對(duì)應(yīng)關(guān)系,不適用現(xiàn)在自動(dòng)本體標(biāo)注的需要。文獻(xiàn)[14-16]雖提到了自動(dòng)標(biāo)注,但僅僅是數(shù)據(jù)庫(kù)表名與字段名所呈現(xiàn)的語(yǔ)義信息與本體概念之間的直接轉(zhuǎn)換,是對(duì)表示描述數(shù)據(jù)表的元數(shù)據(jù)進(jìn)行了語(yǔ)義標(biāo)注,對(duì)描述表之間復(fù)雜關(guān)系的元數(shù)據(jù)沒(méi)有提及。

        2 數(shù)據(jù)庫(kù)元數(shù)據(jù)語(yǔ)義標(biāo)注框架

        數(shù)據(jù)庫(kù)元數(shù)據(jù)語(yǔ)義標(biāo)注通用的語(yǔ)義標(biāo)注流程如圖1所示。針對(duì)各種規(guī)模的關(guān)系數(shù)據(jù)庫(kù)經(jīng)預(yù)處理后進(jìn)行元數(shù)據(jù)自動(dòng)提取算法得到元數(shù)據(jù),利用本體庫(kù)中通用的知識(shí)概念對(duì)元數(shù)據(jù)進(jìn)行語(yǔ)義發(fā)現(xiàn)和標(biāo)注,使得標(biāo)注后的元數(shù)據(jù)含有豐富的語(yǔ)義信息,能夠?yàn)檎Z(yǔ)義集成系統(tǒng)提供數(shù)據(jù)庫(kù)的相關(guān)語(yǔ)義信息。數(shù)據(jù)庫(kù)語(yǔ)義標(biāo)注的方法研究多數(shù)是采用數(shù)據(jù)庫(kù)模式和本體模式的語(yǔ)義映射實(shí)現(xiàn)的,本文提出了新的語(yǔ)義標(biāo)注方案,將在第3節(jié)中詳細(xì)介紹。

        圖1 數(shù)據(jù)庫(kù)元數(shù)據(jù)語(yǔ)義標(biāo)注通用流程

        3 數(shù)據(jù)庫(kù)元數(shù)據(jù)自動(dòng)語(yǔ)義標(biāo)注算法

        關(guān)系數(shù)據(jù)庫(kù)原語(yǔ)和OWL DL本體的邏輯基礎(chǔ)都是一階邏輯,建立關(guān)系數(shù)據(jù)庫(kù)模式和本體間的映射在理論上是可行的。多數(shù)的映射方法是發(fā)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)模式中表、列和本體中的類(lèi)、屬性之間一對(duì)一簡(jiǎn)單映射。本文提出的方法通過(guò)引入關(guān)系數(shù)據(jù)庫(kù)模式和本體間結(jié)構(gòu)特征來(lái)體現(xiàn)它們對(duì)應(yīng)的語(yǔ)義信息,基于簡(jiǎn)單映射查找多對(duì)多的復(fù)雜映射,從而實(shí)現(xiàn)本體對(duì)數(shù)據(jù)庫(kù)表的語(yǔ)義標(biāo)注。

        數(shù)據(jù)庫(kù)表的元數(shù)據(jù)包括:表(對(duì)象實(shí)體E)、字段(屬性)、數(shù)據(jù)類(lèi)型、表約束、主鍵、外鍵等。但這些元數(shù)據(jù)無(wú)法完成對(duì)表和字段的語(yǔ)義描述,利用本體對(duì)其進(jìn)行語(yǔ)義標(biāo)注,生成能夠表達(dá)關(guān)系表結(jié)構(gòu)和內(nèi)容語(yǔ)義信息的語(yǔ)義元數(shù)據(jù)。一般而言,數(shù)據(jù)表可以映射到本體類(lèi);關(guān)系表的字段可以映射到本體屬性;如果屬性是外鍵類(lèi)型屬性,可以映射到本體中的一個(gè)對(duì)象屬性,而非外鍵型屬性可以映射到本體中的數(shù)據(jù)類(lèi)型屬性或?qū)ο髮傩?。?shù)據(jù)庫(kù)模式與本體模式之間的簡(jiǎn)單映射如圖2所示。

        圖2 數(shù)據(jù)庫(kù)模式與本體模式轉(zhuǎn)換流程

        本節(jié)提出了基于相似度計(jì)算的語(yǔ)義標(biāo)注算法DMSAAS(Database Metadata Semantic Annotation Algorithm based on Similarity),不但考慮表元數(shù)據(jù)和本體類(lèi)之間的概念相似性,也考慮表關(guān)聯(lián)關(guān)系與類(lèi)關(guān)聯(lián)關(guān)系之間結(jié)構(gòu)的相似性,通過(guò)該算法找到更為準(zhǔn)確的相關(guān)本體類(lèi)。關(guān)系表和表的字段元數(shù)據(jù)蘊(yùn)含著部分領(lǐng)域概念、概念之間的關(guān)系及屬性,與本體中的類(lèi)和屬性存在對(duì)應(yīng)關(guān)系,要對(duì)這些元數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注,就是建立元數(shù)據(jù)與領(lǐng)域本體概念的語(yǔ)義映射,圖3為關(guān)系數(shù)據(jù)庫(kù)和本體的示例。

        圖3 關(guān)系數(shù)據(jù)庫(kù)和本體的示例

        語(yǔ)義標(biāo)注的過(guò)程事實(shí)上就是計(jì)算元數(shù)據(jù)語(yǔ)義信息與本體的相似度。在本文中,關(guān)系表和類(lèi)、外鍵列和屬性名都是考慮名稱(chēng)的相似度,名稱(chēng)的相似度計(jì)算通用方法是使用基于字符串的相似度計(jì)算方法。

        (1) 基于字符串的相似度計(jì)算:

        基于字符串相似度計(jì)算的思想是:兩個(gè)元素名稱(chēng)的字符串越相似,則這兩個(gè)名稱(chēng)越相似。最常用、最傳統(tǒng)的是基于編輯距離ED(Edit Distance)[15]的計(jì)算方法。

        編輯距離算法是把一個(gè)字符串S={s1,s2,…,sn}轉(zhuǎn)換成另一個(gè)字符串U={u1,u2,…,un}所需要的最少操作數(shù)目,包括對(duì)字符的插入、剔除、替換操作。編輯距離的語(yǔ)義相似度的計(jì)算方法為:

        (1)

        式中:s表示源字符串,u表示目標(biāo)字符串,ED(s,u)表示s與u間的編輯距離,maxlength(s,u)表示s,u之間的最大長(zhǎng)度。

        最長(zhǎng)公共子序列LCS(longest commom substring) 計(jì)算方法,是尋找兩個(gè)字符串s與u間最長(zhǎng)的公共子串,用LCS(s,u)表示,通過(guò)式(1)計(jì)算它們的相似度,長(zhǎng)度越長(zhǎng)相似度越高:

        (2)

        最終,經(jīng)歸一化處理后,名稱(chēng)相似度的計(jì)算方法是對(duì)SimED(s,u)和SimLCS(s,u)加權(quán)平均得到如下式:

        Simname(s,u)=SimED(s,u)×ω1+SimLCS(s,u)×ω2

        (3)

        式中:ω1和ω2是可調(diào)節(jié)參數(shù),ω1+ω2=1,ω1和ω2的取值可根據(jù)具體實(shí)驗(yàn)需求人工進(jìn)行調(diào)整,文獻(xiàn)[15]中總結(jié)出一般情況下,取ω1=0.6,ω2=0.4。

        (2) 計(jì)算表和本體類(lèi)的結(jié)構(gòu)相似度:

        當(dāng)關(guān)系數(shù)據(jù)庫(kù)的表和本體的類(lèi)相似時(shí),表的列和本體類(lèi)的屬性應(yīng)該是相似的,同它們各自“關(guān)聯(lián)”的表和類(lèi)之間的相似性,如圖3所示。數(shù)據(jù)庫(kù)中表與表之間的關(guān)聯(lián)是通過(guò)外鍵來(lái)表達(dá),對(duì)于本體而言,類(lèi)與類(lèi)之間的關(guān)聯(lián)是通過(guò)屬性和關(guān)系來(lái)表達(dá),因此計(jì)算表和本體類(lèi)的結(jié)構(gòu)相似度就顯得十分重要。

        關(guān)系表t和本體類(lèi)oc的結(jié)構(gòu)相似度計(jì)算如下所示:

        simstr(t,oc)=simprop(t,oc)×ω1+simrel(t,oc)×ω2

        (4)

        式中:ω1+ω2=1,一般情況下,取ω1=0.6,ω2=0.4。

        simprop(t,oc)表示表t和本體類(lèi)oc各自屬性之間的相似度,設(shè)表t的屬性集合為A={a1,a2,…,an},本體類(lèi)oc的屬性集合為B={b1,b2,…,bm},計(jì)算公式為:

        (5)

        式中,a和b都是都表示屬性,simname(a,b)表示兩屬性之間的相似度,主要采取名稱(chēng)相似度計(jì)算方法,其計(jì)算公式取式(3)。

        simrel(t,oc)表示與表t和類(lèi)oc相“關(guān)聯(lián)”的表和類(lèi)之間的相似度,Trel表示與表t有關(guān)聯(lián)關(guān)系的表的集合,OCrel表示與本體類(lèi)oc通過(guò)屬性建立聯(lián)系的實(shí)體類(lèi)的集合。計(jì)算公式為:

        (6)

        式中:trel是與t連接的鄰接表,可用表名代表;OCrel表示與本體類(lèi)oc通過(guò)屬性建立聯(lián)系的實(shí)體類(lèi),也用類(lèi)名表示。simname(trel,ocrel)表示鄰接表和關(guān)聯(lián)本體類(lèi)之間的相似度,也采用名稱(chēng)相似度計(jì)算方法,其計(jì)算公式取式(3)。

        綜上,根據(jù)數(shù)據(jù)庫(kù)元數(shù)據(jù)和本體類(lèi)的對(duì)應(yīng)關(guān)系,應(yīng)綜合考慮兩因素:第一,考慮表對(duì)應(yīng)類(lèi),首先計(jì)算表名與本體類(lèi)概念名稱(chēng)相似度;第二,考慮到與表的結(jié)構(gòu)有關(guān)系的元素是屬性(字段)和相關(guān)聯(lián)的表,計(jì)算表與本體類(lèi)的結(jié)構(gòu)相似度。對(duì)數(shù)據(jù)庫(kù)表元數(shù)據(jù)的語(yǔ)義標(biāo)注,即尋求能描述表元數(shù)據(jù)語(yǔ)義信息的領(lǐng)域本體的類(lèi)(概念),可能是一類(lèi)也可能是多類(lèi)。

        結(jié)合上面討論,表與本體類(lèi)的語(yǔ)義相似度應(yīng)取式(3)和式(4)兩者的加權(quán)平均值:

        Sim(g,o)=Simname(g,o)×ω1+Simstruc(g,o)×ω2

        (7)

        式中:g表示表(表名或字段名),o表示本體實(shí)體,ω1和ω2表示權(quán)重,ω1+ω2=1根據(jù)實(shí)驗(yàn)或經(jīng)驗(yàn)得出ω1=0.3,ω2=0.7。

        利用上述的公式,對(duì)數(shù)據(jù)庫(kù)表進(jìn)行自動(dòng)語(yǔ)義標(biāo)注的DMSAAS算法流程如下:

        算法DMSAAS

        輸入:數(shù)據(jù)庫(kù)表元數(shù)據(jù),領(lǐng)域本體庫(kù)

        輸出:用于標(biāo)注的本體類(lèi)

        Step1抽取描述關(guān)系表的元數(shù)據(jù):表名,屬性名。

        Step2計(jì)算出與本體庫(kù)中所有本體類(lèi)的相似度,代入計(jì)算式(3)。

        Step3通過(guò)計(jì)算表的屬性集合與類(lèi)的屬性集合,表的鄰接表集合和類(lèi)的相關(guān)類(lèi)集合的相似度計(jì)算,通過(guò)式(4)得到表和本體類(lèi)的結(jié)構(gòu)相似度。

        Step4通過(guò)計(jì)算式(7),得到表的元數(shù)據(jù)與本體類(lèi)的語(yǔ)義相似度算法,取最大值。

        Step5如果最大值大于設(shè)定閾值,那么對(duì)應(yīng)的本體類(lèi)知識(shí)作為該項(xiàng)元數(shù)據(jù)的語(yǔ)義標(biāo)注信息,標(biāo)注成功。

        Step6如果最大值小于等于設(shè)定閾值,表示沒(méi)有與之匹配的本體,標(biāo)注失??;創(chuàng)建新的本體加入本體庫(kù),重新計(jì)算。

        Step7輸出用于標(biāo)注的本體類(lèi)。

        Step8算法結(jié)束。

        4 實(shí)驗(yàn)驗(yàn)證

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        為驗(yàn)證本文提出的數(shù)據(jù)庫(kù)語(yǔ)義標(biāo)注算法的有效性,本小節(jié)在公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)是MapOnto[17]項(xiàng)目測(cè)試集合中的用例,該測(cè)試集合中共有14組數(shù)據(jù)集,我們從中挑選4組作為測(cè)試數(shù)據(jù)集[18]:

        用例1:3SDB中關(guān)系數(shù)據(jù)庫(kù)模式3sdb1.sql.schema為基因表達(dá)分析生物樣本數(shù)據(jù)庫(kù)V1,本體文件3sdb1.owl為樣本數(shù)據(jù)庫(kù)V1的概念模型。

        用例2:DBLP 中的關(guān)系數(shù)據(jù)庫(kù)模式dblp1.sql.schema來(lái)自于 DBLP 計(jì)算機(jī)科學(xué)參考文獻(xiàn)數(shù)據(jù)庫(kù),本體Bibliographic-Data.owl來(lái)自斯坦福大學(xué) Ontolingua 服務(wù)器中有關(guān)參考文獻(xiàn)的本體。

        用例3:AMALGAM中關(guān)系數(shù)據(jù)庫(kù)模式amalgam1.sql.schema為混合出版物關(guān)系數(shù)據(jù)庫(kù),本體文件amalgam1.owl為混合出版物概念模型。

        用例4:University 的關(guān)系數(shù)據(jù)庫(kù)模式utcs.sql.schema來(lái)自多倫多大學(xué)計(jì)算機(jī)系的學(xué)生與工作人員學(xué)術(shù)部門(mén)數(shù)據(jù)庫(kù),本體univ-cs.owl來(lái)自于DAML本體庫(kù)中有關(guān)學(xué)術(shù)部門(mén)的本體。

        相關(guān)統(tǒng)計(jì)數(shù)據(jù)如表1所示。

        表1 MapOnto測(cè)試數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)

        實(shí)驗(yàn)?zāi)康模簷z測(cè)本文提出的語(yǔ)義標(biāo)注算法DMSAAS的有效性。

        實(shí)驗(yàn)參照:對(duì)測(cè)試數(shù)據(jù)集人工標(biāo)注的結(jié)果。

        評(píng)測(cè)參數(shù):通常是用精確度(precision)、召回率(recall)、F值度量(F-measure)來(lái)評(píng)價(jià)算法。

        (8)

        式中tp、fp、fn的含義如下:tp是發(fā)現(xiàn)正確的標(biāo)注;fp為發(fā)現(xiàn)的錯(cuò)誤標(biāo)注;fn為未發(fā)現(xiàn)的正確標(biāo)注。精確度表示經(jīng)算法標(biāo)注準(zhǔn)確表占實(shí)際所有被標(biāo)注表的比例。召回率表示經(jīng)算法標(biāo)注準(zhǔn)確表與應(yīng)該被正確標(biāo)注表的比例。其中,實(shí)際被標(biāo)注的表是經(jīng)本文算法標(biāo)注的結(jié)果,應(yīng)該被正確標(biāo)注的表是人工標(biāo)注的結(jié)果。

        4.2 實(shí)驗(yàn)結(jié)果及分析

        檢測(cè)本文提出的語(yǔ)義標(biāo)注算法DMSAAS在公共數(shù)據(jù)集上的語(yǔ)義標(biāo)注的結(jié)果,測(cè)試的標(biāo)準(zhǔn)映射結(jié)果由人工標(biāo)注給出,結(jié)果如表2所示。

        表2 實(shí)驗(yàn)結(jié)果

        由表2中結(jié)果可以看出,本文算法在數(shù)據(jù)集3DSB和AMALGAM取得了較好的效果,準(zhǔn)確率和查全率均達(dá)到100%。這是由于在這兩個(gè)數(shù)據(jù)集中數(shù)據(jù)庫(kù)中表的表名與本體中映射概念的概念名完全相同,且數(shù)據(jù)庫(kù)中表的非外鍵屬性名與本體中數(shù)值屬性相似度較高。如數(shù)據(jù)庫(kù)模式3sdb1.sql.schema中數(shù)據(jù)表Family_History中的ID屬性與本體文件3sdb1.owl中的histID,數(shù)據(jù)庫(kù)中的外鍵屬性與本體中的對(duì)象屬性在這兩組實(shí)例中存在此類(lèi)情況,尤其在AMALGAM用例中數(shù)據(jù)庫(kù)具備7組外鍵表對(duì)應(yīng)兩張數(shù)據(jù)表之間的關(guān)系;在數(shù)據(jù)庫(kù)模式文件amalgam1.sql.schema中外鍵表MiscPublished用于表述表Misc與表Author間的關(guān)系,在本體文件amalgam1中同樣存在對(duì)象屬性miscPublished用于表述概念Misc與概念A(yù)uthor間的關(guān)系,由于在這兩組用例的名稱(chēng)及結(jié)構(gòu)構(gòu)造較為類(lèi)似,使得本文的方法得分較高,取得較好的映射效果。

        對(duì)于DBLP用例,數(shù)據(jù)庫(kù)中表的名稱(chēng)不能完全與本體中概念的名稱(chēng)對(duì)應(yīng),如數(shù)據(jù)庫(kù)文件的editor表,在人工標(biāo)注情況下與本體中的Person對(duì)應(yīng)。由于本文的名稱(chēng)相似度算法僅基于字符串的相似度,未考慮語(yǔ)義的相似度,因此無(wú)法得到一部分映射,同時(shí)由于部分映射未發(fā)現(xiàn),導(dǎo)致在結(jié)構(gòu)相似度計(jì)算時(shí),與該種表存在外鍵關(guān)系的表與本體中的概念映射可能發(fā)生一定的錯(cuò)誤,使得對(duì)該用例的映射結(jié)果較用例1和用例3的結(jié)果有一定程度下降。

        對(duì)于University用例,在該用例的本體中存在多個(gè)概念名稱(chēng)中存在相同的詞匯,如AdministrativeStaff、ClericalStaff與SystemsStaff等,且這些概念的屬性信息相似度較高,使得數(shù)據(jù)庫(kù)中相應(yīng)的表,如technicalStaff計(jì)算名稱(chēng)和結(jié)構(gòu)相似度的得分超過(guò)閾值,從而被錯(cuò)誤的判斷為映射,使得本文方法在該用例中得分較低,僅為61.54%。同時(shí)由于數(shù)據(jù)庫(kù)與本體間存在部分名稱(chēng)相似度不高的表名和本體,使得系統(tǒng)的召回率未取得用例1及用例3中的效果,召回率值為87.50%。

        本文算法的優(yōu)勢(shì)在于:綜合表和類(lèi)概念的名稱(chēng)相似度與表和本體類(lèi)關(guān)系結(jié)構(gòu)相似度,取其加權(quán)平均值。名稱(chēng)的相似度計(jì)算是求解字符串編輯距離法和最長(zhǎng)公共子序列法的加權(quán)平均值,結(jié)構(gòu)相似度計(jì)算是利用結(jié)構(gòu)相似度特征計(jì)算其值,無(wú)需迭代。該方法目的使標(biāo)注更加快速,結(jié)果更加準(zhǔn)確。但本文的算法在計(jì)算名稱(chēng)相似度時(shí)并未考慮詞匯的語(yǔ)義信息,使得名稱(chēng)相似度計(jì)算還未達(dá)到理想的效果,需要在下一步中進(jìn)行改進(jìn)。

        5 結(jié) 語(yǔ)

        本文在基于元數(shù)據(jù)信息組織的基礎(chǔ)上,研究關(guān)系型數(shù)據(jù)庫(kù)元數(shù)據(jù)質(zhì)量自動(dòng)評(píng)估方法,提出了基于結(jié)構(gòu)相似度的數(shù)據(jù)庫(kù)元數(shù)據(jù)語(yǔ)義標(biāo)注算法進(jìn)行元數(shù)據(jù)自動(dòng)語(yǔ)義標(biāo)注。該算法綜合考慮關(guān)系表與本體類(lèi)名稱(chēng)的相似度計(jì)算以及結(jié)構(gòu)相似度計(jì)算。其中結(jié)構(gòu)相似度細(xì)分為表所含列和類(lèi)所含屬性之間的相似度,以及同它們各自連接的表和類(lèi)之間的相似度。經(jīng)綜合計(jì)算后相似度值大于閾值的本體類(lèi)用于語(yǔ)義標(biāo)注。因必須同時(shí)滿足名稱(chēng)和結(jié)構(gòu)的相似度的本體概念和屬性才能用于語(yǔ)義標(biāo)注,標(biāo)注準(zhǔn)確性較高。另外該算法無(wú)需迭代計(jì)算,標(biāo)注效率高。

        [1] 謝誠(chéng).基于自適應(yīng)本體的異構(gòu)數(shù)據(jù)語(yǔ)義集成框架研究[D].上海:上海交通大學(xué),2012.

        [2] 何向武.大數(shù)據(jù)中RDF語(yǔ)義數(shù)據(jù)存儲(chǔ)優(yōu)化探討[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(4):38- 41,55.

        [3] 劉海池.關(guān)系數(shù)據(jù)庫(kù)模式到本體映射的研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.

        [4] 劉歆.領(lǐng)域數(shù)據(jù)集成及服務(wù)關(guān)鍵技術(shù)研究[D].北京:北京科技大學(xué),2016.

        [5] Korotkiy M, Top J L. From relational data to RDFS models[C]//Web Engineering—4th International Conference, ICWE 2004, Munich, Germany, July 26- 30, 2004, Proceedings. DBLP, 2004:430- 434.

        [6] 陳華均.DartGrid支持中醫(yī)藥信息化的語(yǔ)義網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)[M].浙江大學(xué)出版社,2011.

        [7] 于小洋,云紅艷,賀英,等.利用語(yǔ)義技術(shù)實(shí)現(xiàn)Web Service數(shù)據(jù)的快速集成[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,12(1):79- 84.

        [8] 李亢,李新明,劉東.面向數(shù)據(jù)語(yǔ)義集成的裝備領(lǐng)域本體構(gòu)建研究[J].系統(tǒng)仿真學(xué)報(bào),2015,22(5):1071- 1080.

        [9] Pinkel C, Binnig C, Kharlamov E, et al. IncMap: pay as you go matching of relational schemata to OWL ontologies[C]//International Conference on Ontology Matching. CEUR-WS.org, 2014:37- 48.

        [10] Dou D, Lependu P, Kim S, et al. Integrating Databases into the Semantic Web through an Ontology-Based Framework[C]//International Conference on Data Engineering Workshops. IEEE Computer Society, 2006:54.

        [11] An Y, Borgida A, Mylopoulos J. Inferring Complex Semantic Mappings Between Relational Tables and Ontologies from Simple Correspondences[C]//On the Move to Meaningful Internet Systems 2005: CoopIS, DOA, and ODBASE, OTM Confederated International Conferences, CoopIS, DOA, and ODBASE 2005, Agia Napa, Cyprus, October 31-November 4, 2005, Proceedings. DBLP, 2005:1152- 1169.

        [12] 賈賀,艾中良,劉忠麟.基于中間模型的異構(gòu)數(shù)據(jù)資源語(yǔ)義映射方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,19(3):133- 138.

        [13] 袁柳,李戰(zhàn)懷,陳世亮.基于本體的DeepWeb數(shù)據(jù)標(biāo)注[J] .軟件學(xué)報(bào),2008,19(2):237- 245.

        [14] 黎建輝,余懷化,閻保平.基于元數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)語(yǔ)義集成方法[J].計(jì)算機(jī)工程,2008,34(6):54- 56.

        [15] 董國(guó)卿,童維勤.?dāng)?shù)據(jù)庫(kù)元數(shù)據(jù)的自動(dòng)語(yǔ)義標(biāo)注[J].計(jì)算機(jī)科學(xué),2012,39(11A):159- 162.

        [16] 王紅,樊紅杰,孫康.面向領(lǐng)域本體非分類(lèi)關(guān)系的語(yǔ)義相關(guān)度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(11):16- 20,32.

        [17] http://www.cs.toronto.edu/semanticweb/maponto/.

        [18] http://www.cs.toronto.edu/~yuana/research/maponto/schemaMapping/.

        猜你喜歡
        語(yǔ)義數(shù)據(jù)庫(kù)
        語(yǔ)言與語(yǔ)義
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        語(yǔ)義分析與漢俄副名組合
        99热久久精里都是精品6| 中文字幕av人妻一区二区| 亚洲av中文字字幕乱码| 国产在线一区二区三区香蕉| 国语对白福利在线观看| 伊人久久大香线蕉av色| 婷婷久久久亚洲欧洲日产国码av | 日日噜噜夜夜爽爽| av无码天一区二区一三区| 91色婷婷成人精品亚洲| 老熟妇嗷嗷叫91九色| 国产三a级三级日产三级野外| 亚洲欧洲国产成人综合在线| 亚洲а∨天堂久久精品2021| 波多野结衣一区| 太大太粗太爽免费视频| 久久综合伊人有码一区中文字幕| 精品人妻一区二区三区浪人在线| 老师露出两个奶球让我吃奶头| 五月婷婷俺也去开心| 亚洲Va中文字幕久久无码一区| 在线观看免费人成视频国产| 亚洲精品国产综合久久| 97久久婷婷五月综合色d啪蜜芽| 女人被狂躁高潮啊的视频在线看| 国产内射合集颜射| 99精品视频69v精品视频免费| 国产一区二区在三区在线观看| 国产日韩精品中文字幕| 99久久精品免费观看国产| 无码精品黑人一区二区三区| 毛片无遮挡高清免费久久| 二区三区视频在线观看| 亚洲一区二区三区国产| 国产精品三级av及在线观看| 无码手机线免费观看| 日韩精品欧美激情亚洲综合| 午夜av福利亚洲写真集| 性av一区二区三区免费| 日本精品无码一区二区三区久久久| 69精品丰满人妻无码视频a片|