亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向油藏地質(zhì)領(lǐng)域的知識(shí)圖譜構(gòu)建研究

        2022-01-09 05:20:02文必龍薛廣有
        關(guān)鍵詞:本體油藏圖譜

        文必龍,薛廣有

        (東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

        0 引 言

        油藏地質(zhì)領(lǐng)域歷經(jīng)多年的勘探,積累了豐富的勘探研究成果及地質(zhì)認(rèn)識(shí)。長(zhǎng)期以來(lái),這些成果大多分散在檔案館存放的研究報(bào)告中、計(jì)算機(jī)內(nèi)個(gè)人文件夾以及油藏工程師的經(jīng)驗(yàn)中。使這些分散的、零碎的地質(zhì)認(rèn)識(shí),轉(zhuǎn)化為專(zhuān)業(yè)的、規(guī)范化的油藏知識(shí),并對(duì)其進(jìn)行有效管理,指導(dǎo)后續(xù)的勘探工作,讓歷史勘探研究成果發(fā)揮出更大的價(jià)值。知識(shí)圖譜(knowledge graph)作為現(xiàn)階段知識(shí)管理的有效手段,通過(guò)它可以方便、快捷地管理知識(shí)。因此,建立油藏地質(zhì)領(lǐng)域知識(shí)圖譜具有很大的實(shí)際意義。

        為了實(shí)現(xiàn)油藏地質(zhì)領(lǐng)域知識(shí)的共享、傳播以及對(duì)知識(shí)進(jìn)行有效的管理,油藏地質(zhì)領(lǐng)域知識(shí)圖譜成為了一種必然的選擇。當(dāng)前在油藏地質(zhì)領(lǐng)域知識(shí)圖譜構(gòu)建的過(guò)程中存在一些不足,具體有以下幾個(gè)方面。第一,現(xiàn)存的油藏地質(zhì)領(lǐng)域本體數(shù)量不足,不能表示油藏地質(zhì)領(lǐng)域的核心知識(shí),即使是已經(jīng)存在的油藏地質(zhì)領(lǐng)域本體由于在構(gòu)建時(shí)沒(méi)有考慮到具體應(yīng)用狀況,導(dǎo)致最后得到的本體相差甚遠(yuǎn),不能直接用來(lái)構(gòu)建具有實(shí)用性的油藏地質(zhì)領(lǐng)域知識(shí)圖譜的模式層;第二,由于知識(shí)抽取所使用的數(shù)據(jù)源的多樣性,會(huì)導(dǎo)致抽取出來(lái)的多個(gè)指稱(chēng)項(xiàng)對(duì)應(yīng)于現(xiàn)實(shí)世界中的同一個(gè)實(shí)體的歧義,增加了知識(shí)規(guī)范化的難度;第三,知識(shí)在抽取的過(guò)程中所用數(shù)據(jù)源的不同及油藏地質(zhì)領(lǐng)域?qū)嶓w屬性自身的特點(diǎn),會(huì)出現(xiàn)同一個(gè)屬性抽取出多個(gè)屬性值的情況,并且難以從多個(gè)屬性值中選取出最優(yōu)的屬性值。

        針對(duì)油藏地質(zhì)領(lǐng)域知識(shí)圖譜構(gòu)建過(guò)程中存在的問(wèn)題,該文對(duì)領(lǐng)域知識(shí)圖譜構(gòu)建的相關(guān)方法和技術(shù)展開(kāi)了研究,在傳統(tǒng)的領(lǐng)域本體構(gòu)建方法的基礎(chǔ)上,將實(shí)際的應(yīng)用場(chǎng)景和油藏地質(zhì)領(lǐng)域知識(shí)的特點(diǎn)等因素考慮進(jìn)去,提出一種以領(lǐng)域業(yè)務(wù)活動(dòng)為核心的領(lǐng)域本體構(gòu)建方法;對(duì)傳統(tǒng)的孿生循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),使其適合油藏地質(zhì)領(lǐng)域?qū)嶓w的對(duì)齊任務(wù);針對(duì)不同類(lèi)別的屬性設(shè)計(jì)了不同的屬性值融合方法,實(shí)現(xiàn)屬性值的最優(yōu)。

        1 相關(guān)研究

        Google公司為了提高搜索引擎的檢索能力,使其能夠返回更加準(zhǔn)確的檢索結(jié)果,以此來(lái)達(dá)到改善用戶(hù)使用體驗(yàn)的目的。在此種背景下,知識(shí)圖譜的概念[1]于2012年5月17日被Google公司率先提出。經(jīng)過(guò)長(zhǎng)期的發(fā)展,知識(shí)圖譜的概念也發(fā)生了改變。目前,人們廣泛接受的知識(shí)圖譜的概念如下:“知識(shí)圖譜(Knowledge Graph)是以圖形的方式來(lái)描述真實(shí)世界中的各種概念以及它們之間關(guān)系的知識(shí)庫(kù)[2]”。知識(shí)圖譜本質(zhì)上是一種刻畫(huà)實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò)[3],能夠形式化地描述現(xiàn)實(shí)世界中的實(shí)體及其相互關(guān)系?,F(xiàn)在的知識(shí)圖譜已被用來(lái)泛指各種大規(guī)模的知識(shí)庫(kù)。

        目前國(guó)外的大型知識(shí)圖譜主要有谷歌公司的Knowledge Graph和微軟公司的Satori。國(guó)內(nèi)的中文知識(shí)圖譜主要有搜狗的“知立方”、百度的“知心”、王元卓等人[4]研發(fā)的可演化的Open KN以及上海復(fù)旦大學(xué)的中文知識(shí)圖譜等[5]。此外,人際知識(shí)圖譜的應(yīng)用較早,國(guó)外有Facebook公司以人際關(guān)系數(shù)據(jù)為基礎(chǔ)建立的實(shí)體搜索服務(wù),國(guó)內(nèi)有杜亞軍等人[6]以微博數(shù)據(jù)為基礎(chǔ)建立的微博社區(qū)知識(shí)圖譜。

        在行業(yè)知識(shí)圖譜的研究上,周藍(lán)珺[7]采用各種方法從新浪網(wǎng)的海量數(shù)據(jù)中抽取了實(shí)體的關(guān)系,并實(shí)現(xiàn)了一個(gè)面向中文音樂(lè)領(lǐng)域的關(guān)系抽取平臺(tái)。Patrick Ernst等人[8]將從醫(yī)學(xué)網(wǎng)站中抽取出的數(shù)據(jù)進(jìn)行融合,研發(fā)了一個(gè)面向醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜系統(tǒng)。在通用知識(shí)圖譜的研究上,蔡鴻博[9]利用信息抽取技術(shù)從百科類(lèi)網(wǎng)站中抽取了實(shí)體、關(guān)系等數(shù)據(jù),建立了包含75萬(wàn)個(gè)實(shí)體和900萬(wàn)條關(guān)系的中文知識(shí)圖譜。胡芳槐[10]研究了傳統(tǒng)的知識(shí)庫(kù)和在線(xiàn)百科類(lèi)網(wǎng)站,提出了一種能夠?qū)牟煌瑪?shù)據(jù)源中抽取出的數(shù)據(jù)進(jìn)行高度融合的知識(shí)圖譜構(gòu)建方法?;诖朔椒?gòu)建了大規(guī)模的中文知識(shí)圖譜,其中包含了700多萬(wàn)個(gè)實(shí)體以及6 000多萬(wàn)個(gè)句子。

        在知識(shí)圖譜的構(gòu)建研究上,鄧小亞[11]提出了石油勘探開(kāi)發(fā)領(lǐng)域本體的構(gòu)建方法,并以采油工程為例說(shuō)明此方法的可行性。楊宇飛[12]實(shí)現(xiàn)了使用條件隨機(jī)場(chǎng)模型從互動(dòng)百科中抽取實(shí)體的屬性關(guān)系。莊嚴(yán)等[13]對(duì)知識(shí)庫(kù)的實(shí)體對(duì)齊技術(shù)進(jìn)行了總體概述。謝穎[14]通過(guò)對(duì)信息融合的方法進(jìn)行研究,提出可以利用數(shù)學(xué)中的相關(guān)工具來(lái)解決知識(shí)圖譜的數(shù)據(jù)融合問(wèn)題。

        在知識(shí)圖譜的應(yīng)用領(lǐng)域,知識(shí)圖譜已被廣泛應(yīng)用于語(yǔ)義搜索、智能問(wèn)答、個(gè)性化推薦等領(lǐng)域。Zhao Shi等人[15]以用戶(hù)的搜索日志為基礎(chǔ)數(shù)據(jù),采用無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法獲得數(shù)據(jù)的基本特征,并對(duì)其基本特征進(jìn)行了綜合分析以達(dá)到理解用戶(hù)查詢(xún)意圖的目的。Bahareh Sarrafzadeh等人[16]提出了一個(gè)適用于知識(shí)圖譜的信息檢索框架,在該框架的幫助下用戶(hù)能夠在不同領(lǐng)域知識(shí)圖譜中進(jìn)行復(fù)雜的信息檢索。

        2 油藏地質(zhì)領(lǐng)域本體構(gòu)建

        該文在傳統(tǒng)的七步法基礎(chǔ)上,結(jié)合油藏地質(zhì)領(lǐng)域?qū)嶋H的業(yè)務(wù)需求將本體構(gòu)建劃分為:規(guī)劃與設(shè)計(jì)、領(lǐng)域本體構(gòu)建、評(píng)價(jià)與進(jìn)化三個(gè)階段。具體流程如圖1所示。

        圖1 領(lǐng)域本體構(gòu)建流程

        2.1 規(guī)劃與設(shè)計(jì)階段

        規(guī)劃與設(shè)計(jì)階段的主要任務(wù)是明確具體的領(lǐng)域以及應(yīng)用范圍、進(jìn)行需求分析和信息收集、實(shí)現(xiàn)領(lǐng)域本體的頂層框架設(shè)計(jì)。

        根據(jù)油藏地質(zhì)領(lǐng)域的業(yè)務(wù)模型和數(shù)據(jù)模型所提供的概念結(jié)合實(shí)際的業(yè)務(wù)需求,該文將油藏地質(zhì)領(lǐng)域本體劃分為活動(dòng)(activity)、對(duì)象(object)、元信息(meta_class)三個(gè)一級(jí)本體,其中每個(gè)一級(jí)本體可以繼續(xù)向下劃分子本體。具體結(jié)構(gòu)如圖2所示,圖2在一級(jí)本體的基礎(chǔ)上,向下衍生了一層。

        圖2 油藏地質(zhì)領(lǐng)域本體結(jié)構(gòu)

        活動(dòng)(activity)表示一種能夠被人們感知的可以讓物理世界發(fā)生變化的行為。對(duì)于某個(gè)活動(dòng),為了知道活動(dòng)發(fā)生的時(shí)間、地點(diǎn)、人物等要素,建立起活動(dòng)發(fā)生時(shí)的具體場(chǎng)景,需要對(duì)活動(dòng)進(jìn)行標(biāo)準(zhǔn)化的描述。通過(guò)對(duì)領(lǐng)域中多個(gè)業(yè)務(wù)活動(dòng)進(jìn)行標(biāo)準(zhǔn)化描述,就可以構(gòu)建起領(lǐng)域業(yè)務(wù)活動(dòng)的流程。油藏開(kāi)發(fā)評(píng)價(jià)、地質(zhì)油藏、剩余油價(jià)值研究等都是活動(dòng)的子類(lèi)。

        對(duì)象(object)表示客觀世界中真實(shí)存在并可被人們感知到的任何事物。井、區(qū)塊、油氣藏、組織機(jī)構(gòu)、油田各種資源等都是對(duì)象的子類(lèi)。

        元信息(meta_class)表示描述信息的信息。在某些情況下,借助元信息來(lái)描述的內(nèi)容會(huì)比使用本體概念形式化地描述該內(nèi)容更加簡(jiǎn)潔。數(shù)據(jù)元、數(shù)據(jù)庫(kù)等都是元的子類(lèi)。

        2.2 領(lǐng)域本體構(gòu)建階段

        領(lǐng)域本體構(gòu)建階段的主要任務(wù)是描述領(lǐng)域內(nèi)的核心業(yè)務(wù)活動(dòng),梳理領(lǐng)域內(nèi)的核心概念,定義概念的屬性和相互關(guān)系,進(jìn)行本體表示。

        2.2.1 業(yè)務(wù)活動(dòng)描述及領(lǐng)域概念梳理

        首先,根據(jù)業(yè)務(wù)流程對(duì)業(yè)務(wù)進(jìn)行逐級(jí)的劃分,直至業(yè)務(wù)活動(dòng)為止。業(yè)務(wù)活動(dòng)即不可再分的最小業(yè)務(wù)單元。然后,從六個(gè)方面對(duì)業(yè)務(wù)活動(dòng)進(jìn)行標(biāo)準(zhǔn)化的描述,即活動(dòng)是由何人(Who)何時(shí)(When)何處(Where)發(fā)起的、發(fā)起活動(dòng)的原因(Why)、涉及到哪些(Which)對(duì)象、產(chǎn)生了什么結(jié)果(What)。最后,某個(gè)業(yè)務(wù)活動(dòng)中所包含的相關(guān)信息可以通過(guò)上述幾個(gè)方面的描述完全提取出來(lái)。

        2.2.2 定義概念的屬性

        根據(jù)實(shí)際的業(yè)務(wù)需求和數(shù)據(jù)需求,將油藏地質(zhì)領(lǐng)域本體劃分為activity、object、meta_class三個(gè)一級(jí)類(lèi),分別定義每個(gè)一級(jí)類(lèi)及子類(lèi)的屬性,其子類(lèi)可直接繼承父類(lèi)的屬性。

        activity類(lèi)的屬性:活動(dòng)代碼、活動(dòng)原因、活動(dòng)時(shí)間、活動(dòng)地點(diǎn)、操作者、操作對(duì)象、產(chǎn)生結(jié)果、描述。

        油藏地質(zhì)領(lǐng)域的一級(jí)對(duì)象(object)類(lèi)所包含的子類(lèi)種類(lèi)較多,而每個(gè)子類(lèi)所含的屬性不同,因此分別定義每個(gè)子類(lèi)的屬性。具體如下:井、區(qū)塊、油氣藏、盆地的屬性:名稱(chēng)、代碼、位置、類(lèi)型、條件;組織機(jī)構(gòu)的屬性:名稱(chēng)、職能、崗位;信息系統(tǒng)的屬性:名稱(chēng)、版本、供應(yīng)商、管理部門(mén)、訪(fǎng)問(wèn)網(wǎng)址、部署時(shí)間;儀器設(shè)備的屬性:名稱(chēng)、用途、編號(hào)、所屬部門(mén)。

        meta_class類(lèi)的屬性:名稱(chēng)、代碼、類(lèi)型、長(zhǎng)度、精度、計(jì)量單位。

        2.2.3 定義概念的關(guān)系

        根據(jù)油藏地質(zhì)領(lǐng)域的業(yè)務(wù)模型和數(shù)據(jù)模型以及石油領(lǐng)域的相關(guān)書(shū)籍和字典,結(jié)合實(shí)際的需求,將油藏地質(zhì)領(lǐng)域本體概念間的關(guān)系定義為通用關(guān)系和自定義關(guān)系兩類(lèi)。

        (1)通用關(guān)系。

        一般而言,領(lǐng)域本體都包含Kind-of、Part-of、Attribute-of、Instance-of四種基本關(guān)系,在此基礎(chǔ)上該文定義了五種基本的概念關(guān)系,見(jiàn)表1。

        表1 油藏地質(zhì)領(lǐng)域概念間的基本關(guān)系

        (2)自定義關(guān)系。

        自定義關(guān)系是油藏地質(zhì)領(lǐng)域中為了滿(mǎn)足實(shí)際的業(yè)務(wù)需求而建立的概念間的特殊關(guān)系,見(jiàn)表2。

        表2 油藏地質(zhì)領(lǐng)域概念間的自定義關(guān)系

        2.2.4 油藏地質(zhì)領(lǐng)域本體構(gòu)建

        使用protege本體編輯工具構(gòu)建油藏地質(zhì)領(lǐng)域本體,將預(yù)先定義好的概念、關(guān)系、屬性等利用軟件進(jìn)行編輯,采用owl格式保存文件。部分本體的可視化效果如圖3所示。

        圖3 本體可視化效果圖

        2.3 評(píng)價(jià)與進(jìn)化階段

        評(píng)價(jià)與進(jìn)化階段的主要任務(wù)就是針對(duì)所構(gòu)建的本體進(jìn)行質(zhì)量評(píng)價(jià)以及對(duì)本體進(jìn)行不斷的完善與進(jìn)化。

        本體構(gòu)建的質(zhì)量決定了知識(shí)圖譜的質(zhì)量,本體自身的缺陷會(huì)直接導(dǎo)致知識(shí)圖譜在檢索、推理等應(yīng)用方面使用能力的下降,從而失去了知識(shí)圖譜構(gòu)建的意義。因此在油藏地質(zhì)領(lǐng)域本體構(gòu)建的過(guò)程中,應(yīng)該及時(shí)地對(duì)所構(gòu)建的本體進(jìn)行評(píng)價(jià),發(fā)現(xiàn)其不足。此外,本體的構(gòu)建是一個(gè)長(zhǎng)期的、反復(fù)的過(guò)程,需要不斷地對(duì)本體進(jìn)行維護(hù)和完善。在初步建立油藏地質(zhì)領(lǐng)域的本體后,需要將本體應(yīng)用于實(shí)際并反復(fù)的進(jìn)行評(píng)價(jià)、優(yōu)化和擴(kuò)展。這個(gè)過(guò)程應(yīng)該始終存在于本體的生命周期之中。

        3 油藏地質(zhì)領(lǐng)域?qū)嶓w對(duì)齊方法

        通過(guò)信息抽取技術(shù)從不同數(shù)據(jù)源中抽取出的數(shù)據(jù)存在著大量的冗余、重復(fù)、錯(cuò)誤等問(wèn)題。為了保證知識(shí)圖譜數(shù)據(jù)層的質(zhì)量,需要將抽取出的數(shù)據(jù)利用實(shí)體對(duì)齊技術(shù)進(jìn)行處理。一些傳統(tǒng)的實(shí)體對(duì)齊算法都存在著過(guò)度依賴(lài)屬性域的問(wèn)題,并且它們都忽略了文本的語(yǔ)義特征。為了更好地利用文本中上下文的語(yǔ)義特征,該文以孿生循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),對(duì)其進(jìn)行改進(jìn),最終實(shí)現(xiàn)基于文本語(yǔ)義的相似度計(jì)算,解決油藏地質(zhì)領(lǐng)域的實(shí)體對(duì)齊問(wèn)題。

        孿生循環(huán)神經(jīng)網(wǎng)絡(luò)是由兩個(gè)bi LSTM組成并且這兩個(gè)神經(jīng)網(wǎng)絡(luò)彼此共享權(quán)重。它的基本原理如下:首先將待對(duì)齊的實(shí)體當(dāng)作字符串輸入到Embedding層,Embedding層會(huì)將其映射為向量;然后bi LSTM模型會(huì)將輸入的向量編碼為固定的長(zhǎng)度,選擇bi LSTM模型最后一次的輸出結(jié)果作為最終的向量;最后計(jì)算兩者的余弦相似度并與閾值進(jìn)行比較,如果相似度超過(guò)閾值,就判定為匹配,反之,則不匹配。該模型的具體結(jié)構(gòu)如圖4所示。

        圖4 孿生循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        模型訓(xùn)練的詳細(xì)步驟如下:

        樣本構(gòu)造階段。首先根據(jù)業(yè)務(wù)活動(dòng)將抽取得到的數(shù)據(jù)進(jìn)行分類(lèi),得到業(yè)務(wù)活動(dòng)字典D={activity1:[c1,c2,…],activity2:[c3,c4],…},那么每個(gè)activity下的數(shù)據(jù)都指向相同的業(yè)務(wù)活動(dòng);然后將同一個(gè)activity下的數(shù)據(jù)兩兩相互配對(duì)得到正樣本集合P,將不同activity下的數(shù)據(jù)兩兩相互配對(duì)得到負(fù)樣本集合N。經(jīng)過(guò)處理之后,數(shù)據(jù)集中共包含6 378條樣本,其中有4 658條正樣本和1 720條負(fù)樣本。訓(xùn)練樣本由“記錄對(duì)+標(biāo)記”構(gòu)成,例如:((record1,record2,1),(record3,record4,0),…)。測(cè)試樣本由“記錄對(duì)”構(gòu)成,例如:((record1,record2),(record3,record4),…)。表3展示了構(gòu)造出的部分訓(xùn)練樣本。

        表3 訓(xùn)練樣本示例

        數(shù)據(jù)預(yù)處理階段。以字符為粒度對(duì)抽取得到的數(shù)據(jù)進(jìn)行切分,去除重復(fù)無(wú)效的字符,得到新的字符序列。將不定長(zhǎng)的字符序列通過(guò)設(shè)置max_sequence_length的值轉(zhuǎn)化為定長(zhǎng)的字符序列,再使用字符串“UNK”填充長(zhǎng)度不能達(dá)到固定長(zhǎng)度的字符序列。文中參數(shù)max_sequence_length的值設(shè)置為60。

        One-hot詞向量表示階段。將數(shù)據(jù)預(yù)處理階段得到的單詞表示成One-hot向量的形式。由于在LSTM模型之前添加了嵌入層(Embedding Layer),所以只需要用每個(gè)詞在詞表中的索引號(hào)來(lái)替換這個(gè)單詞即可,并不需要真的將每個(gè)單詞都表示成One-hot向量的形式。例如:{“斷”,“層”,“閉”,“合”,“解”,“釋”}數(shù)據(jù)集詞表,則用1替換“斷”,用3替換“閉”,用0替換填充字符串“UNK”即可。

        訓(xùn)練樣本批量構(gòu)造階段。模型訓(xùn)練的次數(shù)由參數(shù)epochs決定。epoch即batch訓(xùn)練的次數(shù)。參數(shù)batch_size決定每批訓(xùn)練樣本的數(shù)量。模型采用mini-batch的方式進(jìn)行訓(xùn)練。例如:樣本總量為512,batch_size的值為64,則模型需要進(jìn)行8次batch訓(xùn)練。這8次的batch訓(xùn)練稱(chēng)之為一次epoch。文中batch_size的值設(shè)置為128,epochs的值設(shè)為160。

        模型訓(xùn)練階段。首先將訓(xùn)練樣本Ci和Cj輸入到共享權(quán)值的嵌入層得到新的詞向量Xi和Xj,然后將Xi和Xj輸入到對(duì)稱(chēng)的LSTM模型中進(jìn)行訓(xùn)練,取最后一次的計(jì)算結(jié)果作為輸出,得到Oi和Oj。將Oi和Oj向量看作為樣本Ci和Cj新的特征表示。最后通過(guò)計(jì)算Oi和Oj的余弦相似度來(lái)得到樣本Ci和Cj的相似度分值,并與預(yù)先設(shè)定的閾值進(jìn)行比較,如果相似度分值大于閾值,則判定匹配,否則,則不匹配。文中的閾值設(shè)置為0.6,并且使用交叉熵作為損失函數(shù)來(lái)進(jìn)行模型參數(shù)的訓(xùn)練,以及使用梯度下降進(jìn)行參數(shù)優(yōu)化。

        4 油藏地質(zhì)領(lǐng)域?qū)傩灾等诤戏椒?/h2>

        屬性值融合的主要任務(wù)是將從多個(gè)數(shù)據(jù)源中抽取得到的不同屬性值進(jìn)行融合,得到最優(yōu)的屬性值結(jié)果。該文根據(jù)油藏地質(zhì)領(lǐng)域自身的數(shù)據(jù)特點(diǎn)將基本屬性劃分成兩大類(lèi),具體如下:

        單值屬性:在抽取出的多個(gè)候選屬性值中只能有一個(gè)是正確的屬性值的屬性。例如:在抽取“井”這個(gè)實(shí)體的“代碼”屬性時(shí),得到了“J00006”和“Y00008”這兩個(gè)屬性值。但由于“代碼”是單值屬性,只能有一個(gè)屬性值是正確的,需要經(jīng)過(guò)篩選得到最準(zhǔn)確的結(jié)果。

        多值屬性:在抽取出的多個(gè)候選屬性值中存在多個(gè)正確的屬性值的屬性。例如:在抽取“油氣成藏綜合研究”活動(dòng)類(lèi)實(shí)體的“產(chǎn)生結(jié)果”屬性時(shí),得到了“成藏時(shí)間、成藏動(dòng)力、成藏條件”三個(gè)正確的屬性值,則“油氣成藏綜合研究”實(shí)體的“產(chǎn)生結(jié)果”屬性含有三個(gè)屬性值。

        該文將定義的基本屬性依據(jù)油藏地質(zhì)領(lǐng)域?qū)傩灾档奶攸c(diǎn)劃分為單值屬性和多值屬性?xún)深?lèi)。單值屬性包含:活動(dòng)時(shí)間、活動(dòng)地點(diǎn)、活動(dòng)原因、活動(dòng)代碼、名稱(chēng)、代碼、位置、類(lèi)型、條件、版本、供應(yīng)商、管理部門(mén)、訪(fǎng)問(wèn)網(wǎng)址、部署時(shí)間、用途、編號(hào)、所屬部門(mén)、長(zhǎng)度、精度、計(jì)量單位;多值屬性包含:操作者、操作對(duì)象、產(chǎn)生結(jié)果、描述、職能、崗位。

        為實(shí)現(xiàn)信任度計(jì)算,該文采用四元組<實(shí)體,屬性,屬性值,抽取來(lái)源>來(lái)存儲(chǔ)信息。例如:從勘探院提供的文件中抽取得到的三元組<沉積構(gòu)造特征描述,操作對(duì)象,沉積構(gòu)造>可擴(kuò)展為四元組<沉積構(gòu)造特征描述,操作對(duì)象,沉積構(gòu)造,JD_EXP>。三元組抽取來(lái)源的詳細(xì)信息如表4所示。

        表4 三元組抽取來(lái)源詳細(xì)信息

        單值屬性只能存在一個(gè)正確的屬性值。因此,需要在多個(gè)候選屬性值中選出最準(zhǔn)確的屬性值作為單值屬性的屬性值。該文采用計(jì)算屬性值信任度的方法來(lái)確定候選屬性值的準(zhǔn)確性,候選屬性值的信任度越大說(shuō)明其準(zhǔn)確性越高,越有可能成為最終的屬性值。信任度con的計(jì)算公式:con =W1×L+W2×N+W3×S。參數(shù)的具體含義如下:L表示屬性值的長(zhǎng)度,L值越大說(shuō)明候選屬性值越詳細(xì),它成為正確屬性值的可能性就越大;N表示屬性值被抽取的次數(shù),N值越大說(shuō)明候選屬性值被抽取的次數(shù)越多,它越有可能成為正確的屬性值;S表示屬性值抽取來(lái)源的權(quán)重,S值越大說(shuō)明抽取屬性值的文檔越可信,屬性值的準(zhǔn)確性就會(huì)越高;W1、W2、W3分別表示L、N、S在信任度計(jì)算公式中所占的權(quán)重,是自定義的參數(shù)。文中參數(shù)設(shè)置為W1=25%,W2=25%,W3=50%。對(duì)于某個(gè)實(shí)體的單值屬性而言,如果抽取出多個(gè)候選屬性值,則需要通過(guò)信任度計(jì)算,取信任度最大的候選屬性值作為該屬性的屬性值。

        例如:

        <井,代碼,J00006,CN_PC> con=5.75

        <井,代碼,J00006,JD_EXP> con=4.75

        <井,代碼,Y00008,JD_DEV> con=4.50

        <井,代碼,Z00006,JD_SUB> con=4.50

        如上例所示,“井”實(shí)體的“代碼”屬性經(jīng)過(guò)抽取后得到了4個(gè)候選屬性值。通過(guò)對(duì)每個(gè)屬性值的信任度計(jì)算,取“J00006”作為“井”實(shí)體的“代碼”屬性的最終屬性值,得到三元組<井,代碼,J00006>。

        多值屬性可以存在多個(gè)正確的屬性值。因此,多值屬性的屬性值融合只需將多個(gè)正確的候選屬性值去重后直接合并即可。針對(duì)多值屬性的特點(diǎn),該文采用將抽取出的多個(gè)候選屬性值按照抽取來(lái)源的權(quán)重進(jìn)行排序、刪除重復(fù)的屬性值后直接合并的方法得到多值屬性的屬性值。由于展示內(nèi)容有限,不能將所有的屬性值都保留。因此,該文規(guī)定多值屬性的屬性值最多為5個(gè)。

        例如:

        <油氣成藏綜合研究,產(chǎn)生結(jié)果,成藏時(shí)間,CN_PC>

        <油氣成藏綜合研究,產(chǎn)生結(jié)果,成藏動(dòng)力,CN_EXP>

        <油氣成藏綜合研究,產(chǎn)生結(jié)果,成藏條件,CN_DEV>

        <油氣成藏綜合研究,產(chǎn)生結(jié)果,成藏時(shí)間,JD_SUB>

        如上例所示,四元組經(jīng)過(guò)排序、去重等步驟得到了“成藏時(shí)間、成藏動(dòng)力、成藏條件”三個(gè)屬性值。由于滿(mǎn)足預(yù)先設(shè)定的閾值,所以這三個(gè)屬性值應(yīng)該全部被保留。最后,得到三元組<油氣成藏綜合研究,產(chǎn)生結(jié)果,成藏時(shí)間、成藏動(dòng)力、成藏條件>。

        5 結(jié)束語(yǔ)

        該文以油藏地質(zhì)領(lǐng)域知識(shí)的共享、傳播以及對(duì)知識(shí)進(jìn)行有效的管理為出發(fā)點(diǎn),針對(duì)現(xiàn)階段油藏地質(zhì)領(lǐng)域知識(shí)圖譜構(gòu)建過(guò)程中存在的問(wèn)題,對(duì)領(lǐng)域知識(shí)圖譜構(gòu)建的方法和技術(shù)進(jìn)行研究:提出了以領(lǐng)域業(yè)務(wù)活動(dòng)為核心的領(lǐng)域本體構(gòu)建方法,實(shí)現(xiàn)了油藏地質(zhì)領(lǐng)域本體的構(gòu)建,完成了油藏地質(zhì)領(lǐng)域知識(shí)圖譜模式層的構(gòu)建;改進(jìn)了傳統(tǒng)的孿生循環(huán)神經(jīng)網(wǎng)絡(luò)模型,使其能夠滿(mǎn)足油藏地質(zhì)領(lǐng)域的實(shí)體對(duì)齊任務(wù);針對(duì)不同類(lèi)別的屬性設(shè)計(jì)了不同的屬性值融合方法,實(shí)現(xiàn)屬性值的最優(yōu),完成了油藏地質(zhì)領(lǐng)域知識(shí)圖譜數(shù)據(jù)層的構(gòu)建。最終,實(shí)現(xiàn)了高質(zhì)量油藏地質(zhì)領(lǐng)域知識(shí)圖譜的構(gòu)建。

        猜你喜歡
        本體油藏圖譜
        Abstracts and Key Words
        繪一張成長(zhǎng)圖譜
        低滲油藏注采結(jié)構(gòu)調(diào)整與挖潛技術(shù)
        云南化工(2020年11期)2021-01-14 00:51:02
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        基于模糊數(shù)學(xué)的油藏干層識(shí)別研究
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        注CO2混相驅(qū)候選油藏篩選評(píng)價(jià)新方法
        致密油藏多級(jí)壓裂水平井?dāng)?shù)值模擬及應(yīng)用
        在线看亚洲十八禁网站| 国产三级视频不卡在线观看| 国产日产亚洲系列最新| 无遮挡边摸边吃奶边做视频免费| 国模无码视频专区一区| 久久国产精品av在线观看| 亚洲高清中文字幕视频| 蜜桃久久精品成人无码av| 欧美喷潮系列在线观看| 亚洲妇女av一区二区| 穿着白丝啪啪的av网站| 无码成人一区二区| 欧美日韩在线免费看| 国产男女做爰猛烈视频网站| 日本高清视频在线观看一区二区 | 使劲快高潮了国语对白在线| 亚洲精品美女自拍偷拍| 日本久久久精品免费免费理论| 小说区激情另类春色| 欧美丰满熟妇乱xxxxx图片| 宅宅午夜无码一区二区三区| 日本一区二区高清精品| 久久久久99精品成人片直播| 91spa国产无码| 亚洲人妖女同在线播放| 国产精品一区二区三区专区| 性色av无码久久一区二区三区| 久久99热精品免费观看欧美| 亚洲永久精品日韩成人av| 夜夜躁狠狠躁日日躁视频 | 国产高清精品自在线看| 国产精品中文字幕日韩精品| 亚洲精品成人无限看| 精品国产18久久久久久| 亚洲欧美成人久久综合中文网| 涩涩鲁精品亚洲一区二区| 亚洲人成电影在线播放| 国产精品天堂avav在线| 亚洲中文字幕视频第一二区| 国产乱码卡二卡三卡老狼| 在线播放a欧美专区一区|