亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向知識發(fā)現(xiàn)的模糊本體融合與推理模型研究

        2021-05-26 09:06:00張良韜
        情報學(xué)報 2021年4期
        關(guān)鍵詞:規(guī)則概念融合

        陸 泉,劉 婷,張良韜,陳 靜

        (1.武漢大學(xué)信息資源研究中心,武漢430072;2.華中師范大學(xué)信息管理學(xué)院,武漢430079;3.武漢大學(xué)大數(shù)據(jù)研究院,武漢430072)

        1 引言

        大數(shù)據(jù)時代,數(shù)據(jù)的爆炸性增長讓人們對于知識的需求達到前所未有的地步[1],從多源異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)新的知識,是人們需要解決的重要問題與挑戰(zhàn)。知識發(fā)現(xiàn)是指從大量數(shù)據(jù)中獲得有效的、創(chuàng)新的、具有價值性的以及可視化模式的高級處理過程[2]。知識主要分為兩類:一類是精確知識,即確認(rèn)存在的被公認(rèn)的知識,可以準(zhǔn)確的表示某種事物或事物的狀態(tài);另一類是不確定知識,即具有模糊性的不確定性知識。目前,存在著大量多源異構(gòu)的不確定知識,知識融合可以將這些結(jié)構(gòu)多樣、不確定的模糊知識轉(zhuǎn)化為統(tǒng)一的知識模式,通過知識推理發(fā)現(xiàn)新知識。

        本體作為共享概念的形式化規(guī)范說明,可以對領(lǐng)域內(nèi)的知識進行統(tǒng)一的有效表示,是知識融合中的一種主要知識模式。然而,當(dāng)前相關(guān)的本體描述語言,如OWL(ontology web language),以及本體編輯工具,如Protégé,均無法直接實現(xiàn)用于描述和定義模糊本體,因此,研究者通常利用計算機處理人類自然語言的模糊性和人類思維邏輯模糊的推理,最終實現(xiàn)模糊本體的構(gòu)建。Straccia[3]將描述邏輯和模糊邏輯相結(jié)合,提出了一種模糊描述邏輯語言Fuzzy ALC(attributive concept description language with complements)用來描述模糊本體;唐新香等[4]通過構(gòu)建模糊本體定義元模型FODM(fuzzy ontolo‐gy definition metamodel)以及模糊本體建模語言FOML(fuzzy ontology modeling language),從而創(chuàng)建模糊本體模型。然而,上述方法均具有較高的復(fù)雜性,并且其知識的擴展性、融合性和推理性較為局限,無法對大規(guī)模多源異構(gòu)的模糊知識進行知識發(fā)現(xiàn)。

        藥物相互作用是大數(shù)據(jù)背景下不確定知識發(fā)現(xiàn)的典型應(yīng)用領(lǐng)域。近年來,臨床多藥物相容已經(jīng)變得具有普遍性和常規(guī)性,藥物相互作用也成為臨床關(guān)注的突出問題[5]。臨床研究人員利用數(shù)學(xué)框架和模型,如PBPK(physiologically based pharmacokinetic)模型[6],通過一系列臨床試驗來研究藥物之間的相互作用。由于臨床試驗研究所有藥物之間的相互作用需要消耗大量資源和時間,信息技術(shù)應(yīng)用于藥物相互作用的識別、解釋和預(yù)測正越來越受到研究者的重視[7]。目前,現(xiàn)有數(shù)據(jù)庫中包含了大量的藥物知識數(shù)據(jù),如確定已知的藥物相互作用,但仍有大量藥物之間的相互作用是未知的,需要通過不確定知識發(fā)現(xiàn)來有效識別潛在的藥物相互作用,以有效規(guī)避未知相互作用的用藥風(fēng)險和精準(zhǔn)開展臨床藥物實驗。

        本文將知識表示為RDF(resource description framework)三元組的形式,將模糊邏輯引入到OWL語言中,并引入概念對和隸屬度,基于OWL語言提出一種具備易用性和通用性的模糊本體表現(xiàn)模型。同時,從知識模糊性角度出發(fā),構(gòu)建面向知識發(fā)現(xiàn)的模糊本體與推理模型,并在網(wǎng)絡(luò)藥物知識庫中藥物相關(guān)部分?jǐn)?shù)據(jù)的數(shù)據(jù)集上進行藥物相互作用知識發(fā)現(xiàn)實驗,對藥物相互作用進行推理、預(yù)測和解釋,檢驗?zāi)P偷挠行浴?/p>

        2 相關(guān)研究

        2.1 模糊知識

        傳統(tǒng)的知識表示模型,對于事物是否具有某種屬性是明確的,清晰確定地描述了某種知識。然而,在現(xiàn)實中人們常常面對的是在領(lǐng)域內(nèi)未知的、不確定的信息,期望從這些信息中完成對事物的認(rèn)識、分析、推斷和預(yù)測,并為決策提供支撐。知識的模糊性表現(xiàn)為不確定性[8],例如,明亮、寒冷、堅硬等,這些概念不能簡單的用“是”或“否”來進行描述,其本身不是界限分明的,因此,這些概念之間的隸屬關(guān)系也不是確定清晰、非此即彼的,這就是知識模糊性的一種體現(xiàn)。Zadeh[9]于1965年首次提出模糊集理論,將特征函數(shù)的取值范圍從{0,1}推廣到[0,1]上,并定義一個隸屬函數(shù)來表達對象對于集合的隸屬度,以此來表示決策過程中的不確定或模糊信息。其主要思想是接受模糊知識的存在,并通過簡單的模型將其轉(zhuǎn)化為計算機可以識別和處理的信息。由于具有處理不精確和模糊參數(shù)的能力,模糊集理論得到了擴展,并在能源、醫(yī)療、材料、經(jīng)濟和藥理學(xué)等新型領(lǐng)域中得到了廣泛的應(yīng)用[10]。Wu等[11]利用模糊集理論能夠應(yīng)對決策過程中評價模型的模糊性,提出了一種基于累積前景理論的模糊多準(zhǔn)則決策(multi-criteria decision-making,MCDM),用于選擇中國最合適的可再生資源。Gul等[12]考慮到?jīng)Q策環(huán)境的模糊性和不確定性,提出了一種通用的模糊多準(zhǔn)則決策方法,可以實際應(yīng)用于材料選擇問題。Eghbali-Zarch等[13]將逐步權(quán)重評估比率分析(stepwise weight assessment ratio analysis,SWARA)方法與基于模糊多目標(biāo)優(yōu)化的模糊多目標(biāo)優(yōu)化方法相結(jié)合,構(gòu)建模糊MCDM模型,輔助醫(yī)生對2型糖尿病患者治療的藥物選擇。

        2.2 本體知識融合與推理

        知識融合的本質(zhì)是對知識進行融合重組,從眾多分布式異構(gòu)的網(wǎng)絡(luò)資源獲取多源異構(gòu)、語義多樣和動態(tài)演化的知識,并將其轉(zhuǎn)換為統(tǒng)一的知識模式并組織成知識庫,實現(xiàn)“1+1>2”的效果,發(fā)現(xiàn)新知識。本體作為一種知識載體,可以根據(jù)分類對齊、屬性對齊和實體對齊等完成多源知識的融合。徐賜軍等[14]對領(lǐng)域本體中的知識元素進行了關(guān)系分析,形成了包含知識集構(gòu)建、測度指標(biāo)確定、融合算法設(shè)計和融合后處理的知識融合框架,提高了知識的語義相關(guān)性和準(zhǔn)確度。目前,研究常用基于貝葉斯理論、D-S理論和本體理論的知識融合方法。貝葉斯理論分類錯誤小,物理概念簡明,但是其要求預(yù)知先驗概率和知識源之間觀測相互獨立在實際上很難滿足,降低了其實用性[15]。D-S理論具有較大的靈活性,可以較好地區(qū)分知識不確定和不信任,但是其數(shù)學(xué)基礎(chǔ)欠嚴(yán)謹(jǐn),并且其運算量隨知識源增多而呈指數(shù)增長[16]。本體理論直接通過知識源的對齊匹配來實現(xiàn)知識融合,通過設(shè)計屬性可以較為輕松的表現(xiàn)出知識的不確定性,可以與其他融合方法相結(jié)合,提高融合效果。

        知識推理,是指在已有知識的基礎(chǔ)上,獲取某種規(guī)則或策略,然后模擬人類推理方式,通過歸納演繹、推理規(guī)則等手段,進一步挖掘出隱含知識的過程[17]。本體可以對知識進行表示描述,使其能夠更好的被計算機理解,從而實現(xiàn)知識推理。目前,本體知識推理方式多樣,主要分為基于規(guī)則的推理、基于神經(jīng)網(wǎng)絡(luò)的推理以及混合推理等?;谝?guī)則的推理運用簡單規(guī)則或同級特征進行推理,可解釋性強、準(zhǔn)確率高,但規(guī)則不易獲得。Jiang等[18]關(guān)注于用啟發(fā)式規(guī)則推理不確定和沖突的知識,提出基于馬爾可夫邏輯網(wǎng)的去噪、抽取知識。基于神經(jīng)網(wǎng)絡(luò)的推理對知識事實元組進行建模,從而實現(xiàn)對其的向量表示,用于進一步的推理,推理能力較強,但是復(fù)雜度更高、可解釋性較弱。Socher等[19]利用神經(jīng)張量網(wǎng)絡(luò)(neural tensor network,NTN)刻畫實體間復(fù)雜的語義關(guān)系,有助于實現(xiàn)知識推理?;旌贤评砜梢猿浞掷貌煌椒ǖ膬?yōu)勢,但缺乏更深層次的混合模式。陸凌云等[20]采用訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型分配屬性權(quán)重,同時,提出了一種基于規(guī)則的柔性逐層推理方法,有效應(yīng)用于仿真實驗設(shè)計方法的智能選擇。

        2.3 知識發(fā)現(xiàn)

        知識發(fā)現(xiàn),是一個交叉綜合研究領(lǐng)域,是經(jīng)過數(shù)據(jù)預(yù)處理有效處理錯誤的、不確定的和不一致的數(shù)據(jù),然后選擇合適的數(shù)據(jù)挖掘算法進行挖掘,得到知識并進行評估。知識發(fā)現(xiàn)的主要目的是探索領(lǐng)域的新知識,其核心是數(shù)據(jù)挖掘[21],具體方法包含:機器學(xué)習(xí)[22]、規(guī)則推理[23]、模糊集[24]、粗糙集[25]等。知識發(fā)現(xiàn)主要從數(shù)據(jù)層面、知識層面和系統(tǒng)層面進行研究。①數(shù)據(jù)層面主要包含知識發(fā)現(xiàn)算法研究和知識發(fā)現(xiàn)應(yīng)用研究。Abdelhamid等[26]提出了一種新型MAC(message authentication codes)分類算法,通過減少分類尺寸,有效的提高了分類準(zhǔn)確率;Czibula等[27]針對軟件維護和演化過程中的缺陷預(yù)測問題,提出了基于關(guān)聯(lián)規(guī)則挖掘的分類預(yù)測算法,可以有效預(yù)測識別有缺陷的軟件模塊。②知識層面主要包含知識融合與知識推理的研究。Fisch等[28]認(rèn)為,知識融合有數(shù)據(jù)層、模型層和參數(shù)層三種層次,并提出了基于模型層的知識融合框架。本體知識推理可以通過規(guī)則或描述邏輯實現(xiàn),規(guī)則是知識的一種表示形式,是一種接近人們對問題描述的方式,基于規(guī)則的推理流程通過取決于初始狀態(tài)和搜索過程,在大多數(shù)情況下,這種匹配過程是試錯性的[29]。③系統(tǒng)層面主要包含知識發(fā)現(xiàn)過程、系統(tǒng)設(shè)計和系統(tǒng)使用等方面的研究。在構(gòu)建知識發(fā)現(xiàn)系統(tǒng)之前,首先應(yīng)該明確整個知識發(fā)現(xiàn)過程中“what”——做什么,以及“how”——怎么做的問題[30]。之后,基于此實現(xiàn)知識發(fā)現(xiàn)系統(tǒng)的設(shè)計與開發(fā),在國外比較典型的商用知識發(fā)現(xiàn)系統(tǒng)有SAS公司的Enterprose Miner[31]、IBM公司的Intelligent Miner[32]、SGI公司的Set Miner[33]以及SPSS公司的Clemen‐tine[34]等。在知識發(fā)現(xiàn)系統(tǒng)使用過程中,通常會面臨數(shù)據(jù)方面或者使用方面的問題。Perez-Rey等[35]提出了一種基于本體的KDD(knowledge-discovery in databases)自適應(yīng)聯(lián)合方法,可以實現(xiàn)數(shù)據(jù)庫集成和檢索,增加基于數(shù)據(jù)庫的知識發(fā)現(xiàn)效率。

        由此可知,現(xiàn)有的關(guān)于模糊知識發(fā)現(xiàn)的研究主要在于知識融合及推理的方法研究,大多數(shù)基于特定領(lǐng)域知識,針對性較強,并且其知識的擴展性、融合性和推理性都較為局限,無法對大規(guī)模多源異構(gòu)的模糊知識進行知識發(fā)現(xiàn)。然而,在Web 3.0時代,網(wǎng)絡(luò)信息資源的復(fù)雜多源特性使知識發(fā)現(xiàn)需要兼顧不同領(lǐng)域知識的精準(zhǔn)性與模糊性差異,當(dāng)前相關(guān)本體描述語言及本體編輯工具均無法直接實現(xiàn)用于描述和定義模糊本體。因此,本文從知識模糊性角度出發(fā),構(gòu)建包含精確知識和模糊知識的模糊本體,探討面向知識發(fā)現(xiàn)的模糊本體融合與推理模型并進行驗證。

        3 面向知識發(fā)現(xiàn)的模糊本體融合與推理模型構(gòu)建

        本文以多源異構(gòu)的網(wǎng)絡(luò)知識庫為主要研究對象,提出一種新的模糊本體表示模型。該模型既可以表示精確知識,也可以表示模糊知識,提高知識的復(fù)用性和可擴展性,且具備對各領(lǐng)域知識表示的通用性,通過將多源異構(gòu)的知識轉(zhuǎn)化為統(tǒng)一的知識模式,構(gòu)建模糊本體。利用知識融合將模糊本體進行融合形成全局本體知識庫,構(gòu)建精確規(guī)則和模糊規(guī)則,最終通過本體知識推理發(fā)現(xiàn)知識。知識發(fā)現(xiàn)模型如圖1所示。

        3.1 模糊本體

        模糊本體,即描述了模糊知識的本體,模糊本體的構(gòu)建需要對事物的不確定性程度進行描述,在本體的形式化構(gòu)建中增加對模糊概念、模糊關(guān)系的語義描述,通過對本體的模糊化擴展同時遵循本體建?;驹瓌t來建立模糊本體[36]。知識的模糊性可以用模糊理論中的隸屬度來進行表示,因此,本文對通用領(lǐng)域本體進行擴展,將具有模糊性的概念、屬性和關(guān)系都通過隸屬度來表現(xiàn),將模糊本體定義為四元組O=<C,A,R,X>,其中,C是概念集,包含了精確概念和模糊概念;A是屬性集;R是概念與概念間以及概念與屬性間的關(guān)系集,包括正常關(guān)系和模糊關(guān)系;X是公理集,是模糊本體中概念、屬性以及關(guān)系的約束等。

        模糊關(guān)系主要體現(xiàn)在隸屬度中,通常使用的模糊本體將隸屬度與實體直接結(jié)合來表示知識的模糊程度。例如,<小明,癥狀,(咳嗽,0.6)>這樣的一個三元組形式來表示患者與咳嗽之間的相關(guān)程度,但是在實際應(yīng)用中,這樣的表示方法針對性太強,相當(dāng)于是把“咳嗽”和“0.6”看作一個整體,在OWL語言中相當(dāng)于創(chuàng)建一個癥狀與隸屬度相結(jié)合的類,表現(xiàn)為一個字符串,導(dǎo)致知識的復(fù)用性會降低,并且對于本體知識融合也有較大的局限性。因此,本文通過構(gòu)建一個概念對的類,可以將組成概念對的類與概念對類相聯(lián)系起來,同時,構(gòu)建一個專門描述隸屬度的類別,這樣模糊關(guān)系就可以通過概念對和隸屬度來進行描述,其三元組形式為g=<(s1,s2),P,As1(s2)>,表示概念s1和概念s2間的模糊關(guān)系,隸屬度As1(s2)∈[0,1]刻畫了兩個概念之間關(guān)于模糊關(guān)系的相關(guān)程度,如上述三元組的例子表示為<(小明,咳嗽),癥狀,0.6>,同時<小明,組成(小明,咳嗽)>以及<咳嗽,組成,(小明,咳嗽)>,這樣在實際應(yīng)用中既可以了解“小明”或者“咳嗽”的其他屬性,也可以清晰表示出其之間的相關(guān)性程度,增加了知識的復(fù)用性和可擴展性,將精確知識和模糊知識表示在同一本體中。

        3.2 模糊本體構(gòu)建與融合

        本研究的模糊本體構(gòu)建,主要是基于OWL語言構(gòu)建概念對以及引入隸屬度等來實現(xiàn)模糊本體的構(gòu)建。模糊本體的融合主要流程是實現(xiàn)本體對齊,希望能夠鏈接多個現(xiàn)有的本體知識庫,整合領(lǐng)域內(nèi)不同主體之間的概念和數(shù)據(jù),實現(xiàn)概念層屬性層的對齊和實體的匹配,并從頂層創(chuàng)建一個大規(guī)模的統(tǒng)一的本體知識庫,從而幫助計算機理解底層數(shù)據(jù)。本研究中模糊本體構(gòu)建與融合框架如圖2所示。

        數(shù)據(jù)預(yù)處理階段,原始數(shù)據(jù)的質(zhì)量會直接影響到最終對齊的結(jié)果,不同的數(shù)據(jù)集對統(tǒng)一實體的描述方式往往是不相同的,對這些數(shù)據(jù)進行歸一化處理是實現(xiàn)本體對齊的重要步驟。在特征工程中,對數(shù)據(jù)進行預(yù)處理主要進行數(shù)據(jù)清洗,即處理缺失值、處理重復(fù)值、數(shù)據(jù)標(biāo)準(zhǔn)化、正則化等。根據(jù)應(yīng)用環(huán)境和目標(biāo)選擇的不同,有時還會對數(shù)據(jù)進行屬性編碼、特征選擇、主成分分析等處理。在進行數(shù)據(jù)預(yù)處理之后,通常不同的知識源并沒有統(tǒng)一的標(biāo)準(zhǔn)來指定相同屬性的表現(xiàn)形式,因此,還需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化設(shè)計,實現(xiàn)語法正規(guī)化和數(shù)據(jù)正規(guī)化。

        圖1 基于模糊本體融合與推理的知識發(fā)現(xiàn)模型

        圖2 模糊本體構(gòu)建與融合流程框架

        3.2.1 模糊本體構(gòu)建

        Bobillo等[37]通過識別模糊本體語言必須面對的語法差異,提出了一種利用OWL2注釋屬性來表示模糊本體的方法。本文基于OWL語言構(gòu)建模糊本體,然而OWL語言無法直接對模糊知識進行描述,因此,本文通過構(gòu)建概念對以及引入隸屬度,將模糊知識轉(zhuǎn)換為可以用概念對以及隸屬度表示的精確知識,從而實現(xiàn)知識的模糊性表達。模糊本體表現(xiàn)模型如圖3所示。

        圖3 模糊本體表現(xiàn)模型

        3.2.2 模糊本體融合

        在獲取多個本體知識庫之后,對其進行本體融合形成全局本體知識庫。在本文中,實現(xiàn)本體融合主要采用概念對齊、屬性對齊和實體匹配操作,制定融合規(guī)則對融合結(jié)果進行處理,從而形成全局本體,融合框架如圖4所示。

        圖4 模糊本體融合框架

        概念對齊和屬性對齊采用自動識別或人工識別方法,了解不同本體知識庫中對同一概念、屬性的不同描述,挖掘等價概念和等價屬性,生成相應(yīng)的匹配規(guī)則,從而實現(xiàn)概念層和屬性層的對齊。在完成概念層和屬性層的對齊之后,對實體進行匹配。因此,本文面向?qū)傩远x較準(zhǔn)確的知識庫內(nèi)容,采用基于屬性相似度的實體匹配算法,其算法定義流程見下文。

        經(jīng)過OWL語言規(guī)范化后,設(shè)實體A屬性名集合為Propertya={pa1,pa2,…,pam},對應(yīng)的屬性值集合為Valuea={va1,va2,…,vam};實體B屬性名集合為Propertyb={pb1,pb2,…,pbn},對應(yīng)的屬性值集合為Valueb={vb1,vb2,…,vbn},其中m、n分別是A、B實體的屬性個數(shù)。實體A和B的共有屬性計算公式為

        對于共有屬性pi∈Interproperty(A,B),其中Pax=pi并且Pby=pi,實體A的屬性Pax對應(yīng)的屬性值為vax,實體B的屬性Pby對應(yīng)的屬性值為vby。屬性pi的相似度計算公式為

        其中,lcs(vax,vby)為實體屬性值的最長公共子序列。

        實體A和實體B的相似度計算公式為

        其中,T=|Propertya∩Propertyb|。

        在加和所有匹配屬性的相似度評分后,獲得實體A和實體B的相似度Propertysim(A,B),然后通過設(shè)置兩個相似度閾值,判斷計算結(jié)果位于哪個相似度區(qū)間,可以形式化表示為

        其中,A、B是待匹配的實體對;t1、t2是相似度閾值的下界和上界,這兩個值是根據(jù)實驗結(jié)果來調(diào)整,沒有固定值,并由此對實體對匹配程度進行判斷,取值大于等于t2是完全相同,大于等于t1且小于t2時是可能相似,而小于t1則是不相似。

        此外,本文模糊本體中引入了概念對和隸屬度的形式,通常概念對只有名稱和隸屬度這兩個屬性,一個概念對相當(dāng)于一個字符串,包含了兩個實體,本文不考慮復(fù)雜因素,僅考慮概念對類中概念名稱這一屬性,對概念對進行分割排序組合之后,計算概念對的相似度:

        然后再根據(jù)相似度閾值對概念對的匹配程度進行判斷。

        在完成實體匹配后,有時會存在屬性值不一致的情況,即不同本體中對同一個實體的屬性值描述不一,那么就會給用戶反饋不一致的結(jié)果,因此,通常需要對所有結(jié)果采取融合規(guī)則,將其化為一個結(jié)果。本文涉及模糊信息,采用隸屬度來表示,因此進行融合結(jié)果處理時,可以對概念對和隸屬度進行扎德算子中的“并”運算,也就是取最大值原則:

        3.3 模糊本體知識推理

        本文將模糊本體運用到知識推理中,可以實現(xiàn)基于規(guī)則的面向模糊知識的知識推理,通過對SWRL(semantic web rule language)規(guī)則進行擴展,使其能夠表示相應(yīng)的模糊規(guī)則,然后基于推理機完成規(guī)則匹配和沖突消解,實現(xiàn)模糊本體知識推理,其知識推理框架如圖5所示。

        3.3.1 SWRL規(guī)則擴展

        SWRL是由語義的方式呈現(xiàn)規(guī)則的一種語言,其規(guī)則部分概念是由RuleML所演變而來,在結(jié)合OWL本體論中產(chǎn)生,是為了彌補OWL DL無法表示規(guī)則而產(chǎn)生的語言。通過SWRL可以對OWL本體中類間關(guān)系、屬性間關(guān)系、實例間關(guān)系以及公理等進行規(guī)則擴展,增強本體的邏輯表達能力,使得本體和推理規(guī)則能夠更好地結(jié)合在一起,從而有效的實現(xiàn)基于規(guī)則的知識推理[38]。SWRL不僅可以用來表示精確知識的規(guī)則,也可以通過擴展表示不確定知識的規(guī)則,Pan等[39]對SWRL進行模糊擴展,提出了f-SWRL語言,可以用于表示模糊知識,例如,

        但是,f-SWRL語言描述的規(guī)則是模糊規(guī)則,現(xiàn)在的推理機無法直接對其所描述的模糊規(guī)則進行推理,通常需要將f-SWRL規(guī)則轉(zhuǎn)換為Prolog規(guī)則,OWL本體轉(zhuǎn)換為Prolog語言表示的知識庫,才能實現(xiàn)模糊規(guī)則的推理。本文引入概念對和隸屬度的做法,將隸屬度作為概念或概念對中的屬性值,由此聯(lián)立概念、概念對、隸屬度,相當(dāng)于把模糊知識轉(zhuǎn)換為了可以表示模糊性的精確知識,從而避免進行轉(zhuǎn)換,直接通過OWL模糊本體和SWRL語言在推理機中實現(xiàn)知識推理。例如,通過SWRL的內(nèi)置函數(shù),可以將hasEysDrifting這種作為類的數(shù)據(jù)屬性,將隸屬度作為數(shù)據(jù)屬性的值,直接用SWRL語言表示為

        圖5 模糊本體知識推理框架

        3.3.2 模糊知識推理

        本文模糊本體支持精確規(guī)則和模糊規(guī)則,其基于規(guī)則的推理最終可以實現(xiàn)精確知識和模糊知識的發(fā)現(xiàn)。精確規(guī)則是根據(jù)模糊本體中表示精確概念的定義以及其之間的語義關(guān)系構(gòu)建的規(guī)則。例如,如果兩種藥物都作用于同一個靶標(biāo),一種對靶標(biāo)起到抑制作用,一種對靶標(biāo)起到促進作用,那么兩者就具有相互作用,其精確規(guī)則可以表示為

        模糊規(guī)則是根據(jù)模糊本體中表示模糊概念的定義以及其之間不確定的語義關(guān)系構(gòu)建的規(guī)則,通過隸屬度來表示不確定語義關(guān)系,將不確定性轉(zhuǎn)換為精確性,同時,引入概念對的形式可以用來表示兩個不同實體之間的模糊關(guān)系。例如,定義兩種藥物組成藥物對,根據(jù)計算后這組藥物對發(fā)生相互作用的概率大于0.8,則認(rèn)為這兩種藥物具有相互作用,其模糊規(guī)則可以表示為

        SWRL語言只是規(guī)則描述語言,其本身并不具備知識推理的能力,因此在進行知識推理的過程中,通常需要將定義好的SWRL規(guī)則與推理機相連接,從而實現(xiàn)知識推理。規(guī)則匹配過程主要分為兩種:正向推理和逆向推理,區(qū)別在于前者從已知事實出發(fā),后者從結(jié)論入手。根據(jù)本文的研究內(nèi)容,采用正向推理方法執(zhí)行規(guī)則匹配。在匹配過程中,理想的狀態(tài)是事實只匹配成功一條規(guī)則,那么推理機就執(zhí)行這條規(guī)則,但是實際中常常會遇到事實匹配成功多條規(guī)則,這種情況就稱為規(guī)則沖突,這時候就需要進行沖突消解,應(yīng)用某種策略來決定首先應(yīng)用哪些規(guī)則。

        4 模型驗證——以藥物相互作用為例

        藥物相互作用主要包含三種作用行為:“Induc‐er”誘導(dǎo)行為、“Inhibitor”抑制行為和“Substrate”底物行為。藥物相互作用是藥物不良事件的主要原因之一。但是,由于在線數(shù)據(jù)庫中的藥物數(shù)據(jù)可能不完整,例如,某些藥物數(shù)據(jù)可能無法實時更新,導(dǎo)致藥物相互作用知識的覆蓋是不完善的??紤]到腫瘤及精神衛(wèi)生疾病高發(fā)和并發(fā)的重要現(xiàn)實問題,本文選擇這兩類疾病的相關(guān)藥物進行實證。根據(jù)全球癌癥統(tǒng)計報告,全球2018年有1810萬惡性腫瘤新發(fā)病例以及960萬死亡病例,其中接近一半發(fā)生在亞洲[40]。2019年我國發(fā)布的癌癥統(tǒng)計數(shù)據(jù)顯示,2015年我國惡性腫瘤發(fā)病人數(shù)約為392.9萬人,相當(dāng)于每分鐘有7.5萬人確診為惡性腫瘤[41]。而腫瘤疾病患者經(jīng)常并發(fā)精神衛(wèi)生疾病,如抑郁、焦慮、狂躁等。Mehnert等[42]經(jīng)臨床試驗發(fā)現(xiàn),即使按照嚴(yán)格意義上的精神障礙診斷標(biāo)準(zhǔn),仍有31.8%的癌癥患者會出現(xiàn)精神障礙疾病,遠(yuǎn)高于一般人群的精神障礙發(fā)病率。因此,本文利用目前使用廣、數(shù)據(jù)全的藥物信息數(shù)據(jù)庫:Drugs[43]以及DrugBank[44]中與腫瘤及精神衛(wèi)生疾病相關(guān)的藥物數(shù)據(jù),通過本文構(gòu)建的面向知識發(fā)現(xiàn)的模糊本體融合與推理模型進行藥物相互作用實驗,對藥物相互作用進行推理、預(yù)測和解釋,檢驗?zāi)P偷挠行浴?/p>

        4.1 實驗數(shù)據(jù)與預(yù)處理

        采用爬蟲工具爬取Drugs以及DrugBank兩個數(shù)據(jù)庫中腫瘤及精神衛(wèi)生疾病的藥物相關(guān)部分?jǐn)?shù)據(jù),搜索詞為“tumor or mental disease”,包括藥物、靶標(biāo)、轉(zhuǎn)運蛋白、酶、作用行為和相互作用藥物對數(shù)據(jù),將其轉(zhuǎn)換為結(jié)構(gòu)化藥物數(shù)據(jù)。其中,靶標(biāo)、轉(zhuǎn)運蛋白、酶、作用行為數(shù)據(jù)作為發(fā)現(xiàn)藥物相互作用知識的基礎(chǔ)數(shù)據(jù),而相互作用藥物對數(shù)據(jù)作為檢驗數(shù)據(jù),與最終模型發(fā)現(xiàn)的藥物相互作用進行對比檢驗。采用兩個數(shù)據(jù)庫,原因在于可以讓數(shù)據(jù)多源且互為補充,達到驗證本文所提出的知識融合方法的可行性以及補充潛在的藥物相互作用對的目的。同時,由于Drug數(shù)據(jù)庫中只明確了藥物之間的相互作用,而沒有明確指出藥物所對應(yīng)的靶標(biāo)、轉(zhuǎn)運蛋白、酶等基礎(chǔ)數(shù)據(jù),為設(shè)置模糊本體進行融合實驗,故將Drugbank數(shù)據(jù)隨機抽取分為兩部分?jǐn)?shù)據(jù),最終爬取藥物數(shù)據(jù)如表1所示。

        表1 實驗數(shù)據(jù)類型

        本文是根據(jù)藥物相似度以及藥物代謝動力學(xué)機制(藥物代謝動力學(xué)機制觀點認(rèn)為,相似的藥物可能作用于相似的蛋白質(zhì),此外靶標(biāo)也是發(fā)現(xiàn)藥物相互作用知識的考慮因素之一,故具有相似靶標(biāo)的藥物更有可能具有相同的藥代學(xué)機制,如果兩種藥物作用于同一轉(zhuǎn)運蛋白或者酶,那么兩者就有可能發(fā)生相互作用)來發(fā)現(xiàn)藥物相互作用知識,因此,需要對基礎(chǔ)數(shù)據(jù)進行進一步處理,即基于靶標(biāo)計算藥物之間的相似度。本文使用余弦相似性來計算藥物之間的相似度,首先構(gòu)建藥物-靶標(biāo)的作用矩陣,其中橫坐標(biāo)代表藥物,縱坐標(biāo)代表靶標(biāo),這樣藥物X的作用靶標(biāo)可以表示為向量VX=(v1,1,v1,2,v1,3,…,v1,m),藥物Y的作用靶標(biāo)可以表示為向量VY=(v2,1,v2,2,v2,3,…,v2,m)。如果靶標(biāo)Ti是藥物X的靶標(biāo),那么使得v1,i=1;否則v1,i=0。那么藥物X與藥物Y的相似度可以表示為

        4.2 藥物相互作用模糊本體構(gòu)建

        為了實現(xiàn)藥物相互作用知識發(fā)現(xiàn)的目的,基于藥代學(xué)藥物相互作用機制以及藥物相似度機制,本文構(gòu)建了4個概念類、1個概念對類和6個對象屬性。其中,概念類分別為:“drug”藥物類、“en‐zyme”酶類、“transporter”轉(zhuǎn)運蛋白類、“l(fā)sd”隸屬度類;概念對類分別為:“drug_drug”藥物-藥物對類;對象屬性分別為:“inducer”誘導(dǎo)關(guān)系、“in‐hibitor”抑制關(guān)系、“substrate”底物關(guān)系、“similar‐ity”相似關(guān)系、“interact”相互作用關(guān)系、“com‐pose”組成關(guān)系。概念以及概念間關(guān)系如圖6所示。

        圖6 藥代學(xué)藥物相互作用模糊本體結(jié)構(gòu)

        在構(gòu)建好本體框架之后,將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為RDF三元組的形式,獲取對應(yīng)于同一數(shù)據(jù)源的多個RDF三元組文件,將其擴展為OWL本體描述語言,對其進行OWL序列化擴展,實現(xiàn)模糊本體的構(gòu)建。根據(jù)OWL描述語言的類、屬性以及個體語法類型,完成從RDF三元組到OWL描述語言的轉(zhuǎn)換,最終結(jié)果輸出為一個OWL本體文件,即最終獲得的模糊本體知識庫。

        4.3 藥物相互作用模糊本體融合與推理

        在構(gòu)建好模糊本體之后,采用基于屬性相似度的實體匹配算法。由于醫(yī)藥領(lǐng)域知識的嚴(yán)謹(jǐn)性,直接對藥物名稱進行相似度計算,設(shè)定相似度閾值為1,表明完全一樣才是同一實體。同時,在融合后處理階段對模糊屬性(即藥物相似度)采用扎德“并”運算,完成對來自兩個知識源知識的集成與融合?;谒幋鷮W(xué)機制發(fā)現(xiàn)藥物相互作用知識,Boyce等[45]使用一階邏輯(first order logic,F(xiàn)OL)來描述藥代學(xué)藥物-藥物相互作用;Herrero-Zazo等[46]基于SWRL創(chuàng)建規(guī)則來表示藥物相互作用機制,并推斷出新的可能的藥物相互作用;Moitra等[47]創(chuàng)建了一套規(guī)則來表示一種藥物如何根據(jù)藥代動力學(xué)改變另一種藥物的代謝。

        因此,本文基于藥代學(xué)機制構(gòu)建藥物相互作用精確推理規(guī)則。藥代學(xué)機制規(guī)則屬于精確規(guī)則,即如果兩種藥物作用于同一酶或者轉(zhuǎn)運蛋白,如藥物X對酶Z起到抑制作用,而藥物Y對酶Z起到底物作用,那么藥物X可能會抑制藥物Y產(chǎn)生作用,即藥物X和藥物Y發(fā)生了相互作用。本文基于藥代學(xué)的藥物相互作用機制,采用Preissner等[48]研究中的五條基本規(guī)則。藥物相似度規(guī)則屬于模糊規(guī)則,即判斷當(dāng)兩種藥物相似度大于某種閾值時,認(rèn)為這兩種藥物可能作用于同一個酶或者轉(zhuǎn)運蛋白,如藥物X對酶Z起到抑制作用,如果藥物Y在現(xiàn)有知識中沒有確認(rèn)其與酶Z有作用,且藥物Y與藥物X相似度達到閾值,那么認(rèn)為藥物Y也可能對酶Z起到抑制作用。在構(gòu)建好推理規(guī)則之后,通過推理機完成知識推理,從而實現(xiàn)藥物相互作用知識發(fā)現(xiàn),最后將發(fā)現(xiàn)的藥物相互作用知識與檢驗數(shù)據(jù)中存在的藥物相互作用進行對比評價,完成實驗。

        4.4 藥物相互作用知識發(fā)現(xiàn)結(jié)果分析

        本文綜合考慮了藥物相似度機制和藥物代謝動力學(xué)機制,因此將藥物相似度作為閾值,發(fā)現(xiàn)在某個閾值條件下推理得出的藥物相互作用知識,即在模糊規(guī)則中設(shè)定swrlb:greaterThan(?l,閾值),當(dāng)藥物相似度大于此閾值時,認(rèn)為后續(xù)推理結(jié)果成立,即藥物對酶或轉(zhuǎn)運蛋白的某種行為成立,再根據(jù)精確規(guī)則(即藥代學(xué)機制規(guī)則)推理發(fā)現(xiàn)藥物相互作用,實驗結(jié)果各指標(biāo)曲線如圖7所示。

        從圖7可以看出,隨著相似度閾值的降低,召回率逐漸增高,準(zhǔn)確率逐漸降低。在相似度閾值為0.55時,取得較高召回率的同時準(zhǔn)確率也趨于平滑,此時召回率為79.98%,準(zhǔn)確率為37.84%。當(dāng)相似度閾值為0.20及以后時,獲得最高召回率89.94%且趨于平緩。即根據(jù)目前實驗現(xiàn)有藥物相互作用數(shù)據(jù)中,模型通過結(jié)合模糊規(guī)則和精確規(guī)則可以發(fā)現(xiàn)最高89.94%的藥物相互作用,由此可以看出,本文構(gòu)建的模型可以有效發(fā)現(xiàn)藥物相互作用知識。

        由于本研究是從藥物代謝動力學(xué)機制出發(fā)發(fā)現(xiàn)藥物相互作用,而在實際中藥物相互作用以及其潛在機制涉及了復(fù)雜的藥理學(xué)過程,因此,本文主要使用召回率作為模型的評價指標(biāo)。同時,數(shù)據(jù)庫沒有保持最新的更新以及可能有更多的藥物相互作用還未發(fā)現(xiàn),導(dǎo)致無法證明推理得知的不在檢驗樣本中的相互作用藥物對是否真的不存在藥物相互作用。除此之外,藥物相互作用知識發(fā)現(xiàn)這類任務(wù)下,更重要的是在快速縮小可能性范圍時不漏過藥物相關(guān)的潛在知識,在這類任務(wù)下提高召回率有效揭示了新知識,因此,本文主要使用召回率作為模型的評價指標(biāo)。相比較于以往基于本體推理的藥代學(xué)藥物相互作用發(fā)現(xiàn)研究,本文的召回率有大幅度的提升,如Herrero-Zazo等[46]構(gòu)造一個藥物相互作用本體,解決了因藥物動力學(xué)機制和藥效學(xué)不同類型機制導(dǎo)致的藥物相互作用的表示,但是其藥物相似度預(yù)測的召回率只有27%。本文結(jié)合藥代學(xué)精確規(guī)則和藥物相似度作用模糊規(guī)則進行藥物相互作用實驗,為發(fā)現(xiàn)藥物相互作用提供了一個新的思路,且召回率最高可達到89.94%。具有高準(zhǔn)確率的數(shù)據(jù)挖掘方法來預(yù)測藥物相互作用,如支持向量機[49]、文本挖掘[50]等則因為缺乏對藥物相似度的解釋而未實現(xiàn)應(yīng)用。本研究提出的面向知識發(fā)現(xiàn)的模糊本體融合與推理模型不僅能夠很好地解釋藥物相互作用的機理,而且還提高了召回率,是對藥物相互作用知識發(fā)現(xiàn)的有效提升。根據(jù)實驗結(jié)果,研究者可以有針對性、目的性地進行臨床試驗,發(fā)現(xiàn)兩種藥物是否具有藥物相互作用,有助于節(jié)省資源避免盲目發(fā)現(xiàn)。

        從該實驗可以看出,本文提出的模糊本體表現(xiàn)模型可以直接通過OWL語言來表示精確知識和模糊知識,通過SWRL語言同時表示精確規(guī)則和模糊規(guī)則,并在推理機中完成精確推理和模糊推理,無需進行本體語言擴展和模糊規(guī)則轉(zhuǎn)換。本文通過概念對和隸屬度相結(jié)合的形式可以有效將模糊知識轉(zhuǎn)換為精確知識,將模糊規(guī)則轉(zhuǎn)換為精確規(guī)則,完成本體的融合與推理,從而發(fā)現(xiàn)知識,并且具備一定的可解釋性。因此,本文模型適用于本體表示精確知識和模糊知識,并進行本體知識融合與推理,可以極大的簡化對模糊知識的表示和處理,方便構(gòu)建模糊規(guī)則,并實現(xiàn)推理機上的推理,對知識發(fā)現(xiàn)具備很好的輔助作用。

        圖7 藥物相互作用知識發(fā)現(xiàn)實驗結(jié)果指標(biāo)曲線

        5 結(jié)語

        目前,Web 2.0時代正向關(guān)聯(lián)數(shù)據(jù)所形成的Web 3.0時代過渡,知識發(fā)現(xiàn)過程和模型也隨之發(fā)生變化。網(wǎng)絡(luò)上存在著大量的多源異構(gòu)知識,由于客觀環(huán)境的復(fù)雜性,知識往往兼具精確性與不確定性。而本體作為一種形式化的、對于共享概念體系的明確而又詳細(xì)的說明,可以有效的對知識進行表述,可以在知識發(fā)現(xiàn)過程中為用戶提供支持。因此,本文在知識發(fā)現(xiàn)相關(guān)研究的基礎(chǔ)上,提出面向知識發(fā)現(xiàn)的模糊本體融合與推理模型,模糊本體為知識表示形式,融合與推理為知識發(fā)現(xiàn)方法。通過對多源異構(gòu)知識進行數(shù)據(jù)抽取,數(shù)據(jù)清洗等預(yù)處理手段,構(gòu)建模糊本體,采用基于本體的知識融合方法將來自多個知識源構(gòu)建而成的模糊本體進行融合,形成一個全新的模糊本體知識庫,然后通過推理規(guī)則的手段實現(xiàn)知識發(fā)現(xiàn),最終通過實驗驗證模型的有效性。

        本文的主要貢獻在于:①從理論層面上來看,基于OWL語言提出了一種新的模糊本體表現(xiàn)模型,在本體描述語言中引入概念對以及隸屬度,通過聯(lián)立概念、概念對、隸屬度可以清楚的表示概念或概念間的不確定程度,既可以表示精確知識也可以表示模糊知識,提高知識的復(fù)用性以及可擴展性,且具備對各領(lǐng)域知識表示的通用性,使其在本體融合與推理過程中都具有簡易處理的能力。同時,本文提出了面向知識發(fā)現(xiàn)的模糊本體融合與推理模型,提出了構(gòu)建RDF三元組的算法,并基于SWRL語言構(gòu)建了精確規(guī)則和模糊規(guī)則,具備發(fā)現(xiàn)精確知識和不確定知識的能力,有助于構(gòu)建更為全面的知識發(fā)現(xiàn)體系。②從實際層面上來看,本文實驗部分結(jié)合了藥物相似度機制和藥代學(xué)作用機制發(fā)現(xiàn)藥物相互作用,將藥物相似度機制作為模糊規(guī)則,藥代學(xué)作用機制作為精確規(guī)則,結(jié)合兩類規(guī)則通過本文提出的模糊本體融合與推理模型完成藥物相互作用知識發(fā)現(xiàn),在藥代學(xué)的基礎(chǔ)上為發(fā)現(xiàn)藥物相互作用知識提供了一種新的思路。

        本文將互聯(lián)網(wǎng)多源異構(gòu)的數(shù)據(jù)轉(zhuǎn)換為同一知識模式即模糊本體,然后將其融合轉(zhuǎn)換為更為全面的模糊本體知識庫,并進一步進行知識推理從而實現(xiàn)知識發(fā)現(xiàn),這對面向Web 3.0時代的知識發(fā)現(xiàn)有一定的啟發(fā)作用。但本文構(gòu)建的面向知識發(fā)現(xiàn)的模糊本體融合與推理模型仍有不足,主要在于不確定知識發(fā)現(xiàn)領(lǐng)域中除了模糊知識以外,還存在一種知識形態(tài)——粗糙知識,本文僅考慮了模糊知識,需要對粗糙知識進行進一步的研究,結(jié)合粗糙性和模糊性,考慮其在本體中的表現(xiàn)形式以及融合推理過程中的處理,完善本文模型內(nèi)容。同時,本文在基于本體的知識融合時,采用的基于屬性相似度的實體對齊算法僅能針對同一語言的知識進行融合,對于跨語言的知識不能適用,因此,需要對算法進行進一步的改進,嘗試著從跨語言方面進行知識融合。

        猜你喜歡
        規(guī)則概念融合
        Birdie Cup Coffee豐盛里概念店
        撐竿跳規(guī)則的制定
        村企黨建聯(lián)建融合共贏
        融合菜
        數(shù)獨的規(guī)則和演變
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        幾樣概念店
        學(xué)習(xí)集合概念『四步走』
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        亚洲综合色区一区二区三区| 欧美洲精品亚洲精品中文字幕| 日韩有码中文字幕av| 精品日本一区二区三区| 高清精品一区二区三区| 76少妇精品导航| 亚洲欧美日韩精品香蕉| 久久精品国产亚洲av天美| 好大好湿好硬顶到了好爽视频| 伊人蕉久中文字幕无码专区| 精品一区二区三区久久久| 国产av一区二区三区天美| 无码人妻精品一区二区三区蜜桃 | 久久亚洲色www成人欧美| 国产精品欧美久久久久老妞| 亚洲不卡毛片在线观看| 精品含羞草免费视频观看| 国产呦系列呦交| 午夜久久精品国产亚洲av| 男人天堂亚洲一区二区| 亚洲av精品一区二区三区| 豆国产95在线 | 亚洲| 国产不卡一区二区三区视频| 亚洲av无一区二区三区| 久久综合狠狠色综合伊人| 制服丝袜视频国产一区| 色婷婷久色国产成人免费| 丰满人妻被两个按摩师| 国产成人精品一区二区视频| 亚洲精品美女久久久久99| 亚洲国产精品国自产拍性色 | 亚洲精品欧美二区三区中文字幕| 国产精品亚洲ΑV天堂无码| 一区二区在线观看日本视频| 欧美另类人妖| 亚洲精品有码在线观看| 久久综合九色综合久久久| 久久天天躁夜夜躁狠狠| 玖玖资源站无码专区| 亚洲精品在线观看一区二区 | 亚洲av无码一区二区三区乱子伦|