亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        領(lǐng)域知識圖譜研究進(jìn)展及其在水利領(lǐng)域的應(yīng)用

        2021-02-22 09:00:24杭婷婷王云峰王秉發(fā)
        關(guān)鍵詞:水利

        馮 鈞,杭婷婷,2,陳 菊,王云峰,王秉發(fā),張 濤

        (1.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100; 2.無人機(jī)開發(fā)及數(shù)據(jù)應(yīng)用安徽高校聯(lián)合重點(diǎn)實(shí)驗(yàn)室,安徽 馬鞍山 243031)

        隨著人工智能研究的不斷發(fā)展,人工智能的主要發(fā)展方向經(jīng)歷了從擁有快速計(jì)算和記憶存儲能力的運(yùn)算智能,到擁有視覺、聽覺、觸覺等感知能力的感知智能,正在邁向擁有理解和思考能力的認(rèn)知智能。知識圖譜和以知識圖譜為代表的知識工程系列技術(shù)是認(rèn)知智能的核心。知識圖譜本質(zhì)是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),可以對現(xiàn)實(shí)世界的事務(wù)及其相關(guān)關(guān)系進(jìn)行形式化描述[1],它強(qiáng)大的語義處理和互聯(lián)組織能力,對有效描述數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進(jìn)而打破信息孤島的局面具有一定的現(xiàn)實(shí)意義。目前,在一些領(lǐng)域已經(jīng)出現(xiàn)了面向領(lǐng)域的知識圖譜,例如電影領(lǐng)域的IMDB[2]、生物醫(yī)學(xué)領(lǐng)域的BMKN[3]、新聞領(lǐng)域的ECKG[4]、健康領(lǐng)域的SHKG[5]等。從已有的領(lǐng)域知識圖譜看,構(gòu)建領(lǐng)域知識圖譜需要借鑒通用知識圖譜的方法,同時還需要依靠特定行業(yè)數(shù)據(jù),具有特定的行業(yè)意義,領(lǐng)域知識圖譜的構(gòu)建是當(dāng)前知識圖譜研究的一個重要方向和趨勢。

        隨著水利信息化及其水利信息技術(shù)的發(fā)展,水利領(lǐng)域長期業(yè)務(wù)實(shí)踐積累了實(shí)時監(jiān)測、遙感遙測、水文氣象、水利工程、社會經(jīng)濟(jì)等多源異構(gòu)水利大數(shù)據(jù),實(shí)現(xiàn)了水利監(jiān)測從點(diǎn)到面的轉(zhuǎn)變,從靜態(tài)到動態(tài)的拓展。隨著信息采集和傳輸技術(shù)的飛速發(fā)展和領(lǐng)域信息化的進(jìn)程,領(lǐng)域數(shù)據(jù)不斷更新,數(shù)據(jù)量日益增加,數(shù)據(jù)間語義不一致也屢見不鮮。多源異構(gòu)數(shù)據(jù)呈現(xiàn)出海量、動態(tài)、內(nèi)容多樣、處理復(fù)雜的特點(diǎn)。如何讓分布存儲管理的、語義各異的數(shù)據(jù)能夠互聯(lián),充分發(fā)掘領(lǐng)域數(shù)據(jù)價值,促進(jìn)信息資源的高效利用,是推進(jìn)智慧水利[6]的關(guān)鍵,也是水利信息資源查詢推薦,語義搜索,智慧防汛[7-8]和智慧水資源管理[9]等應(yīng)用的基礎(chǔ),對于提高水利領(lǐng)域智能化管理水平、輔助管理者進(jìn)行決策分析具有非常重要的意義[10]。因此,水利領(lǐng)域知識圖譜研究既具有重要的理論意義,也具有顯著的實(shí)用價值。

        本文總結(jié)領(lǐng)域知識圖譜構(gòu)建的研究現(xiàn)狀,包括構(gòu)建方式、應(yīng)用現(xiàn)狀等方面的進(jìn)展;介紹近年來領(lǐng)域知識圖譜構(gòu)建的發(fā)展趨勢;對水利領(lǐng)域知識圖譜構(gòu)建工作進(jìn)行展望,提出研究框架和具體的研究內(nèi)容。

        1 領(lǐng)域知識圖譜構(gòu)建研究現(xiàn)狀

        知識圖譜按照覆蓋范圍可分為通用知識圖譜和領(lǐng)域知識圖譜。通用知識圖譜面向通用領(lǐng)域,以常識性知識為主,其構(gòu)建過程高度自動化。其關(guān)聯(lián)的大多數(shù)是靜態(tài)的、客觀的、明確的三元組事實(shí)性知識。領(lǐng)域知識圖譜面向某一特定領(lǐng)域,以行業(yè)數(shù)據(jù)為主,其構(gòu)建過程半自動化。其關(guān)聯(lián)的不僅包含靜態(tài)知識,也涉及一些動態(tài)知識。本文主要探討領(lǐng)域知識圖譜構(gòu)建。

        1.1 領(lǐng)域知識圖譜的構(gòu)建方式

        在領(lǐng)域知識圖譜的構(gòu)建方式方面,目前主要有自頂向下和自底向上2種構(gòu)建方式。自頂向下方式是針對特定的行業(yè),由該行業(yè)專家定義好頂層本體與數(shù)據(jù)模式,再將抽取到的實(shí)體加入到知識庫中。國內(nèi)外現(xiàn)有的本體建模工具以Protégé、PlantData為代表。Protégé是一套基于RDF(S),OWL等語義網(wǎng)規(guī)范的開源本體編輯器,擁有圖形化界面,適用于原型構(gòu)建場景。PlantData是一款商用知識圖譜智能平臺軟件。該軟件提供了本體概念類、關(guān)系、屬性和實(shí)例的定義和編輯,屏蔽了具體的本體描述語言,用戶只需在概念層次上進(jìn)行領(lǐng)域本體模型的構(gòu)建,使得建模更加便捷。自底向上方式主要依賴開放鏈接數(shù)據(jù)集和百科網(wǎng)站,從這些結(jié)構(gòu)化的知識中進(jìn)行自動學(xué)習(xí),直接將抽取數(shù)據(jù)中發(fā)現(xiàn)的實(shí)體、關(guān)系以及屬性合并到知識圖譜中[11]。自頂向下的方法有利于抽取新的實(shí)例,保證抽取質(zhì)量。而自底向上的方法則能發(fā)現(xiàn)新的模式。因此,目前大部分領(lǐng)域知識圖譜的構(gòu)建方式是自頂向下和自底向上相結(jié)合的方式。

        1.2 領(lǐng)域知識圖譜的應(yīng)用現(xiàn)狀

        領(lǐng)域知識圖譜通常用來輔助各種復(fù)雜的分析應(yīng)用或決策支持。目前,在大多數(shù)領(lǐng)域中均存在領(lǐng)域知識圖譜的應(yīng)用。因?yàn)閼?yīng)用場景和應(yīng)用目的不同,不同領(lǐng)域的應(yīng)用形式也有所不同。下面將從知識應(yīng)用的角度出發(fā),介紹相關(guān)領(lǐng)域知識圖譜的應(yīng)用現(xiàn)狀。

        a.電商知識圖譜的應(yīng)用。電商知識圖譜的主要應(yīng)用場景就是導(dǎo)購。導(dǎo)購就是讓消費(fèi)者更容易找到他想要的東西。為此,電商知識圖譜學(xué)習(xí)了大量的行業(yè)規(guī)范與國家標(biāo)準(zhǔn),對一些專業(yè)詞匯進(jìn)行了更細(xì)致的解決。另外,它還可以從公共媒體和專業(yè)社區(qū)中識別出近期熱詞。當(dāng)消費(fèi)者輸入相關(guān)熱詞之后,可以出現(xiàn)跟熱詞相關(guān)的商品。與此同時,電商知識圖譜還可以通過場景構(gòu)建,實(shí)現(xiàn)與場景相關(guān)的商品推薦。

        b.醫(yī)療知識圖譜的應(yīng)用。醫(yī)療知識圖譜的主要應(yīng)用包括醫(yī)療過程智能輔助、醫(yī)學(xué)科研以及患者服務(wù)等方面。其中醫(yī)療過程智能輔助是通過醫(yī)療知識圖譜實(shí)現(xiàn)臨床輔助決策、合理用藥等智能服務(wù)。醫(yī)學(xué)科研是基于醫(yī)療知識圖譜,輔助醫(yī)務(wù)工作者實(shí)現(xiàn)疾病風(fēng)險預(yù)測、藥物研發(fā)等應(yīng)用服務(wù)?;颊叻?wù)是根據(jù)患者過去的就醫(yī)記錄以及相關(guān)的醫(yī)療知識,為患者提供健康知識推送和健康評估等日常服務(wù)。

        c.企業(yè)知識圖譜的應(yīng)用。企業(yè)知識圖譜通過異常關(guān)聯(lián)挖掘、最終控制人等方式為行業(yè)客戶提供風(fēng)險管理。其中異常關(guān)聯(lián)挖掘是通過路徑分析、關(guān)聯(lián)探索等操作,挖掘企業(yè)之間的異常關(guān)聯(lián),減少企業(yè)經(jīng)營風(fēng)險和資金風(fēng)險。最終控制人是尋找持股比例最大的股東,最終追溯至自然人或者國有資產(chǎn)管理部門,向行業(yè)用戶提供更準(zhǔn)確的智能服務(wù)。

        d.創(chuàng)投知識圖譜的應(yīng)用。創(chuàng)投知識圖譜主要應(yīng)用包含知識檢索和可視化決策支持。其中知識檢索是由機(jī)器完成用戶搜索意圖識別,向用戶提供準(zhǔn)確檢索答案??梢暬瘺Q策支持是通過圖譜可視化技術(shù)對公司的全方位信息,投資機(jī)構(gòu)的投資偏好等進(jìn)行展示,為投融資決策提供支持。

        總的來說,知識圖譜與各行業(yè)的深度融合已經(jīng)成為一個重要趨勢。在這一過程中,涌現(xiàn)出一系列的領(lǐng)域應(yīng)用,可以解決行業(yè)痛點(diǎn)問題。

        2 領(lǐng)域知識圖譜構(gòu)建的發(fā)展趨勢

        領(lǐng)域知識圖譜構(gòu)建的主要過程包括知識表示、知識抽取、知識融合、知識推理和知識存儲等5個方面。盡管目前相關(guān)原理和應(yīng)用都已經(jīng)取得了較好的成果,但仍在快速發(fā)展之中。近年來,領(lǐng)域知識圖譜的發(fā)展趨勢發(fā)生了一系列的變化,主要表現(xiàn)在:

        a.在知識表示方面,現(xiàn)階段一般采用三元組表達(dá)事實(shí)知識。但是,在決策、推理等相關(guān)應(yīng)用中,需要依賴于大量專家知識、動態(tài)知識進(jìn)行輔助判斷,而專家知識的表示已經(jīng)超出了常規(guī)知識表示的范疇。在大數(shù)據(jù)的賦能下,知識表示的重心將逐步過渡到動態(tài)知識是必然趨勢。

        b.在知識抽取方面,現(xiàn)階段的研究主要集中在純文本信息抽取方面。在訓(xùn)練樣本較為豐富的情況下,基于神經(jīng)網(wǎng)絡(luò)的抽取模型可以取得較好的抽取效果。但是,領(lǐng)域知識多數(shù)處于小樣本、零樣本以及面向開放域的抽取環(huán)境下,知識抽取的重心將逐步過渡到小樣本、零樣本信息抽取是必然趨勢。

        c.在知識融合方面,現(xiàn)階段的研究主要聚焦于知識融合過程中的某一部分或者只關(guān)注知識融合的模式,沖突檢測、實(shí)體對齊、屬性對齊和屬性真值發(fā)現(xiàn)過程的研究缺乏連續(xù)性。另外,隨著大量新增知識的更新,知識融合的重心將逐步過渡到新增知識的實(shí)時融合是必然趨勢。

        d.在知識推理方面,現(xiàn)階段的研究主要采用基于規(guī)則、邏輯的方法挖掘領(lǐng)域圖譜中隱含的知識或糾正錯誤的知識。但是,該方法對規(guī)則的依賴度高。圖神經(jīng)網(wǎng)絡(luò)是連接主義與符號主義的有機(jī)結(jié)合,不僅使深度學(xué)習(xí)模型能夠應(yīng)用在圖這種非歐幾里德結(jié)構(gòu)上,還為深度學(xué)習(xí)模型賦予了一定的因果推理能力[12]。知識推理的重心將逐步過渡到面向圖結(jié)構(gòu)的深度推理是必然趨勢。

        e.在知識存儲方面,現(xiàn)階段一般利用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲領(lǐng)域知識圖譜。但是,針對低選擇性、復(fù)雜查詢效率低的問題,知識存儲的重心將逐步過渡到分布式RDF查詢優(yōu)化是必然趨勢。

        3 水利領(lǐng)域知識圖譜構(gòu)建

        3.1 水利領(lǐng)域知識圖譜構(gòu)建的難點(diǎn)

        a.在水利知識表示方面,領(lǐng)域應(yīng)用不僅需要靜態(tài)知識,也需要動態(tài)知識。如何對抽取出來的靜態(tài)知識和動態(tài)知識進(jìn)行合理表示是當(dāng)前面臨的主要技術(shù)難點(diǎn)。另外,有很多知識和事實(shí)有時間和空間條件,從時空緯度擴(kuò)展知識表示也是需要解決的技術(shù)難點(diǎn)。

        b.在水利知識抽取方面,純文本信息抽取是當(dāng)前面臨的主要難點(diǎn)。部分文本抽取算法在公共數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)結(jié)果,但普遍存在應(yīng)用到水利領(lǐng)域中擴(kuò)展性不好等問題。難點(diǎn)在于如何根據(jù)領(lǐng)域知識圖譜的小樣本特性,構(gòu)建基于小樣本的有效模型。

        c.在水利知識融合方面,主要存在以下難點(diǎn):(a)實(shí)體對應(yīng)不準(zhǔn)確,同一實(shí)體名在不同數(shù)據(jù)源中常含有歧義,數(shù)據(jù)源中存在嚴(yán)重的多源指代問題[11];(b)不同數(shù)據(jù)源關(guān)于相同實(shí)體的相同屬性存在表述差異[13];(c)不同數(shù)據(jù)源為同一實(shí)體的同一屬性提供的屬性值存在沖突[11]。

        d.在水利知識推理方面,由于現(xiàn)有水利領(lǐng)域的應(yīng)用需要高準(zhǔn)確性地從圖譜中獲取信息,因此基于描述邏輯和規(guī)則的推理方法能有效用于水利知識推理。難點(diǎn)在于如何設(shè)計(jì)基于一階謂詞邏輯的推理規(guī)則用于知識推理。

        e.在水利知識存儲方面,主要存在以下難點(diǎn):(a)隨著水利數(shù)據(jù)不斷豐富,RDF數(shù)據(jù)規(guī)模日益增加,現(xiàn)有的集中式數(shù)據(jù)管理系統(tǒng)難以滿足對大規(guī)模RDF數(shù)據(jù)的存儲和查詢性能需求,需要高性能的分布式數(shù)據(jù)管理系統(tǒng)[14]來實(shí)現(xiàn)對大規(guī)模RDF數(shù)據(jù)的存儲、索引和查詢處理;(b)現(xiàn)有的分布式數(shù)據(jù)管理系統(tǒng),對特定類型的查詢進(jìn)行了優(yōu)化[15],但對水利領(lǐng)域常涉及的低選擇性、大直徑查詢的查詢效率低;(c)現(xiàn)有的分布式數(shù)據(jù)管理系統(tǒng)不能動態(tài)適應(yīng)工作負(fù)載[16]的變化。

        3.2 水利領(lǐng)域知識圖譜的總體框架

        為解決上述水利領(lǐng)域知識圖譜構(gòu)建研究的5個難點(diǎn),并實(shí)現(xiàn)建立水利領(lǐng)域知識圖譜的目標(biāo),本文提出了如圖1所示的研究框架。在該研究框架下,首先對水利知識表示進(jìn)行研究,建立2種不同的表示形式;其次,針對不同類型的水利數(shù)據(jù),研究相對應(yīng)的水利知識抽取方法;然后,研究了水利知識融合和推理的具體方法;最后,在充分利用水利大數(shù)據(jù)和相關(guān)存儲技術(shù)的基礎(chǔ)上,對水利領(lǐng)域知識進(jìn)行存儲,支撐相關(guān)應(yīng)用。

        圖1 水利領(lǐng)域知識圖譜構(gòu)建研究框架Fig.1 Modeling framework of domain knowledge graph in water conservancy

        3.3 水利領(lǐng)域知識圖譜構(gòu)建的研究內(nèi)容

        水利領(lǐng)域知識圖譜的構(gòu)建流程可以被歸納為5個模塊,即水利知識表示、水利知識抽取、水利知識融合、水利知識推理以及水利知識存儲。水利知識表示是將水利知識表達(dá)成計(jì)算機(jī)可存儲、可計(jì)算的結(jié)構(gòu)化知識。水利知識抽取可以從大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的水利數(shù)據(jù)中提取知識要素。水利知識融合可以消除實(shí)體、關(guān)系、屬性與對象之間的歧義,并為水利知識圖譜更新舊知識或補(bǔ)充新知識。水利知識推理是在已有水利知識的基礎(chǔ)上進(jìn)一步挖掘隱含知識或者缺失事實(shí),從而豐富、擴(kuò)展水利知識庫。水利知識存儲是設(shè)計(jì)有效的存儲模式來支持對水利數(shù)據(jù)的有效管理。

        3.3.1 水利知識表示

        三元組是知識圖譜的一種通用表示形式[17],由2個具有語義連接關(guān)系的水利實(shí)體和實(shí)體間關(guān)系組成,是水利知識的直觀表示。三元組的基本形式主要包括(實(shí)體1,關(guān)系,實(shí)體2)和(實(shí)體,屬性,屬性值)等。概念主要指水利對象類,例如水資源分區(qū)、流域分區(qū)、湖泊、測站、河流、水庫及水電站等;實(shí)體是知識圖譜中的最基本元素,例如湖西區(qū)、長江流域、汾湖、吳江水廠、太浦河、青山水庫、龍頭水電站等;關(guān)系存在于不同實(shí)體之間,例如屬于、位于、流入、包含等;屬性主要指對象可能具有的特征及參數(shù),例如湖泊代碼、湖泊名稱、跨界類型等;屬性值指對象特定屬性的值,例如FH407、FHBA1B00000M、跨省等。

        通過一個全局唯一的ID號來標(biāo)識實(shí)體,實(shí)體間內(nèi)在特征通過屬性-屬性值來進(jìn)行刻畫,實(shí)體之間的關(guān)聯(lián)通過關(guān)系來描述。三元組的存在表示一個已有的事實(shí)。例如關(guān)于太湖的描述為:太湖流域包括江蘇省蘇南地區(qū)、浙江省杭嘉湖地區(qū)、上海市大陸部分(不含崇明、長興、橫沙三道)和安徽省宣城的小部分地區(qū),總面積3.69萬km2。流域水面積5 551 km2;河道總長約12萬km,河道密度達(dá)3.3 km/km2。流域地形呈周邊高、中間低的碟狀地形,地勢平坦,河道比降小,水流流速緩慢。太湖的描述可以通過表1的三元組進(jìn)行表示。

        表1 太湖描述的三元組表示Table 1 Triple representation of Taihu Lake

        所有三元組合可以并構(gòu)成一個圖(圖2),其中節(jié)點(diǎn)表示實(shí)體,有向邊表示實(shí)體之間的關(guān)系,不同的關(guān)系邊的標(biāo)簽不同。

        圖2 水利知識表示示意圖Fig.2 Schematic diagram of knowledge representation in water conservancy

        3.3.2 水利知識抽取

        在水利信息技術(shù)飛速發(fā)展的今天,水利知識大量存在于水利信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化的表格、網(wǎng)頁以及非結(jié)構(gòu)化的文本數(shù)據(jù)中。針對不同類型的水利數(shù)據(jù),采用不同的知識抽取方法。對于結(jié)構(gòu)化數(shù)據(jù),研究基于D2R技術(shù)的知識圖譜構(gòu)建方法,利用信息系統(tǒng)中的結(jié)構(gòu)化對象數(shù)據(jù),抽取出靜態(tài)對象及其相關(guān)關(guān)系。結(jié)構(gòu)化數(shù)據(jù)抽取如圖3(a)所示,基本步驟包括:(a)通過分析關(guān)系型數(shù)據(jù)庫判斷可以建立聯(lián)系的2張表是否有外鍵關(guān)聯(lián)。如果沒有外鍵關(guān)聯(lián),需要人工設(shè)置外鍵或者在映射文件中寫入外鍵。(b)建立了外鍵關(guān)系之后,將2張表映射成RDF之后就可以實(shí)現(xiàn)語義互聯(lián)。通過上述一系列操作,可以將2個實(shí)體之間存在的關(guān)系進(jìn)行合理表示。

        對于半結(jié)構(gòu)化數(shù)據(jù),利用包裝器將分布在互聯(lián)網(wǎng)上半結(jié)構(gòu)化的HTML頁面中的屬性和屬性值抽取出來。半結(jié)構(gòu)化數(shù)據(jù)抽取如圖3(b)所示,基本步驟包括:(a)HTML頁面清洗及解析。將頁面轉(zhuǎn)換為DOM樹形結(jié)構(gòu)。(b)頁面去噪。去除頁面中與主題信息無關(guān)的其他信息。(c)包裝器自動生成。自動獲取需求信息節(jié)點(diǎn)的XPath路徑,定義規(guī)則模板,結(jié)合XPath路徑表達(dá)式實(shí)現(xiàn)抽取規(guī)則的自動構(gòu)造。通過上述一系列操作,可以抽取出與實(shí)體有關(guān)的屬性和屬性值信息。

        圖3 水利知識抽取示意圖Fig.3 Schematic diagrams of knowledge extraction in water conservancy

        對于非結(jié)構(gòu)化數(shù)據(jù),利用基于遠(yuǎn)程監(jiān)督和神經(jīng)網(wǎng)絡(luò)的方法抽取出水利文本中的知識。非結(jié)構(gòu)化數(shù)據(jù)抽取如圖4(c)所示,基本步驟包括:(a)采用遠(yuǎn)程監(jiān)督的方法利用知識庫自動生成標(biāo)注數(shù)據(jù),再通過離群點(diǎn)檢測的方法去除其中的錯誤標(biāo)注。(b)采用基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法,先在標(biāo)注好的數(shù)據(jù)上進(jìn)行訓(xùn)練,再對未標(biāo)注的數(shù)據(jù)進(jìn)行測試,抽取出未標(biāo)注文本中包含的實(shí)體和它們之間的關(guān)系。通過上述一系列操作,可以補(bǔ)充知識圖譜中所需要的一些靜態(tài)知識和動態(tài)知識。

        3.3.3 水利知識融合

        鑒于百科類網(wǎng)站具有一個頁面圍繞一個實(shí)體進(jìn)行描述、頁面組織結(jié)構(gòu)相對統(tǒng)一、信息質(zhì)量相對較高的特點(diǎn),百科類網(wǎng)站成為領(lǐng)域知識庫進(jìn)行知識融合的主要數(shù)據(jù)來源[18],其信息框中的關(guān)于實(shí)體的屬性-屬性值對是對該頁面實(shí)體信息的高度提煉。對不同百科中描述相同實(shí)體的知識卡片進(jìn)行融合,可以獲得關(guān)于水利對象的更全面、質(zhì)量更高的知識。

        針對前述關(guān)于多知識庫融合的難點(diǎn),研究基于中文維基百科、百度百科、互動百科的知識卡片的水利知識融合方法。圖4所示為水利知識融合流程。通過基于多特征的命名實(shí)體消歧、基于詞典的屬性對齊和基于貝葉斯分析的屬性真值發(fā)現(xiàn)模塊,消除實(shí)體、關(guān)系、屬性及其對象之間的歧義,最終獲得跟水利對象有關(guān)的屬性及相應(yīng)的屬性值。

        圖4 水利知識融合流程Fig.4 Flow chart of knowledge fusion in water conservancy

        圖5是三大百科以及本地知識庫對于水利對象“太湖”融合后的查詢結(jié)果。藍(lán)色的方塊代表初步形成的水利領(lǐng)域知識圖譜,紅色的方塊代表中文維基百科,黃色的方塊代表百度百科,綠色的方塊代表互動百科。從“太湖”的融合結(jié)果可以看出,本地水利領(lǐng)域知識圖譜提供的信息資源具備良好的行業(yè)覆蓋面和行業(yè)深度,為水利知識圖譜的構(gòu)建提供了核心支撐。中文維基百科則更多地從專業(yè)領(lǐng)域?qū)ζ溥M(jìn)行描述,提供的更多是較嚴(yán)謹(jǐn)?shù)闹R。百度百科和互動百科的知識卡片存在很多重復(fù),且覆蓋的屬性更符合普通大眾的娛樂需要,如關(guān)于太湖的適宜游玩季節(jié)、建議游玩時長、門票價格等。

        圖5 水利知識融合示意圖Fig.5 Schematic diagram of knowledge fusion in water conservancy

        3.3.4 水利知識推理

        知識推理旨在從圖譜已有的知識推理得到新的事實(shí)[19]。由于水利知識來源多樣化,水利知識和數(shù)據(jù)的收集局限于終端采集方式而缺乏整體性,需要結(jié)合水利知識推理方法,來對相關(guān)知識進(jìn)行補(bǔ)充。例如,水利領(lǐng)域知識圖譜中存在由不同數(shù)據(jù)源得到的2個三元組:(太湖,出口,太浦閘)和(太浦閘,屬于,太浦河),可以利用知識推理來獲取新的事實(shí)知識(太湖,流入,太浦河)。目前主要的領(lǐng)域知識推理的方法有:基于規(guī)則推理的方法[20]、基于本體推理的方法[21-22]、基于表示模型的方法[23-25]、基于神經(jīng)網(wǎng)絡(luò)的方法[26]。

        通過對水利領(lǐng)域的業(yè)務(wù)需求進(jìn)行分析,可以發(fā)現(xiàn)水利領(lǐng)域知識圖譜需要為即時查詢、決策提供支撐,因此決定了水利領(lǐng)域知識圖譜構(gòu)建的高準(zhǔn)確性要求。另外,水利領(lǐng)域知識圖譜的層次性較強(qiáng),根據(jù)管理單位、地理空間、河網(wǎng)管網(wǎng)的分層關(guān)系可以在實(shí)際應(yīng)用場景中將圖譜切分,以降低搜索空間。結(jié)合水利知識圖譜存在的高準(zhǔn)確性要求和可切分特點(diǎn),最適合的知識推理方法是基于規(guī)則推理的方法。該方法通過結(jié)合現(xiàn)有的一些水利領(lǐng)域知識,手工定義一些推理規(guī)則,去服務(wù)水利知識推理。其具體過程如下:(a)在概念層,通過一階謂詞邏輯表示定義相關(guān)推理規(guī)則。(b)在實(shí)例層,再通過實(shí)例去實(shí)例化推理規(guī)則,找到符合推理規(guī)則的關(guān)系事實(shí)。表2為部分推理規(guī)則及其相關(guān)含義。

        表2 水利知識推理規(guī)則Table 2 Rules of knowledge reasoning in water conservancy

        3.3.5 水利知識存儲

        水利知識存儲的優(yōu)化目標(biāo)是減少冗余數(shù)據(jù)的存儲,提高查詢的效率。為了達(dá)到上述目標(biāo),采用以下處理手段:(a)針對集中式系統(tǒng)難以滿足對大規(guī)模水利RDF數(shù)據(jù)的存儲和查詢處理的問題,采用了一個無共享的集群,以分布式的方式處理大規(guī)模RDF數(shù)據(jù)。(b)針對水利領(lǐng)域涉及的低選擇性、大直徑查詢效率低,對查詢工作負(fù)載伸縮性差的問題,研究了基于垂直劃分和哈希劃分的混合關(guān)系存儲模式。通過監(jiān)控查詢工作負(fù)載中的頻繁模式,使用頻繁模式指導(dǎo)水利RDF數(shù)據(jù)進(jìn)行增量重劃分,以提高對查詢工作負(fù)載的伸縮性。(c)通過設(shè)置代價評估模型,進(jìn)行代數(shù)優(yōu)化和連接順序優(yōu)化,從而優(yōu)化分布式查詢的效率。

        水利知識存儲流程如圖6所示。該流程首先對經(jīng)過質(zhì)量評估后的水利知識進(jìn)行基于主語的哈希劃分形成三元組表(TT);然后,對哈希劃分后的三元組表進(jìn)行垂直劃分,形成只包含主語-賓語列的垂直劃分表(VP);最后,通過查詢監(jiān)控器監(jiān)控查詢工作負(fù)載,挖掘頻繁模式,對頻繁模式所對應(yīng)的垂直劃分表進(jìn)行半連接計(jì)算,形成頻繁謂詞擴(kuò)展垂直劃分表(FP-ExtVP)。上述不同類型的表都以Parquet格式存儲到集群的各個節(jié)點(diǎn)上。圖6中紅色模塊代表三元組表,橙色模塊代表垂直劃分表,藍(lán)色模塊代表頻繁模式所對應(yīng)的垂直劃分表,綠色模塊代表頻繁謂詞擴(kuò)展垂直劃分表。

        圖6 水利知識存儲流程Fig.6 Flow chart of knowledge storage in water conservancy

        4 結(jié) 語

        隨著水利信息化水平的逐步深入,水利領(lǐng)域積累了大量水利數(shù)據(jù)。通過構(gòu)建水利領(lǐng)域知識圖譜,可以為全面認(rèn)知水利數(shù)據(jù)提供一種技術(shù)手段,其具有重要的理論和實(shí)際價值。本文對領(lǐng)域知識圖譜構(gòu)建的研究現(xiàn)狀和發(fā)展趨勢進(jìn)行了全面調(diào)研和深入分析,并結(jié)合水利領(lǐng)域知識圖譜構(gòu)建過程中存在的難點(diǎn),提出水利領(lǐng)域知識圖譜的整體框架和主要研究內(nèi)容。

        知識圖譜在水利領(lǐng)域的意義不僅僅在于它是一個水利大數(shù)據(jù)的知識庫,也是支撐水利業(yè)務(wù)管理的一個主要技術(shù)手段,它能夠推進(jìn)水利數(shù)據(jù)自動化和智能化處理,實(shí)現(xiàn)水利對象的全面互聯(lián),智能應(yīng)用,從而促進(jìn)水利行業(yè)水利現(xiàn)代化。

        猜你喜歡
        水利
        為奪取雙勝利提供堅(jiān)實(shí)水利保障(Ⅱ)
        為奪取雙勝利提供堅(jiān)實(shí)水利保障(Ⅰ)
        水利學(xué)會
        水利第二工程局
        水利第一工程局
        水利信息化
        水利宣傳
        水利工會
        水利監(jiān)督
        水利先進(jìn)實(shí)用技術(shù)推廣
        中國水利(2015年11期)2015-02-28 15:13:45
        午夜无码伦费影视在线观看| 亚洲国产成人av毛片大全| 国产精品国产三级国产专播下| 亚洲av日韩aⅴ无码色老头| 国产成人精品无码播放| 成人国产精品高清在线观看| 国产无卡视频在线观看| 国产成人精品日本亚洲专区61| 亚洲av无码乱观看明星换脸va| 99re国产电影精品| 一本色道久久综合亚洲精品不 | 特黄a级毛片免费视频| 久久夜色精品国产亚洲噜噜| 日韩一级137片内射视频播放| 国产日韩欧美一区二区东京热| 国产精品天天在线午夜更新| 成人国产在线观看高清不卡| 精品久久一区二区三区av制服| 中国无码人妻丰满熟妇啪啪软件| 国产免费一区二区三区在线观看| 欧美片欧美日韩国产综合片| 日本少妇一区二区三区四区| 在线成人一区二区| 久久精品中文字幕极品| 国产黄色三级三级三级看三级| 少妇高潮惨叫久久久久电影69 | 亚洲AV永久无码精品导航| 女同另类专区精品女同| 久久久国产精品va麻豆| 一本一道久久精品综合| 国产真实强被迫伦姧女在线观看 | 久久久久久一本大道无码| 亚洲精品久久视频网站| 日本老熟妇乱| 亚洲情a成黄在线观看动漫尤物| 偷拍视频十八岁一区二区三区| 特黄aaaaaaaaa毛片免费视频| 国产人妻黑人一区二区三区| 国产亚洲亚洲精品视频| 欧美性色欧美a在线播放| 色妞www精品视频|