亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向地質(zhì)大數(shù)據(jù)的語義檢索模型研究

        2017-12-18 03:02:09朱月琴譚永杰吳永亮張林兵趙亞楠
        中國礦業(yè) 2017年12期
        關(guān)鍵詞:圖譜檢索語義

        朱月琴,譚永杰,吳永亮,張林兵,李 楊,趙亞楠

        (1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;2.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037;3.中國地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083;4.北京久遠(yuǎn)太和科技有限公司,北京 100078;5.湖南科技大學(xué)地理空間信息技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室,湖南 湘潭 411201)

        礦業(yè)縱橫

        面向地質(zhì)大數(shù)據(jù)的語義檢索模型研究

        朱月琴1,2,譚永杰1,2,吳永亮3,張林兵4,李 楊5,趙亞楠5

        (1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京100037;2.國土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京100037;3.中國地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京100083;4.北京久遠(yuǎn)太和科技有限公司,北京100078;5.湖南科技大學(xué)地理空間信息技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室,湖南 湘潭411201)

        隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新一代信息技術(shù)的發(fā)展和在地學(xué)領(lǐng)域的應(yīng)用,如何更全、更準(zhǔn)的從海量地質(zhì)數(shù)據(jù)中檢索到用戶所需要的信息,并以一種智能的方式推薦給用戶,成了亟待解決的問題。本文從地質(zhì)大數(shù)據(jù)語義模型定義和基于知識(shí)圖譜技術(shù)的地質(zhì)大數(shù)據(jù)語義模型構(gòu)建入手,提出了一套面向地質(zhì)大數(shù)據(jù)的語義檢索和聚類分析方法,并完成了面向地質(zhì)大數(shù)據(jù)語義檢索系統(tǒng)平臺(tái)的開發(fā)、實(shí)施及實(shí)驗(yàn)驗(yàn)證。驗(yàn)證結(jié)果表明此方法在查準(zhǔn)率和查全率方面較其他方法更具優(yōu)越性。

        地質(zhì)大數(shù)據(jù);語義模型;知識(shí)圖譜;聚類分析;語義檢索

        0 引 言

        地質(zhì)數(shù)據(jù)是地質(zhì)工作的真實(shí)記錄和成果的最終載體,是人類研究了解生存環(huán)境、開發(fā)利用自然資源所必需的依據(jù),具有海量、結(jié)構(gòu)繁多和應(yīng)用價(jià)值廣泛等特點(diǎn),是名副其實(shí)的“大數(shù)據(jù)”[1-2]。為了有效管理和利用地質(zhì)大數(shù)據(jù),需要研究多源異構(gòu)地質(zhì)數(shù)據(jù)的組織方式和快速整合方法[3],以及深層語義下的地質(zhì)大數(shù)據(jù)智能檢索技術(shù)。傳統(tǒng)的搜索引擎技術(shù)致力于從海量數(shù)據(jù)中過濾對(duì)用戶有用的信息,然后直接將過濾結(jié)果返回用戶,但無法獲取和解析這些結(jié)果間存在的內(nèi)在關(guān)聯(lián)關(guān)系,缺乏從語義角度去挖掘隱藏在大數(shù)據(jù)深層次規(guī)律和知識(shí)的能力,用戶只能從結(jié)果中自己去理解和篩選知識(shí)[4]。

        語義檢索模型可以不拘泥于用戶所輸入請(qǐng)求語句的字面本身,而是通過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到用戶輸入語句背后的真正意圖,并以此來搜索信息,可更準(zhǔn)確的返回符合需求的搜索結(jié)果,讓用戶發(fā)現(xiàn)他們意想不到的知識(shí),有效克服了上述不足[5]。目前國內(nèi)外在這方面的研究主要在三個(gè)方面取得較好的成果并得到了一定應(yīng)用:第一方面是語言模型的構(gòu)建方面的構(gòu)建及應(yīng)用[6];第二方面是信息檢索的擴(kuò)展方面的研究[7-8];第三方面是圍繞信息檢索的結(jié)果聚類分析,特別是針對(duì)大數(shù)據(jù)的研究及應(yīng)用,代表性成果有聚類算法的研究與改善[9-11],基于圖數(shù)據(jù)庫的檢索機(jī)制及基于知識(shí)圖譜的語義檢索機(jī)制的研究[12],以及圍繞語義模型的領(lǐng)域應(yīng)用與知識(shí)服務(wù)[13-15]等。由于地質(zhì)數(shù)據(jù)的復(fù)雜性和特殊性[16-18],對(duì)地質(zhì)大數(shù)據(jù)語義檢索的研究?jī)H側(cè)重于地質(zhì)數(shù)據(jù)的知識(shí)建模[19-21]、知識(shí)圖譜構(gòu)建[22]、地質(zhì)大數(shù)據(jù)的存儲(chǔ)及一體化檢索方面[23]及基于地質(zhì)語義計(jì)算在云服務(wù)方面的應(yīng)用等[24-25]。這些研究目前還無法很好的實(shí)現(xiàn)對(duì)地質(zhì)大數(shù)據(jù)進(jìn)行深層次的挖掘和語義級(jí)檢索。

        本研究從地質(zhì)大數(shù)據(jù)的信息檢索實(shí)際需求入手,結(jié)合地質(zhì)領(lǐng)域知識(shí)語義表達(dá)與組織特點(diǎn),以礦產(chǎn)資源數(shù)據(jù)為例,提出了礦產(chǎn)資源語義模型智能構(gòu)建方法,研究了面向地質(zhì)大數(shù)據(jù)的語義檢索機(jī)制,開發(fā)了面向地質(zhì)大數(shù)據(jù)智能檢索服務(wù)應(yīng)用平臺(tái)。該平臺(tái)以地質(zhì)語義模型作為數(shù)據(jù)支撐,在對(duì)用戶查詢的關(guān)鍵字進(jìn)行解析和推理之后,將其映射到知識(shí)模型樹中的一個(gè)或一組實(shí)體之上,再根據(jù)模型中的概念層次關(guān)系,向用戶返回圖形化的知識(shí)。本文技術(shù)方法可有效避免傳統(tǒng)基于字符串匹配的淺層檢索局限性,對(duì)實(shí)現(xiàn)地質(zhì)大數(shù)據(jù)的智能分析與挖掘等具有重要的實(shí)際價(jià)值。

        1 地質(zhì)大數(shù)據(jù)語義信息描述及構(gòu)建

        1.1 地質(zhì)數(shù)據(jù)語義模型

        語義通常被認(rèn)為是數(shù)據(jù)(符號(hào))所代表的概念的含義,以及這些含義之間的關(guān)系。對(duì)于計(jì)算機(jī)領(lǐng)域來說,語義一般指用戶對(duì)于那些用來描述現(xiàn)實(shí)世界的計(jì)算機(jī)表示的解釋,也就是用戶用來聯(lián)系計(jì)算機(jī)表示和現(xiàn)實(shí)世界的途徑[26]。語義模型則是被定義為通過模型作為媒介來實(shí)現(xiàn)數(shù)據(jù)語義關(guān)系的形式化描述的一種方式[27-28]。即把待研究的對(duì)象通過適當(dāng)?shù)倪^濾,用適當(dāng)?shù)谋憩F(xiàn)規(guī)則描繪出的抽象的概念集合。通過模型,人們可以了解到所研究對(duì)象的本質(zhì),并在形式上對(duì)其進(jìn)行分析和處理。本文依據(jù)通用語義模型的含義來定義地質(zhì)數(shù)據(jù)語義模型。

        地質(zhì)數(shù)據(jù)語義模型是一個(gè)四元組,記作GDO=,其中,GDO表示地質(zhì)數(shù)據(jù)實(shí)體;GDC表示地質(zhì)數(shù)據(jù)概念的集合;GDR表示關(guān)系的集合,代表著地質(zhì)概念之間的某種關(guān)系,包括語義關(guān)系、空間關(guān)系等;GDP表示屬性的集合,代表地質(zhì)數(shù)據(jù)本身的屬性,用以全面描述地質(zhì)數(shù)據(jù)的本質(zhì)特征;GDI表示實(shí)例的集合,代表各類地質(zhì)概念相應(yīng)的具體實(shí)例。

        實(shí)體的概念劃分方法有很多種,大多是按照特定領(lǐng)域知識(shí)庫資源,如詞典、本體等資源的分類體系來進(jìn)行[29-30]。考慮到地質(zhì)本體的研究現(xiàn)狀,以地質(zhì)工作的類型、地質(zhì)數(shù)據(jù)的應(yīng)用為劃分依據(jù),并參考“地質(zhì)資料服務(wù)產(chǎn)品體系劃分”以及“地質(zhì)學(xué)漢語敘詞表”,采用自上向下法對(duì)地質(zhì)相關(guān)概念進(jìn)行劃分,形成地質(zhì)領(lǐng)域?qū)嶓w概念體系框架(圖1)。在首先將地質(zhì)實(shí)體分為基礎(chǔ)地質(zhì)、海洋地質(zhì)、礦產(chǎn)地質(zhì)、物化遙感勘查等,在此分類體系下,對(duì)每個(gè)分類體系有若干個(gè)小的分類體系,如礦產(chǎn)地質(zhì),又可分為礦產(chǎn)地、資源儲(chǔ)量、典型礦床、成礦區(qū)帶等[31]。

        此框架體系中的關(guān)系是用來描述概念之間的關(guān)聯(lián)情況,是實(shí)現(xiàn)數(shù)據(jù)組織、分析、推理、關(guān)聯(lián)檢索、智能推送的基本依據(jù)。考慮到只需實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)檢索、智能推送等功能,所以在地質(zhì)數(shù)據(jù)領(lǐng)域?qū)嶓w應(yīng)用中,不需要構(gòu)建復(fù)雜的關(guān)系。對(duì)主要的12種語義關(guān)系(包括上下位關(guān)系、等同關(guān)系、與關(guān)系和交叉關(guān)系、或關(guān)系、矛盾關(guān)系、時(shí)間關(guān)系、空間關(guān)系等)進(jìn)行取舍,確定地質(zhì)數(shù)據(jù)語義模型中的主要應(yīng)用6種語義關(guān)系,包括:上下位關(guān)系、等同關(guān)系、交叉關(guān)系、概念實(shí)例關(guān)系和空間關(guān)系。

        1) 上下位關(guān)系:用來描述地理概念之間的層級(jí)關(guān)系,包括從屬關(guān)系(即部分與整體之間的關(guān)系)、繼承關(guān)系(也稱父子關(guān)系,即類與子類之間的關(guān)系),如“自然地理”與“陸地水系”。

        2) 等同關(guān)系:用來描述同級(jí)地質(zhì)概念或?qū)嵗g的等價(jià)關(guān)系。等價(jià)關(guān)系主要情況如下:同一概念的不同命名;俗稱與學(xué)名;同一概念的不同譯名;簡(jiǎn)稱與全稱;全譯名與外文縮寫詞等,如“鄂”與“湖北省”。

        3) 交叉關(guān)系:有且只有部分內(nèi)涵相同的兩個(gè)概念間的關(guān)系稱為交叉關(guān)系,如“破碎帶蝕變巖型金銀礦”與“蝕變破碎巖型鉛鋅銀礦”。

        4) 概念實(shí)例關(guān)系:用來描述地理概念與相應(yīng)實(shí)例之間的關(guān)系,如“湖泊”與實(shí)例“青海湖”。

        5) 空間關(guān)系:空間關(guān)系是指事物之間的位置關(guān)系??臻g關(guān)系主要包括:相交、相接、相離、包含、被包含、覆蓋、被覆蓋、重合等拓?fù)潢P(guān)系。

        地質(zhì)數(shù)據(jù)除數(shù)據(jù)類型復(fù)雜外,還具有明顯的專業(yè)背景、空間范圍、用戶應(yīng)用行為等多樣性特征[32-33]。根據(jù)TD/T1016—2003《國土資源信息核心元數(shù)據(jù)標(biāo)準(zhǔn)》,同時(shí)考慮數(shù)據(jù)產(chǎn)生的背景和礦產(chǎn)資源預(yù)測(cè)的需求等因素,確定屬性信息主要包括:標(biāo)識(shí)、數(shù)據(jù)質(zhì)量、空間參照系統(tǒng)以及分發(fā)信息等。

        圖1 地質(zhì)領(lǐng)域?qū)嶓w概念體系框架

        1.2 地質(zhì)大數(shù)據(jù)語義知識(shí)圖譜構(gòu)建

        語義信息構(gòu)建主要包括顯式語義信息的構(gòu)建和地質(zhì)隱式語義信息的構(gòu)建[34-36]。顯式語義信息構(gòu)建主要是把地質(zhì)領(lǐng)域本體庫或領(lǐng)域分類體系作為概念模板來構(gòu)建語義信息。隱式語義信息的構(gòu)建主要是基于機(jī)器學(xué)習(xí)或人工智能的技術(shù)[37-39],通過信息提取及數(shù)據(jù)挖掘的方法,綜合整理語義信息??紤]到目前地質(zhì)本體的構(gòu)建不夠完善,機(jī)器學(xué)習(xí)等算法在地質(zhì)領(lǐng)域應(yīng)用不成熟等情況,本論文采取了綜合方法來構(gòu)建地質(zhì)語義知識(shí)圖譜,即通過如地質(zhì)敘詞表、地質(zhì)大辭典等已有地質(zhì)領(lǐng)域知識(shí)庫,并結(jié)合近年來圍繞地質(zhì)本體領(lǐng)域構(gòu)建提出的概念模板,采用自動(dòng)信息提取的技術(shù)來實(shí)現(xiàn)地質(zhì)大數(shù)據(jù)語義知識(shí)圖譜的構(gòu)建(圖2)。

        圖2 地質(zhì)數(shù)據(jù)語義知識(shí)圖譜構(gòu)建流程(以地質(zhì)文本數(shù)據(jù)為例)

        自動(dòng)構(gòu)建地質(zhì)數(shù)據(jù)語義知識(shí)圖譜,將文檔內(nèi)容分為文本和表格兩種內(nèi)容進(jìn)行分別處理[40-41]。在文本部分,首先對(duì)文本標(biāo)題進(jìn)行識(shí)別和分類,分清其上下級(jí)嵌套關(guān)系,然后對(duì)各個(gè)標(biāo)題下的內(nèi)容進(jìn)行提取并進(jìn)行語義識(shí)別,從而獲取到關(guān)鍵語句;在表格部分,首先識(shí)別表頭,如遇到復(fù)雜表頭將其化簡(jiǎn),然后對(duì)單元格內(nèi)容進(jìn)行提取并進(jìn)行語義識(shí)別,獲取關(guān)鍵語句。對(duì)所得到的關(guān)鍵語句采用基于敘詞表擴(kuò)展的半自動(dòng)化地質(zhì)領(lǐng)域本體構(gòu)建方法來構(gòu)建地質(zhì)數(shù)據(jù)語義知識(shí)圖譜,其具體實(shí)現(xiàn)算法可描述如下。

        1) 用戶輸入地質(zhì)大數(shù)據(jù)(以文檔為例);

        2) 根據(jù)內(nèi)容識(shí)別將文檔中的文本和表格分別進(jìn)行處理;

        3) 對(duì)于文本內(nèi)容,提取基于標(biāo)題和內(nèi)容的主題模型,通過標(biāo)題與標(biāo)題格式庫對(duì)比獲得標(biāo)題上下級(jí)嵌套關(guān)系,然后對(duì)各標(biāo)題下的內(nèi)容進(jìn)行提取;對(duì)于表格內(nèi)容,識(shí)別表頭,對(duì)復(fù)雜表頭化簡(jiǎn)取最底層字段名稱,然后對(duì)單元格內(nèi)容提取,同一行內(nèi)容用逗號(hào)隔開,不同行內(nèi)容用分號(hào)隔開;

        4) 對(duì)提取到的內(nèi)容進(jìn)行語義識(shí)別,結(jié)合地質(zhì)數(shù)據(jù)語義模型和地質(zhì)領(lǐng)域?qū)<抑R(shí)及地質(zhì)領(lǐng)域知識(shí)庫模板獲取內(nèi)容中的關(guān)鍵語句;

        5) 將關(guān)鍵語句采用基于敘詞表擴(kuò)展的半自動(dòng)化地質(zhì)領(lǐng)域本體構(gòu)建方法來構(gòu)建地質(zhì)數(shù)據(jù)知識(shí)圖譜。

        2 面向地質(zhì)大數(shù)據(jù)的語義檢索實(shí)現(xiàn)

        2.1 面向地質(zhì)大數(shù)據(jù)語義檢索模型

        一般地,由于用戶查詢時(shí)輸入較簡(jiǎn)單有限,難以準(zhǔn)確表示查詢的信息需求。知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫,通過地質(zhì)語義知識(shí)圖譜中的知識(shí),有助于理解用戶的信息需求[42-43]。把用戶的查詢需求看作一個(gè)實(shí)體,可以利用地質(zhì)語義知識(shí)圖譜來理解信息輸入,得到候選的擴(kuò)展詞。地質(zhì)語義知識(shí)圖譜通過知識(shí)抽取,融合等手段,將數(shù)據(jù)轉(zhuǎn)變?yōu)槟艽韺?shí)體的知識(shí),利用知識(shí)之間的語義關(guān)系構(gòu)成的[44-47]。同時(shí),還可通過大規(guī)模信息搜索分析來提高搜索結(jié)果的深度和廣度。

        地質(zhì)語義知識(shí)圖譜在搜索引擎中的應(yīng)用,使得搜索引擎可以更好的理解用戶的需求,并且能夠提供給用戶更加智能、精確、人性化的結(jié)果。

        為了實(shí)現(xiàn)語義檢索,首先需要采集地質(zhì)相關(guān)數(shù)據(jù)。數(shù)據(jù)源一方面來自于收集的地質(zhì)領(lǐng)域?qū)I(yè)文檔;另一方面則通過網(wǎng)絡(luò)爬蟲等技術(shù),從互聯(lián)網(wǎng)中獲取地質(zhì)相關(guān)數(shù)據(jù)信息。結(jié)合多種數(shù)據(jù)源的成礦信息,應(yīng)用Neo4j作為圖數(shù)據(jù)庫的引領(lǐng)工具,完善地質(zhì)知識(shí)圖譜。

        Neo4j具有非常直觀和形式化的模型,能夠完美地映射到任何領(lǐng)域的模型。同時(shí),對(duì)于具有較高連接關(guān)系的數(shù)據(jù),具有比關(guān)系型數(shù)據(jù)快千倍的速度。因此,這里知識(shí)圖譜中涉及的實(shí)體信息以及語義關(guān)系,均通過Neo4j提供的圖譜數(shù)據(jù)存儲(chǔ)框架進(jìn)行存儲(chǔ)。

        在大規(guī)模知識(shí)圖譜的多模式查詢中,除了傳統(tǒng)的圖數(shù)據(jù)查詢模式以外,可達(dá)性查詢也是語義檢索應(yīng)用中的一個(gè)重要環(huán)節(jié)。在具體實(shí)現(xiàn)過程(圖3),還引入了模糊查詢和精確查詢方法。

        圖3 面向地質(zhì)大數(shù)據(jù)的語義檢索模型

        與傳統(tǒng)的搜索引擎提供的“一對(duì)多”式的信息服務(wù)不同[48],基于地質(zhì)語義知識(shí)圖譜的檢索結(jié)果更符合用戶的個(gè)性化需求,實(shí)現(xiàn)“一對(duì)一”式的信息服務(wù),而用戶的參與程度也更低,降低了用戶搜尋信息的成本。與傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎工作原理不同,地質(zhì)語義知識(shí)圖譜利用概念、實(shí)體的匹配度返回給用戶與搜索相關(guān)的更全面的知識(shí)體系。

        2.2 面向地質(zhì)大數(shù)據(jù)的語義檢索機(jī)制

        面向地質(zhì)大數(shù)據(jù)語義檢索是基于地質(zhì)數(shù)據(jù)語義模型的推薦預(yù)測(cè)式檢索,面向全體數(shù)據(jù),追尋數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系[49],具有知識(shí)庫數(shù)據(jù)與探索式搜索的特點(diǎn)。在每次交互檢索過程中,通過知識(shí)圖譜能夠分析出與檢索結(jié)果相關(guān)數(shù)據(jù)的特征。

        用戶在使用圖譜知識(shí)庫時(shí),可能會(huì)發(fā)現(xiàn)知識(shí)庫信息不完善。為了彌補(bǔ)這一缺陷,本文提出了基于地質(zhì)知識(shí)圖譜的探索式和知識(shí)糾錯(cuò)的混合搜索模型(圖4)。該模型具有知識(shí)庫信息補(bǔ)全的功能,用戶可以結(jié)合自己的背景知識(shí)和系統(tǒng)的推薦信息完善知識(shí)庫。

        語義檢索的知識(shí)圖譜可根據(jù)檢索結(jié)果進(jìn)行機(jī)器學(xué)習(xí)或通過用戶人工修改而不斷完善。通過這種語義檢索方法,可預(yù)測(cè)用戶可能感興趣的數(shù)據(jù)內(nèi)容,簡(jiǎn)明合理地向用戶展示查詢結(jié)果和用戶潛在感興趣的數(shù)據(jù)內(nèi)容,以引導(dǎo)用戶改進(jìn)和調(diào)整查詢目標(biāo),獲取到新的關(guān)聯(lián)信息。

        圖4 面向地質(zhì)大數(shù)據(jù)的語義檢索機(jī)制

        3 面向地質(zhì)大數(shù)據(jù)的語義檢索系統(tǒng)開發(fā)

        3.1 面向地質(zhì)大數(shù)據(jù)語義檢索系統(tǒng)框架

        本文應(yīng)用基于語義模型樹的知識(shí)圖譜為核心檢索算法,設(shè)計(jì)了面向地質(zhì)大數(shù)據(jù)的語義檢索系統(tǒng)平臺(tái)框架。平臺(tái)主要包含五個(gè)部分的功能層(圖5):數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)訪問層、業(yè)務(wù)處理層、數(shù)據(jù)入口層和可視化展示層。

        圖5 地質(zhì)大數(shù)據(jù)語義檢索系統(tǒng)框架體系

        1) 數(shù)據(jù)存儲(chǔ)層:將科技文獻(xiàn)、科學(xué)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)存到關(guān)系數(shù)據(jù)庫中,文件數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到非關(guān)系數(shù)據(jù)庫,實(shí)現(xiàn)地質(zhì)數(shù)據(jù)的規(guī)范存儲(chǔ)。

        2) 數(shù)據(jù)訪問層:通過訪問關(guān)系數(shù)據(jù)庫,獲取深層次的數(shù)據(jù)關(guān)系信息,進(jìn)行語義管理,同時(shí)訪問NoSOL數(shù)據(jù)庫,形成Neo4j圖形數(shù)據(jù)庫。

        3) 業(yè)務(wù)處理層:利用地質(zhì)語義知識(shí)圖譜對(duì)用戶的檢索詞進(jìn)行檢索并擴(kuò)展,同時(shí)對(duì)資料全文中的術(shù)語自動(dòng)聚類,實(shí)現(xiàn)二級(jí)精細(xì)查詢。

        4) 數(shù)據(jù)入口層:提供輸入、輸出接口,獲取用戶檢索關(guān)鍵詞。

        5) 可視化展示層:進(jìn)行語義檢索及知識(shí)圖譜等可視化應(yīng)用展示。

        3.2 面向地質(zhì)大數(shù)據(jù)語義檢索系統(tǒng)開發(fā)

        本系統(tǒng)平臺(tái)基于Java開發(fā),結(jié)合Tomcat、Solr軟件部署應(yīng)用,系統(tǒng)支持IE系列、360、Google、火狐等主流瀏覽器。該平臺(tái)主要實(shí)現(xiàn)了地質(zhì)資料、地質(zhì)科技文獻(xiàn)等各類結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的一體化查詢。擺脫了基于關(guān)鍵詞檢索的局限性,可分析檢索詞之間的語義關(guān)系,使得檢索詞不再孤立,推理用戶的檢索意圖,從而為用戶提供更全面、準(zhǔn)確的查詢結(jié)果。

        本系統(tǒng)主要實(shí)現(xiàn)了五個(gè)方面的功能。

        1) 粗粒度地質(zhì)信息知識(shí)服務(wù)地質(zhì)文本聚類。用戶在檢索關(guān)鍵詞時(shí),系統(tǒng)在返回搜索結(jié)果的同時(shí)對(duì)相關(guān)性強(qiáng)的術(shù)語進(jìn)行聚類統(tǒng)計(jì),展示了相關(guān)術(shù)語的聚類結(jié)果,方便用戶進(jìn)行二次檢索。

        2) 地質(zhì)資料與地質(zhì)文獻(xiàn)信息的綜合語義檢索。系統(tǒng)的語義模型樹是基于文本、表格兩方面綜合構(gòu)建,實(shí)現(xiàn)了兩個(gè)數(shù)據(jù)庫中的數(shù)據(jù)信息查詢。

        3) 基于全文的內(nèi)容信息查看和檢索。系統(tǒng)支持文本數(shù)據(jù)在瀏覽器中以XML的形式供用戶查詢?yōu)g覽全文內(nèi)容和檢索相關(guān)信息的定位和顯示。

        4) 空間數(shù)據(jù)和非空間數(shù)據(jù)的一體化查詢。系統(tǒng)實(shí)現(xiàn)了空間數(shù)據(jù)的查詢與可視化。

        5) 關(guān)聯(lián)分析。系統(tǒng)可以實(shí)現(xiàn)地質(zhì)數(shù)據(jù)之間的各種關(guān)聯(lián)關(guān)系分析,主要有地質(zhì)科技文獻(xiàn)的作者、機(jī)構(gòu)單位、合作單位、承擔(dān)項(xiàng)目之間的關(guān)聯(lián)分析,以及礦產(chǎn)資源數(shù)據(jù)之間的各種關(guān)聯(lián)分析等。

        3.3 實(shí)驗(yàn)對(duì)比驗(yàn)證分析

        目前,國內(nèi)大部分地質(zhì)數(shù)據(jù)庫僅僅采用關(guān)鍵詞作為檢索的唯一標(biāo)識(shí),不能描述詞間關(guān)系,導(dǎo)致查全、查準(zhǔn)率低,影響檢索的有效性。為了驗(yàn)證基于本文提出的語義模型及語義檢索方法比傳統(tǒng)依據(jù)自然語言和敘詞進(jìn)行檢索更具優(yōu)勢(shì),下述實(shí)驗(yàn)選取了“火山巖”為關(guān)鍵詞,通過關(guān)鍵詞檢索、語義檢索(序詞表)和語義檢索(知識(shí)圖譜)等進(jìn)行智能檢索,結(jié)果圖如表1所示,其中所采用的實(shí)驗(yàn)條件如表2所示。

        表1 實(shí)驗(yàn)結(jié)果對(duì)比

        表2 實(shí)驗(yàn)條件

        從表1中可以看出,在不降低查準(zhǔn)率前提下,本文檢索方法查全率遠(yuǎn)高于前兩種方法,特別是引入深層語義分析的知識(shí)圖譜后,檢索的查全率非常高。這是因?yàn)殛P(guān)鍵詞檢索僅是將浮于文字表面,無法從語義角度去挖掘深層次規(guī)律與知識(shí),從而降低了查全率。本文在基于敘詞表擴(kuò)展的本體構(gòu)建方法基礎(chǔ)之上,補(bǔ)充并擴(kuò)展了知識(shí)圖譜,使得系統(tǒng)在檢索關(guān)鍵詞的同時(shí)獲取了更多“火山巖”的內(nèi)在關(guān)聯(lián)信息,通過聚類相應(yīng)的術(shù)語進(jìn)行二次檢索,從而提升了查準(zhǔn)率。

        4 結(jié) 論

        與傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎工作原理不同,本文提出的基于地質(zhì)語義模型的語義檢索方法,由于利用概念、實(shí)體的語義網(wǎng)絡(luò)結(jié)構(gòu)返回給用戶與搜索相關(guān)的更全面的知識(shí)體系與信息,檢索結(jié)果在更準(zhǔn)、更全的基礎(chǔ)上,更符合用戶的個(gè)性化需求,既實(shí)現(xiàn)了“一對(duì)一”式的信息服務(wù),又減少了用戶的參與程度,從而降低了用戶搜尋信息的成本。但同時(shí)也可以看出,由于知識(shí)圖譜構(gòu)建技術(shù)的應(yīng)用推廣、地質(zhì)知識(shí)庫的積累、地質(zhì)本體庫自動(dòng)構(gòu)建技術(shù)的研究與開發(fā)還存在眾多局限,可以預(yù)見,在未來基于語義的地質(zhì)大數(shù)據(jù)智能檢索及自動(dòng)問答系統(tǒng)將涌現(xiàn)大量的研究成果。本文針對(duì)地質(zhì)大數(shù)據(jù)的特征,提出的語義檢索模型希望能夠?yàn)橄乱徊降刭|(zhì)大數(shù)據(jù)的綜合開發(fā)和利用提供新的思路和技術(shù)途徑。

        [1] 譚永杰.地質(zhì)大數(shù)據(jù)與信息服務(wù)工程技術(shù)框架[J].地理信息世界,2016,23(1):1-9.

        [2] 朱月琴,譚永杰,張建通,等.基于Hadoop的地質(zhì)大數(shù)據(jù)融合與挖掘技術(shù)框架[J].測(cè)繪學(xué)報(bào),2015,44(S1):152-159.

        [3] 周永章,黎培興,王樹功,等.礦床大數(shù)據(jù)及智能礦床模型研究背景與進(jìn)展[J].礦物巖石地球化學(xué)通報(bào),2017,36(2):327-331.

        [4] 樊中奎.地質(zhì)資料全文聚類分析及信息提取的研究[D].北京:中國地質(zhì)大學(xué)(北京),2014.

        [5] 黃敏,賴茂生.語義檢索研究綜述[J].圖書情報(bào)工作,2008,52(6):63-66.

        [6] 涂新輝.基于概念的信息檢索模型研究[D].武漢:華中師范大學(xué),2012.

        [7] 李大高.信息檢索中的查詢擴(kuò)展算法研究[D].鎮(zhèn)江:江蘇大學(xué),2008.

        [8] 張金.個(gè)性化信息檢索系統(tǒng)中文本聚類的研究[D].長(zhǎng)春:東北師范大學(xué),2010.

        [9] 明均仁.基于本體圖的文本聚類模型研究[J].情報(bào)科學(xué),2013,31(2):29-33.

        [10] 王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2012,27(3):321-328.

        [11] 高茂庭.文本聚類分析若干問題研究[D].天津:天津大學(xué),2007.

        [12] 王鑫印.無結(jié)構(gòu)和半結(jié)構(gòu)信息檢索相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2007.

        [13] 程曉偉,楊百龍,葛春,等.基于領(lǐng)域本體的網(wǎng)絡(luò)攻防訓(xùn)練資源庫建設(shè)研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2009(10):53-55.

        [14] 顏端武.面向知識(shí)服務(wù)的智能推薦系統(tǒng)研究[D].南京:南京理工大學(xué),2007.

        [15] 張紅巖.我國圖書情報(bào)領(lǐng)域本體研究可視化分析[J].圖書館學(xué)研究,2012(6):7-12.

        [16] Zhu YQ,Zhou WW,Xu Y,et al.Intelligent Learning for Knowledge Graph towards Geological Data[J].Scientific Programming,2017(12):1-13.

        [17] Zhu YQ,Tan YJ,Zhang JT,et al.A Framework of Hadoop based Geology Big Data Fusion and Mining Technologies[J].Acta Geodaetica et Cartographica Sinica.2015,44(S1):152-159

        [18] Wei D,Zhu Y.Management of Unstructured Geological Data Based on Hadoop[C]//IEEE,Intl Conf on Ubiquitous Intelligence and Computing and 2015.IEEE,2015:432-435.

        [19] 姚健鵬,郭艷軍,潘懋,等.銅礦床領(lǐng)域本體的構(gòu)建方法研究[J].中國礦業(yè),2017,26(8):140-145.

        [20] Luo X,Deng J,Wang W,et al.A quantized kernel learning algorithm using a minimum kernel risk-sensitive loss criterion and bilateral gradient technique[J].Entropy,2017,19(7):365.

        [21] Luo X,Liu J,Zhang D,et al.An Entropy-Based Kernel Learning Scheme toward Efficient Data Prediction in Cloud-Assisted Network Environments[J].Entropy,2016,18(8):274.

        [22] Zhu YQ,Tan YJ,Li RX,et al.Cyber-physical-social-thinking modeling and computing for geological information service system[J].International Journal of Distributed Sensor Networks,2016,12(11):193-196.

        [23] 李婧,陳建平,王翔.地質(zhì)大數(shù)據(jù)存儲(chǔ)技術(shù)[J].地質(zhì)通報(bào),2015,34(8):1589-1594.

        [24] Zhou Z,Cheng Z,Zhu Y,et al.Similarity assessment for scientific workflow clustering and recommendation,中國科學(xué):信息科學(xué)(英文版),2016,59(11):1-4.

        [25] Luo X,Zhang D,Yang LT,et al.A kernel machine-based secure data sensing and fusion scheme in wireless sensor networks for the cyber-physical systems[J].Future Generation Computer Systems,2016(61):85-96.

        [26] 董慧,唐敏.語義檢索在Web2.0環(huán)境下的應(yīng)用探討[J].中國圖書館學(xué)報(bào),2011,37(2):115-119.

        [27] 楊俊柯,楊貫中,楊建學(xué).基于領(lǐng)域本體的學(xué)習(xí)資源管理系統(tǒng)框架研究[J].科學(xué)技術(shù)與工程,2005,5(11):708-711.

        [28] 楊俊柯,楊貫中,楊建學(xué).基于語義模型的信息檢索機(jī)制研究[J].計(jì)算機(jī)工程,2006,32(12):212-214.

        [29] 趙丹群.信息檢索中敘詞表與Ontology的比較研究[J].情報(bào)理論與實(shí)踐,2006,29(6):738-741.

        [30] 楊建林.基于本體的文本信息檢索研究[J].情報(bào)理論與實(shí)踐,2006,29(5):598-601.

        [31] Zhao WB,Yang W,Zhang H,et al.High-throughput state-machine replication using software transactional memory.Journal of Supercomputing,2016,72(11):1-20.

        [32] 嚴(yán)光生,薛群威,肖克炎,等.地質(zhì)調(diào)查大數(shù)據(jù)研究的主要問題分析[J].地質(zhì)通報(bào),2015,34(7):1273-1279.

        [33] 徐也,徐蔚然.基于語義特征擴(kuò)展的知識(shí)庫增量引文推薦算法[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2016,51(11):26-32.

        [34] 趙寒,張樹生,周競(jìng)濤,等.面向異構(gòu)數(shù)據(jù)庫集成的語義模型構(gòu)建技術(shù)研究[J].計(jì)算機(jī)集成制造系統(tǒng),2006,12(3):371-376.

        [35] 張玉峰,李敏,晏創(chuàng)業(yè).論知識(shí)檢索與信息檢索[J].中國圖書館學(xué)報(bào),2003,29(5):23-26.

        [36] 黃鳳愛,蔣永平,文艷華.基于本體的專業(yè)資源庫語義模型研究[J].現(xiàn)代情報(bào),2009,29(5):52-55.

        [37] Lake B M,Salakhutdinov R,Tenenbaum J B.Human-level concept learning through probabilistic program induction[J].Science,2015,350(6266):1332-1338.

        [38] Zhao W,Luo X,Zhu Y,et al.Intention preservation in deterministic multithreading:a partial solution.Iet Software,2016,10(6):155-163.

        [39] 王樹梅.信息檢索相關(guān)技術(shù)研究[D].南京:南京理工大學(xué),2007.

        [40] 常琳,許必熙.基于戰(zhàn)場(chǎng)信息融合的輔助決策模型若干問題研究[J].軍事運(yùn)籌與系統(tǒng)工程,2017,31(2):31-34.

        [41] 丁志均,楊青,張會(huì)兵,等.基于非結(jié)構(gòu)化文本檢索模型綜述[J].計(jì)算機(jī)應(yīng)用研究,2017,34(6):1601-1608.

        [42] 鳳麗洲.文本分類關(guān)鍵技術(shù)及應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué),2015.

        [43] 胡德華,王蕊.信息檢索研究的知識(shí)圖譜探析[J].圖書館雜志,2015,34(1):20-28.

        [44] 李偉.基于知識(shí)元細(xì)粒度信息檢索研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2017,29(2):12-15.

        [45] 馬飛翔,廖祥文,於志勇,等.基于知識(shí)圖譜的文本觀點(diǎn)檢索方法[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2016,51(11):33-40.

        [46] 邵領(lǐng).基于知識(shí)圖譜的搜索引擎技術(shù)研究與應(yīng)用[D].成都:電子科技大學(xué),2016.

        [47] 邵曉宇.基于本體的大型數(shù)據(jù)資源智能檢索研究[D].合肥:合肥工業(yè)大學(xué),2008.

        [48] 張戈一,朱月琴,呂鵬飛,等.耦合協(xié)同過濾推薦與關(guān)聯(lián)分析的圖書推薦方法研究[J].中國礦業(yè),2017,26(S1):425-430.

        [49] 張旗,周永章.大數(shù)據(jù)正在引發(fā)地球科學(xué)領(lǐng)域一場(chǎng)深刻的革命——《地質(zhì)科學(xué)》2017年大數(shù)據(jù)專題代序[J].地質(zhì)科學(xué),2017,52(3):1-12.

        Researchonsemanticretrievalmodeltowardsgeologicalbigdata

        ZHU Yueqin1,2,TAN Yongjie1,2,WU Yongliang3,ZHANG Linbing4,LI Yang5,ZHAO Yanan5

        (1.Development and Research Center,China Geological Survey,Beijing100037,China;2.Key Laboratory of Geological Information Technology,Ministry of Land and Resources,Beijing100037,China;3.School of Earth Sciences and Resources,China University of Geosciences(Beijing),Beijing100083,China;4.Beijing Jiuyuan Taihe Technology Co.,Ltd.,Beijing100078;5.National-Local Joint Engineering Laboratory of Geospatial Information Technology,Hunan University of Science and Technology,Xiangtan411201,China)

        With the new generation of information technology’s development and its application in geology,such as the Internet of things,the Internet,big data and cloud computing.How to retrieve more complete and more accurate information from the massive geological data,and provide it to user in a appreciate way is a question need to be resolved.In this paper we first define a semantic model towards geological big data and provide the construction method of this model based on the knowledge graph technology.Then,we propose a semantic retrieval and clustering analysis method.Finally,some related experiments were carried out by the geological big data retrieval system implemented.Experimental results show that the method has high recall and precision efficiency than others.

        geological big data;semantic model;knowledge graph;clustering analysis;semantic retrieval

        P628+.4;TP311.131

        A

        1004-4051(2017)12-0143-07

        2017-10-24責(zé)任編輯趙奎濤

        國土資源部公益性行業(yè)科研專項(xiàng)資助(編號(hào):201511079)

        朱月琴(1975-),女,博士,高級(jí)工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。

        吳永亮(1987-),男,博士研究生,從事地球探測(cè)與信息技術(shù)、航天標(biāo)準(zhǔn)化技術(shù)研究,E-mail:andyloveti@163.com。

        猜你喜歡
        圖譜檢索語義
        繪一張成長(zhǎng)圖譜
        語言與語義
        2019年第4-6期便捷檢索目錄
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        認(rèn)知范疇模糊與語義模糊
        雜草圖譜
        語義分析與漢俄副名組合
        男人的天堂av你懂得| 国产成人av 综合 亚洲| 亚洲免费不卡| 精品国产乱码久久免费看| 成人大片免费视频播放一级| 网禁拗女稀缺资源在线观看| 18禁美女裸体网站无遮挡| 国产精品女同久久久久久| 久久精品女同亚洲女同| 四虎影视成人永久免费观看视频 | 人妻少妇精品系列一区二区| 人妻少妇精品视中文字幕免费| 国产人妻人伦精品1国产| 91亚洲国产成人aⅴ毛片大全| 2021国产最新在线视频一区| 国产精品丝袜一区二区三区在线| 偷拍色图一区二区三区| 亚洲中文字幕成人无码| 另类亚洲欧美精品久久不卡| 国产成人无码免费网站| 亚洲男人堂色偷偷一区| 少妇高潮精品正在线播放| 国产一区二区三区久久精品| 人人添人人澡人人澡人人人人| 亚洲电影久久久久久久9999| 精品精品国产一区二区性色av | 爆乳日韩尤物无码一区| 亚洲AⅤ乱码一区二区三区| 亚洲男人的天堂av一区| 免费人妻无码不卡中文字幕系| 亚洲国产成人久久综合一区77| av免费看网站在线观看| 熟女人妻中文字幕av| 狠狠色噜噜狠狠狠888米奇视频| 久久久久久久国产精品电影| 日韩av在线亚洲女同| 色综合久久精品亚洲国产| 精品十八禁免费观看| 精品国产3p一区二区三区| 精品日韩亚洲av无码| 久久综合给合久久狠狠狠97色69|