亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向水利信息資源目錄服務的分布式語義檢索方法研究

        2015-11-26 01:08:34唐志賢卞一路
        計算機與現(xiàn)代化 2015年2期
        關(guān)鍵詞:本體分布式檢索

        馮 鈞,許 瀟,唐志賢,卞一路

        (河海大學計算機與信息學院,江蘇 南京 211100)

        0 引言

        水利信息共享是我國信息資源共享建設的重要組成部分。信息資源的發(fā)現(xiàn)是共享的基礎,對于采用元數(shù)據(jù)描述資源的目錄服務而言,元數(shù)據(jù)的發(fā)現(xiàn)機制是目錄服務的關(guān)鍵技術(shù)之一。傳統(tǒng)搜索引擎對查詢請求的處理局限于詞的表面形式,存在“忠實表達”、“表達差異”、“詞匯孤島”等問題,限制了資源發(fā)現(xiàn)過程中的查全率和查準率。水利信息不是孤立存在的,相互之間在語義上存在復雜聯(lián)系,例如降雪和降雨都屬于降水,下雨與降雨等價等。對于以數(shù)據(jù)共享為目的的水利信息資源目錄服務系統(tǒng)的目標用戶來說,往往希望通過目錄系統(tǒng)的發(fā)現(xiàn)服務來找到滿足行業(yè)語義的所有相關(guān)數(shù)據(jù)資源,例如通過“降雨”來搜索信息資源,希望獲取“降水”、“降雪”等水利信息元數(shù)據(jù)信息,而傳統(tǒng)的檢索方法無法應對這種應用需求。此外,水利信息的應用范圍廣泛,用戶對數(shù)據(jù)的理解參差不齊,非專業(yè)用戶往往希望通過輸入非水利專業(yè)檢索詞以發(fā)現(xiàn)水利信息資源,例如通過關(guān)鍵詞“下雨”甚至“雨天”檢索出“降雨”、“降水”等相關(guān)信息資源,更是傳統(tǒng)全文檢索方法望塵莫及的。必須要從查詢語句所表達的語義層次來認識和處理用戶的檢索請求,進行相應的語義擴展才能使檢索結(jié)果更加準確和全面。隨著水利信息資源整合和共享的深入推進,現(xiàn)有的集中式信息資源檢索模式已經(jīng)無法滿足業(yè)務應用的實時性和并發(fā)性需求,迫切需要對檢索處理進行并行化改造。

        本文提出一種面向水利信息資源目錄服務的分布式語義檢索方法(Distributed Semantic Retrieval Method for Water Information Resources Directory Service,DSRM)。DSRM 將利用基于水利公文詞表構(gòu)建的水利領域本體,通過構(gòu)建語義推理機實現(xiàn)對查詢關(guān)鍵詞的語義擴展,并根據(jù)語義相關(guān)度進行結(jié)果排序,解決水利信息資源目錄服務發(fā)現(xiàn)過程中語義缺乏的問題;同時定義語義相似度閾值和選擇方法防止“語義飄移”以保證檢索的查準率;基于MapReduce 對索引創(chuàng)建和查詢處理進行并化改造提高檢索的處理效率。

        1 相關(guān)研究

        隨著語義網(wǎng)技術(shù)和云計算技術(shù)的不斷成熟和廣泛應用,語義檢索和分布式檢索領域已經(jīng)形成大量研究成果。針對信息資源的語義檢索研究,Yu 等人從非語義相關(guān)詞匯擴展和語義相關(guān)詞2 個方面進行關(guān)鍵字擴展保障信息檢索過程的查全率[1];文獻[2-4]利用領域元數(shù)據(jù)的數(shù)據(jù)關(guān)系構(gòu)建領域本體,通過引入本體技術(shù)提高解決空間信息檢索效率;在應用項目方面,面向生物學領域的語義檢索系統(tǒng)TextPresso[5]和對HTML 網(wǎng)頁進行語義標注的實現(xiàn)語義檢索的SHOE[6]最為經(jīng)典。在分布式檢索方面,文獻[7]主要研究解決海量異構(gòu)、多來源數(shù)據(jù)的處理效率和共享程度低的問題,其中通過Hadoop 存儲空間數(shù)據(jù)原始文件以及索引文件。文獻[8]主要是針對特定的多媒體收藏展開研究,提出一個高性能的高維索引以及使用Hadoop 集群來搜索海量數(shù)據(jù)的SIFT 描述符。文獻[9-10]將Lucene 和HBase 相結(jié)合構(gòu)建分布式全文搜索引擎。文獻[11]基于MapReduce 計算模型構(gòu)建了圖片的分布式搜索引擎。從國內(nèi)外的文獻來看,水利領域還沒有成熟的分布式語義檢索技術(shù),限制了水利信息檢索效率和業(yè)務化應用。

        2 面向水利信息資源目錄服務的分布式語義檢索方法

        2.1 領域本體

        《水利公文主題詞表》是水利行業(yè)各部門在計算機網(wǎng)絡環(huán)境下處理政務信息的規(guī)范性主題標引工具和檢索工具。水利部辦公廳于1994 年組織編制并使用,2000 年和2006 年2 次修訂。詞表自面世以來,在水利行業(yè)辦公自動化過程中發(fā)揮了重要的作用,是水利公文主題標引和計算機檢索的必備工具,其中詞匯之間具有明確的上下位、兄弟、使用、代替、注釋等關(guān)系,如表1 所示,其中權(quán)重是根據(jù)水利信息資源目錄建設需求和行業(yè)經(jīng)驗進行設置的,在實際的使用過程中還可以根據(jù)需要調(diào)整,故本文將《水利公文主題詞表》作為水利領域本體的基礎資源,在抽取其中基本詞匯的同時進行擴展以構(gòu)建本體。

        表1 水利領域本體的語義關(guān)系

        2.2 基于領域本體的查詢擴展

        本文基于領域本體概念相似度進行查詢擴展,基本思想是:通過查找與檢索詞相似度大于閾值的詞,把相似度作為該擴展詞的權(quán)重和擴展詞一并提交給搜索引擎,進行關(guān)鍵詞查詢。為了能夠支持對非水利專業(yè)用戶的語義擴展,本文還引入了知網(wǎng)語義進行通用詞匯的擴展,進一步提高檢索語義擴展能力。

        圖1 語義查詢擴展流程

        如圖1 所示,為語義擴展流程。對于用戶提交的檢索關(guān)鍵詞,首先判斷該關(guān)鍵詞是否為水利專業(yè)詞匯,若是則進行水利專業(yè)領域擴展,若不是則利用知網(wǎng)語義進行擴展。在進行語義擴展時需要計算詞匯間的語義相關(guān)度,本體詞匯間關(guān)系的基本相關(guān)度權(quán)值定義如表1 所示(其中β 為可調(diào)節(jié)的整體相似度)。在計算相關(guān)度的基礎之上,通過設定語義相似閾值來過濾掉一些低相關(guān)的詞匯,使擴展查詢時擴展詞盡量與原檢索詞相似。但是,由于詞匯間可能會存在多條擴展路徑,相應也會存在多個相似度值,在這種情況下本文采用相似度的較小值以減少擴展查詢的語義漂移,保證查詢的查準率。

        2.3 語義推理

        在進行語義擴展的過程中,需要利用語義推理機推斷出與檢索關(guān)鍵詞相關(guān)的本體詞匯,形成領域語義詞匯集并計算詞匯間的相似度。為了表達詞匯及其關(guān)系的模糊性,借鑒模糊本體[8]的概念在每個本體的概念上加入隸屬度集,用以表達詞匯之間的相關(guān)性。同時,對水利信息資源進行文本分詞,采用模糊資源描述框架FRDF[8]用三元組(主體、(謂詞、權(quán)值)、客體)來描述分詞后水利信息資源及其關(guān)系。在完成對資源及其關(guān)系進行規(guī)范化描述的基礎上,本文借助Jena 構(gòu)建語義推理機,定義相關(guān)推理規(guī)則實現(xiàn)語義推理,推理過程中先讀取解析后的本體,然后對推理規(guī)則進行解析并綁定到模型中,最后使用Jena三元組對其進行查詢。

        圖2 推理規(guī)則

        推理規(guī)則如圖2 所示,其中推理規(guī)則1 表示具有“subClassOf”傳遞關(guān)系,推理規(guī)則2 用以推理出“sameType”關(guān)系,推理規(guī)則3 用以推理出“brother”關(guān)系。通過圖2 所示推理規(guī)則,結(jié)合水利領域本體的語義關(guān)系即可實現(xiàn)基于水利的語義擴展。

        2.4 結(jié)果排名

        在進行語義擴展的基礎上,結(jié)合分詞算法對水利數(shù)據(jù)目錄服務的元數(shù)據(jù)進行全文檢索,本文根據(jù)《水利公文主題詞表》的結(jié)構(gòu)和水利信息實踐的經(jīng)驗對向量空間模型進行改進,元數(shù)據(jù)資源與檢索詞的文本相關(guān)度計算方法如公式(1)所示:

        其中norm(T)為元數(shù)據(jù)資源文本內(nèi)容T 進行最大匹配算法分詞后詞匯(wordi)集合的大小;hash(wordi)=(1-0.3)/n 為根據(jù)詞匯的主題相關(guān)值,n 為《水利公文主題詞表中》中主題詞的等級,若wordi不在索引中,則hash 值為0。對采用知網(wǎng)語義進行擴展的詞匯則按向量空間模型計算元數(shù)據(jù)資源與檢索詞的文本相關(guān)度。

        在完成文本相關(guān)度計算的基礎之上,結(jié)合檢索詞匯間的語義相關(guān)度即可計算出元數(shù)據(jù)資源與用戶輸入檢索詞間的相似度,按相似度降序?qū)⒔Y(jié)果返回給用戶。

        2.5 基于MapReduce 的并行檢索

        為了提高檢索效率,本文將云計算技術(shù)引入水利信息資源目錄服務的資源發(fā)現(xiàn)處理過程中,利用Hadoop 構(gòu)建基于云的檢索模塊,基于MapReduce 并行處理模型對基于Lucene 的全文檢索算法進行并行化改造,以提高大規(guī)模查詢請求條件下的查詢處理效率。圖3 為本文并行檢索算法的處理流程,算法首先對檢索請求進行劃分,形成若干查詢請求子集,每個查詢請求子集交由一個Map 節(jié)點處理,Map 節(jié)點讀取索引文件進行查詢,并將查詢結(jié)果交由Reduce 進行合并,實現(xiàn)查詢的任務并行。對查詢子集中的每一個查詢請求,同樣將其發(fā)送到多個Map 節(jié)點,由每個Map 節(jié)點對該節(jié)點存儲的索引分片進行檢索,最終再由Reduce 進行檢索結(jié)果合并,實現(xiàn)查詢的算法并行,處理流程與任務并行相似。

        圖3 基于MapReduce 的并行檢索流程

        3 原型實現(xiàn)與案例研究

        3.1 原型系統(tǒng)設計與實現(xiàn)

        圖4 所示為基于DSRM 的原型系統(tǒng)架構(gòu),包含語義本體模塊和語義查詢處理模塊。語義本體模塊用于存儲水利領域本體和知網(wǎng)語義本體,并完成領域詞匯相似度的計算,包括水利本體庫、知網(wǎng)本體庫和語義詞匯相似度計算單元(計算語義詞匯相似度);其中水利本體庫用于存儲水利領域本體(采用模糊本體的形式描述)及其詞匯的相似度;知網(wǎng)本體庫用于存儲知網(wǎng)本體詞匯及子網(wǎng)詞匯相似度。語義查詢處理模塊,利用查詢請求處理單元獲取用戶的查詢請求,并進行分詞處理形成查詢詞集合;模糊語義推理單元進行推理形成語義擴展查詢詞集合,Lucene 分布式檢索單元從水利信息資源目錄服務元數(shù)據(jù)庫中檢索滿足查詢詞集合和語義擴展查詢詞集合的元數(shù)據(jù),形成語義檢索結(jié)果集合;最后由檢索結(jié)果排序單元按照相關(guān)度對查詢結(jié)果進行排序,并按降序?qū)⒉樵兘Y(jié)果返回用戶。

        圖4 DSRM 原型系統(tǒng)架構(gòu)

        3.2 語義檢索實驗分析

        表2 所示為本實驗的一個水利詞匯語義擴展示例,其中可調(diào)節(jié)的整體相似度β 取值為0.9,語義相似度閾值為0.8。圖5 為本語義檢索的一個示例(左側(cè)為語義檢索結(jié)果,右側(cè)為傳統(tǒng)關(guān)鍵詞匹配檢索結(jié)果),分析圖5 可以發(fā)現(xiàn),由于元數(shù)據(jù)庫中無任何包含“四荒”關(guān)鍵詞的元數(shù)據(jù)資源,傳統(tǒng)的檢索方法沒有檢索結(jié)果,而本文提出的DSRM 方法在閾值為0.8時,找到4 個有關(guān)“四荒”的結(jié)果(與表2 中的擴展吻合),可以看出DSRM 檢索方法能夠有效地進行查詢擴展,從而提高檢索的查全率。

        3.3 并行查詢效率分析

        為了分析并行效率,本文對1000 萬條元數(shù)據(jù)建立索引,在此基礎上分別模擬了100、1000、10000、20000 直到100000 個查詢請求,進行查詢時間的統(tǒng)計。實驗平臺由1 臺名稱節(jié)點和3 臺數(shù)據(jù)節(jié)點組成,所有計算機的配置相同(CPU:Intel Pentium4 2 GHZ,內(nèi)存:DDR2 2 GB,硬盤:80 GB,7200 r/min,2 MB 緩存,操作系統(tǒng):Ubuntu Linux);Hadoop 集群版本為0.20.2,Hbase 版本為0.90.4。為了讓數(shù)據(jù)更能反映實際,每組數(shù)據(jù)都作了若干次測試,最后取多次實驗的平均值作為最終實驗結(jié)果。實驗結(jié)果如圖6 所示,當查詢請求較少時,并行模式的效率并未體現(xiàn)(啟動Hadoop 需要一定的時間開銷);當查詢請求量逐步增大時,并行查詢效率的優(yōu)勢就逐步體現(xiàn)出來了;當查詢量達到10 萬時,查詢效率提高近3 倍,并且增長趨勢比單機模式低,體現(xiàn)了并行查詢的優(yōu)勢。

        表2 查詢詞匯語義擴展示例

        圖5 語義檢索結(jié)果示例

        圖6 并行查詢效率分析

        4 結(jié)束語

        水利信息共享系統(tǒng)的建設是解決水利數(shù)據(jù)為科學研究、為社會提供信息服務的重要手段。水利數(shù)據(jù)目錄服務利用元數(shù)據(jù)對分布存儲的水利數(shù)據(jù)進行規(guī)范化的描述,通過構(gòu)建元數(shù)據(jù)信息的發(fā)布、發(fā)現(xiàn)服務以支撐對水利實體數(shù)據(jù)的發(fā)現(xiàn);不僅是數(shù)據(jù)發(fā)現(xiàn)的窗口,更是共享服務的起點。本文針對水利數(shù)據(jù)目錄服務中元數(shù)據(jù)檢索的查全率和查準率要求,結(jié)合推理機制提出了基于水利領域本體和知網(wǎng)語義的查詢擴展方法,解決了查詢過程中的“機械匹配”問題;基于MapReduce 的檢索算法并行改造,有效提高了查詢效率。在后續(xù)的研究中,可以考慮定義更多的推理規(guī)則實現(xiàn)更加完善的語義擴展。

        [1]朱星明,耿慶.略論水利技術(shù)標準中信息共享類標準存在之問題[J].水利技術(shù)監(jiān)督,2006(3):6-9.

        [2]王歡,孫瑞志.基于領域本體和Lucene 的語義檢索系統(tǒng)研究[J].計算機應用,2010,30(6):1655-1660.

        [3]虞為,曹加恒,陳俊鵬.基于本體的地理信息查詢和排序[J].計算機工程,2007,33(21):27-32.

        [4]Yu Xuejun,Lv Jing.Keywords semantic extension in semantic search model[C]// International Conference on Computer,Networks and Communication Engineering.2013.

        [5]段磊,李琦,毛曦.基于本體的空間搜索引擎研究[J].計算機科學,2009,36(2):172-174.

        [6]Janowicz K,Raubal M,Kuhn W.The semantics of similarity in geographic information retrieval[J].Journal of Spatial Information Science,2013(2):29-57.

        [7]Ahlers D.Towards a development process for geospatial in-formation retrieval and search[C]// Proceedings of the 22nd International Conference on World Wide Web Companion.International World Wide Web Conferences Steering Committee.2013:143-144.

        [8]California Institute of Technology.Textpresso[EB/OL].http://www.textpresso.org,2014-10-31.

        [9]SHOE Team.SHOE[EB/OL].http://www.cs.umd.edu/projects/plus/SHOE/,2014-10-31.

        [10]Shestakov D,Moise D,Gudmundsson G,et al.Scalable high-dimensional indexing with Hadoop[C]// IEEE 2013 the 11th International Workshop on Content-Based Multimedia Indexing (CBMI).2013:207-212.

        [11]Liu Tianyuan,Song Meina,Zhang Xiaoqi.Research of massive heterogeneous data integration based on Lucene and XQuery[C]// IEEE the 2nd Symposium on Web Society (SWS).2010:648-652.

        [12]Gao X,Nachankar V,Qiu J.Experimenting lucene index on HBase in an HPC environment[C]// Proceedings of the first Annual Workshop on High Performance Computing Meets Databases.ACM,2011:25-28.

        [13]Gu Chunhao,Gao Yang.A content-based image retrieval system based on Hadoop and Lucene[C]// IEEE 2012 the Second International Conference on Cloud and Green Computing(CGC).2012:684-687.

        [14]王俊生,施運梅,張仰森.基于Hadoop 的分布式搜索引擎關(guān)鍵技術(shù)[J].北京信息科技大學學報(自然科學版),2011,26(4):53-56.

        [15]黃果,周竹榮,周亭.基于領域本體的語義相似度計算研究[J].計算機工程與科學,2007,29(5):112-116.

        [16]張承立,陳劍波,奇開悅.基于語義網(wǎng)的語義相似度算法改進[J].計算機工程與應用,2006,42(17):165-166.

        [17]李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應用[J].計算機工程與設計,2007,28(1):227-229.

        猜你喜歡
        本體分布式檢索
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        2019年第4-6期便捷檢索目錄
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
        文學教育(2016年27期)2016-02-28 02:35:15
        基于DDS的分布式三維協(xié)同仿真研究
        雷達與對抗(2015年3期)2015-12-09 02:38:50
        西門子 分布式I/O Simatic ET 200AL
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        在线播放真实国产乱子伦| 国产熟女精品一区二区| 91九色极品探花内射| 久久精品中文字幕无码绿巨人| 精品人妻va出轨中文字幕| 久久国产亚洲高清观看5388| 日韩亚洲午夜精品一区二区三区| 激情五月我也去也色婷婷| 粗大猛烈进出白浆视频| 亚洲精品免费专区| 国产一区二区三区亚洲精品| 中文字幕一区久久精品| 啦啦啦中文在线观看日本| 偷窥村妇洗澡毛毛多| 亚洲一区二区三区中文视频| 白白色发布免费手机在线视频观看| а√天堂资源官网在线资源| 日日摸夜夜添夜夜添无码免费视频 | 久久久免费看少妇高潮| 国产午夜鲁丝片av无码| 久久久亚洲经典视频| 国产精品日本中文在线| 狠狠色噜噜狠狠狠狠97首创麻豆| 四川少妇大战4黑人| 亚洲va在线va天堂va四虎| 伊人久久亚洲精品中文字幕| 少妇精品无码一区二区三区| 又大又粗弄得我出好多水| 激情五月天俺也去综合网| 新中文字幕一区二区三区| 色多多a级毛片免费看| 91亚洲人成手机在线观看| 亚洲精品中文字幕一二三| 欧洲多毛裸体xxxxx| 人妻av一区二区三区精品| 偷拍自拍一区二区三区| 中文字幕一区二区中文| 思思久久96热在精品国产| 精品久久久久久电影院| av影片手机在线观看免费网址| 久久www免费人成精品|