亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分布式檢索在異構(gòu)科技信息資源中的應(yīng)用及優(yōu)化

        2017-11-01 17:14:41劉應(yīng)波文若瑾陳亞杰
        關(guān)鍵詞:科技資源用戶

        李 城 童 彬 劉應(yīng)波,* 鄔 平 王 鋒, 文若瑾 陳亞杰

        1(昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650504)

        2(云南省科學(xué)技術(shù)情報(bào)研究院 云南 昆明 650500)

        分布式檢索在異構(gòu)科技信息資源中的應(yīng)用及優(yōu)化

        李 城1童 彬1劉應(yīng)波1,2*鄔 平2王 鋒1,2文若瑾2陳亞杰1

        1(昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650504)

        2(云南省科學(xué)技術(shù)情報(bào)研究院 云南 昆明 650500)

        為解決使用傳統(tǒng)集中式檢索處理海量異構(gòu)科技信息資源時(shí)存在單點(diǎn)故障、性能低、不易擴(kuò)展等問題,提出一種在異構(gòu)科技資源下應(yīng)用的分布式高性能檢索系統(tǒng)(DHRS),并對(duì)其核心技術(shù)進(jìn)行重點(diǎn)研究和分析。針對(duì)檢索結(jié)果資源訪問開銷大的問題,給出基于訪問代價(jià)的評(píng)估算法。并結(jié)合實(shí)際應(yīng)用場(chǎng)景對(duì)算法進(jìn)行優(yōu)化,優(yōu)化后請(qǐng)求數(shù)減少了80%,實(shí)驗(yàn)環(huán)境下的性能平均提高了68%。同時(shí)通過真實(shí)數(shù)據(jù)集的測(cè)試,驗(yàn)證了DHRS檢索海量科技資源的可行性,能夠適用于對(duì)檢索和擴(kuò)展性能要求較高的場(chǎng)景。

        科技資源 分布式檢索 海量數(shù)據(jù) ElasticSearch 異構(gòu)資源

        0 引 言

        科技資源主要是指科技知識(shí)信息資源,既包括各種電子或紙質(zhì)的中外文期刊、雜志、報(bào)紙、論文、專利、標(biāo)準(zhǔn)等,也包括一些可發(fā)布的科研成果表格、視頻、圖形圖像數(shù)據(jù)等。近十年來,互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使科技資源呈爆炸式增長(zhǎng),科技資源的檢索模式也轉(zhuǎn)向了“瀏覽-檢索”模式[1],對(duì)大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下的科技資源進(jìn)行有效的檢索和管理,提高科技資源的利用率成為了領(lǐng)域內(nèi)研究的重點(diǎn)。

        檢索技術(shù)是科技資源管理服務(wù)的核心,目前常用的專用檢索系統(tǒng)和搜索引擎,其起步之初都是以集中式的組織架構(gòu)和檢索技術(shù)來實(shí)現(xiàn)資源檢索的。通常認(rèn)為第一代搜索引擎便是以集中式檢索為主要特征。這種集中式的檢索方式資源覆蓋面較窄,資源更新和維護(hù)比較困難,檢索速度也比較緩慢。而且,集中式的檢索方式在應(yīng)對(duì)專業(yè)度和性能都要求較高的科技資源檢索時(shí),無法達(dá)到預(yù)期的要求。此外,集中式的檢索方式還存在著中心節(jié)點(diǎn)失效的致命缺點(diǎn)。集中式檢索的其他不足和問題參見文獻(xiàn)[1]。

        分布式檢索技術(shù)克服了集中式檢索的不足,在分布的環(huán)境下使用多個(gè)中小型搜索引擎協(xié)作的分布式工作方式[2-3],可以改善傳統(tǒng)集中式搜索引擎更新和檢索速度較慢的問題,以便滿足廣大用戶的需求。分布式技術(shù)的性能優(yōu)勢(shì)使得它在信息資源的檢索中得到了廣泛的研究與應(yīng)用[4-8]。同時(shí),以分布式技術(shù)為基礎(chǔ)的云計(jì)算[9]推動(dòng)了檢索技術(shù)的發(fā)展。例如:萬(wàn)方的RMSCloud[10-12]云搜索引擎、清華大學(xué)的網(wǎng)絡(luò)指南針聯(lián)邦搜索引擎[3]都已成功應(yīng)用了分布式的檢索方式。

        當(dāng)前,科技資源存在異構(gòu)性、海量性、分布性等特點(diǎn)。由于其物理存儲(chǔ)體系、存儲(chǔ)系統(tǒng)、存儲(chǔ)管理機(jī)制、存儲(chǔ)地域、存儲(chǔ)載體、保存方式以及存儲(chǔ)邏輯模型的不同,導(dǎo)致了科技資源存在著異構(gòu)性。同時(shí),隨著信息獲取手段的提高以及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,科技資源在這些技術(shù)手段的推動(dòng)下正在高速增長(zhǎng),呈現(xiàn)出海量增長(zhǎng)的趨勢(shì)。另一方面,各個(gè)研究機(jī)構(gòu)和高校自身?yè)碛旋嫶蟮目萍假Y源,這些資源存在著交叉重疊,本身具有分布的特征。對(duì)具有如上特征的科技資源進(jìn)行整合,提供統(tǒng)一、高效、精確的檢索服務(wù)是一項(xiàng)具有挑戰(zhàn)性的工作[13]。

        1 分布式搜索引擎

        當(dāng)前主流的分布式搜索引擎有Solr、Solandra、SolrCloud、Solr+Katta、Elasticsearch等。Solr是由Java開發(fā),基于Lucene的分布式搜索引擎,提供了webserver樣式的編程接口,由于其使用范圍廣,比較成熟,故能很快速、方便地部署。Solandra是一個(gè)基于Solr和nosql數(shù)據(jù)庫(kù)的Cassandra的分布式引擎。Cassandra是facebook開源的數(shù)據(jù)庫(kù),是基于列結(jié)構(gòu)的非關(guān)系型數(shù)據(jù)庫(kù)。其有個(gè)重要的特性是對(duì)外沒有中心節(jié)點(diǎn),所以不存在單點(diǎn)故障問題,倘若主節(jié)點(diǎn)掛掉了,剩余節(jié)點(diǎn)會(huì)自動(dòng)投票,再次選出主節(jié)點(diǎn)。SolrCloud是一個(gè)基于Solr的開源項(xiàng)目,使用Zookeeper進(jìn)行節(jié)點(diǎn)通信管理,提供索引分片功能,是一個(gè)實(shí)時(shí)的搜索引擎。Solr+Katta是一個(gè)分布式索引建立和管理工具,底層是Hadoop的HDFS分布式文件系統(tǒng),具備拓展和容錯(cuò)機(jī)制,準(zhǔn)實(shí)時(shí)的搜索方案。

        以上調(diào)研我們可以看到,當(dāng)前搜索引擎主要是Solr演化版本以及本文重點(diǎn)講的ElasticSearch。二者都是基于Lucence平臺(tái)。Solr相較于ElasticSearch,是最流行的企業(yè)級(jí)搜索引擎,擁有更大、更加成熟的用戶、開發(fā)和貢獻(xiàn)者社區(qū),支持添加多種格式的索引,并且從技術(shù)角度講,其更加的成熟、穩(wěn)定,在傳統(tǒng)的搜索應(yīng)用中表現(xiàn)好于ElasticSearch。但如果考慮到實(shí)時(shí)性問題時(shí),ElasticSearch具有優(yōu)勢(shì)。

        彈性搜索(ElasticSearch-ES)是一個(gè)基于Lucene[16]的開源的分布式搜索引擎,可以提供實(shí)時(shí)、穩(wěn)定、可靠的搜索。它是從彈性網(wǎng)絡(luò)演化而來,繼承了彈性網(wǎng)絡(luò)的思想,使用彈性搜索的方法進(jìn)行檢索可以大大降低時(shí)間復(fù)雜度。ES的一個(gè)重要的優(yōu)勢(shì)在于它的高可用性、易擴(kuò)展性以及近實(shí)時(shí)性,其高可用性和易擴(kuò)展性都來源于其強(qiáng)大的分布式支持[17]。

        目前,對(duì)于科技資源檢索這一領(lǐng)域來說,ES從2010年誕生[15]到現(xiàn)在,國(guó)內(nèi)外幾乎沒有任何關(guān)于ES在科技資源檢索領(lǐng)域的研究文獻(xiàn)。雖然在全文檢索需求時(shí)ES已經(jīng)對(duì)分布式資源提供了通用的檢索支持,但是,由于科技資源本身分布、異構(gòu)、海量和其領(lǐng)域特性,使用ES進(jìn)行分布式異構(gòu)科技資源的檢索還存在著很多限制。例如,需要在ES檢索接口的基礎(chǔ)上研究并開發(fā)面向科技資源的檢索接口,來滿足這一領(lǐng)域規(guī)范的檢索需求。對(duì)于ES目前不支持的數(shù)據(jù)資源的導(dǎo)入,還需要在其基礎(chǔ)上擴(kuò)展更多針對(duì)科技資源的數(shù)據(jù)適配器,并且需要對(duì)科技資源檢索結(jié)果中重復(fù)的數(shù)據(jù)資源進(jìn)行特殊處理等。

        2 基于ES的分布式異構(gòu)檢索系統(tǒng)

        為實(shí)現(xiàn)科技資源文獻(xiàn)的高性能檢索,解決科技資源檢索在其異構(gòu)性、海量性和分布性方面存在的不足,設(shè)計(jì)并實(shí)現(xiàn)了基于ES的分布式異構(gòu)檢索系統(tǒng)(DHRS),以滿足當(dāng)前分布式異構(gòu)科技資源的檢索需求。DHRS系統(tǒng)的主體框架如圖1所示。

        圖1 DHRS系統(tǒng)的框架圖

        其核心組件主要由查詢解析系統(tǒng)、索引構(gòu)建、適配系統(tǒng)、索引檢索系統(tǒng)以及檢索結(jié)果處理系統(tǒng)各部分構(gòu)成。由于分布式異構(gòu)檢索引擎基于ES,所以詳細(xì)的ES引擎部分參看文獻(xiàn)[14-15]。除此之外,該系統(tǒng)的三大子系統(tǒng)(異構(gòu)數(shù)據(jù)源適配器、查詢解析、結(jié)果處理)將在下文中進(jìn)行介紹。

        2.1 異構(gòu)數(shù)據(jù)源適配器

        當(dāng)前,科技資源最常用的數(shù)據(jù)存儲(chǔ)載體是數(shù)據(jù)庫(kù)和文件系統(tǒng),隨著數(shù)據(jù)量的增大,一些非關(guān)系型數(shù)據(jù)庫(kù)也引入到科技資源的存儲(chǔ)應(yīng)用中。想要有效構(gòu)建這些不同數(shù)據(jù)資源的索引,就要求我們?yōu)槠涮峁┙y(tǒng)一的異構(gòu)數(shù)據(jù)源適配器。在ES中可以根據(jù)它所提供的River機(jī)制來進(jìn)行不同異構(gòu)數(shù)據(jù)源的數(shù)據(jù)訪問,目前主要能夠訪問關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)如CouchDB和文件系統(tǒng)等。

        對(duì)于當(dāng)前科技資源的存儲(chǔ)來說,關(guān)系型數(shù)據(jù)庫(kù)還是主流的科技資源存儲(chǔ)的數(shù)據(jù)管理工具,科技資源數(shù)據(jù)位于不同的異構(gòu)數(shù)據(jù)庫(kù)上。為了支持統(tǒng)一的異構(gòu)數(shù)據(jù)資源檢索,需要為所有異構(gòu)關(guān)系型數(shù)據(jù)庫(kù)上的數(shù)據(jù)資源構(gòu)建索引。因此,研究過程中,采用并發(fā)的ES插件機(jī)制來實(shí)現(xiàn)從關(guān)系型數(shù)據(jù)庫(kù)中提取索引信息。ES沒有提供直接訪問關(guān)系型數(shù)據(jù)庫(kù)的接口,所以,本文主要通過使用JDBC的River插件來完成索引信息的構(gòu)建工作。

        2.2 查詢解析系統(tǒng)

        由于科技資源本身具有特定的數(shù)據(jù)存儲(chǔ)約束,則相對(duì)應(yīng)的查詢方式也具有這個(gè)領(lǐng)域的獨(dú)特特征,所以對(duì)此特殊查詢方式的規(guī)范處理便構(gòu)成了整個(gè)檢索系統(tǒng)不可或缺的部分。以科技文獻(xiàn)信息資源為例,目前,國(guó)內(nèi)外期刊、文獻(xiàn)、會(huì)議檢索系統(tǒng)等都可以使用多種方式進(jìn)行檢索,歸納起來主要有三種:簡(jiǎn)單查詢、高級(jí)查詢和專業(yè)化查詢。專業(yè)查詢是本文研究的重點(diǎn),它可以很容易地實(shí)現(xiàn)前兩種查詢。專業(yè)查詢是對(duì)用戶要求較高的一種查詢方式,國(guó)內(nèi)的萬(wàn)方和CNKI都提供了類似的功能,采用了CQL或類似CQL的查詢語(yǔ)言。專業(yè)查詢中,系統(tǒng)要求用戶輸入規(guī)范的查詢語(yǔ)句,并會(huì)為用戶提供可檢索字段,用戶必須嚴(yán)格按照系統(tǒng)提供的檢索字段進(jìn)行檢索,而不能在系統(tǒng)提供的檢索字段之外構(gòu)造檢索條件。例如在萬(wàn)方數(shù)據(jù)的專業(yè)檢索中,提供了主題、題名、創(chuàng)作者、作者單位、關(guān)鍵詞、摘要、日期、DOI、期刊名、期號(hào)等可檢索字段以及“與”、“或”、“非”三種邏輯關(guān)系。用戶必須嚴(yán)格按照給定的檢索字段和邏輯關(guān)系構(gòu)造規(guī)范查詢語(yǔ)句才能夠進(jìn)行正確檢索。

        科技資源的獨(dú)特特征決定了其特殊的查詢?cè)L問接口方式,為了能夠向用戶提供透明化的查詢?cè)L問方式,需要對(duì)用戶查詢請(qǐng)求做標(biāo)準(zhǔn)化處理。如圖 2所示,用戶無論使用何種查詢方式,其查詢請(qǐng)求在提交到分布式異構(gòu)檢索引擎之前,都需要經(jīng)過科技資源的查詢預(yù)解析器將查詢條件解析為檢索引擎的標(biāo)準(zhǔn)化查詢格式,其查詢請(qǐng)求才能夠被準(zhǔn)確傳遞到ES分布式檢索集群。

        圖2 科技資源查詢示意圖

        ES并沒有具體給出上述三種查詢方式的規(guī)范處理方法,這就需要系統(tǒng)實(shí)現(xiàn)查詢應(yīng)用到ES自身查詢機(jī)制接口的轉(zhuǎn)換,即需要在用戶接口和ES之間引入一層查詢轉(zhuǎn)換器。基于如下考慮:(1)目前幾乎所有的檢索系統(tǒng)都是基于Web的B/S實(shí)現(xiàn);(2)為了對(duì)多種查詢方式進(jìn)行統(tǒng)一處理;(3)為了便于描述用戶的查詢意圖和對(duì)查詢請(qǐng)求進(jìn)行語(yǔ)法分析和校驗(yàn);(4)為了便于多種終端的訪問,能夠跨平臺(tái)實(shí)現(xiàn)數(shù)據(jù)交互。因此,設(shè)計(jì)并實(shí)現(xiàn)了一種基于XML和JSON的科技資源統(tǒng)一查詢描述語(yǔ)言(SUDL),圖 3給出了這種查詢語(yǔ)言的基礎(chǔ)DTD規(guī)范描述。每一個(gè)查詢請(qǐng)求由一個(gè)根節(jié)點(diǎn)描述,一個(gè)由多個(gè)構(gòu)成。為了進(jìn)行豐富的查詢,通常使用描述主要的查詢需求,該查詢由多個(gè)查詢

        和多個(gè)謂詞構(gòu)成,查詢段和謂詞之間的順序關(guān)系通過
        的屬性“order”規(guī)定。另外,還可以在中添加輔助查詢。

        圖3 科技資源統(tǒng)一檢索描述語(yǔ)言規(guī)范(部分)

        2.3 檢索結(jié)果處理

        定義1對(duì)于某一特定資源R,可能會(huì)存儲(chǔ)在不同的科研機(jī)構(gòu)內(nèi),既存在于機(jī)構(gòu)U1中,也存在于機(jī)構(gòu)U2中。即存在于其資源庫(kù)L1中也存在于資源庫(kù)L2中等。將這種存在資源覆蓋的情況,記為α。

        定義2對(duì)于某一特定資源R,只存在于機(jī)構(gòu)U1中,或者機(jī)構(gòu)U2中。即存在于資源庫(kù)L1或者資源庫(kù)L2中,將這種不存在資源覆蓋的情況,記為β。

        2.3.1 基于訪問代價(jià)的科技資源訪問算法

        從ES的檢索結(jié)果來看,對(duì)于每一個(gè)分布的數(shù)據(jù)資源,相同記錄的訪問存在不同的訪問開銷。例如,某資源同時(shí)存儲(chǔ)在D1、D2兩個(gè)數(shù)據(jù)源庫(kù)上,但是用戶訪問這兩個(gè)庫(kù)的時(shí)間不同,網(wǎng)絡(luò)性能好的數(shù)據(jù)源能夠極大提高資源的訪問速度。所以,在檢索結(jié)果中需要根據(jù)資源的訪問時(shí)間來對(duì)對(duì)應(yīng)的資源進(jìn)行結(jié)果處理,生成排序結(jié)果,并利用其他工具為使用者提供建議。如圖4所示,是對(duì)各機(jī)構(gòu)擁有的重復(fù)資源的訪問示意圖,針對(duì)α的情況,當(dāng)用戶訪問重復(fù)資源的時(shí)間AC如圖 4中所示時(shí),則AC=19為最終選擇的用戶最優(yōu)的數(shù)據(jù)訪問路徑。

        圖4 α情況下,冗余結(jié)果的最優(yōu)化訪問示意圖

        目前在分布式異構(gòu)環(huán)境下的科技資源檢索中,衡量用戶訪問效率的最好計(jì)算方式是用戶訪問資源的時(shí)間。當(dāng)不同機(jī)構(gòu)中存在相同資源時(shí),系統(tǒng)需要為用戶提供一條最優(yōu)的訪問路徑,即需要將在最短時(shí)間內(nèi)訪問到的指定資源返回給用戶。這就需要從ES訪問存儲(chǔ)有相同資源的不同機(jī)構(gòu)的多個(gè)訪問時(shí)間中選擇最短訪問時(shí)間。

        本系統(tǒng)是基于B/S的實(shí)現(xiàn),為了準(zhǔn)確計(jì)算用戶訪問不同機(jī)構(gòu)數(shù)據(jù)源的時(shí)間,在客戶端用戶可以使用網(wǎng)頁(yè)版的ping.js獲取訪問存儲(chǔ)在不同機(jī)構(gòu)的相同資源的時(shí)間t,此時(shí)得到的t是客戶端直接到機(jī)構(gòu)數(shù)據(jù)源的訪問時(shí)間。算法簡(jiǎn)單描述見算法1。

        算法1QUserTRequest

        Input:R,資源記錄;n,資源記錄數(shù)

        Output:AC,資源訪問評(píng)估時(shí)間

        1 var array;

        2 var AC;

        3 for each j in n

        4 do

        5 var t;

        6 ping(j.ip).then(function(delta) {

        7 t←delta;

        8 array.add(j,t)

        9 })

        10 Done

        11 AC←min(array).t

        12 Return AC;

        如果訪問機(jī)構(gòu)U1,U2,…,Un中資源的時(shí)間分別為t1,t2,…,tn,則訪問存放相同資源的所有機(jī)構(gòu)的時(shí)間集合可表示為:

        T={t1,t2,…,tn}

        (1)

        在α情況下,需要找到集合T中的最小值作為用戶的最小訪問時(shí)間,將對(duì)應(yīng)機(jī)構(gòu)中的資源返回給用戶,作為用戶的最優(yōu)訪問路徑。

        2.3.2 算法性能分析及優(yōu)化

        假設(shè)某一指定查詢記錄的數(shù)據(jù)為M條,前端檢索按照PageSize分頁(yè),滿足查詢的某一資源最多存在于N個(gè)獨(dú)立機(jī)構(gòu)內(nèi)。利用本文設(shè)計(jì)和實(shí)現(xiàn)的檢索系統(tǒng)創(chuàng)建索引,則某科技資源最多存在N條重復(fù)的索引項(xiàng)。某一用戶獨(dú)立訪問N個(gè)遠(yuǎn)程機(jī)構(gòu)中同一資源的時(shí)間分別為:t1,t2,…,tN??紤]從用戶前端訪問ES索引庫(kù),響應(yīng)PageSize的平均時(shí)間為Tavg,則獲取含有重復(fù)索引的一條數(shù)據(jù)記錄的總時(shí)間開銷為(AC+Tavg),發(fā)起的請(qǐng)求數(shù)等于重復(fù)索引數(shù)N。假設(shè)最壞情況下,PageSize中每一條記錄都具有N個(gè)重復(fù)索引項(xiàng),那么需要發(fā)起的Ajax請(qǐng)求為PageSize×N,例如分頁(yè)P(yáng)ageSize大小為15條每頁(yè),共有3個(gè)機(jī)構(gòu),則請(qǐng)求為45個(gè),這是算法2得到的請(qǐng)求開銷。顯然隨著分頁(yè)記錄和多個(gè)機(jī)構(gòu)之間的重復(fù)數(shù)據(jù)越來越多,發(fā)起的Ajax請(qǐng)求也越來越大。這就需要對(duì)該請(qǐng)求方式進(jìn)行優(yōu)化,實(shí)現(xiàn)過程中的優(yōu)化算法描述如算法2、算法3所示。

        算法2Query

        Input: pagesize, 分頁(yè)大小

        Output:分頁(yè)中包含每條記錄所在的位置及評(píng)估時(shí)間

        1 var tmp,array;;

        燃燒爐內(nèi)生成的有機(jī)硫是硫磺回收裝置有機(jī)硫的主要來源,而常用控制方案是將其在一級(jí)克勞斯反應(yīng)器內(nèi)最大限度地水解生成H 2 S,殘余有機(jī)硫在尾氣處理單元加氫水解反應(yīng)器中進(jìn)行轉(zhuǎn)化。在硫磺回收單元各級(jí)反應(yīng)器中,通常一級(jí)反應(yīng)器床層溫度為280~360℃,后續(xù)各級(jí)反應(yīng)器床層溫度略低于此值,而現(xiàn)有工業(yè)催化劑性能存在局限性,在較低的反應(yīng)溫度下對(duì)有機(jī)硫的水解催化性能均較差。尾氣處理單元加氫水解反應(yīng)器床層溫度往往在240~330℃,可實(shí)現(xiàn)一定的末級(jí)催化加氫水解作用,現(xiàn)有主流尾氣處理工藝對(duì)加氫反應(yīng)器后的殘余有機(jī)硫幾乎不再進(jìn)行更深度的轉(zhuǎn)化,將直接被帶入灼燒爐燃燒轉(zhuǎn)化為SO2后,通過煙囪排入大氣。

        2 for each i in pagesize

        3 do

        4 tmp.t ←UserTRequest(k,i);

        5 tmp.ip ←i.ip;

        6 array.push(tmp);

        7 Done

        算法3QueryOptimizer

        Input: T, 超時(shí)時(shí)間;pagesize, 分頁(yè)大小

        1 var tmp,array;

        2 for each i in pagesize

        3 do

        4 if(array.contain(tmp)) {

        5 get tmp from array;

        6 if(tmp && i.ip==tmp.ip && time

        7 i.t = tmp.t

        8 }else{

        9 tmp.t ←UserTRequest(k,i);

        10 tmp.ip ←i.ip;

        11 array.push(tmp);

        12 }

        13 } else {

        14 tmp.t ←UserTRequest(k,i);

        15 tmp.ip ←i.ip;

        16 array.push(tmp);

        17 }

        18 Done

        每次檢索返回的PageSize中,若滿足要求的第一條記錄包含N個(gè)索引項(xiàng),則必然需要N次請(qǐng)求。這個(gè)請(qǐng)求操作是必須要發(fā)生的,用戶在查詢同一分頁(yè)中的記錄或者在T時(shí)間內(nèi)發(fā)起查詢請(qǐng)求時(shí),如果所查資源在同一IP內(nèi),就以第一次訪問的時(shí)間t作為當(dāng)前記錄的訪問時(shí)間。這樣,N條重復(fù)記錄發(fā)起的請(qǐng)求數(shù)量最大為N,如前面的15條每頁(yè),在T時(shí)間內(nèi),無論用戶獲取的記錄數(shù)為多少,發(fā)起的最大數(shù)總是等于3,與未優(yōu)化之前相比減少了80%的請(qǐng)求數(shù)。顯然,這種方式能夠大量減少用戶提交的請(qǐng)求數(shù),而其不足在于,用戶獲取的訪問時(shí)間可能因?yàn)闀r(shí)延等因素,導(dǎo)致一定的誤差,但是這種方式綜合考慮了訪問代價(jià)和性能。

        3 實(shí)驗(yàn)及分析

        本研究主要設(shè)計(jì)了兩個(gè)實(shí)驗(yàn),首先驗(yàn)證DHRS的可行性(記為:實(shí)驗(yàn)一),然后再針對(duì)DHRS中資源訪問優(yōu)化算法的改進(jìn)性能進(jìn)行驗(yàn)證(記為:實(shí)驗(yàn)二)。DHRS基于Java Web實(shí)現(xiàn),Java運(yùn)行時(shí)版本1.7.0_79;ES版本為1.4.2,操作系統(tǒng)為:CentOS release 6.4,系統(tǒng)配置為Quad-Core AMD Opteron(TM) Processor 2352 CPU@2.10 GHz,內(nèi)存為4 GB,實(shí)驗(yàn)一的測(cè)試工具選用JMeter。

        3.1 實(shí)驗(yàn)一

        3.1.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)所使用的數(shù)據(jù)是由萬(wàn)方提供的部分科技資源文獻(xiàn)300萬(wàn)條真實(shí)元數(shù)據(jù)。這些數(shù)據(jù)來源于不同的服務(wù)器、不同的數(shù)據(jù)庫(kù)、不同的數(shù)據(jù)表,能夠體現(xiàn)資源的異構(gòu)性,資源組成如表1所示。

        表1 測(cè)試使用的數(shù)據(jù)源

        從用戶常用查詢角度出發(fā),根據(jù)庫(kù)中數(shù)據(jù)所代表的類型,設(shè)計(jì)了如下幾組常用的科技資源檢索條件,這些條件包括了基礎(chǔ)以及其組合查詢(包含了與、或、非謂詞),同時(shí)也具有一定的代表性:

        Q1:查詢“1999”年公布的科技成果;

        Q2:查詢?cè)?004年1月1日到2004年1月3日申請(qǐng)的專利;

        Q3:查詢辦學(xué)類型中含有“高等學(xué)?!弊謽拥膶W(xué)校;

        Q4:查詢涉及“能源”、“信息”、“資源”或 “資源環(huán)境”的項(xiàng)目;

        Q5:查詢1959年到1999年成立的,職工總數(shù)在50人以上的所有機(jī)構(gòu);

        Q6:查詢?cè)诒本┡e辦的會(huì)議中,作者規(guī)范單位名稱中包含“上海交通大學(xué)”的中文會(huì)議論文;

        Q7:查詢“2013”年發(fā)表的所有外文論文;

        Q8:查詢論文編號(hào)在“28737000”與“28738000”之間和 “2111800”與“2112000”之間的所有論文;

        Q9:查詢作者姓名中含有“Mariangela”的外文論文。

        3.1.2 單節(jié)點(diǎn)檢索性能

        在單機(jī)環(huán)境下,根據(jù)上述9個(gè)不同的查詢條件,分別通過DHRS和ES提交,測(cè)得其查詢響應(yīng)時(shí)間如圖5所示。

        圖5 DHRS系統(tǒng)和ES查詢的單機(jī)響應(yīng)時(shí)間對(duì)比

        由圖 5可以看出在進(jìn)行集成測(cè)試時(shí),DHRS的整體性能不及ES,但都能夠在50~110 ms內(nèi)獲取檢索結(jié)果,可以滿足用戶需要。這些性能差異的原因是DHRS在查詢時(shí),使用SUDL語(yǔ)言規(guī)范來描述查詢請(qǐng)求,而查詢則是基于ES實(shí)現(xiàn)。因此,系統(tǒng)需要先將SUDL語(yǔ)言解析成ES的標(biāo)準(zhǔn)查詢指令,查詢解析的時(shí)間開銷視查詢文件的大小而定。在DHRS系統(tǒng)中進(jìn)行測(cè)試時(shí),上述9個(gè)查詢條件被描述為符合SUDL規(guī)范的XML文件,其查詢文件大小都在1 KB以內(nèi),解析查詢文件的時(shí)間開銷在40~45 ms。由于解析過程占用時(shí)間開銷,DHRS系統(tǒng)必然比直接使用ES進(jìn)行查詢耗費(fèi)時(shí)間。而且對(duì)于不同的查詢請(qǐng)求,查詢解析的時(shí)間可能會(huì)遠(yuǎn)大于其實(shí)際的查詢時(shí)間,例如Q4、Q5,所以與ES相比,系統(tǒng)的時(shí)間開銷主要在于查詢文件的解析過程。

        3.1.3 多服務(wù)器檢索性能

        配置DHRS系統(tǒng)的ES分布式檢索集群,集群節(jié)點(diǎn)數(shù)從1逐漸增加到6,當(dāng)節(jié)點(diǎn)數(shù)增加到大于等于2時(shí),數(shù)據(jù)集的所有分片及副本都將平衡分配在不同節(jié)點(diǎn)上。在此過程中,每增加一個(gè)節(jié)點(diǎn),ES都會(huì)對(duì)索引分片和副本進(jìn)行重新分配以達(dá)到負(fù)載平衡。每增加一個(gè)節(jié)點(diǎn)就分別對(duì)上述9個(gè)查詢請(qǐng)求進(jìn)行一次測(cè)試,測(cè)得其查詢響應(yīng)時(shí)間的變化如圖6所示。

        圖6 DHRS系統(tǒng)的分布式集群的查詢響應(yīng)時(shí)間

        從圖6中可以看出,在集群節(jié)點(diǎn)數(shù)逐漸增加時(shí),不同查詢條件對(duì)應(yīng)的查詢時(shí)間都有不同程度的減少,并且在節(jié)點(diǎn)數(shù)增加到一定數(shù)量時(shí),查詢響應(yīng)時(shí)間會(huì)趨于穩(wěn)定。由此,可以得到如下結(jié)論,在ES檢索集群中,上述9個(gè)檢索請(qǐng)求基本上都能夠在較短時(shí)間內(nèi)完成。并且隨著集群節(jié)點(diǎn)數(shù)的增加,檢索響應(yīng)時(shí)間也隨之減少,說明可以通過增加節(jié)點(diǎn)來提高性能。當(dāng)集群數(shù)為5時(shí),檢索性能趨于穩(wěn)定,已達(dá)到當(dāng)前系統(tǒng)軟、硬件配置為當(dāng)前檢索所能提供的最大性能。

        3.2 實(shí)驗(yàn)二

        在三臺(tái)服務(wù)器上分別部署DB1、DB2、DB3(見表1)數(shù)據(jù)庫(kù),并利用ES分別構(gòu)建索引,模擬分布式異構(gòu)文獻(xiàn)資源,客戶端使用Chrome(版本53.0.2763.0)瀏覽器。按照15條記錄分頁(yè),記錄大小平均1 KB,這樣可以減少DOM渲染帶來的影響,每條記錄在本實(shí)驗(yàn)環(huán)境下的平均響應(yīng)時(shí)間如表2所示,利用Ping.js的響應(yīng)時(shí)間進(jìn)行性能比較。

        表2 平均響應(yīng)時(shí)間

        通過DHRS查詢數(shù)據(jù)返回15條分頁(yè)記錄,在客戶端通過Ajax請(qǐng)求對(duì)15條記錄進(jìn)行數(shù)據(jù)訪問評(píng)估、測(cè)試性能如圖7所示。其中,(a)和(c)是在算法2下執(zhí)行的性能;(b)和(d)在算法3下執(zhí)行的性能;在(b)中,第2至第15條記錄的響應(yīng)評(píng)估時(shí)間由第一條記錄估算。在(d)中第6至第8條記錄,由第5條估算,第10、12和15條以此類推。

        (a) 總耗時(shí)1 067 ms

        (b) 總耗時(shí)63 ms

        (c) 總耗時(shí)1 055 ms

        (d) 總耗時(shí)626 ms圖7 測(cè)試性能結(jié)果

        本實(shí)驗(yàn)在局域網(wǎng)內(nèi)模擬不同機(jī)構(gòu)提供相同數(shù)據(jù)集,通過對(duì)比實(shí)驗(yàn),評(píng)估了不同算法實(shí)際執(zhí)行效果。在T=5 s的時(shí)間內(nèi),算法2每次都要對(duì)不同機(jī)構(gòu)的數(shù)據(jù)訪問,這樣帶來了嚴(yán)重的性能問題,從圖7(a)和(c)可以看出總耗時(shí)在1 s以上。數(shù)據(jù)雖然在3臺(tái)服務(wù)器上都有分布,但是通過UserTRequest選中了Server2,因此數(shù)據(jù)信息均來自同一IP,所以根據(jù)算法3,圖7(b)只需要獲取第一條記錄即可知道其他記錄的訪問時(shí)間,即總耗時(shí)為63 ms,與(a)相比,性能提高了94%。圖7(d)則根據(jù)三臺(tái)服務(wù)器不同響應(yīng)時(shí)間選中了不同的服務(wù)器,一旦后續(xù)數(shù)據(jù)在同一記錄上則可以很大程度減少額外開銷。在本實(shí)驗(yàn)環(huán)境下較圖7(c)性能提高了41%,綜合來看性能較未優(yōu)化前提高了68%,說明優(yōu)化后算法3的可行性和高效性。

        綜上所述,DHRS通過集成ES能夠充分利用ES的分布式檢索優(yōu)勢(shì),可以方便地整合異構(gòu)科技資源。在本實(shí)驗(yàn)環(huán)境給定的檢索條件下,雖然引入了中間描述語(yǔ)言對(duì)整體的檢索性能有一定影響,但查詢條件仍能在較短的時(shí)間內(nèi)處理百萬(wàn)級(jí)數(shù)據(jù)。當(dāng)數(shù)據(jù)在多個(gè)機(jī)構(gòu)之間存在重復(fù)記錄的時(shí)候,通過優(yōu)化檢索結(jié)果訪問時(shí)間,可以極大地提高系統(tǒng)的性能。

        4 結(jié) 語(yǔ)

        針對(duì)實(shí)際應(yīng)用需求,本文研究了基于彈性搜索技術(shù)的分布式異構(gòu)科技資源的高性能檢索解決方案,重點(diǎn)對(duì)分布式異構(gòu)科技資源檢索中出現(xiàn)的問題進(jìn)行了分析,并給出了可行的解決方案。設(shè)計(jì)并實(shí)現(xiàn)了基于彈性搜索的分布式異構(gòu)檢索系統(tǒng)DHRS以及描述異構(gòu)資源查詢的中間描述語(yǔ)言,解決了異構(gòu)科技資源的統(tǒng)一整合和規(guī)范化查詢問題。通過優(yōu)化異構(gòu)科技文獻(xiàn)檢索中的資源訪問算法,提高了異構(gòu)文獻(xiàn)資源的訪問效率。該研究可為分布式科技資源統(tǒng)一訪問、異構(gòu)科技資源數(shù)據(jù)融合提供借鑒和參考。在后續(xù)工作中將進(jìn)一步優(yōu)化SUDL語(yǔ)言的解析引擎。

        [1] 焦玉英,溫有奎,陸偉,等.信息檢索新論[M]. 武漢:武漢大學(xué)出版社, 2008:1-17.

        [2] Sato N, Uehara M, Sakai Y, et al. Distributed in-formation retrieval by using cooperative meta search engines[C]//IEEE. Distributed Computing Systems Workshop, 2001 International Conference on, 2001:345-350.

        [3] 許靜芳. 指南針聯(lián)邦:突破集中式搜索之困[J].中國(guó)教育網(wǎng)絡(luò), 2007(6):14-16.

        [4] 張淵源,張琴燕,蔣關(guān)富. 面向Web電子產(chǎn)品信息分布式檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用, 2013,33(4):1026-1030.

        [5] Cacheda F, Carneiro V, Plachouras V, et al. Performance analysis of distributed information retrieval architectures using an improved network simulation model[J]. Information Processing and Management, 2007,43(1):204-224.

        [6] Paltoglou G, Salampasis M, Satratzemi M. Collection-integral source selection for uncooperative distributed information retrieval environments[J]. Information Sciences, 2010, 180(14):2763-2776.

        [7] Romero-Tris C, Castellà-Roca J, Viejo A. Distributed system for private web search with untrusted partners[J]. Computer Networks, 2014,67(5):26-42.

        [8] Das S, Shuster K, Wu C, et al. Mobile Agents for Distributed and Heterogeneous Information Retrieval[J]. Information Retrieval, 2005, 8(3):383-416.

        [9] Armbrust M, Fox A, Griffith R, et al. A view of cloud computing[J]. Communications of the Acm, 2010, 53(4):50-58.

        [10] 吳廣印.分布式學(xué)術(shù)搜索引擎研制及其大數(shù)據(jù)應(yīng)用[J].數(shù)字圖書館論壇, 2013(6):10-18.

        [11] 吳廣印. RMSCloud與科技文獻(xiàn)云服務(wù)[J].中國(guó)科技資源導(dǎo)刊, 2013(5):72-78.

        [12] 吳廣印. RMS系統(tǒng)架構(gòu)與情報(bào)檢索系統(tǒng)的功能需求研究[J]. 數(shù)字圖書館論壇, 2013(6):31-38.

        [13] Baezayates R, Castillo C, Junqueira F, et al. Challenges on Distributed Web Retrieval[C]//IEEE, International Conference on Data Engineering. IEEE, 2007:6-20.

        [14] Elasticsearch[EB/OL].[2016-08-11]. http://www.elasticsearch.cn/.

        [16] Apache Lucence [EB/OL].2016-08-11]. http://lucene.apach-e.org/.

        [17] 陳俊杰,黃國(guó)凡. 應(yīng)用Elasticsearch重構(gòu)圖書館站內(nèi)搜索引擎[J]. 情報(bào)探索, 2014(11):114-119.

        [18] JDBC plugin for Elasticsearch[EB/OL]. [2015-05-21].http-s://github.com/jprante/elasticsearch-jdbc.

        [19] 吳廣印,楊奕虹,楊賀. 從知識(shí)獲取看知識(shí)組織——基于“知識(shí)獲取五要素”的知識(shí)組織研究與實(shí)現(xiàn)[C]//數(shù)字圖書館高層論壇2010年年會(huì)論文集, 2010:29-36.

        [20] 吳廣印. 知識(shí)獲取“五要素”的研究與實(shí)踐[C]//中國(guó)索引學(xué)會(huì)第三次全國(guó)會(huì)員代表大會(huì)暨學(xué)術(shù)論壇論文集, 2008:29.

        APPLICATIONANDOPTIMIZATIONOFDISTRIBUTEDHETEROGENEOUSRETRIEVALINSCIENTIFICANDTECHNOLOGICALINFORMATIONRESOURCES

        Li Cheng1Tong Bin1Liu Yingbo1,2*Wu Ping2Wang Feng1,2Wen Ruojin2Chen Yajie1

        1(ComputerTechnologyApplicationKeyLaboratoryofYunnanProvince,KunmingUniversityofScienceandTechnology,Kunming650504,Yunnan,China)2(YunnanAcademyofScientificandTechnicalInformation,Kunming650500,Yunnan,China)

        When using the traditional centralized retrieval method to deal with massive heterogeneous technology information resources, there are many problems such as single point of failure, poor performance and extensibility. To solve this problem, a distributed high-performance retrieval system (DHRS) applied to heterogeneous technology resources is proposed. First, key techniques of the DHRS were studied and analyzed. Aiming at the problem of large access cost of retrieval results, an evaluation algorithm based on access cost was proposed. Secondly, the algorithm was optimized according to the practical application scenario. The number of requests after optimization was reduced by 80%, and the performance in the experimental environment was improved by 68%. Finally, the test of real data sets proves the feasibility of DHRS retrieval of large amount of scientific and technological resources. It can be applied to search and extend performance requirements of the scene.

        Scientific and technological resources Distributed retrieval Massive data ElasticSearch Heterogeneous resources

        TP3

        A

        10.3969/j.issn.1000-386x.2017.10.013

        2017-01-14。國(guó)家自然科學(xué)基金項(xiàng)目(61462053);中國(guó)博士后科學(xué)基金項(xiàng)目(2016M602730)。李城,碩士,主研領(lǐng)域:機(jī)器學(xué)習(xí),人機(jī)交互。童彬,碩士。劉應(yīng)波,博士。鄔平,高工。王鋒,教授。文若瑾,助理研究員。陳亞杰,碩士。

        猜你喜歡
        科技資源用戶
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        資源回收
        科技助我來看云
        科技在線
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        科技在線
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        亚洲国产区男人本色| 成人自拍小视频在线看| 日本孕妇潮喷高潮视频 | 免费观看又色又爽又黄的| 国产在视频线精品视频www666| 蜜臀色欲av在线播放国产日韩| 永久免费av无码网站性色av| 蜜桃在线播放免费一区二区三区| 长腿丝袜在线观看国产| 国产亚洲精品一区二区无| 痉挛高潮喷水av无码免费 | 2021国产视频不卡在线| 好看午夜一鲁一鲁一鲁| 亚洲天堂一区二区精品| 青青草免费在线爽视频| 麻豆亚洲一区| 成人精品一区二区三区中文字幕| 国产成人拍精品免费视频| 蜜桃精品国产一区二区三区| 亚洲视频网站大全免费看| 欧美一区二区三区激情| 日本丰满妇人成熟免费中文字幕| 中文字幕久久人妻av| 久久精品国产亚洲超碰av| 国产xxxx99真实实拍| 久久中文字幕av一区二区不卡| 亚洲av国产大片在线观看| 久草福利国产精品资源| 亚洲国产欧美日韩欧美特级| 久久精品中文字幕一区| 亚洲综合一| 亚洲国产综合精品中久| 国产精品www夜色视频| 亚洲av无码之日韩精品| 欧美精品高清在线xxxx| 久久伊人亚洲精品视频| 黑森林福利视频导航| 亚洲熟妇色xxxxx欧美老妇 | 亚洲精品色婷婷在线影院| 无码国产69精品久久久孕妇 | 在线亚洲AV成人无码一区小说|