亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SSM和Lucene的水利文獻(xiàn)檢索系統(tǒng)設(shè)計(jì)

2019-03-07 03:23:48孫敏，鞠勇

水利信息化 2019年1期

孫敏，鞠勇

（1. 高郵市水利局，江蘇高郵 225600；2. 中科遙感科技集團(tuán)有限公司，天津 300384）

1 研究背景

隨著信息技術(shù)的飛速發(fā)展，人們對(duì)信息獲取的準(zhǔn)確性和速度方面的要求也越來(lái)越高。如何快速準(zhǔn)確地獲取想要的信息成為研究的重點(diǎn)和難點(diǎn)。水利系統(tǒng)[1]的文獻(xiàn)資源非常豐富，具有廣泛的來(lái)源，龐大的數(shù)據(jù)量和較強(qiáng)的時(shí)效性，采用傳統(tǒng)的基于通用文獻(xiàn)檢索系統(tǒng)的方式難以獲得最新的信息；與此同時(shí)，不少實(shí)用的水利文檔也并不以正式出版物的形式出版，很難進(jìn)入通用文獻(xiàn)檢索系統(tǒng)。而且通用檢索系統(tǒng)都是以關(guān)鍵詞檢索為主，所以對(duì)檢索的關(guān)鍵詞與系統(tǒng)設(shè)置的目標(biāo)詞的匹配度要求較高，如果用戶(hù)對(duì)水利領(lǐng)域沒(méi)有先驗(yàn)知識(shí)儲(chǔ)備，輸入的關(guān)鍵詞準(zhǔn)確性不夠高，則檢索結(jié)果往往不盡人意。因此，傳統(tǒng)的文獻(xiàn)檢索方式已經(jīng)不適合當(dāng)前水利信息化特定的發(fā)展和需求。

為了滿足對(duì)水利文獻(xiàn)檢索的要求，針對(duì)水利領(lǐng)域科技文獻(xiàn)的特點(diǎn)，構(gòu)建水利領(lǐng)域科技文獻(xiàn)的專(zhuān)有數(shù)據(jù)庫(kù)，采用全文檢索技術(shù)，通過(guò)對(duì)數(shù)據(jù)庫(kù)中的文獻(xiàn)信息建立索引提高檢索速度[2]；采用全文檢索框架Lucene，設(shè)計(jì)面向水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)。

擬從以下 3 個(gè)方面進(jìn)行研究：

1）文獻(xiàn)檢索的相關(guān)技術(shù)的研究。研究全文檢索的相關(guān)知識(shí)及當(dāng)前的技術(shù)熱點(diǎn)等，同時(shí)對(duì)于如何將全文檢索技術(shù)應(yīng)用到水利文獻(xiàn)檢索系統(tǒng)中進(jìn)行深入研究。

2）Lucene 框架的優(yōu)化。深入學(xué)習(xí) Lucene 框架及其采用的分詞和檢索算法。通過(guò)深入了解水利系統(tǒng)的專(zhuān)有概念和特點(diǎn)，結(jié)合 Lucene 建立索引和檢索的基本過(guò)程，深入學(xué)習(xí)其原理并進(jìn)行優(yōu)化。

3）面向水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)。對(duì)面向水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)進(jìn)行分析、設(shè)計(jì)，完成本系統(tǒng)的需求分析及系統(tǒng)設(shè)計(jì)。

2 相關(guān)工作

文獻(xiàn)檢索是獲取所需文獻(xiàn)的過(guò)程，文獻(xiàn)檢索系統(tǒng)是用來(lái)讓用戶(hù)通過(guò)查詢(xún)語(yǔ)句從系統(tǒng)索引文件中獲取文獻(xiàn)的。20 世紀(jì) 80 年代之前獲取傳統(tǒng)的水利文獻(xiàn)的方式主要為手工檢索，用戶(hù)使用文獻(xiàn)檢索工具，通過(guò)關(guān)鍵詞、作者等檢索項(xiàng)查找文獻(xiàn)信息，使用該方法不僅需要大量的時(shí)間也需要大量的人力。隨著計(jì)算機(jī)的發(fā)展與普及，該方法已經(jīng)慢慢被淘汰。在 20 世紀(jì) 80 年代之后，計(jì)算機(jī)已經(jīng)逐漸的發(fā)展，各種檢索機(jī)構(gòu)也開(kāi)始慢慢地將文獻(xiàn)檢索數(shù)據(jù)融入到計(jì)算機(jī)中，出現(xiàn)了光盤(pán)檢索方式，通過(guò)將文獻(xiàn)信息存儲(chǔ)到光盤(pán)中進(jìn)行查找。在 20 世紀(jì) 90 年代以后，伴隨著全文檢索技術(shù)的發(fā)展，現(xiàn)在主要采用聯(lián)機(jī)檢索方式來(lái)進(jìn)行文獻(xiàn)檢索的工作，主要有如下方式：

1）在檢索工具中，根據(jù)輸入文獻(xiàn)的標(biāo)題、作者、關(guān)鍵詞等信息檢索到該文獻(xiàn)，再根據(jù)系統(tǒng)提供的鏈接獲取全文信息。

2）使用搜索引擎，對(duì)文獻(xiàn)進(jìn)行檢索。

在目前的文獻(xiàn)檢索系統(tǒng)中，文獻(xiàn)的領(lǐng)域范圍很大，檢索功能十分強(qiáng)大，用戶(hù)在輸入專(zhuān)業(yè)查詢(xún)關(guān)鍵詞時(shí)，無(wú)法準(zhǔn)確的選擇檢索信息，因此檢索出來(lái)的結(jié)果很多，一般很少會(huì)有人看完幾千條的文獻(xiàn)信息，并且由于文獻(xiàn)領(lǐng)域的多樣性，檢索結(jié)果中會(huì)包含大量的非用戶(hù)需要信息。如果用戶(hù)輸入關(guān)鍵詞的英文時(shí)，由于與目標(biāo)關(guān)鍵詞相差很大的時(shí)候或者數(shù)據(jù)庫(kù)中只包含了中文目標(biāo)關(guān)鍵詞沒(méi)有英文關(guān)鍵詞時(shí)，則檢索出來(lái)的結(jié)果匹配度會(huì)降低，同時(shí)現(xiàn)有的文獻(xiàn)檢索系統(tǒng)中的數(shù)據(jù)信息有一些是屬于半結(jié)構(gòu)數(shù)據(jù)，在 Web 檢索系統(tǒng)使用半結(jié)構(gòu)數(shù)據(jù)也是信息檢索的一個(gè)重要內(nèi)容。

因此在傳統(tǒng)信息檢索技術(shù)的基礎(chǔ)上，首先將現(xiàn)有的水利科技文獻(xiàn)進(jìn)行分類(lèi)，然后實(shí)現(xiàn)關(guān)鍵詞中英互搜功能，要求用戶(hù)輸入查詢(xún)語(yǔ)句，系統(tǒng)在對(duì)查詢(xún)語(yǔ)句進(jìn)行分詞后，檢索出包含這些關(guān)鍵字的中文及英文文獻(xiàn)。在這個(gè)過(guò)程中，通過(guò)對(duì)分詞后的詞進(jìn)行翻譯，得到中英文關(guān)鍵詞，再進(jìn)行多關(guān)鍵詞檢索。研究面向水利領(lǐng)域[3]的文獻(xiàn)檢索系統(tǒng)，可以更好滿足水利系統(tǒng)用戶(hù)的需求。

3 關(guān)鍵技術(shù)

針對(duì)現(xiàn)有文獻(xiàn)檢索系統(tǒng)不能有效針對(duì)水利領(lǐng)域文獻(xiàn)檢索[4]的情況，首先以項(xiàng)目、工程、學(xué)科、來(lái)源單位和文獻(xiàn)類(lèi)型等幾個(gè)標(biāo)準(zhǔn)為依據(jù)，依照《中國(guó)水利百科全書(shū)》（2 版）對(duì)現(xiàn)有水利科技文獻(xiàn)進(jìn)行分類(lèi)，從水利領(lǐng)域的廣度和深度進(jìn)行劃分[5]，逐層深入。水利領(lǐng)域的科技文獻(xiàn)分類(lèi)體系結(jié)構(gòu)如表 1 所示。

水利領(lǐng)域科技文獻(xiàn)的信息屬性，主要包括學(xué)文獻(xiàn)編號(hào)、文獻(xiàn)標(biāo)題、學(xué)科分類(lèi)、作者、摘要、關(guān)鍵詞、全文信息和文獻(xiàn)來(lái)源。將水利領(lǐng)域的科技文獻(xiàn)分為 10 個(gè)基本類(lèi)別，水力學(xué)、工程水文學(xué)，治河、防洪工程，運(yùn)河、航道工程，農(nóng)田水利工程，海岸工程、近海工程，港灣工程，湖泊工程，水庫(kù)、水電站工程，水工建筑物和水利工程機(jī)械，下面還有二級(jí)和三級(jí)分類(lèi)，這樣就構(gòu)成了水利領(lǐng)域科技文獻(xiàn)[6]的專(zhuān)有數(shù)據(jù)庫(kù)[7]。

表1 水利領(lǐng)域科技文獻(xiàn)學(xué)科分類(lèi) 個(gè)

3.1 全文檢索

采用全文檢索的方式，對(duì)文檔進(jìn)行分析之后使用分詞器將水利領(lǐng)域的科技文獻(xiàn)數(shù)據(jù)庫(kù)中的文檔內(nèi)容分詞，然后建立雙語(yǔ)索引，將詞在文檔中出現(xiàn)的位置和頻率保存在索引文件中，在進(jìn)行檢索時(shí)，檢索程序根據(jù)查詢(xún)語(yǔ)句自發(fā)到索引文件中查找相關(guān)信息，并將檢索結(jié)果反饋給用戶(hù)[8]。

在水利文獻(xiàn)檢索系統(tǒng)中，應(yīng)該依據(jù)水利文獻(xiàn)內(nèi)容的專(zhuān)有名詞特點(diǎn)與全文檢索的特點(diǎn)結(jié)合起來(lái)，在考慮系統(tǒng)效率的前提下設(shè)計(jì)索引文件的索引域及其存儲(chǔ)方式和是否需要中英文分詞，以便于系統(tǒng)能夠更加準(zhǔn)確、迅速地從文檔中提取有價(jià)值的信息，然后對(duì)數(shù)據(jù)進(jìn)行處理保存到索引文件中，用戶(hù)即可對(duì)系統(tǒng)進(jìn)行檢索操作。全文檢索的過(guò)程如圖 1 所示。全文檢索的 2 個(gè)過(guò)程：1）創(chuàng)建索引。從水利文獻(xiàn)中提取有用的信息并對(duì)其重新組織，然后創(chuàng)建索引。2）搜索索引。指根據(jù)查詢(xún)語(yǔ)句去索引文件中查找與之對(duì)應(yīng)的索引，然后將結(jié)果反饋給用戶(hù)。

圖1 全文檢索的過(guò)程

3.2 Lucene 和 SSM 框架

水利文獻(xiàn)檢索系統(tǒng)中檢索功能的實(shí)現(xiàn)采用Lucene 全文檢索框架。Lucene 是一個(gè)高性能、可擴(kuò)展的全文檢索框架，它提供了一系列的 API，可以利用爬蟲(chóng)獲取的水利科技文獻(xiàn)創(chuàng)建索引，根據(jù)文獻(xiàn)、二級(jí)、三級(jí)類(lèi)別及詳細(xì)內(nèi)容，比如文獻(xiàn)編號(hào)、標(biāo)題、作者、摘要、關(guān)鍵詞等進(jìn)行分詞，根據(jù)用戶(hù)輸入的查詢(xún)條件，從水利文獻(xiàn)檢索專(zhuān)有庫(kù)中返回檢索結(jié)果，生成頁(yè)面形式供用戶(hù)查看[9]。

Lucene 作為一個(gè)優(yōu)秀的全文檢索引擎，它的系統(tǒng)結(jié)構(gòu)采用了面向?qū)ο蟮脑O(shè)計(jì)方法，使檢索系統(tǒng)達(dá)到低耦合高效率，方便用戶(hù)在此基礎(chǔ)上進(jìn)行二次開(kāi)發(fā)。Lucene 中最核心的功能是索引和檢索，良好的索引文件可以提高搜索響應(yīng)速度。在 Lucene 中文件都可以轉(zhuǎn)成方便檢索的文本格式，文件類(lèi)型可以是網(wǎng)頁(yè)、各種本地文檔等。

SSM 框架由 Spring，SpringMVC，MyBatis 3 個(gè)開(kāi)源框架整合而成，常作為 Web 項(xiàng)目的框架。本系統(tǒng)除了使用 B/S 結(jié)構(gòu)，同時(shí)還使用了 Maven 實(shí)現(xiàn)對(duì)軟件項(xiàng)目的管理，這些技術(shù)的整合搭建出一個(gè)健壯的 J2EE 應(yīng)用。水利文獻(xiàn)檢索系統(tǒng)的主要系統(tǒng)架構(gòu)為，使用持久層框架 Mybatis 構(gòu)建數(shù)據(jù)持久化層 Model，通過(guò)數(shù)據(jù)訪問(wèn)層 dao 與數(shù)據(jù)庫(kù)進(jìn)行交互，在服務(wù)層 service，進(jìn)行結(jié)合水利領(lǐng)域?qū)I(yè)詞典建立分詞接口進(jìn)行全文檢索服務(wù)，接著通過(guò)控制層controller，將前端控制器分發(fā)控制用戶(hù)的請(qǐng)求給相應(yīng)的服務(wù)層，最后在視圖層用于展示檢索出的水利文獻(xiàn)結(jié)果。系統(tǒng)架構(gòu)如圖 2 所示。

圖2 系統(tǒng)架構(gòu)圖

4 索引建立

針對(duì)水利領(lǐng)域，檢索系統(tǒng)需要水利領(lǐng)域的專(zhuān)業(yè)詞匯的詞典，在實(shí)際開(kāi)發(fā)中，需要開(kāi)發(fā)者根據(jù)實(shí)際需要擴(kuò)展詞庫(kù)，根據(jù)前文的水利領(lǐng)域文獻(xiàn)的三級(jí)分類(lèi)，建立水利領(lǐng)域科技文獻(xiàn)的專(zhuān)有數(shù)據(jù)庫(kù)，組成水利領(lǐng)域詞典 waterconservation info.dic，在 Lucene 框架中引入 ICTCLAS（漢語(yǔ)詞法分析系統(tǒng)）的分詞功能，使用 CHMM（層疊馬爾科夫模型）進(jìn)行分詞，首先將文檔分成單獨(dú)的詞匯，對(duì)其去除停用詞得到Token（詞元），然后對(duì) Token 作進(jìn)一步處理，例如將英文單詞的大寫(xiě)轉(zhuǎn)成小寫(xiě)、將英文單詞縮減或轉(zhuǎn)為詞根形式等，最后得到的結(jié)果被稱(chēng)為 Term（詞）。收集了水利領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)實(shí)現(xiàn)對(duì) ICTCLAS 的詞庫(kù)擴(kuò)展，實(shí)驗(yàn)證明擴(kuò)展后的分詞對(duì)水利領(lǐng)域的文獻(xiàn)分詞更準(zhǔn)確、更快。

水利文獻(xiàn)系統(tǒng)的索引數(shù)據(jù)有 2 個(gè)來(lái)源：1）利用爬蟲(chóng)獲取的數(shù)據(jù)；2）管理員錄入的文獻(xiàn)數(shù)據(jù)信息[10]。

在建立索引時(shí)，把中英文關(guān)鍵詞對(duì)應(yīng)起來(lái)，把同義的詞對(duì)應(yīng)起來(lái)，只要輸入一個(gè)詞，所有結(jié)果都能出來(lái)。傳統(tǒng)的系統(tǒng)只能機(jī)械地根據(jù)文字本身進(jìn)行檢索。系統(tǒng)采用的索引域主要包括：文獻(xiàn)編號(hào)（ID）、文獻(xiàn)標(biāo)題（title）、作者（author）、摘要（summary）、關(guān)鍵詞（keywords）、全文信息（context），其中由于全文信息內(nèi)容太大，在建立索引域時(shí)只進(jìn)行分詞，不將其保存到索引文件中。建立索引過(guò)程如圖 3 所示。

圖3 建立索引流程

系統(tǒng)通過(guò)數(shù)據(jù)庫(kù)中新增加的文獻(xiàn)信息進(jìn)行創(chuàng)建索引操作，從而實(shí)現(xiàn)對(duì)索引文件的更新，該功能為系統(tǒng)自動(dòng)進(jìn)行，采用監(jiān)聽(tīng)器對(duì)數(shù)據(jù)庫(kù)進(jìn)行定時(shí)查看。當(dāng)系統(tǒng)運(yùn)行后，監(jiān)聽(tīng)器會(huì)定時(shí)查詢(xún)數(shù)據(jù)庫(kù)是否有新增加的數(shù)據(jù)，若有則對(duì)其建立索引。系統(tǒng)判斷新增加文獻(xiàn)的方法主要是在數(shù)據(jù)庫(kù)中建立一張新表，用來(lái)保存新增文獻(xiàn)的 docID，當(dāng)新增文獻(xiàn)的索引全部建立完成后，系統(tǒng)會(huì)自動(dòng)清空該表數(shù)據(jù)，為下次新增加的數(shù)據(jù)做準(zhǔn)備。

索引模塊主要為索引管理，包括建立、更新索引及索引重構(gòu)，這些操作都是在索引管理頁(yè)面進(jìn)行。建立索引時(shí)進(jìn)行分詞。建立索引操作一般發(fā)生在系統(tǒng)建立之初，系統(tǒng)后期的調(diào)試及操作不會(huì)再進(jìn)行該操作。

5 檢索過(guò)程

檢索模塊負(fù)責(zé)搜索用戶(hù)輸入的查詢(xún)條件，系統(tǒng)根據(jù)輸入條件進(jìn)行查找，返回檢索結(jié)果，生成頁(yè)面形式供用戶(hù)查看。檢索模塊分為關(guān)鍵詞和高級(jí)檢索[11]。

用戶(hù)在輸入關(guān)鍵詞檢索的查詢(xún)語(yǔ)句之后，會(huì)首先用正則表達(dá)式判斷查詢(xún)語(yǔ)句時(shí)候包含特殊符號(hào)，如果包含則分離出這些特殊符號(hào)，之后系統(tǒng)自動(dòng)對(duì)給查詢(xún)語(yǔ)句進(jìn)行分詞處理，對(duì)得到關(guān)鍵詞后進(jìn)行翻譯得到中英文關(guān)鍵詞，根據(jù)關(guān)鍵詞檢索的參數(shù)構(gòu)造QueryParser 對(duì)象進(jìn)行文獻(xiàn)檢索，檢索完成后，系統(tǒng)對(duì)檢索的結(jié)果進(jìn)行排序及對(duì)關(guān)鍵詞進(jìn)行高亮處理，最后將結(jié)果返回給客戶(hù)端瀏覽器，如圖 4 所示。

圖4 檢索過(guò)程

用戶(hù)在輸入查詢(xún)語(yǔ)句進(jìn)行檢索時(shí)，系統(tǒng)先對(duì)查詢(xún)語(yǔ)句分詞，然后對(duì)分詞結(jié)果進(jìn)行翻譯得到中英文關(guān)鍵詞，最后進(jìn)入索引文件中找到與這些關(guān)鍵詞相關(guān)的信息，根據(jù)排序方式返回給用戶(hù)。假如用戶(hù)在輸入框中輸入“水利工程”，那么系統(tǒng)會(huì)對(duì)這個(gè)詞語(yǔ)進(jìn)行翻譯成“Hydraulic Engineering”，然后系統(tǒng)會(huì)在索引文件中尋找與這 2 個(gè)詞語(yǔ)相關(guān)文獻(xiàn)類(lèi)別，然后顯示的中英文文獻(xiàn)信息的檢索結(jié)果。

根據(jù)檢索過(guò)程和實(shí)驗(yàn)原理，得到水利文獻(xiàn)檢索系統(tǒng)的文獻(xiàn)檢索結(jié)果，如表 2 所示。

表2 水利文獻(xiàn)檢索結(jié)果

從表 2 中的檢索實(shí)驗(yàn)成果數(shù)據(jù)來(lái)看，水利文獻(xiàn)檢索系統(tǒng)能夠根據(jù)輸入的中英文專(zhuān)業(yè)關(guān)鍵詞，在水利領(lǐng)域文獻(xiàn)數(shù)據(jù)庫(kù)中從基本的分類(lèi)類(lèi)別中找到與之相匹配的中英文文獻(xiàn)，通過(guò)對(duì)水利文獻(xiàn)的分類(lèi)和全文檢索框架 Lucene[12]，一定程度上提高了檢索的搜索效率。

6 結(jié)語(yǔ)

本研究實(shí)現(xiàn)了基于 SSM 和 Lucene 的水利文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)。首先調(diào)研了現(xiàn)有的幾種檢索技術(shù)，對(duì)其背景進(jìn)行了詳細(xì)的介紹，然后從水利領(lǐng)域的廣度和深度進(jìn)行劃分，將水利領(lǐng)域劃分出 10 個(gè)基本類(lèi)別，根據(jù)水利科技文獻(xiàn)的需求，組成水利領(lǐng)域詞典 waterconservation info.dic，構(gòu)成水利領(lǐng)域科技文獻(xiàn)的專(zhuān)有數(shù)據(jù)庫(kù)。系統(tǒng)在 Lucene 框架中引入ICTCLAS 的分詞功能，使用 CHMM（層疊馬爾科夫模型）進(jìn)行分詞，收集了水利領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)實(shí)現(xiàn)對(duì) ICTCLAS 的詞庫(kù)擴(kuò)展，將中英文關(guān)鍵詞對(duì)應(yīng)起來(lái)。將 SSM 項(xiàng)目框架技術(shù)，全文檢索技術(shù) Lucene和水利領(lǐng)域文獻(xiàn)檢索結(jié)合在一起，詳細(xì)描述了建立索引及檢索的過(guò)程，主要貢獻(xiàn)如下：

1）在構(gòu)建水利文獻(xiàn)檢索系統(tǒng)專(zhuān)有數(shù)據(jù)庫(kù)的過(guò)程中，從水利領(lǐng)域的廣度和深度進(jìn)行劃分，參考文獻(xiàn)[7] 對(duì)水利文獻(xiàn)進(jìn)行分類(lèi)，進(jìn)一步迭代和細(xì)化了文獻(xiàn)的分類(lèi)。為構(gòu)建專(zhuān)有數(shù)據(jù)庫(kù)打下基礎(chǔ)。

2）實(shí)現(xiàn)中英文專(zhuān)業(yè)關(guān)鍵詞互搜功能，引入 ICTCLAS 的分詞功能，并用水利領(lǐng)域詞典waterconservation info.dic 對(duì)其進(jìn)行擴(kuò)展。

3）采用全文檢索技術(shù) Lucene 和項(xiàng)目框架 SSM從工程上構(gòu)建水利文獻(xiàn)檢索系統(tǒng)，將水利領(lǐng)域文獻(xiàn)的時(shí)效性和專(zhuān)業(yè)性與高性能、可拓展的檢索框架Lucene 結(jié)合在一起，同時(shí)采用 SSM 框架，使得系統(tǒng)更加健壯。

由于時(shí)間和技術(shù)水平有限，筆者設(shè)計(jì)與實(shí)現(xiàn)的文獻(xiàn)檢索系統(tǒng)還有一些需要完善和修改的地方，主要有以下 3 個(gè)方面：

1）主題爬蟲(chóng)技術(shù)。系統(tǒng)中的網(wǎng)絡(luò)爬取信息是通過(guò)錄入關(guān)鍵詞爬取信息，因此獲取的文獻(xiàn)信息比較單一。系統(tǒng)對(duì)通過(guò)解析頁(yè)面獲取文獻(xiàn)的標(biāo)題、作者、摘要等信息，無(wú)法獲取全文信息，由管理員通過(guò)上傳文獻(xiàn)獲取，在擴(kuò)充文獻(xiàn)資源時(shí)需要浪費(fèi)很長(zhǎng)時(shí)間。因此需要深入研究主題爬蟲(chóng)技術(shù)，在獲取文獻(xiàn)標(biāo)題等信息的同時(shí)獲取文獻(xiàn)的全文信息，達(dá)到文獻(xiàn)信息的多元化。

2）進(jìn)一步研究中文分詞。本系統(tǒng)中的水利領(lǐng)域?qū)I(yè)術(shù)語(yǔ)筆者由于時(shí)間關(guān)系只收集了幾百條術(shù)語(yǔ)，后期若想繼續(xù)研究水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)還需要繼續(xù)擴(kuò)展詞典。同時(shí)本系統(tǒng)支持同義詞檢索，檢索范圍還很有限，因此這也是日后需要研究和解決的問(wèn)題。

3）文獻(xiàn)查重方面。筆者在文獻(xiàn)查重方面只進(jìn)行文本相似度檢測(cè)，無(wú)其他操作。在檢測(cè)方面可以考慮先將文獻(xiàn)信息進(jìn)行分詞后再進(jìn)行查重，還可根據(jù)文獻(xiàn)的特殊性改進(jìn)查重算法，這也是日后需要考慮的問(wèn)題之一。