孫 敏 ,鞠 勇
(1. 高郵市水利局,江蘇 高郵 225600;2. 中科遙感科技集團(tuán)有限公司,天津 300384)
隨著信息技術(shù)的飛速發(fā)展,人們對(duì)信息獲取的準(zhǔn)確性和速度方面的要求也越來(lái)越高。如何快速準(zhǔn)確地獲取想要的信息成為研究的重點(diǎn)和難點(diǎn)。水利系統(tǒng)[1]的文獻(xiàn)資源非常豐富,具有廣泛的來(lái)源,龐大的數(shù)據(jù)量和較強(qiáng)的時(shí)效性,采用傳統(tǒng)的基于通用文獻(xiàn)檢索系統(tǒng)的方式難以獲得最新的信息;與此同時(shí),不少實(shí)用的水利文檔也并不以正式出版物的形式出版,很難進(jìn)入通用文獻(xiàn)檢索系統(tǒng)。而且通用檢索系統(tǒng)都是以關(guān)鍵詞檢索為主,所以對(duì)檢索的關(guān)鍵詞與系統(tǒng)設(shè)置的目標(biāo)詞的匹配度要求較高,如果用戶(hù)對(duì)水利領(lǐng)域沒(méi)有先驗(yàn)知識(shí)儲(chǔ)備,輸入的關(guān)鍵詞準(zhǔn)確性不夠高,則檢索結(jié)果往往不盡人意。因此,傳統(tǒng)的文獻(xiàn)檢索方式已經(jīng)不適合當(dāng)前水利信息化特定的發(fā)展和需求。
為了滿足對(duì)水利文獻(xiàn)檢索的要求,針對(duì)水利領(lǐng)域科技文獻(xiàn)的特點(diǎn),構(gòu)建水利領(lǐng)域科技文獻(xiàn)的專(zhuān)有數(shù)據(jù)庫(kù),采用全文檢索技術(shù),通過(guò)對(duì)數(shù)據(jù)庫(kù)中的文獻(xiàn)信息建立索引提高檢索速度[2];采用全文檢索框架Lucene,設(shè)計(jì)面向水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)。
擬從以下 3 個(gè)方面進(jìn)行研究:
1)文獻(xiàn)檢索的相關(guān)技術(shù)的研究。研究全文檢索的相關(guān)知識(shí)及當(dāng)前的技術(shù)熱點(diǎn)等,同時(shí)對(duì)于如何將全文檢索技術(shù)應(yīng)用到水利文獻(xiàn)檢索系統(tǒng)中進(jìn)行深入研究。
2)Lucene 框架的優(yōu)化。深入學(xué)習(xí) Lucene 框架及其采用的分詞和檢索算法。通過(guò)深入了解水利系統(tǒng)的專(zhuān)有概念和特點(diǎn),結(jié)合 Lucene 建立索引和檢索的基本過(guò)程,深入學(xué)習(xí)其原理并進(jìn)行優(yōu)化。
3)面向水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)。對(duì)面向水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)進(jìn)行分析、設(shè)計(jì),完成本系統(tǒng)的需求分析及系統(tǒng)設(shè)計(jì)。
文獻(xiàn)檢索是獲取所需文獻(xiàn)的過(guò)程,文獻(xiàn)檢索系統(tǒng)是用來(lái)讓用戶(hù)通過(guò)查詢(xún)語(yǔ)句從系統(tǒng)索引文件中獲取文獻(xiàn)的。20 世紀(jì) 80 年代之前獲取傳統(tǒng)的水利文獻(xiàn)的方式主要為手工檢索,用戶(hù)使用文獻(xiàn)檢索工具,通過(guò)關(guān)鍵詞、作者等檢索項(xiàng)查找文獻(xiàn)信息,使用該方法不僅需要大量的時(shí)間也需要大量的人力。隨著計(jì)算機(jī)的發(fā)展與普及,該方法已經(jīng)慢慢被淘汰。在 20 世紀(jì) 80 年代之后,計(jì)算機(jī)已經(jīng)逐漸的發(fā)展,各種檢索機(jī)構(gòu)也開(kāi)始慢慢地將文獻(xiàn)檢索數(shù)據(jù)融入到計(jì)算機(jī)中,出現(xiàn)了光盤(pán)檢索方式,通過(guò)將文獻(xiàn)信息存儲(chǔ)到光盤(pán)中進(jìn)行查找。在 20 世紀(jì) 90 年代以后,伴隨著全文檢索技術(shù)的發(fā)展,現(xiàn)在主要采用聯(lián)機(jī)檢索方式來(lái)進(jìn)行文獻(xiàn)檢索的工作,主要有如下方式:
1)在檢索工具中,根據(jù)輸入文獻(xiàn)的標(biāo)題、作者、關(guān)鍵詞等信息檢索到該文獻(xiàn),再根據(jù)系統(tǒng)提供的鏈接獲取全文信息。
2)使用搜索引擎,對(duì)文獻(xiàn)進(jìn)行檢索。
在目前的文獻(xiàn)檢索系統(tǒng)中,文獻(xiàn)的領(lǐng)域范圍很大,檢索功能十分強(qiáng)大,用戶(hù)在輸入專(zhuān)業(yè)查詢(xún)關(guān)鍵詞時(shí),無(wú)法準(zhǔn)確的選擇檢索信息,因此檢索出來(lái)的結(jié)果很多,一般很少會(huì)有人看完幾千條的文獻(xiàn)信息,并且由于文獻(xiàn)領(lǐng)域的多樣性,檢索結(jié)果中會(huì)包含大量的非用戶(hù)需要信息。如果用戶(hù)輸入關(guān)鍵詞的英文時(shí),由于與目標(biāo)關(guān)鍵詞相差很大的時(shí)候或者數(shù)據(jù)庫(kù)中只包含了中文目標(biāo)關(guān)鍵詞沒(méi)有英文關(guān)鍵詞時(shí),則檢索出來(lái)的結(jié)果匹配度會(huì)降低,同時(shí)現(xiàn)有的文獻(xiàn)檢索系統(tǒng)中的數(shù)據(jù)信息有一些是屬于半結(jié)構(gòu)數(shù)據(jù),在 Web 檢索系統(tǒng)使用半結(jié)構(gòu)數(shù)據(jù)也是信息檢索的一個(gè)重要內(nèi)容。
因此在傳統(tǒng)信息檢索技術(shù)的基礎(chǔ)上,首先將現(xiàn)有的水利科技文獻(xiàn)進(jìn)行分類(lèi),然后實(shí)現(xiàn)關(guān)鍵詞中英互搜功能,要求用戶(hù)輸入查詢(xún)語(yǔ)句,系統(tǒng)在對(duì)查詢(xún)語(yǔ)句進(jìn)行分詞后,檢索出包含這些關(guān)鍵字的中文及英文文獻(xiàn)。在這個(gè)過(guò)程中,通過(guò)對(duì)分詞后的詞進(jìn)行翻譯,得到中英文關(guān)鍵詞,再進(jìn)行多關(guān)鍵詞檢索。研究面向水利領(lǐng)域[3]的文獻(xiàn)檢索系統(tǒng),可以更好滿足水利系統(tǒng)用戶(hù)的需求。
針對(duì)現(xiàn)有文獻(xiàn)檢索系統(tǒng)不能有效針對(duì)水利領(lǐng)域文獻(xiàn)檢索[4]的情況,首先以項(xiàng)目、工程、學(xué)科、來(lái)源單位和文獻(xiàn)類(lèi)型等幾個(gè)標(biāo)準(zhǔn)為依據(jù),依照《中國(guó)水利百科全書(shū)》(2 版)對(duì)現(xiàn)有水利科技文獻(xiàn)進(jìn)行分類(lèi),從水利領(lǐng)域的廣度和深度進(jìn)行劃分[5],逐層深入。水利領(lǐng)域的科技文獻(xiàn)分類(lèi)體系結(jié)構(gòu)如表 1 所示。
水利領(lǐng)域科技文獻(xiàn)的信息屬性,主要包括學(xué)文獻(xiàn)編號(hào)、文獻(xiàn)標(biāo)題、學(xué)科分類(lèi)、作者、摘要、關(guān)鍵詞、全文信息和文獻(xiàn)來(lái)源。將水利領(lǐng)域的科技文獻(xiàn)分為 10 個(gè)基本類(lèi)別,水力學(xué)、工程水文學(xué),治河、防洪工程,運(yùn)河、航道工程,農(nóng)田水利工程,海岸工程、近海工程,港灣工程,湖泊工程,水庫(kù)、水電站工程,水工建筑物和水利工程機(jī)械,下面還有二級(jí)和三級(jí)分類(lèi),這樣就構(gòu)成了水利領(lǐng)域科技文獻(xiàn)[6]的專(zhuān)有數(shù)據(jù)庫(kù)[7]。
表1 水利領(lǐng)域科技文獻(xiàn)學(xué)科分類(lèi) 個(gè)
采用全文檢索的方式,對(duì)文檔進(jìn)行分析之后使用分詞器將水利領(lǐng)域的科技文獻(xiàn)數(shù)據(jù)庫(kù)中的文檔內(nèi)容分詞,然后建立雙語(yǔ)索引,將詞在文檔中出現(xiàn)的位置和頻率保存在索引文件中,在進(jìn)行檢索時(shí),檢索程序根據(jù)查詢(xún)語(yǔ)句自發(fā)到索引文件中查找相關(guān)信息,并將檢索結(jié)果反饋給用戶(hù)[8]。
在水利文獻(xiàn)檢索系統(tǒng)中,應(yīng)該依據(jù)水利文獻(xiàn)內(nèi)容的專(zhuān)有名詞特點(diǎn)與全文檢索的特點(diǎn)結(jié)合起來(lái),在考慮系統(tǒng)效率的前提下設(shè)計(jì)索引文件的索引域及其存儲(chǔ)方式和是否需要中英文分詞,以便于系統(tǒng)能夠更加準(zhǔn)確、迅速地從文檔中提取有價(jià)值的信息,然后對(duì)數(shù)據(jù)進(jìn)行處理保存到索引文件中,用戶(hù)即可對(duì)系統(tǒng)進(jìn)行檢索操作。全文檢索的過(guò)程如圖 1 所示。全文檢索的 2 個(gè)過(guò)程:1)創(chuàng)建索引。從水利文獻(xiàn)中提取有用的信息并對(duì)其重新組織,然后創(chuàng)建索引。2)搜索索引。指根據(jù)查詢(xún)語(yǔ)句去索引文件中查找與之對(duì)應(yīng)的索引,然后將結(jié)果反饋給用戶(hù)。
圖1 全文檢索的過(guò)程
水利文獻(xiàn)檢索系統(tǒng)中檢索功能的實(shí)現(xiàn)采用Lucene 全文檢索框架。Lucene 是一個(gè)高性能、可擴(kuò)展的全文檢索框架,它提供了一系列的 API,可以利用爬蟲(chóng)獲取的水利科技文獻(xiàn)創(chuàng)建索引,根據(jù)文獻(xiàn)、二級(jí)、三級(jí)類(lèi)別及詳細(xì)內(nèi)容,比如文獻(xiàn)編號(hào)、標(biāo)題、作者、摘要、關(guān)鍵詞等進(jìn)行分詞,根據(jù)用戶(hù)輸入的查詢(xún)條件,從水利文獻(xiàn)檢索專(zhuān)有庫(kù)中返回檢索結(jié)果,生成頁(yè)面形式供用戶(hù)查看[9]。
Lucene 作為一個(gè)優(yōu)秀的全文檢索引擎,它的系統(tǒng)結(jié)構(gòu)采用了面向?qū)ο蟮脑O(shè)計(jì)方法,使檢索系統(tǒng)達(dá)到低耦合高效率,方便用戶(hù)在此基礎(chǔ)上進(jìn)行二次開(kāi)發(fā)。Lucene 中最核心的功能是索引和檢索,良好的索引文件可以提高搜索響應(yīng)速度。在 Lucene 中文件都可以轉(zhuǎn)成方便檢索的文本格式,文件類(lèi)型可以是網(wǎng)頁(yè)、各種本地文檔等。
SSM 框架由 Spring,SpringMVC,MyBatis 3 個(gè)開(kāi)源框架整合而成,常作為 Web 項(xiàng)目的框架。本系統(tǒng)除了使用 B/S 結(jié)構(gòu),同時(shí)還使用了 Maven 實(shí)現(xiàn)對(duì)軟件項(xiàng)目的管理,這些技術(shù)的整合搭建出一個(gè)健壯的 J2EE 應(yīng)用。水利文獻(xiàn)檢索系統(tǒng)的主要系統(tǒng)架構(gòu)為,使用持久層框架 Mybatis 構(gòu)建數(shù)據(jù)持久化層 Model,通過(guò)數(shù)據(jù)訪問(wèn)層 dao 與數(shù)據(jù)庫(kù)進(jìn)行交互,在服務(wù)層 service,進(jìn)行結(jié)合水利領(lǐng)域?qū)I(yè)詞典建立分詞接口進(jìn)行全文檢索服務(wù),接著通過(guò)控制層controller,將前端控制器分發(fā)控制用戶(hù)的請(qǐng)求給相應(yīng)的服務(wù)層,最后在視圖層用于展示檢索出的水利文獻(xiàn)結(jié)果。系統(tǒng)架構(gòu)如圖 2 所示。
圖2 系統(tǒng)架構(gòu)圖
針對(duì)水利領(lǐng)域,檢索系統(tǒng)需要水利領(lǐng)域的專(zhuān)業(yè)詞匯的詞典,在實(shí)際開(kāi)發(fā)中,需要開(kāi)發(fā)者根據(jù)實(shí)際需要擴(kuò)展詞庫(kù),根據(jù)前文的水利領(lǐng)域文獻(xiàn)的三級(jí)分類(lèi),建立水利領(lǐng)域科技文獻(xiàn)的專(zhuān)有數(shù)據(jù)庫(kù),組成水利領(lǐng)域詞典 waterconservation info.dic,在 Lucene 框架中引入 ICTCLAS(漢語(yǔ)詞法分析系統(tǒng))的分詞功能,使用 CHMM(層疊馬爾科夫模型)進(jìn)行分詞,首先將文檔分成單獨(dú)的詞匯,對(duì)其去除停用詞得到Token(詞元),然后對(duì) Token 作進(jìn)一步處理,例如將英文單詞的大寫(xiě)轉(zhuǎn)成小寫(xiě)、將英文單詞縮減或轉(zhuǎn)為詞根形式等,最后得到的結(jié)果被稱(chēng)為 Term(詞)。收集了水利領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)實(shí)現(xiàn)對(duì) ICTCLAS 的詞庫(kù)擴(kuò)展,實(shí)驗(yàn)證明擴(kuò)展后的分詞對(duì)水利領(lǐng)域的文獻(xiàn)分詞更準(zhǔn)確、更快。
水利文獻(xiàn)系統(tǒng)的索引數(shù)據(jù)有 2 個(gè)來(lái)源:1)利用爬蟲(chóng)獲取的數(shù)據(jù);2)管理員錄入的文獻(xiàn)數(shù)據(jù)信息[10]。
在建立索引時(shí),把中英文關(guān)鍵詞對(duì)應(yīng)起來(lái),把同義的詞對(duì)應(yīng)起來(lái),只要輸入一個(gè)詞,所有結(jié)果都能出來(lái)。傳統(tǒng)的系統(tǒng)只能機(jī)械地根據(jù)文字本身進(jìn)行檢索。系統(tǒng)采用的索引域主要包括:文獻(xiàn)編號(hào)(ID)、文獻(xiàn)標(biāo)題(title)、作者(author)、摘要(summary)、關(guān)鍵詞(keywords)、全文信息(context),其中由于全文信息內(nèi)容太大,在建立索引域時(shí)只進(jìn)行分詞,不將其保存到索引文件中。建立索引過(guò)程如圖 3 所示。
圖3 建立索引流程
系統(tǒng)通過(guò)數(shù)據(jù)庫(kù)中新增加的文獻(xiàn)信息進(jìn)行創(chuàng)建索引操作,從而實(shí)現(xiàn)對(duì)索引文件的更新,該功能為系統(tǒng)自動(dòng)進(jìn)行,采用監(jiān)聽(tīng)器對(duì)數(shù)據(jù)庫(kù)進(jìn)行定時(shí)查看。當(dāng)系統(tǒng)運(yùn)行后,監(jiān)聽(tīng)器會(huì)定時(shí)查詢(xún)數(shù)據(jù)庫(kù)是否有新增加的數(shù)據(jù),若有則對(duì)其建立索引。系統(tǒng)判斷新增加文獻(xiàn)的方法主要是在數(shù)據(jù)庫(kù)中建立一張新表,用來(lái)保存新增文獻(xiàn)的 docID,當(dāng)新增文獻(xiàn)的索引全部建立完成后,系統(tǒng)會(huì)自動(dòng)清空該表數(shù)據(jù),為下次新增加的數(shù)據(jù)做準(zhǔn)備。
索引模塊主要為索引管理,包括建立、更新索引及索引重構(gòu),這些操作都是在索引管理頁(yè)面進(jìn)行。建立索引時(shí)進(jìn)行分詞。建立索引操作一般發(fā)生在系統(tǒng)建立之初,系統(tǒng)后期的調(diào)試及操作不會(huì)再進(jìn)行該操作。
檢索模塊負(fù)責(zé)搜索用戶(hù)輸入的查詢(xún)條件,系統(tǒng)根據(jù)輸入條件進(jìn)行查找,返回檢索結(jié)果,生成頁(yè)面形式供用戶(hù)查看。檢索模塊分為關(guān)鍵詞和高級(jí)檢索[11]。
用戶(hù)在輸入關(guān)鍵詞檢索的查詢(xún)語(yǔ)句之后,會(huì)首先用正則表達(dá)式判斷查詢(xún)語(yǔ)句時(shí)候包含特殊符號(hào),如果包含則分離出這些特殊符號(hào),之后系統(tǒng)自動(dòng)對(duì)給查詢(xún)語(yǔ)句進(jìn)行分詞處理,對(duì)得到關(guān)鍵詞后進(jìn)行翻譯得到中英文關(guān)鍵詞,根據(jù)關(guān)鍵詞檢索的參數(shù)構(gòu)造QueryParser 對(duì)象進(jìn)行文獻(xiàn)檢索,檢索完成后,系統(tǒng)對(duì)檢索的結(jié)果進(jìn)行排序及對(duì)關(guān)鍵詞進(jìn)行高亮處理,最后將結(jié)果返回給客戶(hù)端瀏覽器,如圖 4 所示。
圖4 檢索過(guò)程
用戶(hù)在輸入查詢(xún)語(yǔ)句進(jìn)行檢索時(shí),系統(tǒng)先對(duì)查詢(xún)語(yǔ)句分詞,然后對(duì)分詞結(jié)果進(jìn)行翻譯得到中英文關(guān)鍵詞,最后進(jìn)入索引文件中找到與這些關(guān)鍵詞相關(guān)的信息,根據(jù)排序方式返回給用戶(hù)。假如用戶(hù)在輸入框中輸入“水利工程”,那么系統(tǒng)會(huì)對(duì)這個(gè)詞語(yǔ)進(jìn)行翻譯成“Hydraulic Engineering”,然后系統(tǒng)會(huì)在索引文件中尋找與這 2 個(gè)詞語(yǔ)相關(guān)文獻(xiàn)類(lèi)別,然后顯示的中英文文獻(xiàn)信息的檢索結(jié)果。
根據(jù)檢索過(guò)程和實(shí)驗(yàn)原理,得到水利文獻(xiàn)檢索系統(tǒng)的文獻(xiàn)檢索結(jié)果,如表 2 所示。
表2 水利文獻(xiàn)檢索結(jié)果
從表 2 中的檢索實(shí)驗(yàn)成果數(shù)據(jù)來(lái)看,水利文獻(xiàn)檢索系統(tǒng)能夠根據(jù)輸入的中英文專(zhuān)業(yè)關(guān)鍵詞,在水利領(lǐng)域文獻(xiàn)數(shù)據(jù)庫(kù)中從基本的分類(lèi)類(lèi)別中找到與之相匹配的中英文文獻(xiàn),通過(guò)對(duì)水利文獻(xiàn)的分類(lèi)和全文檢索框架 Lucene[12],一定程度上提高了檢索的搜索效率。
本研究實(shí)現(xiàn)了基于 SSM 和 Lucene 的水利文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)。首先調(diào)研了現(xiàn)有的幾種檢索技術(shù),對(duì)其背景進(jìn)行了詳細(xì)的介紹,然后從水利領(lǐng)域的廣度和深度進(jìn)行劃分,將水利領(lǐng)域劃分出 10 個(gè)基本類(lèi)別,根據(jù)水利科技文獻(xiàn)的需求,組成水利領(lǐng)域詞典 waterconservation info.dic,構(gòu)成水利領(lǐng)域科技文獻(xiàn)的專(zhuān)有數(shù)據(jù)庫(kù)。系統(tǒng)在 Lucene 框架中引入ICTCLAS 的分詞功能,使用 CHMM(層疊馬爾科夫模型)進(jìn)行分詞,收集了水利領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)實(shí)現(xiàn)對(duì) ICTCLAS 的詞庫(kù)擴(kuò)展,將中英文關(guān)鍵詞對(duì)應(yīng)起來(lái)。將 SSM 項(xiàng)目框架技術(shù),全文檢索技術(shù) Lucene和水利領(lǐng)域文獻(xiàn)檢索結(jié)合在一起,詳細(xì)描述了建立索引及檢索的過(guò)程,主要貢獻(xiàn)如下:
1)在構(gòu)建水利文獻(xiàn)檢索系統(tǒng)專(zhuān)有數(shù)據(jù)庫(kù)的過(guò)程中,從水利領(lǐng)域的廣度和深度進(jìn)行劃分,參考文獻(xiàn)[7] 對(duì)水利文獻(xiàn)進(jìn)行分類(lèi),進(jìn)一步迭代和細(xì)化了文獻(xiàn)的分類(lèi)。為構(gòu)建專(zhuān)有數(shù)據(jù)庫(kù)打下基礎(chǔ)。
2)實(shí)現(xiàn)中英文專(zhuān)業(yè)關(guān)鍵詞互搜功能,引入 ICTCLAS 的分詞功能,并用水利領(lǐng)域詞典waterconservation info.dic 對(duì)其進(jìn)行擴(kuò)展。
3)采用全文檢索技術(shù) Lucene 和項(xiàng)目框架 SSM從工程上構(gòu)建水利文獻(xiàn)檢索系統(tǒng),將水利領(lǐng)域文獻(xiàn)的時(shí)效性和專(zhuān)業(yè)性與高性能、可拓展的檢索框架Lucene 結(jié)合在一起,同時(shí)采用 SSM 框架,使得系統(tǒng)更加健壯。
由于時(shí)間和技術(shù)水平有限,筆者設(shè)計(jì)與實(shí)現(xiàn)的文獻(xiàn)檢索系統(tǒng)還有一些需要完善和修改的地方,主要有以下 3 個(gè)方面:
1)主題爬蟲(chóng)技術(shù)。系統(tǒng)中的網(wǎng)絡(luò)爬取信息是通過(guò)錄入關(guān)鍵詞爬取信息,因此獲取的文獻(xiàn)信息比較單一。系統(tǒng)對(duì)通過(guò)解析頁(yè)面獲取文獻(xiàn)的標(biāo)題、作者、摘要等信息,無(wú)法獲取全文信息,由管理員通過(guò)上傳文獻(xiàn)獲取,在擴(kuò)充文獻(xiàn)資源時(shí)需要浪費(fèi)很長(zhǎng)時(shí)間。因此需要深入研究主題爬蟲(chóng)技術(shù),在獲取文獻(xiàn)標(biāo)題等信息的同時(shí)獲取文獻(xiàn)的全文信息,達(dá)到文獻(xiàn)信息的多元化。
2)進(jìn)一步研究中文分詞。本系統(tǒng)中的水利領(lǐng)域?qū)I(yè)術(shù)語(yǔ)筆者由于時(shí)間關(guān)系只收集了幾百條術(shù)語(yǔ),后期若想繼續(xù)研究水利領(lǐng)域的文獻(xiàn)檢索系統(tǒng)還需要繼續(xù)擴(kuò)展詞典。同時(shí)本系統(tǒng)支持同義詞檢索,檢索范圍還很有限,因此這也是日后需要研究和解決的問(wèn)題。
3)文獻(xiàn)查重方面。筆者在文獻(xiàn)查重方面只進(jìn)行文本相似度檢測(cè),無(wú)其他操作。在檢測(cè)方面可以考慮先將文獻(xiàn)信息進(jìn)行分詞后再進(jìn)行查重,還可根據(jù)文獻(xiàn)的特殊性改進(jìn)查重算法,這也是日后需要考慮的問(wèn)題之一。