凌曄華 龐抗 張曉潔 鄭鑫
摘要:針對(duì)當(dāng)前企業(yè)對(duì)文檔保密與檢索功能的雙重需求,提出一種添加模糊匹配Hubble.Net保密文檔專(zhuān)用檢索閱讀方法。采用AES(Advanced Encryption Standard)加密算法對(duì)將加密文檔提取的流信息流進(jìn)行加密,使用Hubble.Net與對(duì)加密文檔進(jìn)行檢索時(shí),而模糊匹配算法的使用大大增加了字符比對(duì)的容錯(cuò)性,在保證文檔加密的同時(shí)兼顧了文檔位置定位、關(guān)鍵字定位等文檔檢索功能。在檢索速度及精度方面,要優(yōu)于現(xiàn)有的方法。
關(guān)鍵詞:文檔檢索;Hubble.Net;模糊匹配:AES加密
0引言
在時(shí)下的信息時(shí)代背景下,大部分科技企業(yè)的文檔數(shù)量正在急劇增加,因此對(duì)于文檔的檢索與保密勢(shì)必關(guān)涉到公司的整體權(quán)益與未來(lái)走勢(shì),如何能夠高效全面地控制管理各類(lèi)包含秘密信息的文檔則已顯得尤為重要。當(dāng)前企業(yè)采取了形式多樣的文檔保密措施,如通過(guò)規(guī)章制度的管理方式,或者指定PC機(jī)來(lái)存儲(chǔ)保密文檔、限制PC機(jī)聯(lián)網(wǎng)、去掉與外部設(shè)備連接的接口等。分析可知,這些措施都存在著重大的安全隱患,而且更使得當(dāng)前文檔的檢索和閱讀也變得較為復(fù)雜繁瑣。
針對(duì)上述問(wèn)題的研究進(jìn)展,已經(jīng)陸續(xù)涌現(xiàn)了一定成果。其中,文獻(xiàn)改進(jìn)了基于簡(jiǎn)單關(guān)鍵詞匹配的算法,就是通過(guò)對(duì)用戶(hù)提供的關(guān)鍵詞進(jìn)行匹配檢索,但卻缺乏一定的容錯(cuò)性能,如用戶(hù)在使用前并未能掌握檢索結(jié)果相近的關(guān)鍵詞,獲得的檢索結(jié)果也將與用戶(hù)的預(yù)期相差甚遠(yuǎn)。文獻(xiàn)即在匹配檢索的基礎(chǔ)上加入了語(yǔ)義的提取與分析,由此則可提升檢索信息的價(jià)值,但是由于檢索之前還需對(duì)語(yǔ)義進(jìn)行提取,因此效率上隨即出現(xiàn)了下降傾向,而且在數(shù)據(jù)量較大的情況下將不再適于選擇使用。另外,文獻(xiàn)還設(shè)計(jì)了一種在檢索中進(jìn)行詞型檢索算法,雖然提高了查詢(xún)的效率,但是會(huì)出現(xiàn)明顯的多查現(xiàn)象,需要用戶(hù)展開(kāi)二次甄別,影響了用戶(hù)體驗(yàn)。因此亟待進(jìn)一步的發(fā)展完善。
針對(duì)上述研究及企業(yè)當(dāng)前對(duì)于文檔的保密與檢索的雙重需求,本文提出采用AES加密方法對(duì)文檔進(jìn)行加密,將文檔的章節(jié)位置信息當(dāng)作檢索關(guān)鍵字寫(xiě)入數(shù)據(jù)庫(kù),使用Hubble.Net檢索的基礎(chǔ)上添加模糊匹配對(duì)加密文件進(jìn)行檢索,這種采用模糊匹配與AES加密的Hubble.Net文檔檢索系統(tǒng)在保證了文檔的保密前提下,兼顧了保密文檔的檢索與使用效率。本次設(shè)計(jì)中,加密文檔檢索系統(tǒng)結(jié)構(gòu)如圖1所示。
1檢索算法
Hubble.Net是一個(gè)基于.net framework的開(kāi)源全文搜索數(shù)據(jù)庫(kù)項(xiàng)目。全文搜索數(shù)據(jù)庫(kù)系統(tǒng)與普通關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的區(qū)別就在于,前者可以讓使用者對(duì)文檔快速實(shí)現(xiàn)文本信息的全文搜索,同時(shí)也設(shè)置了對(duì)數(shù)據(jù)庫(kù)中字段的邏輯查詢(xún)。目前的一些主流數(shù)據(jù)庫(kù)都提供了全文搜索功能,但其全文搜索功能卻相對(duì)較弱,無(wú)法真正滿(mǎn)足實(shí)際應(yīng)用需要。而一些全文搜索組件,比如著名的Lucene,只是具備了全文搜索功能,而缺乏和關(guān)系數(shù)據(jù)庫(kù)的關(guān)聯(lián)。Hubble.Net是一款集合全文搜索和關(guān)系查詢(xún)于一體的新型數(shù)據(jù)庫(kù)系統(tǒng),用戶(hù)可以方便地通過(guò)SQL語(yǔ)句對(duì)數(shù)據(jù)庫(kù)定制選擇全文搜索、關(guān)系查詢(xún)、甚至全文+關(guān)系的查詢(xún)。Hubble.Net供給開(kāi)放的數(shù)據(jù)庫(kù)適配器接口,可以和各類(lèi)數(shù)據(jù)庫(kù)完美拓展對(duì)接,為各類(lèi)數(shù)據(jù)庫(kù)體系附加全文檢索和數(shù)據(jù)發(fā)掘功能。Hubble.Net設(shè)計(jì)了較為高端的并發(fā)技術(shù)機(jī)制,數(shù)據(jù)的增刪改查可以多線(xiàn)程、同時(shí)也沒(méi)有任何沖突地并發(fā)推進(jìn)與處理。Hubble.Net還給出了緩存和內(nèi)存管理設(shè)計(jì),可以使用戶(hù)最大限度地發(fā)揮查詢(xún)的作用與效力。