徐航
(福建省標(biāo)準(zhǔn)化研究院,福州 350013)
標(biāo)準(zhǔn)數(shù)字化全文檢索系統(tǒng)構(gòu)建探討
徐航
(福建省標(biāo)準(zhǔn)化研究院,福州 350013)
標(biāo)準(zhǔn)數(shù)字化全文檢索系統(tǒng)是基于DIPS數(shù)字文獻(xiàn)系統(tǒng),面向標(biāo)準(zhǔn)的應(yīng)用、管理和發(fā)布的系統(tǒng)。前端采用B/S網(wǎng)絡(luò)發(fā)布結(jié)構(gòu),提供全文檢索服務(wù),檢索命中到頁(yè),可滿足用戶在查找標(biāo)準(zhǔn)信息資源時(shí)野快、準(zhǔn)、全冶的要求,極大地提高標(biāo)準(zhǔn)信息資源的獲取效率。
標(biāo)準(zhǔn)特色數(shù)據(jù)庫(kù);全文檢索;系統(tǒng)構(gòu)建
隨著我國(guó)經(jīng)濟(jì)的飛速發(fā)展和社會(huì)的不斷進(jìn)步,產(chǎn)品的質(zhì)量愈發(fā)受到社會(huì)各階層的關(guān)注。而提高產(chǎn)品質(zhì)量的關(guān)鍵在于按照標(biāo)準(zhǔn)進(jìn)行規(guī)范生產(chǎn),標(biāo)準(zhǔn)對(duì)于提高產(chǎn)品質(zhì)量具有巨大的推動(dòng)作用。特別是在經(jīng)濟(jì)全球化的今天,標(biāo)準(zhǔn)擔(dān)當(dāng)著產(chǎn)業(yè)主流技術(shù)載體的重要角色,成為市場(chǎng)競(jìng)爭(zhēng)的制高點(diǎn),可以說(shuō)標(biāo)準(zhǔn)化工作對(duì)于國(guó)家、行業(yè)、企業(yè)的可持續(xù)的健康發(fā)展都具有戰(zhàn)略意義。福建省標(biāo)準(zhǔn)化研究院作為專業(yè)研究標(biāo)準(zhǔn)化的單位,在不斷提高標(biāo)準(zhǔn)化研究水平的同時(shí),更積極探索標(biāo)準(zhǔn)化與信息化相結(jié)合的服務(wù)模式,于2009年底建成并上線運(yùn)營(yíng)福建省標(biāo)準(zhǔn)信息服務(wù)平臺(tái),打造“一站式”標(biāo)準(zhǔn)服務(wù),平臺(tái)運(yùn)營(yíng)至今已為眾多用戶提供了高效、優(yōu)質(zhì)、準(zhǔn)確的服務(wù),取得了顯著成效。平臺(tái)具有以下特點(diǎn):①操作簡(jiǎn)便,功能強(qiáng)大,平臺(tái)為用戶提供多個(gè)檢索條件以提高檢索效率,并實(shí)現(xiàn)標(biāo)準(zhǔn)電子文本的在線閱覽,打印,下載等功能,為用戶提供了一個(gè)暢通的標(biāo)準(zhǔn)獲取渠道;②更新及時(shí),數(shù)據(jù)準(zhǔn)確。平臺(tái)設(shè)有專人持續(xù)跟蹤,加工,上傳各標(biāo)準(zhǔn)組織的公告,確保標(biāo)準(zhǔn)更新的及時(shí)性和狀態(tài)的準(zhǔn)確性;③品種齊全,數(shù)據(jù)豐富。以平臺(tái)為依托目前共收錄國(guó)內(nèi)外標(biāo)準(zhǔn)題錄127萬(wàn)余條和國(guó)內(nèi)外標(biāo)準(zhǔn)電子文本23.5萬(wàn)余件。
2.1 系統(tǒng)網(wǎng)絡(luò)架構(gòu)
系統(tǒng)由兩臺(tái)服務(wù)器,一個(gè)磁盤陣列,一臺(tái)高速掃描儀和多臺(tái)式機(jī)構(gòu)成。其中一臺(tái)服務(wù)器用于部署系統(tǒng)前端的程序,另一臺(tái)服務(wù)器用于安裝DIPS數(shù)字文獻(xiàn)系統(tǒng);磁盤陣列主要用于存儲(chǔ)雙層PDF等資源;高速掃描儀主要用于將標(biāo)準(zhǔn)紙質(zhì)文本掃描成PDF格式的電子文本,臺(tái)式機(jī)用于數(shù)字化加工,將圖像PDF批量OCR識(shí)別后轉(zhuǎn)化成雙層PDF。整個(gè)系統(tǒng)的網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 系統(tǒng)網(wǎng)絡(luò)架構(gòu)
2.2 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)
該我院選擇DIPS數(shù)字文獻(xiàn)系統(tǒng)作為系統(tǒng)的數(shù)據(jù)庫(kù),DIPS是一款面向圖書(shū)、文獻(xiàn)、檔案等領(lǐng)域數(shù)字化建設(shè)的信息管理軟件。DIPS以全文檢索技術(shù)為基礎(chǔ)、基于互聯(lián)網(wǎng)內(nèi)容管理為核心,具備創(chuàng)建并管理數(shù)據(jù)庫(kù),采集挖掘、加工整理和發(fā)布信息資源等多項(xiàng)功能,能夠滿足大容量數(shù)據(jù)全文檢索及多用戶并發(fā)使用的要求,是新一代集數(shù)字化加工、數(shù)字內(nèi)容管理和全文檢索為一體的信息管理軟件。
2.2.1 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)
利用DIPS數(shù)據(jù)文獻(xiàn)系統(tǒng)中的管理模塊創(chuàng)建標(biāo)準(zhǔn)全文數(shù)據(jù)庫(kù),確定數(shù)據(jù)庫(kù)結(jié)構(gòu),定義了20個(gè)字段,包括:“標(biāo)準(zhǔn)號(hào)”,“標(biāo)準(zhǔn)序號(hào)”,“標(biāo)準(zhǔn)年代號(hào)”,“標(biāo)準(zhǔn)中文名稱”,“標(biāo)準(zhǔn)英文名稱”,“標(biāo)準(zhǔn)狀態(tài)”,“組織類別”,“發(fā)布日期”,“實(shí)施日期”,“作廢日期”,“代替標(biāo)準(zhǔn)”,“被代替標(biāo)準(zhǔn)”,“文本頁(yè)數(shù)”,“中標(biāo)分類號(hào)”,“ICS分類號(hào)”,“引用標(biāo)準(zhǔn)”,“采用標(biāo)準(zhǔn)”,“修改單”,“備注”,“全文”。
2.2.2 數(shù)字化加工
通過(guò)程序?qū)F(xiàn)行標(biāo)準(zhǔn)PDF文本按標(biāo)準(zhǔn)組織類別批量導(dǎo)出,然后利用軟件Adobe Acrobat進(jìn)行批量OCR識(shí)別,將圖像PDF轉(zhuǎn)化成雙層PDF,OCR識(shí)別完成后Adobe Acrobat將彈出錯(cuò)誤提示框以顯示OCR識(shí)別有誤的PDF文本,錯(cuò)誤原因主要是由于PDF頁(yè)面尺寸太大超過(guò)了Adobe Acrobat可OCR識(shí)別的最大范圍,加工人員將這些OCR識(shí)別有誤的標(biāo)準(zhǔn)號(hào)提取出來(lái),利用虛擬打印機(jī)Adobe PDF將這些PDF文本轉(zhuǎn)化成規(guī)范的PDF文本,再進(jìn)行OCR識(shí)別轉(zhuǎn)化成雙層PDF。
2.2.3 標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)
通過(guò)程序?qū)⒁褦?shù)字化加工的標(biāo)準(zhǔn)文本對(duì)應(yīng)的題錄信息從福建省標(biāo)準(zhǔn)信息服務(wù)平臺(tái)的數(shù)據(jù)庫(kù)中導(dǎo)出到成Excel文件,形成入庫(kù)文件。通過(guò)軟件SQL2DIPS4將標(biāo)準(zhǔn)雙層PDF文本和文本對(duì)應(yīng)的題錄信息批量導(dǎo)入到DIPS數(shù)字文獻(xiàn)系統(tǒng)中,完成標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)。
目前DIPS數(shù)字文獻(xiàn)系統(tǒng)的數(shù)據(jù)庫(kù)中包括國(guó)家標(biāo)準(zhǔn)(GB),行業(yè)標(biāo)準(zhǔn)(包括機(jī)械行業(yè)JB、化工行業(yè)HG、農(nóng)業(yè)行業(yè)NY、商品檢驗(yàn)行業(yè)SN、紡織行業(yè)FZ、建筑行業(yè)JG、建材行業(yè)JC等30多個(gè)常用行業(yè)組織的標(biāo)準(zhǔn)),福建省地方標(biāo)準(zhǔn)(DB35),累計(jì)4萬(wàn)余項(xiàng)標(biāo)準(zhǔn)數(shù)據(jù)。
2.2.4 數(shù)據(jù)庫(kù)維護(hù)
在使用過(guò)程中如果發(fā)現(xiàn)數(shù)據(jù)庫(kù)中有重復(fù)的標(biāo)準(zhǔn)數(shù)據(jù),管理員可以通過(guò)DIPS提供的去重工具進(jìn)行去重,在工具中選擇好根據(jù)“標(biāo)準(zhǔn)號(hào)”這個(gè)字段進(jìn)行去重后,數(shù)據(jù)庫(kù)中將只保留ID值最大的標(biāo)準(zhǔn)數(shù)據(jù)(即新上傳的數(shù)據(jù)),其余重復(fù)數(shù)據(jù)將會(huì)被刪除。
2.3 系統(tǒng)前端實(shí)現(xiàn)
系統(tǒng)前端以Visual Studio 2013作為開(kāi)發(fā)工具,以.NET Framework 4.5為框架,采用三層架構(gòu)模式,以IIS 7.0作為中間件,應(yīng)用Jquery,Ajax,Xml,Json多項(xiàng)技術(shù),實(shí)現(xiàn)以下功能。
2.3.1 注冊(cè)賬號(hào)
用戶注冊(cè)時(shí)需填寫自己的郵箱地址,注冊(cè)完成后,系統(tǒng)會(huì)自動(dòng)向用戶的郵箱發(fā)送激活郵件,郵件內(nèi)容是一個(gè)激活鏈接,用戶需要登錄自己的郵箱并點(diǎn)擊該鏈接才能激活之前在系統(tǒng)注冊(cè)的帳號(hào)。
2.3.2 登錄賬號(hào)
為了系統(tǒng)的安全性,系統(tǒng)設(shè)置登錄失敗處理功能,限制非法登錄次數(shù)。在用戶輸錯(cuò)密碼3次后,該賬號(hào)將被鎖定1個(gè)小時(shí),防止黑客對(duì)賬戶密碼進(jìn)行暴力猜測(cè)。
2.3.3 找回密碼
用戶可在找回密碼頁(yè)面輸入注冊(cè)時(shí)使用的郵箱地址,系統(tǒng)會(huì)自動(dòng)發(fā)送密碼重置郵件到該郵箱中,用戶登錄郵箱點(diǎn)擊重置郵件中的鏈接即可重置密碼。
2.3.4 檢索定位
用戶可根據(jù)關(guān)鍵字,標(biāo)準(zhǔn)號(hào),標(biāo)準(zhǔn)年代號(hào),中標(biāo)分類號(hào),ICS分類號(hào),標(biāo)準(zhǔn)狀態(tài),標(biāo)準(zhǔn)組織類別這七個(gè)條件進(jìn)行組合檢索。如果在某個(gè)條件中需要檢索多個(gè)詞,檢索詞之間可以用邏輯與“*”、邏輯或“+”、邏輯非“!”運(yùn)算符連接。邏輯與“*”表示標(biāo)準(zhǔn)文中必須含有所有檢索詞,邏輯或“+”表示標(biāo)準(zhǔn)文中只要含有某個(gè)檢索詞即可,邏輯非“!”表示標(biāo)準(zhǔn)文中不能含有該檢索詞。
2.3.5在線閱覽
用戶如需在線閱覽標(biāo)準(zhǔn)文本,要先從系統(tǒng)下載并安裝Adobe Reader軟件和DIPS專用閱覽插件,安裝成功后用戶在線閱覽時(shí)插件將會(huì)直接跳轉(zhuǎn)到關(guān)鍵詞所在的頁(yè),并且關(guān)鍵詞標(biāo)紅顯示,極大地提高了用戶的檢索效率。
2.3.6 跟蹤標(biāo)準(zhǔn)
用戶在檢索過(guò)程中可將自己關(guān)注的標(biāo)準(zhǔn)添加到用戶關(guān)注標(biāo)準(zhǔn)庫(kù)中,從而以后用戶可直接通過(guò)該庫(kù)使用這些標(biāo)準(zhǔn),實(shí)現(xiàn)小范圍內(nèi)更加精確地全文檢索,用戶關(guān)注標(biāo)準(zhǔn)庫(kù)中標(biāo)準(zhǔn)作廢前系統(tǒng)會(huì)彈窗提醒以及向用戶注冊(cè)郵箱發(fā)送標(biāo)準(zhǔn)作廢前提醒郵件,從而避免用戶使用作廢標(biāo)準(zhǔn)造成損失。
2.3.7 后臺(tái)管理
管理員在后臺(tái)可以查看用戶的姓名,單位,聯(lián)系方式等資料以及最新登錄系統(tǒng)時(shí)間,總登錄次數(shù)等用戶使用系統(tǒng)的情況,并且可以設(shè)置用戶是否有權(quán)限在線閱覽標(biāo)準(zhǔn)電子文本
隨著標(biāo)準(zhǔn)數(shù)量不斷增長(zhǎng)以及用戶獲取標(biāo)準(zhǔn)信息的需求迅速膨脹,當(dāng)前僅針對(duì)標(biāo)準(zhǔn)題錄的檢索方式已經(jīng)不能滿足用戶需求,而標(biāo)準(zhǔn)數(shù)字化全文檢索系統(tǒng)提供了快捷的數(shù)據(jù)管理工具和強(qiáng)大的全文檢索手段,為標(biāo)準(zhǔn)化資源高效利用建立了一個(gè)有效的共享平臺(tái),使用戶能快速方便地查到需要的標(biāo)準(zhǔn)信息,滿足用戶高查準(zhǔn)率和高查全率的要求,在標(biāo)準(zhǔn)化和信息化相結(jié)合方面開(kāi)創(chuàng)了新的領(lǐng)域,對(duì)于標(biāo)準(zhǔn)化工作的開(kāi)展和推廣具有積極的意義。
主要參考文獻(xiàn)
[1]陳曉.基于DIPS的高校圖書(shū)館特色數(shù)據(jù)庫(kù)建設(shè)[J].情報(bào)探索,2008(7):50-51.
10.3969/j.issn.1673-0194.2016.15.106
G252.7
A
1673-0194(2016)15-0168-03
2016-05-04