孫建華, 林德強(qiáng), 劉元紅, 李 媛
(北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院,北京100191)
如何存儲(chǔ)、調(diào)度、管理海量信息,以及如何從海量信息中查找和提取所需要的信息是迫切需要解決的問題,也是最為棘手的問題。同樣,在辦公信息化建設(shè)日益深入的進(jìn)程中,國(guó)內(nèi)高校幾乎無一例外的從單一的管理系統(tǒng)開始建設(shè),如:教學(xué)管理系統(tǒng),人事管理系統(tǒng),資產(chǎn)管理系統(tǒng),科研管理系統(tǒng),網(wǎng)絡(luò)學(xué)堂,以及專用的教學(xué)資源管理和實(shí)驗(yàn)教學(xué)模擬系統(tǒng)等。各個(gè)專業(yè)信息系統(tǒng)的建立使得終端用戶的使用非常繁瑣,即使建設(shè)了統(tǒng)一的一次性登錄的網(wǎng)絡(luò)管理平臺(tái),但是信息的檢索,特別是教學(xué)資源的全文檢索沒有一個(gè)方便的訪問平臺(tái)。
實(shí)現(xiàn)對(duì)業(yè)務(wù)應(yīng)用系統(tǒng),業(yè)務(wù)網(wǎng)站以及辦公系統(tǒng)進(jìn)行統(tǒng)一全文檢索、查詢和共享成為網(wǎng)絡(luò)資源使用者的共同需求。特別是在多校區(qū)環(huán)境下,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng),業(yè)務(wù)網(wǎng)站,OA辦公系統(tǒng)中,郵件系統(tǒng),多媒體等資源統(tǒng)一平臺(tái)的全文檢索、查詢、共享和應(yīng)用的需求尤為迫切。現(xiàn)在也有一些應(yīng)用云平臺(tái)的解決方案。云平臺(tái)的應(yīng)用對(duì)于新系統(tǒng)的建設(shè)是個(gè)不錯(cuò)的方案,但是對(duì)于原系統(tǒng)整合、已有數(shù)據(jù)的遷移,還存在一些有待解決的問題。
我校設(shè)有14個(gè)學(xué)院,分布在13個(gè)校區(qū),校區(qū)分布在北京的6個(gè)城區(qū),形成了以校本部為中心,集中與分散相結(jié)合的辦學(xué)布局。學(xué)校已經(jīng)建成各種辦公業(yè)務(wù)系統(tǒng),郵件系統(tǒng),國(guó)家級(jí)特色專業(yè)建設(shè)點(diǎn)、服務(wù)外包基地、應(yīng)用文科綜合實(shí)驗(yàn)教學(xué)示范中心建設(shè)單位網(wǎng)站以及教學(xué)資源系統(tǒng)等。作為國(guó)家級(jí)示范實(shí)驗(yàn)中心建設(shè)單位,應(yīng)用文科綜合實(shí)驗(yàn)教學(xué)中心面向北京聯(lián)合大學(xué)分布在13個(gè)校區(qū)的14個(gè)學(xué)院的全體師生提供服務(wù)。因此,實(shí)現(xiàn)統(tǒng)一的資源檢索、共享和管理平臺(tái)勢(shì)在必行。
除了上述教學(xué)、科研系統(tǒng)的各類信息的全文檢索外,還有大量的辦公多媒體信息的管理。目前,國(guó)家正在大力推進(jìn)辦公信息化和電子政務(wù),政府機(jī)關(guān)和企事業(yè)單位越來越多地利用和依賴互聯(lián)網(wǎng)與計(jì)算機(jī),絕大多數(shù)紙質(zhì)公文和文件都來自于電子文件,許多文件則直接采用電子文件形式。任何一個(gè)機(jī)構(gòu)的各種辦公業(yè)務(wù)、郵件,網(wǎng)站以及教學(xué)資源系統(tǒng)等資源大致分為幾類:各種多媒體信息,如:doc、docx、jpg、pdf、xls,xlsx等;網(wǎng)頁;郵件,如:outlook,foxmail等。
大量的電子文件存儲(chǔ)在各個(gè)部門相關(guān)工作人員所使用的電腦中。有些電子文件包括重要數(shù)據(jù)信息,其中既有可公開使用公用的信息,也有需要嚴(yán)格或局部保密的非公開信息?,F(xiàn)階段對(duì)于辦公、工程建設(shè)、教學(xué)相關(guān)的紙質(zhì)文件都是每年整理存放于學(xué)校檔案室,這類文件的檢索非常麻煩,檢索效率低。對(duì)現(xiàn)有電子資源的整合優(yōu)化是非常必要,也是今后發(fā)展趨勢(shì)。
通常,當(dāng)領(lǐng)導(dǎo)需要查找具體信息和數(shù)據(jù)時(shí),一般的做法是:領(lǐng)導(dǎo)→主管部門→辦事人員→在電腦中查找或翻閱檔案→找出相關(guān)的多個(gè)文件→逐個(gè)文件閱讀→可能查到,也可能查不到→找到后,上報(bào)給領(lǐng)導(dǎo)→領(lǐng)導(dǎo)拿到相關(guān)文件后,可能是需要的,也可能是不需要的→如果是需要的,當(dāng)感覺內(nèi)容不符合需求時(shí),還需要再查找→新的循環(huán)開始。
然而,對(duì)于校區(qū)多、辦學(xué)分散的環(huán)境,上述問題就更加突出?,F(xiàn)已廣泛使用的關(guān)系數(shù)據(jù)庫難以實(shí)現(xiàn)海量信息的高速全文檢索。
目前在全球廣泛使用的非結(jié)構(gòu)化數(shù)據(jù)庫有很多,目前歐美在新聞出版行業(yè)和情報(bào)研究機(jī)構(gòu)廣泛使用,具備高效檢索效果的TRIP數(shù)據(jù)庫具有很好的應(yīng)用前景[1]。TRIP是最早最成熟的全文檢索系統(tǒng)之一。TRIP最初是瑞典Paralog AB的產(chǎn)品,它源于瑞典皇家工學(xué)院圖書館1972年開發(fā)的、面向非結(jié)構(gòu)化數(shù)據(jù)處理的圖書情報(bào)檢索專用軟件3RIP,這可謂是世界上最早、最成熟的全文檢索系統(tǒng)。自1985年在3RIP的基礎(chǔ)上開發(fā)成為TRIP后,已在圖書情報(bào)界外,尤其是在企業(yè)、公共機(jī)關(guān)中找到了更多的用戶。應(yīng)用最多的領(lǐng)域是化學(xué)、化工公司、醫(yī)藥公司、政法部門、議會(huì)、海關(guān)、警廳、報(bào)業(yè)、交通、電信、廣播、保險(xiǎn)等[2-3]。系統(tǒng)需求的應(yīng)用模型見圖1所示。
圖1 資源共享系統(tǒng)的應(yīng)用模型
TRIP是一種面向?qū)ο蟮娜臄?shù)據(jù)庫系統(tǒng),更準(zhǔn)確地說,TRIP是一種具有非常快速查找功能的信息檔案管理系統(tǒng),最適用于在公網(wǎng)Internet上或局網(wǎng)Intranet上管理、檢索、出版像法律法規(guī)、合同文本、技術(shù)文件、來往書信、報(bào)刊雜志、備忘錄、報(bào)告、圖書館系統(tǒng)等任意規(guī)格的文本數(shù)據(jù),以及照片、圖像、圖表等二進(jìn)制數(shù)據(jù)。TRIP系統(tǒng)也同樣擅長(zhǎng)處理像日期、時(shí)間、數(shù)值(實(shí)數(shù)、虛數(shù))、人名、地名等一般關(guān)系型數(shù)據(jù)庫所擅長(zhǎng)處理的規(guī)格化數(shù)據(jù)[4-5]。
本系統(tǒng)通過對(duì)現(xiàn)有電子資源進(jìn)行分類、整合,采用TRIP全文數(shù)據(jù)庫技術(shù),存儲(chǔ)文本、OFFICE文檔、工程制圖文件及各種多媒體文件,提供對(duì)各類資源的多樣化全文檢索;為用戶備份、共享、管理各類資源提供支持。通過摘要算法對(duì)資源的存儲(chǔ)和檢索進(jìn)行優(yōu)化,不存在隨著數(shù)據(jù)記錄的增大而降低檢索效率的問題。從而改變了傳統(tǒng)信息的查找方法。
系統(tǒng)實(shí)現(xiàn)了關(guān)系數(shù)據(jù)庫不易實(shí)現(xiàn)的數(shù)據(jù)庫和系統(tǒng)程序的分離,可以對(duì)建立的Trip數(shù)據(jù)庫進(jìn)行拆分、合并和移動(dòng)。Trip數(shù)據(jù)庫的跨平臺(tái)數(shù)據(jù)存儲(chǔ)機(jī)制,可以實(shí)現(xiàn)在各種系統(tǒng)平臺(tái)下建立的數(shù)據(jù)庫,如:Windows、Linux、Unix等,可以按需拆分,合并,遷移和復(fù)原。
系統(tǒng)的最大特點(diǎn):跨平臺(tái)的數(shù)據(jù)庫任意拆分組合;對(duì)各類文檔全文檢索,又能夠?qū)崿F(xiàn)文檔備份與管理,有利于對(duì)于歷史文件的查詢;高效全文檢索;各種媒體資源統(tǒng)一檢索平臺(tái),如:在圖2中所示的各種文件,包括圖片,郵件和網(wǎng)頁等;分布式的資源訪問策略。
針對(duì)學(xué)校校區(qū)的特點(diǎn),系統(tǒng)采用集中控制,分層分布式應(yīng)用管理的模式。中心控制部分采用雙機(jī)熱備以保障系統(tǒng)提供不間斷服務(wù),分層分布式是指在各個(gè)校區(qū)設(shè)二級(jí)管理功能對(duì)分布在各個(gè)校區(qū)的分服務(wù)器進(jìn)行本校區(qū)的資源管理和總校區(qū)資源共享的授權(quán)。
圖2 系統(tǒng)總體架構(gòu)
整個(gè)系統(tǒng)由多媒體資源管理、網(wǎng)站信息資源管理、電子郵件資源管理和身份管理4個(gè)模塊構(gòu)成。
(1)多媒體資源管理。針對(duì)200多種電子文檔進(jìn)行管理。用戶通過B/S或C/S模式訪問服務(wù)器。包括數(shù)據(jù)庫管理、權(quán)限或?qū)傩怨芾怼①Y源全文檢索和日志管理。資源進(jìn)入數(shù)據(jù)庫有兩種方式:①批量入庫,只需設(shè)定文件夾或盤符即可將路境內(nèi)的所有資源批量入庫。②逐一入庫,通過瀏覽器頁面逐條編輯入庫[6-8]。屬性管理:所有資源都有自身的屬性,屬性類別包括:公共、私有和群組。任何人不得越權(quán)查看沒有權(quán)限查看的資源。資源全文檢索:所有多媒體資源的檢索結(jié)果均可在瀏覽器中播放顯示[9]。
(2)網(wǎng)站資源管理(WPMS)。模塊提供Web資源檢索,包括:讀取網(wǎng)站對(duì)象信息,抓取進(jìn)程管理,抓取網(wǎng)頁信息,解析網(wǎng)站內(nèi)容,日志文件信息記錄,信息入庫等模塊。還提供自定義數(shù)據(jù)庫結(jié)構(gòu)的功能,包括定義數(shù)據(jù)庫模板和創(chuàng)建數(shù)據(jù)庫。用戶在創(chuàng)建數(shù)據(jù)庫之前都需要對(duì)數(shù)據(jù)庫的字段類型、名稱和備注等信息進(jìn)行設(shè)計(jì)[10]。最終數(shù)據(jù)庫會(huì)根據(jù)用戶所設(shè)計(jì)的數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行創(chuàng)建。為減少應(yīng)用的復(fù)雜性,引入數(shù)據(jù)庫模板。
(3)電子郵件資源檢索。實(shí)現(xiàn)動(dòng)態(tài)讀取用戶郵箱,并進(jìn)行資源的抓取。從而實(shí)現(xiàn)對(duì)郵件的本地備份和對(duì)郵件內(nèi)容全文檢索功能。電子郵箱資源檢索的全文檢索與網(wǎng)站資源檢索類似。模塊啟用之前首先要設(shè)定郵箱,理論上可以設(shè)定任意多個(gè)郵箱,系統(tǒng)定時(shí)在郵件服務(wù)器抓取信件內(nèi)容以備檢索之用。郵箱的安全也是系統(tǒng)安全的重要內(nèi)容之一,使用者只能依據(jù)權(quán)限訪問相關(guān)內(nèi)容,否則不能查看任何內(nèi)容。
(4)一體化的檢索平臺(tái)。系統(tǒng)不僅提供了上述三個(gè)模塊的檢索功能,還可在授權(quán)的前提下在上述三個(gè)資源數(shù)據(jù)庫中進(jìn)行一次性一體化檢索。方便使用。用戶權(quán)限的核心功能分為兩個(gè)方面:用戶管理和權(quán)限管理。用戶管理可以通過添加、刪除、修改和查詢實(shí)現(xiàn);權(quán)限管理從兩個(gè)方面進(jìn)行控制:功能模塊的使用和資源的訪問。優(yōu)先級(jí)為功能模塊、資源。權(quán)限類別有公共、群組和私有[11-13]。
系統(tǒng)考慮到多校區(qū),分布式校園網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和應(yīng)用需求,設(shè)計(jì)實(shí)現(xiàn)資源的分布式訪問和控制策略。通常的分布式策略:劃分式(partitioned),全重復(fù)方式(fully replicated)和部分重復(fù)方式 (partially replicated)。劃分式,數(shù)據(jù)來源及用途,將數(shù)據(jù)分布于不同結(jié)點(diǎn),彼此間沒有任何重復(fù)。劃分式在共享部分較多時(shí),事務(wù)的分布式執(zhí)行也就越多,會(huì)使性能下降。全重復(fù)方式,每一個(gè)結(jié)點(diǎn)擁有全部數(shù)據(jù)的一個(gè)復(fù)本。全重復(fù)方式對(duì)只讀事務(wù),可做到完全本地訪問,但對(duì)更新操作,則需要訪問每一個(gè)結(jié)點(diǎn)。部分重復(fù)方式,根據(jù)應(yīng)用的需要,將有些數(shù)據(jù)只分布在一個(gè)結(jié)點(diǎn)上,有些數(shù)據(jù)分布在多個(gè)結(jié)點(diǎn)上,這種分布方式應(yīng)用比較廣泛。3種分布式策略的復(fù)雜性,靈活性和引發(fā)問題的比較見表1。本系統(tǒng)采用部分重復(fù)式資源分布部署策略。將面向特定校區(qū)或面向局部人群的資源置于一個(gè)節(jié)點(diǎn),而面向多個(gè)校區(qū)或共享范圍較大的資源置于多個(gè)特定節(jié)點(diǎn)。
表1 3種分布式策略比較
系統(tǒng)安全性要求是指對(duì)整個(gè)系統(tǒng)(包括系統(tǒng)硬件、軟件、使用、保障及有關(guān)人員)和系統(tǒng)全壽命期的各階段(包括論證、設(shè)計(jì)、研制、使用、維護(hù)及報(bào)廢)的所有活動(dòng),都要貫徹安全方面的需求,逐項(xiàng)、全面地識(shí)別系統(tǒng)中存在的危害,采取保證安全的工程和管理措施,達(dá)到消除風(fēng)險(xiǎn)或者將風(fēng)險(xiǎn)控制到可以接受的水平,以防止災(zāi)難的發(fā)生[14]。系統(tǒng)安全主要包括:
(1)物理安全。物理安全主要包括環(huán)境安全、設(shè)備安全、媒體安全等方面。處理秘密信息的系統(tǒng)中心機(jī)房應(yīng)采用有效的技術(shù)防范措施。
(2)運(yùn)行安全。運(yùn)行安全主要包括備份與恢復(fù)、病毒的檢測(cè)與消除、電磁兼容等。涉密系統(tǒng)的主要設(shè)備、軟件、數(shù)據(jù)、電源等應(yīng)有備份,并具有在較短時(shí)間內(nèi)恢復(fù)系統(tǒng)運(yùn)行的能力。應(yīng)采用國(guó)家有關(guān)主管部門批準(zhǔn)的查毒殺毒軟件適時(shí)查毒殺毒,包括服務(wù)器和客戶端的查毒殺毒。
(3)信息安全。確保信息的保密性、完整性、可用性和抗抵賴性是信息安全保密的中心任務(wù)。對(duì)于涉及個(gè)人知識(shí)產(chǎn)權(quán)的資源設(shè)置密級(jí),只有得到授權(quán)才可以訪問。
(4)安全保密管理。涉密計(jì)算機(jī)信息系統(tǒng)的安全保密管理包括各級(jí)管理組織機(jī)構(gòu)、管理制度和管理技術(shù)三個(gè)方面。要通過組建完整的安全管理組織機(jī)構(gòu),設(shè)置安全保密管理人員,制定嚴(yán)格的安全保密管理制度,利用先進(jìn)的安全保密管理技術(shù)對(duì)整個(gè)涉密計(jì)算機(jī)信息系統(tǒng)進(jìn)行管理。在設(shè)計(jì)時(shí),要盡最大努力將安全方面的需求與其他方面的需求作整體考慮,從而達(dá)到設(shè)計(jì)上的優(yōu)化[15]。
總之,由于網(wǎng)絡(luò)和資源的特殊性質(zhì),決定了信息共享和信息安全問題的客觀存在。因此,真正解決這一矛盾,僅靠技術(shù)手段是不夠的。還應(yīng)從法制上,提高公民的法律意識(shí),從管理上提高管理者的法律意識(shí)和執(zhí)政能力。
[1] 楊小莉.國(guó)內(nèi)常見全文檢索系統(tǒng)比較[J].圖書與情報(bào),2006(2):94-96.
[2] 徐 飛.基于TRIP數(shù)據(jù)庫的公文電子化管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中原工學(xué)院學(xué)報(bào),2012(5):14-16.
[3] 戰(zhàn)小漪.TRIP中英文全文數(shù)據(jù)庫管理系統(tǒng)新華社綜合數(shù)據(jù)庫的應(yīng)用與開發(fā)[J].中國(guó)新聞科技,1998(5):21-22.
[4] 楊恒宇.基于TRIP的全文檢索系統(tǒng)的應(yīng)用及研究[J].電腦知識(shí)與技術(shù),2012(25):25-26.
[5] 程傳鵬.基于Trip數(shù)據(jù)庫的檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中原工學(xué)院學(xué)報(bào),2012(1):44-45.
[6] 陳金水.非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)管理的實(shí)用化方法[J].計(jì)算機(jī)與現(xiàn)代化,2006(8):25-26.
[7] 張德政.非結(jié)構(gòu)化信息管理[J].微計(jì)算機(jī)信息,2006(9):218-220.
[8] 韋 琳.E-learning非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)的構(gòu)建與實(shí)現(xiàn)[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2010(6):14-16.
[9] 馮 宇.非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)研究與建設(shè)[J].電力信息化,2012(2):69-71.
[10] 文永革.基于Web的非結(jié)構(gòu)化數(shù)據(jù)管理方法的研究與實(shí)踐[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008(5):101-104.
[11] 張志軍.分布式數(shù)據(jù)庫在信息化管理系統(tǒng)中的應(yīng)用[J].無線互聯(lián)科技,2012(2):26-28.
[12] 王春曉.分布式數(shù)據(jù)庫數(shù)據(jù)復(fù)制技術(shù)的研究[J].中山大學(xué)學(xué)報(bào),2009(S1):366-368.
[13] 孫碧燕.非結(jié)構(gòu)化檔案信息管理對(duì)策分析[J].企業(yè)研究,2010(6):72-74.
[14] 何淑娟.非結(jié)構(gòu)化數(shù)據(jù)庫及其應(yīng)用分析[J].信息系統(tǒng)工程,2009(7):49-51.
[15] 吳廣?。墙Y(jié)構(gòu)化網(wǎng)絡(luò)數(shù)據(jù)庫在圖書情報(bào)服務(wù)中的應(yīng)用[J].圖書情報(bào)工作,2000(9):52-56.