云雅
摘 要:隨著數(shù)字化檔案館技術(shù)應(yīng)用研究的開展,Hadoop信息技術(shù)在檔案館信息服務(wù)中得到了廣泛應(yīng)用。本文結(jié)合Hadoop技術(shù)特征,開展了其對數(shù)字檔案服務(wù)影響、新型服務(wù)模式建立支持以及應(yīng)注意的主要問題研究,為這一技術(shù)應(yīng)用發(fā)展提供技術(shù)理論支持。
關(guān)鍵詞:Hadoop;數(shù)字檔案館 信息服務(wù)模式
隨著大數(shù)據(jù)云技術(shù)時(shí)代的來臨,利用新型數(shù)據(jù)處理技術(shù)促進(jìn)檔案管理數(shù)字化建設(shè),進(jìn)而為數(shù)字化檔案館建設(shè)提供技術(shù)支持就成為了檔案數(shù)字技術(shù)研究的重要組成部分。在這一過程中,Hadoop得以在大數(shù)據(jù)處理以及云平臺(tái)應(yīng)用優(yōu)勢,在當(dāng)前的數(shù)字化檔案館建設(shè)中得到了廣泛應(yīng)用。因此技術(shù)人員開展了Hadoop數(shù)據(jù)系統(tǒng)技術(shù)支持下的的數(shù)字檔案館信息服務(wù)研究,并將其定為2016年海南省哲學(xué)社會(huì)科學(xué)規(guī)劃課題“基于分布式系統(tǒng)的檔案資源集成平臺(tái)模式研究”[項(xiàng)目編號(hào):HNSK(ZC)16-47]的成果之一,進(jìn)而為我國數(shù)字化檔案建設(shè)提供支持。
1 Hadoop數(shù)據(jù)系統(tǒng)對數(shù)字檔案館信息服務(wù)影響研究
Hadoop在應(yīng)用中可以對大量數(shù)據(jù)進(jìn)行分布式處理,在使用中具有一種可靠、高效、可伸縮的處理優(yōu)勢。因此在這一技術(shù)支持下,傳統(tǒng)的數(shù)字檔案館信息服務(wù)模式也受到了較大影響。這種影響是在Hadoop大數(shù)據(jù)與云平臺(tái)技術(shù)支持下產(chǎn)生的。
1.1 促進(jìn)服務(wù)理念轉(zhuǎn)變
建設(shè)服務(wù)主導(dǎo)型數(shù)字檔案館,是未來數(shù)字檔案館發(fā)展的必然方向,也是大數(shù)據(jù)時(shí)代檔案館發(fā)展的主要特征。而在這一轉(zhuǎn)變過程中,Hadoop數(shù)據(jù)系統(tǒng)是一種集技術(shù)、服務(wù)于一體的技術(shù)服務(wù)手段。在大數(shù)據(jù)支持下,系統(tǒng)將傳統(tǒng)的邏輯分析處理方式,逐漸轉(zhuǎn)變?yōu)榇髷?shù)據(jù)挖掘收集、數(shù)據(jù)量化與相互關(guān)系分析過程,進(jìn)而提出優(yōu)化服務(wù)方案的服務(wù)模式。這種服務(wù)理念的的轉(zhuǎn)變在大數(shù)據(jù)技術(shù)支持下,可以有效提高數(shù)字檔案館信息服務(wù)質(zhì)量與效率。
1.2 拓寬數(shù)據(jù)化信息資源
檔案館館藏信息資料是數(shù)字化檔案館服務(wù)運(yùn)行的基礎(chǔ)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)字化檔案館的存儲(chǔ)量已經(jīng)可以達(dá)到PB級。而在實(shí)際應(yīng)用中,Hadoop的框架最核主要包括了HDFS和MapReduce,兩個(gè)主要組成部分。其中HDFS就是海量數(shù)據(jù)存儲(chǔ)技術(shù),可以為PB級數(shù)據(jù)儲(chǔ)存提供支持。這種儲(chǔ)存規(guī)模的擴(kuò)大,在數(shù)字檔案館應(yīng)用中可以發(fā)揮以下兩方面作用:一方面海量儲(chǔ)存功能作用的發(fā)揮,確保了館藏信息資料存儲(chǔ)量的提升;另一方面也是其與云平臺(tái)服務(wù)提供了銜接。
1.3 為信息服務(wù)提供高效技術(shù)支持
在大數(shù)據(jù)時(shí)代數(shù)字化檔案館技術(shù)發(fā)展中,技術(shù)管理者使用Hadoop信息技術(shù),有效的提高了檔案館技術(shù)水平。這種技術(shù)的水平的提高包括了以下兩個(gè)主要部分。(1)分析處理技術(shù)的轉(zhuǎn)變。在傳統(tǒng)數(shù)字化檔案時(shí)代,由于數(shù)據(jù)處理能力較低,因此處理裝置會(huì)采用抽樣分析方式,處理數(shù)字化信息,其分析與處理能力受到嚴(yán)重制約。而在Hadoop技術(shù)支持下的新型數(shù)字化檔案管理中,其分析方式已經(jīng)向整體分析處理方式轉(zhuǎn)變,進(jìn)而提高了數(shù)字化系信息服務(wù)的完整性、準(zhǔn)確性與深入性,進(jìn)而實(shí)現(xiàn)了檔案管理的數(shù)據(jù)科學(xué)目標(biāo)。(2)非結(jié)構(gòu)化數(shù)字信息模式的形成。隨著檔案館數(shù)據(jù)信息量的增加,非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為了其數(shù)據(jù)信息的主要組成部分。而Hadoop技術(shù)就是一種對非結(jié)構(gòu)信息進(jìn)行分析處理,并最終根據(jù)統(tǒng)一標(biāo)準(zhǔn)進(jìn)行存儲(chǔ)的信息處理技術(shù)措施,進(jìn)而有效的提高了檔案分析服務(wù)質(zhì)量與效率。
1.4 促進(jìn)服務(wù)策略轉(zhuǎn)變
Hadoop信息技術(shù)是一種基于大數(shù)據(jù)與云平臺(tái)結(jié)合的信息化服務(wù)技術(shù)。因此這一技術(shù)應(yīng)用的目標(biāo)就是實(shí)現(xiàn)云平臺(tái)網(wǎng)絡(luò)檔案服務(wù)戰(zhàn)略的形成。這一戰(zhàn)略包括了以下兩個(gè)組成部分。(1)檔案館云平臺(tái)服務(wù)策略。這一策略就是改變數(shù)字化檔案館原有的基礎(chǔ)服務(wù)模式,而是通過云平臺(tái)將其服務(wù)延伸至整個(gè)網(wǎng)絡(luò)平臺(tái)中,在信息安全許可條件下為社會(huì)群體、大數(shù)據(jù)挖掘等提供有效的檔案服務(wù)工作。(2)形成數(shù)據(jù)挖掘下支持下的數(shù)字化檔案館。在云平臺(tái)與大數(shù)據(jù)支持下,Hadoop可以將大數(shù)據(jù)挖掘出的信息數(shù)據(jù)融入自身數(shù)據(jù)庫進(jìn)行保存,利用智能化模式自行完善檔案庫數(shù)據(jù)信息。這種功能的形成將會(huì)是我國未來數(shù)字化檔案館服務(wù)能力提升與策略調(diào)整的主要方向。
2 Hadoop技術(shù)支持下的檔案館信息服務(wù)新型模式
在Hadoop信息技術(shù)支持下,我國的數(shù)字化檔案館在服務(wù)模式中已經(jīng)有了較大轉(zhuǎn)變,形成了一些新的服務(wù)模式。
2.1 一站式服務(wù)模式
在信息化時(shí)代,讀者對于檔案館信息的需求是海量、高速而又專業(yè)化。因此檔案館數(shù)據(jù)信息要求是大數(shù)量、整合化的數(shù)據(jù)內(nèi)容以及一站式信息服務(wù)模式。而在這一過程中,如何實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)與分析整合,實(shí)現(xiàn)其數(shù)據(jù)庫資源的高效共享也就成為了檔案館信息服務(wù)的核心技術(shù)。而在Hadoop技術(shù)中HDFS與MapReduce模塊的結(jié)合,再通過Cloud Computing、GFS等技術(shù)支持,即可實(shí)現(xiàn)海量存儲(chǔ)中,各類不同結(jié)構(gòu)、存儲(chǔ)位置的數(shù)據(jù)資源,快速的匯聚和融合,形成一站式的檔案高速搜索與閱讀平臺(tái)。
2.2 分眾服務(wù)性能的提升
隨著信息時(shí)代發(fā)展,數(shù)字檔案館已經(jīng)逐步由專業(yè)服務(wù)向公眾服務(wù)模式轉(zhuǎn)變。在這一過程中,Hadoop信息技術(shù)的應(yīng)用可以為公眾化發(fā)展提供以下的三個(gè)方面支持。(1)提供海量的數(shù)據(jù)支持。在檔案信息服務(wù)中,公眾對于檔案信息的要求內(nèi)容復(fù)雜、數(shù)據(jù)量大,因此需要檔案館海量數(shù)據(jù)信息支持,進(jìn)而保障滿足公眾對數(shù)據(jù)的需求。而海量儲(chǔ)存恰恰是Hadoop信息系統(tǒng)的主要特征之一。(2)為多平臺(tái)服務(wù)提供支持。在公共檔案信息服務(wù)中,其使用的服務(wù)平臺(tái)數(shù)量較多,且往往處于同時(shí)服務(wù)的狀態(tài)。而Hadoop信息技術(shù)的一個(gè)優(yōu)勢就是擅長分布式計(jì)算,這種模式可以實(shí)現(xiàn)檔案信息服務(wù)快速地跨多臺(tái)機(jī)器開展大型數(shù)據(jù)的集合處理服務(wù)。特別是在檔案館云平臺(tái)運(yùn)行中,多臺(tái)處理器同時(shí)服務(wù)有助于檔案服務(wù)數(shù)量與效率的提升。(3)公眾服務(wù)改造成本低。在檔案公眾服務(wù)中,技術(shù)改造與使用成本過高會(huì)嚴(yán)重影響檔案信息服務(wù)的普及與發(fā)展。而在技術(shù)實(shí)踐中Hadoop 與其他類似技術(shù)相比較,其依賴于社區(qū)服務(wù)模式,且其技術(shù)是開源的,進(jìn)而保證了項(xiàng)目軟件成本的降低。
2.3 智慧型服務(wù)模式的實(shí)現(xiàn)
在云平臺(tái)與大數(shù)據(jù)技術(shù)支持下,Hadoop信息技術(shù)已經(jīng)可以在原有的數(shù)字檔案基礎(chǔ)上形成由數(shù)據(jù)挖掘、云平臺(tái)數(shù)據(jù)信息信息共享以及系統(tǒng)內(nèi)海量信息智能化搜索同步完成的智慧型服務(wù)模式。這種服務(wù)模式除了一站式服務(wù)過程外,還包括了智能性服務(wù)。這種服務(wù)是系統(tǒng)根據(jù)檔案使用者信息搜索痕跡,利用云計(jì)算與MapReduce模塊處理,形成智能化檔案服務(wù)模式,即根據(jù)模糊搜索、熱點(diǎn)搜索、智能分析等方式,在網(wǎng)絡(luò)云平臺(tái)中實(shí)現(xiàn)大數(shù)據(jù)搜索,智能分析,最終最大化實(shí)現(xiàn)客戶需求的服務(wù)模式。這種智能化服務(wù)模式的形成與一站式服務(wù)進(jìn)行有機(jī)搭配,將形成模擬人類智慧的服務(wù)模式。這里需要注意的是,這里所指的智慧型服務(wù)只是接近人類智慧的一種人工智能模式,就目前技術(shù)而言,還是無法完全代替人工服務(wù),因此系統(tǒng)操作過程還是需要由檔案技術(shù)管理人員完成。
3 服務(wù)模式轉(zhuǎn)變中應(yīng)注意的幾個(gè)問題
利用Hadoop信息技術(shù)促進(jìn)數(shù)字化檔案信息服務(wù)改革,進(jìn)而促進(jìn)數(shù)字化檔案館服務(wù)模式轉(zhuǎn)變,是當(dāng)前數(shù)字檔案技術(shù)改革的重要內(nèi)容。但是改革中技術(shù)與管理者也應(yīng)注意以下的幾個(gè)問題。
3.1 檔案信息安全問題
在檔案管理中,檔案信息安全是其最為核心與重要的管理要求。Hadoop以及檔案管理系統(tǒng)的整體安全,直接決定了系統(tǒng)能否為客戶提供優(yōu)秀的信息服務(wù),因此重視系統(tǒng)安全問題將一直是數(shù)字檔案系統(tǒng)技術(shù)管理的核心內(nèi)容。而在大數(shù)據(jù)網(wǎng)絡(luò)平臺(tái)中,安全問題也是一直困擾檔案管理者的主要問題。雖然Hadoop技術(shù)雖然具有較強(qiáng)的可靠性,但是其網(wǎng)絡(luò)安全性能也需要安全系統(tǒng)的有效支持。如在系統(tǒng)軟件系統(tǒng)中需要采用較高級別的安全軟件,提高系統(tǒng)對木馬、病毒等外來侵害的抵御能力。
3.2 需求為導(dǎo)向的系統(tǒng)服務(wù)建設(shè)
客戶需求目標(biāo)是檔案信息服務(wù)開展的基礎(chǔ)。因此在Hadoop數(shù)字檔案系統(tǒng)建設(shè)中,用戶需求是系統(tǒng)各項(xiàng)服務(wù)功能實(shí)際的基礎(chǔ)。這種以客戶需求為導(dǎo)向的服務(wù)設(shè)計(jì)對于系統(tǒng)服務(wù)而言具有以下的三個(gè)作用:一是避免了功能設(shè)置不當(dāng)造成的浪費(fèi)。利用需求導(dǎo)向開展系統(tǒng)服務(wù)功能設(shè)置,可以有效的避免因功能重復(fù)設(shè)置、無用功能設(shè)置等,造成的資源浪費(fèi)問題,提高系統(tǒng)開發(fā)效率。二是利于一站式服務(wù)的實(shí)現(xiàn)。客戶需求的實(shí)現(xiàn)是一站式檔案信息服務(wù)的基礎(chǔ),因此以需求為導(dǎo)向開展服務(wù)建設(shè),也是實(shí)現(xiàn)一站式服務(wù)模式的基礎(chǔ)。三是為檔案公開提供了支持。檔案公開是未來數(shù)字化檔案館的主要功能之一。在客戶需求導(dǎo)向引導(dǎo)下,檔案館可以將各分散數(shù)據(jù)庫中重點(diǎn)公開的內(nèi)容根據(jù)客戶需求進(jìn)行集中公布,有效的提高了檔案公開實(shí)效性。
3.3 做好自主創(chuàng)新研究
在Hadoop系統(tǒng)已經(jīng)是一個(gè)較為成熟的系統(tǒng)模式,也在數(shù)字化檔案管理中得到了一定應(yīng)用。但是由于各類數(shù)字化檔案管理中對于系統(tǒng)功能要求的差異,因此技術(shù)人員應(yīng)在已有系統(tǒng)模式下做好檔案館自身系統(tǒng)的自主創(chuàng)新工作。這種自主創(chuàng)新研究的開展一方面提高了Hadoop系統(tǒng)對數(shù)字檔案管理的實(shí)踐應(yīng)用性;另一方面也為Hadoop技術(shù)應(yīng)用發(fā)展提供了支持,這也是此次課題研究的目的。自主創(chuàng)新不僅僅是表面上的新服務(wù)功能開發(fā),而是通過挖掘Hadoop系統(tǒng)內(nèi)部功能潛能,使其各項(xiàng)功能得到進(jìn)一步利用,為數(shù)字檔案館各項(xiàng)管理水平的提升提供支持。
3.4 服務(wù)、技術(shù)人才的培養(yǎng)
在數(shù)字化檔案管理中,服務(wù)與技術(shù)管理人才隊(duì)伍的培養(yǎng)對于提高檔案服務(wù)管理質(zhì)量起到了不可忽視的作用。在實(shí)際的隊(duì)伍培養(yǎng)與管理中,其人才隊(duì)伍主要包括了以下兩種人才。(1)檔案服務(wù)型人才。這類人才在檔案管理中主要起到服務(wù)性作用。因此這類人才在實(shí)際工作中需要具備專業(yè)的檔案管理知識(shí);使用計(jì)算機(jī)系統(tǒng)(如Hadoop、GFS等)的管理與操作知識(shí),以及良好的檔案服務(wù)意識(shí)。(2)信息化技術(shù)人才。這類人才主要負(fù)責(zé)對檔案管理中使用的軟硬件系統(tǒng)進(jìn)行技術(shù)管理與維護(hù)工作,如定期維護(hù)升級軟件系統(tǒng);做好硬件系統(tǒng)維護(hù)管理與故障檢修;安裝維護(hù)安全軟件,定期進(jìn)行安全查殺等工作,都是系統(tǒng)技術(shù)人員的主要工作。在實(shí)際管理過程中,兩種工作人員的工作屬于相互配合,各司其職的關(guān)系,其目標(biāo)就在于提高系統(tǒng)整體的服務(wù)質(zhì)量、安全性與效率。
4 結(jié)束語
Hadoop系統(tǒng)技術(shù)的應(yīng)用不僅對數(shù)字館建設(shè)提供了高效的技術(shù)支持,也為其信息服務(wù)管理的改革提供了有效支持。因此數(shù)字檔案館服務(wù)管理與技術(shù)人員在Hadoop系統(tǒng)技術(shù)基礎(chǔ)上,以改變服務(wù)策略,提高服務(wù)質(zhì)量,創(chuàng)造新型信息化服務(wù)模式為目標(biāo),開展了Hadoop技術(shù)支持下的信息服務(wù)模式創(chuàng)新研究。這一研究的開展對于數(shù)字化檔案館服務(wù)發(fā)展起到了不可忽視的作用。
參考文獻(xiàn)
[1]文杰.基于云計(jì)算的數(shù)字檔案館建設(shè)研究[J].檔案與建設(shè), 2011(1):46-49.
[2]金凡.檔案網(wǎng)站資源整合的含義、策略與模式探析[J].檔案,2010(1):12-14.
[3]薛四心,黃萃.云計(jì)算環(huán)境下電子文件管理研究綜述[J].北京檔案,2011(9):25-27.