摘 要:大數(shù)據(jù)時(shí)代檔案信息資源的不斷增加以及用戶(hù)的不斷拓展,對(duì)檔案信息資源共享平臺(tái)的數(shù)據(jù)處理流程提出了新的要求。文章論述了檔案信息資源共享平臺(tái)數(shù)據(jù)處理流程總體架構(gòu)按照確保平臺(tái)設(shè)計(jì)的可擴(kuò)展性、充分重視數(shù)據(jù)的采集與存儲(chǔ)等原則進(jìn)行設(shè)計(jì)。在分析平臺(tái)所要實(shí)現(xiàn)的功能需求基礎(chǔ)上,采用Hadoop技術(shù),從平臺(tái)數(shù)據(jù)處理流程中的數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)存儲(chǔ)及管理、數(shù)據(jù)展現(xiàn)等方面對(duì)平臺(tái)數(shù)據(jù)處理流程的實(shí)現(xiàn)進(jìn)行了論證。
關(guān)鍵詞:大數(shù)據(jù);檔案信息資源;共享平臺(tái);Hadoop;數(shù)據(jù)處理
Abstract: With the increasing of archives information resources and the expanding of users, new requirements are put forward for the data processing flow of archives information resources sharing platform in the era of big data. This paper discusses the data processing framework of archives information resource sharing platform, which is designed according to the principles of ensuring the extensibility of the platform design and paying full attention to data acquisition and storage. Based on the analysis of the functional requirements of the platform, the paper demonstrates the implementation of the platform data processing flow from the aspects of data acquisition, data cleaning and pretreatment, data storage and management, data display and so on.
Keyword: Big Data;Archive information resource;Sharing Platform; Hadoop;Data Processing
在數(shù)據(jù)信息高速擴(kuò)張的時(shí)代,隨著云計(jì)算、物聯(lián)網(wǎng)、人工智能技術(shù)的大規(guī)模運(yùn)用,當(dāng)前的檔案信息資源的數(shù)據(jù)量正在呈指數(shù)形式增長(zhǎng),大數(shù)據(jù)時(shí)代的到來(lái)為精準(zhǔn)而又快速地利用檔案信息資源提供了數(shù)據(jù)保障。檔案信息資源在被利用的同時(shí),如何挖掘檔案信息資源數(shù)據(jù)的價(jià)值正成為當(dāng)前檔案信息資源共享平臺(tái)研究的熱點(diǎn)。目前,由于缺乏統(tǒng)一的規(guī)劃和建設(shè)標(biāo)準(zhǔn),前端使用的技術(shù)分辨率支持比較弱,導(dǎo)致各平臺(tái)瀏覽器兼容性、設(shè)備兼容性和系統(tǒng)兼容性都比較差[1],因此,為用戶(hù)精準(zhǔn)而又快速地提供檔案信息是檔案信息共享平臺(tái)數(shù)據(jù)處理流程中最為關(guān)鍵的地方。在現(xiàn)有技術(shù)條件下,擬采用基于Hadoop技術(shù)的數(shù)據(jù)處理,最大限度地挖掘出檔案信息資源共享平臺(tái)中所蘊(yùn)藏的巨大檔案信息使用價(jià)值。
1 平臺(tái)數(shù)據(jù)處理流程總體架構(gòu)設(shè)計(jì)
1.1 數(shù)據(jù)處理流程總體架構(gòu)設(shè)計(jì)原則。大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)數(shù)據(jù)處理流程構(gòu)建設(shè)計(jì)中最重要的就是檔案信息資源數(shù)據(jù)的收集、分析與應(yīng)用,平臺(tái)設(shè)計(jì)的目標(biāo)是能夠匯集異構(gòu)的檔案信息資源共享平臺(tái)的檔案數(shù)據(jù),形成可以開(kāi)放的檔案信息資源共享中心庫(kù)。在平臺(tái)的數(shù)據(jù)處理流程設(shè)計(jì)方面,需要遵循兩條原則:
一是檔案信息資源數(shù)據(jù)作為核心資產(chǎn),充分重視數(shù)據(jù)的采集與存儲(chǔ)。檔案信息資源共享平臺(tái)在大數(shù)據(jù)時(shí)代的應(yīng)用主要是精準(zhǔn)提供有價(jià)值的檔案信息資源服務(wù),其核心在于海量的檔案信息資源的收集、存儲(chǔ)與分析。平臺(tái)需要持續(xù)從不同的環(huán)境中采集數(shù)據(jù),有價(jià)值的檔案信息資源數(shù)據(jù)不斷進(jìn)入平臺(tái)是為用戶(hù)提供高質(zhì)量的檔案服務(wù)的關(guān)鍵。
二是平臺(tái)需求在不斷變化之中,確保平臺(tái)設(shè)計(jì)的可擴(kuò)展性。平臺(tái)所使用的技術(shù)在不斷更新,同時(shí)用戶(hù)的需求也在不斷變化。如我國(guó)目前檔案信息資源共享平臺(tái)用戶(hù)使用的網(wǎng)絡(luò)環(huán)境包括電信、移動(dòng)、聯(lián)通等網(wǎng)絡(luò),如果檔案信息資源共享平臺(tái)僅部署在某個(gè)網(wǎng)絡(luò)環(huán)境下,其他網(wǎng)絡(luò)環(huán)境的用戶(hù)使用平臺(tái)由于跨運(yùn)營(yíng)商的原因訪問(wèn)平臺(tái)就會(huì)比較慢,采用CDN技術(shù)來(lái)解決相關(guān)傳輸問(wèn)題[2],能夠更加快速有效地傳送Web內(nèi)容。其基本思路是盡可能避開(kāi)互聯(lián)網(wǎng)上有可能影響數(shù)據(jù)傳輸速度和穩(wěn)定性的瓶頸和環(huán)節(jié),使內(nèi)容傳輸?shù)酶?、更穩(wěn)定[3]。
1.2 數(shù)據(jù)處理流程總體架構(gòu)設(shè)計(jì)。根據(jù)平臺(tái)數(shù)據(jù)處理流程總體架構(gòu)設(shè)計(jì)原則,結(jié)合平臺(tái)的功能要點(diǎn),形成圖1所示的檔案信息資源共享平臺(tái)的大數(shù)據(jù)服務(wù)總體架構(gòu)。
檔案信息資源共享平臺(tái)的大數(shù)據(jù)服務(wù)總體架構(gòu)包含兩大平臺(tái)和三大角色。兩大平臺(tái),即普通Web管理平臺(tái)、移動(dòng)客戶(hù)端平臺(tái);三大角色,即管理員、普通用戶(hù)、授權(quán)用戶(hù)。平臺(tái)包含檔案信息資源輸入模塊、用戶(hù)及權(quán)限角色管理模塊、檔案信息資源檢索模塊、資源管理模塊、日志管理模塊、報(bào)表模塊,數(shù)據(jù)通過(guò)不同的途徑進(jìn)入系統(tǒng)之后,經(jīng)過(guò)平臺(tái)大數(shù)據(jù)分析引擎,將會(huì)輸出有價(jià)值的報(bào)表匯總與數(shù)據(jù)分析圖表。
2 平臺(tái)數(shù)據(jù)處理流程需求
在大數(shù)據(jù)時(shí)代,檔案信息資源共享平臺(tái)要達(dá)到提高服務(wù)效率、整合數(shù)據(jù)資源、延展信息內(nèi)容和滿(mǎn)足個(gè)性化需求的構(gòu)建目標(biāo)[4],平臺(tái)數(shù)據(jù)處理流程的優(yōu)化目標(biāo)實(shí)現(xiàn)顯得非常重要。檔案信息資源共享平臺(tái)大數(shù)據(jù)的特點(diǎn)包括:檔案信息資源數(shù)據(jù)量大、平臺(tái)訪問(wèn)速度要求高、檔案信息資源的表現(xiàn)形式多樣、檔案信息資源的真實(shí)與保密性。針對(duì)檔案信息資源共享平臺(tái)的數(shù)據(jù)處理流程主要包括以下幾個(gè)方面:
首先是檔案信息資源數(shù)據(jù)采集。搭建數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)采集的方式有用戶(hù)通過(guò)自身平臺(tái)的導(dǎo)入與錄入,平臺(tái)提供的對(duì)外接口進(jìn)行數(shù)據(jù)的處理并添加到目標(biāo)平臺(tái)數(shù)據(jù)庫(kù),通過(guò)爬蟲(chóng)程序?qū)νㄟ^(guò)授權(quán)的目標(biāo)檔案數(shù)據(jù)庫(kù)進(jìn)行檔案信息資源數(shù)據(jù)抓取,這一步數(shù)據(jù)處理流程會(huì)出現(xiàn)很多無(wú)用的檔案信息資源數(shù)據(jù)進(jìn)入平臺(tái)。
其次是數(shù)據(jù)清洗/預(yù)處理。這一步是要把進(jìn)入到平臺(tái)的數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,過(guò)濾掉沒(méi)有價(jià)值的檔案信息數(shù)據(jù)。
最后是對(duì)檔案信息數(shù)據(jù)進(jìn)行加工處理并對(duì)檔案信息數(shù)據(jù)進(jìn)行展現(xiàn)。這一步主要是將數(shù)據(jù)處理成利于平臺(tái)理解的數(shù)據(jù)形式,并通過(guò)合適的UI對(duì)外進(jìn)行展示,以便于對(duì)檔案信息資源更直觀地理解。
平臺(tái)數(shù)據(jù)處理的總體流程圖如圖2所示:
3 平臺(tái)數(shù)據(jù)處理的實(shí)現(xiàn)
檔案信息資源共享平臺(tái)在數(shù)據(jù)處理流程的實(shí)現(xiàn)上主要包括以下幾個(gè)模塊:平臺(tái)檔案信息檢索模塊、平臺(tái)日志與分析模塊、平臺(tái)數(shù)據(jù)存儲(chǔ)與分析模塊、可視化模塊以及對(duì)外開(kāi)放式服務(wù)。
3.1 平臺(tái)數(shù)據(jù)采集。檔案信息資源數(shù)據(jù)采集是平臺(tái)實(shí)現(xiàn)的第一個(gè)環(huán)節(jié)。它將通過(guò)傳統(tǒng)的互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于檔案信息數(shù)據(jù)來(lái)源多樣,加上平臺(tái)同時(shí)支持移動(dòng)客戶(hù)端,平臺(tái)會(huì)產(chǎn)生并發(fā)數(shù)據(jù)訪問(wèn)與操作,因此必須采用專(zhuān)門(mén)針對(duì)該平臺(tái)的數(shù)據(jù)采集方法,主要包括數(shù)據(jù)庫(kù)采集、網(wǎng)絡(luò)數(shù)據(jù)采集以及日志信息采集。對(duì)于數(shù)據(jù)庫(kù)采集,目前主流的技術(shù)是采用關(guān)系型數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)檔案信息資源數(shù)據(jù);對(duì)于網(wǎng)絡(luò)上的檔案信息資源數(shù)據(jù)采集一般以網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)的授權(quán)API等方式,從目標(biāo)檔案信息網(wǎng)站上獲取檔案信息數(shù)據(jù),這種方案得到的檔案信息數(shù)據(jù)一般是非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的HTML信息,需要通過(guò)正則表達(dá)式將其中的有效檔案信息數(shù)據(jù)提取出來(lái)并以結(jié)構(gòu)化的方式存儲(chǔ)到平臺(tái)所在的服務(wù)器;對(duì)于檔案日志信息數(shù)據(jù)的采集,可以采用Flume技術(shù),該技術(shù)可以用于高效地收集、聚合和移動(dòng)大量的日志數(shù)據(jù),它具有基于流式數(shù)據(jù)流的簡(jiǎn)單靈活的架構(gòu)。
檔案信息資源共享平臺(tái)在實(shí)際的利用過(guò)程中,會(huì)產(chǎn)生若干用戶(hù)行為相關(guān)的數(shù)據(jù),這些數(shù)據(jù)對(duì)于后期平臺(tái)的優(yōu)化至關(guān)重要,這就需要一個(gè)強(qiáng)大的日志分析功能。設(shè)計(jì)的架構(gòu)需要能夠滿(mǎn)足學(xué)習(xí)日志的收集與分析功能,針對(duì)Web環(huán)境中的學(xué)習(xí)環(huán)境服務(wù)器提供普適的學(xué)習(xí)分析數(shù)據(jù)匯聚接口,采用Hadoop Pig進(jìn)行大規(guī)模日志收集與分析。該模塊主要包括數(shù)據(jù)匯聚、分析和報(bào)表三大模塊,在數(shù)據(jù)匯聚模塊中應(yīng)用服務(wù)器接收來(lái)自不同模塊的檔案信息資源數(shù)據(jù),將接收數(shù)據(jù)過(guò)程中以及檔案信息資源利用過(guò)程中產(chǎn)生的日志信息發(fā)送給代理節(jié)點(diǎn),然后通過(guò)代理點(diǎn)將日志發(fā)送給Hadoop集群進(jìn)行分析,并將結(jié)果存儲(chǔ)到HBase數(shù)據(jù)庫(kù),從而為用戶(hù)提供日志查詢(xún)與利用服務(wù)。平臺(tái)日志與分析模塊的實(shí)現(xiàn)如圖3所示:
3.2 平臺(tái)數(shù)據(jù)預(yù)處理。通過(guò)檔案信息資源共享平臺(tái)采集流程中采集到的數(shù)據(jù)是不規(guī)則的,甚至有部分檔案信息數(shù)據(jù)是無(wú)效的。為了獲取高質(zhì)量的檔案信息數(shù)據(jù),就必須在數(shù)據(jù)準(zhǔn)備階段提高檔案信息數(shù)據(jù)的質(zhì)量。在平臺(tái)的預(yù)處理階段需要將無(wú)規(guī)則的檔案信息數(shù)據(jù)轉(zhuǎn)化為系統(tǒng)識(shí)別的結(jié)構(gòu)化數(shù)據(jù)類(lèi)型,有效的檔案信息資源數(shù)據(jù)是后期數(shù)據(jù)分析的基礎(chǔ)。檔案信息資源數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成及數(shù)據(jù)轉(zhuǎn)換三個(gè)方面[5]。數(shù)據(jù)清理主要包含干擾數(shù)據(jù)處理與不一致數(shù)據(jù)處理,對(duì)于數(shù)據(jù)清理可以采用ETL相關(guān)的工具,如Informatica、Datastage、OWB、微軟DTS等等;數(shù)據(jù)集成是將來(lái)自于不同平臺(tái)的數(shù)據(jù)合并存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)庫(kù)中,這里需要解決檔案信息資源數(shù)據(jù)冗余與沖突的問(wèn)題,對(duì)于數(shù)據(jù)集成,可以通過(guò)建立源檔案信息資源數(shù)據(jù)的集中庫(kù),通過(guò)百度自然學(xué)習(xí)語(yǔ)言模塊來(lái)分析其中的問(wèn)題點(diǎn),不斷積累知識(shí)庫(kù)的內(nèi)容以達(dá)到根據(jù)學(xué)習(xí)的知識(shí)庫(kù)自動(dòng)剔除冗余數(shù)據(jù)與沖突數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換主要是將檔案信息資源數(shù)據(jù)名稱(chēng)及格式進(jìn)行統(tǒng)一,同時(shí)需要將收集到的信息組合、分割或計(jì)算,以便于保證抽取到的數(shù)據(jù)的一致性。
3.3 平臺(tái)數(shù)據(jù)存儲(chǔ)及管理。檔案信息資源共享平臺(tái)需要建立適合平臺(tái)大數(shù)據(jù)的管理的數(shù)據(jù)庫(kù),以便于數(shù)據(jù)的管理與調(diào)用,目前常見(jiàn)的數(shù)據(jù)存儲(chǔ)技術(shù)有Hadoop與MPP兩種[6],Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱(chēng)HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序,Hadoop適用于海量數(shù)據(jù)、離線數(shù)據(jù)和負(fù)責(zé)數(shù)據(jù)[7];MPP(Massively Parallel Processor)即大規(guī)模并行處理,在數(shù)據(jù)庫(kù)非共享集群中,每個(gè)節(jié)點(diǎn)都有獨(dú)立的磁盤(pán)存儲(chǔ)系統(tǒng)和內(nèi)存系統(tǒng),業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫(kù)模型和應(yīng)用特點(diǎn)劃分到各個(gè)節(jié)點(diǎn)上,每臺(tái)數(shù)據(jù)節(jié)點(diǎn)通過(guò)專(zhuān)用網(wǎng)絡(luò)或者商業(yè)通用網(wǎng)絡(luò)互相連接,彼此協(xié)同計(jì)算,作為整體提供數(shù)據(jù)庫(kù)服務(wù)[8]。非共享數(shù)據(jù)庫(kù)集群有完全的可伸縮性、高可用、高性能、優(yōu)秀的性?xún)r(jià)比、資源共享等優(yōu)勢(shì)。
檔案信息資源共享平臺(tái)數(shù)據(jù)檢索模塊由三部分組成,首先是檔案信息資源數(shù)據(jù)的存儲(chǔ)與統(tǒng)計(jì)分析,這是平臺(tái)實(shí)現(xiàn)檢索功能的數(shù)據(jù)基礎(chǔ),這部分采用Hive技術(shù)實(shí)現(xiàn),其次是實(shí)際檢索信息的統(tǒng)計(jì)分析與計(jì)算,這部分通過(guò)MapReduce來(lái)實(shí)現(xiàn),最后是HDFS服務(wù)實(shí)際的數(shù)據(jù)存儲(chǔ)。具體的檢索模塊實(shí)現(xiàn)如圖4所示:
3.4 平臺(tái)數(shù)據(jù)分析及挖掘。檔案信息資源數(shù)據(jù)的分析與挖掘主要目的是把收集到的無(wú)規(guī)律的檔案信息數(shù)據(jù)進(jìn)行提煉,以找出潛在有用的信息和所研究對(duì)象的內(nèi)在規(guī)律的過(guò)程。主要從可視化分析、預(yù)測(cè)性分析、數(shù)據(jù)質(zhì)量管理幾個(gè)方面進(jìn)行著重分析。對(duì)于檔案信息資源可視化分析,主要是借助于圖形化手段,讓需要表現(xiàn)的信息更加清晰,這里可以借助于第三方圖標(biāo)分析插件,進(jìn)行數(shù)據(jù)展示,這樣可以讓平臺(tái)的數(shù)據(jù)信息簡(jiǎn)單明了、清晰直觀。對(duì)于檔案信息的預(yù)測(cè)性分析,應(yīng)該是該平臺(tái)最有價(jià)值的功能,包括檔案信息資源統(tǒng)計(jì)分析、檔案信息資源分析、優(yōu)化、智能學(xué)習(xí),通過(guò)平臺(tái)的預(yù)測(cè)分析可以為平臺(tái)提供有價(jià)值的建議信息;檔案信息資源數(shù)據(jù)質(zhì)量管理是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用到消亡生命周期的每個(gè)階段里可能引發(fā)的各類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高[9]。
*本文系2016年度教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目《大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)構(gòu)建的研究》(項(xiàng)目編號(hào):16YJA870001)資助。
參考文獻(xiàn):
[1]卞咸杰.大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)前端框架的構(gòu)建[J].檔案與建設(shè),2017(10):11-15.
[2]卞咸杰.大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)性能優(yōu)化的研究[J].檔案管理,2016(6):17-20.
[3]HA Alzoubi,S Lee,M Rabinovich,O Spatscheck,VDMJacobus.A Practical Architecture for an Anycast CDN[J].AcmTransactions on the Web.2011, 5(4):2209-2220
[4]王琦.大數(shù)據(jù)環(huán)境下開(kāi)放信息資源共享平臺(tái)構(gòu)建研究[J].信息與電腦(理論版),2018(10):12-13.
[5]衣連明.云計(jì)算在證券行業(yè)應(yīng)用的關(guān)鍵驅(qū)動(dòng)因素研究——基于A證券公司的案例分析[D].北京郵電大學(xué),2012.
[6]楊璇.海量旅游統(tǒng)計(jì)數(shù)據(jù)可視化的研究與應(yīng)用[D].武漢郵電科學(xué)研究院,2018.
[7]王永康.Azure云平臺(tái)對(duì)Twitter推文關(guān)鍵字實(shí)時(shí)大數(shù)據(jù)分析[J].電腦編程技巧與維護(hù),2015(12):68-72.
[8]沈?yàn)],張倩.大數(shù)據(jù)關(guān)鍵技術(shù)專(zhuān)利態(tài)勢(shì)研究[J].電信網(wǎng)技術(shù),2017(3):43-49.
[9]張凱,潘建宏,徐峰,樊家樹(shù).數(shù)據(jù)資產(chǎn)管理與監(jiān)測(cè)技術(shù)的處理及分析[J].科技經(jīng)濟(jì)導(dǎo)刊,2018,26(7):39-40.
(作者單位:鹽城師范學(xué)院 來(lái)稿日期:2018-08-20)