張倩
【摘要】本文結(jié)合高校檔案信息化建設的發(fā)展需要和現(xiàn)實條件,通過選擇平臺的開發(fā)目標,構(gòu)建“云風格”的開發(fā)與應用環(huán)境,并組合應用大數(shù)據(jù)“掘金”工具來構(gòu)建平臺的應用系統(tǒng)與功能模塊,提出初步研究的設計重點與部署建議。
【關鍵詞】高校檔案;大數(shù)據(jù);云平臺
數(shù)據(jù)專家認為,在大數(shù)據(jù)戰(zhàn)略從頂層設計到底層實現(xiàn)的“落地”過程中,治理是基礎,技術是承載,分析是手段,應用是目的。這一見解給我們的啟示是:創(chuàng)建高校檔案大數(shù)據(jù)云平臺,是現(xiàn)代高校建設所需的重大信息化工程,具有非常重要的戰(zhàn)略意義,必須厘清發(fā)展思路、明確發(fā)展目標、找準發(fā)展定位,不僅要高度注重做好檔案大數(shù)據(jù)在線上與線下無縫對接應用策略的統(tǒng)籌規(guī)劃與科學部署,而且要慎重選擇平臺承載檔案信息數(shù)據(jù)管理、控制與服務等不同功能模塊的技術設計方案。本文結(jié)合高校檔案信息化建設的發(fā)展需要和現(xiàn)實條件,對構(gòu)建高校檔案大數(shù)據(jù)云平臺,提出初步研究的設計重點與部署建議。
一、選擇平臺開發(fā)目標
鑒于現(xiàn)階段各高校檔案管理機構(gòu)的基礎條件存在著較大的差異,因此我們認為,借鑒管理學大師Peter Drucker提出的“SMART”(目標管理)原則,對選擇高校檔案大數(shù)據(jù)云平臺的開發(fā)目標,具有非常重要的參考價值。
所謂“SMART”原則的涵義是指:S=Specific(明確性),即:應當制定明確的建設目標與行為標準;M=Measurable(衡量性),即:對項目建設的目標任務應當制定綜合評價指標體系及其評價方法,做到目標任務指標化、指標內(nèi)容量值化、量值性態(tài)權(quán)重化、權(quán)重構(gòu)成層級化;A=Attainable(可實現(xiàn)性),即:建設目標的規(guī)劃部署與實施措施,應當充分論證其必要性、可行性與靈活性,既要注重長遠目標與階段性目標的有機銜接,又要確保具體措施的可操作性;Relevant(相關性),即:注重分析評估建設目標與其他關聯(lián)事項的支持度、可信度與提升度。支持度是指:可分析關聯(lián)檔案借閱人數(shù)占總?cè)藬?shù)的比例及其用戶同時借閱A和B檔案的百分比;可信度是指:可分析出用戶在借閱了一份檔案之后,是否借閱另外一份檔案的可能性;提升度是指:可分析用戶在已借閱A檔案這個條件下借閱 B檔案的可能性與沒有這個條件下借閱 B檔案的可能性之比。T=Time-bound
(時限性),即:應當對項目建設任務制定明確的時間考核目標,既要將財力、物力、人力的投入成本與項目質(zhì)量作為績效評價內(nèi)容,也要把建設任務的時間期限作為績效評價內(nèi)容。
通過深入研究可以發(fā)現(xiàn),“SMART”原則不僅有助于科學確立高校檔案大數(shù)據(jù)云平臺的開發(fā)目標,而且可作為制定績效考核指標內(nèi)容與標準值的科學評估方法,確保做到項目建設的成本投入有據(jù)可依,技術措施的遴選評估有章可循,績效優(yōu)劣的風險應對有招可控。
二、構(gòu)建“云風格”開發(fā)與應用環(huán)境
應當看到,高校檔案大數(shù)據(jù)本身就是一個“問題集”,對開發(fā)環(huán)境和應用環(huán)境均具有較高的技術要求。徐繼華等學者指出,構(gòu)建一套大數(shù)據(jù)系統(tǒng)需滿足三個必備條件:天上有云
(云平臺),地上有網(wǎng)(物聯(lián)網(wǎng)、泛在網(wǎng)),中間有數(shù)(數(shù)據(jù))。
經(jīng)考察評估,我們認為,具有“云風格”的大數(shù)據(jù)處理平臺,是解決目前檔案大數(shù)據(jù)諸多問題和矛盾的有效手段。涵蓋IaaS、PaaS和SaaS的三種云計算模式,是當前具有完整生命周期閉環(huán)的“云服務”,這對既需盤活大數(shù)據(jù)又想節(jié)約成本的高校檔案管理機構(gòu)而言,無疑是非常理想的選擇。
(一)選用符合自身需求的云服務產(chǎn)品。借助云技術高校檔案管理機構(gòu)可以忽略預測分析手段的所有技術方面的困惑,聚焦于如何更好地領會定量分析,使用戶能夠成為更富有經(jīng)驗的數(shù)據(jù)消費者。借用哈佛大學孟曉力教授的話來說就是:你不需要先成為一名釀酒師才能欣賞酒。因此,高校檔案管理機構(gòu)可通過第三方“數(shù)據(jù)中間人”的技術支持,來構(gòu)建“高校檔案大數(shù)據(jù)云”。據(jù)市場調(diào)研發(fā)現(xiàn),中國版的云服務“QS認證”已在國內(nèi)市場面世,就是“可信云服務認證”(TRUCS),它是基于國外先進經(jīng)驗和本土市場特殊性專門針對云服務可信性的權(quán)威認證體系(目前是我國唯一針對云服務的權(quán)威認證體系),可提供云主機服務、云對象存儲服務、云數(shù)據(jù)庫服務、云引擎服務和云塊存儲服務5類基于云計算技術的35項云服務。2014年已有19家云服務商成為首批通過國家云服務權(quán)威認證體系認證的成員,這意味著中國云服務正式邁向“領證”時代,從而打破了“云服務商無上崗證”的局面??尚旁品照J證工作,以專業(yè)和信譽為云服務安全“背書”,化解了推廣高校檔案云服務的最大障礙。目前,鑒于所有的云服務均為開源提供,高校檔案管理機構(gòu)可在購買之前進行試用,以利找到符合自己校情發(fā)展所需的大數(shù)據(jù)服務產(chǎn)品與應用方案。若需了解云服務的相關參考標準,只要登陸可信云官網(wǎng)(www.dca.org.cn),就能便捷地查看通過認證廠商的各項技術指標,并根據(jù)這些評估認證結(jié)果來選擇優(yōu)質(zhì)的云服務提供商,進而推動“高校檔案大數(shù)據(jù)云”的順利建設。需要指出的是:“可信云服務認證”目前尚存在一定的局限性。例如,認證實現(xiàn)的只是云主機和PaaS的服務監(jiān)測,更多類型的服務還有待于擴展。但我們相信,隨著可信云服務等云計算認證市場機制的完善和云服務商能力的提升,云服務產(chǎn)品的安全性和穩(wěn)定性將越來越高。
(二)評估云項目的投資回報率。云項目投入能給高校信息化建設帶來什么回報,這是決策者在作投入決策時應當關心的事情。但遺憾的是,不少高校檔案管理者在被校領導追問IT投資的效益時,一般只能籠統(tǒng)地以提高檔案管理效率、提高用戶滿意度等模糊的回答來搪塞,且只能以檔案管理方面的投資回報是難量化的、長期的等理由作為托詞。對此,我們認為,評價云項目投資回報率既是項目立項的科學依據(jù),也是檢驗項目運作績效的重要手段。所謂“云項目投資回報率”(ROI,Return on Investment),是指通過投資而應返回的價值。即:把資金、時間或精力等資源投入到云項目建設中后,期望其對構(gòu)建高校檔案大數(shù)據(jù)云平臺能夠獲得令人滿意的績效。所謂“ROI定量效益”,是指可以數(shù)量化的效益,如庫存占用比、盤點誤差率、采購成本比等。所謂“ROI定性效益”,是指非數(shù)量化的定性指標,如用戶忠誠度或高校檔案館(室)形象的提升、管理流程的規(guī)范化等。由此可見,高校檔案管理機構(gòu)通過開展ROI的績效評估,不僅可為優(yōu)化資源配置、提高資產(chǎn)利用效率等降本增效措施提供精準依據(jù),而且對改善和提升自身形象具有積極的推動作用。
三、組合應用大數(shù)據(jù)“掘金”工具
當前,大數(shù)據(jù)處理技術層出不窮,如IBM的IBMPower大數(shù)據(jù)和分析應用系統(tǒng)、Intel的Spark開源集群計算環(huán)境、華為的OceanStor 9000大數(shù)據(jù)存儲系統(tǒng),等等。一些學者預言:大數(shù)據(jù)時代將沒有通用的底層平臺產(chǎn)品,而只有符合創(chuàng)新應用需求和全數(shù)據(jù)處理的大數(shù)據(jù)基礎架構(gòu)。面對大數(shù)據(jù)技術應用這種遍地開花之勢,高校檔案管理機構(gòu)應當根據(jù)自身的應用需求,慎重選擇成熟廠商的大數(shù)據(jù)技術產(chǎn)品及應用方案完善非結(jié)構(gòu)化檔案信息數(shù)據(jù)“存儲、分析、開發(fā)、利用”的一體化集成運作機制。
(一)ODPS的應用功能(阿里云開放數(shù)據(jù)處理服務)。鑒于傳統(tǒng)的IT構(gòu)建方案起步門檻太高,中小型高校檔案管理機構(gòu)多數(shù)因難以承受其巨額投資而受阻,但阿里云ODPS服務面世后,現(xiàn)只需花幾百元就可獲得從海量數(shù)據(jù)中“掘金”的功能。
“阿里云開放數(shù)據(jù)處理服務”(ODPS),是構(gòu)建在大規(guī)模分布式計算系統(tǒng)上的一種海量數(shù)據(jù)處理技術,其以REST API的形式支持描述性查詢語言SQL的數(shù)據(jù)處理,適用于海量數(shù)據(jù)統(tǒng)計、數(shù)據(jù)模型、數(shù)據(jù)挖掘等諸多互聯(lián)網(wǎng)應用。目前,高校檔案管理機構(gòu)若需應用這項服務技術,只要登錄阿里云官網(wǎng)就可直接申請開通ODPS。ODPS應用現(xiàn)采取按流量收費的商業(yè)模式,其現(xiàn)行定價為0.3元/GB,即開即用,一個月內(nèi)免費。經(jīng)考察和測算,我們認為,ODPS應用所需的這一成本,對中小型高校檔案管理機構(gòu)而言,不僅是絕對用得起的,而且一下子就可讓“高大上”的大數(shù)據(jù)分析應用技術接上地氣。
(二)Amazon EMR的應用功能(亞馬遜大數(shù)據(jù)分析云服務)。
Amazon EMR(Amazon Elastic MapReduce)是亞馬遜提供的大數(shù)據(jù)分析云服務。這種商業(yè)化的Hadoop基礎設施服務,它所提供的分布式計算能力,能夠讓高校檔案管理者方便地根據(jù)自身需求來處理和分析海量數(shù)據(jù),完成Web索引、數(shù)據(jù)挖掘、日志文件分析、機器學習、信息研究等智能處理任務。需要指出的是,這些Web服務的集成,目前大多需要支付單獨的使用費用。從EMR目前的市場定價來看,基本上是按照計算時間來付費的,應用項目的具體價格可在官網(wǎng)查詢,檔案部門可按需定購。
(三)BigQuery的應用功能(谷歌大數(shù)據(jù)分析云服務)。
BigQuery是谷歌基于Dremel和Hadoop集群所提供的大數(shù)據(jù)分析云服務。用戶可將自己的大數(shù)據(jù)集上傳給谷歌的存儲器,開發(fā)者可使用BigQuery來運行SQL語句,對大數(shù)據(jù)集進行查詢和交互式分析。此外,用戶不但能將BigQuery用于自身的業(yè)務分析,還能在其基礎上開發(fā)對外的商業(yè)大數(shù)據(jù)分析服務。例如,大型高校檔案管理機構(gòu)可采用BigQuery,向中小型檔案館
(室)提供大數(shù)據(jù)分析服務。
四、構(gòu)建平臺的應用系統(tǒng)與功能模塊
高校檔案大數(shù)據(jù)云平臺設計的終極目標是“應用”,無論是平臺建設規(guī)劃與實施策略的制訂,還是IT技術產(chǎn)品與服務的選擇,都必須緊扣“應用”之需進行統(tǒng)籌謀劃與部署。通過調(diào)研考察發(fā)現(xiàn),采用垂直整合、提供“平臺+應用”的一體化設計方案,不僅是開發(fā)建設高校檔案大數(shù)據(jù)云平臺的明智選擇,而且將成為創(chuàng)建高校智慧檔案館(室)的必由之路。
垂直整合、提供“平臺+應用”的一體化設計方案,能夠?qū)⑷舾蓸O具可行的切入點作為平臺構(gòu)建的組成部分,并讓這些子系統(tǒng)集成在一起形成一個高校檔案大數(shù)據(jù)云平臺,為高校檔案大數(shù)據(jù)開發(fā)和應用提供強有力的技術支撐。該平臺主要包含三層結(jié)構(gòu),不僅每個系統(tǒng)可下設不同的功能模塊,而且功能模塊可設計成“輕應用”(LAPP,Light App)的形式。即:所有應用都鑲嵌在網(wǎng)頁中,用戶無需下載安裝任何程序。采用這種“即搜即用”的全功能APP,用戶通過網(wǎng)頁可直接完成各項交互性的工作。 高校檔案大數(shù)據(jù)云平臺構(gòu)架圖如下:
在該平臺構(gòu)建過程中,有以下幾個關鍵點需要特別注意:一是要高度重視高校檔案大數(shù)據(jù)資源的優(yōu)化集成。對館藏現(xiàn)有的“小數(shù)據(jù)”進行轉(zhuǎn)型升級,不僅要為其搭建整理、挖掘、分析等各方面應用的融合協(xié)作平臺,而且要采取“滾雪球”方式不斷健全和優(yōu)化檔案信息的大數(shù)據(jù)資源集成庫。二是要著力打造高校檔案大數(shù)據(jù)資源的精加工車間。通過不斷整合優(yōu)化內(nèi)外部檔案信息資源的數(shù)據(jù)構(gòu)架,努力將“核心資源數(shù)據(jù)庫”打造成“精加工車間”,使之能夠盡快投入到高校檔案大數(shù)據(jù)云平臺的實際運營之中去。三是要注重收集社會化、非結(jié)構(gòu)化的檔案大數(shù)據(jù)資源。大數(shù)據(jù)具有明顯的社會化(Socialization of data)特征。因此,建立匯聚社會化、非結(jié)構(gòu)化的高校檔案信息大數(shù)據(jù)資源知識庫已是當務之急。平臺構(gòu)建時需建立社會化媒體信息大數(shù)據(jù)擴展數(shù)據(jù)庫,并將它作為高校檔案館藏大數(shù)據(jù)資源的有益補充。
【參考文獻】
[1][美]朱迪絲·S.赫爾維茨.寫給大家看的大數(shù)據(jù)[M].北京:人民郵電出版社,2014:206.
[2]徐繼華等.智慧政府大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014:182.
[3][美]Lawrence S.Maisel等.大數(shù)據(jù)預測分析:決策優(yōu)化與績效提升[M].北京:人民郵電出版社,2014.
[4]孫藝娟,大數(shù)據(jù)推動IT基礎架構(gòu)的創(chuàng)新[N].計算機世界, 2014-1-20.