王毅+李晶偉
摘 要:隨著大數(shù)據(jù)研究逐漸深入,企業(yè)創(chuàng)新決策越來越依賴于數(shù)據(jù)分析,而企業(yè)檔案數(shù)據(jù)資源為企業(yè)這一決策提供了數(shù)據(jù)基礎(chǔ)。因此,在此背景下企業(yè)檔案管理中運(yùn)用大數(shù)據(jù)分析方法具有重要性意義。本文詳細(xì)的闡述了數(shù)據(jù)質(zhì)量管理、可視化分析、語義引擎、數(shù)據(jù)挖掘、趨勢預(yù)測分析等五種大數(shù)據(jù)分析方法在企業(yè)檔案管理中的應(yīng)用及注意問題。
關(guān)鍵詞:大數(shù)據(jù)分析方法;企業(yè)檔案管理;檔案數(shù)據(jù)資源;企業(yè)創(chuàng)新決策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprises these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我國政府發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,旨在促進(jìn)大數(shù)據(jù)和云計(jì)算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新一代信息技術(shù)的融合,探索大數(shù)據(jù)和傳統(tǒng)產(chǎn)業(yè)發(fā)展新模式,推動傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級和新興產(chǎn)業(yè)發(fā)展。正如大數(shù)據(jù)專家舍恩伯格所說:大數(shù)據(jù)正在改變?nèi)藗兊纳詈腿藗兝斫馐澜绲姆绞?,更多的變化正蓄勢待發(fā),大數(shù)據(jù)管理分析思維和方法也開始影響到我們企業(yè)檔案管理的發(fā)展趨勢。
1 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的背景
1.1 大數(shù)據(jù)研究逐漸縱深化。自從2008年science雜志推出Big Data??詠?,國內(nèi)外對大數(shù)據(jù)的研究如火如荼。經(jīng)過一段時間的探索,“目前大數(shù)據(jù)領(lǐng)域的研究大致可以分為4個方向:大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)工程。而人們對于大數(shù)據(jù)技術(shù)和應(yīng)用兩個方面的關(guān)注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動 “大數(shù)據(jù)研究和發(fā)展計(jì)劃”的目標(biāo)所顯示的那樣,目前大數(shù)據(jù)的研究逐漸向縱深化方向發(fā)展,著重從大型復(fù)雜的數(shù)據(jù)中提取知識和觀點(diǎn),幫助企業(yè)實(shí)現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢”的轉(zhuǎn)化。
1.2 企業(yè)創(chuàng)新決策越來越依賴于數(shù)據(jù)分析。對于企業(yè)技術(shù)創(chuàng)新者而言,目前更多的企業(yè)高層越來越依靠基于數(shù)據(jù)分析的企業(yè)技術(shù)創(chuàng)新決策。靠傳統(tǒng)的經(jīng)驗(yàn)方法去決策往往是滯后的,因此,大數(shù)據(jù)分析方法作為先進(jìn)的定量分析方法,目前出現(xiàn)的一些先進(jìn)數(shù)據(jù)分析方法與技術(shù)勢必會對企業(yè)的運(yùn)行管理、生產(chǎn)業(yè)務(wù)流程、管理決策產(chǎn)生飛躍式的影響。大數(shù)據(jù)分析方法也成為企業(yè)檔案數(shù)據(jù)分析、技術(shù)創(chuàng)新決策的有效工具。
1.3 企業(yè)檔案為企業(yè)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)。對于一個企業(yè)而言,使用的數(shù)據(jù)資源必須具有真實(shí)性可靠性。“企業(yè)檔案是在企業(yè)的各項(xiàng)活動中直接形成并保存?zhèn)洳榈母鞣N文獻(xiàn)載體形式的歷史記錄”[2],企業(yè)檔案是企業(yè)在生產(chǎn)、經(jīng)營、管理等活動中形成的全部有用數(shù)據(jù)的總和。除了發(fā)揮著憑證參考維護(hù)歷史真實(shí)面貌的作用之外,企業(yè)檔案更“是企業(yè)知識資產(chǎn)和信息資源的重要組成部分”[3],具有知識創(chuàng)新性、不可替代性,為企業(yè)技術(shù)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)?!疤貏e是在當(dāng)前大數(shù)據(jù)背景下,企業(yè)檔案數(shù)據(jù)資源的開發(fā)與建設(shè)對企業(yè)經(jīng)營決策的制定與適應(yīng)市場競爭環(huán)境起到關(guān)鍵性作用。”[4]
在上述背景下,將大數(shù)據(jù)分析方法應(yīng)用在企業(yè)檔案管理中具有重要性意義:不僅拓展企業(yè)的管理決策理論,同時幫助企業(yè)運(yùn)用所擁有的檔案數(shù)據(jù)資源洞察市場環(huán)境,發(fā)現(xiàn)新的競爭對手,進(jìn)行自我總結(jié),做出科學(xué)決策,使企業(yè)緊緊抓住大數(shù)據(jù)時代帶來的市場機(jī)遇。
2 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的方式
大數(shù)據(jù)分析方法在企業(yè)檔案管理中的實(shí)現(xiàn)方式即是將大數(shù)據(jù)分析方法運(yùn)用在企業(yè)檔案信息分析挖掘上。它貫穿企業(yè)數(shù)據(jù)處理的整個過程,遵循數(shù)據(jù)生命周期,廣泛收集數(shù)據(jù)進(jìn)行存儲,并對數(shù)據(jù)進(jìn)行格式化預(yù)處理,采用數(shù)據(jù)分析模型,依托強(qiáng)大的運(yùn)行分析算法支撐數(shù)據(jù)平臺,發(fā)掘潛在價值和規(guī)律并進(jìn)行呈現(xiàn)的過程。常見的大數(shù)據(jù)分析方法“其相關(guān)內(nèi)容包括可視化分析、數(shù)據(jù)挖掘、預(yù)測分析、語義分析及數(shù)據(jù)質(zhì)量管理”[5]。
2.1 數(shù)據(jù)質(zhì)量管理提升企業(yè)檔案數(shù)據(jù)資源品質(zhì)。大數(shù)據(jù)時代企業(yè)檔案數(shù)據(jù)資源呈現(xiàn)出4V特點(diǎn),這使得企業(yè)檔案數(shù)據(jù)很容易出現(xiàn)不一致、不精確、不完整、過時等數(shù)據(jù)質(zhì)量問題?;跀?shù)據(jù)生命周期對企業(yè)檔案數(shù)據(jù)資源進(jìn)行數(shù)據(jù)質(zhì)量管理分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)使用三個階段。在數(shù)據(jù)預(yù)處理階段,通過ETL工具即數(shù)據(jù)經(jīng)過萃?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)至目的端這幾個預(yù)處理過程達(dá)到數(shù)據(jù)清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見的ETL工具。在數(shù)據(jù)存儲與使用階段,針對目前企業(yè)檔案大數(shù)據(jù)呈現(xiàn)出4V的特點(diǎn),傳統(tǒng)關(guān)系型數(shù)據(jù)庫在數(shù)據(jù)存儲與數(shù)據(jù)管理方面已經(jīng)難以勝任,非關(guān)系型數(shù)據(jù)庫以其高吞吐量、可拓展性、高并發(fā)讀寫、實(shí)時性等特性能夠滿足數(shù)據(jù)存儲與管理的要求。目前應(yīng)用最廣的是并行處理系統(tǒng)MapReduce和非關(guān)系型數(shù)據(jù)庫比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計(jì)算平臺系統(tǒng),將會大大有助于完成數(shù)據(jù)清洗、重復(fù)對象檢測、缺失數(shù)據(jù)處理、異常數(shù)據(jù)檢測、邏輯錯誤檢測、不一致數(shù)據(jù)處理等數(shù)據(jù)質(zhì)量處理過程,從而保證企業(yè)檔案數(shù)據(jù)資源的數(shù)據(jù)質(zhì)量。
2.2 可視化分析提升企業(yè)檔案數(shù)據(jù)資源可理解性。
“大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力?!盵6]那么企業(yè)檔案數(shù)據(jù)資源的可視化分析可以理解為借助可視化工具把企業(yè)檔案數(shù)據(jù)資源轉(zhuǎn)化成直觀、可視、交互形式(如表格、動畫、聲音、文本、視頻、圖形等)的過程,便于企業(yè)經(jīng)營者的理解利用。
以2015年2月15日最新版的“百度遷徙”(全稱“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”)為例,該項(xiàng)目讓我們近距離了解到大數(shù)據(jù)可視化。它利用百度后臺每天數(shù)十億次的LBS定位獲得的數(shù)據(jù)進(jìn)行計(jì)算分析,全程展現(xiàn)中國人口遷徙軌跡,為政府部門科學(xué)決策提供科學(xué)依據(jù)。受該項(xiàng)目啟發(fā),企業(yè)可將擁有不同類型的檔案信息進(jìn)行可視化,比如進(jìn)行企業(yè)檔案的網(wǎng)絡(luò)數(shù)據(jù)可視化、時空數(shù)據(jù)可視化、時間序列數(shù)據(jù)可視化、多維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化等[7]。以文本數(shù)據(jù)可視化為例,目前典型的文本可視化技術(shù)標(biāo)簽云,可以將檔案文本中蘊(yùn)含的主題聚類、邏輯結(jié)構(gòu)、詞頻與重要度、動態(tài)演化規(guī)律直觀展示出來,為企業(yè)決策提供依據(jù)。另外,常見的信息圖表類可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時間線類可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數(shù)據(jù)地圖類可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術(shù)都為企業(yè)檔案數(shù)據(jù)資源可視化提供了科學(xué)工具。
2.3 語義引擎實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的智能提取。大數(shù)據(jù)時代全球數(shù)據(jù)存儲量呈激增趨勢,傳統(tǒng)的基于人工分類目錄或關(guān)鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進(jìn)行簡單的關(guān)鍵詞匹配,用戶無法得到非常準(zhǔn)確的信息,檢索準(zhǔn)確率并不高,而且檢索結(jié)果相關(guān)度較低,檢索結(jié)果缺乏引導(dǎo)性。為提供給用戶高質(zhì)量的檢索結(jié)果,改善用戶搜索體驗(yàn),提高效率,實(shí)現(xiàn)智能提取,語義搜索引擎應(yīng)運(yùn)而生。“語義引擎是隨著語義網(wǎng)的發(fā)展,采用語義網(wǎng)的語義推理技術(shù)實(shí)現(xiàn)語義搜索的語義搜索引擎?!盵8]它具備從語義理解的角度分析檢索者的檢索請求,能夠理解檢索者的真正意圖,實(shí)現(xiàn)信息智能提取。對語義分析可以采取自然語言處理方法進(jìn)行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語。目前存在基于本體的語義處理技術(shù),它以本體庫作為語義搜索引擎理解和運(yùn)用語義的基礎(chǔ)。對于企業(yè)而言,將語義引擎分析方法與協(xié)同過濾關(guān)聯(lián)規(guī)則相結(jié)合,可以挖掘用戶的需求,提供個性化的服務(wù)。比如亞馬遜公司通過對用戶檢索的語義進(jìn)行分析推理,結(jié)合協(xié)同過濾關(guān)聯(lián)規(guī)則,為用戶提供相近需求的產(chǎn)品,提升自己的經(jīng)濟(jì)效益。對于一份人事檔案而言,語義引擎也能分析出該份人事檔案中的某人的職務(wù)、級別,從中提取出姓名一職務(wù)一級別一時間等關(guān)鍵信息,提高檢索準(zhǔn)確率和效率,實(shí)現(xiàn)智能提取。
2.4 數(shù)據(jù)挖掘發(fā)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的隱性價值?!皵?shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)”[9]。簡而言之,數(shù)據(jù)挖掘就是企業(yè)從數(shù)據(jù)集中發(fā)現(xiàn)知識模式,根據(jù)功能一般分為預(yù)測性模式和描述性模式,細(xì)分主要有分類與回歸模型、聚類分析模型、關(guān)聯(lián)規(guī)則模型、時間序列模型、偏差檢測模型等。主要挖掘方法有神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法數(shù)據(jù)庫方法和統(tǒng)計(jì)方法等。
數(shù)據(jù)挖掘是大數(shù)據(jù)分析方法的核心。對于企業(yè)而言,數(shù)據(jù)挖掘的檔案數(shù)據(jù)資源應(yīng)該由兩部分組成:一是企業(yè)正常運(yùn)行管理過程中所形成的檔案數(shù)據(jù)資源,通過運(yùn)用分類、聚類、關(guān)聯(lián)規(guī)則等方法對企業(yè)內(nèi)部的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)潛在模式,為企業(yè)技術(shù)創(chuàng)新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費(fèi)數(shù)據(jù)時,發(fā)現(xiàn)每次季節(jié)性颶風(fēng)來臨之前,手電筒和蛋撻的數(shù)量全部增加。根據(jù)這一關(guān)聯(lián)發(fā)現(xiàn),沃爾瑪公司會在颶風(fēng)用品的旁邊放上蛋撻,提升了企業(yè)的經(jīng)濟(jì)效益;二是企業(yè)在運(yùn)行過程中遺存在互聯(lián)網(wǎng)上的數(shù)據(jù),通過網(wǎng)絡(luò)輿情及時跟蹤可以獲取市場最新動態(tài),為企業(yè)調(diào)整服務(wù)模式、市場策略、降低風(fēng)險提供依據(jù)。比如Farecast公司運(yùn)用數(shù)據(jù)挖掘,從網(wǎng)絡(luò)抓取數(shù)據(jù)來預(yù)測機(jī)票價格以及未來發(fā)展趨勢,幫助客戶把握最佳購買時機(jī),獲得較大成功。
2.5 趨勢預(yù)測分析實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的價值創(chuàng)造?!邦A(yù)測分析是利用統(tǒng)計(jì)、建模、數(shù)據(jù)挖掘工具對已有數(shù)據(jù)進(jìn)行研究以完成預(yù)測。”[10]預(yù)測分析的方法分為定性與定量分析兩種方法:定性分析如德爾菲法以及近年來人工智能產(chǎn)生的Boos-ting·貝葉斯網(wǎng)絡(luò)法等;定量分析法一般從形成的歷史數(shù)據(jù)中發(fā)掘數(shù)據(jù)模型達(dá)到預(yù)測效果,如時間序列分析模型、分類與回歸分析模型等。
企業(yè)檔案數(shù)據(jù)資源預(yù)測分析是在企業(yè)檔案數(shù)據(jù)資源數(shù)據(jù)挖掘的基礎(chǔ)之上,發(fā)現(xiàn)適合模型,將企業(yè)檔案數(shù)據(jù)輸入該模型使得企業(yè)技術(shù)創(chuàng)新人員達(dá)到預(yù)測性的判斷效果,實(shí)現(xiàn)價值的創(chuàng)造。一個典型的例子即是市場預(yù)測問題,企業(yè)技術(shù)創(chuàng)新者可以根據(jù)檔案數(shù)據(jù)預(yù)測某件產(chǎn)品在未來六個月內(nèi)的銷售趨勢走向,進(jìn)而進(jìn)行生產(chǎn)、物流、營銷等活動安排。具體來講企業(yè)可以通過數(shù)據(jù)時間序列分析模型預(yù)測產(chǎn)品銷售旺季和淡季顧客的需求量,從而制定針對獨(dú)特的營銷策略,減少生產(chǎn)和銷售的波動性,獲得利潤和競爭優(yōu)勢。預(yù)測分析在大數(shù)據(jù)時代彰顯出企業(yè)檔案數(shù)據(jù)資源獨(dú)特的魅力。
3 大數(shù)據(jù)分析方法運(yùn)用于企業(yè)檔案管理中應(yīng)當(dāng)注意的問題
3.1 成本問題。大數(shù)據(jù)分析需要依靠分析工具和運(yùn)算時間,特別是在復(fù)雜的企業(yè)檔案數(shù)據(jù)資源中采用相關(guān)大數(shù)據(jù)分析工具的科技成本還是很高的,要以最少運(yùn)算成本獲得更有價值的數(shù)據(jù)內(nèi)容。合理選擇大數(shù)據(jù)分析工具不光可以節(jié)省運(yùn)算成本而且能夠更快速獲取盈利增長點(diǎn),同時在大數(shù)據(jù)分析和企業(yè)檔案數(shù)據(jù)資源的存儲成本方面也要適當(dāng)?shù)目刂圃诤侠淼姆秶鷥?nèi)。既要保證大數(shù)據(jù)分析質(zhì)量,又要降低企業(yè)檔案存儲成本是大數(shù)據(jù)分析方法運(yùn)用到企業(yè)檔案管理中的重要原則。
3.2 時效問題?!按髷?shù)據(jù)的動態(tài)性強(qiáng),要求分析處理應(yīng)快速響應(yīng),在動態(tài)變化的環(huán)境中快速完成分析過程,有些甚至必須實(shí)時分析,否則這些結(jié)果可能就是過時、無效的”。[11]由此可見,影響大數(shù)據(jù)分析的重要因素就是時效性問題?!按髷?shù)據(jù)數(shù)據(jù)分析的核心內(nèi)容之一是數(shù)據(jù)建模”,[12]數(shù)據(jù)分析模型要不斷的更新適應(yīng)數(shù)據(jù)的動態(tài)變化。如果模型落后于數(shù)據(jù)的變化,那數(shù)據(jù)分析只能是失效的。同時由于經(jīng)濟(jì)環(huán)境、政治生態(tài)、社會文化等因素不斷變革,企業(yè)檔案數(shù)據(jù)的收集也會產(chǎn)生新的問題。只有不斷加強(qiáng)對這些數(shù)據(jù)的實(shí)時監(jiān)測和有效分析,才能更好的識別出數(shù)據(jù)變化中的細(xì)微之處,建立與之相適應(yīng)的數(shù)據(jù)分析新模型。
3.3 情感問題?!按髷?shù)據(jù)的另一個局限性在于它很難表現(xiàn)和描述用戶的感情?!贝髷?shù)據(jù)分析方法在處理企業(yè)檔案數(shù)據(jù)方面可以說如魚得水,大數(shù)據(jù)分析是一種科學(xué)的機(jī)器運(yùn)算方法,無法去實(shí)現(xiàn)人文價值提取,比如如何從企業(yè)檔案數(shù)據(jù)資源中提取企業(yè)文化,這更需要人的情感直覺去實(shí)現(xiàn),而嚴(yán)謹(jǐn)?shù)目茖W(xué)數(shù)據(jù)是無法實(shí)現(xiàn)的。因此,我們在熱衷于大數(shù)據(jù)分析方法的量化結(jié)果時,同時也不要忽略在傳統(tǒng)企業(yè)檔案管理中的那份人文精神。
總之,大數(shù)據(jù)時代環(huán)境下,在企業(yè)檔案數(shù)據(jù)資源開發(fā)利用中應(yīng)用大數(shù)據(jù)分析方法具有重要意義和多種方式。通過大數(shù)據(jù)分析方法的應(yīng)用,可以幫助企業(yè)創(chuàng)新管理者從所擁有的海量檔案數(shù)據(jù)中提取有用的知識和觀點(diǎn),發(fā)掘隱藏在信息背后潛在的規(guī)律模式,推動企業(yè)管理優(yōu)化,決策科學(xué),提升自身技術(shù)創(chuàng)新能力,同時合理解決好大數(shù)據(jù)分析方法在成本、時效、情感等方面的問題,進(jìn)而使企業(yè)最終在激烈的市場競爭中立于不敗之地。
*本文系2016年度遼寧經(jīng)濟(jì)社會發(fā)展立項(xiàng)課題《遼寧省企業(yè)技術(shù)創(chuàng)新與檔案大數(shù)據(jù)分析方法研究》(項(xiàng)目編號:2016lslktzdian-30)前期研究成果之一。