王燁
摘要:大數(shù)據(jù)時代,數(shù)據(jù)正在成為一種生產(chǎn)資料,一種稀有資產(chǎn)和新興產(chǎn)業(yè)。數(shù)據(jù)不僅是“副產(chǎn)物”。而是可被再次甚至加工的原料,一種可持續(xù)發(fā)展的生產(chǎn)資料,通過對其探索以實現(xiàn)更大價值。數(shù)據(jù)作為國家基礎性戰(zhàn)略資源,受到黨中央、國務院的高度重視,在當今經(jīng)濟社會發(fā)展中大數(shù)據(jù)的作用不可小覷,黨的十八屆五中全會提出了“實施國家大數(shù)據(jù)戰(zhàn)略”.國務院也印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》,目的在于全面推動大數(shù)據(jù)的發(fā)展,意在建設數(shù)據(jù)強國。海量存儲空間和高速運算速度,將從“樣本數(shù)據(jù)采集”到“全量數(shù)據(jù)采集”變成現(xiàn)實,而這種轉(zhuǎn)變就要求政府及企業(yè)需要對現(xiàn)有積累的數(shù)據(jù)進行重新審視。
關鍵詞:非結構化數(shù)據(jù) 處理 應用
一、信息數(shù)據(jù)的分類構成及非結構化數(shù)據(jù)特征
在大數(shù)據(jù)發(fā)展的短短幾十年的時間中,政府和企業(yè)都積累了大量數(shù)據(jù)。從技術層面來分析這些積累的數(shù)據(jù),可以將其分為三種類型:
結構化數(shù)據(jù):即可以用數(shù)據(jù)庫存儲的數(shù)據(jù),這類數(shù)據(jù)易于存儲,便于進行檢索、統(tǒng)計分析等操作。我們所使用的各類業(yè)務系統(tǒng)所產(chǎn)生的數(shù)據(jù)多為結構化數(shù)據(jù),最適合進行大數(shù)據(jù)分析挖掘。
半結構化數(shù)據(jù):具有一定的結構性,但是數(shù)據(jù)結構沒有形成統(tǒng)一的國際標準,沒有關系型數(shù)據(jù)庫的嚴格規(guī)范限制。半結構化數(shù)據(jù)多應用于現(xiàn)在的列式數(shù)據(jù)庫中,便于對大文本進行搜索。
非結構化數(shù)據(jù):數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型。屬于不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。
二、非結構化數(shù)據(jù)處理的重要性和技術難點
經(jīng)相關機構調(diào)研發(fā)現(xiàn),無論是政府還是企業(yè)多年所積累的信息數(shù)據(jù),其中易于分析挖掘的結構化及半結構化數(shù)據(jù)僅占10%,多數(shù)積累的信息為非結構化數(shù)據(jù),且這些數(shù)據(jù)每年都會按指數(shù)增長60%。政府投入大量資金用來分析結構化數(shù)據(jù),卻忽略了其實非結構化數(shù)據(jù)同樣是蘊藏大量信息的寶庫。但要將其與大數(shù)據(jù)相融合,必須經(jīng)過專業(yè)技術的處理、提煉。下圖為非結構化數(shù)據(jù)在處理過程中所遇到的技術難點:
可見,只有將非結構化數(shù)據(jù)轉(zhuǎn)換為結構化數(shù)據(jù),才能獲取到價值更高、范圍更廣的信息數(shù)據(jù)。
三、非結構化數(shù)據(jù)處理的技術原理和主要處理步驟
非結構化數(shù)據(jù)的特點是格式多樣,數(shù)據(jù)標準也是多樣性的,在技術上非結構化信息比結構化信息更難標準化,必須通過技術手段將非結構化數(shù)據(jù)轉(zhuǎn)換成結構化數(shù)據(jù)并進行持久化存儲,才可充分挖掘其價值。根據(jù)數(shù)據(jù)處理的時效性要求,可以將針對數(shù)據(jù)處理的技術體系分為兩大類:
(一)基于Hadoop、Spark的實時流式解析處理方式
這種處理方式對數(shù)據(jù)處理的時效性要求相對較高。往往在產(chǎn)生數(shù)據(jù)的同時就要立即對其進行分析計算,并獲得最終結果。與這種技術相伴隨的有分布式處理計算、分布式存儲、內(nèi)存數(shù)據(jù)庫等技術,都是用于提升實時處理效率所使用的。
(二)基于大數(shù)據(jù)解析技術的批量數(shù)據(jù)分析處理技術
這種處理方式對時效性要求不高,但對處理結果的精準度要求很高。對于政府及企業(yè)而言,利用第二種技術手段來處理留存和新增的非結構化數(shù)據(jù)更能節(jié)省時間成本并得到高質(zhì)量的分析預測結果。針對基于大數(shù)據(jù)解析技術的非結構化數(shù)據(jù)處理技術,其主要處理流程包含了如下步驟:
步驟一:分析解析,定位有價值的數(shù)據(jù)信息,明確提取目標。
在對政府及企業(yè)所積累的非結構化數(shù)據(jù)進行解析前,先人工進行內(nèi)容分析,定位到關鍵的、高價值的數(shù)據(jù)后再開始進行機器化解析處理,不但可以提升效率,獲取高價值信息數(shù)據(jù),還降低了工作成本。
步驟二:確立數(shù)據(jù)標準。并生成對應的結構化、半結構化數(shù)據(jù)存儲模型。
只有高質(zhì)量的數(shù)據(jù)才能夠確保大數(shù)據(jù)分析預測結果的準確性,因此,在步驟一中確立了需要提取的核心數(shù)據(jù),接下來就需要為這些核心數(shù)據(jù)建立對應的數(shù)據(jù)標準,并依據(jù)標準建立對應的結構化及半結構化數(shù)據(jù)模型,利用關系型數(shù)據(jù)庫和NOSQL數(shù)據(jù)庫的約束關系來確保數(shù)據(jù)標準得到執(zhí)行,從而保障數(shù)據(jù)的高質(zhì)量。
步驟三:利用各類型大數(shù)據(jù)解析工具進行核心數(shù)據(jù)提煉存儲。在建立數(shù)據(jù)標準及存儲模型后,對各類非結構化數(shù)據(jù)進行解析,提煉出核心數(shù)據(jù)并保存到相應的數(shù)據(jù)庫中,針對不同類型的數(shù)據(jù)需要專業(yè)的大數(shù)據(jù)解析工具來進行數(shù)據(jù)的解析與提取。
步驟四:建立科學的、可持續(xù)發(fā)展的分析模型,并持久的對其進行優(yōu)化改進。
從大量不毫無關聯(lián)、類型各異的數(shù)據(jù)中挖掘出有價值的數(shù)據(jù),運用機器學習方法、人工智能方法或者數(shù)據(jù)挖掘方法進行深度分析,從中發(fā)現(xiàn)新的知識和規(guī)律,并將其運用到不同領域,發(fā)揮大數(shù)據(jù)的真正價值,最終得以改善社會治理、提高生產(chǎn)效率、推進科學研究。
四、“企業(yè)年度工作報告綜合管控平臺”對非結構數(shù)據(jù)化處理的應用實踐
國務院國有資產(chǎn)監(jiān)督管理委員會(簡稱:國資委)所管理的企業(yè)眾多。全國約有各級企業(yè)近3萬家。根據(jù)國資委的管理要求,凡國資委下屬的、擁有獨立企業(yè)法人的企業(yè)均需填寫《企業(yè)年度工作報告》,并最終在一級企業(yè)進行匯總后統(tǒng)計交給國資委,以備國資委審查及歸檔。
企業(yè)年度工作報告一直以來以多為MSOffce文件形式的非結構化數(shù)據(jù)存在,每年報告總量近5000套,每份報告的字數(shù)約在20萬字。且均為人工手動填寫,無法生成格式化的信息數(shù)據(jù),審核及統(tǒng)計工作也均需人工開展,耗費了大量人力資源,且上報的內(nèi)容參差不齊,影響了國資委對下屬企業(yè)的掌控與了解。
針對上述現(xiàn)狀和管理的實際需要.國資委和中國中鐵組織開展了《國資委企業(yè)年度工作報告綜合管控云平臺》課題,其利用云技術為國資委及其下屬企業(yè)建設企業(yè)年報私有云平臺,國資委下屬企業(yè)可利用該平臺實現(xiàn)企業(yè)年度報告的任務劃分、填寫、審核、校驗、提交、匯總及最終上報工作,而國資委及一級企業(yè)可實現(xiàn)年報的匯總、審核、統(tǒng)計、分析工作;通過云平臺的建設,還將形成一個針對企業(yè)年報的大數(shù)據(jù)中心,并利用大數(shù)據(jù)技術對這些信息進行匯總及智能分析,幫助國資委更高效的管理審查企業(yè)的經(jīng)營情況。
針對企業(yè)年度工作報告的內(nèi)容特點和管理的實際,“企業(yè)年度工作報告綜合管控平臺”在技術手段上選用了基于大數(shù)據(jù)解析技術的批量數(shù)據(jù)分析處理技術:
(一)分析解析,定位有價值的數(shù)據(jù)信息,明確提取目標
一份年報少則幾百頁,多則上千頁,而每年所采集到的企業(yè)年報有上千份.如果對全部內(nèi)容進行精準解析轉(zhuǎn)換。其工作量相當巨大。年報中的核心信息多為企業(yè)年度資金狀況、財務經(jīng)營狀況等信息表格,這部分內(nèi)容僅僅占年報體量的十分之一。因此選擇對該部分內(nèi)容進行重點解析,而其余章節(jié)的內(nèi)容轉(zhuǎn)換為半結構化信息進行保存以備后用。這種處理不但讓我們獲取了企業(yè)年報中的高價值信息數(shù)據(jù),節(jié)省了后期軟件開發(fā)制作的成本,還節(jié)約了大量的工作時間。
(二)確立數(shù)據(jù)標準,并生成對應的結構化、半結構化數(shù)據(jù)存儲模型
全量數(shù)據(jù)采集需要全量數(shù)據(jù)源。但現(xiàn)實中很多數(shù)據(jù)源會帶來大量低質(zhì)量數(shù)據(jù)。政府及企業(yè)必須要在確立數(shù)據(jù)標準的同時,建設結構化及半結構化的存儲模型對獲取的數(shù)據(jù)進行存儲.并利用數(shù)據(jù)清洗整理技術消除低質(zhì)量數(shù)據(jù),從而確保通過BI獲得更佳決策。在企業(yè)年度工作報告綜合管控平臺中。每年都會根據(jù)政策及工作方向的變化來重新對年報內(nèi)容進行梳理,重新確定填報內(nèi)容,并在此基礎上建立準確、兼容的數(shù)據(jù)規(guī)范標準,以確保所采集到的各類信息數(shù)據(jù)的質(zhì)量及準確性。針對所采集到的歷年年報數(shù)據(jù),利用平臺中的數(shù)據(jù)標準監(jiān)測工具對數(shù)據(jù)進行全面的監(jiān)測分析,及時發(fā)現(xiàn)不合規(guī)的低質(zhì)量數(shù)據(jù)并進行有效清洗,確保數(shù)據(jù)的高質(zhì)量。
(三)利用各類型大數(shù)據(jù)解析工具進行核心數(shù)據(jù)提煉存儲
原有企業(yè)年報大多為MicrosoftOffice格式,平臺組選擇了Apache的POI開源解析器來對企業(yè)年報信息進行提煉。POI提供API給Iava程序?qū)υ摳袷綑n案進行讀、寫的功能,項目團隊在其基礎之上。利用多線程處理技術開發(fā)了批量年報解析器,針對不同年份、不同版本的Office文件均可進行信息解析和提取。平臺利用該套工具對企業(yè)年報信息進行解析和提煉.并最終形成了企業(yè)年報信息資源庫。
(四)建立科學的、可持續(xù)發(fā)展的分析模型,并持久的對其進行優(yōu)化改進
在“企業(yè)年度工作報告綜合管控平臺”中,根據(jù)規(guī)律建立了包括同質(zhì)企業(yè)經(jīng)營比對模型、企業(yè)經(jīng)營分析預測模型在內(nèi)的多種智能模型,并不斷對其進行優(yōu)化調(diào)整以確保其準確性。平臺也在嘗試建立全新的業(yè)務分析模型以幫助審計署更好的對企業(yè)進行監(jiān)管。最終.平臺將實現(xiàn)在人工智能、分析預測模型的基礎之上,利用大數(shù)據(jù)展現(xiàn)技術通過圖形化、格式化的方式展現(xiàn)分析結果,并支持人工二次分析,讓分析過程更加高效,結果更加精準,最大化地挖掘出大數(shù)據(jù)的核心價值。
通過“企業(yè)年度工作報告綜合管控平臺”的建設,將數(shù)十年累計的近8萬份報告、約合160億字的非格式化信息數(shù)據(jù)轉(zhuǎn)換成為了半結構及結構化數(shù)據(jù)。其中含企業(yè)經(jīng)營、財務、人員、會議、違紀、項目等相關格式化數(shù)據(jù)約1.2億條以及半結構化信息數(shù)據(jù)470G,且這些數(shù)據(jù)正在以每年10%的速度增長。這些數(shù)據(jù)將為政府管理和企業(yè)決策帶來重要的支撐。
五、結語
企業(yè)年度工作報告綜合管控平臺,是對大數(shù)據(jù)技術的勇敢探索和實踐。雖然現(xiàn)階段平臺本身還不完善,但未來隨著經(jīng)驗的積累提升以及系統(tǒng)的不斷優(yōu)化,它必將進發(fā)出大數(shù)據(jù)的核心力量.讓相關工作開展變得更加高效智能。