文|梁靜
結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用尚處于嘗試初期,業(yè)務(wù)流程和業(yè)務(wù)應(yīng)用尚不成熟,需要技術(shù)與業(yè)務(wù)緊密結(jié)合、循序漸進,即技術(shù)系統(tǒng)滾動開發(fā)與業(yè)務(wù)流程逐漸成熟之間相互促進,以利于開發(fā)出更加貼進應(yīng)用、貼近用戶體驗的功能和展示效果。
新華社自上世紀80年代實現(xiàn)計算機系統(tǒng)發(fā)稿后,計算機發(fā)稿系統(tǒng)隨著技術(shù)手段的不斷創(chuàng)新而不斷進行著升級改造。值此新華社實施戰(zhàn)略轉(zhuǎn)型的重要時期,信息編輯部對現(xiàn)有計算機發(fā)稿系統(tǒng)提出新的應(yīng)用升級要求,其中需要增加經(jīng)濟類型的數(shù)據(jù)用做編輯素材及市場應(yīng)用展示。
結(jié)構(gòu)化數(shù)據(jù)的總體需求是對于各種渠道引入的數(shù)據(jù)分別按照內(nèi)部的使用要求和外部用戶的使用要求提供使用功能和效果展示。根據(jù)引入渠道的不同,將數(shù)據(jù)源分為三類:一是從社外采購的整塊數(shù)據(jù)源,二是網(wǎng)頁上實時自動抓取的數(shù)據(jù)源,三是手工填報的數(shù)據(jù)源。
能夠?qū)⒄麎K采購的結(jié)構(gòu)化數(shù)據(jù)源提供給信息部的編輯和市場用戶使用,能夠?qū)崿F(xiàn)網(wǎng)頁數(shù)據(jù)自動抓取、轉(zhuǎn)換、聚類分類,按照不同的使用者提供個性化應(yīng)用展示功能,能夠提供手工填報數(shù)據(jù)功能并將數(shù)據(jù)整理匯總、加權(quán)計算及效果展示。
針對應(yīng)用需求和數(shù)據(jù)展示要求,結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)設(shè)計是根據(jù)數(shù)據(jù)流向定義出三個主要層次。一是面向數(shù)據(jù)源采集的,稱為數(shù)據(jù)源采集層。二是面向系統(tǒng)核心的,稱為數(shù)據(jù)倉庫層。三是面向數(shù)據(jù)應(yīng)用展示的,稱為數(shù)據(jù)應(yīng)用層。
2.2.1 數(shù)據(jù)采集層
數(shù)據(jù)源層是數(shù)據(jù)來源的集中處理層。手工采集數(shù)據(jù)、互聯(lián)網(wǎng)采集數(shù)據(jù)、外部購買數(shù)據(jù)、社內(nèi)其它系統(tǒng)數(shù)據(jù)的引入均在這層完成,所有外部引入的數(shù)據(jù)不做任何處理和加工,一一對應(yīng)存儲在這一層的數(shù)據(jù)表中,引入的數(shù)據(jù)通過數(shù)據(jù)接口加載到數(shù)據(jù)倉庫中。
2.2.2 數(shù)據(jù)倉庫層
在結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)設(shè)計中,數(shù)據(jù)倉庫層是核心,其對于數(shù)據(jù)展示效果及使用效率至關(guān)重要。數(shù)據(jù)倉庫層內(nèi)部又劃分為四個層次:STAGE層、ODS層、DWD/DWA層、DM層。STAGE層的數(shù)據(jù)表與數(shù)據(jù)采集層的數(shù)據(jù)表一一對應(yīng),通過數(shù)據(jù)接口的處理工具或?qū)iT的機器語言將數(shù)據(jù)從采集層引入到數(shù)據(jù)倉庫的STAGE層。STAGE層的數(shù)據(jù)經(jīng)過分析處理、加工分類后引入到ODS層。ODS層的數(shù)據(jù)是細粒度數(shù)據(jù),類似于產(chǎn)品加工過程中的原材料,其可按照使用要求任意組合。DWD/DWA層是將ODS層的數(shù)據(jù)按應(yīng)用要求進行組合后的數(shù)據(jù),該系統(tǒng)按照信息編輯部的需求劃分為宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù)、進出口數(shù)據(jù)、證券數(shù)據(jù)、上市公司數(shù)據(jù)、大宗商品數(shù)據(jù)、市場統(tǒng)計數(shù)據(jù)、指數(shù)數(shù)據(jù)等。DM層是按照應(yīng)用展示需要的數(shù)據(jù)從DWD/DWA層按照計算的結(jié)果存儲在DM層。
圖1
2.2.3 數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層主要完成基于結(jié)構(gòu)化數(shù)據(jù)的展示、應(yīng)用、分析。功能包括:報表中心、圖表中心、主題分析、專題分析、自動發(fā)稿、即席查詢、數(shù)據(jù)下載、接口服務(wù)等。
系統(tǒng)架構(gòu)設(shè)計的示意圖如圖1所示。
2.3.1 元數(shù)據(jù)管理
元數(shù)據(jù)是描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。這里分為業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)。
業(yè)務(wù)元數(shù)據(jù)是編輯部業(yè)務(wù)術(shù)語對應(yīng)到機器可識別屬性的說明,用戶能夠?qū)φ照f明方便的查詢、使用。技術(shù)元數(shù)據(jù)是對數(shù)據(jù)倉庫中的所有數(shù)據(jù)進行描述的數(shù)據(jù)。比如,一篇新聞稿,可能會按照標題、正文、作者、時間等拆分存儲到數(shù)據(jù)庫中,元數(shù)據(jù)就是要對標題、正文、作者、時間等進行描述,描述其存儲在數(shù)據(jù)庫中的數(shù)據(jù)表名稱、字段名稱、數(shù)據(jù)格式(機器語言定的)、長度等。技術(shù)元數(shù)據(jù)管理是方便技術(shù)人員使用的。
2.3.2 ETL流程管理
ETL流程管理是專為技術(shù)人員提供的,是結(jié)構(gòu)化數(shù)據(jù)最重要的處理流程。ETL流程的主要任務(wù)是完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載的工作。通過ETL,完成從數(shù)據(jù)源層、數(shù)據(jù)倉庫層、到數(shù)據(jù)應(yīng)用層的逐級抽取,并對數(shù)據(jù)按照一定的規(guī)則進行清潔、集成、轉(zhuǎn)換、匯總等處理工作,最后將處理完的數(shù)據(jù)加載到數(shù)據(jù)應(yīng)用層。
2.3.3 結(jié)構(gòu)化數(shù)據(jù)圖形展示
結(jié)構(gòu)化數(shù)據(jù)圖形展示是對結(jié)構(gòu)化數(shù)據(jù)的一種呈現(xiàn)方式,通過圖庫技術(shù)、模板技術(shù)支持圖形動態(tài)在線生成,代替手工操作,減少用戶搜集整理數(shù)據(jù)的成本,自動為用戶生成圖形,節(jié)省時間,提高工作效率。
結(jié)構(gòu)化數(shù)據(jù)圖形展示的數(shù)據(jù)來源于數(shù)據(jù)倉庫層中的DM層,通過權(quán)限分層的管理,使不同權(quán)限的用戶只能訪問其權(quán)限的數(shù)據(jù),由這些數(shù)據(jù)組合生成圖形。
針對三大類數(shù)據(jù)源的使用要求,對引入方式的不同分別開發(fā)了自動采集系統(tǒng)、手工填報系統(tǒng)和整塊數(shù)據(jù)批量倒入功能。其中結(jié)構(gòu)化數(shù)據(jù)自動采集系統(tǒng)可以實現(xiàn)從互聯(lián)網(wǎng)上抓取特定網(wǎng)頁內(nèi)容,網(wǎng)頁可進行靈活定制,對99類互聯(lián)網(wǎng)數(shù)據(jù)連續(xù)抓取一年半,累計近30萬條數(shù)據(jù),這些數(shù)據(jù)通過技術(shù)手段自動轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)并保存在本地數(shù)據(jù)庫中。結(jié)構(gòu)化數(shù)據(jù)手工填報系統(tǒng)提供個性化填報模板的自定義及在線填報功能,可完成填報內(nèi)容的定義、填報、審核、導出等功能,可以個性化填報數(shù)據(jù)信息。整塊數(shù)據(jù)源有近3年約1.8億條數(shù)據(jù),每月需要處理倒入數(shù)據(jù)200多萬至500萬條不等。對現(xiàn)有數(shù)據(jù)形成了集中整合平臺。對信息部的三個專線提供了個性化數(shù)據(jù)服務(wù),有數(shù)據(jù)圖形展示(來自三大商品期貨交易所的數(shù)據(jù)進行加工處理后,提供餅圖、柱狀圖、組合柱狀圖、K線圖、組合K線圖等)和導出下載等功能,取得了一定的效果。為編輯系統(tǒng)提供結(jié)構(gòu)化數(shù)據(jù)建稿服務(wù),可將靜態(tài)展示圖表嵌入分析報告文字說明中。
信息部對已建成系統(tǒng)進行實際操作使用后,提出了進一步的需求。另外還可以結(jié)合新華社分社用戶、新華社內(nèi)部編輯用戶、新華社財經(jīng)專線機構(gòu)用戶的使用要求,整合開發(fā)建設(shè)幾項應(yīng)用功能。它們是(1)豐富互聯(lián)網(wǎng)數(shù)據(jù)的采集內(nèi)容,在互聯(lián)網(wǎng)中的結(jié)構(gòu)化數(shù)據(jù)資源非常豐富,并且具有公開、免費的特點,可根據(jù)用戶的實際需要進一步豐富從互聯(lián)網(wǎng)采集數(shù)據(jù)的數(shù)量。(2)完善整塊數(shù)據(jù)源的引入,完成海關(guān)數(shù)據(jù)等整塊數(shù)據(jù)源引入,將該數(shù)據(jù)集成在結(jié)構(gòu)化數(shù)據(jù)庫中,并提供數(shù)據(jù)的展示、分析、導出功能。(3)提高對分社的結(jié)構(gòu)化數(shù)據(jù)服務(wù)水平,在總社外網(wǎng)部署結(jié)構(gòu)化數(shù)據(jù)的展示系統(tǒng),采取用戶分級的機制,為分社用戶提供結(jié)構(gòu)化數(shù)據(jù)的服務(wù)。(4)提高對機構(gòu)用戶的結(jié)構(gòu)化數(shù)據(jù)服務(wù)水平,結(jié)合財經(jīng)專線產(chǎn)品的要求,開發(fā)針對機構(gòu)用戶的結(jié)構(gòu)化數(shù)據(jù)展示系統(tǒng),可依據(jù)用戶的不同,為不同類別的用戶建立差異化的數(shù)據(jù)集市。