時(shí)立峰 內(nèi)蒙古機(jī)電職業(yè)技術(shù)學(xué)院
在“大數(shù)據(jù)”為主導(dǎo)的浪潮席卷全球來(lái)臨之際,充分利用大數(shù)據(jù)整合技術(shù)、大數(shù)據(jù)分析挖掘技術(shù)以及數(shù)據(jù)可視化技術(shù),通過挖掘數(shù)據(jù)的潛在價(jià)值,來(lái)展示相關(guān)企業(yè)的工作成果、把握企業(yè)經(jīng)濟(jì)發(fā)展走勢(shì)、分析企業(yè)增長(zhǎng)難點(diǎn)、研究企業(yè)變動(dòng)狀況及潛力,達(dá)到提前布局宏觀經(jīng)濟(jì)調(diào)控治理策略的目的。
當(dāng)前企業(yè)經(jīng)過多年的建設(shè),基本已經(jīng)實(shí)現(xiàn)信息系統(tǒng)的部署,但隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算飛速發(fā)展以及大屏終端、商務(wù)智能的快速普及,出現(xiàn)了如下問題:
1.數(shù)據(jù)存儲(chǔ)及處理壓力大
海量數(shù)據(jù)、特別是海量非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng),對(duì)數(shù)據(jù)管理能力及系統(tǒng)分析能力帶來(lái)進(jìn)一步的挑戰(zhàn)。隨著業(yè)務(wù)發(fā)展和應(yīng)用復(fù)雜導(dǎo)致的數(shù)據(jù)量增加,傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)存在無(wú)法線性擴(kuò)容,管理難度加大,成本高擴(kuò)容壓力大,效率下降等問題,難以滿足日益增長(zhǎng)的業(yè)務(wù)數(shù)據(jù)帶來(lái)的存儲(chǔ)、計(jì)算需求;對(duì)分析系統(tǒng)提出了不同以往的處理要求,如自然語(yǔ)言處理、非結(jié)構(gòu)化數(shù)據(jù)處理等。
2.業(yè)務(wù)分析能力不足
數(shù)據(jù)標(biāo)準(zhǔn)不夠規(guī)范、不能夠保證數(shù)據(jù)質(zhì)量,系統(tǒng)種類單一,時(shí)效性差,不能夠融合內(nèi)、外部數(shù)據(jù)。所以應(yīng)搭建支撐管理決策的應(yīng)用分析體系,支持挖掘、分析能力擴(kuò)展,最大限度的實(shí)現(xiàn)數(shù)據(jù)的業(yè)務(wù)價(jià)值。
3.缺乏數(shù)據(jù)可視化
傳統(tǒng)圖形展示手段無(wú)法將數(shù)據(jù)分析的結(jié)果形象、直觀地展示給最終用戶,同時(shí)也無(wú)法支持豐富的圖形展現(xiàn)形式和未來(lái)的圖形能力擴(kuò)展。開發(fā)簡(jiǎn)單易用的引導(dǎo)式自助圖表開發(fā)功能,使業(yè)務(wù)用戶能夠輕松實(shí)現(xiàn)自助開發(fā)。
總之,規(guī)范信息化基礎(chǔ)架構(gòu)資源管理,形成了覆蓋較為廣泛的數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)了自動(dòng)實(shí)時(shí)生成各類收支統(tǒng)計(jì)數(shù)據(jù),以及按照管理對(duì)象歸集相關(guān)屬性信息,并提供多維度可視化的業(yè)務(wù)分析功能,是實(shí)現(xiàn)大屏數(shù)據(jù)可視化展現(xiàn)體系的重中之重。
1.擴(kuò)展數(shù)據(jù)架構(gòu)
設(shè)計(jì)先進(jìn)可擴(kuò)展的三層數(shù)據(jù)架構(gòu),它是成功通過大量項(xiàng)目實(shí)踐檢驗(yàn)的優(yōu)秀架構(gòu)。它具備簡(jiǎn)單、抽象、標(biāo)準(zhǔn)、可擴(kuò)展、隔離、可延展、可維護(hù)、整合等諸多特性,可以從容不迫地面對(duì)分析環(huán)境的變化:
(1)簡(jiǎn)單的架構(gòu)意味著系統(tǒng)、實(shí)施、維護(hù)、管控都將變得簡(jiǎn)單,從而降低整體成本;同時(shí)也意味著更容易做出調(diào)整。
在工程項(xiàng)目建設(shè)中,業(yè)主和承包商之間要進(jìn)行信息的交流和溝通,來(lái)達(dá)到自身利益最大化的目的。但在具體信息交流中,存在一些業(yè)主和承包商都不想透露給對(duì)方但雙方又都想從對(duì)方那里獲取到的隱性的信息。想要獲得這些隱性信息就要消耗大量的時(shí)間、金錢、物力等等。不管最終隱性信息獲取與否,都會(huì)給工程項(xiàng)目的建設(shè)增加一部分成本[2]。而信息的不對(duì)稱也會(huì)導(dǎo)致因盲目投資工程項(xiàng)目而提高投資者相應(yīng)的投資風(fēng)險(xiǎn)。
(2)抽象意味著獨(dú)立于物理實(shí)現(xiàn),使得實(shí)現(xiàn)變得更加靈活;架構(gòu)是業(yè)務(wù)需求和IT實(shí)現(xiàn)之間的橋梁,抽象則意味著有更廣泛的適應(yīng)性,業(yè)務(wù)人員也更容易理解。
(3)標(biāo)準(zhǔn)意味著更低的實(shí)現(xiàn)和維護(hù)成本,更容易被管控。
(4)可擴(kuò)展意味著不斷增長(zhǎng)的業(yè)務(wù)需求可以通過對(duì)軟件、硬件組件的復(fù)制來(lái)滿足。
(5)互相隔離的組件更容易建設(shè)和維護(hù),也更容易復(fù)制以支持?jǐn)U展。隔離性可以極大地簡(jiǎn)化架構(gòu)。
(6)可延展是對(duì)未來(lái)新出現(xiàn)的業(yè)務(wù)的支持,這使得架構(gòu)可以隨著業(yè)務(wù)一起成長(zhǎng)。
(7)可維護(hù)即是指理解、改正、改動(dòng)、改進(jìn)軟件的難易程度。高的可維護(hù)性帶來(lái)更低的總體成本,同時(shí)也更容易做出調(diào)整。
(8)整合加強(qiáng)了機(jī)構(gòu)內(nèi)部的一致性,降低了互相矛盾的結(jié)論帶來(lái)的決策成本,同時(shí)也讓更深入的洞察成為可能。
2.整合層數(shù)據(jù)模型
利用模型設(shè)計(jì)方法論和眾多經(jīng)驗(yàn)做定制化的設(shè)計(jì)。整合層模型的設(shè)計(jì)思路與三層數(shù)據(jù)架構(gòu)的設(shè)計(jì)原則是高度契合的,它從數(shù)據(jù)的自然屬性出發(fā),通過歸納、抽象等方法得到主題域。由于它以抽象的方式組織,因此具有良好的擴(kuò)展性,當(dāng)業(yè)務(wù)發(fā)展時(shí)可以實(shí)現(xiàn)線性擴(kuò)展。
3.加強(qiáng)數(shù)據(jù)挖掘與分析能力
隨著信息化建設(shè)的飛速發(fā)展,不但需要完成相關(guān)流程的電子化,同時(shí)還需積累了大量的數(shù)據(jù)。對(duì)積累的海量異源異構(gòu)數(shù)據(jù)進(jìn)行清洗、加工、整理,運(yùn)用機(jī)器學(xué)習(xí)算法,挖掘數(shù)據(jù)背后的知識(shí),對(duì)于提高企業(yè)監(jiān)管水平、提升工作效率、輔助經(jīng)濟(jì)決策,具有十分重要的現(xiàn)實(shí)意義和示范意義。
采用的分析框架綜合了統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)倉(cāng)庫(kù)等諸多方面的研究成果,可以從大量的數(shù)據(jù)中提取隱含在其中的、人們事先未知但又是潛在有用的信息和知識(shí)。面對(duì)紛繁復(fù)雜的業(yè)務(wù)需求,該框架提供了靈活的分析方式和工具。一方面,高級(jí)分析人員可以使用R、Python等腳本語(yǔ)言在數(shù)據(jù)實(shí)驗(yàn)室中進(jìn)行高度定制化的數(shù)據(jù)探索,形成假設(shè),驗(yàn)證假設(shè);另一方面,業(yè)務(wù)人員可以通過自定義分析主題、數(shù)據(jù)源、圖表樣式以及分析方法來(lái)進(jìn)行可視化分析。
第一,采用的分析框架包含四大模塊:數(shù)據(jù)準(zhǔn)備、探索性數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、可視化分析。四大模塊彼此相依又相對(duì)獨(dú)立,一起形成了一個(gè)不斷迭代完善的敏捷分析流程。在該分析框架內(nèi),用戶既可以使用R、Python等高級(jí)分析工具進(jìn)行機(jī)器學(xué)習(xí)建模,又可以采用靈活自由的可視化方式進(jìn)行探索性數(shù)據(jù)分析。此外,我們的框架集成了大量統(tǒng)計(jì)分析方法和機(jī)器學(xué)習(xí)算法(如趨勢(shì)分析、相關(guān)性分析、回歸分析、聚類分析、主成分分析、因子分析、異常值分析、風(fēng)險(xiǎn)分析、預(yù)測(cè)分析等),用戶可以輕松運(yùn)用這些內(nèi)置模型和算法快速搭建分析流程。
第二,為了確保分析框架的順利執(zhí)行,采用六步項(xiàng)目實(shí)施方法論:定義業(yè)務(wù)問題范圍、數(shù)據(jù)準(zhǔn)備(選取和抽樣)、探索性數(shù)據(jù)分析、建模、模型評(píng)估、模型發(fā)布和實(shí)施。
第三,采用的數(shù)據(jù)實(shí)驗(yàn)室是數(shù)據(jù)倉(cāng)庫(kù)敏捷云的具體實(shí)現(xiàn)。用戶可以在數(shù)據(jù)實(shí)驗(yàn)室中進(jìn)行面向?qū)n}的高級(jí)分析和挖掘。在數(shù)據(jù)實(shí)驗(yàn)室中提供了行為分析、終止行為預(yù)測(cè)、專項(xiàng)監(jiān)控三個(gè)分析專題。在數(shù)據(jù)實(shí)驗(yàn)室中,用戶可以根據(jù)業(yè)務(wù)需求,自定義數(shù)據(jù)源(既可以是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù),也可以是外部數(shù)據(jù))、分析方法(組合內(nèi)置分析模塊或自定義)、可視化方式,快速搭建業(yè)務(wù)驅(qū)動(dòng)的分析專題。
4.提供靈活多樣的可視化大屏數(shù)據(jù)
數(shù)據(jù)可視化的展現(xiàn)圖形創(chuàng)建過程中,可供選擇的圖形高達(dá)幾十種,圖形組合方式多種多樣,但是為了突出分析的主題,需要選擇特定的圖形來(lái)進(jìn)行展現(xiàn)。因此系統(tǒng)提供可視化圖形選擇路徑指南,幫助分析人選進(jìn)行展現(xiàn)圖樣的選擇。減少無(wú)效圖形的編輯次數(shù),提高分析效率。
數(shù)據(jù)展現(xiàn)圖形的選擇方式大體基于數(shù)據(jù)分析的四大主題進(jìn)行構(gòu)建,分別是構(gòu)成、分布、比較和關(guān)系。其中,圖形之間可根據(jù)展現(xiàn)的維度數(shù)量組合嵌套,最終確定展現(xiàn)思路。