文/陳琨,王萍利
為保證系統(tǒng)數(shù)據(jù)資源的全面性和合理性,本文基于數(shù)據(jù)庫設計了一款功能完善、實用性強的大數(shù)據(jù)平臺。首先,本文在分析大數(shù)據(jù)平臺需求的基礎上,對該大數(shù)據(jù)平臺進行了科學設計;其次,為全方位確保大數(shù)據(jù)平臺的運行效果,本文為該大數(shù)據(jù)平臺配置了14臺服務器;最后,經(jīng)過測試,在數(shù)據(jù)庫的應用背景下,本文所設計的大數(shù)據(jù)平臺運行正常、可靠、穩(wěn)定,且平臺中各功能模塊均滿足相關(guān)設計要求??偟膩碚f,該大數(shù)據(jù)平臺有效地提高了數(shù)據(jù)集成水平,有助于企業(yè)更加高效地運轉(zhuǎn)。本次研究旨在為相關(guān)技術(shù)人員提供有效借鑒。
得益于互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大數(shù)據(jù)技術(shù)被廣泛地應用于各個領域,從而更好地滿足了日益多樣化的信息資產(chǎn)需求,同時也為企業(yè)的現(xiàn)代化運行提供了重要的技術(shù)支持。隨著數(shù)據(jù)庫及大數(shù)據(jù)平臺的優(yōu)化設計和推廣應用,企業(yè)的數(shù)據(jù)集成與分析應用水平進一步提高,進而促使企業(yè)更加高效地運轉(zhuǎn)。在此背景下,如何科學地設計和使用大數(shù)據(jù)平臺,成為相關(guān)技術(shù)人員必須思考和解決的問題。
為確保所設計的基于數(shù)據(jù)庫的大數(shù)據(jù)平臺能夠更好地滿足企業(yè)用戶的實際需求,本文盡可能全面地收集和整理了相關(guān)企業(yè)實際需要的系統(tǒng)數(shù)據(jù)資源。經(jīng)整理,這些系統(tǒng)數(shù)據(jù)資源主要包含以下幾種。(1)工程管理系統(tǒng)。該系統(tǒng)通常涉及投資計劃、工程物質(zhì)等數(shù)據(jù),這類數(shù)據(jù)條目通常高達130萬條以上。(2)生產(chǎn)管理系統(tǒng)。該系統(tǒng)通常涉及庫存數(shù)據(jù)、運行操作數(shù)據(jù)以及設備物資數(shù)據(jù)等數(shù)據(jù)信息,這類數(shù)據(jù)條目通常在1900萬條以上。(3)人力資源系統(tǒng)。在實際運行過程中,該系統(tǒng)通常涉及員工薪資、員工職務等數(shù)據(jù)信息,且這類數(shù)據(jù)條目往往不少于4萬條。(4)財務管理系統(tǒng)。該系統(tǒng)主要包含企業(yè)在實際經(jīng)營過程中所需要的發(fā)票、合同、報銷等相關(guān)數(shù)據(jù)信息,這類數(shù)據(jù)條目通常在400萬條以上。本文通過系統(tǒng)化分析和研究上述系統(tǒng)數(shù)據(jù)資源,發(fā)現(xiàn)相關(guān)企業(yè)在實際管理和經(jīng)營過程中,各數(shù)據(jù)系統(tǒng)均表現(xiàn)出一定的獨立性和分散性,這無疑增加了信息數(shù)據(jù)共享的難度,同時極易引發(fā)“數(shù)據(jù)孤島”等問題。而基于數(shù)據(jù)
庫的大數(shù)據(jù)平臺的設計和應用,不僅可以更好地歸納、存儲和轉(zhuǎn)化結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù),同時還能極大地提高數(shù)據(jù)集成水平,從而為相關(guān)企業(yè)的后續(xù)高效化、科學化運營和管理提供良好的平臺支持。
通常,在大數(shù)據(jù)平臺設計階段,技術(shù)人員必須在嚴格遵循統(tǒng)一性、經(jīng)濟性、時效性等原則的基礎上,完成大數(shù)據(jù)集成平臺的總體框架設計。本文所研究的大數(shù)據(jù)集成平臺的總體框架設計如圖1所示。從圖1中可以看出,該大數(shù)據(jù)平臺重點整合了以下幾個層面。(1)數(shù)據(jù)源層。數(shù)據(jù)源層主要包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、實時數(shù)據(jù)等。為確保數(shù)據(jù)管理的統(tǒng)一性和集中性,用戶需要采用統(tǒng)一命名的方式,對不同類型的系統(tǒng)進行科學命名[1],并以此提高數(shù)據(jù)存儲的規(guī)范性。(2)數(shù)據(jù)集成層。數(shù)據(jù)集成層主要包含接口數(shù)據(jù)文件、消息隊列、接口表等內(nèi)容?;趯ο到y(tǒng)所獲取的數(shù)據(jù)源層數(shù)據(jù)的整理和轉(zhuǎn)化,該大數(shù)據(jù)平臺能夠?qū)?shù)據(jù)存儲層進行有效連接。此時,用戶便可以通過大數(shù)據(jù)平臺提供的接口表[2],對結(jié)構(gòu)化數(shù)據(jù)進行不間斷的銜接處理,進而確保結(jié)構(gòu)化數(shù)據(jù)能夠安全、準確地傳輸?shù)綌?shù)據(jù)倉庫緩沖區(qū)。(3)數(shù)據(jù)存儲層。數(shù)據(jù)存儲層主要涉及數(shù)據(jù)倉庫平臺、流數(shù)據(jù)平臺以及分布式數(shù)據(jù)平臺。用戶可以利用數(shù)據(jù)存儲層,向數(shù)據(jù)源層安全、可靠地傳輸所需要的數(shù)據(jù)倉庫緩沖區(qū)的數(shù)據(jù)。
另外,在進行非結(jié)構(gòu)化數(shù)據(jù)集成設計期間,本文主要采用了FTP文件傳輸方式,并對數(shù)據(jù)文件進行了科學化處理;同時,本文還利用FTP文件傳輸方式將非結(jié)構(gòu)化數(shù)據(jù)傳輸?shù)紽TP服務器中;隨后,本文向數(shù)據(jù)平臺中安全、可靠地導入和存儲了此前獲取的非結(jié)構(gòu)化數(shù)據(jù),并向數(shù)據(jù)倉庫存儲區(qū)導入相應的數(shù)據(jù)結(jié)構(gòu)信息,從而完成了數(shù)據(jù)存儲層的構(gòu)建。需要注意的是,當大數(shù)據(jù)平臺內(nèi)部含有大量的非結(jié)構(gòu)化數(shù)據(jù)時,用戶需要采用接口調(diào)用的方式,向數(shù)據(jù)倉庫緩沖區(qū)導入所需要的非結(jié)構(gòu)化數(shù)據(jù)。同時,由于實時數(shù)據(jù)監(jiān)控系統(tǒng)在實際運行過程中,需要處理的數(shù)據(jù)量相對較大,且這些數(shù)據(jù)的時效性通常較強,所以本文所設計的大數(shù)據(jù)平臺可以通過數(shù)據(jù)源層來大量生成實時數(shù)據(jù),并實時向數(shù)據(jù)平臺傳輸所需數(shù)據(jù)。此外,該大數(shù)據(jù)平臺的流數(shù)據(jù)平臺設計示意圖如圖2所示。在流數(shù)據(jù)平臺的實際設計環(huán)節(jié),本文主要利用Redis技術(shù)和Java程序,完成了對Java轉(zhuǎn)儲程序的編寫;之后,本文將最終編寫好的轉(zhuǎn)儲程序存入了分布式數(shù)據(jù)平臺數(shù)據(jù)轉(zhuǎn)儲區(qū)。
當前,大數(shù)據(jù)平臺所使用的產(chǎn)品主要包含數(shù)據(jù)倉庫、流數(shù)據(jù)平臺、分布式數(shù)據(jù)倉庫等,這些產(chǎn)品的對應用途分別為分布式存儲、內(nèi)存數(shù)據(jù)庫、數(shù)據(jù)倉庫等。為了進一步提高用戶的使用體驗,本文為此次設計的大數(shù)據(jù)平臺配置了14臺服務器;同時,本文嚴格按照大數(shù)據(jù)平臺部署圖,將管理節(jié)點、存儲節(jié)點同步設置到大數(shù)據(jù)平臺中。[3]隨后,本文結(jié)合相關(guān)企業(yè)的實際應用需求,對服務器進行了科學配置,從而在提高服務器資源利用率的基礎上,全面確保該大數(shù)據(jù)平臺具備強大的存儲功能和計算功能。此外,本文將設計完成的基于數(shù)據(jù)庫的大數(shù)據(jù)平臺科學地應用到某水電企業(yè)。經(jīng)過六個月的運行使用,本文確定該大數(shù)據(jù)平臺完全符合該水電企業(yè)的實際使用需求,并且該大數(shù)據(jù)平臺在運行過程中具備較強的穩(wěn)定性和可靠性,能夠為企業(yè)后期集成和分析應用數(shù)據(jù)提供良好的技術(shù)支持,便于企業(yè)實現(xiàn)高效化、自動化運行。[4]
綜上所述,本文對基于數(shù)據(jù)庫的大數(shù)據(jù)平臺的設計與實現(xiàn),大致經(jīng)歷了以下幾個階段。(1)本文通過全面分析相關(guān)企業(yè)的系統(tǒng)數(shù)據(jù)資源,發(fā)現(xiàn)各分部數(shù)據(jù)系統(tǒng)表現(xiàn)出一定的分散性和孤立性。對此,本文通過構(gòu)建擴展性高、數(shù)據(jù)處理能力強的大數(shù)據(jù)平臺,從根本上解決了各信息系統(tǒng)間存在的“數(shù)據(jù)孤島”等問題。(2)本文在嚴格遵循大數(shù)據(jù)平臺先進性、時效性的基礎上,完成了大數(shù)據(jù)集成平臺總體框架的科學化設計,從而為企業(yè)更好地整合企業(yè)全類型數(shù)據(jù)奠定了基礎。(3)本文采用逐層分解的方式,優(yōu)化了該大數(shù)據(jù)平臺的總體框架設計,完成了大數(shù)據(jù)平臺的整體構(gòu)建,從而有效提高了系統(tǒng)運行的穩(wěn)定性和可靠性。