趙昕暉,郭智強
(1.甘肅省科學技術情報研究所,2 甘肅省物產(chǎn)集團有限責任公司,甘肅 蘭州 730000)
在全球信息化這一時代大背景下,各個應用系統(tǒng)產(chǎn)生了大量的數(shù)據(jù)資源,由此整合數(shù)據(jù)資源及提升數(shù)據(jù)價值的需求也日益增長,并進一步推動了大數(shù)據(jù)和云計算技術的快速發(fā)展。大數(shù)據(jù)是信息化建設中產(chǎn)生的各類數(shù)據(jù)的總稱,從數(shù)據(jù)結構方面來說,分為結構化數(shù)據(jù)和非結構化數(shù)據(jù);其中結構化數(shù)據(jù)易于分析處理,而非結構化數(shù)據(jù)分析處理是大數(shù)據(jù)應用中面臨的難題之一。因此,系統(tǒng)應用分布式計算、非結構化數(shù)據(jù)存儲、垂直型數(shù)據(jù)庫應用等是基于大數(shù)據(jù)信息化整合的重點研究領域[1]。
近年來,大數(shù)據(jù)和云計算等名詞頻頻登上計算機領域的技術熱搜榜首。但大數(shù)據(jù)和云計算之間的關系人們普遍缺乏系統(tǒng)的認識。大數(shù)據(jù)是指在信息化建設過程中產(chǎn)生的一系列圍繞信息化系統(tǒng)的數(shù)據(jù)總集,這些數(shù)據(jù)包含了信息化系統(tǒng)本身的基本結構化數(shù)據(jù)和非結構化數(shù)據(jù),以及系統(tǒng)和用戶產(chǎn)生的相關日志等文本類型的數(shù)據(jù)。但想要通過單一的計算并分析這些數(shù)據(jù),用來提供一定的決策支撐顯然是耗時耗力的,因此必須使用到云計算技術對大數(shù)據(jù)進行分析和存儲。云計算的前身就是分布式計算,將復雜的計算任務由單一的服務器計算通過云計算軟件調度,拆分成并行的多個計算線程,由服務器集群分別計算后再匯總結果。因此,大數(shù)據(jù)與云計算是相輔相成的,想要用好大數(shù)據(jù),必須從信息化底層整合計算資源和數(shù)據(jù)資源。
大數(shù)據(jù)技術是由一系列處理數(shù)據(jù)有關的單獨技術綜合而成,其包含了數(shù)據(jù)獲取技術、數(shù)據(jù)存儲技術、數(shù)據(jù)檢索技術和數(shù)據(jù)挖掘技術,運用以上四種技術組建數(shù)據(jù)資源池,并基于各信息化系統(tǒng)的元數(shù)據(jù)標準,可有效打破各信息系統(tǒng)之間互不關聯(lián)的信息資源孤島,形成大數(shù)據(jù)資源的綜合運用。
數(shù)據(jù)資源采集獲取技術分為針對結構化數(shù)據(jù)的數(shù)據(jù)導入導出工具、SQL 腳本、軟件接口、和數(shù)據(jù)爬蟲等定時推送技術。非結構化信息的獲取需要批量采集非結構化數(shù)據(jù)的元數(shù)據(jù)信息,通過元數(shù)據(jù)信息來對非結構化數(shù)據(jù)進行描述,來達到大數(shù)據(jù)平臺的獲取需求。
大數(shù)據(jù)的存儲主要采用分布式存儲技術,比較成熟的技術包括Hadoop 的HDFS 集群以及由HDFS 集群和結構化數(shù)據(jù)庫MySQL 集群共同組成大數(shù)據(jù)存儲平臺。采用這種數(shù)據(jù)存儲方法既保證了多種數(shù)據(jù)的存儲,并且可以有效的利用Hive、Spark、MapReduce 等技術對大數(shù)據(jù)進行離線計算。從而可以有效地提高大數(shù)據(jù)的計算處理效率和處理質量,縮短處理時間,提升數(shù)據(jù)利用率。
大數(shù)據(jù)搜索技術是大數(shù)據(jù)的典型應用場景之一,在搜索領域也出現(xiàn)了一些成熟的技術,這類技術主要是基于分布式的全文搜索引擎與數(shù)據(jù)分析引擎。該技術能實現(xiàn)大數(shù)據(jù)平臺的數(shù)據(jù)搜索、分析和探索能力,具備良好的可擴展性和二次開發(fā)程序接口,可以為大數(shù)據(jù)整合提供完整的搜索解決方案。
大數(shù)據(jù)之所以產(chǎn)生價值,就在于對大數(shù)據(jù)的挖掘分析?;贠LAP(聯(lián)機分析)技術可以使用大數(shù)據(jù)方便的形成數(shù)據(jù)畫像、各類報表。通過深入的數(shù)據(jù)挖掘可以形成針對訪問用戶的精準數(shù)據(jù)畫像,典型的應用包括各類電商平臺的推薦系統(tǒng)和保險營銷的營銷系統(tǒng)。
基于大數(shù)據(jù)技術的信息化整合應從軟件和硬件兩個方面著手。軟件方面,通過使用ETL(數(shù)據(jù)倉儲)工具,將一個個孤立的業(yè)務系統(tǒng)數(shù)據(jù)進行數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉換之后,整合存儲到大數(shù)據(jù)平臺資源池以備使用。軟件方面,通過使用Hadoop集群可以很好地解決大數(shù)據(jù)分布式存儲和數(shù)據(jù)挖掘計算。硬件方面,采用流行的軟件定義網(wǎng)絡產(chǎn)品,將多臺高性能服務器使用虛擬化技術進行資源管理和分配,這樣能夠做到計算和存儲資源的有效利用。并且通過部署Hadoop 集群,做到大數(shù)據(jù)的分布式存儲、分發(fā)、計算,有效節(jié)約了時間成本和運維成本,數(shù)據(jù)處理效率得到了高可靠的保證。在信息安全方面,大數(shù)據(jù)中的應用數(shù)據(jù)始終處于流動狀態(tài),因此可以采用https 數(shù)字證書加密等方式,保障系統(tǒng)數(shù)據(jù)的加密傳輸。在硬件安全方面,應盡量采用安全審計設備,對各類信息進行監(jiān)測,由專業(yè)安全人員根據(jù)數(shù)據(jù)的重要性采用不同的監(jiān)測和加密方式進行傳輸和使用[1]。
通過大數(shù)據(jù)技術將傳統(tǒng)的信息化業(yè)務系統(tǒng)整合成為了一個統(tǒng)一的應用平臺,實現(xiàn)業(yè)務系統(tǒng)數(shù)據(jù)的交互,在數(shù)據(jù)挖掘方面和數(shù)據(jù)搜索方面提升了數(shù)據(jù)的利用率,為決策支持提供有效的數(shù)字支撐。例如,采用綜合統(tǒng)計報表等方式,通過數(shù)據(jù)分析大屏直觀地展示,從而提供決策支持依據(jù),提升業(yè)務流轉效率,優(yōu)化各業(yè)務部門的協(xié)同作業(yè)。
使用大數(shù)據(jù)平臺整合了信息化業(yè)務系統(tǒng)后,還可以有效的加強內部輔助系統(tǒng)的應用研發(fā),例如可以在考核、財務、信息資源共享等方面拓展大數(shù)據(jù)平臺的應用范圍[2]。在考核方面,有關人員考核的數(shù)據(jù)可以經(jīng)由大數(shù)據(jù)平臺匯總,大數(shù)據(jù)平臺可以直觀的反映人員的出勤、產(chǎn)出等方面的數(shù)據(jù),加強對人員的管理把控;在財務管理方面,有支付需求的業(yè)務可以采用統(tǒng)一的支付平臺,通過支付平臺的應用可以減少財務對賬流程,杜絕財務錯賬壞賬的發(fā)生,并對合同進行有效的追蹤和使用。在信息資源共享方面,可以通過大數(shù)據(jù)平臺輕松實現(xiàn)內部資源共享,并做到相關性資料一鍵搜索。
大數(shù)據(jù)整合后,用好大數(shù)據(jù)的主要方向就是向決策主體服務[2],通過各個業(yè)務系統(tǒng)匯聚而來的數(shù)據(jù),經(jīng)過大數(shù)據(jù)平臺的分析挖掘,形成的數(shù)據(jù)分析結果可以在不同的決策主體之間進行共享流轉,進而方便各決策主體單位及時掌握大數(shù)據(jù)平臺的分析數(shù)據(jù)和關聯(lián)因素,加快決策進程。
智慧城市是典型的大數(shù)據(jù)應用,通過打通城市政府各業(yè)務系統(tǒng),可以實現(xiàn)智慧城市智能大數(shù)據(jù)應用[3]。例如通過交通信號攝像大數(shù)據(jù)實現(xiàn)智慧交通,動態(tài)調節(jié)城市交通;通過對城市常住人口的大數(shù)據(jù)分析,使社區(qū)部門掌握人口變化信息和養(yǎng)老信息,從而推動社區(qū)精細化管理。
社交媒體大數(shù)據(jù)在輿情監(jiān)控方面獨有價值,通過對社交媒體產(chǎn)生的大數(shù)據(jù)進行挖掘分析,做到對社交人員的學習畫像[4],及時掌握輿情信息,促進政府對輿情的正確研判和正確引導,及時介入解決糾紛。
大數(shù)據(jù)的信息化整合,不僅僅是從技術上打通信息孤島,更是要用好大數(shù)據(jù)。通過對大數(shù)據(jù)的分析、加工、挖掘,使數(shù)據(jù)產(chǎn)生更高的使用價值,從而提高數(shù)據(jù)的利用率,發(fā)揮大數(shù)據(jù)在決策中的應有作用。本文簡單地探討了大數(shù)據(jù)的基本整合思路和常用的整合技術,希望能對推動各行業(yè)大數(shù)據(jù)平臺落地實施有所幫助。