張 蕊,趙蓮蓮
(山東華宇工學(xué)院,山東 德州 253034)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使人們的工作、生活、學(xué)習方式發(fā)生了很大變化,基于網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)信息呈現(xiàn)出快速增長的趨勢?;ヂ?lián)網(wǎng)產(chǎn)生的數(shù)據(jù)信息龐大,繁雜,內(nèi)容豐富,在很多領(lǐng)域有著較高的應(yīng)用價值。數(shù)據(jù)處理是對數(shù)據(jù)進行收集、分析、存儲、傳輸?shù)倪^程,將有價值的信息篩選出來,發(fā)揮其價值。傳統(tǒng)的數(shù)據(jù)處理方式精度不高,處理速度慢,不適應(yīng)當前大數(shù)據(jù)分析的要求。大數(shù)據(jù)分析技術(shù)及云計算網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)分析中的應(yīng)用,可以大大提高數(shù)據(jù)分析速度和準確度。
基于互聯(lián)網(wǎng)絡(luò)產(chǎn)生的海量數(shù)據(jù)信息蘊藏著巨大的價值,通過對數(shù)據(jù)信息的處理分析,可以將有價值的信息挖掘出來。數(shù)據(jù)信息種類多,結(jié)構(gòu)復(fù)雜,價值密度低,有可能部分數(shù)據(jù)的價值不是很大,要想在龐雜的數(shù)據(jù)信息中挖掘有價值的信息,只有通過加工整理,進行深度研究,才能使數(shù)據(jù)成為內(nèi)容豐富、形式多樣、具有價值的重要信息。從這個角度來看,數(shù)據(jù)處理是對原始數(shù)據(jù)的重新整合利用,只有通過數(shù)據(jù)處理才能將數(shù)據(jù)的價值發(fā)揮出來,使數(shù)據(jù)信息具有利用價值。
數(shù)據(jù)分析為現(xiàn)代化的科學(xué)管理提供了重要的幫助??茖W(xué)管理不僅要了解表面問題,更重要的是要更好地認識事物的本質(zhì),梳理好事物之間的關(guān)系,查找問題所在,提出針對性的解決對策。要想實現(xiàn)這一目標,要借助數(shù)據(jù)分析,透過事物表面分析其本質(zhì),將事物之間隱藏的規(guī)律挖掘出來,為科學(xué)決策提供參考依據(jù)。
基于互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)信息非常龐大,以幾何倍數(shù)增長,且數(shù)據(jù)信息之間排列雜亂無章,數(shù)據(jù)價值密度低,在部分數(shù)據(jù)信息中,可能只有一小部分數(shù)據(jù)信息有價值,需要將所有的數(shù)據(jù)信息整合到一起才能將其蘊藏的價值挖掘出來。這就要求高精度的數(shù)據(jù)處理分析,處理速度要快,才能滿足社會發(fā)展的需要。
傳統(tǒng)的數(shù)據(jù)處理技術(shù)存在著不足,主要是安全穩(wěn)定性不足,無法對非結(jié)構(gòu)數(shù)據(jù)進行有效處理。安全性一直是數(shù)據(jù)處理分析中的難題,海量的數(shù)據(jù)信息涉及個人隱私、企業(yè)機密,如果安全工作做不好,將導(dǎo)致數(shù)據(jù)信息泄露,可能引發(fā)嚴重的后果。如果將數(shù)據(jù)處理工作交由大數(shù)據(jù)分析公司來處理,將耗費大量的資金和時間,在一定程度上增加企業(yè)的運營成本。數(shù)據(jù)分為結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù),結(jié)構(gòu)數(shù)據(jù)是可以利用統(tǒng)一的結(jié)構(gòu)來表示的數(shù)據(jù),如數(shù)字、符號等;非結(jié)構(gòu)數(shù)據(jù)沒有統(tǒng)一的結(jié)構(gòu),如圖像、音頻、網(wǎng)頁等。基于互聯(lián)網(wǎng)產(chǎn)生的大量數(shù)據(jù)大多是非結(jié)構(gòu)的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)處理技術(shù)主要是對結(jié)構(gòu)化的數(shù)據(jù)進行處理,而無法對非結(jié)構(gòu)數(shù)據(jù)進行處理,多數(shù)數(shù)據(jù)無法通過傳統(tǒng)數(shù)據(jù)技術(shù)進行處理,而對小部分數(shù)據(jù)進行傳統(tǒng)技術(shù)處理得到的分析結(jié)果往往不全面,不能很好地把握事物的發(fā)展規(guī)律,無法進行科學(xué)性的預(yù)測,不能為決策管理提供參考。
大數(shù)據(jù)處理流程可以分為數(shù)據(jù)采集、處理、分析、顯示幾個部分。在數(shù)據(jù)采集階段,由于數(shù)據(jù)來源廣泛,數(shù)據(jù)信息龐雜,對于數(shù)據(jù)的采集常用系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫采集等方法,可以在短時間內(nèi)對海量數(shù)據(jù)信息完成采集工作,更好地為數(shù)據(jù)處理奠定基礎(chǔ)。在數(shù)據(jù)處理階段,要對收集到的原始數(shù)據(jù)進行預(yù)處理,讓數(shù)據(jù)結(jié)構(gòu)統(tǒng)一起來,便于后續(xù)分析。根據(jù)實際需要,將無效的數(shù)據(jù)信息篩選掉,將保留的數(shù)據(jù)信息進行統(tǒng)一的格式轉(zhuǎn)化,在數(shù)據(jù)處理階段主要應(yīng)用去噪、格式化等方式。在數(shù)據(jù)分析階段,要對預(yù)處理后的數(shù)據(jù)信息進行深度挖掘和分析。這個過程需要根據(jù)用戶的需求,結(jié)合數(shù)據(jù)的不同價值,在數(shù)據(jù)挖掘工具的應(yīng)用下,對數(shù)據(jù)信息進行分析。實際應(yīng)用中,多數(shù)的數(shù)據(jù)分析商有專業(yè)的服務(wù)軟件,借助分析軟件可以更好地對數(shù)據(jù)進行分析,提高分析效率和精度。數(shù)據(jù)的顯示主要應(yīng)用可視化技術(shù),因為海量的數(shù)據(jù)在進行分析后,分析結(jié)果利用傳統(tǒng)的模式無法展示出來,利用數(shù)據(jù)可視化技術(shù)可以讓數(shù)據(jù)分析結(jié)果更加直觀地展現(xiàn)出來,為用戶提供便利。
大數(shù)據(jù)分析的主要優(yōu)勢是:其一,數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘算法是數(shù)據(jù)分析的核心,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,有很多的數(shù)據(jù)算法被應(yīng)用于數(shù)據(jù)分析中,以分析不同類型及不同格式的數(shù)據(jù)信息。常用的數(shù)據(jù)挖掘算法主要有決策樹算法、樸素貝葉斯算法、支持向量機算法等,這些算法都有各自的優(yōu)勢及不足,在實際運用中,要科學(xué)選擇一種或幾種算法來完成數(shù)據(jù)挖掘工作。利用數(shù)據(jù)挖掘算法可以很好地將數(shù)據(jù)特點表現(xiàn)出來,將數(shù)據(jù)價值挖掘出來。其二,預(yù)測性分析。大數(shù)據(jù)是基于互聯(lián)網(wǎng)發(fā)展起來的,大數(shù)據(jù)分析可以借助模型來對某些事物未來發(fā)展趨勢進行科學(xué)預(yù)測。如生產(chǎn)企業(yè)可以借助產(chǎn)品的銷售信息來預(yù)測未來一段時間內(nèi)產(chǎn)品的需求情況,為企業(yè)生產(chǎn)提供參考。其三,可視化分析。這是大數(shù)據(jù)分析中的一個重要功能,利用可視化分析技術(shù)可以使數(shù)據(jù)結(jié)構(gòu)及特點展現(xiàn)得更加直觀。
數(shù)據(jù)傳輸安全。在數(shù)據(jù)分析中應(yīng)用云計算網(wǎng)絡(luò)技術(shù),可有效保證數(shù)據(jù)安全。在實際應(yīng)用中,用戶端的數(shù)據(jù)越多,越容易遭受安全威脅,當病毒攻擊計算機系統(tǒng)時,云計算技術(shù)可以實現(xiàn)對病毒的攔截,確保計算機數(shù)據(jù)安全。通常利用云計算技術(shù)監(jiān)控數(shù)據(jù)傳輸路徑,假如有病毒或黑客攻擊,就會預(yù)警,確保傳輸通道安全。
數(shù)據(jù)使用安全。為了更好地提升計算機用戶數(shù)據(jù)信息及系統(tǒng)安全,要加強對用戶身份的認證,利用實名制方式來認證用戶身份。這樣一旦出現(xiàn)網(wǎng)絡(luò)安全問題,可以有效鎖定可疑目標,減少惡意攻擊。用戶在登錄計算機時,可進行用戶名及密碼的核實,防止不法分子竊取數(shù)據(jù)信息。
云計算是傳統(tǒng)計算機與網(wǎng)絡(luò)技術(shù)融合的產(chǎn)物,在大數(shù)據(jù)分析中具有以下優(yōu)勢:其一,降低運算成本。相比于傳統(tǒng)的計算機運算方式,云計算不需要硬盤,完全可以在云端進行運算,節(jié)省了大量的硬盤空間,降低了運行成本。其二,提升運行效率。云計算涉及的程序及進程少,確保了計算機的穩(wěn)定安全運行,可以使計算機性能大大提升,提高了計算機的運行效率。其三,數(shù)據(jù)存儲更加安全。傳統(tǒng)的硬盤存儲空間有限,硬盤損壞會導(dǎo)致數(shù)據(jù)丟失。云端計算機的存儲空間幾乎是無限的,數(shù)據(jù)在云端的存儲相當于進行了備份,保證了數(shù)據(jù)信息的安全。
計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,新媒體的應(yīng)用,使人們的生活、工作方式發(fā)生了很大變化,由此產(chǎn)生了大量的數(shù)據(jù)信息。大數(shù)據(jù)分析技術(shù)及云計算網(wǎng)絡(luò)技術(shù)為數(shù)據(jù)分析提供了重要的技術(shù)支持。應(yīng)根據(jù)具體情況選擇合適的數(shù)據(jù)處理方式,充分發(fā)揮數(shù)據(jù)分析和云計算網(wǎng)絡(luò)技術(shù)的優(yōu)勢。