摘要:近些年來,互聯(lián)網(wǎng)絡(luò)的使用涉及到人們生活的各個(gè)方面,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)系統(tǒng)等技術(shù)的廣泛使用產(chǎn)生了巨量的非結(jié)構(gòu)化的數(shù)據(jù)信息,也被稱之為大數(shù)據(jù)。大數(shù)據(jù)的信息無法使用傳統(tǒng)的數(shù)據(jù)庫管理軟件進(jìn)行處理,必須要要用到并行處理式和分布式的數(shù)據(jù)庫系統(tǒng),以及云存儲(chǔ)等方面的技術(shù)進(jìn)行處理。本文簡(jiǎn)述了大數(shù)據(jù)的定義、特征及處理技術(shù),并對(duì)大數(shù)據(jù)系統(tǒng)的應(yīng)用進(jìn)行了探討。
關(guān)鍵詞:大數(shù)據(jù);處理技術(shù);數(shù)據(jù)處理系統(tǒng)
引言:
在如今互聯(lián)網(wǎng)快速發(fā)展的時(shí)代中,其應(yīng)用的范圍在不斷的拓展,網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)總量也產(chǎn)出現(xiàn)了巨量的增長。社交網(wǎng)絡(luò)平臺(tái)中使用者之間的互動(dòng)、物聯(lián)網(wǎng)平臺(tái)匯總的各種儀器設(shè)備都在不斷的傳輸著海量的數(shù)據(jù)信息。這些大數(shù)據(jù)信息中包含著十分重要的而價(jià)值,提現(xiàn)了人類相互之間繁瑣復(fù)雜的行為。企業(yè)可以從大數(shù)據(jù)中深入挖掘用戶對(duì)商品的喜好與追求,從而不斷的改進(jìn)現(xiàn)有的產(chǎn)品。
1 大數(shù)據(jù)的特點(diǎn)
1.1 數(shù)據(jù)處理的速度快
在商業(yè)性網(wǎng)站中的電子數(shù)據(jù)、社交網(wǎng)絡(luò)平臺(tái)中的用戶之間產(chǎn)生的信息、各個(gè)電氣設(shè)備的傳感器所收集的海量數(shù)據(jù)都有著實(shí)時(shí)性的特點(diǎn),這些數(shù)據(jù)產(chǎn)生的速度是極快的,同時(shí)也需要進(jìn)行快速的數(shù)據(jù)處理。
1.2 數(shù)據(jù)結(jié)構(gòu)多樣化
大數(shù)據(jù)的來源是非常多樣化的,例如在網(wǎng)絡(luò)瀏覽中的點(diǎn)擊、在社交平臺(tái)中的交流互動(dòng)、GPS定位系統(tǒng)所產(chǎn)生的定位信息等等。這些不同的來源所產(chǎn)生數(shù)據(jù)已經(jīng)不是傳統(tǒng)數(shù)據(jù)庫可以處理的那種結(jié)構(gòu)化的數(shù)據(jù)信息,也可以是郵件數(shù)據(jù)、聲音數(shù)據(jù)、影視頻數(shù)據(jù)、文字?jǐn)?shù)據(jù)等等,這些都是些非結(jié)構(gòu)化以及半結(jié)構(gòu)化的數(shù)據(jù)信息。
1.3 數(shù)據(jù)蘊(yùn)藏豐富價(jià)值
大數(shù)據(jù)的信息匯總包含著十分豐富的價(jià)值,它在一定程度上反應(yīng)了人自身以及人與人之間復(fù)雜的行為體系。因此,企業(yè)可以通過對(duì)大數(shù)據(jù)的深入分析后整理出客戶的各種喜好以及需要,從而可以有效的提升產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。企業(yè)也可以從大數(shù)據(jù)的分析中得出客戶對(duì)某個(gè)產(chǎn)品的需要,從而可以使產(chǎn)品得到優(yōu)化升級(jí)。大數(shù)據(jù)體系中的各種各樣的數(shù)據(jù)往往是比較原始的,其價(jià)值的密度相對(duì)較低。例如,在社交平臺(tái)中的一條信息,可能會(huì)被不同的人不停的進(jìn)行轉(zhuǎn)發(fā),進(jìn)而產(chǎn)生更多相關(guān)的信息,而這些信息數(shù)據(jù)中就包含著十分豐富的價(jià)值。
1.4 數(shù)據(jù)快速型
實(shí)時(shí)性的數(shù)據(jù)信息需要大數(shù)據(jù)相關(guān)的技術(shù)對(duì)其進(jìn)行快速的處理,以確保數(shù)據(jù)信息的時(shí)效性。同時(shí)研究出其具體變化的規(guī)律來給決策者提供支持。
1.5 數(shù)據(jù)來源真實(shí)可靠
大數(shù)據(jù)的信息來源主要是商業(yè)性的網(wǎng)站、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)瀏覽的電機(jī)等等途徑,這些原始的數(shù)據(jù)信息并沒有經(jīng)過技術(shù)的處理,因此其真實(shí)性是有保障的。
2 大數(shù)據(jù)處理技術(shù)
2.1 大數(shù)據(jù)采集技術(shù)
根據(jù)大數(shù)據(jù)采集模式的不同方法,其采集的技術(shù)可以分為集中式和分布式的采集,這兩種數(shù)據(jù)采集的方式各有千秋。分布式的數(shù)據(jù)采集模式具有較強(qiáng)的靈活性,而集中式的數(shù)據(jù)采集模式則能夠?qū)θ值臄?shù)據(jù)進(jìn)行有效的掌控。在對(duì)大數(shù)據(jù)信息進(jìn)行采集的過程中,既包括對(duì)各個(gè)企業(yè)自身的數(shù)據(jù)的采集,也包含對(duì)各個(gè)企業(yè)之間的數(shù)據(jù)的采集。這幾種數(shù)據(jù)采集的模式可以通過分布式并行的數(shù)據(jù)計(jì)算的模式進(jìn)行混合使用,從而有效提升了大數(shù)據(jù)采集的工作效率。也就是說在進(jìn)行大數(shù)據(jù)采集時(shí),對(duì)各個(gè)企業(yè)自身使用集中式的采集方法,對(duì)各個(gè)企業(yè)之間的數(shù)據(jù)使用分布式的采集方法。在各個(gè)企業(yè)中配置多個(gè)服務(wù)器,將其可以共享的數(shù)據(jù)信息進(jìn)行分別存儲(chǔ),然后可以使用分布式的數(shù)據(jù)采集方法進(jìn)行采集。
2.2 大數(shù)據(jù)的存儲(chǔ)技術(shù)
大數(shù)據(jù)搜處理的數(shù)據(jù)信息數(shù)量是極其巨大的的,傳統(tǒng)的存儲(chǔ)數(shù)據(jù)的技術(shù)很難滿足大數(shù)據(jù)對(duì)存儲(chǔ)的需要,這主要包括以下幾個(gè)方面:首先,在當(dāng)下的網(wǎng)絡(luò)信息化背景下,每時(shí)每刻產(chǎn)生的數(shù)據(jù)量是極其巨大的,傳統(tǒng)的單節(jié)點(diǎn)的數(shù)據(jù)存儲(chǔ)單元無法滿足海量的數(shù)據(jù)存儲(chǔ);其次,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模式是按行來進(jìn)行存儲(chǔ)的,但是需要花費(fèi)許多的成本進(jìn)行 維護(hù)。在云概念的背景下,通常使用列式的方法進(jìn)行大數(shù)據(jù)的存儲(chǔ)。這種存儲(chǔ)的方式可以根據(jù)數(shù)據(jù)信息的屬性進(jìn)行存儲(chǔ)。在對(duì)數(shù)據(jù)進(jìn)行使用時(shí),僅僅對(duì)所涉及的使用屬性進(jìn)行訪問,從而提升數(shù)據(jù)輸入和輸出的效率。因此,列式存儲(chǔ)的方式可以大大的提升數(shù)據(jù)的壓縮程度,減少傳輸數(shù)據(jù)的成本支出。
2.3 大數(shù)據(jù)聯(lián)機(jī)分析技術(shù)
大數(shù)據(jù)的聯(lián)機(jī)分析技術(shù)可以對(duì)海量的數(shù)據(jù)進(jìn)行分析,并為用戶提供決策性的數(shù)據(jù)結(jié)論支持,是大數(shù)據(jù)系統(tǒng)的重要內(nèi)容。聯(lián)機(jī)分析的模式可以對(duì)數(shù)據(jù)進(jìn)行綜合性、全面性的分析,從而為企業(yè)的決策者提供數(shù)據(jù)的支持。
2.4 大數(shù)據(jù)挖掘技術(shù)
聯(lián)機(jī)分析的技術(shù)只能獲取數(shù)據(jù)表層的信息,在對(duì)其潛在的方面卻有所欠缺。在云計(jì)算的背景下,通過數(shù)據(jù)挖掘技術(shù)能夠?qū)?shù)據(jù)相互之間的關(guān)系進(jìn)行整理,并通過一定的模式將其展示出來。
2.5 大數(shù)據(jù)可視化技術(shù)
海量的數(shù)據(jù)信息經(jīng)過大數(shù)據(jù)的多層次的分析處理后,能夠通過大數(shù)據(jù)可視化技術(shù)的應(yīng)用而形象直觀的展示給用戶,以便于用戶能夠充分的理解。
3 大數(shù)據(jù)處理系統(tǒng)
3.1 基于融合式架構(gòu)的應(yīng)用
融合式架構(gòu)的應(yīng)用其實(shí)就是一種客戶機(jī)和服務(wù)器的架構(gòu)模式,客戶機(jī)是用于人機(jī)交互,而服務(wù)器負(fù)責(zé)對(duì)應(yīng)用系統(tǒng)進(jìn)行管理和控制等。這種架構(gòu)模式相對(duì)簡(jiǎn)單易維護(hù),但對(duì)于服務(wù)器的性能有較高的依賴。
3.2 基于分散式架構(gòu)的應(yīng)用
在分散式架構(gòu)中各個(gè)節(jié)點(diǎn)是相互平等的,且具有一定的自治的功能。但是由于分部存儲(chǔ)和操作的數(shù)據(jù)的存在,使其在維護(hù)方面比較困難,各個(gè)節(jié)點(diǎn)之間也難以即時(shí)的同步。
3.3 基于混合式結(jié)構(gòu)的應(yīng)用
混合式架構(gòu)具有前兩種架構(gòu)的有點(diǎn),既能夠便于用戶進(jìn)行交流互動(dòng),又可以有效的降低對(duì)服務(wù)器的壓力,提升系統(tǒng)的使用效率。
4 結(jié)束語
現(xiàn)階段,隨著網(wǎng)絡(luò)社交平臺(tái)的進(jìn)一步發(fā)展、傳感器的深度應(yīng)用以及物聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)已經(jīng)在人們生活的各個(gè)方面得到了體現(xiàn)。因此,我們要對(duì)大數(shù)據(jù)的處理進(jìn)行深入的研究,以充分挖掘其中所包含的價(jià)值,以更好的服務(wù)于社會(huì)。
參考文獻(xiàn):
[1] 任桂禾,王晶.淺談大數(shù)據(jù)處理技術(shù)架構(gòu)的演進(jìn)[J].信息通信技術(shù),2014(06):47-51.
[2] 馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[ J]. 國防科技,2013(34) :10-17.
[3] 程學(xué)旗,靳小龍,王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014(25):1889-1908.
作者簡(jiǎn)介:
戚坤,1982年11月,女,漢,吉林白山市人,本科,工程師,研究方向:大數(shù)據(jù)與人工智能。