吳磊
摘 要:隨著大數(shù)據(jù)概念的提出,云計(jì)算技術(shù)也快速發(fā)展。時(shí)至今日,大數(shù)據(jù)和云計(jì)算已經(jīng)成為互聯(lián)網(wǎng)時(shí)代的潮流,許多學(xué)者對(duì)大數(shù)據(jù)進(jìn)行研究,提出了許多可行有效的數(shù)據(jù)分析方法,使人們從巨量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù),提高數(shù)據(jù)的利用率,這些分析方法已經(jīng)得到實(shí)際運(yùn)用,并且?guī)?lái)很好的經(jīng)濟(jì)效益。
關(guān)鍵詞:大數(shù)據(jù);云計(jì)算;數(shù)據(jù)分析;數(shù)據(jù)挖掘
1、引言
近幾年,隨著互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的迅速發(fā)展,人類(lèi)之間的活動(dòng)和交往日益復(fù)雜,數(shù)據(jù)呈現(xiàn)快速增長(zhǎng)趨勢(shì),于是便迎來(lái)了大數(shù)據(jù)時(shí)代。
人類(lèi)的社會(huì)活動(dòng)產(chǎn)生了巨量的數(shù)據(jù),這些數(shù)據(jù)正處在瘋狂成長(zhǎng)的階段,引起了商業(yè)界、科學(xué)界和政府機(jī)構(gòu)的廣泛關(guān)注。如何處理這些巨量數(shù)據(jù)和如何在海量數(shù)據(jù)中挖掘有價(jià)值的數(shù)據(jù)是所需要解決的主要問(wèn)題。
2、大數(shù)據(jù)的基本概念
2.1大數(shù)據(jù)的定義
人們所理解的數(shù)據(jù)大多數(shù)是存儲(chǔ)在數(shù)據(jù)庫(kù)中,可以用來(lái)讀取、計(jì)算和操作的結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)就是海量的數(shù)據(jù)。大數(shù)據(jù)指的其實(shí)就是“海量數(shù)據(jù)+復(fù)雜數(shù)據(jù)類(lèi)型”及非結(jié)構(gòu)化數(shù)據(jù),其核心在于數(shù)據(jù)的挖掘和應(yīng)用產(chǎn)生的多方位價(jià)值[1]。大數(shù)據(jù)規(guī)模大,數(shù)據(jù)結(jié)構(gòu)復(fù)雜度高,數(shù)據(jù)關(guān)聯(lián)度高等特點(diǎn)。
2.2大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)具有以下4個(gè)主要特征:
2.2.1巨量(volumes)
傳統(tǒng)人們使用的數(shù)據(jù)都以KB、MB、GB和TB為單位來(lái)衡量,在現(xiàn)在數(shù)據(jù)爆炸的時(shí)代,TB都已經(jīng)無(wú)法衡量人們所掌握的數(shù)據(jù)容量,而是用PB、EB、或ZB作為大數(shù)據(jù)的計(jì)量單位。在互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)瘋狂增長(zhǎng),有關(guān)數(shù)據(jù)表明,過(guò)去3年人類(lèi)的信息數(shù)據(jù)總量比以往4萬(wàn)年的數(shù)據(jù)量還要多。
2.2.2高速(Velocity)
大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別,當(dāng)面臨各種信息時(shí),如何把握數(shù)據(jù)的時(shí)效性,從各種數(shù)據(jù)類(lèi)型中快速獲取高價(jià)值的信息,是大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)處理提出的基本要求。
2.2.3多樣(Variety)
互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)不僅體現(xiàn)在量的增長(zhǎng),而且數(shù)據(jù)類(lèi)型變得十分復(fù)雜。它不僅包括可以存儲(chǔ)在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù);也包括非結(jié)構(gòu)化數(shù)據(jù),如文本、視頻、音頻和圖片等,而且非結(jié)構(gòu)化數(shù)據(jù)占據(jù)很大的比重。統(tǒng)計(jì)顯示,全世界結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)率大約是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率則是63%。非結(jié)構(gòu)化數(shù)據(jù)往往在大數(shù)據(jù)中具有更高的價(jià)值。
2.2.4高值(Value)
對(duì)于海量的數(shù)據(jù),人們需要從中提取出有價(jià)值的數(shù)據(jù)為己所用,數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于商業(yè),對(duì)數(shù)據(jù)價(jià)值進(jìn)行再挖掘。巨量數(shù)據(jù)中有價(jià)值的數(shù)據(jù)是極小的一部分,大數(shù)據(jù)的價(jià)值密度很低,然而只要合理的利用數(shù)據(jù),并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)很高的價(jià)值回報(bào)。
3、大數(shù)據(jù)面臨的挑戰(zhàn)
由于大數(shù)據(jù)具有數(shù)據(jù)量大,要求處理速度快,數(shù)據(jù)種類(lèi)多,價(jià)值密度低等特點(diǎn),使得大數(shù)據(jù)技術(shù)面臨嚴(yán)重的挑戰(zhàn),對(duì)于大數(shù)據(jù)的處理和計(jì)算面臨的許多問(wèn)題都依然沒(méi)有得到本質(zhì)的解決。
3.1數(shù)據(jù)傳輸問(wèn)題
互聯(lián)網(wǎng)時(shí)代,人們利用網(wǎng)絡(luò)傳輸數(shù)據(jù),面對(duì)海量數(shù)據(jù),以現(xiàn)有的網(wǎng)絡(luò)傳輸技術(shù),需要花費(fèi)大量的時(shí)間和帶寬。大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)無(wú)法滿(mǎn)足人們數(shù)據(jù)傳輸?shù)囊?,不但花費(fèi)大量的時(shí)間,而且占用了許多寶貴的網(wǎng)絡(luò)資源。如何快速有效的傳輸大量數(shù)據(jù)仍是難以解決的問(wèn)題。
3.2數(shù)據(jù)存儲(chǔ)問(wèn)題
大數(shù)據(jù)發(fā)展面臨的問(wèn)題是來(lái)自不同地方、標(biāo)準(zhǔn)各異、數(shù)據(jù)量巨大、結(jié)構(gòu)形式種類(lèi)多、實(shí)時(shí)性等多樣化要求的數(shù)據(jù)信息。故此應(yīng)修改基于塊和文件的存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì),以克服存在的問(wèn)題。雖然使用了云服務(wù)技術(shù),但是仍然無(wú)法滿(mǎn)足數(shù)據(jù)容積的增長(zhǎng)速度,人類(lèi)活動(dòng)產(chǎn)生的大量數(shù)據(jù)將面臨著需要大量存儲(chǔ)空間的嚴(yán)峻問(wèn)題。
3.3數(shù)據(jù)計(jì)算問(wèn)題
大數(shù)據(jù)時(shí)代產(chǎn)生的海量數(shù)據(jù)不僅包括可以存儲(chǔ)在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),而且還包括占大比例的非結(jié)構(gòu)化數(shù)據(jù)。要從海量數(shù)據(jù)中挖掘出有價(jià)值的信息,需要一些有效的計(jì)算方法,從大量非結(jié)構(gòu)化數(shù)據(jù)中找出有價(jià)值的信息更加復(fù)雜,如果沒(méi)有高效的計(jì)算方法,不僅需要消耗大量的時(shí)間和計(jì)算機(jī)資源,而且還無(wú)法精確的找到有效的信息。
3.4數(shù)據(jù)分析問(wèn)題
現(xiàn)在的世界是數(shù)據(jù)的世界,現(xiàn)在的科學(xué)是數(shù)據(jù)科學(xué)。如何利用好各種數(shù)據(jù),從海量數(shù)據(jù)中提取有用的信息,需要數(shù)據(jù)建模分析技術(shù)來(lái)解決這些問(wèn)題。盡管科學(xué)家提出了許多行之有效數(shù)據(jù)分析方法,但是仍然無(wú)法達(dá)到理想的目標(biāo)。
3.5數(shù)據(jù)安全與用戶(hù)隱私保護(hù)問(wèn)題
大數(shù)據(jù)下,人們面臨的威脅不僅包括個(gè)人隱私泄漏,更可怕的是基于大數(shù)據(jù)對(duì)用戶(hù)狀態(tài)和行為的預(yù)測(cè);受攻擊或刻意制造的大數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤的分析結(jié)論;大數(shù)據(jù)層層傳播,誤差積累也會(huì)導(dǎo)致數(shù)據(jù)失真。中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)大數(shù)據(jù)專(zhuān)家委員會(huì)關(guān)于2014年大數(shù)據(jù)發(fā)展趨勢(shì)預(yù)測(cè)的報(bào)告指出用戶(hù)隱私會(huì)越來(lái)越多地融入各種大數(shù)據(jù)中,大數(shù)據(jù)更容易成為網(wǎng)絡(luò)攻擊目標(biāo),大數(shù)據(jù)分析技術(shù)更容易被黑客利用,大數(shù)據(jù)引起了更多不易被追蹤和防范的犯罪手段[2]。
4、大數(shù)據(jù)的關(guān)鍵技術(shù)
4.1數(shù)據(jù)挖掘
大數(shù)據(jù)的核心是在于數(shù)據(jù)價(jià)值的挖掘和利用。數(shù)據(jù)挖掘通常是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏在其中信息的過(guò)程。數(shù)據(jù)挖掘技術(shù)主要包括關(guān)聯(lián)分析、序列模式、分類(lèi)、聚類(lèi)、異常檢測(cè),可視化等。數(shù)據(jù)挖掘技術(shù)在各行各業(yè)已得到廣泛應(yīng)用。例如,在旅游大數(shù)據(jù)應(yīng)用中可以采用關(guān)聯(lián)分析對(duì)旅游數(shù)據(jù)進(jìn)行搜索,并從中找出出現(xiàn)概率較高的模式,或者通過(guò)數(shù)據(jù)的聚類(lèi)與分類(lèi),分析旅游數(shù)據(jù)的相似性,將相似的數(shù)據(jù)存放在一起,為決策者提供決策支持[3]。
4.2云計(jì)算
云計(jì)算就是以虛擬化技術(shù)為基礎(chǔ),以網(wǎng)絡(luò)為載體,整合大規(guī)??蓴U(kuò)展的計(jì)算、存儲(chǔ)、數(shù)據(jù)、應(yīng)用等分布式計(jì)算資源進(jìn)行協(xié)同工作的超級(jí)計(jì)算服務(wù)模式。云計(jì)算具有超大規(guī)模、虛擬化、高可靠性、通用性、高可擴(kuò)展性、按需服務(wù)和低成本性等特點(diǎn)。因此,云計(jì)算為海量數(shù)據(jù)構(gòu)建了堅(jiān)實(shí)的基礎(chǔ)[4]。云計(jì)算與大數(shù)據(jù)結(jié)合催生了云機(jī)器人,云機(jī)器人是目前模仿人類(lèi)相似度最高的機(jī)器人。
4.3機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及多門(mén)學(xué)科,是人工智能的核心。研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)并不斷改善自身的性能,是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。自然語(yǔ)言處理是機(jī)器學(xué)習(xí)的一個(gè)例子。目前機(jī)器學(xué)習(xí)與大數(shù)據(jù)結(jié)合用來(lái)進(jìn)行自動(dòng)駕駛汽車(chē)研究和抑郁診療的可計(jì)算方法研究已經(jīng)取得一些成就。
4.4神經(jīng)網(wǎng)絡(luò)
受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)作的啟發(fā),模擬動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。大數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)結(jié)合,可以用來(lái)進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),應(yīng)用實(shí)例包括識(shí)別高價(jià)值客戶(hù)離開(kāi)特定公司的風(fēng)險(xiǎn),以及識(shí)別欺詐性的保險(xiǎn)理賠行為等。
5、結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代到來(lái)給人們的世界帶來(lái)巨大的變化,使人類(lèi)科學(xué)向第四范式轉(zhuǎn)變:實(shí)驗(yàn)科學(xué),理論科學(xué),計(jì)算科學(xué)和數(shù)據(jù)科學(xué)。雖然大數(shù)據(jù)研究取得了很多成果,但是現(xiàn)在大數(shù)據(jù)研究還面臨諸多技術(shù)挑戰(zhàn)。
大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,全球都在這一新領(lǐng)域展開(kāi)了激烈的競(jìng)爭(zhēng),我國(guó)也要與時(shí)俱進(jìn),加快步伐,適應(yīng)這一新時(shí)代的到來(lái)。
(作者單位:重慶交通大學(xué)信息科學(xué)與工程學(xué)院)
參考文獻(xiàn):
[1] 孔德智等,大數(shù)據(jù)淺析[J].電子產(chǎn)品可靠性與環(huán)境試蹌,2013,86
[2] 黎林峰.,2014年大數(shù)據(jù)發(fā)展趨勢(shì)預(yù)測(cè)[J].中國(guó)建設(shè)信息,2014(3):18-19.
[3] 郭鑫,旅游大數(shù)據(jù)與挖掘分析研究[J].2013,3215
[4] 王妍等,大數(shù)據(jù)及相關(guān)技術(shù)解讀[J].特別關(guān)注,2014,20
[5] 嚴(yán)霄鳳等,大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,169