白 晟,李榮香
(東北石油大學(xué),河北 秦皇島 066004)
大數(shù)據(jù)應(yīng)用發(fā)展及挑戰(zhàn)
白晟,李榮香
(東北石油大學(xué),河北秦皇島066004)
隨著現(xiàn)代社會(huì)信息技術(shù)的高速發(fā)展及網(wǎng)絡(luò)、云計(jì)算在人們?nèi)粘I钪袘?yīng)用的增加,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)為我們了解、認(rèn)知、改造世界提供了重要的依據(jù).企業(yè)和個(gè)人通過計(jì)算機(jī)、移動(dòng)設(shè)備、網(wǎng)絡(luò)等工具不斷制造并傳輸著大量的信息,這些信息既包括了企業(yè)的還涵蓋了個(gè)人及其它事物的,同時(shí)信息還在不斷繁衍并迅速的增加.大數(shù)據(jù)已經(jīng)悄然融入到我們的生活的每一個(gè)角落,并無時(shí)無刻的影響著我們.如何發(fā)掘、利用、組織這些種類繁雜的數(shù)據(jù)并保證數(shù)據(jù)在傳遞和使用過程中的的安全是我們當(dāng)前非常重視的問題之一,同時(shí)它也給我們帶來了巨大的挑戰(zhàn).
大數(shù)據(jù);信息安全;大數(shù)據(jù)應(yīng)用;大數(shù)據(jù)挑戰(zhàn)
當(dāng)今世界處在信息數(shù)據(jù)高速發(fā)展的時(shí)期,伴隨著IOT、SNS、移動(dòng)網(wǎng)絡(luò)、云計(jì)算等技術(shù)的不斷革新,大量增長(zhǎng)的數(shù)據(jù)給我們的生活帶來了便利、提高了我們的工作效率以及對(duì)科學(xué)發(fā)展模式的變革,但同時(shí)也出現(xiàn)了一些嚴(yán)峻的問題諸如:數(shù)據(jù)安全、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理等帶來了新的挑戰(zhàn).大數(shù)據(jù)作為新一代的生產(chǎn)力將為人類的發(fā)展提供巨大的財(cái)富,對(duì)整個(gè)社會(huì)的進(jìn)步起著非常重要的作用.
大數(shù)據(jù)(bigdata),指不能在可承受的時(shí)間范圍內(nèi)用普通軟件工具進(jìn)行搜集、管理和處理的體量非常大的數(shù)據(jù)集合.大數(shù)據(jù)技術(shù)可以從種類繁多、體量巨大的數(shù)據(jù)中迅速、方便得到有價(jià)值的資源.我們所認(rèn)知的大數(shù)據(jù)還包括搜集數(shù)據(jù)的設(shè)備、系統(tǒng)和數(shù)據(jù)分析平臺(tái).
整個(gè)世界的數(shù)據(jù)體量出現(xiàn)了驚人的增長(zhǎng),在高速增長(zhǎng)的各種資源中,數(shù)據(jù)無疑是高增長(zhǎng)之一的資源.根據(jù)國(guó)際數(shù)據(jù)公司的測(cè)試統(tǒng)計(jì),全世界的數(shù)據(jù)總量在2009年比之前的年代足足增長(zhǎng)了百分之六十二.截止到2014年僅中國(guó)的數(shù)據(jù)總量都到達(dá)了909EB,這樣的數(shù)據(jù)量占全球份額的百分之十三左右,再過十五年數(shù)據(jù)量還會(huì)爆發(fā)增長(zhǎng)至8060EB.對(duì)于在數(shù)據(jù)類型中的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)也伴隨著數(shù)據(jù)總量不斷增長(zhǎng).作為當(dāng)前國(guó)家非常重視的大數(shù)據(jù)醫(yī)療、大數(shù)據(jù)教育、大數(shù)據(jù)電商、大數(shù)據(jù)使用等熱點(diǎn)問題,受到了很多學(xué)科領(lǐng)域、政府部門等專業(yè)人員及領(lǐng)導(dǎo)的關(guān)注及重視,但是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理我們使用以前的方法、經(jīng)驗(yàn)已經(jīng)難以應(yīng)付.如何面對(duì)當(dāng)前的數(shù)據(jù)資源的利用、采集、整合等問題,給我們的處理方式帶來了巨大的挑戰(zhàn).
對(duì)于大數(shù)據(jù)具有公認(rèn)的幾個(gè)基本特點(diǎn):數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variet}},數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價(jià)值密度低(Value),即所謂的四V特性.
第一,數(shù)據(jù)體量大.當(dāng)前數(shù)據(jù)規(guī)模從TB單位發(fā)展提升到PB,更大級(jí)別的為EB單位.1024GB=1TB;1024TB=1PB;1024PB=1EB;1024EB=1ZB;1024ZB=YB.從以上的公式換算中我們可以明確了解到數(shù)據(jù)單位的體量大小.如果以人類語言量大小為單位,我們所統(tǒng)計(jì)出來的人類歷史至今的語言量為5EB.
第二,數(shù)據(jù)類型繁多.結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)作為數(shù)據(jù)類型的分類標(biāo)準(zhǔn).結(jié)構(gòu)化數(shù)據(jù)的主要內(nèi)容以方便儲(chǔ)存的文本為對(duì)象.非結(jié)構(gòu)化數(shù)據(jù)在各種場(chǎng)合應(yīng)用日益增多對(duì)我們的處理帶來了更高的技術(shù)難度,如何應(yīng)對(duì)是我們所面臨的首要問題.對(duì)于除文本之外的SNS社交日志,聲音、動(dòng)畫、照片、地理位置等信息的采集、過濾、輸出需要更高的方法.
第三,數(shù)據(jù)價(jià)值密度低.我們對(duì)于視頻數(shù)據(jù)的采集和發(fā)掘比較費(fèi)時(shí),對(duì)于一個(gè)小時(shí)的視頻內(nèi)容,我們采集、監(jiān)控挖掘需要很多的時(shí)間,但是真正有價(jià)值需求的數(shù)據(jù)卻很少.那么如何通過特定的機(jī)器算法和軟件算法快速找到需要的數(shù)據(jù)是我們當(dāng)前亟需解決的問題.
第四,處理速度快.對(duì)于大數(shù)據(jù)和傳統(tǒng)海量數(shù)據(jù)最大的一個(gè)區(qū)別就是數(shù)據(jù)體量和對(duì)數(shù)據(jù)處理的速度.大數(shù)據(jù)要求對(duì)數(shù)據(jù)的實(shí)時(shí)處理速度很高.對(duì)計(jì)算機(jī)硬件架構(gòu)及軟件算法都有很高的要求.我們傳統(tǒng)的對(duì)數(shù)據(jù)運(yùn)算計(jì)時(shí)單位分別是星期、日及小時(shí).此時(shí)下降到更短的計(jì)時(shí)周期分別以分鐘和秒為計(jì)量單位.數(shù)據(jù)處理的速度成為大數(shù)據(jù)重要價(jià)值表現(xiàn)之一的特點(diǎn).
這些數(shù)據(jù)特點(diǎn)相對(duì)于傳統(tǒng)的數(shù)據(jù)概念和單純的數(shù)據(jù)體量—“海量數(shù)據(jù)”也不相同,海量數(shù)據(jù)主要的特征是數(shù)據(jù)的體積量,而大數(shù)據(jù)不但用來表述海量的數(shù)據(jù),而且更進(jìn)一步表現(xiàn)出數(shù)據(jù)的復(fù)雜特點(diǎn)、數(shù)據(jù)的快速時(shí)間特性以及對(duì)數(shù)據(jù)的搜集、加工等專業(yè)化管理,最終取得有用的數(shù)據(jù)信息.
大數(shù)據(jù)的價(jià)值體現(xiàn)在可以幫助改善、提高我們?cè)谵r(nóng)業(yè)、醫(yī)療、衛(wèi)生、保險(xiǎn)、能源、安全、教育和交通運(yùn)輸?shù)雀鱾€(gè)領(lǐng)域等各方面領(lǐng)域的應(yīng)用效率,其內(nèi)涵概念非常寬泛,那么大數(shù)據(jù)是如何幫助我們?cè)诟鱾€(gè)行業(yè)中挖掘出有用的價(jià)值信息呢?我們通過舉例來羅列出其所分析應(yīng)用上的關(guān)鍵領(lǐng)域:
4.1改善生活
提到大數(shù)據(jù),我們多數(shù)人會(huì)想到一些高端應(yīng)用的領(lǐng)域,但是隨著其應(yīng)用的廣泛,其慢慢滿滲透到我們的日常生活中,例如在我們可以通過一些智能可穿戴設(shè)備監(jiān)測(cè)我們每天運(yùn)動(dòng)消耗的能量,并還可以對(duì)睡眠的狀態(tài)實(shí)時(shí)跟蹤.通過分析、搜集、分析這些數(shù)據(jù)來改善提高我們的生活及運(yùn)動(dòng)方式.對(duì)于年輕人喜愛瀏覽的SNS網(wǎng)站,我們通過大數(shù)據(jù)分析可以迅速定位、匹配到我們喜愛的對(duì)象.
4.2提高醫(yī)療和研發(fā)
在醫(yī)療領(lǐng)域中我們經(jīng)常遇到一些難以治療的疾病,相應(yīng)的治療方案更是無法制定.此時(shí)我們通過計(jì)算機(jī)使用大數(shù)據(jù)對(duì)病人的DNA進(jìn)行解碼,同時(shí)可以幫助醫(yī)生更加準(zhǔn)確、判斷病人的狀態(tài),并制定出相應(yīng)的治療方案,對(duì)于一些隱性疾病也可以做到提前預(yù)測(cè)以便防患以未然.在目前的醫(yī)療診治中,尤其是早產(chǎn)嬰兒和患病嬰兒中,我們通過大數(shù)據(jù)技術(shù)分析嬰兒的心跳頻率來判斷、識(shí)別嬰兒的疾病狀態(tài)以及嬰兒可能會(huì)出現(xiàn)的不適癥狀,一般更好的對(duì)嬰兒疾病進(jìn)行診治.
4.3改善我們的城市交通
大數(shù)據(jù)還被應(yīng)用在改善我們城市交通中,我們?cè)谌粘3鲂兄薪?jīng)常交通堵塞,通過大數(shù)據(jù)分析可判斷實(shí)時(shí)路況,并給出合理的行車路線,極大提高我們的出行效率,節(jié)省我們的出行時(shí)間,當(dāng)前有很多城市都在嘗試進(jìn)行大數(shù)據(jù)分析和試點(diǎn).
4.4金融交易
金融交易是的當(dāng)前大數(shù)據(jù)在啊金融領(lǐng)域的主要應(yīng)用之一.在應(yīng)用領(lǐng)域較多的高頻交易中,大數(shù)據(jù)的算法對(duì)交易決定給予了支持.對(duì)于金融交易中的股權(quán)交易需要通過大數(shù)據(jù)分析,并利用SNS數(shù)據(jù)屬性及網(wǎng)站的實(shí)時(shí)資訊來決定要交易的方式是買入還是賣出.
5.1對(duì)數(shù)據(jù)庫管理技術(shù)的挑戰(zhàn)
系統(tǒng)復(fù)雜度高:不同的數(shù)據(jù)庫管理系統(tǒng)所開發(fā)出不同的數(shù)據(jù)管理模塊,對(duì)于模塊間的差異性問題比較突出,很難能夠有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)模型對(duì)所有的大數(shù)據(jù)進(jìn)行建模.
用戶案例多樣性:針對(duì)于不同的場(chǎng)景特例,使不同的用戶類型產(chǎn)生了不同的數(shù)據(jù)類型,對(duì)于有著統(tǒng)一用戶代表行為的數(shù)據(jù)類型很難獲取.
數(shù)據(jù)規(guī)模龐大:如果說我們傳統(tǒng)的用戶數(shù)據(jù)規(guī)模是一個(gè)水池,那么如今的大數(shù)據(jù)的規(guī)模則可以比喻成一所大海,對(duì)于如此龐大的數(shù)據(jù)體量,傳統(tǒng)的輸數(shù)管理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析方式需要分布式數(shù)據(jù)庫管理系統(tǒng)在全世界的范圍內(nèi)利用數(shù)萬計(jì)的計(jì)算機(jī)進(jìn)行處理.
5.2實(shí)時(shí)性的技術(shù)挑戰(zhàn)
傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)、商業(yè)智能(BusinessIntelligence)對(duì)于處理器返回運(yùn)行結(jié)果的時(shí)間并不是非常高.對(duì)于延遲一些時(shí)間的數(shù)據(jù)仍然不影響整個(gè)系統(tǒng)的分析.大數(shù)據(jù)對(duì)數(shù)據(jù)運(yùn)行、處理的要求速度和實(shí)時(shí)性很高,這也是大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)倉(cāng)庫和商業(yè)智能的的主要區(qū)別之一.
5.3對(duì)數(shù)據(jù)安全的挑戰(zhàn)
大數(shù)據(jù)帶來機(jī)遇的同時(shí)也給我們帶來了挑戰(zhàn),挑戰(zhàn)來自于數(shù)據(jù)計(jì)算模型的升級(jí)、數(shù)據(jù)隱私安全的保護(hù)和計(jì)算機(jī)硬件的升級(jí)換代等.
隨著社交網(wǎng)絡(luò)不斷升級(jí)擴(kuò)容,里面的數(shù)據(jù)也在不斷增加,在數(shù)據(jù)高速增長(zhǎng)的當(dāng)前,我們每個(gè)人的私密數(shù)據(jù)將有可能被暴露出來.網(wǎng)絡(luò)病毒的泛濫、黑客的攫取、及一些利益鏈之間的數(shù)據(jù)買賣都成為我們所面臨的一大威脅.當(dāng)我們開車行走在城市的街頭,我們的車牌數(shù)據(jù)會(huì)被記錄.當(dāng)我們就醫(yī)錄入的的個(gè)人信息都會(huì)被存儲(chǔ),追訪.我們?cè)谏虉?chǎng)購(gòu)物、網(wǎng)絡(luò)博客、微信、QQ、酒店住宿等等來自于不同場(chǎng)所的各種數(shù)據(jù)信息都會(huì)被大數(shù)據(jù)系統(tǒng)經(jīng)過計(jì)算、篩選后輕易的羅列出來.這些信息在給我們帶來了便利的時(shí)候也可能會(huì)使其成為威脅.這些會(huì)給我們生活帶來巨大的變化或影響包括了正面和負(fù)面的.如何規(guī)避風(fēng)險(xiǎn)、那么需要政府制定一系列的政策和法律法規(guī)對(duì)不法個(gè)人和機(jī)構(gòu)進(jìn)行約束、管理,避免數(shù)據(jù)的濫用和公民隱私安全的暴露是我們政府應(yīng)當(dāng)積極面對(duì)的問題.
大數(shù)據(jù)的應(yīng)用滲透到我們的生活中并融入到了社會(huì)中的的各行各業(yè).大數(shù)據(jù)分析、數(shù)據(jù)處理的的地位已經(jīng)深入人心,不可撼動(dòng).這些海量的數(shù)據(jù)借助于云計(jì)算平臺(tái),推動(dòng)著工業(yè)、商業(yè)等各個(gè)領(lǐng)域的變革、創(chuàng)新,并對(duì)顯著提升生產(chǎn)力創(chuàng)造出巨大的社會(huì)價(jià)值有著巨大的貢獻(xiàn).大數(shù)據(jù)帶來了價(jià)值,同時(shí)也受限于硬件、軟件系統(tǒng)資源的更新,他對(duì)新的技術(shù)變革提出了巨大的挑戰(zhàn),還面臨著一定的數(shù)據(jù)風(fēng)險(xiǎn)和威脅,對(duì)于這把雙刃劍如何利用、挖掘及控制系統(tǒng)性風(fēng)險(xiǎn)也是我們也要時(shí)刻關(guān)注并防范著.
〔1〕趙春雷.大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)[J].世界科學(xué),2012.
〔2〕馮偉.大數(shù)據(jù)時(shí)代面臨的信息安全機(jī)遇和挑戰(zhàn)[J].中國(guó)科技投資,2012.
〔3〕元博.淺談大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息的安全與保密技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014.
〔4〕梁巧琴.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].信息通信,2015.
〔5〕廖建新.大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J].電信科學(xué),2015.
TP311.3
A
1673-260X(2016)07-0020-02
2016-03-25
基于AR的互動(dòng)式3D電子書的研究與發(fā)展(201502A004)