王晨晨 孫睿
摘要:隨著網(wǎng)絡(luò)信息化的日益普遍,移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)等大大拓展了互聯(lián)網(wǎng)的應(yīng)用領(lǐng)域,我們將會(huì)接觸越來越多甚至爆炸性增長(zhǎng)的數(shù)據(jù)。大數(shù)據(jù)給我們社會(huì)政治、經(jīng)濟(jì)、文化、生活方面都帶來深遠(yuǎn)影響,我們也在“大數(shù)據(jù)”時(shí)代中尋求更高效合理利用大數(shù)據(jù)的方法,使之對(duì)我們產(chǎn)生更積極的影響。
關(guān)鍵詞 :大數(shù)據(jù);數(shù)據(jù)分析;影響
1大數(shù)據(jù)的定義及發(fā)展背景
近幾年來,隨著計(jì)算機(jī)和信息技術(shù)的飛速發(fā)展和日漸普及的應(yīng)用,各行各業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,每個(gè)行業(yè)應(yīng)用系統(tǒng)所產(chǎn)生的數(shù)據(jù)呈爆炸性的增長(zhǎng)?!?】很多企業(yè)的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)的超出了現(xiàn)有的計(jì)算機(jī)技術(shù)和信息技術(shù)的處理能力,因此,我們需要尋求一種有效的大數(shù)據(jù)處理技術(shù),來滿足現(xiàn)有企業(yè)大數(shù)據(jù)的處理需求。
由于大數(shù)據(jù)處理需求的迫切性和重要性,近年來大數(shù)據(jù)技術(shù)已經(jīng)在全球的學(xué)術(shù)界、商界以及各國政府都得到了高度的關(guān)注和重視。哈佛大學(xué)社會(huì)學(xué)教授加里·金說:“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!?】”為了緊跟全球大數(shù)據(jù)發(fā)展的潮流和趨勢(shì),我國各界也對(duì)大數(shù)據(jù)給予了高度的關(guān)注。
在我看來,大數(shù)據(jù)是一個(gè)“仁者見仁,智者見智”的東西。對(duì)于投資人和創(chuàng)業(yè)者而言,大數(shù)據(jù)就是一個(gè)非常熱門的融資標(biāo)簽。對(duì)于一些互聯(lián)網(wǎng)公司和IT工程師而言,大數(shù)據(jù)就是很多的數(shù)據(jù)進(jìn)行處理計(jì)算。對(duì)于廣大的消費(fèi)者和用戶而言,大數(shù)據(jù)就是企業(yè)通過搜集與用戶相關(guān)的隱私,然后進(jìn)行營銷。從理論上來講,大數(shù)據(jù)公司通過搜集用戶的相關(guān)行為信息,可以更好地了解消費(fèi)者的喜好和需求,從而可以做出相應(yīng)的決策以更好地向用戶銷售自己的產(chǎn)品。
3大數(shù)據(jù)的七大特性
3.1 海量性
海量性是大數(shù)據(jù)最明顯的特點(diǎn)?,F(xiàn)如今許多企業(yè)都面臨著數(shù)據(jù)量大規(guī)模增長(zhǎng)的問題,其中IDC的報(bào)告預(yù)測(cè)稱:全球數(shù)據(jù)量將擴(kuò)大50倍。從目前來看,大數(shù)據(jù)的規(guī)模仍是一個(gè)不確定的指標(biāo),每個(gè)企業(yè)的數(shù)據(jù)數(shù)量都在源源不斷地增長(zhǎng),并且還有各種意想不到的來源,都可以產(chǎn)生大量數(shù)據(jù)。
3.2 多樣性
許多人認(rèn)為,大數(shù)據(jù)多樣性的產(chǎn)生是由于人們?cè)絹碓蕉嗟氖褂没ヂ?lián)網(wǎng),并且搜索不同內(nèi)容。然而隨著傳感器、智能設(shè)備等的飛速發(fā)展,數(shù)據(jù)也變得更為復(fù)雜,因?yàn)樗粌H僅包含傳統(tǒng)數(shù)據(jù)類型,還包括網(wǎng)頁日志、社交媒體、電子郵件等多種類型的數(shù)據(jù)。并且,大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式也變得更加多種多樣,包括文本、圖片、視頻音頻等更多類型。除此之外,數(shù)據(jù)也多了許多我們意想不到的來源。
3.3 高速性
高速性主要描述的是數(shù)據(jù)的接收和處理速度。在數(shù)據(jù)處理的速度方面,有一個(gè)著名的“1秒定律”,也就是說要在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果,超出了這個(gè)時(shí)間,數(shù)據(jù)也就失去價(jià)值了。數(shù)據(jù)的高速性可以體現(xiàn)在兩個(gè)方面,一方面是數(shù)據(jù)的產(chǎn)生速度快,比如社交媒體的用戶眾多,所以短時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)量已經(jīng)巨大,又比如GPS的位置信息,同一時(shí)間會(huì)有非常多的人同時(shí)使用定位。另一方面,是數(shù)據(jù)的處理速度快。時(shí)間就是金錢,時(shí)間越久,數(shù)據(jù)的價(jià)值就越低,而且數(shù)據(jù)本身就具有時(shí)效性,過了一定的時(shí)間,數(shù)據(jù)可能就會(huì)失去其本身的意義了。
3.4易變性
大數(shù)據(jù)具有多層的結(jié)構(gòu),這也就是說大數(shù)據(jù)會(huì)有多變的形式和類型。與傳統(tǒng)型數(shù)據(jù)相比,大數(shù)據(jù)存在著很多不規(guī)則且模糊不清的特性,所以會(huì)導(dǎo)致有些數(shù)據(jù)無法用現(xiàn)有的分析手段進(jìn)行分析。所以對(duì)于很多現(xiàn)代企業(yè)來說,如果更好地分析現(xiàn)有的各種形式的復(fù)雜數(shù)據(jù)成為其所面臨的挑戰(zhàn)。
3.5真實(shí)性
數(shù)據(jù)的質(zhì)量和真實(shí)性決定數(shù)據(jù)帶給我們的價(jià)值。數(shù)據(jù)的質(zhì)量并不容易判定,有時(shí)候大量真實(shí)的數(shù)據(jù)不見得是有質(zhì)量的數(shù)據(jù),真正對(duì)我們有幫助的數(shù)據(jù)才可以算作高質(zhì)量的數(shù)據(jù)。但是高質(zhì)量的數(shù)據(jù)一定是真實(shí)的。我們可以通過更加先進(jìn)的數(shù)據(jù)分析處理技術(shù),來降低數(shù)據(jù)的不確定性,可以用更先進(jìn)的數(shù)學(xué)方法來保證數(shù)據(jù)的真實(shí)性,從而使所得數(shù)據(jù)更好地為我們所用。
3.6復(fù)雜性
大數(shù)據(jù)的復(fù)雜性主要體現(xiàn)在數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)細(xì)節(jié)的多樣性。隨著數(shù)據(jù)量的增長(zhǎng),數(shù)據(jù)的類型越來越多,數(shù)據(jù)結(jié)構(gòu)也越來越多,這些都使大數(shù)據(jù)變得越來越復(fù)雜。簡(jiǎn)單來說,不同的數(shù)據(jù)類型具有不同的規(guī)則,所以對(duì)數(shù)據(jù)進(jìn)行處理時(shí)就不能用單一的處理方法,要用數(shù)據(jù)自己的語言語法來連接處理。
3.7低價(jià)值密度性
低價(jià)值密度性,簡(jiǎn)單來說就是數(shù)據(jù)量雖然龐大,但有價(jià)值的信息并沒有那么多,也就是高質(zhì)量信息并不多。如今,數(shù)據(jù)爆炸式增長(zhǎng),信息海量,但信息的價(jià)值密度并不高,這也就要求我們能夠在龐大的信息量中,提取最有用的信息來加以利用,這對(duì)于目前的我們來說是一個(gè)需要解決的難題。
4大數(shù)據(jù)處理的關(guān)鍵架構(gòu)
大數(shù)據(jù)主要的處理模式主要有兩種,分別為流處理和批處理。批處理是先存儲(chǔ)后處理,而流處理則是直接處理?!?】
大數(shù)據(jù)處理的關(guān)鍵架構(gòu)主要包括文件系統(tǒng)層、數(shù)據(jù)存儲(chǔ)層、資源管理層、資源協(xié)調(diào)層、計(jì)算框架層、數(shù)據(jù)分析層、數(shù)據(jù)集成層和操作框架層。這些框架層次給大數(shù)據(jù)處理過程提供了比較全面的功能,比如可以對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)管理、提高資源的利用率、良好的協(xié)調(diào)資源分布等。
大數(shù)據(jù)處理的流程包括數(shù)據(jù)抽取與集成、數(shù)據(jù)分析、數(shù)據(jù)解釋三個(gè)部分。其中,數(shù)據(jù)抽取與集成是整個(gè)流程的基礎(chǔ)。由于數(shù)據(jù)類型多樣、數(shù)據(jù)來源廣泛、數(shù)據(jù)結(jié)構(gòu)復(fù)雜,所以這給大數(shù)據(jù)的抽取帶來了極大的挑戰(zhàn)。在這個(gè)過程中,首先要保證數(shù)據(jù)的質(zhì)量及真實(shí)性。其次,數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程的核心,因?yàn)榇髷?shù)據(jù)的價(jià)值就產(chǎn)生于其分析的過程。根據(jù)人們不同的需求,選擇相對(duì)應(yīng)有部分或全部的數(shù)據(jù)進(jìn)行分析,并得到盡可能好的分析結(jié)果。
5大數(shù)據(jù)的影響
大數(shù)據(jù)對(duì)于我們來說,是一個(gè)既遙遠(yuǎn)又親近的存在。在生活方面,app會(huì)記錄我們的瀏覽信息,推送相關(guān)鏈接,方便我們搜索。在交通方面,交管機(jī)構(gòu)可以根據(jù)人們出行的大數(shù)據(jù)進(jìn)行分析,采取合理措施以解決高峰期擁堵問題,同時(shí)計(jì)算機(jī)動(dòng)車對(duì)環(huán)境的污染程度,提出合理方案來緩解環(huán)境污染問題。在醫(yī)療方面,大數(shù)據(jù)也是一個(gè)全新且重要的應(yīng)用。公共衛(wèi)生部門可以通過覆蓋全國的患者的電子病歷進(jìn)行全面完整的疫情監(jiān)測(cè);各地的醫(yī)療信息可以通過公共平臺(tái)共享,這樣既方便各醫(yī)療機(jī)構(gòu)之間的交流學(xué)習(xí),又可以提升落后地區(qū)的醫(yī)療水平,減少誤診率;醫(yī)藥研發(fā)機(jī)構(gòu)可以更快速的掌握各地的醫(yī)療衛(wèi)生數(shù)據(jù),了解公共疾病藥品的需求,更加合理的配置研發(fā)資源,更有效率的生產(chǎn)產(chǎn)品;居民可以通過云平臺(tái),及時(shí)了解疾病特征,對(duì)比自身健康程度,能夠更及時(shí)地發(fā)現(xiàn)疾病,早治療,實(shí)現(xiàn)疾病的科學(xué)管理?!?】
然而,大數(shù)據(jù)帶給我們方便的同時(shí),也給我們帶來了一些不良影響,比如信息安全問題。大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)的信息安全措施已經(jīng)不足以保護(hù)我們的隱私,所以導(dǎo)致大量信息的泄露?,F(xiàn)在很多app對(duì)于手機(jī)都是深度植入,有些商家為了利益甚至可能會(huì)出賣用戶的信息。
6總結(jié)
綜合來看,未來若干年,大數(shù)據(jù)仍是這個(gè)社會(huì)發(fā)展的主流。商務(wù)智能、醫(yī)療共享、公共服務(wù)等仍需要大數(shù)據(jù)的支持與發(fā)展,我們也將面臨更大的挑戰(zhàn),不僅要研究更智能更高效的數(shù)據(jù)處理方法,也要更努力的克服大數(shù)據(jù)時(shí)代所帶來的弊端。凡事都有兩面性,我們應(yīng)當(dāng)更加積極的用好大數(shù)據(jù)有價(jià)值的一面,同時(shí)盡量避免大數(shù)據(jù)給我們帶來的不利因素。未來很長(zhǎng),仍值得努力與期待。
參考文獻(xiàn):
[1] 黃星宇. 淺談大數(shù)據(jù)[J]. 科技視界, 2014(30):90-90.
[2] 維克托·邁爾-舍恩伯格, 肯尼思·庫克耶, ViktorMayer- Schonberger,等. 大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M]. 浙江人民出版社, 2013.
[3] 孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(1):146-169.
[4] 周光華, 辛英, 張雅潔,等. 醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用探討[J]. 中國衛(wèi)生信息管理雜志, 2013(4):296-300.
作者簡(jiǎn)介:王晨晨(1997—),女,漢族,山東濟(jì)南人,就讀于山東師范大學(xué)管理科學(xué)與工程學(xué)院,研究方向:大數(shù)據(jù)分析。