李澤浩
摘 要:近兩百年來,知識爆炸,科學(xué)技術(shù)飛速發(fā)展,工業(yè)化已極大的改變了人們的生活方式。在這中間,數(shù)據(jù)信息作為伴隨產(chǎn)物也井噴式涌現(xiàn)從而迎來大數(shù)據(jù)時代。大數(shù)據(jù)信息量大種類繁雜,價值巨大但是密度較低。分析處理過程也較為復(fù)雜,大數(shù)據(jù)目前已在商業(yè)領(lǐng)域、科學(xué)領(lǐng)域和網(wǎng)絡(luò)領(lǐng)域等有所應(yīng)用,前景巨大。但它在應(yīng)用過程中也伴隨著一些隱患,如個人隱私泄露問題,企業(yè)國家機密保護(hù)等。如何有效的,健康的運用大數(shù)據(jù)成為我們目前的研究方向。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;信息安全
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2017)22-0014-02
1 大數(shù)據(jù)的簡介
1.1 大數(shù)據(jù)概念及其發(fā)展背景
大數(shù)據(jù),顧名思義就是大的數(shù)據(jù),這個大指的就是數(shù)據(jù)大而全。它擁有五個顯著特點即5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。[1]理想的大數(shù)據(jù)可以說包含人類活動的所有信息,相對于現(xiàn)有數(shù)據(jù)使用來說,大數(shù)據(jù)是我們無法在一定時間獲悉,捕捉,處理和管理的,它需要新的一套方法,需要更強更全面的洞察力、決策力和處理能力來滿足大數(shù)據(jù)的利用需求。
數(shù)據(jù)是我們從古至今都使用的傳遞信息的媒介,在工業(yè)革命之前,人類知識總量較少,社會全部的數(shù)據(jù)信息也很少,人們對數(shù)據(jù)的使用停留在部分小數(shù)據(jù),局部數(shù)據(jù)階段。這種情況下,人們生產(chǎn)交流都會產(chǎn)生許多沒有實際效益的無用功。計算機帶來的網(wǎng)絡(luò)化使得數(shù)據(jù)信息急劇增長?,F(xiàn)代社會不僅充斥著大量信息,而且其發(fā)展速度也在飛速增長,隨著經(jīng)濟發(fā)展的網(wǎng)絡(luò)化,數(shù)據(jù)越來越占據(jù)主導(dǎo)地位。從監(jiān)控到科學(xué)教育,從網(wǎng)絡(luò)到工業(yè),各行各業(yè)都在數(shù)據(jù)中生存。未來將是大數(shù)據(jù)的時代。[4]
1.2 大數(shù)據(jù)技術(shù)的特點
大數(shù)據(jù)技術(shù)包含對數(shù)據(jù)的獲取和捕捉,分析和處理,應(yīng)用和反饋等。它是一套系統(tǒng)的過程,在這個過程中,數(shù)據(jù)的獲取和捕捉相當(dāng)繁瑣和困難,因為大數(shù)據(jù)本身信息量巨大而且種類極其繁多,要獲取和整合這些數(shù)據(jù)需要大量的人力物力財力,必須依靠先進(jìn)的計算機知識,數(shù)學(xué)統(tǒng)計知識,并且要對數(shù)據(jù)整體有足夠把握情況。大數(shù)據(jù)技術(shù)還需要極為強悍的服務(wù)器和分析處理設(shè)備及方法,因為我們需要對繁雜的數(shù)據(jù)進(jìn)行提取,提取到的有用信息才能產(chǎn)生價值。另外安全問題作為大數(shù)據(jù)技術(shù)的衍生問題也需給予足夠重視,它決定了我們是否可以長期的,有效的利用大數(shù)據(jù)進(jìn)行發(fā)展。
1.3 大數(shù)據(jù)的處理分析方法
我們研究大數(shù)據(jù)技術(shù)是為了避免因為信息缺失而做的無用功,使社會運行盡可能高效化。因此從大數(shù)據(jù)中提取有用信息才是我們的關(guān)鍵目的。
從技術(shù)上看,大數(shù)據(jù)與云計算是相輔相成的,它們必須協(xié)同合作。大數(shù)據(jù)必然無法用單臺的計算機進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。[3]大數(shù)據(jù)需要的關(guān)鍵技術(shù)參照表1。
對分布式文件系統(tǒng)而言,我們需求的文件系統(tǒng)不是在本地儲存中,而是儲存在另一個終端,這類似于服務(wù)器的工作原理。分布式文件系統(tǒng)的設(shè)計基于客戶機/服務(wù)器模式。一般來說,可以有多個服務(wù)器存在于一個網(wǎng)絡(luò)平臺上,這樣用戶就可以實現(xiàn)訪問的全面和自由化。分布式文件系統(tǒng)巧妙解決了巨量數(shù)據(jù)的管理和儲存:將原來只能儲存在我們本機的數(shù)據(jù),擴散到一個大的網(wǎng)絡(luò)平臺上,再分散到多個儲存點,而我們可以通過通信網(wǎng)絡(luò)輕松的訪問這些數(shù)據(jù),從而實現(xiàn)了數(shù)據(jù)的共同儲存,共同使用,打破了傳統(tǒng)中使用和儲存綁定在一起的模式。我們在使用過程中只需要按照自己的需求進(jìn)行存儲、訪問和管理。如此在現(xiàn)有的硬件模式下,極大地拓寬了數(shù)據(jù)的流量。
對實時處理而言,它要求數(shù)據(jù)的新鮮度,而流處理的方式可以很好的滿足這個要求,應(yīng)用流處理方式,把數(shù)據(jù)分流之后使其分批到達(dá)。而在數(shù)據(jù)分批到達(dá)的過程中,因為其本身帶有大量數(shù)據(jù),所以內(nèi)存中只需要保存少量數(shù)據(jù)。流處理工作精度通常在秒或毫秒級別。
就數(shù)據(jù)分析技術(shù)而言,我們應(yīng)盡量使數(shù)據(jù)簡單易懂,即表示為人可以理解的語言,這就是自然語言。在人工智能發(fā)展中,越來越需求我們以自然語言與數(shù)據(jù)進(jìn)行交流,而不是用人造語言如C語言之類無法直接理解的語言去溝通。
機器學(xué)習(xí)就是讓機器擁有學(xué)習(xí)的能力,也就是說讓計算機可以自己增長知識量,而計算機本身擁有極強的運算和整合分析能力,據(jù)此計算機將可以規(guī)劃出最優(yōu)的行動決策,這點是我們?nèi)四X難以達(dá)到的,機器學(xué)習(xí)推動人工智能的發(fā)展,未來的機器可以代替人類進(jìn)行某些方面的工作,進(jìn)一步解放人類。
2 大數(shù)據(jù)的相關(guān)應(yīng)用
大數(shù)據(jù)技術(shù)的最終目的是應(yīng)用,我們研究它是為了創(chuàng)造價值,表2列舉了大數(shù)據(jù)技術(shù)現(xiàn)有的應(yīng)用情況,下面將分三個方面介紹。
2.1 商業(yè)領(lǐng)域應(yīng)用
在現(xiàn)代社會之中,任何新興的技術(shù)一般都會首先運用于商業(yè)領(lǐng)域或是軍事領(lǐng)域,就大數(shù)據(jù)技術(shù)而言,它現(xiàn)在已經(jīng)在商業(yè)領(lǐng)域中初試鋒芒,并且取得了很好效果,比如美國梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進(jìn)行實時調(diào)價,以適應(yīng)市場需求。又比如電子商務(wù)中購物網(wǎng)站對人門消費數(shù)據(jù)的把握,如上表所示,電子商務(wù)涉及人口數(shù)量巨大,用戶反應(yīng)時間很快,而且可靠性相當(dāng)高。這點就決定了大數(shù)據(jù)在管理人們消費時具有相當(dāng)?shù)墓π?,這也是大數(shù)據(jù)在商業(yè)領(lǐng)域應(yīng)用的典型方式。信息在商業(yè)領(lǐng)域內(nèi)至關(guān)重要,可以說,誰掌握了有效的信息,誰就可以引領(lǐng)商業(yè)發(fā)展。未來人們的商業(yè)活動將更為一體化,隨著經(jīng)濟全球化,大數(shù)據(jù)必將會在商業(yè)領(lǐng)域大放光彩。
2.2 科學(xué)教育領(lǐng)域應(yīng)用
科學(xué)研究需要實驗,實驗產(chǎn)生數(shù)據(jù),可以說數(shù)據(jù)決定科學(xué)發(fā)展,現(xiàn)代科學(xué)發(fā)展建立在一個大的網(wǎng)絡(luò)內(nèi),這些設(shè)備,實驗過程,驗算過程,記錄過程等每年將會產(chǎn)生巨大數(shù)量的數(shù)據(jù),而整合,分析,處理,運用這些數(shù)據(jù)正是大數(shù)據(jù)技術(shù)的工作職責(zé)。對科學(xué)發(fā)展而言,大數(shù)據(jù)的主要貢獻(xiàn)有:實現(xiàn)高程度的信息共享,實現(xiàn)科學(xué)有效的預(yù)測,在實驗過程中進(jìn)行處理及分析等。大數(shù)據(jù)技術(shù)在教育方面也大有作為,一方面在整體上它可以用來處理教育方面龐大的數(shù)據(jù)量,維持健康高效的教育系統(tǒng);另一方面,為了實現(xiàn)個體化的細(xì)致教育,我們可以借助大數(shù)據(jù)分析每個孩子的情況,給予相對應(yīng)的引導(dǎo),如此可以實現(xiàn)信息的高效利用,形成更為人性化的體貼教育,對社會整體發(fā)展做出巨大貢獻(xiàn)。endprint
2.3 網(wǎng)絡(luò)信息領(lǐng)域應(yīng)用
大數(shù)據(jù)在網(wǎng)絡(luò)信息方面的應(yīng)用是顯而易見的,尤其是體現(xiàn)在移動網(wǎng)絡(luò),社交網(wǎng)絡(luò)上,人的交流所產(chǎn)生的信息大量流動在網(wǎng)絡(luò)上,例如我們的微信,QQ,F(xiàn)acebook等,它們每天都會產(chǎn)生巨大的數(shù)據(jù)流量。大數(shù)據(jù)在網(wǎng)絡(luò)信息方面的應(yīng)用還體現(xiàn)在搜索引擎上,無論是百度還是谷歌都會根據(jù)個人情況作出相應(yīng)推薦,這點會讓個人生活更加便捷。而大數(shù)據(jù)技術(shù)對信息的整體把握能力遠(yuǎn)非我們現(xiàn)在的數(shù)據(jù)平臺所能比擬,它基本上會達(dá)到人類所能利用數(shù)據(jù)的最高水平。
3 大數(shù)據(jù)發(fā)展過程中存在的問題簡介
3.1 隱私泄露問題
隨著人們生活的不斷網(wǎng)絡(luò)化,信息越來越被整合在一個個集中的平臺上,而如今大數(shù)據(jù)時代的來臨,勢必會將信息由各個平臺再一次整合起來,形成一個大的共享環(huán)境。搭建這樣一個平臺可以高效的利用信息,同時也可能“高效”的丟失信息,如今信息詐騙層出不窮,大多是個人隱私泄露引起的事故,如大學(xué)生信息被不法分子竊取,以學(xué)校名義進(jìn)行詐騙。大數(shù)據(jù)相對于現(xiàn)有數(shù)據(jù)體系來說更廣博,但也蘊藏巨大威脅,因此在發(fā)展大數(shù)據(jù)技術(shù)的同時,我們應(yīng)重視隱私的保護(hù),為避免個人隱私被竊取,我們可以用多種方式并行保護(hù)的方法進(jìn)行數(shù)據(jù)保護(hù)。
3.2 大數(shù)據(jù)基礎(chǔ)設(shè)施安全與惡意攻擊
大數(shù)據(jù)信息需要設(shè)備設(shè)施作為載體,基礎(chǔ)設(shè)施是大數(shù)據(jù)安全使用的保障,其安全相當(dāng)重要,除了自身問題,它有時會受到惡意攻擊,我們有必要做好相關(guān)防護(hù)。保護(hù)大數(shù)據(jù)基礎(chǔ)設(shè)施,首先我們應(yīng)該從硬件上進(jìn)行安全設(shè)計,其次要在軟件上進(jìn)行加密,協(xié)議,擾動等保護(hù)措施。為安全健康的利用大數(shù)據(jù)做好防護(hù)工作。
4 大數(shù)據(jù)發(fā)展前景及展望
大數(shù)據(jù)技術(shù)目前正在一個積累期,數(shù)據(jù)的獲取捕捉和對數(shù)據(jù)的分析處理都在一個探索時期,我們可以看到大數(shù)據(jù)技術(shù)目前應(yīng)用仍然較為稀少,或者規(guī)模遠(yuǎn)遠(yuǎn)達(dá)不到大數(shù)據(jù)的標(biāo)準(zhǔn)。未來的大數(shù)據(jù)發(fā)展將會從搜索引擎到數(shù)據(jù)挖掘,到通過自然語言,機器學(xué)習(xí)等實現(xiàn)它自身蘊藏的巨大價值。在這個過程中數(shù)據(jù)的分析和處理將可能會是最大的技術(shù)難題,機器學(xué)習(xí)和自然語言的發(fā)展將會依賴于人工智能的發(fā)展,而且大數(shù)據(jù)本身將會和人工智能相輔相成。另一方面,大數(shù)據(jù)技術(shù)在發(fā)展過程中帶來的一系列問題,如隱私安全等也需要給予相當(dāng)?shù)闹匾暋4髷?shù)據(jù)的發(fā)展方向?qū)牵焊咝?、健康、安全、和諧。
參考文獻(xiàn)
[1]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):1-44.
[2]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013,36(6):1125-1138.
[3]高明,金澈清,王曉玲,等.數(shù)據(jù)管理技術(shù)研究綜述[J].計算機學(xué)報,2010,(3):373-389.
[4][英]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時代[M].浙江人民出版社,2012.
[5]劉雅輝,張鐵贏,靳小龍,程學(xué)旗.大數(shù)據(jù)時代的個人隱私保護(hù)[J].北京計算機研究與發(fā)展,2015,52(1):229-247.
[6]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013, 50(1):146-169.endprint