摘 要:本文首先解釋大數(shù)據(jù)分析背后的基本概念,然后重點(diǎn)介紹使用大數(shù)據(jù)的應(yīng)用程序,以及如何將這些概念與商業(yè)智能(BI)應(yīng)用程序和并行技術(shù)相結(jié)合。文中深入剖析了大數(shù)據(jù)應(yīng)用服務(wù)所采用的非結(jié)構(gòu)化數(shù)據(jù)的搜索、分析和機(jī)器學(xué)習(xí)等關(guān)鍵元素。
關(guān)鍵詞:大數(shù)據(jù);存儲(chǔ);云
中圖分類號(hào):TP311.13
1 定義大數(shù)據(jù)
從廣義上來說,大數(shù)據(jù)可定義為采集、管理和分析得到的超出典型結(jié)構(gòu)化數(shù)據(jù)范圍的數(shù)據(jù),這些數(shù)據(jù)可通過關(guān)系數(shù)據(jù)庫管理系統(tǒng)查詢。而查詢來源常常是非結(jié)構(gòu)化文件、數(shù)字視頻、圖像、傳感器數(shù)據(jù)、日志文件,以及幾乎未包含在具有明顯可搜索字段的記錄中的任何數(shù)據(jù)。從某種意義上說,非結(jié)構(gòu)化數(shù)據(jù)是一種有趣的數(shù)據(jù),但如果不與結(jié)構(gòu)化數(shù)據(jù)相關(guān)聯(lián),則難以合成到BI中或從中得出結(jié)論。
大數(shù)據(jù)是云的固有特性,為使用傳統(tǒng)、結(jié)構(gòu)化的數(shù)據(jù)庫信息,以及對(duì)社交網(wǎng)絡(luò)、傳感器網(wǎng)絡(luò)數(shù)據(jù)及不那么結(jié)構(gòu)化的多媒體執(zhí)行業(yè)務(wù)分析提供了前所未有的機(jī)會(huì)。大數(shù)據(jù)應(yīng)用程序需要一種以數(shù)據(jù)為中心的計(jì)算架構(gòu),許多解決方案都包含基于云的API,用于與高級(jí)的列式搜索、機(jī)器學(xué)習(xí)算法及高級(jí)分析配合使用。
2 數(shù)據(jù)速度、數(shù)據(jù)量、種類及真實(shí)性
2.1 數(shù)據(jù)量。除了大量的非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)還擁有新的來源,比如機(jī)器生成的文件(日志文件或傳感器網(wǎng)絡(luò))、移動(dòng)設(shè)備,以及機(jī)器到機(jī)器傳輸?shù)臄?shù)據(jù)。IBM估計(jì),現(xiàn)在全球用戶每天會(huì)在互聯(lián)網(wǎng)中創(chuàng)建2.5萬兆字節(jié)的數(shù)據(jù)。
2.2 速度及種類。由于網(wǎng)絡(luò)帶寬增大,數(shù)據(jù)傳輸速率也在不斷增長(zhǎng)。第三是種類,現(xiàn)在包含更多非結(jié)構(gòu)化數(shù)據(jù)類型,比如數(shù)字視頻流和傳感器數(shù)據(jù),以及日志文件。
2.3 數(shù)據(jù)的真實(shí)性。用戶越來越需要依賴這些高速收集的大量數(shù)據(jù)而制定關(guān)鍵決策,因此,對(duì)數(shù)據(jù)的信任程度需求也越來越高。實(shí)際上,確信數(shù)據(jù)沒有假冒,沒有損壞或來自預(yù)期的來源并不容易。比如,數(shù)據(jù)可能來自數(shù)千個(gè)安全照相機(jī)中的一個(gè),每個(gè)照相機(jī)每小時(shí)生成數(shù)千幀視頻。
3 大數(shù)據(jù)的來源及持久性
大數(shù)據(jù)的產(chǎn)生主要源于移動(dòng)設(shè)備的進(jìn)步,這些設(shè)備現(xiàn)在包含數(shù)字視頻、照片、音頻和高級(jí)的電子郵件及文本特性。用戶收集的數(shù)據(jù)量比10年前多得多。同樣,Google Translate等新型應(yīng)用程序提供了大數(shù)據(jù)服務(wù)器的新特性,即向移動(dòng)設(shè)備說出或鍵入的短語的自然語言翻譯。在2013年的全球技術(shù)展望中,IBM認(rèn)為大數(shù)據(jù)受移動(dòng)優(yōu)先戰(zhàn)略的推動(dòng),而且移動(dòng)設(shè)備正在用更多的新技術(shù)通過數(shù)據(jù)量、種類、速度和真實(shí)性來描繪大數(shù)據(jù)。這些數(shù)據(jù)自然遠(yuǎn)遠(yuǎn)沒有關(guān)系數(shù)據(jù)庫記錄那么結(jié)構(gòu)化,但可與這些數(shù)據(jù)相關(guān)聯(lián)。
有趣的是,大部分?jǐn)?shù)據(jù)永遠(yuǎn)不會(huì)被人類查閱??紤]到這一點(diǎn),使用如此多數(shù)據(jù)的惟一合理的方式是,對(duì)大數(shù)據(jù)執(zhí)行機(jī)器到機(jī)器的自動(dòng)化或智能查詢。而且,如果長(zhǎng)期保存這么多的數(shù)據(jù),人們?nèi)绾沃朗欠裼胁糠謹(jǐn)?shù)據(jù)已損壞?當(dāng)然,我們可以存儲(chǔ)數(shù)據(jù)摘要,并使用獨(dú)立磁盤冗余陣列,但仍然不能避免數(shù)據(jù)可能遭受的靜默損壞??傮w來講,大數(shù)據(jù)的真實(shí)性是一大挑戰(zhàn),但糾刪碼和先進(jìn)的數(shù)據(jù)摘要方法表現(xiàn)出了巨大潛力。XOR RAID或簡(jiǎn)單鏡像等傳統(tǒng)方法正被RAID-6和更高級(jí)的糾刪碼取代。這些傳統(tǒng)方法在存儲(chǔ)設(shè)備發(fā)生故障時(shí)僅提供了針對(duì)數(shù)據(jù)丟失的單一故障保護(hù),不會(huì)處理由軟件缺陷、數(shù)據(jù)中心操作員錯(cuò)誤或媒體故障導(dǎo)致的不易察覺的損壞。大數(shù)據(jù)的數(shù)據(jù)持久性概念已變得非常重要。對(duì)于如此多的數(shù)據(jù),人們檢查它的真實(shí)性的想法完全行不通,而且只有在很久以后最終查詢或訪問這些數(shù)據(jù)時(shí),才會(huì)注意到這些數(shù)據(jù)已丟失。
4 大數(shù)據(jù)系統(tǒng)設(shè)計(jì)
數(shù)據(jù)是一種資產(chǎn),越來越多地被政府和企業(yè)用于制定重要決策,但如果數(shù)據(jù)的真實(shí)性未知,那么數(shù)據(jù)的價(jià)值就會(huì)下降或者甚至可能失去—或者更糟的情況是做出錯(cuò)誤決策。用于大規(guī)模數(shù)據(jù)保護(hù)的架構(gòu)應(yīng)包含對(duì)以下方面的防御:丟失、靜默損壞、惡意軟件,以及網(wǎng)絡(luò)罪犯或通過網(wǎng)絡(luò)戰(zhàn)爭(zhēng)對(duì)數(shù)據(jù)執(zhí)行的惡意修改。
更好地理解大數(shù)據(jù)的一種方式是,更詳細(xì)地分析一些擁有足夠數(shù)據(jù)的云網(wǎng)站和供應(yīng)用程序使用的查詢工具。大部分人都經(jīng)常使用Google查詢,但Google還提供了BigQuery,這個(gè)工具使用了更復(fù)雜的列式存儲(chǔ)和搜索。其他著名的示例包括Facebook(社交網(wǎng)絡(luò))、Wikipedia(常識(shí)采集)、Internet Archive(數(shù)字?jǐn)?shù)據(jù)管理機(jī)構(gòu))、DigitalGlobe(地理信息系統(tǒng)[GIS])、Microsoft Virtual Earth、Google Earth和許多新的大數(shù)據(jù)服務(wù)提供商。
公司擁有內(nèi)部的大數(shù)據(jù),在私有云系統(tǒng)上也擁有大數(shù)據(jù)。許多大數(shù)據(jù)系統(tǒng)對(duì)用戶查詢都是只讀模式(從機(jī)器生成的來源采集),但如果它們?cè)试S更新數(shù)據(jù)庫或非結(jié)構(gòu)化數(shù)據(jù),則可能包含使用密碼短語的強(qiáng)身份驗(yàn)證,這就需要用戶通過移動(dòng)電話文本消息確認(rèn)代碼來進(jìn)行身份驗(yàn)證,使用圖形質(zhì)詢來驗(yàn)證人類的數(shù)據(jù)輸入,或許在未來更多地使用生物學(xué)身份驗(yàn)證。
5 大數(shù)據(jù)應(yīng)用程序
人們每天都在為CV和視頻分析構(gòu)思?xì)⑹旨?jí)應(yīng)用程序,但由于計(jì)算需求或?qū)崿F(xiàn)成本的制約,一些應(yīng)用程序需要好多年才能實(shí)現(xiàn)。盡管如此,筆者依然能列舉以下應(yīng)用程序的列表:(1)Google Trends的股票市場(chǎng)態(tài)度分析,能與歷史指數(shù)的下降和上升建立良好的關(guān)聯(lián),它作為一種大數(shù)據(jù)應(yīng)用還具有更重要的意義。使用態(tài)度分析來制定長(zhǎng)期和短期的股票購(gòu)買和銷售決策,可能勝過簡(jiǎn)單的買入并持有戰(zhàn)略和指數(shù)型基金投資。(2)Google的Picasa照片排序是一個(gè)很有用的工具,允許用戶排序、查詢,以及結(jié)合使用CV技術(shù)和機(jī)器學(xué)習(xí)來自動(dòng)識(shí)別面部。(3)Pandora(音樂)、Netflix(影片)和Amazon(圖書和產(chǎn)品)等推薦系統(tǒng)在一種稱為協(xié)作式過濾的方法中使用客戶數(shù)據(jù)和多個(gè)代理。這項(xiàng)大數(shù)據(jù)服務(wù)已成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的更高級(jí)的研究主題。(4)客戶群分析可將社交網(wǎng)絡(luò)數(shù)據(jù)與從傳統(tǒng)的客戶交易記錄收集的BI相關(guān)聯(lián),并基于此文本數(shù)據(jù)而提供客戶的態(tài)度分析。態(tài)度分析使企業(yè)能夠知道客戶對(duì)其產(chǎn)品的想法,他們對(duì)該企業(yè)或競(jìng)爭(zhēng)對(duì)手的興趣,以及他們喜歡什么和不喜歡什么等。(5)醫(yī)療診斷常常包含基于規(guī)則的專家決策支持系統(tǒng)(DSS),但借助大數(shù)據(jù),有證據(jù)表明這些系統(tǒng)可能完全脫離于研究,并成為主流的醫(yī)療助手。例如,協(xié)助對(duì)患者的自殺風(fēng)險(xiǎn)進(jìn)行客觀心理評(píng)估的新DSS已在研究中展現(xiàn)出了前景。證明這些系統(tǒng)的價(jià)值一種方式是,將它們與歷史數(shù)據(jù)對(duì)比:這些系統(tǒng)不會(huì)取代人類的決策,還在用作支持工具時(shí)有可能改善決策。
這絕不是大數(shù)據(jù)應(yīng)用的全部,而列式查詢、非結(jié)構(gòu)化數(shù)據(jù)分析、MapReduce以及大數(shù)據(jù)可視化和推理等應(yīng)用僅僅是大數(shù)據(jù)技術(shù)的入門級(jí)別。
6 大數(shù)據(jù)應(yīng)用的隱私考慮因素
如果公司、政府和組織仔細(xì)地收集、分析和使用大數(shù)據(jù),那么帶給公眾的價(jià)值將顯而易見。如果濫用大數(shù)據(jù)分析功能,就將失去公眾信任,而且價(jià)值也會(huì)丟失。用戶的態(tài)度必須是自愿提供的,許多價(jià)值都源于知道人們對(duì)它們所交互對(duì)象的感覺、他們所處的位置,或者他們?cè)诓殚喌膬?nèi)容。就現(xiàn)在而言,照相機(jī)、錄音或電子郵件數(shù)據(jù)挖掘的使用應(yīng)高度關(guān)注隱私問題,并在某種程度上保持用戶的信任和信心。
7 大數(shù)據(jù)的未來
本文分析了大數(shù)據(jù)的價(jià)值,還提供了真實(shí)性改進(jìn)建議,以及處理數(shù)據(jù)的量、種類和速度的概念。迄今為止的經(jīng)驗(yàn)表明,橫向擴(kuò)展、高級(jí)數(shù)據(jù)持久性方法的使用、用于集群的高速網(wǎng)絡(luò)合并,以及MapReduce和列式搜索等橫向擴(kuò)展算法,表現(xiàn)出了有效處理大數(shù)據(jù)的巨大潛力。但是,由于數(shù)據(jù)的量增多、速度增快和種類增多,未考慮的問題已成為新的問題。過去,在磁盤驅(qū)動(dòng)器和網(wǎng)絡(luò)的位錯(cuò)誤率遠(yuǎn)低于通過它們或存儲(chǔ)在它們之上的字節(jié)數(shù)時(shí),這些問題不太受關(guān)注。因此,如今的大數(shù)據(jù)架構(gòu)師必須更加聰明,不但要保護(hù)數(shù)據(jù)的真實(shí)性和價(jià)值,還要設(shè)計(jì)使這些數(shù)據(jù)可以訪問且有用的服務(wù),因?yàn)閿?shù)據(jù)量已大大超出了人們每天檢查的能力。
參考文獻(xiàn):
[1]王濤,邵國(guó)強(qiáng).基于云計(jì)算的大數(shù)據(jù)分析[J].福建電腦,2007.
作者簡(jiǎn)介:劉珺(1980-),女,河南鄭州人,講師,碩士,研究方向:網(wǎng)絡(luò)技術(shù)。
作者單位:河南工程學(xué)院,鄭州 451191