徐 述
(湖南城市學(xué)院信息科學(xué)與工程學(xué)院,湖南 益陽 413000)
大數(shù)據(jù)是用傳統(tǒng)方法或工具很難處理或分析的數(shù)據(jù)信息[1]。隨著時(shí)代變化,除了企業(yè)數(shù)據(jù),我們還記錄著地理、氣溫、Web 網(wǎng)頁等各種數(shù)據(jù),龐大紛雜的信息構(gòu)成了大數(shù)據(jù)。關(guān)于大數(shù)據(jù)的定義,目前主要有如下幾種。亞馬遜大數(shù)據(jù)科學(xué)家John Rauser 認(rèn)為:大數(shù)據(jù)是“任何超過一臺計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量?!盜nformatica 中國區(qū)首席產(chǎn)品顧問但彬認(rèn)為“大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)”[2]。維基百科則把大數(shù)據(jù)定義為一個(gè)一個(gè)大而復(fù)雜的、難以用現(xiàn)有數(shù)據(jù)庫管理工具處理的數(shù)據(jù)集。
大數(shù)據(jù)通常指l0TB 規(guī)模以上的數(shù)據(jù)量。之所以產(chǎn)生如此巨大的數(shù)據(jù)量,一是各種儀器的使用,能夠感知更多的數(shù)據(jù),這些數(shù)據(jù)的部分甚至全部就可以被存儲;二是通信工具的使用,使人們能夠全時(shí)段的聯(lián)系,M2M 方式使得交流的數(shù)據(jù)量成倍增長;三是集成電路價(jià)格降低,很多東西都有了智能的成分。
隨著傳感器種類的增多以及智能設(shè)備、社交網(wǎng)絡(luò)的流行,數(shù)據(jù)類型也變得更加復(fù)雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,也包括以網(wǎng)頁、音頻、視頻、E-mail、文檔等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。
我們通常理解的是數(shù)據(jù)的獲取、存儲以及挖掘有效信息的速度,但我們現(xiàn)在處理的數(shù)據(jù)是PB 級代替了TB 級,考慮到“超大規(guī)模數(shù)據(jù)”和“海量數(shù)據(jù)”也有規(guī)模大的特點(diǎn),大數(shù)據(jù)強(qiáng)調(diào)數(shù)據(jù)是快速動態(tài)變化的,形成流式數(shù)據(jù)是大數(shù)據(jù)的重要特征,數(shù)據(jù)流動的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。
數(shù)據(jù)量呈指數(shù)增長的同時(shí),隱藏在海量數(shù)據(jù)的有用信息卻沒有相應(yīng)比例增長,反而使我們獲取有用信息的難度加大。以視頻為例,連續(xù)的監(jiān)控視頻,可能有用的數(shù)據(jù)僅有一兩秒。
大數(shù)據(jù)包含的信息具有規(guī)模大、實(shí)時(shí)變化、分布性、異構(gòu)性以及特殊訪問方式等特點(diǎn),為充分利用數(shù)據(jù)資源,獲取高質(zhì)量的數(shù)據(jù)并集成,整個(gè)集成過程可以分為數(shù)據(jù)獲取、數(shù)據(jù)抽取和數(shù)據(jù)整合三個(gè)環(huán)節(jié)。
一部分大數(shù)據(jù)通過傳感器、智能手機(jī)或通過傳統(tǒng)搜索引擎從靜態(tài)頁面爬取到;另一部分大數(shù)據(jù)隱藏在數(shù)據(jù)庫提供的查詢界面后,只有通過提交查詢才能獲得,高質(zhì)量的數(shù)據(jù)往往來源于此。
由于現(xiàn)實(shí)世界數(shù)據(jù)的異質(zhì)性、多源性以及采集數(shù)據(jù)時(shí)很難避免的人工錯(cuò)誤,大數(shù)據(jù)是冗余、缺失和含有噪音的。如何有效地衡量數(shù)據(jù)的質(zhì)量是一個(gè)重要的研究方向。文獻(xiàn)[3]定義了衡量數(shù)據(jù)質(zhì)量的4 個(gè)指標(biāo):一致性、正確性、完整性和最小性。文獻(xiàn)[4]提出了數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量的需求分析和模型,認(rèn)為存在很多候選的數(shù)據(jù)質(zhì)量衡量指標(biāo),用戶應(yīng)根據(jù)應(yīng)用的需求選擇其中一部分。
數(shù)據(jù)的清洗建立在數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)之上,為了得到高質(zhì)量的數(shù)據(jù),清洗與提煉過程必須滿足幾個(gè)條件:檢測并除去數(shù)據(jù)中所有明顯的錯(cuò)誤和不一致;盡可能地減小人工干預(yù)和用戶的編程工作量,而且要容易擴(kuò)展到其它數(shù)據(jù)源;應(yīng)該和數(shù)據(jù)轉(zhuǎn)化工作相結(jié)合;要有相應(yīng)的描述語言來指定數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)清洗操作,所有這些操作應(yīng)該在一個(gè)統(tǒng)一的框架下完成。對于數(shù)據(jù)清洗,工業(yè)界已經(jīng)開發(fā)了很多數(shù)據(jù)抽取、轉(zhuǎn)化和裝載工具(ETL tool)[5]。
對大數(shù)據(jù)的建模和表達(dá)理論方而的研究,主要集中在大數(shù)據(jù)中的文本信息方面。對文本信息進(jìn)行表示和建模其目的是讓計(jì)算機(jī)能夠正確理解人類的語言,能夠分析和表達(dá)出其中包含的語義信息。文本信息的表達(dá)經(jīng)歷了從淺層詞語表達(dá)方式到深層語義表達(dá)方式這樣一個(gè)歷程,其中代表性的工作包括了向量空間表示[6]、隱語義索引[7]和概率話題模型[8]等。
盡管數(shù)據(jù)表達(dá)的研究歷經(jīng)了很長的時(shí)間并取得了豐碩成果,但是對于大數(shù)據(jù)建模和表達(dá)還是面臨著很多挑戰(zhàn)。例如:對于海量文本數(shù)據(jù)建模,我們需要模型能夠?qū)Τ笠?guī)模的參數(shù)空間進(jìn)行有效地學(xué)習(xí),需要能夠有效地建模并解決數(shù)據(jù)稀疏性所帶來的問題,需要能夠?qū)討B(tài)演化的網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行合理表達(dá)的模型工具。對于圖片和多媒體數(shù)據(jù),我們也需要進(jìn)一步探索其建模與表達(dá)方式,以便能夠更加有效地表達(dá)其內(nèi)在的語義信息。
大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模從TB 級上升到ZB 級,而臨著如何降低數(shù)據(jù)存儲成本、充分利用計(jì)算資源、提高并發(fā)吞吐率、支持分布式非線性迭代算法優(yōu)化等眾多難題。
作為一個(gè)新興的技術(shù)體系,分布式數(shù)據(jù)處理技術(shù)在支持大規(guī)模數(shù)據(jù)處理及應(yīng)用等大數(shù)據(jù)計(jì)算應(yīng)用方而還存在著很多不足。
行存儲和列存儲是兩種典型的數(shù)據(jù)庫物理存儲策略。行存儲較為傳統(tǒng),它在磁盤中依次保存記錄,適合事務(wù)操作;列存儲垂直劃分關(guān)系表,以列為單位存儲數(shù)據(jù)。由于數(shù)據(jù)分析任務(wù)往往僅使用較少字段,因此列存儲方式的效率更高。數(shù)據(jù)分析任務(wù)在大數(shù)據(jù)應(yīng)用中更為常見,因此許多系統(tǒng)盡管無法完全實(shí)現(xiàn)列存儲的所有特性,但也或多或少地借鑒了相關(guān)概念,包括BigTable、HBase 等。
分布式數(shù)據(jù)存儲是大數(shù)據(jù)應(yīng)用的一個(gè)重要環(huán)節(jié),但目前的研究工作仍存在局限性:針對海量數(shù)據(jù)存儲和處理所而臨的數(shù)據(jù)超大規(guī)模、處理速度要求高和數(shù)據(jù)結(jié)構(gòu)異質(zhì)多樣等難題,需要開發(fā)支持高可擴(kuò)展、深度處理的ZB 級以上分布式數(shù)據(jù)存儲框架,同時(shí)需要研究適應(yīng)數(shù)據(jù)布局分布的存儲結(jié)構(gòu)優(yōu)化方法,以提高大數(shù)據(jù)存儲和處理效率,降低系統(tǒng)建設(shè)成本,從而實(shí)現(xiàn)高效的大數(shù)據(jù)分布式存儲。
目前,主流的查詢索引技術(shù)是Google 公司的BigTable 為代表的列簇式NoSQL 數(shù)據(jù)庫。BigTable 提出了一種介于關(guān)系模型和鍵-值對模型之間的新數(shù)據(jù)模型:Ordered Table。該模型提供一種稀疏的、分布式的、永久存儲的、基于主鍵排序的映射,數(shù)據(jù)由行、列和時(shí)間戳表示。BigTable 中表的模式非常靈活,可以在運(yùn)行時(shí)修改。Ordered Table 模型可以對基于主鍵的區(qū)間查詢提供有力支持,對于涉及多個(gè)字段數(shù)據(jù)的多維區(qū)間查詢主要采用二級索引技術(shù),但這引起了性能問題。
為避免大量隨機(jī)讀,另一種思路是使用聚簇索引,即同時(shí)按索引順序存儲全部數(shù)據(jù)。為保證多個(gè)查詢列均有很好的性能,需要按多個(gè)索引列聚簇,這會導(dǎo)致空間開銷成倍增長,以及統(tǒng)計(jì)信息缺失。
數(shù)據(jù)世系包含了不同數(shù)據(jù)源間的數(shù)據(jù)演化過程和相同數(shù)據(jù)源內(nèi)部數(shù)據(jù)的演化過程。數(shù)據(jù)世系一般有兩類基本方法,非注解的方法和基于注解的方法。
數(shù)據(jù)世系可針對多種數(shù)據(jù)類型,包括關(guān)系型數(shù)據(jù)、XML 型數(shù)據(jù)和不確定型數(shù)據(jù)等。而對大數(shù)據(jù),數(shù)據(jù)世系管理的研究工作主要涉及以下幾個(gè)方面:(1)追蹤數(shù)據(jù)的起源和演化過程;(2)利用數(shù)據(jù)的世系追蹤數(shù)據(jù)不確定性的來源和演化過程;(3)如何解決異構(gòu)世系標(biāo)準(zhǔn)的融合問題。
[1]Making sense of Big Data[J].Technology forecast,A quarterly journal,2010.
[2]但彬.大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)[EB/OL].2012,7.
[3]Wang R Y,Ben H B,Madnick S E.Data quality require menu analysis and modeling[C]//Proceedings of the 9th International Conference on Data Engineering.Vienna,Austria 1993:670-677.
[4]Galhardas H,Florescu D,Shasha D,Simon E,AJAX:An extensible data cleaning tool[J].ACM SIGMOD Record.2000,29(2):590.
[5]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào),2002,13(11):2076-2082.
[6]Fan Wenlei,Geerts Floris.Foundation of management[J].Synthesis Lectures ondata Management.2012,4(5):391-217.
[7]Deerwester S,Dumais S T,Furnas G W,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[8]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022
[9]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(6):1125-1138.