郝冉
(中認國證(北京)評價技術服務有限公司 北京市 100020)
維基百科上這樣定義大數(shù)據(jù):在一定的時間內(nèi)無法使用常規(guī)方式進行內(nèi)容抓取、管理和分析處理的數(shù)據(jù)集合。大數(shù)據(jù)的“大”有兩層含義,一是指數(shù)據(jù)量大,還指數(shù)據(jù)類型多種多樣。隨著社會信息化程度逐漸提高,市場競爭、社會發(fā)展分析等多方面都要依仗大數(shù)據(jù)來推進,從數(shù)據(jù)中挖掘出其背后的信息已成為目前各國重要的研究方向。為了提高對海量數(shù)據(jù)的處理效率,云計算、粒計算等相關技術隨之出現(xiàn),這些技術的應用使得數(shù)據(jù)充分發(fā)揮了它的作用,來源于社會并服務于社會。2020 年中國通信院大數(shù)據(jù)白皮書預測:2035 年全球數(shù)據(jù)總量將達到2142ZB。
各國各地區(qū)都已經(jīng)意識到不斷增長的各種數(shù)據(jù)中蘊含著豐富的實際意義,與此同時,信息行業(yè)的技術工作者們也感受到了來自龐大數(shù)據(jù)的巨大挑戰(zhàn),目前以往的技術手段和性能已經(jīng)很難滿足對當前數(shù)據(jù)量的處理要求,因此使得人們需要不斷在數(shù)據(jù)存儲、數(shù)據(jù)處理、計算機模型與性能等多個相關領域進行探索和提高,以達到盡可能快速高效地將這些龐大的數(shù)據(jù)中蘊藏的價值充分挖掘出來,使其發(fā)揮作用促進社會與科技的不斷進步。
粒計算作為一種更為有效的方法論,主要是為了建立以外部環(huán)境為基礎,以用戶為中心的一種思想,從而簡化人們對于物理與虛擬世界的認知,并在此基礎上,用適當粒度的“?!弊鳛橹虚g環(huán)節(jié)從而求得整個問題的解,相較于對完整問題進行求解的過程而言,以合適的粒度的“?!弊鳛樘幚韺ο罂梢杂行У靥岣咔蠼庑?。
大數(shù)據(jù)是社會高度信息化后出現(xiàn)的一種概念,指的是通過對海量真實數(shù)據(jù)進行收集和分析后得出有利于社會發(fā)展的信息,達到透過數(shù)據(jù)發(fā)現(xiàn)本質(zhì)的目的。目前人們常說的大數(shù)據(jù)的3V 特性指的是大數(shù)據(jù)的Volume(量大)、Velocity(增長快)和Variety(數(shù)據(jù)結(jié)構(gòu)多樣),通常情況下大數(shù)據(jù)的大小至少要達到GigaBytes,目前每天至少有2.5EB 的數(shù)據(jù)增加,數(shù)據(jù)結(jié)構(gòu)囊括文本信息、音視頻、傳感器信號等。由于大數(shù)據(jù)的3V 特性,使得他的發(fā)展面臨了極大的挑戰(zhàn),主要包括以下幾點:
(1)數(shù)據(jù)的存儲與檢索:大量數(shù)據(jù)的出現(xiàn)使得存儲與檢索變得困難,即使存儲技術的水平一直在不斷提升,但面對源源不斷增加的數(shù)據(jù),再高的磁盤容量和再低的存儲成本都無法滿足需求,無限制地存儲所有數(shù)據(jù)也會對資源造成浪費,給電力系統(tǒng)帶來壓力。與此同時,海量的數(shù)據(jù)導致數(shù)據(jù)檢索速度下降,檢索難度大大增加,無法及時有效地獲取所需數(shù)據(jù),這也違背了信息化時代背景下大數(shù)據(jù)研究的意義。
(2)通信效率:網(wǎng)絡在某種程度上催生了大數(shù)據(jù)的產(chǎn)生和發(fā)展,但海量數(shù)據(jù)使得網(wǎng)絡傳輸壓力激增,對網(wǎng)絡設施的要求越來越高,增加了人力和物力成本。
(3)數(shù)據(jù)處理:存儲大數(shù)據(jù)并不是大數(shù)據(jù)存在的意義,挖掘其背后有價值的信息才是大數(shù)據(jù)研究的本質(zhì)。對大數(shù)據(jù)的處理流程包括獲取、清晰、集成、分析和解釋,不斷增加的海量數(shù)據(jù)導致每一步的工作難度都在增加。
(4)安全與隱私:因數(shù)據(jù)涉及各方面隱私,收集并存儲數(shù)據(jù)最需要考慮到的就是注意保護數(shù)據(jù)安全性,避免影響正常社會運轉(zhuǎn)的事情發(fā)生。
上述幾種挑戰(zhàn)大多交織關聯(lián),并非獨立存在,因此使得對大數(shù)據(jù)的研究充滿挑戰(zhàn)與魅力,吸引了來自計算機、通信網(wǎng)絡、信息安全等各行各業(yè)的工作人員對提升大數(shù)據(jù)處理、解決當前困境進行研究。雖然大數(shù)據(jù)的出現(xiàn)為研究人員帶來了許多挑戰(zhàn),但也為社會發(fā)展提供了前所未有的機遇,大數(shù)據(jù)是與人力、物力不同的一種新的促進生產(chǎn)發(fā)展的因素,是當前社會進行科學研究和提供服務不可獲取的一部分。充分合理對大數(shù)據(jù)進行研究,挖掘其背后真正有用的信息,可以為社會各界帶來巨大的幫助。
目前有關于大數(shù)據(jù)的處理研究主要有4 各方面,如圖1所示。
信息領域各方面的研究人員針對體量不斷增大的大數(shù)據(jù)所帶來的挑戰(zhàn)都在從不同的方向?qū)で蟾鼮橛行У慕鉀Q方案,從事計算機系統(tǒng)結(jié)構(gòu)方面的研究人員李國杰認為,要想提高大數(shù)據(jù)的處理效率,就要對計算機系統(tǒng)結(jié)構(gòu)進行革命性的重構(gòu)工作,從以往的以計算為主數(shù)據(jù)為輔的方式轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心以處理為輔的方式,通過減少數(shù)據(jù)的傳遞來提高大數(shù)據(jù)處理的效率。從事編程語言工作的研究人員梅宏認為,對編程模型和編程語言進行重構(gòu)也可以有效地提高大數(shù)據(jù)處理效率。而懷進鵬所提出的Inexact(近似性)、Incremental(增量性)、Inductive(增量性),三者構(gòu)成的3I 特性非常直觀地反映了針對大數(shù)據(jù)的3V 特性需要對數(shù)據(jù)處理進行的改革。
大數(shù)據(jù)處理算法主要關注以下幾個方面:數(shù)據(jù)的傳輸、數(shù)據(jù)的訪問、數(shù)據(jù)的挖掘以及機器學習等相關內(nèi)容針對大數(shù)據(jù)所進行的改進與提升。自有大數(shù)據(jù)的概念以來,信息技術領域的相關技術人員對大數(shù)據(jù)的處理進行了各種嘗試,如表1 所示。
數(shù)據(jù)挖掘主要有兩種方式,一種是以數(shù)據(jù)為基礎,將大數(shù)據(jù)數(shù)據(jù)流通過采樣、負載、草圖等方式轉(zhuǎn)化為為常規(guī)的數(shù)據(jù)集合,另一種方式以目標為基礎,通過對現(xiàn)有的算法模型進行優(yōu)化或是改革技術來處理大數(shù)據(jù)數(shù)據(jù)流,主要包括近似算法、算法輸出粒度等。
開源大數(shù)據(jù)處理平臺是大數(shù)據(jù)處理分析的基礎組成部分,為了更加便捷有效、直觀地對大數(shù)據(jù)進行處理,一大批來自高校、開源社區(qū)以及相關企業(yè)的人員們基于大數(shù)據(jù)處理的算法開發(fā)出大數(shù)據(jù)處理平臺,并且不斷對其進行迭代更新,逐步提高平臺的性能,使其更高效、更廣泛地服務于大數(shù)據(jù)處理的相關工作。當下大數(shù)據(jù)處理平臺主要有以下幾種:
(1)文件系統(tǒng):HDFS;
(2)大規(guī)模并行數(shù)據(jù)查詢引擎:Cloudera Impala;
(3)靜態(tài)數(shù)據(jù)分析工具:Pig/Shark 等;
(4)數(shù)據(jù)流分析工具:Storm 等;
(5)內(nèi)存加速集群計算系統(tǒng):Spark 等。
大數(shù)據(jù)的來源是社會生活的方方面面,因此大數(shù)據(jù)中所蘊含的價值也可以服務于社會的方方面面。在生物科學領域,2013 年Marx 在雜志上曾介紹說,利用計算機和軟件工具對大數(shù)據(jù)進行分析,生物學家則可以不直接接觸活體就可以對基因組測序等進行研究;Turk-Browne 曾在2013 年的《Science》雜志上發(fā)表過一篇以人腦功能交互為基礎的大數(shù)據(jù)方面的文章,文章中指出人腦功能的復雜性:神經(jīng)分布廣泛、神經(jīng)過程影響因素復雜,交互隨著認知改變、交互可能具有很高的維度。在治安管理方面,美國加州大學的學者曾在2012 年建立了一個針對犯罪活動的預測平臺,以以往發(fā)生的數(shù)千萬起案件為數(shù)據(jù)基礎,找出案件和日期、天氣、節(jié)日、交通等相關事物的關系,利用大數(shù)據(jù)分析對這些案件信息進行挖掘,以此優(yōu)化調(diào)整警察管理方案,在警力同等的情況下使當?shù)乇I竊案件發(fā)生的概率下降了19%。
粒計算是指以粒結(jié)構(gòu)為基礎進行思考、對問題求解和信息處理模式的一種理論、技術和工具的統(tǒng)稱,粒計算在當前的智能信息處理方面占據(jù)了重要的地位。站在人工智能的角度上來看,粒計算通過模擬人類對大規(guī)模問題進行考量和處理的方式,以解決實際產(chǎn)生的問題出發(fā),選用滿意度更高的較優(yōu)解,而不是使用完全不考慮現(xiàn)實情況的精確最有解,來完成對問題的處理并提高解決效率。站在大數(shù)據(jù)分析與處理的角度上來看,粒計算采取?;瘡碗s信息的方式對其復雜程度進行簡化,基本單元由樣本信息縮小為信息粒,這樣做可以有效提高計算效率。粒計算主要包括以下幾個方面:數(shù)據(jù)的粒化、?;瘮?shù)據(jù)的發(fā)現(xiàn)、融合和推理等研究內(nèi)容。以大數(shù)據(jù)復雜問題為基礎,粒計算方式建模的主要表現(xiàn)有以下幾個方面。
我國著名科學家錢學森先生曾在他的論文中提出這一觀點:“簡單系統(tǒng)是指沒有層次或只有一個層次結(jié)構(gòu)的事物,復雜巨系統(tǒng)指的是具有很多子系統(tǒng)種類并且層次結(jié)構(gòu)多,相互之間的關聯(lián)關系很復雜的系統(tǒng)。每一個復雜系統(tǒng)都具有一定的層次結(jié)構(gòu)。”生物工程領域的Friedman 曾指出在細胞網(wǎng)絡和蛋白質(zhì)網(wǎng)絡等復雜結(jié)構(gòu)生物范圍的大數(shù)據(jù)中都存在著多層次的特性。大數(shù)據(jù)中的數(shù)據(jù)大多來自于層次結(jié)構(gòu)復雜多樣的自然和人工系統(tǒng)的記錄,或者是由人類社會使用網(wǎng)絡的過程中產(chǎn)生,這就可以說明反映這些系統(tǒng)的大數(shù)據(jù)集合之間的關系必定也蘊含著與復雜系統(tǒng)相似的較為復雜的層次結(jié)構(gòu)和相關聯(lián)性,這個特點就是大數(shù)據(jù)的復雜性與多粒度性。
挖掘數(shù)據(jù)背后的信息主要是為了用于給實際的生產(chǎn)生活提供參考和幫助,因此即使處理的是同一個數(shù)據(jù)集合,由于所需內(nèi)容的角度不同或者是信息指導的內(nèi)容不同,使得對數(shù)據(jù)進行挖掘的方向也會不同,因此數(shù)據(jù)挖掘與大數(shù)據(jù)類似,同樣具有多層次性與多粒度性。以旅游行業(yè)大數(shù)據(jù)挖掘為例,站在國家、地區(qū)層面上來看更關心的可能是旅游業(yè)對各地經(jīng)濟發(fā)展的作用,國家政策對旅游業(yè)發(fā)展的影響,站在酒店從業(yè)者的角度來看更關心提供什么樣的服務可以更好地吸引顧客入住。由于需求不同,就要求數(shù)據(jù)挖掘要從不同的角度入手,并且還可以進行有效的融合和組裝,便于完成對數(shù)據(jù)挖掘的定制需求。
“大數(shù)據(jù)表示所有數(shù)據(jù)”這一理論在2021 年出版的一本名為《大數(shù)據(jù)時代大變革》的書中曾被提到。針對大數(shù)據(jù)的處理工作無法通過常規(guī)手段,使用常規(guī)工具在一段時間內(nèi)完成,因此大數(shù)據(jù)挖掘工作的第一步就是將完整的大數(shù)據(jù)整體按照一定的規(guī)則或條件進行拆分,使其可以進行運算,這個過程就是對數(shù)據(jù)進行粒化,?;蟮臄?shù)據(jù)更便于進行數(shù)據(jù)挖掘與分析。
由于大數(shù)據(jù)的復雜性使得對大數(shù)據(jù)進行建模往往會出現(xiàn)及其復雜的層次結(jié)構(gòu),所以對大數(shù)據(jù)進行挖掘的算法必須要可以按照不同任務不同需求從不同的角度抽選中與要求相關的部分,并以抽選部分為基礎對整體數(shù)據(jù)進行合理的推理演算以達到進行大數(shù)據(jù)挖掘的目的。
由于實際工作中對信息要求的快速及時,因此在進行數(shù)據(jù)挖掘時需要采用近似求解的方式。與以往的小數(shù)據(jù)集合不同,大數(shù)據(jù)的快速增長性對數(shù)據(jù)挖掘算法提出了極高的要求,在復雜性極高、噪聲大、混雜性大的情況下得出最優(yōu)解幾乎是不可能完成的事情,因此選擇得出近似最優(yōu)解就是一個很好的方式,而且近似解基本可以滿足實際生產(chǎn)生活的需要,就不必大費周章去求得精確最優(yōu)解。
由上述分析可知,粒計算可以很好地解決大數(shù)據(jù)當前所面臨的問題,解決大數(shù)據(jù)結(jié)構(gòu)層次復雜,處理整體數(shù)據(jù)困難,粒計算與大數(shù)據(jù)挖掘算法具有極高的吻合度,因此可以推斷出以及粒計算為基礎進行大數(shù)據(jù)挖掘與處理分析是今后非常有效地處理大數(shù)據(jù)問題的途徑之一。
美國研究人員曾在1979 年提出模糊信息粒化的概念,該研究人員認為人的認知能力主要可以概括為如下幾種類型:整體拆分成局部(粒化)、局部整合成整體(組織)和前因后果(因果)。我國學者曾于20 世紀90 年代初在其著作中提出“人類智能的一大特點就是可以從同一粒度上分析不同的事情,也可以從不同的粒度上分析同一件事情,并且可以以粒度為基礎求解?!边@種能力就是人類在處理問題時的高超所在。自從粒計算的概念出現(xiàn)至今,許許多多的專家學者紛紛投身于此,致力于提升粒計算對數(shù)據(jù)處理分析和對現(xiàn)實問題幫助的能力,經(jīng)過專家學者們的不斷努力以及各國政府的大力扶持,粒計算當前已取得了一些具有深刻意義的進展。粒計算的研究分布,如表2 所示。
表2:粒計算的研究領域分布
將完整的數(shù)據(jù)集合按照一定規(guī)則拆分為數(shù)據(jù)粒是粒計算的基礎工作,由于求解的方向不同或者用戶需求不同,拆分數(shù)據(jù)粒的規(guī)則就會有所改變,來保證拆分的數(shù)據(jù)??梢愿行У胤沼趩栴}的求解。但是目前粒計算仍存在一些不足之處,比如沒有很好地完成大數(shù)據(jù)可計算性的需求,大部分是從單一特征出發(fā),將不同特征之間的結(jié)果進行簡單地集成,并沒有從根本上對數(shù)據(jù)粒進行有機融合,無法確保語義一致性,沒有從根本上解決多模態(tài)特征的數(shù)據(jù)粒協(xié)作問題。從問題粒度到計算粒度的尋找方式如圖2。
圖2:問題粒度到計算粒度
多粒度模式包括數(shù)據(jù)集中的多個子數(shù)據(jù),空間重的多個子空間,或是多個不同特征屬性的一種集合,也可以是對大規(guī)模復雜問題進行求解過程中得到的中間結(jié)果,多粒度反映一個問題的在不同角度或者是不同層次所關注的重點不同,多粒度模式的出現(xiàn)有效地提高了粒計算對于復雜問題處理的效率。當下,多粒度仍未成為一個專業(yè)術語,但各領域的研究學者已在許多領域以多粒度模式為基礎展開研究,并發(fā)現(xiàn)多粒度模式的優(yōu)越性與高效性。
推理是人類獨有的一種依靠已知猜測推斷未知的特殊技能,主要是依靠人類的常識以現(xiàn)有數(shù)據(jù)為基礎根據(jù)一定的規(guī)律和科學的方法對未發(fā)生或未出現(xiàn)的事情進行推測的一種能力。推理是一種用于研究人類思維模式、思維規(guī)律和思維邏輯的科學。通過推理可以從已知得出未知。所以,粒計算的推理就是指利用當前數(shù)據(jù)粒的已知信息進行推理演繹推測出需要信息的技術。
在粒計算研究方面,近些年已經(jīng)出現(xiàn)一些粒計算推理相關的研究成果。我國學者劉清以粗糙集為基礎研究了粒語言和決策規(guī)則粒用來進行粒計算方面的邏輯推理。Daphne 等人針對復雜的生物網(wǎng)絡結(jié)構(gòu)提出的以特征間的關聯(lián)性為基礎而研究出的概率圖模型目前已是大數(shù)據(jù)處理工作中非常有效的一種研究思路。
雖然針對粒計算在大數(shù)據(jù)處理方面的研究已經(jīng)有了非常良好的進展,但是目前仍然處在以單一粒度為基準的?;评黼A段,對于多粒度的考量還不夠完整,甚至是跨粒度間的粒計算推理情況,缺少針對多粒度或是跨粒度數(shù)據(jù)的有效處理模式,而多模態(tài)數(shù)據(jù)粒、跨粒度數(shù)據(jù)的推理又正好是求得大規(guī)模復雜問題的近似最優(yōu)解的最佳方式,因此在粒計算推理方面仍有很長的一段路要走。
在粒計算領域利用信息粒替代樣本數(shù)據(jù)作為最小運算單位,將滿意近似解替代精確最優(yōu)解,可以提高計算性能。近些年來針對提升大數(shù)據(jù)計算方面進行了許多的研究,但是針對粒計算的數(shù)據(jù)挖掘來說目前仍然面臨著來自兩方面的挑戰(zhàn),一個是如何更加合理地進行數(shù)據(jù)?;玫礁鼮閮?yōu)質(zhì)的數(shù)據(jù)粒來保證算法得到的滿意近似解是有效的,另外一個是如何平衡計算效率和結(jié)果的關系,使得在保證計算效率和結(jié)果趨近于最優(yōu)解的前提下,確保時效性。因此,在提升粒計算性能方面仍需對上述兩個方向進行更為細致地研究,便于日后將粒計算全面應用于大數(shù)據(jù)的處理分析中。
因大數(shù)據(jù)具有大規(guī)模性、多模態(tài)性、快速增長以及數(shù)據(jù)結(jié)構(gòu)多樣性,對粒計算的要求就會更加嚴格,為粒計算的研究與發(fā)展提出了嚴峻的挑戰(zhàn)。在利用粒計算對大數(shù)據(jù)進行分析處理的過程中需要從以下幾個方面進行加強:數(shù)據(jù)結(jié)構(gòu)多樣化模式下的數(shù)據(jù)?;鼮闇蚀_、面對不斷增長的數(shù)據(jù)量以及可能發(fā)生維度變化的數(shù)據(jù)進行及時有效的數(shù)據(jù)?;?、?;蟮臄?shù)據(jù)進行有效的融合來更好地解決實際問題、合理的推理使得已有數(shù)據(jù)的價值增加、人類智慧與機器只能相結(jié)合。
粒計算模型是一種結(jié)構(gòu)化求近似解的理論,可以非常有效地解決大數(shù)據(jù)處理問題中的不確定性,顯著降低大數(shù)據(jù)問題求解的復雜度,該模型的可重構(gòu)性使得它可以在不同領域和不同數(shù)據(jù)中都可以非??焖俚匕l(fā)揮處優(yōu)勢,該特點與對大數(shù)據(jù)的處理要求十分吻合,因此粒計算是未來進行大數(shù)據(jù)處理分析的極具研究價值的思路之一。
文章從大數(shù)據(jù)當前面臨的挑戰(zhàn)、粒計算作為大數(shù)據(jù)的新的研究方向、粒計算的研究現(xiàn)狀等方面對基于粒計算的大數(shù)據(jù)處理分析進行了討論。高度信息化的時代背景下,大數(shù)據(jù)的處理分析必將成為為社會進步與發(fā)展提供有效幫助的科技手段,如何提高大數(shù)據(jù)的處理分析,提升粒計算的性能都是必須要考慮的問題,對解決實際問題有著重要的參考價值。不斷提高大數(shù)據(jù)的相關技術,對各行各業(yè)的發(fā)展都有著積極的意義。