韓偉紅,賈 焰,周 斌
(1. 廣州大學 網(wǎng)絡空間先進技術研究院,廣東 廣州 510006;2. 國防科技大學 計算機學院,湖南 長沙 410073; 3. 電子科技大學 廣東電子信息工程研究院, 廣東 東莞 523808)
當前,人類社會已經(jīng)進入了大數(shù)據(jù)時代,“大數(shù)據(jù)”已經(jīng)無處不在?;ヂ?lián)網(wǎng)領域的公司非常重視數(shù)據(jù)資產(chǎn)的價值,從中挖掘有價值的信息,利用大數(shù)據(jù)分析技術提升公司服務質量。亞馬遜早在2013年就推出了“未下單,先調貨”計劃,利用大數(shù)據(jù)分析技術,基于對網(wǎng)購數(shù)據(jù)的關聯(lián)挖掘分析,在用戶尚未下單前預測其購物內容,提前將包裹發(fā)至轉運中心,縮短配送時間。阿里巴巴通過智能圖像識別、智能追蹤、大數(shù)據(jù)分析建模等技術,從10億量級的在線商品中發(fā)現(xiàn)假冒偽劣商品。美國大數(shù)據(jù)企業(yè)帕蘭提爾(Palantir)公司通過對電話、網(wǎng)絡郵件、衛(wèi)星影像等進行大數(shù)據(jù)分析,協(xié)助美國中央情報局(CIA)獲取基地組織的準確位置信息,幫助美軍捕殺本·拉登。
盡管大數(shù)據(jù)現(xiàn)在如此炙手可熱,但無論是在學術界還是在工業(yè)界,都沒有給出一個關于大數(shù)據(jù)的公認的定義。一般認為:“大數(shù)據(jù)”是指在一定時間內難以依靠已有數(shù)據(jù)處理技術進行有效采集、管理和分析的數(shù)據(jù)集合,它通常滿足以下“5V”特點:(1)Volume:數(shù)據(jù)量大,包括采集、存儲和計算的量都非常大;(2)Variety:種類和來源多樣化;(3)Value:數(shù)據(jù)價值密度相對較低;(4)Velocity:數(shù)據(jù)增長速度快,處理速度也快,時效性要求高;(5)Veracity:數(shù)據(jù)的準確性和可信賴度低,即數(shù)據(jù)的質量低。
大數(shù)據(jù)分析是指基于大數(shù)據(jù),面向特定的模型,通過分類、聚類、關聯(lián)、預測、眾包、深度學習等處理,從而揭示隱藏在數(shù)據(jù)集合中的規(guī)律,發(fā)現(xiàn)出有價值的知識的過程。數(shù)據(jù)分析以發(fā)現(xiàn)有用知識為目的,主要包括清洗、集成、轉換、建模以及模型評估等過程,最終得到?jīng)Q策知識。這一過程通常會根據(jù)分析目標進行反復迭代,逐步求精。
云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新技術與大數(shù)據(jù)息息相關。
圖1 大數(shù)據(jù)分析的關鍵技術
云計算是一種基于互聯(lián)網(wǎng)的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。作為一種互聯(lián)網(wǎng)新型計算方式,為大數(shù)據(jù)提供了計算資源和存儲空間。
物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源之一。物聯(lián)網(wǎng)是指通過信息傳感設備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡,是在互聯(lián)網(wǎng)基礎上延伸和擴展的網(wǎng)絡,是大數(shù)據(jù)的重要來源。
移動互聯(lián)網(wǎng)也推動了大數(shù)據(jù)技術。移動互聯(lián)網(wǎng)是傳統(tǒng)互聯(lián)網(wǎng)與移動通信技術結合并實踐的活動的總稱。作為傳統(tǒng)互聯(lián)網(wǎng)與移動通信技術結合的產(chǎn)物,移動互聯(lián)網(wǎng)技術豐富了大數(shù)據(jù)的類型,特別是大量用戶生成內容和非結構化數(shù)據(jù)。
綜上所述,物聯(lián)網(wǎng)以及移動互聯(lián)網(wǎng)持續(xù)不斷地產(chǎn)生大量數(shù)據(jù),并且數(shù)據(jù)類型豐富、內容鮮活,這是大數(shù)據(jù)的重要來源;大數(shù)據(jù)則代表了互聯(lián)網(wǎng)的信息層,是互聯(lián)網(wǎng)智慧和意識產(chǎn)生的基礎;而云計算是大數(shù)據(jù)處理的基礎資源。這四項技術相互推動,協(xié)同發(fā)展。
當前,大數(shù)據(jù)已經(jīng)廣泛存在于各行各業(yè),形式豐富多樣,規(guī)模不斷增大。大數(shù)據(jù)所主要存在的行業(yè)包括能源、制造業(yè)、政府、金融、銷售業(yè)、文化娛樂業(yè)、IT互聯(lián)網(wǎng)、電信業(yè)以及交通旅游業(yè)等。IDC出版的《數(shù)字宇宙》指出,當前人類存儲的數(shù)字信息已達到6 992 EB, 2020年預計將達到40萬億GB(40 ZB),人均5 200 GB以上。
美國物理學家約翰·惠勒(John Wheeler)提出“物質源自比特(It from bit)”,信息就是物質。實際上,物質在消耗,而數(shù)據(jù)卻在不斷增加。數(shù)據(jù)已成為寶貴的戰(zhàn)略資源。在農(nóng)耕文明時代,鐵器是最重要的生產(chǎn)和勞動工具;在工業(yè)文明時代,蒸汽機、內燃機是世界上最重要的“原動機”;在現(xiàn)代經(jīng)濟時代,石油成為現(xiàn)代經(jīng)濟的命脈;在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為最重要的戰(zhàn)略資源之一。
大數(shù)據(jù)分析的流程分為以下五個部分[1-2]:大數(shù)據(jù)清洗與融合、大數(shù)據(jù)處理框架、大數(shù)據(jù)建模與分析、大數(shù)據(jù)可視化以及大數(shù)據(jù)隱私保護,其中涉及的技術如圖1所示。本文只對大數(shù)據(jù)分析中的數(shù)據(jù)清洗與融合、大數(shù)據(jù)處理框架和大數(shù)據(jù)建模與分析等關鍵技術進行介紹。
大數(shù)據(jù)清洗融合技術旨在將各種不同形態(tài)、來源、格式、特點的數(shù)據(jù)在邏輯上或物理上有機地集中,為后續(xù)的數(shù)據(jù)處理提供支持。該部分技術主要包括數(shù)據(jù)清洗、數(shù)據(jù)融合和一致性保護三個部分。
數(shù)據(jù)清洗指對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。例如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配時,需要進行數(shù)據(jù)清洗。
模式對齊是指將多種數(shù)據(jù)源的不同數(shù)據(jù)模式,通過格式轉換、合并、分解、泛化等手段,整合成統(tǒng)一的、便于處理的統(tǒng)一數(shù)據(jù)模式。
記錄關聯(lián)是指將不同形式表示的數(shù)據(jù)鏈接在一起,形成一個完整的表示。例如某品牌相機,通過數(shù)據(jù)關聯(lián)方式將網(wǎng)頁上存在的多種不同信息進行處理,形成描述該相機的完整信息表示。
數(shù)據(jù)融合指通過統(tǒng)計、插值等方式,消除不同數(shù)據(jù)源中的不確定性。例如,張藝謀的生日有多個說法,真假難辨,通過統(tǒng)計方式,得出各種說法的置信度,為后續(xù)的挖掘應用提供支持。
大數(shù)據(jù)處理框架主要是為大數(shù)據(jù)解決方案中涉及的各層和高級組件提供一個高可用性以及可擴展的邏輯架構,可以滿足各種數(shù)據(jù)量的數(shù)據(jù)業(yè)務的需求。該部分技術主要包括數(shù)據(jù)存儲、索引、流數(shù)據(jù)處理等技術。
數(shù)據(jù)存儲是數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或加工過程中需要查找的信息。數(shù)據(jù)以某種格式記錄在計算機內部或外部存儲介質上。Google文件系統(tǒng)GFS是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。它運行于廉價的普通硬件上,由主節(jié)點和分散部署的多個數(shù)據(jù)節(jié)點組成,提供具有容錯功能的高性能數(shù)據(jù)存儲服務。
索引是一種特定的數(shù)據(jù)結構,將數(shù)據(jù)塊中的關鍵信息按某種高效結構進行組織,使得用戶可以快速查找到符合查詢條件的數(shù)據(jù)塊。常用的索引包括倒排索引、鍵值索引和空間數(shù)據(jù)索引?;诘古潘饕牟樵兗夹g是基于詞建立索引的,記錄了各個單詞在不同文檔中的位置,支持基于單詞的高效查詢,是文檔檢索系統(tǒng)中最常用的方法。鍵值索引是一種樹狀的數(shù)據(jù)結構,用于存儲排序后的數(shù)據(jù),可顯著減少定位記錄的中間過程,從而加快存取速度。空間數(shù)據(jù)索引是根據(jù)空間數(shù)據(jù)的地理位置、形狀或空間對象之間的關系,按一定順序排列的一種數(shù)據(jù)結構,其優(yōu)劣直接影響空間數(shù)據(jù)庫的整體性能。
數(shù)據(jù)處理技術包括MapReduce和流處理等技術。MapReduce批量處理框架將待處理任務劃分為若干子任務,將其分配到不同節(jié)點上,實現(xiàn)了利用多個網(wǎng)絡節(jié)點對任務的協(xié)同計算。流數(shù)據(jù)并行處理框架是一種針對前后關聯(lián)性不強、無須先存儲再計算、實時性要求高的流式數(shù)據(jù),通過多個并行執(zhí)行的流水線在內存中對數(shù)據(jù)進行分步處理的數(shù)據(jù)結構。主要步驟為:(1)用戶注冊連續(xù)查詢,指定查詢類型、窗口寬度等(如計數(shù)查詢);(2)初始化當前滑動窗口內的數(shù)據(jù)集,得到初始概要結構;(3)新數(shù)據(jù)到達;(4)更新概要數(shù)據(jù)結構;(5)任何時候,處理器都可以根據(jù)概要結構得到當前的查詢結果。
大數(shù)據(jù)建模與分析是用數(shù)據(jù)挖掘和機器學習方法對雜亂無章的大規(guī)模數(shù)據(jù)進行建模與分析,萃取和提煉有用信息并形成結論,以找出所研究對象的內在規(guī)律。大數(shù)據(jù)建模與分析主要包括數(shù)據(jù)挖掘、機器學習、人工智能、眾包等技術。
(1)數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,一般通過統(tǒng)計、在線分析處理、情報檢索、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘的算法包括分類、聚類、關聯(lián)規(guī)則等。分類是指根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類新的數(shù)據(jù)。聚類是指將數(shù)據(jù)聚到不同的簇,同一簇中彼此相近,不同簇中彼此相離。關聯(lián)規(guī)則是指隱藏在數(shù)據(jù)項之間的關聯(lián)或相互關系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn)。
(2)機器學習所關注的是計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。其中最具有代表性的是深度學習。深度學習是神經(jīng)網(wǎng)絡的擴展。神經(jīng)網(wǎng)絡是由大量的節(jié)點(或稱神經(jīng)元)相互連接構成的。每個節(jié)點代表一種特定的輸出函數(shù),每兩個節(jié)點間的連接代表一個通過該連接信號的加權值,網(wǎng)絡的輸出則依網(wǎng)絡的連接方式、權重值和激勵函數(shù)的不同而不同。深度學習是機器學習領域中一系列試圖使用多重非線性變換對數(shù)據(jù)進行多層抽象的算法,通過組合低層特征,形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。其目標是將輸入的信息通過編碼器生成高層的特征以后,使得高層的特征能夠通過解碼器盡可能地還原成原輸入信息(即使得特征編碼過程中損失的信息盡量少),通過代入訓練數(shù)據(jù)求解最優(yōu)參數(shù)值。
(3)人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的技術。大數(shù)據(jù)分析處理中代表性的人工智能技術是知識圖譜。知識圖譜本質上是一種語義網(wǎng)絡,其節(jié)點代表實體(entity)或者概念(concept),邊代表實體與概念之間的各種語義關系。
(4)眾包是一種分布式的問題解決和生產(chǎn)模式,問題以公開招標的方式傳播給未知的解決方案提供者群體。例如,Made.com負責搭建一個虛擬平臺,吸引設計師提交設計作品,并貼在網(wǎng)上由顧客投票,票數(shù)最高的產(chǎn)品才會進入生產(chǎn)行列。
大數(shù)據(jù)時代的到來,給世界帶來了深刻的變革,包括人們的思維方式、管理方式等。隨著數(shù)據(jù)產(chǎn)生、收集、存儲等技術的不斷發(fā)展,目前已經(jīng)同時存在著兩個“平行世界”,即數(shù)據(jù)世界和物理世界,其中,數(shù)據(jù)世界是物理世界的客觀映射和反映,實際上,數(shù)據(jù)不僅可以描述客觀物理世界,還被用于刻畫人類精神世界和人類社會,大數(shù)據(jù)通過“量化一切”而實現(xiàn)世界的數(shù)據(jù)化,可能改變人類認知和理解世界的方式,帶來全新的大數(shù)據(jù)世界觀[3-4]。
大數(shù)據(jù)改變了人們的科學觀。首先,15世紀起,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論。“科學始于觀察”成為科學研究和認識論的主流,例如:牛頓通過觀察蘋果落地,提出了萬有引力定律。20世紀30年代,德國哲學家波普爾提出了被后人稱為“證偽主義”的認識論觀點。他認為科學理論不能用歸納法證實,只能被試驗發(fā)現(xiàn)的反例“證偽”,因而他否定科學始于觀察,提出“科學始于問題”的著名觀點,例如:弗萊明通過對培養(yǎng)葡萄球菌的器皿長出的綠霉提出質疑,發(fā)明了青霉素。今天,大數(shù)據(jù)興起引發(fā)了新的科學研究模式:“科學始于數(shù)據(jù)”,例如:谷歌成功利用大數(shù)據(jù)提前一兩周預測流感爆發(fā);美國Flatiron Health公司正在研究大數(shù)據(jù)戰(zhàn)勝癌癥的方法。因此,大數(shù)據(jù)已經(jīng)改變了人們認識世界的方式等。
大數(shù)據(jù)時代人的行為甚至思維習慣都變得可以分析。亞馬遜、淘寶等購物網(wǎng)站記錄人們的購物習慣,谷歌等搜索引擎分析人們的搜索內容,微博、社交網(wǎng)絡、微信等對個人隱私幾乎無所不知,基于Web2.0的社交網(wǎng)絡應用甚至可分析人們的行為和思想。就像借助于顯微鏡人們可以看清細胞的結構、互動關系一樣,借助于面向在線社交網(wǎng)絡的大數(shù)據(jù)分析技術,可以分析人的行為、思維和情感,從而對人性和人的行為進行分析。
正因為大數(shù)據(jù)分析的這一能力,社會的管理模式將發(fā)生深刻的變化。例如:2013年 “單獨二胎”政策的制定與出臺,充分利用了大數(shù)據(jù)分析技術,通過社交媒體發(fā)布擬制定的政策和規(guī)劃,然后引導討論,從而搜集民意,廣泛開展民意調查,為政策和規(guī)劃的最終制定奠定了基礎;輿情分析應用,可以通過分析互聯(lián)網(wǎng)大數(shù)據(jù),發(fā)現(xiàn)熱門話題、話題的來源、話題的推手、話題的傳播面和人們對話題持有的立場等;美國的數(shù)據(jù)監(jiān)聽計劃,美國國家安全局全面監(jiān)控Google、Facebook、微軟等網(wǎng)絡媒介的數(shù)據(jù)以及個人智能手機的隱私信息,以掌控民意和獲取情報,為政府和軍方?jīng)Q策提供支持。因此,大數(shù)據(jù)已經(jīng)深刻的改變了人們的管理方式。
面對大數(shù)據(jù)時代的來臨,必須認清特點,把握走向,積極應對,高度重視大數(shù)據(jù)及其應用的潛在價值,時刻關注其前沿技術,加快推進其實際應用,確保在新一輪信息化浪潮中贏得主動,占得先機。
參考文獻
[1] HU H, WEN Y, CHUA T S, et al. Toward scalable systems for big data analytics: a technology tutorial[J]. IEEE Access, 2017, 2(1):652-687.
[2] SOWMYA R, SUNEETHA K R. Data Mining with Big Data[C]// International Conference on Intelligent Systems and Control. IEEE, 2017:246-250.
[3] MANYIKA J, CHUI M, BROWN B, et al. Big data: the next frontier for innovation, competition, and productivity[J]. Analytics, 2011.
[4] AGARWAL R, DHAR V. Editorial —big data, data science, and analytics: the opportunity and challenge for IS research[J]. Information Systems Research, 2017, 25(3):443-448.