摘 要:伴隨著互聯(lián)網(wǎng),物聯(lián)網(wǎng),云計算的不斷發(fā)展,還有智能終端的普及,海量多樣的數(shù)據(jù)呈現(xiàn)爆發(fā)性增長,促使大數(shù)據(jù)時代的到來?;趥鹘y(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘的對比,論述了大數(shù)據(jù)挖掘的內(nèi)涵,提出了一個集云計算與挖掘服務(wù)于一體的數(shù)據(jù)挖掘體系結(jié)構(gòu),分析了大數(shù)據(jù)挖掘的內(nèi)部工作流程,并分析了其優(yōu)勢和挑戰(zhàn),從而為用戶對大數(shù)據(jù)挖掘的認(rèn)知和應(yīng)用需求提供參考。
關(guān)鍵詞:云計算;大數(shù)據(jù);分析
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-7344(2018)18-0269-02
1 引 言
作為重要的生產(chǎn)要素,大數(shù)據(jù)已經(jīng)成為蘊(yùn)含巨大潛在價值的戰(zhàn)略資產(chǎn),促進(jìn)行業(yè)升級和改造,影響科學(xué)思維和研究方法的改革。然而,大數(shù)據(jù)依托豐富的資源儲備和強(qiáng)大的計算技術(shù)優(yōu)勢,也同時迎來了挑戰(zhàn)。本文通過比較傳統(tǒng)的數(shù)據(jù)挖掘方法對大數(shù)據(jù)挖掘進(jìn)行了討論,提出了基于云計算的大數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),構(gòu)建了特定的大數(shù)據(jù)挖掘系統(tǒng),并且基于工作流程客觀評價了大數(shù)據(jù)挖掘的優(yōu)缺點。這將為推進(jìn)大數(shù)據(jù)的應(yīng)用和開發(fā)提供參考方法。
2 大數(shù)據(jù)挖掘概述
大數(shù)據(jù)挖掘是指從大量,多種類,快速動態(tài)循環(huán),低價值密度的大數(shù)據(jù)中挖掘巨大的潛在信息和知識,并以服務(wù)的形式提供給用戶。與傳統(tǒng)的數(shù)據(jù)挖掘相比,它還旨在挖掘有價值的信息和知識。然而,在技術(shù)發(fā)展背景下,大數(shù)據(jù)挖掘所面臨的數(shù)據(jù)環(huán)境以及挖掘的廣度和深度方面存在差異。
2.1 發(fā)展背景
由于技術(shù)的進(jìn)步,數(shù)據(jù)的大量生產(chǎn)以及對寶貴數(shù)據(jù)的需求,兩者都有所發(fā)展。但是,就技術(shù)進(jìn)步,數(shù)據(jù)量,復(fù)雜性和處理而言,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時代并沒有實質(zhì)性的環(huán)境和技術(shù)條件,而是處于數(shù)據(jù)庫和互聯(lián)網(wǎng)發(fā)展的背景下,實現(xiàn)了獨立的,水平向垂直數(shù)據(jù)挖掘的發(fā)展。在大數(shù)據(jù)背景下,大數(shù)據(jù)挖掘受益于云計算,物聯(lián)網(wǎng)和移動智能終端等技術(shù)的出現(xiàn)和發(fā)展。它基于大數(shù)據(jù)的特點,規(guī)避現(xiàn)有信息系統(tǒng)面臨的問題,采用先進(jìn)技術(shù)進(jìn)行系統(tǒng)集成和改進(jìn)。與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)相比,已經(jīng)有相當(dāng)成熟的應(yīng)用,算法研究和系統(tǒng)工具開發(fā),其技術(shù)研究和應(yīng)用還處于不斷的發(fā)展中,對于海量數(shù)據(jù)的挖掘主要是基于云計算來實現(xiàn)相關(guān)技術(shù)的整合。
2.2 處理對象
由于大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘所面臨的數(shù)據(jù)環(huán)境不同,兩種處理對象的特點也存在差異。傳統(tǒng)數(shù)據(jù)挖掘的數(shù)據(jù)源主要基于在特定范圍管理信息系統(tǒng)中生成的被動數(shù)據(jù),以及Web信息系統(tǒng)中的一些用戶生成的活動數(shù)據(jù)。數(shù)據(jù)類型主要是結(jié)構(gòu)化數(shù)據(jù),外加少量半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。除了管理信息系統(tǒng)和Web信息系統(tǒng)之外,用于大數(shù)據(jù)挖掘的數(shù)據(jù)源還包括由感測信息系統(tǒng)等感測設(shè)備自動生成的模擬數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)挖掘相比,大數(shù)據(jù)挖掘具有更廣泛的數(shù)據(jù)源,龐大的數(shù)據(jù)量和更復(fù)雜的類型。相應(yīng)地,采集方法不再局限于被動,而是更全面的采集范圍,高吞吐量以及實時和快速的處理。但是,由于數(shù)據(jù)的準(zhǔn)確性較低,數(shù)據(jù)冗余和不確定性很高。
2.3 挖掘程度
大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘之間的數(shù)據(jù)分析的廣度和深度也存在差異。當(dāng)復(fù)雜類型,結(jié)構(gòu)和模式的數(shù)據(jù)交織合并時,大數(shù)據(jù)挖掘可以利用云平臺將多種計算模型和挖掘算法進(jìn)行整合,對復(fù)雜數(shù)據(jù)進(jìn)行實時處理和多維分析。處理數(shù)據(jù)的范圍更廣,挖掘分析更加先進(jìn)、全面。然而,傳統(tǒng)的數(shù)據(jù)挖掘主要是利用相應(yīng)的挖掘工具來分析特定領(lǐng)域中尺寸較小的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)處理的范圍相對有限,數(shù)據(jù)類型相對簡單。另外,傳統(tǒng)的數(shù)據(jù)挖掘平臺集成本身并不系統(tǒng),計算和挖掘算法的可擴(kuò)展性不強(qiáng),導(dǎo)致其對多源異構(gòu)數(shù)據(jù)采集,實時處理和挖掘分析的訪問受限。
一般來說,大數(shù)據(jù)挖掘是基于大數(shù)據(jù)作為數(shù)據(jù)來源,依靠云計算和大數(shù)據(jù)相關(guān)技術(shù)的支持,使用挖掘工具發(fā)現(xiàn)潛在的有價值的信息和知識以及云服務(wù)的結(jié)果。與傳統(tǒng)的數(shù)據(jù)挖掘相比,它旨在改變分析對象?;谠破脚_,進(jìn)一步擴(kuò)展傳統(tǒng)數(shù)據(jù)挖掘,并進(jìn)一步與其他相關(guān)技術(shù)相結(jié)合,實現(xiàn)大數(shù)據(jù)挖掘的同時時,大規(guī)模,快速處理和交互式分析信息。
3 基于云計算的大數(shù)據(jù)挖掘體系結(jié)構(gòu)
傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)通常運(yùn)行在獨立的機(jī)器上或客戶機(jī)/服務(wù)器上。該體系結(jié)構(gòu)通常是客戶機(jī)/服務(wù)器的兩層結(jié)構(gòu)或Web瀏覽器/服務(wù)器的三層結(jié)構(gòu)。其系統(tǒng)結(jié)構(gòu)大致分為數(shù)據(jù)源,數(shù)據(jù)存儲,挖掘分析,前端顯示四層,處理流程主要用于將數(shù)據(jù)移動到計算機(jī)中,將預(yù)處理后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中,數(shù)據(jù)集中存儲和遷移分析服務(wù)器上的挖掘并最終以交互方式向用戶展示結(jié)果。但是,在處理大規(guī)模分布和動態(tài)異構(gòu)數(shù)據(jù)時,這種存儲和后處理的集中批處理模式無疑增加了時間,空間復(fù)雜度和傳輸成本。此外,還存在以下問題:①傳統(tǒng)信息系統(tǒng)的擴(kuò)展存在障礙。在異構(gòu)環(huán)境中,群集的計算能力很差,存儲受限于數(shù)據(jù)的大小和類型,而且縱向擴(kuò)展的成本非常高。②數(shù)據(jù)挖掘效果不能滿足預(yù)期的要求。傳統(tǒng)分析工具和挖掘算法對于多維和復(fù)雜的大數(shù)據(jù)沒有可移植性和可伸縮性。由于分析不夠深入,導(dǎo)致低質(zhì)量和低效率的分析結(jié)果。例如,傳統(tǒng)的聚類算法以犧牲原始數(shù)據(jù),低質(zhì)量聚類結(jié)果和高時間復(fù)雜度為代價來處理高維數(shù)據(jù)。③用戶交互體驗效果不佳。預(yù)處理階段耗時繁瑣的手工排序以及用戶需求的被動和非智能認(rèn)知過程與用戶所需的簡單,快速,智能和實時的標(biāo)準(zhǔn)不一致。
3.1 云計算
面對大數(shù)據(jù)時代傳統(tǒng)數(shù)據(jù)挖掘的不足,云計算作為高度可擴(kuò)展,高度靈活和虛擬化的計算模型,為大數(shù)據(jù)挖掘的存儲容量和處理速度提供動態(tài)支持。核心技術(shù)的云計算包括分散式存儲和分布式并行計算。其中,分布式存儲主要是分布式文件存儲和分布式數(shù)據(jù)庫存儲。由GFS代表的分布式文件系統(tǒng)具有高可擴(kuò)展性,高容錯性和高吞吐量。它們大多適用于大規(guī)模,分布式,海量數(shù)據(jù)并發(fā)訪問。它并不適合存儲大量的小數(shù)據(jù)文件,但是一些系統(tǒng)可以存儲大量小文件,如Colossus,Haystack和TFS(TaoFileSystem)。分布式數(shù)據(jù)庫包括事務(wù)數(shù)據(jù)庫和分析數(shù)據(jù)庫,請參見表2,部分結(jié)合了并行數(shù)據(jù)庫的高性能和MapReduce的高可伸縮性,以存儲結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來解決傳統(tǒng)數(shù)據(jù)分析面臨的存儲問題。與此同時,以MapReduce為代表的分布式并行計算具有簡單易用,擴(kuò)展性好的特點。它適用于批量處理的大規(guī)模的數(shù)據(jù),能夠有效減少計算復(fù)雜度和提高計算效率。目前,一些知名企業(yè)正在為自己的業(yè)務(wù)領(lǐng)域推出基于云計算的相應(yīng)大數(shù)據(jù)挖掘解決方案。例如,Google構(gòu)建的新一代搜索引擎平臺可以實現(xiàn)大數(shù)據(jù)的大規(guī)模小文件存儲和實時交互分析;微軟將使用Windows、Azure與Hadoop集成,并與應(yīng)用軟件(如商業(yè)智能BI)集成,以提供多平臺兼容的多功能高性能分析挖掘服務(wù);IBM基于Hadoop和流計算,智能分析和其他系統(tǒng)進(jìn)行實時數(shù)據(jù)管理和智能分析;其他公司正在改進(jìn)開源Hadoop平臺上的功能,比如Yahoo在Hadoop平臺上開發(fā)的Pig,F(xiàn)acebook開發(fā)的Hive等。雖然上述大數(shù)據(jù)挖掘體系結(jié)構(gòu)不盡相同,但其云構(gòu)建平臺和挖掘功能的構(gòu)建策略并無顯著差異。然而,面對諸如數(shù)據(jù)共享和跨多個領(lǐng)域的采礦平臺的適用性等問題,各自的解決方案需要相互學(xué)習(xí)并進(jìn)一步相互整合。
3.2 大數(shù)據(jù)挖掘架構(gòu)
基于上述研究,筆者提出了一種集成多種計算和存儲模式的大數(shù)據(jù)挖掘體系結(jié)構(gòu),具有強(qiáng)大的分析挖掘功能。該框架從內(nèi)到外分為支撐平臺層,功能層和服務(wù)層,如圖1所示。
(1)支持平臺層。作為大數(shù)據(jù)挖掘的資源和動力支撐,該平臺通過將混合大數(shù)據(jù)與基于云計算的多種支持處理技術(shù)相結(jié)合,創(chuàng)建了一個擁有強(qiáng)大而豐富資源的云環(huán)境。這種云環(huán)境不僅可以向外界提供數(shù)據(jù),硬件和軟件等資源,而且可以計算出向數(shù)據(jù)轉(zhuǎn)移的方式,為多處理器的預(yù)處理,分析和挖掘過程注入強(qiáng)大的動力,處理源復(fù)雜數(shù)據(jù)。
(2)功能層。該層可以根據(jù)用戶需求和偏好自動執(zhí)行智能分析和挖掘。其中,分析,挖掘和其他工具依賴于云平臺高效的存儲和計算能力以及高擴(kuò)展性。
(3)服務(wù)層。大數(shù)據(jù)挖掘會自動通過客戶端與服務(wù)提供商和用戶進(jìn)行交互。其挖掘結(jié)果通過諸如可視化和數(shù)據(jù)源等技術(shù)以服務(wù)的形式呈現(xiàn)給用戶。
總體而言,大數(shù)據(jù)挖掘提供了云服務(wù)模型。也就是說,功能層,服務(wù)層和平臺層是相互整合和相互依賴的。三者形成了以強(qiáng)大的計算和存儲能力為核心的各種分析,挖掘和顯示。通過功能整合,實時分析和挖掘云計算系統(tǒng)中的大數(shù)據(jù),從而產(chǎn)生三種形式的基礎(chǔ)架構(gòu)即服務(wù)(IaaS),平臺即服務(wù)(PaaS)和軟件作為服務(wù)(SaaS)可供用戶使用。
4 結(jié) 語
大數(shù)據(jù)的出現(xiàn)帶來了豐富而多樣的潛在寶貴資源,以及傳統(tǒng)數(shù)據(jù)管理和科學(xué)思維的變化。面對龐大,復(fù)雜和不確定的動態(tài)數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理方法,無論是計算還是存儲,都面臨著嚴(yán)峻的挑戰(zhàn)。它們的可擴(kuò)展性和靈活性不能滿足大數(shù)據(jù)實時處理的要求。云計算為大數(shù)據(jù)處理提供了強(qiáng)大的計算和存儲能力,同時,大數(shù)據(jù)挖掘為大數(shù)據(jù)和云計算的深度整合提供了機(jī)會。
參考文獻(xiàn)
[1]郭思亮,宋廷山,刁艷華.基于云計算的大數(shù)據(jù)分析相關(guān)問題探討[J].齊魯師范學(xué)院學(xué)報,2015(1):134~139.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,38(7):103~108.
收稿日期:2018-5-21