曹小陽
摘要:本文探討了大數(shù)據(jù)挖掘的基本概論,分析了云計算的大數(shù)據(jù)挖掘構(gòu)架,研究了Hadoop的大數(shù)據(jù)挖掘平臺。
關(guān)鍵詞:云計算;大數(shù)據(jù)挖掘內(nèi)涵;解決方案
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2017)11-0108-01
如今云計算與大數(shù)據(jù)不僅改變了人們生活和工作的方式,還改變了我國市場經(jīng)濟的發(fā)展模式,更重要的是云計算和大數(shù)據(jù)可能會改變信息化的發(fā)展方向。但是為了突破傳統(tǒng)數(shù)據(jù)挖掘存在的弊端,開始將云計算與大數(shù)據(jù)挖掘現(xiàn)結(jié)合,從而為用戶提供更加有效的數(shù)據(jù),滿足其多元化的需求。然而基于云計算的大數(shù)據(jù)挖掘,還需要對大數(shù)據(jù)挖掘中潛在的弊端進行了解,需要采取有效的解決方案才能促使兩者之間進行有效的融合,從而使其能夠得到有效的應用。
1 大數(shù)據(jù)挖掘的基本概論
大數(shù)據(jù)挖掘是指從數(shù)據(jù)類型、數(shù)據(jù)容量、數(shù)據(jù)變化上能夠進行有效地運轉(zhuǎn),將數(shù)量龐大的數(shù)據(jù)中提取具有一定價值的、可應用的數(shù)據(jù)信息,并將其儲存到數(shù)據(jù)庫中供用戶使用。大數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘方式比較而言。雖然兩者的操作目標相同,都是以搜集有價值的信息作為主要目標。但是從技術(shù)操作方面大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘存在的差異較大,通過對大數(shù)據(jù)挖掘的背景及技術(shù)操作方式進行詳細的分析。
隨著我國科技的不斷發(fā)展,以信息技術(shù)為基礎(chǔ)的自媒體被普遍的應用到人們的生活和工作中,但是終端媒體是需要數(shù)據(jù)支持的,隨著數(shù)據(jù)價值的不斷提升,其所發(fā)揮的功能性就越強。通過數(shù)據(jù)的組成、應用、發(fā)展而言,傳統(tǒng)的數(shù)據(jù)挖掘在復雜程度與發(fā)展狀態(tài)來看,其與大數(shù)據(jù)挖掘并沒有可比性,后者在新時代發(fā)展的背景下產(chǎn)生的,能夠有效的為移動智能終端、物聯(lián)網(wǎng)和云計算提供數(shù)據(jù)支持。但是在大數(shù)據(jù)挖掘過程中依然存在諸多的不足,所以要不斷地提升大數(shù)據(jù)挖掘的技術(shù)應用的科學性與先進性。
大數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)相對比,兩者所要面對的處理對象截然不同,傳統(tǒng)數(shù)據(jù)挖掘是對系統(tǒng)中劃定領(lǐng)域中數(shù)據(jù)的基礎(chǔ)上融入部分Web數(shù)據(jù),其數(shù)據(jù)通常是用戶自動生成的信息,此數(shù)據(jù)的類型大部分都是結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)挖掘的主要對象就是結(jié)構(gòu)化的數(shù)據(jù),并詳細、具體的管理Web系統(tǒng)及信息系統(tǒng),且對感知信息系統(tǒng)和設(shè)備產(chǎn)生的仿真數(shù)據(jù)加以分析,由此可見大數(shù)據(jù)挖掘?qū)τ谛畔①Y料的應用更加全面、深入。其與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)比較來說,大數(shù)據(jù)挖掘的對象數(shù)量龐大、涉及范圍廣、數(shù)據(jù)復雜繁瑣,主要應用的是主動搜集的方式,能夠很好地為用戶提供更加豐富、多樣、實時的數(shù)據(jù)信息。然而當前大數(shù)據(jù)挖掘還不夠穩(wěn)定和具體。
2 云計算的大數(shù)據(jù)挖掘構(gòu)架
2.1 云計算的應用特點
云計算因其具備虛擬性、可操作性、可拓展性等優(yōu)勢,而被應用到大數(shù)據(jù)挖掘中,從而有效的彌補其潛在的弊端,切位大數(shù)據(jù)的挖掘提供持續(xù)的動力支持。云計算的關(guān)鍵組成部分包括:分布式并行計算、分布式文件存儲。分布式存儲是將大數(shù)據(jù)中分布的文件進行存儲,主要在大量的分布較廣的數(shù)據(jù)中得到了有效的應用。如:GFS系統(tǒng)的延展性較高,但是在小型存儲文件中難以發(fā)揮有效的應用,通常都會發(fā)生單點故障。當前部分開發(fā)商按照經(jīng)營的業(yè)務特點對云計算中大數(shù)據(jù)挖掘的方案加以推廣,如:谷歌最新開發(fā)的搜索引擎,在搜索過程中能夠?qū)Υ髷?shù)據(jù)進行合理、有效的分析;微軟是將Hadoop與WindowsAzure進行了有效的融合,并在軟件集成中運用了智能BI技術(shù),如此一來便能對技術(shù)平臺進行了合理的優(yōu)化,能夠?qū)?shù)據(jù)實施動態(tài)的更新。而其他用戶只能在開源Hadoop平臺不斷地健全基本功能,如:Yahoo在Hadoop平臺上研發(fā)了Pig,F(xiàn)acebook研發(fā)了Hive等。即使大數(shù)據(jù)挖掘的基本架構(gòu)較為相似,但對于云計算與挖掘的構(gòu)建方式卻各不相同。在對各類數(shù)據(jù)挖掘平臺的可行性進行分析時,就要將其中的解決方案進行不斷地互補與融合[1]。
2.2 大數(shù)據(jù)挖掘架構(gòu)
綜合以上研究發(fā)現(xiàn):對于大數(shù)據(jù)挖掘體系架構(gòu)進行深入的了解,其不僅匯集了多種計算、存儲模式,且具備細致的分析功能,其組織架構(gòu)表現(xiàn)為云計算-客戶端的模式。此架構(gòu)主要包括:支撐平臺層、功能層、服務層。大數(shù)據(jù)挖掘構(gòu)架體系圖1所示。
3 Hadoop的大數(shù)據(jù)挖掘平臺
基于Hadoop平臺的大數(shù)據(jù)挖掘主要由三層:數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺、用戶層。數(shù)據(jù)源作為一種冗雜的挖掘?qū)ο?,主要包括:結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)共同組成;大數(shù)據(jù)挖掘平臺主要是以Hadoop平臺為基礎(chǔ),內(nèi)部涵蓋了不同的計算模式及挖掘等功能,同時按照數(shù)據(jù)辯護的的特征進行有效的提?。挥脩魧泳褪峭ㄟ^交流的反思對數(shù)據(jù)進行了解和應用。大數(shù)據(jù)挖掘平臺中,HDFS、HBase、MapReduce有著安全性、擴展性、容錯性、高效性等多種功能,計算模式主要由:批處理、流處理。MapReduce在數(shù)量龐大、更新較慢的數(shù)據(jù)進行挖掘,F(xiàn)lume、Pig等在數(shù)據(jù)流的動態(tài)數(shù)據(jù)挖掘上的彈性較大。但是Hadoop不適合少量流動較慢的數(shù)據(jù)及復雜繁瑣的數(shù)據(jù)圖。所以要將傳統(tǒng)的數(shù)據(jù)庫和操作方式應用到Hadoop平臺中[2]。
當前大數(shù)據(jù)預處理是建立在MapReduce的基礎(chǔ)上,將傳統(tǒng)預處理技術(shù)、數(shù)據(jù)流實時處理、多模態(tài)實體識別、DeepWeb集成、遠程自動采集融合等技術(shù)進行的有效的應用,從而加強其預處理的整體功能,如:在數(shù)據(jù)的傳輸過程中,通過有效的流式計算技術(shù)及嵌入式中間件多級數(shù)據(jù)處理技術(shù),能夠?qū)υ紨?shù)據(jù)和數(shù)據(jù)流進行適時的挖掘。
4 結(jié)語
云計算與大數(shù)據(jù)是信息科技于社會經(jīng)濟高度發(fā)展的產(chǎn)物,且科技的發(fā)展總是潛移默化的改變著人們的思維模式和生活方式。由于信息技術(shù)的不斷開發(fā)與應用,大數(shù)據(jù)這座寶庫也在不斷地被挖掘,但大數(shù)據(jù)作為新興產(chǎn)物對此還沒有絕對的能力去進行良好的好處理。因此在云計算的基礎(chǔ)上進行大數(shù)據(jù)挖掘能夠?qū)π畔⑦M行實時、有效的處理,確保能夠為用戶提供及時的、有效的、嶄新的信息資源。
參考文獻
[1]劉鎮(zhèn).基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].科技風,2017,(19):39-39.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,(7):103-108.
Abstract:This paper discusses the basic introduction of big data mining, analyzes the big data mining framework of cloud computing, and studies the big data mining platform of Hadoop.
Key Words:cloud computing; big data mining connotation; solutionendprint