張燕麗(廣東農(nóng)工商職業(yè)技術(shù)學(xué)院,廣東,510507)
基于云平臺的海量數(shù)字圖像數(shù)據(jù)挖掘探討
張燕麗
(廣東農(nóng)工商職業(yè)技術(shù)學(xué)院,廣東,510507)
本文借助云平臺Hadoop的分布式文件系統(tǒng)(HDFS)和分布式并行計算框架(MapReduce),來進(jìn)行海量數(shù)字圖像的數(shù)據(jù)挖掘。構(gòu)建了基于Hadoop云平臺的海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng),實現(xiàn)海量數(shù)字圖像信息數(shù)據(jù)挖掘。
云計算;數(shù)據(jù)挖掘;Hadoop;MapReduce
數(shù)據(jù)挖掘就是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中提取或“挖掘”知識,這些知識具有未知性、有效性和實用性。由于知識事先不為人們所知,而是隱藏于大量數(shù)據(jù)之內(nèi),如何通過尋找數(shù)據(jù)間潛在的關(guān)聯(lián),挖掘出隱藏于大量數(shù)據(jù)之內(nèi)的知識,數(shù)據(jù)知識的挖掘的具體過程如圖1所示。
圖1 數(shù)據(jù)知識的挖掘過程圖
Hadoop云平臺一個是包括分布式文件系統(tǒng)(HDFS)和分布式并行計算框架(MapReduce)為核心的開源分布式的計算平臺。用戶可以利用Hadoop輕松地組織計算機資源,Hadoop云平臺為不同的用戶提供了編程環(huán)境。用戶可以根據(jù)需要,構(gòu)建自己的Hadoop計算云平臺,另外,云平臺還為用戶提供了方便可以隨時充分利用的集群的計算和存儲能力,可以有效地解決海量數(shù)據(jù)的處理問題。MapReduce是一個軟件框架,可以高效地處理大規(guī)模的數(shù)據(jù)集,是一種可靠容錯的并行處理方式。MapReduce中的并行計算模式,可以對需要任務(wù)的處理分為Map(映射)和Reduce(規(guī)約)兩個階段。Hadoop云平臺的項目結(jié)構(gòu)如2所示。
圖2 Hadoop項目結(jié)構(gòu)
3 圖像數(shù)據(jù)信息的挖掘流程
作為多媒體數(shù)據(jù)挖掘的一個分支——數(shù)字圖像數(shù)據(jù)信息挖掘,其挖掘的具體流程包括:圖像數(shù)據(jù)的預(yù)處理,在對圖像數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘前,首先要預(yù)處理,對預(yù)處理后的圖像數(shù)據(jù)信息的特征,進(jìn)行提取出,根據(jù)提取出的圖像數(shù)據(jù)信息的特征,對提取的圖像數(shù)據(jù),來構(gòu)建數(shù)據(jù)特征空間。然后根據(jù)提取的圖像特征對來進(jìn)行圖像數(shù)據(jù)信息的分類,從中挖掘出知識與規(guī)則,可以用得到的知識與規(guī)則來預(yù)測未來的信息。在多維分析圖像數(shù)據(jù)信息中,根據(jù)圖像的形狀、紋理、顏色等來構(gòu)建多維的數(shù)據(jù)特征,然后依據(jù)多維的數(shù)據(jù)特征來進(jìn)行綜合分析。另外,根據(jù)數(shù)據(jù)圖像多特征構(gòu)成的特征、數(shù)據(jù)圖像的顏色直方圖的特征和基于小波的帶有區(qū)域粒度的特征,對圖像數(shù)據(jù)信息進(jìn)行相似性檢索。同時,可以依據(jù)圖像的特征,完成運用關(guān)聯(lián)規(guī)則對圖像數(shù)據(jù)信息進(jìn)行挖掘。運用以上數(shù)據(jù)挖掘方法從原始圖像數(shù)據(jù)信息中挖掘出有價值的信息規(guī)則與模式。對挖掘發(fā)現(xiàn)的信息規(guī)則與模式,還需要進(jìn)行模式提取、知識表達(dá)和知識推理,最后得到所需要的知識與規(guī)則。要實現(xiàn)圖像數(shù)據(jù)信息的挖掘,是一項需要綜合應(yīng)用各類知識與技術(shù)才能實現(xiàn)的復(fù)雜的工程。
隨著每天海量數(shù)字圖像的產(chǎn)生,要挖掘出有用的知識信息,需要其超大的存儲空間,Hadoop云平臺可以處理TB級數(shù)據(jù)。如何快速高效地解決海量圖像數(shù)據(jù)的存儲和計算,是目前要解決的問題。Hadoop云平臺的分布式文件系統(tǒng)(HDFS)和分布式并行計算框架(MapReduce)能夠滿足整個挖掘系統(tǒng)的需求。對數(shù)字圖像的數(shù)據(jù)挖掘,因其存儲數(shù)據(jù)格式的不同,需要分別利用不同的處理技術(shù)來解決格式問題。因此,基于Hadoop云平臺,構(gòu)建海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng)。
在云平臺下運用圖像并行化處理技術(shù),用HBase和Hive存儲和管理海量圖像數(shù)據(jù),map的功能是對海量圖像數(shù)據(jù)首先進(jìn)行圖像的預(yù)處理和圖像特征的提取,reduce 根據(jù)提取到的圖像特征,對同類圖像特征進(jìn)行數(shù)據(jù)挖掘,從而實現(xiàn)了通過MapReduce 程序從它們中獲得圖像數(shù)據(jù)并處理。最終輸出保存獲得的挖掘知識與規(guī)則。因此,在Hadoop云平臺下,對海量圖像數(shù)據(jù)進(jìn)行挖掘,利用分布式文件系統(tǒng)(HDFS)和分布式并行計算框架(MapReduce),可以有效地解決了對海量圖像數(shù)據(jù)信息的存儲和計算的難題。
在Hadoop中MapReduce來進(jìn)行海量圖像數(shù)據(jù)挖掘,了解數(shù)據(jù)流,設(shè)計所需的鍵值對類型。MapReduce程序由用戶定義的 map 函數(shù)、reduce函數(shù)和作業(yè)驅(qū)動程序三部分組成,在MapReduce計算框架中,Hadoop將輸入數(shù)據(jù)劃分成等長的作業(yè)分片,在Map任務(wù)執(zhí)行時調(diào)用map 函數(shù),每個Map任務(wù)處理一個作業(yè)分片,這些Map任務(wù)是并行執(zhí)行的。Hadoop又將每個作業(yè)分片劃分為多個相同的鍵值對,每個Map任務(wù)對該分片中每個鍵值對再調(diào)用map函數(shù)來進(jìn)行處理。在Reduce任務(wù)執(zhí)行時被調(diào)用reduce函數(shù),作業(yè)驅(qū)動程序用于初始化作業(yè)的配置。本系統(tǒng)把一個圖像文件作為一個作業(yè)分片,再把整個作業(yè)分片作為一個鍵值對來處理。這樣每個Map任務(wù)只需調(diào)用一次map函數(shù)來處理一個圖像文件,進(jìn)而實現(xiàn)多個圖像文件的并行化處理。
文章利用Hadoop云平臺構(gòu)建了基于Hadoop云平臺的海量數(shù)字圖像數(shù)據(jù)挖掘系統(tǒng),利用Hadoop云平臺來進(jìn)行海量數(shù)字圖像數(shù)據(jù)的信息的挖掘,挖掘海量數(shù)字圖像數(shù)據(jù)的有用信息為人們的不同需要服務(wù),有效解決了網(wǎng)絡(luò)中海量數(shù)字圖像信息挖掘。
范明譯.數(shù)據(jù)挖掘——概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
Exploration on the Digital Image Data Mining Based on the Cloud platform
Zhang Yanli
(Guangdong AIB Polytechnic College,Guangdong,510507)
In this paper,by means of the cloud platform Hadoop distributed file system(HDFS)and distributed parallel computing framework(graphs),for huge amounts of digital image data mining.Build a huge amounts of digital image based on Hadoop cloud platform data mining system,realize the huge amounts of digital image information data mining.
cloud computing;Data mining;Hadoop;graphs
A
TP311
張燕麗(1975-),女,河南鄭州人,講師,研究方向:計算機應(yīng)用