藺 莉,魏 銳
(黃淮學院信息工程學院,河南駐馬店,463000)
云計算(Cloud Computing)是一種基于互聯(lián)網(wǎng)的新型超級計算方式,實現(xiàn)在“云”端數(shù)據(jù)計算和信息存儲,它把存儲于各分布式設備上的資源聯(lián)合起來協(xié)同工作。使得各種應用能夠根據(jù)需求獲取適當?shù)拇鎯臻g和各種服務。云計算的核心就是網(wǎng)絡上海量數(shù)據(jù)的存儲和計算。通過這種方式,共享的軟硬件資源和信息可以按需提供給計算機和其他設備。云計算服務通常提供通用的通過瀏覽器訪問的在線商業(yè)應用,軟件和數(shù)據(jù)可存儲在數(shù)據(jù)中心。因此云計算在編程模式及數(shù)據(jù)的存儲、管理等方面具有自己特有的方式。通過云服務平臺,使得人們獲取信息、溝通交流的方式更加方便、快捷。
云計算根據(jù)服務類型可以分為基礎設施即服務(IaaS),平臺即服務(PaaS)和軟件即服務(SaaS)。根據(jù)云計算服務對象可以分為公有云、私有云和混合云。
云計算的特點是具有超大規(guī)模及虛擬化,對客戶端需求低,低成本,簡單的終端和“按需提供服務”,實現(xiàn)輕松共享數(shù)據(jù),安全的數(shù)據(jù)存儲,高可靠性,服務面向的廣泛性,用戶計算的分布性,用戶服務的個性化、多樣性、靈活性、獨立性、通用性與易擴展性,高度自治性等特點。用戶還可以按照自己的需求,應用高層次的編程模型,完成自己的云計算程序,并在云端運行該程序。
云計算可以分為以下四層:基礎設施層、平臺層、應用層和客戶端,其中基礎設施層又可以分為硬件平臺、虛擬和操作系統(tǒng)層和存儲平臺三部分,應用層分為應用軟件層與服務兩個部分,如圖1 所示:
云計算體系結(jié)構(gòu)是由用戶交互界面、服務目錄,管理系統(tǒng)、部署工具、資源監(jiān)控和測度、服務器集群組成。其工作原理是用戶由客戶端通過用戶交互界面根據(jù)所需要的服務來選擇服務目錄,通過終端向“云”提出服務請求,并驗證通過后,將由管理系統(tǒng)來找到可用計算資源和服務,通過部署工具根據(jù)用戶請求智能來挖掘服務云中的資源。
數(shù)據(jù)挖掘(Data Mining)是指從信息庫中存在的大量的、隨機的、有噪聲的、模糊的、不完全的實際應用數(shù)據(jù)中,采用數(shù)據(jù)挖掘技術,從信息庫中提取或“挖掘”出隱藏于大量數(shù)據(jù)之內(nèi)的、事先人們不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的一般目的是幫助決策者尋找數(shù)據(jù)間潛在的關聯(lián),從大量數(shù)據(jù)中挖掘出未知的數(shù)據(jù)之間的關系模式,去發(fā)現(xiàn)未知的、隱藏的知識,數(shù)據(jù)挖掘所得到的知識信息具有未知性、有效性和實用性。通過挖掘出這些知識,決策者把知識運用到企業(yè)中,可以幫助決策者對預測趨勢發(fā)展做出正確的判斷,及時地調(diào)整企業(yè)發(fā)展策略,在激烈的商業(yè)競爭,立于主動地位。從知識發(fā)現(xiàn)的整個過程來看,數(shù)據(jù)挖掘步驟如圖1所示。
圖1 數(shù)據(jù)挖掘的過程
各步驟的具體功能如下:
(1)數(shù)據(jù)選擇:根據(jù)不同的挖掘目標,從數(shù)據(jù)庫中檢索與分析任務相關的數(shù)據(jù),對目標數(shù)據(jù)進行處理。
(2)數(shù)據(jù)預處理:對選擇的數(shù)據(jù)進行消除噪聲和不一致數(shù)據(jù)處理。
(3)模式發(fā)現(xiàn):使用智能方法從經(jīng)過預處理后的數(shù)據(jù)中提取用戶可能感興趣的數(shù)據(jù)模式。
圖1 云計算的層次結(jié)構(gòu)
(4)模式評估:通過特定的評估方式,根據(jù)某種興趣度度量,得到用戶真正需要的模式。
(5)知識表示:通過可視化和知識表示技術向用戶提供挖掘的知識,為用戶的決策服務。
對圖像數(shù)據(jù)信息進行挖掘,首先需要預處理圖像數(shù)據(jù),其次要收集圖像數(shù)據(jù)庫中圖像的顏色、大小等特征信息,來構(gòu)建圖像數(shù)據(jù)的特征空間,然后進行分類和預測分析、多維分析,檢索圖像數(shù)據(jù)的相似性,最后進行圖像數(shù)據(jù)的關聯(lián)挖掘。數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)如圖3所示。
圖3 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
通過分析數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu),來探討如何利用云平臺,在海量數(shù)字圖像數(shù)據(jù)中挖掘所需的圖像數(shù)據(jù)信息。挖掘圖像數(shù)據(jù)的信息過程如圖4所示。
圖4 圖像數(shù)據(jù)挖掘
(1)預處理
圖像數(shù)據(jù)的預處理,在對圖像數(shù)據(jù)進行挖掘之前,首先需要對圖像數(shù)據(jù)庫中的圖像數(shù)據(jù)進行處理。是把圖像數(shù)據(jù)庫中一些無用的,模糊不清的或已損壞的圖像數(shù)據(jù)信息進行檢查、清理和選擇。保證在圖像數(shù)據(jù)信息的挖掘過程中,圖像數(shù)據(jù)信息的可靠,正確。
(2)構(gòu)建圖像數(shù)據(jù)的特征空間
在圖像數(shù)據(jù)特征庫中,通過收集圖像文件的名稱、格式、尺寸、圖像文件創(chuàng)建時間和圖像文件描述中的關鍵字、圖像的形狀、圖像的顏色和紋理等特征信息來構(gòu)建圖像數(shù)據(jù)的特征空間,實現(xiàn)對圖像數(shù)據(jù)信息的多維分析。來挖掘圖像數(shù)據(jù)庫中的有用的圖像數(shù)據(jù)信息。
(3)圖像數(shù)據(jù)的分類和預測分析
對圖像數(shù)據(jù)分類,是根據(jù)圖像的特征來進行分類,得出知識與規(guī)則來預測未來的信息。依據(jù)這些特征進行圖像數(shù)據(jù)的有效分類,通過分類可以從中發(fā)現(xiàn)每類圖像數(shù)據(jù)的一般特性,有了每類圖像的特性就可以進行圖像數(shù)據(jù)的預測分析工作。
(4)多維分析圖像數(shù)據(jù)
基于圖像數(shù)據(jù)的描述子(特征描述子和布局描述子)來構(gòu)建圖像數(shù)據(jù)的立方體,圖像的數(shù)據(jù)立方體包含了圖像的顏色、紋理、形狀等信息,在圖像數(shù)據(jù)信息中,通過圖像的形狀、顏色和紋理等多維的特征,綜合分析多維的各種數(shù)據(jù)信息。找出圖像數(shù)據(jù)的知識和規(guī)模,挖掘出圖像數(shù)據(jù)庫中有用的圖像數(shù)據(jù)信息來。
(5)檢索圖像數(shù)據(jù)信息的相似性
檢索圖像數(shù)據(jù)信息的相似性,通常采用基于圖像小波的特征、圖像顏色的特征、帶有區(qū)域粒度特征和圖像多特征構(gòu)成的特征來進行圖像相似性檢索。通過對圖像特征、圖像數(shù)據(jù)的內(nèi)容或描述進行檢索。其中,基于圖像的顏色、形狀和紋理等特征來檢索圖像數(shù)據(jù)的相似性,首先是把這些圖像特征轉(zhuǎn)化為特征向量,其次是對轉(zhuǎn)化后特征向量與圖像數(shù)據(jù)庫中已經(jīng)存在的特征向量進行檢索匹配。然后根據(jù)比較結(jié)果檢索到與該圖像相似的圖像。
(6)挖掘圖像數(shù)據(jù)信息的關聯(lián)規(guī)則
對圖像數(shù)據(jù)的信息進行關聯(lián)規(guī)則的挖掘,就是在圖像信息數(shù)據(jù)庫中,按照圖像的特征,找出在不同圖像中隱含的、有價值的圖像信息的規(guī)則與模式,在圖像數(shù)據(jù)庫中挖掘出圖像數(shù)據(jù)信息之間的關聯(lián)。在挖掘中,一個事務對應一個圖像,圖像對象之間的關聯(lián)規(guī)則有圖像內(nèi)容和非圖像內(nèi)容特征間的關聯(lián);與空間聯(lián)系無關的圖像內(nèi)容間的關聯(lián);與空間聯(lián)系有關的圖像內(nèi)容間的關聯(lián)三種。
基于云計算的圖像數(shù)據(jù)挖掘系統(tǒng)利用云計算的服務模式,采用B/S結(jié)構(gòu),如圖5所示。系統(tǒng)由數(shù)據(jù)庫群、服務器群和4個子系統(tǒng)組成,系統(tǒng)利用PaaS服務模式向用戶提供一個編寫數(shù)據(jù)挖掘算法的平臺,通過IaaS服務模式向平臺租用服務器或數(shù)據(jù)庫,使用SaaS服務模式,為用戶提供數(shù)據(jù)挖掘服務。
圖3 基于云計算圖像數(shù)據(jù)挖掘系統(tǒng)框架
圖像數(shù)據(jù)挖掘是多媒體數(shù)據(jù)挖掘的一個分支,圖像數(shù)據(jù)挖掘需要綜合各類知識與技術,其挖掘的過程就是對圖像數(shù)據(jù)庫中原始的大量圖像數(shù)據(jù)進行綜合分析,挖掘出隱含的、有價值的圖像信息的規(guī)則與模式,并對其進行模式提取、知識表達和知識推理,最終得到圖像數(shù)據(jù)信息的知識與規(guī)則。實現(xiàn)圖像數(shù)據(jù)信息的挖掘發(fā)現(xiàn)。
[1]杜琳,陳云亮,朱靜.圖像數(shù)據(jù)挖掘研究綜述[J].計算機應用與軟件,2011,02:125-128
[2]孫利,陳萍,陳華麗.關聯(lián)規(guī)則挖掘在網(wǎng)絡教學評價中的應用[J].電腦開發(fā)與應用,2007,1:1
[3]雷亮,汪同慶,楊波.圖像關聯(lián)規(guī)則挖掘研究[J].計算機應用研究.2009 ,6:2374-2376