摘 要:為了提升大數(shù)據(jù)挖掘過程中的效率和準確性,本文提出了一種新的大數(shù)據(jù)挖掘方法。該方法從實際問題出發(fā),抽象出多個不同的約束條件,并利用和方案的交叉映射形成選擇矩陣,再選擇矩陣中各個元素的排序,確定最佳選擇,即得到最終的挖掘結(jié)果。為了測試所提出的多條件約束大數(shù)據(jù)挖掘方法的有效性,本文以云計算虛擬機資源的配置挖掘為研究對象進行試驗。試驗中針對計算型任務(wù)、優(yōu)化型任務(wù)和圖像型任務(wù)分別選擇不同的虛擬機,挖掘方法在通用均衡性虛擬機、計算密集型虛擬機、內(nèi)存優(yōu)化型虛擬機、圖形處理型虛擬機、開發(fā)測試型虛擬機以及網(wǎng)絡(luò)安全型虛擬機中找到了最佳的配置結(jié)果。
關(guān)鍵詞:大數(shù)據(jù)挖掘;云計算;虛擬機配置;最佳配置
中圖分類號:TP 311" " " " 文獻標(biāo)志碼:A
自從人類進入信息社會以來,社會生產(chǎn)和人民生活面臨前所未有的深刻變化,其中一個最重要的特點就是信息量的大幅度增加[1]。這種增加無疑使社會公眾獲取信息的渠道更豐富,不同群體間的信息不對稱性也得到了一定程度的改進,進而推動了人人自媒體時代的到來。但是,數(shù)據(jù)量和信息量的增加也帶來了一些負面影響,例如增加了人們信息搜索方面的時間開銷[2]。由于有用信息之外摻雜了大量的冗余信息和無效信息,人們不得不抽出大量時間,瀏覽各類信息,以提取對自己有用的信息。如果不能在海量信息中提取出對自己有價值的信息,那么可能會被錯誤的信息誤導(dǎo),進而做出錯誤的選擇甚至引發(fā)工作失誤、降低工作效率。為了解決上述問題,大數(shù)據(jù)挖掘方法應(yīng)用而生[3]。大數(shù)據(jù)挖掘方法是在數(shù)據(jù)挖掘基礎(chǔ)上的進一步改良,其面對的數(shù)據(jù)集合也不同于以往時代,需要處理更多的數(shù)據(jù)。這就要求大數(shù)據(jù)挖掘方法具有足夠的硬件支撐,同時要求挖掘過程更嚴謹、挖掘結(jié)果更精確。因此本文提出了一種新的大數(shù)據(jù)挖掘方法,并通過試驗進行測試。
1 多條件約束的大數(shù)據(jù)挖掘方法設(shè)計
1.1 方法設(shè)計
大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘一樣,都注重挖掘的效率和準確率。挖掘效率既取決于挖掘算法本身,也在很大程度上受硬件的影響。目前,硬件技術(shù)水平的發(fā)展日新月異,給大數(shù)據(jù)挖掘提供了足夠的支持。因此,只要挖掘方法設(shè)計合理,就可以取得較高的挖掘效率。而挖掘結(jié)果的準確率離不開大數(shù)據(jù)挖掘方法的合理設(shè)計。從解決思路上看,設(shè)定的條件充分、約束合理,就可以保證挖掘結(jié)果的精確性。因此,本文中提出了一種多條件約束的大數(shù)據(jù)挖掘方法。
這種方法需要從要處理的問題中提煉出不同的條件,每個條件對應(yīng)一項約束,這樣就行了一個多約束集合,如公式(1)所示。
E={e1,e2,…,e|E|} (1)
式中:E表示從挖掘問題本身提煉出的全部約束所構(gòu)成的集合;e1表示從挖掘問題本身提煉出的第一條約束;e2表示從挖掘問題本身提煉出的第二條約束;e|E|表示從挖掘問題本身提煉出的第|E|條約束;|E|表示從挖掘問題本身提煉出的全部約束的數(shù)量。
為了解決一個具體的挖掘問題,需要有針對性地設(shè)計出處理方案,其構(gòu)成的集合如公式(2)所示。
P={p1,p2,…,p|P|} (2)
式中:P表示針對挖掘問題所設(shè)計的全部方案所構(gòu)成的集合;p1表示針對挖掘問題所設(shè)計的第一組方案;p2表示針對挖掘問題所設(shè)計的第二組方案;p|P|表示針對挖掘問題所設(shè)計的第|E|組方案;|P|表示針對挖掘問題所設(shè)計的全部方案的組數(shù)。
進而需要根據(jù)約束和方案進行判斷和選擇,得到的依據(jù)如公式(3)所示。
(3)
式中:R表示約束和方案交叉映射后的選擇矩陣;r11表示約束一和方案一交叉映射后的選擇;r12表示約束二和方案一交叉映射后的選擇;r21表示約束一和方案二交叉映射后的選擇。
顯然,最終挖掘結(jié)果的合理性取決于公式(3)中選擇的合理性,哪種選擇與預(yù)期結(jié)果更接近,該選擇就是正確的、合理的。進而需要將每一種選擇和預(yù)期結(jié)果進行比較,如公式(4)所示。
(4)
在不同的問題中并非都是正向選擇,有的取決于反向選擇的結(jié)果。反向選擇的操作如公式(5)所示。
(5)
1.2 方法流程
如上所述,本文對多條件約束的大數(shù)據(jù)挖掘方法進行了設(shè)計,這種方法在解決具體問題過程中需要一個完整的流程,如下所示。
第一個步驟,根據(jù)大數(shù)據(jù)挖掘的具體任務(wù),分別設(shè)定好約束集合和方案集合。
第二個步驟:在約束集合和方案集合的支撐下,得到選擇集合。
第三個步驟:計算選擇集合中不同選擇的權(quán)重。
第四個步驟:將每種選擇與預(yù)期結(jié)果進行比較,并分別形成正向比對和反向比對,如公式(4)和公式(5)所示。
第五個步驟:得到全部選擇的比較結(jié)果,從中選擇一個最合適的作為最終的挖掘結(jié)果。
2 云計算虛擬機配置的條件設(shè)定
在上述研究工作中,本文提出了一種新的大數(shù)據(jù)挖掘方法。該大數(shù)據(jù)挖掘方法使用多種條件進行約束,從而保證挖掘結(jié)果的準確性。為了驗證所提方法的有效性,本文選定特定的對象進行試驗測試。
云計算是目前廣泛采用的一種新型計算模式,可以有效解決本地計算資源不足的問題。云計算中的關(guān)鍵是實際計算任務(wù)經(jīng)過虛擬機匹配,進而在云端找到合適的物理資源的過程。因此,在云端進行虛擬機的合理選擇是實現(xiàn)云計算資源最佳配置的關(guān)鍵所在。在各個云平臺構(gòu)成的云端存在大量的虛擬機,搜索合適虛擬機可以采用大數(shù)據(jù)挖掘。云端的虛擬機不僅數(shù)量多,而且類型豐富,不同的計算任務(wù)請求需要選擇最合適的虛擬機。云端虛擬機的分類如圖1所示。
從圖1可以看出,云端虛擬機資源至少可以分成6類,不同類別的虛擬機可以完成不同特色的任務(wù)。不同類別虛擬機的特點見表1。
表1對6類不同類別的虛擬機資源都進行了不同的特征特點的比較。從6列虛擬機的特點比較可以看出,前3類特征特點都體現(xiàn)了不同類別虛擬機的公有屬性,而后3類特征特點則更能體現(xiàn)不同類別虛擬機間的差異性。這些公有的屬性和差異屬性共同影響大數(shù)據(jù)挖掘過程的準確性和效率。
3 云計算虛擬機資源的大數(shù)據(jù)挖掘試驗結(jié)果與分析
闡明多條件約束大數(shù)據(jù)挖掘方法,并設(shè)置云計算虛擬機的分類標(biāo)準后,進一步設(shè)定數(shù)據(jù)挖掘過程中各個挖掘方案對應(yīng)的準確性等級。數(shù)據(jù)挖掘的等級一般可以劃分為6個等級:第一個等級是最高等級,意義為“非常準確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求完全一致。第二個等級是次高等級,意義為“很準確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求一致。第三個等級是中間偏好等級,意義為“準確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求基本一致。第四個等級是中間偏差等級,意義為“一般”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求有輕微不符。第五個等級是較差等級,意義為“不準確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求在很大程度不符。第六個等級是最差等級,意義為“很不準確”,即數(shù)據(jù)挖掘算法提供給客戶的結(jié)果與客戶需求完全不符。
可見,上述6個等級具有由好逐漸變差的趨勢。在挖掘算法中,為了能夠量化執(zhí)行挖掘過程,將這6個等級對應(yīng)于具體的分數(shù),見表2。
表2設(shè)定的分數(shù)是一個區(qū)間分數(shù)的下限值,例如“非常準確”的得分必須要大于等于90分,滿分為100。90~100區(qū)間的分數(shù),都對應(yīng)“非常準確”的等級。按照同樣的方式,80~89區(qū)間的分數(shù),都對應(yīng)“很準確”的等級;70~79區(qū)間的分數(shù),都對應(yīng)“準確”的等級;60~69區(qū)間的分數(shù),都對應(yīng)“一般”的等級;50~59這個區(qū)間的分數(shù),都對應(yīng)“不準確”的等級;40分以下的分數(shù),都對應(yīng)“很不準確”的等級。
本文以云端的海量虛擬機測試數(shù)據(jù)為挖掘?qū)ο?,對其?類虛擬機資源進行數(shù)據(jù)挖掘并形成分析和判斷,判斷這些虛擬機對不同計算任務(wù)的實用性。本文分別選擇計算型任務(wù)、優(yōu)化型任務(wù)和圖像型任務(wù),并采用本文提出的多條件約束大數(shù)據(jù)挖掘方法所匹配的虛擬機情況,所得挖掘結(jié)果如下:計算型任務(wù)得到的虛擬機匹配結(jié)果見表3,優(yōu)化型任務(wù)得到的虛擬機匹配結(jié)果見表4,圖像型任務(wù)得到的虛擬機匹配結(jié)果見表5。
表3、表4和表5分別給出了不同任務(wù)需求下大數(shù)據(jù)挖掘方法所得各類虛擬機的配置結(jié)果,為了便于將這些結(jié)果直觀地展示出來,本文繪制了如圖2所示的對比圖形。
由圖2可以看出,大數(shù)據(jù)挖掘方法給計算型任務(wù)準確地配置了計算密集型的虛擬機資源,給優(yōu)化型任務(wù)選擇了內(nèi)存優(yōu)化的虛擬機資源,給圖像型任務(wù)配置了圖形處理的虛擬機資源??梢?,對于不同類型的任務(wù),本文提出的大數(shù)據(jù)挖掘方法都能找到最佳的虛擬機資源進行配置,也取得了令人滿意的結(jié)果。
4 結(jié)論
信息社會的到來使信息量的爆炸式增長,在給人們提供信息便利的同時也增加了信息搜索的難度。大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘一樣,都注重挖掘的效率和準確率。為了提升大數(shù)據(jù)挖掘過程中的效率和準確性,本文建立了一種基于多條件約束的大數(shù)據(jù)挖掘方法。該方法利用約束集合、方案集合和選擇集合的設(shè)定和計算,得到了合理的挖掘結(jié)果。性能測試試驗以云計算虛擬機配置為挖掘?qū)ο?,?類任務(wù)在6類虛擬機資源中尋找最佳配置,試驗結(jié)果充分證明了本文所提方法的有效性。
參考文獻
[1]萬祥,胡念蘇,韓鵬飛,等.大數(shù)據(jù)挖掘技術(shù)應(yīng)用于汽輪機組運行性能優(yōu)化的研究[J].中國電機工程學(xué)報,2016,36(2):459-467.
[2]趙小凡,杜舒明,劉超.基于大數(shù)據(jù)挖掘的電能計量互感器誤差自動化控制系統(tǒng)[J].自動化與儀表,2024,39(3):151-154.
[3]劉雪飛,林子釗,田啟東,等.基于大數(shù)據(jù)挖掘的電力多源異構(gòu)信息融合技術(shù)研究[J].制造業(yè)自動化,2023,45(9):75-78.