趙偉杰 戶江民 文小琴
【摘要】? ? 在社會經(jīng)濟和科學(xué)技術(shù)持續(xù)發(fā)展背景下,各個行業(yè)發(fā)展所產(chǎn)生數(shù)據(jù)也越來越多,數(shù)據(jù)庫規(guī)模也不斷擴大,如何在大量數(shù)據(jù)中挖掘出可利用信息,也成為現(xiàn)代人們密切關(guān)注的問題。而直接采用傳統(tǒng)數(shù)據(jù)挖掘技術(shù)將耗費大量時間,在充分考慮挖掘效率、負載平衡、運行環(huán)境等因素下,將全局通訊網(wǎng)絡(luò)模式進行應(yīng)用,不僅可以提高數(shù)據(jù)挖掘效率,還能夠降低運行成本。
【關(guān)鍵詞】? ? 數(shù)據(jù)挖掘? ? 全局通訊網(wǎng)絡(luò)模式? ? 并行算法? ? 動態(tài)調(diào)度? ? 分析
隨著社會經(jīng)濟不斷發(fā)展,尤其是工業(yè)和商業(yè)經(jīng)濟的發(fā)展,數(shù)據(jù)挖掘重要性作用愈發(fā)凸顯,通過對可利用價值數(shù)據(jù)進行挖掘,可以為各行業(yè)穩(wěn)定持續(xù)發(fā)展提供決策支持。但是在數(shù)據(jù)規(guī)模不斷擴大背景下,如何持續(xù)提升數(shù)據(jù)挖掘質(zhì)量與效率,這一問題也引發(fā)社會各界廣泛關(guān)注和思考[1]。尤其是在對有價值信息數(shù)據(jù)挖掘時,不僅需要先進技術(shù)支撐,還需要耗費大量計算資源。本文提出一種新型并行關(guān)聯(lián)規(guī)則挖掘算法,不僅可以降低通信成本,還能夠使挖掘效率得到提高。
一、數(shù)據(jù)挖掘概述
對數(shù)據(jù)挖掘內(nèi)涵進行闡述,主要是通過在大量信息數(shù)據(jù)中挖據(jù)出極具利用價值信息的過程總稱。對這些數(shù)據(jù)信息進行利用,可以為經(jīng)營者做發(fā)展規(guī)劃和策略提供支持,甚至通過數(shù)據(jù)規(guī)律掌握和分析,可以對一個行業(yè)未來發(fā)展形式和方向進行預(yù)測。此外,作為一門新興學(xué)科,開展數(shù)據(jù)挖掘工作需要對多個領(lǐng)域知識進行應(yīng)用,如:數(shù)理統(tǒng)計、人工智能等等。通常情況下,數(shù)據(jù)挖掘涵蓋了準(zhǔn)備、挖掘和評價3個階段,見下圖1。
二、關(guān)聯(lián)規(guī)則挖掘
在進行數(shù)據(jù)挖掘時,對關(guān)聯(lián)規(guī)則進行有效挖掘是面臨的重要問題之一,開展這項工作需要對頻繁項目集進行快速和精準(zhǔn)確定。在一些研究中也提出了采用關(guān)聯(lián)規(guī)則和并行計算數(shù)據(jù)兩種挖掘算法,實際應(yīng)用時對這兩種算法也進行了創(chuàng)新,但是從最終應(yīng)用結(jié)果來看,依然存在可擴展性差、通訊量大等問題。[2-3]。為有效解決這些存在問題,提出新的并行數(shù)據(jù)挖掘算法,通過將大數(shù)據(jù)集劃分成為若干份,然后將其分配到計算機群進行運行,然后對各并行單元運用全局通訊網(wǎng)絡(luò)模式(Master-Worker模式),如下圖2所示。該種模式下各節(jié)點之間存在耦合性比較小,無論是添加節(jié)點,還是減少節(jié)點也都比較便利,進而起到縮短數(shù)據(jù)挖掘時間,提高數(shù)據(jù)挖掘效率和質(zhì)量作用。
三、動態(tài)調(diào)度算法
在將并行算法任務(wù)進行分配時,需要建立在遵循調(diào)度規(guī)則和策略基礎(chǔ)上,將任務(wù)分配到系統(tǒng)各個節(jié)點上,不但可以解決存在的任務(wù)調(diào)度問題,而且能夠提高系統(tǒng)任務(wù)執(zhí)行效果,若是將動態(tài)調(diào)度算法融入到其中,這一效果更加顯著,開展任務(wù)工作系統(tǒng)適應(yīng)性也會進一步增強,隨著負載不平衡情況不斷減輕,系統(tǒng)運行效率也會得到提高。同時,在Master-Worker模式下,通過Master直接和依次的向Worker發(fā)送工作任務(wù),并通過循環(huán)方式對其任務(wù)執(zhí)行狀況進行檢查,當(dāng)Worker完成一項任務(wù)以后,Master也會及時接收任務(wù)返回值并發(fā)送下一次任務(wù),直到合成關(guān)聯(lián)規(guī)則形成為止。
四、算法步驟
對數(shù)據(jù)挖局最為主要問題在于關(guān)聯(lián)規(guī)則挖掘,而對關(guān)聯(lián)規(guī)則進行有效挖掘需要通過發(fā)現(xiàn)頻繁項目集實現(xiàn)。這時候數(shù)據(jù)庫就可以對數(shù)學(xué)矩陣工具進行充分利用,并通過將其轉(zhuǎn)換成為向量矩陣,同時充分發(fā)揮計算機作用,對向量矩陣實施處理,可以快速發(fā)現(xiàn)隱藏的關(guān)聯(lián)規(guī)則。具體算法:假設(shè)數(shù)據(jù)庫由M個屬性和N個元組組成,那么數(shù)據(jù)庫的規(guī)??梢杂肕×N表示,P為計算機可用節(jié)點數(shù),需要解決問題為“在P個節(jié)點上,從M×N規(guī)模數(shù)據(jù)庫中對關(guān)聯(lián)規(guī)則進行挖掘”。
操作流程:首先,對大規(guī)模數(shù)據(jù)庫進行劃分,使之成為若干個小數(shù)據(jù)庫;其次,將各小數(shù)據(jù)庫分配到計算機群不同節(jié)點上,然后開展任務(wù)工作,對各數(shù)據(jù)庫中存在的關(guān)聯(lián)規(guī)則進行充分挖掘;最后,在合成挖掘結(jié)果,構(gòu)建全局關(guān)聯(lián)規(guī)則以后,篩選和輸出存在規(guī)則集[3]。
五、結(jié)果分析
為了對全局通訊網(wǎng)絡(luò)模式(Master-Worker模式)應(yīng)用有效性進行驗證,對這種算法進行了實驗驗證。通過在實驗室局域網(wǎng)PC機群上搭建運行環(huán)境,并以信息傳遞接口(MPI)實現(xiàn)節(jié)點數(shù)據(jù)通訊功能。
根據(jù)上圖3所示,可以發(fā)現(xiàn)與串行、靜態(tài)調(diào)度算法相比較,本文提出的動態(tài)調(diào)度關(guān)聯(lián)規(guī)則挖掘并行算法效率更高。從挖掘效率、挖掘時間層面來說,Master主要職能為工作任務(wù)發(fā)送和接收,對系統(tǒng)挖掘計算工作不參與,因此將其與串行挖掘和靜態(tài)調(diào)度進行比較,花費在通訊上的時間會更多。但是結(jié)合上圖3所示,Master負責(zé)節(jié)點數(shù)量比較多,并且隨著節(jié)點數(shù)量增多,加速比呈現(xiàn)持續(xù)上升狀態(tài),挖掘時間和挖掘效率也會得到優(yōu)化[3-4]。
結(jié)語:隨著社會不斷進步、科技不斷發(fā)展,所面臨數(shù)據(jù)也越來越龐大,提高了數(shù)據(jù)處理和分析難度,尤其是對大規(guī)模數(shù)據(jù)庫有價值信息數(shù)據(jù)挖掘,不僅需要對運行環(huán)境進行考慮,還需要對負載平衡和挖掘效率加以把握,而將全局通訊模式進行應(yīng)用,可以使互相通信效果得到提升,同時結(jié)合動態(tài)調(diào)度原則,將劃分好的挖掘任務(wù)分配至各處理器中,可以確保挖掘效率和質(zhì)量。
參? 考? 文? 獻
[1]徐廣宇,孟繁軍.全局通訊網(wǎng)絡(luò)模式的數(shù)據(jù)挖掘方法研究[J].電腦與信息技術(shù),2013,21(4):1-5.
[2]張語涵.全局通訊網(wǎng)絡(luò)模式的并行關(guān)聯(lián)規(guī)則挖掘方法研究[J].通訊世界,2015,(17):79-80,81.
[3]胡文瑜,孫志揮,張柏禮.分布式數(shù)據(jù)挖掘中的最優(yōu)K相異性取樣技術(shù)[J].東南大學(xué)學(xué)報(自然科學(xué)版),2008,38(3):385-389.