鄧玲玲,婁淵勝,葉楓
?
FP-grow th算法改進(jìn)與分布式Spark研究
鄧玲玲,婁淵勝,葉楓
摘 要:頻繁項(xiàng)集的挖掘一直是數(shù)據(jù)挖掘領(lǐng)域重要的研究方向之一。FP-grow th算法作為無剪枝算法的代表算法被廣泛應(yīng)用于事務(wù)數(shù)據(jù)集的挖掘中。但是FP-grow th算法對(duì)計(jì)算和數(shù)據(jù)集的規(guī)模是敏感的,一方面構(gòu)建FP-tree過程中查找操作作為主要耗時(shí)操作時(shí)間復(fù)雜度較高,另一方面在數(shù)據(jù)集的橫向或縱向維度較大時(shí)將使挖掘效率降低甚至失敗。解決以上問題的高效而廣泛使用的策略是降低搜索時(shí)間復(fù)雜度和應(yīng)用分布式計(jì)算。提出了一種基于Spark框架和改進(jìn)FP-grow th算法的分布式DFP算法,試驗(yàn)結(jié)果表明,相比于基于MapReduce框架的PFP算法、基于Spark框架和原始FP-grow th算法實(shí)現(xiàn)的PFP_SPK算法,DFP算法更加高效,集群和數(shù)據(jù)伸縮性更好。
關(guān)鍵詞:頻繁項(xiàng)集;FP-grow th;Spark;效率;
作者介紹:鄧玲玲(1990-),女,南通,河海大學(xué),計(jì)算機(jī)與信息學(xué)院,碩士研究生,研究方向:云計(jì)算、數(shù)據(jù)挖掘,南京,211100婁淵勝(1968-),男,延津,河海大學(xué),計(jì)算機(jī)與信息學(xué)院,副教授,博士,研究方向:分布式應(yīng)用集成、軟件復(fù)用及軟件體系結(jié)構(gòu),南京,211100 葉 楓(1980-),男,山東,南京航空航天大學(xué),計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,博士研究生,河海大學(xué),計(jì)算機(jī)與信息學(xué)院,講師,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí),南京,211166
關(guān)聯(lián)關(guān)系是一種反應(yīng)事物間的關(guān)聯(lián)或者依賴的知識(shí),關(guān)聯(lián)規(guī)則的挖掘[1]試圖在數(shù)據(jù)集中尋找隱含的或者令人感興趣的關(guān)聯(lián)關(guān)系,是數(shù)據(jù)挖掘領(lǐng)域重要的研究方向之一。在諸多關(guān)聯(lián)規(guī)則算法中,F(xiàn)P-grow th算法[2]是一種無剪枝算法,采用分而治之的思想將構(gòu)造的FP-tree分解為若干條件模式子樹,每個(gè)條件子樹都對(duì)應(yīng)著一個(gè)頻繁項(xiàng)集,通過遞歸地挖掘這些條件子樹從而得到事務(wù)數(shù)據(jù)庫(kù)的頻繁項(xiàng)集。當(dāng)前,文獻(xiàn)[4-8]已經(jīng)對(duì)FP-grow th算法進(jìn)行了很多的研究,但是該算法依然存在如下導(dǎo)致效率低下甚至挖掘失敗缺陷:第一,當(dāng)事務(wù)的橫向或縱向維度很大時(shí),由于構(gòu)建的FP-tree過大無法放入內(nèi)存而導(dǎo)致頻繁項(xiàng)集挖掘的失敗;第二,在對(duì)FP-tree的遞歸挖掘過程中,頻繁地構(gòu)建條件模式基使得空間復(fù)雜度過高造成挖掘失敗;第三、掃描項(xiàng)頭表和FP-tree節(jié)點(diǎn)的時(shí)間復(fù)雜度太高。所以需要一種較為合理的方案優(yōu)化或者解決以上問題。Spark分布式計(jì)算框架能很好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。因此,本文提出了一種分布式Spark改進(jìn)算法DFP,可大幅地提高頻繁項(xiàng)集的挖掘效率。
不少學(xué)者從各個(gè)角度對(duì)算法提出了優(yōu)化或改進(jìn)。如文獻(xiàn)[5]中都提到通過對(duì)原始數(shù)據(jù)庫(kù)的分解達(dá)到對(duì)大型數(shù)據(jù)庫(kù)挖掘的支持目的,但是這種做法無法實(shí)現(xiàn)并行化,隨著數(shù)據(jù)量的增加,其處理的時(shí)間也在增加。文獻(xiàn)[7-8]通過掃描一次事務(wù)數(shù)據(jù)庫(kù)構(gòu)建出事務(wù)庫(kù)的模式矩陣,然后利用該矩陣進(jìn)行頻繁項(xiàng)集的挖掘。但是在內(nèi)存裝載不下這個(gè)矩陣的時(shí)候,將導(dǎo)致挖掘的失敗。在單機(jī)無法承載大型數(shù)據(jù)庫(kù)的挖掘時(shí),并行化FP-grow th算法實(shí)現(xiàn)則成了眾多學(xué)者研究的內(nèi)容。例如文獻(xiàn)[4、6、8]等提出了MapReduce環(huán)境下FP-grow th算法的實(shí)現(xiàn)途徑。其中文獻(xiàn)[6]的實(shí)現(xiàn)基于數(shù)據(jù)本地化的思想減少了網(wǎng)絡(luò)通信量。而其他幾個(gè)文獻(xiàn)的核心都是基于PFP算法思想,只是在具體實(shí)現(xiàn)上進(jìn)行了優(yōu)化。
綜上,雖然以上介紹的相關(guān)工作從各個(gè)角度對(duì)算法進(jìn)行了優(yōu)化或者改進(jìn),但是在大數(shù)據(jù)環(huán)境下,依然不夠理想,對(duì)此本文提出了一種Spark環(huán)境下FP-grow th算法的改進(jìn)算法DFP,通過優(yōu)化項(xiàng)頭表和FP-tree的數(shù)據(jù)結(jié)構(gòu)降低搜索時(shí)間復(fù)雜度,將挖掘過程拆為局部頻繁項(xiàng)集的生成和全局頻繁項(xiàng)集剪枝兩個(gè)階段來解決海量數(shù)據(jù)并行分析問題,并基于UCI數(shù)據(jù)集進(jìn)行了對(duì)比試驗(yàn),結(jié)果表明,DFP算法在執(zhí)行效率上更加高效。
FP-grow th算法借助FP-tree實(shí)現(xiàn)無候選項(xiàng)集的頻繁項(xiàng)集挖掘,算法詳細(xì)描述如文獻(xiàn)[2]中,該算法在挖掘過程中每插入一條事務(wù)均需要對(duì)該事務(wù)按照項(xiàng)頭表中項(xiàng)目的順序進(jìn)行排序,時(shí)間復(fù)雜度為O(n2),而將每個(gè)項(xiàng)目插入到FP-tree中同樣需要將項(xiàng)目與節(jié)點(diǎn)的子節(jié)點(diǎn)進(jìn)行比較,搜索時(shí)間復(fù)雜度高。
(2)構(gòu)建全局候選項(xiàng)集。通過Spark算子collect收集所有節(jié)點(diǎn)的局部頻繁項(xiàng)集,取后并集作為候選項(xiàng)集分發(fā)到各個(gè)節(jié)點(diǎn),統(tǒng)計(jì)出候選項(xiàng)集中候選項(xiàng)目集的出現(xiàn)次數(shù),通過與最小支持度m in_sup比較得出最后的全局頻繁項(xiàng)集。
曼香羅駕乘壺天曉的灰色翼龍,像小飛蟲似的從一個(gè)暗洞里鉆進(jìn)去,又從另一個(gè)暗洞里鉆出來。飛鼠追兵緊隨其后,在云洞里穿梭。頻繁地閃來躲去,讓大家都有些暈頭轉(zhuǎn)向,因此誰也沒敢先發(fā)第一槍,以免誤傷同伴。開始還和曼香羅并駕齊驅(qū)的宴西園,不一會(huì)兒便去向不明,他乘著棕色翼龍,再也沒有出現(xiàn)在云團(tuán)之外?;蛟S,他又迷路了。
1 事務(wù)數(shù)據(jù)庫(kù)D示例
FP-grow th算法中用到的兩種數(shù)據(jù)結(jié)構(gòu)為Header Table 和FP-tree。結(jié)合對(duì)FP-tree的挖掘過程,可以總結(jié)出Header Table的如下3個(gè)用處:
2)構(gòu)建FP-tree時(shí)獲取節(jié)點(diǎn)鏈;
1)掃描事務(wù)數(shù)據(jù)庫(kù)D時(shí),作為對(duì)事務(wù)的剪枝和排序依據(jù);
1993年4月6日,我?guī)е?歲的兒子從北京出發(fā),乘坐東航MU583班機(jī)經(jīng)上海飛往美國(guó)洛杉磯。那是架麥道MD11型客機(jī)。途中,飛機(jī)飛行一直很平穩(wěn),到高度為10100米時(shí),大家覺得似乎已經(jīng)平安抵達(dá),人人臉色輕松。不料,飛機(jī)忽然抖動(dòng)了一下,我的頭頂被一巨大的平板狀物體猛拍一記,一瞧,是飛機(jī)天花板!我飄浮在空中,身不由己,處于嚴(yán)重失控失重狀態(tài)。后來才得知,這可能是飛行員起身時(shí),無意中碰到了升降控制按鈕。
3)對(duì)FP-tree進(jìn)行挖掘時(shí),保證挖掘的順序性以及獲取節(jié)點(diǎn)鏈構(gòu)建條件模式基。
從以上功能可以看出Header Table結(jié)構(gòu)直接影響到FP-grow th算法的性能。本文針對(duì)Header Table工作特點(diǎn),對(duì)原始數(shù)據(jù)結(jié)構(gòu)做出的修改以表1事務(wù)數(shù)據(jù)庫(kù)D為示例數(shù)據(jù),如圖1所示:
圖1 Header Table數(shù)據(jù)結(jié)構(gòu)修改示意圖
改進(jìn)體現(xiàn)在如下方面:
(1)原始數(shù)據(jù)結(jié)構(gòu)中只有一個(gè)數(shù)組,其中數(shù)組元素是一個(gè)二元組:項(xiàng)目名和節(jié)點(diǎn)鏈頭地址。修改后,相應(yīng)數(shù)組變?yōu)榱擞覉DArray標(biāo)簽處所示的結(jié)構(gòu),其中二元組的第二個(gè)元素變?yōu)榱瞬紶栴愋停?/p>
在時(shí)間復(fù)雜度上,以掃描一個(gè)事務(wù)并插入到FP-tree中為例,假設(shè)一個(gè)事務(wù)含有k個(gè)元素,則依據(jù)左圖對(duì)其排序需用次數(shù)k· m,而將其插入到FP-tree中,需要檢索m次,共需要比較m· m次,時(shí)間復(fù)雜度為,而根據(jù)右圖的結(jié)構(gòu),排序時(shí)先根據(jù)項(xiàng)目名查找HashMap,找出下標(biāo)值,并將右圖數(shù)組中對(duì)應(yīng)元組的布爾變量設(shè)置為True,時(shí)間復(fù)雜度為O( k),然后讀取數(shù)組中布爾變量為True的項(xiàng)目名(并重置為False以便掃描下一條事務(wù)),將其插入到FP-tree中時(shí)間復(fù)雜度為O( m)。綜合起來時(shí)間復(fù)雜度為,時(shí)間復(fù)雜度比改進(jìn)前降了一個(gè)數(shù)量級(jí)。
綜合可知,將一條數(shù)據(jù)庫(kù)的事務(wù)從提取到插入FP-tree中,時(shí)間復(fù)雜度由改進(jìn)前的O( m3)降低到了O( m),所以,改進(jìn)的數(shù)據(jù)結(jié)構(gòu)可以提高算法執(zhí)行的效率。為了接下來的描述,本文將改進(jìn)后的算法命名為IPF算法。
在空間復(fù)雜度上,假設(shè)單位存儲(chǔ)為1,共有m個(gè)項(xiàng)目,其中左圖結(jié)構(gòu)占用的容量為2m,而右圖結(jié)構(gòu)占用容量為5m,相當(dāng)于改進(jìn)前的2.5倍容量,但是由于通常m較小,所以改進(jìn)是可以接受的。
優(yōu)質(zhì)護(hù)理管理模式一種新興起來的全新狐貍服務(wù)模式,優(yōu)質(zhì)護(hù)理管理模式的出現(xiàn)與近幾年來人們經(jīng)濟(jì)建設(shè)和文明進(jìn)步息息相關(guān),當(dāng)然,還有一點(diǎn)非常重要的原因是患者對(duì)醫(yī)療衛(wèi)生服務(wù)要求的不斷提高也是其中的一項(xiàng)重要因素[1]。為了探究?jī)?yōu)質(zhì)護(hù)理管理模式在臨床護(hù)理當(dāng)中的應(yīng)用效果,本文對(duì)2018年3月到2018年5月期間本院選取的其中112例皮膚科患者實(shí)施優(yōu)質(zhì)護(hù)理管理模式,并與傳統(tǒng)常規(guī)護(hù)理效果進(jìn)行簡(jiǎn)要的分析和對(duì)比。
聚氨酯防水涂料以異氰酸酯與多元醇、多元胺以及其他含活潑氫的化合物進(jìn)行加工,生成的產(chǎn)物含氨基甲酸酯,因此被稱為聚氨酯。聚氨酯防水涂料是防水涂料中最重要的一類涂料,無論是雙組分還是單組分,都屬于以聚氨酯為成膜物質(zhì)的反應(yīng)型防水涂料。
在集群伸縮性的表現(xiàn)性能上,本文進(jìn)行如下實(shí)驗(yàn):保持?jǐn)?shù)據(jù)集支持度不變,集群節(jié)點(diǎn)數(shù)從1到5規(guī)模遞增,其中一個(gè)Master節(jié)點(diǎn),所有節(jié)點(diǎn)均為Salve節(jié)點(diǎn),同時(shí)設(shè)定數(shù)據(jù)集的拷貝數(shù)變動(dòng)范圍為0~5,則對(duì)DFP算法的測(cè)試結(jié)果如圖5所示:
圖2 FP-tree數(shù)據(jù)結(jié)構(gòu)修改示意圖
由于對(duì)子節(jié)點(diǎn)列表進(jìn)行查詢的時(shí)間復(fù)雜度為O( m),所以為了使查詢效率增高,本文對(duì)每個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)組進(jìn)行修改,將其結(jié)構(gòu)改為HashMap結(jié)構(gòu),如上右圖所示,在這種情況下,查詢的時(shí)間復(fù)雜度將變?yōu)镺(1),時(shí)間復(fù)雜度降低了一個(gè)數(shù)量級(jí)。
(2)增加了一個(gè)HashMap類型元素,其中Key為右圖所示數(shù)組中的項(xiàng)目名,Value是二元組:第一元素為項(xiàng)目名所在元組在數(shù)組中的下標(biāo),第二個(gè)元素為節(jié)點(diǎn)鏈頭指針地址。
在數(shù)據(jù)量大、數(shù)據(jù)維度高的情況下,將整個(gè)數(shù)據(jù)庫(kù)壓縮到一顆FP-tree中很容易導(dǎo)致內(nèi)存溢出。所以將IPF算法的運(yùn)行放在分布式環(huán)境下,對(duì)數(shù)據(jù)分片分別運(yùn)行IPF算法,最后合并局部頻繁項(xiàng)集再進(jìn)行一次全局的統(tǒng)計(jì)剪枝。這樣不僅提高了數(shù)據(jù)分析效率,也解決了單機(jī)無法或高效處理海量數(shù)據(jù)的情況。
本文采用“搬運(yùn)算”的方式對(duì)并行化IPF算法——DFP進(jìn)行實(shí)現(xiàn)??梢詫⑶笕☆l繁項(xiàng)集的操作分為如下兩個(gè)階段進(jìn)行:
兩組患者不良反應(yīng)情況對(duì)比,治療過程中,對(duì)照組有1例患者出現(xiàn)皮膚瘀點(diǎn)、2例患者出現(xiàn)胃腸道反應(yīng)、2例出現(xiàn)輕度牙齦出血;觀察組中有1例患者出現(xiàn)皮膚瘀點(diǎn)、2例患者出現(xiàn)胃腸道反應(yīng)、1例患者出現(xiàn)輕度牙齦出血。兩組患者均出現(xiàn)了不同程度的不良反應(yīng),針對(duì)患者出現(xiàn)的不良反應(yīng)并未給予特殊處理,均自行消退。組間不良反應(yīng)發(fā)生情況對(duì)比,差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。
(1)產(chǎn)生局部頻繁項(xiàng)集。在分布式集群的m個(gè)節(jié)點(diǎn)運(yùn)行IFP算法,求出每個(gè)節(jié)點(diǎn)的局部頻繁項(xiàng)集;
針對(duì)存在的不足,本文將給出相應(yīng)的改進(jìn)方案,并加以實(shí)現(xiàn)形成一種新的FP-grow th改進(jìn)算法:IFP。為了更好地進(jìn)行描述,事務(wù)數(shù)據(jù)庫(kù)D作為描述數(shù)據(jù)進(jìn)行算法闡述,如表1所示:
為了使頻度統(tǒng)計(jì)工作更加高效,算法再次在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上構(gòu)建FP-tree,通過對(duì)FP-tree的挖掘來統(tǒng)計(jì)項(xiàng)集的局部頻度。以表1事務(wù)數(shù)據(jù)庫(kù)D所構(gòu)建的FP-tree為例,假設(shè)候選項(xiàng)集集合中有一個(gè)候選項(xiàng)集a={c,p},則有效的路徑為標(biāo)注的粗體部分路徑圖,如圖3所示:
圖3 有效查詢路徑
根據(jù)FP-tree的特點(diǎn)可知,除根節(jié)點(diǎn)以外,每個(gè)節(jié)點(diǎn)有且僅有一個(gè)父節(jié)點(diǎn),所以算法采用自底向上進(jìn)行搜索,確定相對(duì)p于FP-tree中出現(xiàn)頻度最小的項(xiàng)目p ,根據(jù)Header Table和定位FP-tree中的所有項(xiàng)目名為的節(jié)點(diǎn),從節(jié)點(diǎn)向上搜索。具體的匹配過程轉(zhuǎn)換為最長(zhǎng)公共子序列問題,所以一個(gè)候選項(xiàng)集與一條路徑匹配的時(shí)間復(fù)雜度為,其中|α |為候選項(xiàng)集長(zhǎng)度,|path |為路徑所有節(jié)點(diǎn)個(gè)數(shù),時(shí)間復(fù)雜度為線性的。
下面將以偽代碼的形式給出DFP算法的實(shí)現(xiàn)過程,如下表2所示:
表2 Spark環(huán)境下DFP算法執(zhí)行過程
為了驗(yàn)證本文實(shí)現(xiàn)的分布式算法SPFP的有效性,本文使用5臺(tái)計(jì)算機(jī)(Intel Core i5,CPU 2.4GHz,內(nèi)存為2GB)組成的分布式Spark集群。其中Spark集群的環(huán)境參數(shù)為:操作系統(tǒng)Ubuntu14.04,Hadoop版本Hadoop2.4.1,Spark版本為Spark1.2.0,算法的實(shí)現(xiàn)語言為Scala 2.10.4,JDK版本為JDK 7u55,其中Spark集群采取的主從式架構(gòu),一臺(tái)計(jì)算機(jī)作為Master節(jié)點(diǎn),其他4臺(tái)計(jì)算機(jī)作為Salve節(jié)點(diǎn)。其中實(shí)驗(yàn)所使用的測(cè)試數(shù)據(jù)集為Accidents[3]數(shù)據(jù)集,數(shù)據(jù)來自比利時(shí)國(guó)家統(tǒng)計(jì)局獲得的佛蘭德地區(qū)1991年至2000年交通意外統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)集共340184條數(shù)據(jù)實(shí)例,含有572種不同的屬性值,平均每條事務(wù)約含45個(gè)屬性值。
本文采用了多次取平均的方式來消除單次試驗(yàn)帶來誤差。對(duì)以上3種數(shù)據(jù)集分別應(yīng)用PFP_HDP、PFP_SPK和DFP算法,其中PFP_HDP算法是一種基于MapReduce架構(gòu)的并行化FP-grow th算法,PFP_SPK算法是一種基于原始FP-grow th算法實(shí)現(xiàn)的基于Spark的并行化算法。則實(shí)驗(yàn)結(jié)果如圖4所示:
入摩入富比例提升,國(guó)際資金加速涌入A股市場(chǎng)。根據(jù)MSCI的披露,2019年底將A股納入份額由目前的5%提升到20%,屆時(shí)A股占整個(gè)MSCI新興市場(chǎng)指數(shù)將由目前的0.7%提升至3%。同時(shí)今年9月富時(shí)宣布將分三個(gè)階段把A股1249只股票納入富時(shí)全球市場(chǎng)指數(shù),第一階段將從2019年6月開始,到2020年中國(guó)A股將占富時(shí)新興市場(chǎng)指數(shù)的5.6%。隨著中國(guó)股市逐步融入國(guó)際市場(chǎng),海外資金將通過北上渠道源源不斷流入A股。高盛預(yù)計(jì)2019年因?yàn)镸SCI納入比例提升和納入富時(shí)羅素導(dǎo)致的北上資金將達(dá)到650億美元,相對(duì)于2017、2018年的300億美元和400億美元有較大增長(zhǎng)。
圖4 Accidents:m in_sup=20%
分析可知,3種算法的執(zhí)行時(shí)間與數(shù)據(jù)集的拷貝數(shù)增長(zhǎng)呈正相關(guān)上升關(guān)系,其中PFP_HDP算法的上升幅度最為明顯,由于PFP_HDP算法在運(yùn)行過程中,在集群中存在大量的數(shù)據(jù)傳輸,同時(shí)由于MapReduce模型的高延遲、迭代特性支持不足等短板,導(dǎo)致算法的執(zhí)行時(shí)間以幾乎線性的方式增長(zhǎng),相比較,其他兩種算法幾乎保持水平方式增長(zhǎng)。而得益于DFP算法改進(jìn)的數(shù)據(jù)結(jié)構(gòu),DFP算法效率高出PFP_HDP算法20~50倍,比PFP_SPK算法也高出幾倍。
全區(qū)三級(jí)地共24158.77公頃,占全區(qū)耕地面積的29.09%。其中,以孫崗鎮(zhèn)最多,其面積為4279.67公頃,占三級(jí)地17.71%,東河口鎮(zhèn)和張店鎮(zhèn)次之且相差不大,清水河街道沒有分布三級(jí)耕地。三級(jí)地主要分布在海拔較高且地形起伏相對(duì)較大,路網(wǎng)不夠發(fā)達(dá),土壤中微量元素含量較缺,農(nóng)田基礎(chǔ)建設(shè)一般滿足或者很難滿足的地區(qū)。這些農(nóng)用地受主次干道的影響較小,受支路的影響較大。這些耕地遠(yuǎn)離人口聚集區(qū),農(nóng)產(chǎn)品與生產(chǎn)資料的交易受到一定限制。
同樣地,針對(duì)FP-tree構(gòu)建原理,以表3-1事務(wù)數(shù)據(jù)庫(kù)D為示例數(shù)據(jù),本文對(duì)FP-tree結(jié)構(gòu)修改如圖2所示:
圖5 Accidents:min_sup=20%
從圖5的結(jié)果中可以看出,運(yùn)行時(shí)間隨節(jié)點(diǎn)的增多而有下降趨勢(shì),在節(jié)點(diǎn)少時(shí)下降幅度很大,隨著節(jié)點(diǎn)變多,其幾乎以線性方式遞減,并有趨于水平的趨勢(shì)。
本文通過對(duì)設(shè)備點(diǎn)檢的重要性進(jìn)行簡(jiǎn)單的闡述,進(jìn)而分別從設(shè)備點(diǎn)檢分類管理、設(shè)備點(diǎn)檢分工管理、設(shè)備點(diǎn)檢記錄管理、設(shè)備點(diǎn)檢檢查管理4個(gè)方面對(duì)設(shè)備點(diǎn)檢在大型養(yǎng)路機(jī)械管理中的應(yīng)用進(jìn)行詳細(xì)的研討與探究,并分別從設(shè)備保養(yǎng)與維護(hù)、設(shè)備點(diǎn)檢人員的能力培訓(xùn)、制定全面的設(shè)備點(diǎn)檢流程3方面對(duì)設(shè)備點(diǎn)檢在大型養(yǎng)路機(jī)械管理中的應(yīng)用要點(diǎn)進(jìn)行詳細(xì)的研究與思考。經(jīng)過本文研究表明,在該設(shè)備點(diǎn)檢的應(yīng)用領(lǐng)域依舊存在著較多問題。因此,在未來的研究生活中,應(yīng)進(jìn)一步對(duì)設(shè)備點(diǎn)檢在大型養(yǎng)路機(jī)械中的應(yīng)用進(jìn)行詳細(xì)的研究與分析,希望本文能為設(shè)備點(diǎn)檢在大型養(yǎng)路機(jī)械管理中的應(yīng)用研究提供幾點(diǎn)借鑒,并為大型養(yǎng)路機(jī)械管理的健全提供積極的推動(dòng)作用。
綜合可得,本文的實(shí)現(xiàn)算法DFP比其他算法的執(zhí)行效率更高的同時(shí),還具有良好的數(shù)據(jù)伸縮性和集群伸縮性。
本文分析了傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法FP-grow th的不足,并針對(duì)算法的不足分別從項(xiàng)頭表和FP-tree數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)上、優(yōu)化單路徑問題等角度提出了優(yōu)化?;趦?yōu)化的FP-grow th算法,提出了Spark環(huán)境下的分布式實(shí)現(xiàn)算法DFP算法。最后分別從數(shù)據(jù)伸縮性和集群伸縮性兩個(gè)角度對(duì)算法進(jìn)行了對(duì)比試驗(yàn),結(jié)果證明DFP算法是一種高效的頻繁項(xiàng)集生成算法。
基于本文工作,下一步將考慮如何將本文實(shí)現(xiàn)算法應(yīng)用在實(shí)際問題的分析中,嘗試對(duì)現(xiàn)實(shí)的股票數(shù)據(jù)或者購(gòu)物籃數(shù)據(jù)進(jìn)行分析,并從中找出有意義的規(guī)則或關(guān)系。參考文獻(xiàn)
[1] Fayyad U.,. Piatetsky-Shapiro G, and Smyth P., “From data mining to know ledge discovery in databases”[J], AI magazine, vol. 17, no. 3, p. 37, 1996.
[2] Jiawei Han, Jian Pei, Yiwen Yin. M ining frequent patterns w ithout candidate generation. Proceedings of the 2000 ACM SIGMOD International conference on Management of Data SIGMOD'00. Dallas[J], Texas, United States: ACM Press, 200, 29(2): 1-12P.
[3] Frequent Itemset M ining Dataset Repository[EB/OL].[20 -12-10-21]. http://fim i.ua.ac.be/data/, 2012.
因此,加強(qiáng)綜合研究,對(duì)中國(guó)共產(chǎn)黨生態(tài)文明思想的形成背景、發(fā)展歷程、主要內(nèi)容、經(jīng)驗(yàn)措施等問題進(jìn)行系統(tǒng)而深入的分析和探討,將有可能成為學(xué)術(shù)界研究此問題的未來趨勢(shì)。
[4] 楊勇,王偉. 一種基于MapReduce的并行FP-grow th算法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,25(05): 651-657.
[5] 朱濤. 基于FP-grow th關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[D].南昌大學(xué),2010.
[6] 章志剛,吉根林. 一種基于FP-Grow th的頻繁項(xiàng)目集并行挖掘算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,02:103-106.
研究組并發(fā)癥總發(fā)生率為6.82%,低于常規(guī)組15.91%,差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)。詳情見表2。
[7] 鄧豐義,劉震宇. 基于模式矩陣的FP-grow th改進(jìn)算法[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,05:629-633.
由式(4)第1式、式(11)、式(12)、以及圖1的△OA1B1、△OA2B2知,當(dāng)φ為φ1、φ2時(shí),φ為0、180,δ為δmax、δmin,α為α1、α2,注意到式(13)即知φ1、φ2是αmax可能出現(xiàn)位置。
[8] 陳興蜀,張帥,童浩,崔曉靖. 基于布爾矩陣和MapReduce 的FP-Grow th算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,01:135-141.
Improvement and Research of FP-grow th Algorithm Based on Distributed Spark
Deng LingLing1, Lou Yuansheng1, Ye Feng1,2
(1. College of Computer and Information, Hohai University, Nanjing 211100, China;
2 College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)
Abstract:FP-grow th algorithm as the representatives of non-pruning algorithms is w idely used in mining transaction datasets. But it is sensitive to the calculation and the scale of datasets. When building FP-tree, the search operation as the major time-consuming operation has a higher complexity. And when the horizontal or vertical dimension of data set is larger, the mining efficiency w ill be reduced or even failed. To solve the above problems, reducing the complexity of search time and applying distributed computing are the w idely used strategies. This paper presents a distributed DFP algorithm based on Spark framework and improved FP-grow th algorithm. The results of tests show that, compared to the PFP algorithm based on MapReduce, the PFP_SPK algorithm based on Spark and original FP-grow th algorithm, DFP has high efficiency, cluster and flexibility.
Key words:Frequent Item Sets; FP-grow th; Spark; Efficiency
中圖分類號(hào):TP311
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-757X(2016)05-0009-03
基金項(xiàng)目:國(guó)家科技攻關(guān)計(jì)劃(No. 2013BAB05B00 、No. 2013BAB05B01)
收稿日期:(2016.02.20)