王小燕
(陜西廣播電視大學(xué) 陜西 西安 710119)
基于云計(jì)算的大數(shù)據(jù)挖掘平臺設(shè)計(jì)
王小燕
(陜西廣播電視大學(xué) 陜西 西安 710119)
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,人們接收的數(shù)據(jù)日益增多,如何能夠在較短時間內(nèi)提取出大量有用的信息成為現(xiàn)階段計(jì)算機(jī)處理信息的研究熱點(diǎn)。針對該問題,文中提出了一種基于云計(jì)算的數(shù)據(jù)挖掘技術(shù),該挖掘系統(tǒng)的實(shí)現(xiàn),從理論上拓展了數(shù)據(jù)規(guī)約功能,同時在此基礎(chǔ)上提出并解決了數(shù)據(jù)訪問及數(shù)據(jù)類型的難題。最后,通過實(shí)驗(yàn)驗(yàn)證了該系統(tǒng)的高效性及可行性。
云計(jì)算;數(shù)據(jù)挖掘;數(shù)據(jù)規(guī)約;數(shù)據(jù)訪問
隨著信息化技術(shù)的快速發(fā)展,人們接收的數(shù)據(jù)日益增多,這些數(shù)據(jù)具有量大、異構(gòu)、復(fù)雜等特點(diǎn),研究者難以發(fā)現(xiàn)這些數(shù)據(jù)中蘊(yùn)含的模式和知識[1],但對其進(jìn)行分析能發(fā)現(xiàn)和預(yù)測科研與商業(yè)領(lǐng)域上未來的發(fā)展趨勢,具有不可估量的研究價值與商業(yè)價值。因此,各界研究者連在一起,提出了數(shù)據(jù)挖掘技術(shù)[2]。數(shù)據(jù)挖掘指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,其包含了統(tǒng)計(jì)學(xué)知識、人工智能、模式識別、各種建模技術(shù)以及算法等知識[3]。
近年來,針對數(shù)據(jù)挖掘人們提出了各種分布式并行數(shù)據(jù)挖掘平臺框架,包括基于集群的、基于三層C/S的以及基于Agent等框架結(jié)構(gòu)[4]。然而這些框架因結(jié)構(gòu)復(fù)雜,適應(yīng)能力差,只能針對某一種應(yīng)用而去開發(fā),且成本過高故未被廣泛應(yīng)用。云計(jì)算作為網(wǎng)格計(jì)算的升級,其具有超大規(guī)模、虛擬化、高可靠性、通用性強(qiáng)、高擴(kuò)展性、按需服務(wù)和易用等優(yōu)點(diǎn),在搭建數(shù)據(jù)挖掘平臺上具有較大的優(yōu)勢。為此,本文設(shè)計(jì)了基于云計(jì)算的大數(shù)據(jù)挖掘平臺,其既體現(xiàn)了強(qiáng)大的網(wǎng)絡(luò)計(jì)算能力,并在繼承原有體系的基礎(chǔ)上又解決了其的不足。此外,可滿足中小企業(yè)、科研單位及個人用戶等小型系統(tǒng)由于資金問題的局限性,且還可提供較高的效率。
1.1 云計(jì)算定義
云計(jì)算是一種計(jì)算平臺,該平臺能夠通過服務(wù)器以大規(guī)模數(shù)據(jù),動態(tài)數(shù)據(jù)流動為電子商務(wù)及科研項(xiàng)目等提供資源[5]。云計(jì)算集分布式計(jì)算、并行計(jì)算和網(wǎng)絡(luò)計(jì)算于一體。為了能動態(tài)、透明的為用戶提供所需的虛擬計(jì)算與存儲資源,云計(jì)算應(yīng)用傲擬化技術(shù)來滿足用戶的小同需求,且當(dāng)該用戶不使用時,還可將資源分配給其他用戶,其廉價高效的計(jì)算及存儲能力使得越來越多的資源被廣泛應(yīng)用[6]。
1.2 云計(jì)算架構(gòu)
如圖1所示為云計(jì)算框架,該框架的優(yōu)點(diǎn)是硬件資源簡單,消耗成本低,其各個模塊之間相互配合,開發(fā)人員在開發(fā)項(xiàng)目時,可直接通過調(diào)用系統(tǒng)資源來實(shí)現(xiàn)。對于數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn),可先通過算法研究,然后將算法部署到云計(jì)算中去實(shí)現(xiàn)[7]。
圖1 云計(jì)算框架
2.1 目標(biāo)系統(tǒng)模型
如圖2所示,該系統(tǒng)能夠?yàn)橛脩籼峁└鞣N服務(wù),并可為在此系統(tǒng)上建立的應(yīng)用程序提供對開放式接口的支持[8]。用戶對系統(tǒng)的使用一方面可通過終端,另一方面可以通過間接調(diào)用其他應(yīng)用程序提供的開放式接口。而研究者只需關(guān)心所需選擇的算法種類或是數(shù)據(jù)處理方式,無需考慮計(jì)算機(jī)的存儲能力或系統(tǒng)實(shí)現(xiàn)等問題[9]。
圖2 目標(biāo)系統(tǒng)模型
2.2 功能層次框架設(shè)計(jì)
如圖3所示,該系統(tǒng)的層次架構(gòu)采用自底向上結(jié)構(gòu),分別為異構(gòu)數(shù)據(jù)集、數(shù)據(jù)規(guī)約工具、云計(jì)算平臺以及用戶界面與開放接口,自底向上每層均透明的為其上層服務(wù)[10]。云計(jì)算中需要的應(yīng)用程序接口,由最底層的云計(jì)算平臺提供,用戶與云計(jì)算的交互在頂層開放式接口中得到設(shè)計(jì)。對于開放接口的功能,其既能為用戶獲取數(shù)據(jù)集,又能使用戶便于調(diào)用各種算法,將其集成到應(yīng)用中能夠?qū)崿F(xiàn)平臺的開放性。
圖3 基于云計(jì)算的大數(shù)據(jù)挖掘平臺分層架構(gòu)
基于以上系統(tǒng)平臺架構(gòu),本文實(shí)現(xiàn)了該平臺的數(shù)據(jù)挖掘原型,其中兩種經(jīng)典算法ID3決策樹和K-means[11]聚類以插件形式實(shí)現(xiàn),并通過數(shù)據(jù)集來驗(yàn)證數(shù)據(jù)規(guī)約工具在云計(jì)算中的高效率及可實(shí)現(xiàn)等特性。
3.1 挖掘系統(tǒng)開發(fā)環(huán)境
本系統(tǒng)所采用的開發(fā)工具為Eclipse3.4[12],其為一個跨平臺的集成開發(fā)環(huán)境。該集成開發(fā)環(huán)境主要由Java語言開發(fā),其靈活性強(qiáng),且是開源免費(fèi)的。系統(tǒng)開發(fā)語言為Python[13],其可移植性與可嵌入性均可為系統(tǒng)的協(xié)同開發(fā)提供便利。
3.2 算法模塊實(shí)現(xiàn)
文中在OSGi的標(biāo)準(zhǔn)下設(shè)計(jì)了插件系統(tǒng)的結(jié)構(gòu),平臺的動態(tài)擴(kuò)展通過模塊的動態(tài)加載算法來實(shí)現(xiàn),與此同時平臺的系統(tǒng)資源消耗也大幅降低[14],因?yàn)橹挥性谟脩粽{(diào)用時算法模塊才被加載,之后系統(tǒng)自動回收資源,其原理類似于虛擬機(jī)機(jī)制,具體實(shí)現(xiàn)方式為,當(dāng)plugins為所有算法模塊插件文件的目錄文件時,每當(dāng)通過調(diào)用GET方法調(diào)用algorithms REST接口時,get-algorithms被自動調(diào)出,并以該格式命名的所有文件將會被遍歷,而算法模塊的調(diào)用主要通過訪問算法的地址而獲得,且在每個算法模塊中均至少含有表1中的函數(shù)。
除此以上函數(shù)外,將算法以及與該算法相關(guān)的測試用例相關(guān)函數(shù)統(tǒng)稱為算法插件模塊,測試人員在進(jìn)行開發(fā)時,在遵循上述函數(shù)模塊的基礎(chǔ)上,根據(jù)開發(fā)實(shí)際需求即可將上述算法打包成算法插件模塊,并將該插件動態(tài)嵌入到動態(tài)數(shù)據(jù)挖掘系統(tǒng)中以實(shí)現(xiàn)大數(shù)據(jù)的各種計(jì)算[15]。
表1 算法插件模塊內(nèi)部公有函數(shù)
為了驗(yàn)證該系統(tǒng)的可行性,文中選取了國外一所大學(xué)的機(jī)器學(xué)習(xí)數(shù)據(jù)集,并將數(shù)據(jù)集分為4個數(shù)量不同的分組,采用兩種不同的算法分別在本地及云計(jì)算平臺上運(yùn)行,其結(jié)果如表2所示。通過比較表2中四組本地執(zhí)行時間和系統(tǒng)執(zhí)行時間可得出以下結(jié)論,基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)執(zhí)行效率比單機(jī)系統(tǒng)高,且當(dāng)數(shù)據(jù)量越大時,這種優(yōu)越性體現(xiàn)的則更為明顯。
表2 執(zhí)行時間對比
為解決傳統(tǒng)數(shù)據(jù)挖掘平臺框架存在的結(jié)構(gòu)復(fù)雜、適應(yīng)能力差、成本過高的問題,本文設(shè)計(jì)了基于云計(jì)算的大數(shù)據(jù)挖掘平臺,其通過數(shù)據(jù)規(guī)約功能解決了數(shù)據(jù)異構(gòu)問題,同時在此基礎(chǔ)上提出并解決了數(shù)據(jù)訪問及數(shù)據(jù)類型的難題。最后,通過實(shí)驗(yàn)驗(yàn)證了該系統(tǒng)的高效性及可行性。未來該技術(shù)會在原有平臺的基礎(chǔ)上不斷拓展和加深,持續(xù)完善原有系統(tǒng)的框架結(jié)構(gòu)及規(guī)范,使大數(shù)據(jù)挖掘系統(tǒng)的平臺面向更廣闊的使用者。
[1]王孝周,馬永晨.大數(shù)據(jù)時代的挑戰(zhàn)價值與應(yīng)對策略研究[J].信息通信,2015(1):236-236.
[2]趙春雷.“大數(shù)據(jù)”時代的計(jì)算機(jī)信息處理技術(shù)[J].世界科學(xué),2012(2):30-31.
[3]易鮮紅,朱成.用Delphi5開發(fā)多層應(yīng)用系統(tǒng)處理大數(shù)據(jù)集的方法研究[J].計(jì)算機(jī)應(yīng)用研究,2001,18(12):126-128.
[4]黎宏劍,劉恒,黃廣文,等.基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺研究[J].電信科學(xué),2012,28(8):80-85.
[5]成靜靜.基于Hadoop的分布式云計(jì)算/云存儲方案的研究與設(shè)計(jì)[J].數(shù)據(jù)通信,2012(5):14-18.
[6]顧芳,劉旭峰,左超.大數(shù)據(jù)背景下運(yùn)營商移動互聯(lián)網(wǎng)發(fā)展策略研究 [J].郵電設(shè)計(jì)技術(shù),2012(8):21-24.
[7]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報(bào),2012,23(1):32-45.
[8]朱盛凱.基于MapReduce的科學(xué)計(jì)算應(yīng)用性能分析與優(yōu)化[D].上海:復(fù)旦大學(xué),2010.
[9]孫紅,郝澤明.大數(shù)據(jù)處理流程及存儲模式的改進(jìn)[J].電子科技,2015,28(12):167-172.
[10]王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[12]姬倩倩,溫浩宇.公共交通大數(shù)據(jù)平臺架構(gòu)研究[J].電子科技,2015,28(2):127-130.
[13]羅軍舟,金嘉暉,宋愛波,等.云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J].通信學(xué)報(bào),2011,32(7):3-21.
[14]朱志軍,佘叢國,閆蕾,等.大數(shù)據(jù):大價值、大機(jī)遇、大變革[M].北京:電子工業(yè)出版社,2012.
[15]姚宏宇.大數(shù)據(jù)與云計(jì)算[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(5):114-116.
[16]吳毛毛.基于云計(jì)算的智能電網(wǎng)中智能營銷系統(tǒng)架構(gòu)研究及實(shí)現(xiàn)[D].北京:華北電力大學(xué),2013.
Design of large data mining platform based on cloud computing
WANG Xiao-yan
(Shaanxi Radio and TV University,Xi'an 710119,China)
With the rapid development of network technology,can in a relatively short period of time,extract a lot of useful information has become a difficult problem in the stage of computer information processing,aiming at the problem,this paper presents a cloud based data mining technology.The technique on the development platform to achieve data protocol functions,so as to solve the data access and data type,then the development platform design data mining system and verified by experiments.It is proved that the protocol of the data validity and data mining system efficiency.optimization.
Cloud computing;data mining;data reduction;data access
TN99
:A
:1674-6236(2017)13-0025-03
2016-07-17稿件編號:201607127
陜西省教育科學(xué)“十二五”規(guī)劃(SGH12532);陜西廣播電視大學(xué)2014-2015年度教學(xué)改革研究課題(15DJ-A05)
王小燕(1982—),女,陜西西安人,碩士,工程師。研究方向:軟件工程。