申妙芳
(廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,廣東 廣州 510540)
最近幾年,隨著社會(huì)經(jīng)濟(jì)水平的不斷提高和大數(shù)據(jù)技術(shù)的不斷發(fā)展,我國逐漸進(jìn)入了大數(shù)據(jù)時(shí)代,在這樣的背景下,MapReduce框架應(yīng)運(yùn)而生。該框架憑借著自身高準(zhǔn)確性、強(qiáng)靈活性等特征被廣泛地應(yīng)用于實(shí)時(shí)大數(shù)據(jù)圖像分類領(lǐng)域中,不僅保證了圖像分類的精確性和高效性,還提高了人臉圖像識(shí)別效率和效果,為滿足大數(shù)據(jù)實(shí)時(shí)計(jì)算需求發(fā)揮了重要作用。因此,在MapReduce框架的應(yīng)用背景下,如何科學(xué)分類實(shí)時(shí)大數(shù)據(jù)圖像是技術(shù)人員必須思考和解決的問題。
MapReduce框架屬于一種常用的并行計(jì)算框架,在實(shí)時(shí)大數(shù)據(jù)圖像分類領(lǐng)域中取得了良好的應(yīng)用效果,該框架主要運(yùn)行在分布式文件系統(tǒng)中。MapReduce框架內(nèi)部數(shù)據(jù)結(jié)構(gòu)主要包含兩種類型,一種是key數(shù)據(jù)結(jié)構(gòu)[1],另一種是value數(shù)據(jù)結(jié)構(gòu)。同時(shí),該框架的運(yùn)行階段有兩種,分別是map運(yùn)行階段和reduce運(yùn)行階段。其中,map運(yùn)行階段在MapReduce框架的整個(gè)應(yīng)用流程中所承擔(dān)的計(jì)算工作量最大,同時(shí)各個(gè)計(jì)算節(jié)點(diǎn)均要與運(yùn)算過程進(jìn)行有效結(jié)合,以保證最終計(jì)算結(jié)果的真實(shí)性、準(zhǔn)確性和完整性[2]。而reduce運(yùn)行階段在MapReduce框架應(yīng)用過程中所承擔(dān)的計(jì)算工作量相對(duì)較少,因此所提到的POSELM算法和OSELM算法在實(shí)際的運(yùn)行中,主要集中在map運(yùn)行階段[3]。此外,在MapReduce框架的應(yīng)用背景下,技術(shù)人員要根據(jù)數(shù)據(jù)分布特征,在充分結(jié)合程序設(shè)計(jì)特點(diǎn)的基礎(chǔ)上,利用分布式文件系統(tǒng),以64MB為數(shù)據(jù)劃分單位,完成對(duì)相關(guān)數(shù)據(jù)結(jié)構(gòu)的劃分[4]。在此基礎(chǔ)上,采用計(jì)算節(jié)點(diǎn)備份的方式,將相同的數(shù)據(jù)結(jié)構(gòu)進(jìn)行匯總和并用,以最大限度地提高數(shù)據(jù)的存儲(chǔ)量。這樣一來,可以有效地避免因部分節(jié)點(diǎn)出現(xiàn)異常而影響最終計(jì)算結(jié)果的準(zhǔn)確性和有效性[5]。另外,計(jì)算系統(tǒng)在實(shí)際的運(yùn)行中,往往需要采用平衡分布的方式,對(duì)所有數(shù)據(jù)塊進(jìn)行集中化處理,一旦發(fā)現(xiàn)某一節(jié)點(diǎn)計(jì)算能力比較高時(shí),則會(huì)讓該節(jié)點(diǎn)承擔(dān)更多的計(jì)算任務(wù),為進(jìn)一步提高計(jì)算操作的效率和效果打下堅(jiān)實(shí)的基礎(chǔ)。最后,為了進(jìn)一步地提高大數(shù)據(jù)文件傳輸?shù)目煽啃院桶踩?,技術(shù)人員要利用MapReduce框架,將本地?cái)?shù)據(jù)轉(zhuǎn)化為相應(yīng)的算法[6],并將其傳輸?shù)较鄳?yīng)的工作節(jié)點(diǎn)內(nèi),然后在保證計(jì)算結(jié)果真實(shí)性、準(zhǔn)確性和完整性的基礎(chǔ)上,盡可能地提高計(jì)算效率。
在MapReduce框架的應(yīng)用背景下,OSELM算法主要運(yùn)行在大數(shù)據(jù)環(huán)境中,其數(shù)據(jù)維度遠(yuǎn)遠(yuǎn)小于樣本數(shù)量,因此該算法所涉及到的計(jì)算工作量相對(duì)較高。為了充分發(fā)揮和利用MapReduce框架的應(yīng)用優(yōu)勢(shì),技術(shù)人員要借助該框架,完成對(duì)相關(guān)模型的構(gòu)建,并從以下幾個(gè)方面入手,不斷修改、優(yōu)化和完善POSELM算法訓(xùn)練過程,為后期更好地應(yīng)用POSELM算法提高人臉圖像分類效率和效果創(chuàng)造良好的條件:(1)在map運(yùn)行階段中,技術(shù)人員要將該算法的訓(xùn)練數(shù)據(jù)輸入到分布式文件系統(tǒng)中,由分布式文件系統(tǒng)自動(dòng)控制和調(diào)整各個(gè)數(shù)據(jù)的位置偏移量,以保證每行訓(xùn)練數(shù)據(jù)的精確性、真實(shí)性和完整性,為后期更好地優(yōu)化POSELM算法提供重要的依據(jù)和參考;(2)在reduce運(yùn)行階段中,技術(shù)人員需要采用分類測(cè)試集的方式,將最終的計(jì)算結(jié)果準(zhǔn)確、無誤地保存到相應(yīng)的數(shù)據(jù)庫中,便于其他工作人員的查看和調(diào)用,為進(jìn)一步提高數(shù)據(jù)的利用率發(fā)揮重要作用。
在實(shí)驗(yàn)中,為了更好地測(cè)試POSELM算法在人臉圖像識(shí)別和分類中的應(yīng)用效果,技術(shù)人員要從以下不同的數(shù)據(jù)庫中選出合適的數(shù)據(jù)庫,開展實(shí)驗(yàn):(1)經(jīng)典人臉數(shù)據(jù)庫。該數(shù)據(jù)庫又被稱為“FERET人臉數(shù)據(jù)庫”。該數(shù)據(jù)庫主要是由美國科技公司面部識(shí)別計(jì)劃中演變而成的,同時(shí)也是現(xiàn)階段人臉識(shí)別領(lǐng)域中常用的一種數(shù)據(jù)庫。FERET人臉數(shù)據(jù)庫包含的不同姿態(tài)的灰度人臉圖像達(dá)到了14051幅;(2)PIE人臉數(shù)據(jù)庫。該數(shù)據(jù)庫主要由美國卡耐基梅隆大學(xué)創(chuàng)建和研發(fā)[7]。PIE人臉數(shù)據(jù)庫包含的不同姿態(tài)的灰度人臉圖像達(dá)到了41368幅,這些人臉圖像具有多樣化和豐富化的特征。目前,該數(shù)據(jù)庫被廣泛地應(yīng)用于人臉識(shí)別領(lǐng)域中,并取得了良好的應(yīng)用效果;(3)MITCBCL人臉數(shù)據(jù)庫。該數(shù)據(jù)庫主要由麻省理工大學(xué)媒體實(shí)驗(yàn)室創(chuàng)建和研發(fā)。MITCBCL人臉數(shù)據(jù)庫包含的不同姿態(tài)的灰度人臉圖像達(dá)到了2592幅。上述的三種圖像數(shù)據(jù)庫被視為“經(jīng)典人臉數(shù)據(jù)庫”,在人臉識(shí)別領(lǐng)域中取得了良好的應(yīng)用效果。但是,這些數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)量異常龐大,在使用這些人臉數(shù)據(jù)庫時(shí),部分研究者利用相應(yīng)的經(jīng)典算法對(duì)這些圖像進(jìn)行裁剪縮放,造成圖像嚴(yán)重失真,使得人臉數(shù)量不斷減少。為了解決這一問題,技術(shù)人員要利用以上人臉數(shù)據(jù)庫,對(duì)OSELM算法和POSELM算法的有效性和可靠性進(jìn)行一一驗(yàn)證,并得到如表1所示的所有實(shí)驗(yàn)數(shù)據(jù)。
表1 實(shí)驗(yàn)中的數(shù)據(jù)
在實(shí)驗(yàn)中,所用到的數(shù)據(jù)集群是由27個(gè)節(jié)點(diǎn)組成的,其中主節(jié)點(diǎn)、調(diào)度節(jié)點(diǎn)和備份節(jié)點(diǎn)各1個(gè),數(shù)據(jù)計(jì)算節(jié)點(diǎn)為24個(gè)。此外,每個(gè)節(jié)點(diǎn)硬件內(nèi)安裝和配置了相應(yīng)的雙核CPU,頻率為2.5Ghz,內(nèi)存達(dá)到了8GB,計(jì)算機(jī)軟件的配置信息為Hadoop0.23.0.為了更好地分析和驗(yàn)證實(shí)驗(yàn)結(jié)果的可靠性,技術(shù)人員要對(duì)POSELM算法和OSELM算法的實(shí)際使用效果進(jìn)行比較和研究,得出了如表2所示的兩種算法性能對(duì)比結(jié)果。從表中的數(shù)據(jù)可以看出,當(dāng)數(shù)據(jù)庫逐漸增大時(shí),POSELM算法在運(yùn)行效率上表現(xiàn)出比較顯著的優(yōu)勢(shì)。同時(shí),在對(duì)算法運(yùn)行時(shí)間進(jìn)行測(cè)試時(shí)發(fā)現(xiàn),OSELM算法的測(cè)試時(shí)間較長(zhǎng),而POSELM算法的測(cè)試時(shí)間完全符合實(shí)時(shí)大數(shù)據(jù)圖像分類相關(guān)標(biāo)準(zhǔn)和要求。為了更好地驗(yàn)證POSELM算法和OSELM算法的正確性和有效性,技術(shù)人員要采用PSVM并行算法的方式,對(duì)這兩種算法的人臉圖像識(shí)別正確率進(jìn)行統(tǒng)計(jì)和比較。統(tǒng)計(jì)結(jié)果表明,POSELM算法所對(duì)應(yīng)的數(shù)據(jù)庫比較固定,難以動(dòng)態(tài)化向數(shù)據(jù)庫中新增其他信息數(shù)據(jù),嚴(yán)重影響了人臉圖像識(shí)別效率和效果。而POSELM算法所對(duì)應(yīng)的數(shù)據(jù)庫比較靈活,允許操作人員手動(dòng)添加新的信息數(shù)據(jù),極大地提高了數(shù)據(jù)庫的數(shù)據(jù)全面性和完整性,為進(jìn)一步提高人臉圖像識(shí)別效率和效果產(chǎn)生積極的影響。
表2 兩種算法性能對(duì)比
綜上所述,為了進(jìn)一步提高人臉圖像分類的效率和效果,技術(shù)人員要借助MapReduce框架,采用并行計(jì)算的方式,對(duì)人臉圖像進(jìn)行快速、精確地識(shí)別和分類,然后根據(jù)數(shù)據(jù)庫內(nèi)人臉數(shù)據(jù),對(duì)最終的識(shí)別和分類結(jié)果進(jìn)行驗(yàn)證。結(jié)果發(fā)現(xiàn),人臉圖像識(shí)別與分類取得了良好的成果。由此可見,在MapReduce框架的應(yīng)用背景下,不僅可以實(shí)現(xiàn)對(duì)人臉圖像的實(shí)時(shí)監(jiān)督,還能進(jìn)一步提高人臉圖像分類效率和效果,為更好地普及和推廣MapReduce框架,提高實(shí)時(shí)大數(shù)據(jù)圖像分類的科學(xué)性和合理性提供有力的保障。