亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop平臺下SVM的圖像識別技術(shù)

        2016-04-12 00:00:00白靈
        現(xiàn)代電子技術(shù) 2016年16期

        摘 要: 針對海量圖像的識別技術(shù)進(jìn)行研究,使用SVM算法作為圖像識別模型,考慮到隨著圖像訓(xùn)練樣本數(shù)據(jù)量逐步增大,訓(xùn)練樣本呈現(xiàn)指數(shù)上升這一問題,在此對基于Hadoop云平臺的并行運(yùn)算SVM方法進(jìn)行研究,縮短訓(xùn)練時間,加快圖像識別效率。使用Corel圖像庫中圖像進(jìn)行實驗研究,結(jié)果表明,常規(guī)單機(jī)SVM圖像識別系統(tǒng)以及基于Hadoop平臺SVM的圖像識別系統(tǒng)的識別準(zhǔn)確率相差不大。當(dāng)Hadoop平臺中擁有超過2個節(jié)點(diǎn)時,加速比明顯上升,訓(xùn)練時間下降,Hadoop平臺中使用SVM進(jìn)行圖像識別的效率優(yōu)勢體現(xiàn)出來。

        關(guān)鍵詞: Hadoop平臺; 圖像識別; SVM; 云計算; 加速比

        中圖分類號: TN915.43?34; TP391.4 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)16?0098?04

        Abstract: The recognition technology of massive images is researched, in which the SVM algorithm is taken as the image recognition model. In consideration of the problem that the training samples increase exponentially with the gradual increase of data size of image training samples, the parallel computation SVM method based on Hadoop platform is studied to shorten the training time and quicken the image recognition efficiency. In an experiment, the SVM image recognition technology were studied by means of the images in Corel image library. The results show that the recognition accuracy rate of the image recognition system using SVM algorithm based on Hadoop platform has no difference with that of the conventional stand?alone SVM image recognition system, but when more than 2 nodes exist in Hadoop platform, the speedup ratio is increased significantly, and the training time is decreased, so the efficiency advantage of using SVM in Hadoop platform for the image recognition is reflected.

        Keywords: Hadoop platform; image recognition; SVM; cloud computing; speedup ratio

        0 引 言

        現(xiàn)階段個人電腦和移動互聯(lián)網(wǎng)的廣泛使用,各種圖片、聲音、視頻等數(shù)字信息在網(wǎng)絡(luò)上廣泛交互,數(shù)據(jù)量已經(jīng)不可估量。作為其中最為生動直接的圖片圖像信息正因為互聯(lián)網(wǎng)的使用而大放光彩,越來越成為人們?nèi)粘I钪薪涣髋c學(xué)習(xí)的重要組成部分。海量的圖像數(shù)據(jù)在互聯(lián)網(wǎng)上廣泛傳播,每天都有數(shù)以億計的圖片在網(wǎng)絡(luò)上上傳或下載。為了便于人們在海量圖像中檢索到自己需要的圖像,專家對圖像檢索方法進(jìn)行了廣泛的研究和學(xué)習(xí)。其中,支持向量機(jī)(Support Vector Machine,SVM)模型被廣泛應(yīng)用于圖像檢索系統(tǒng)中[1?3]。

        隨著大量數(shù)據(jù)的產(chǎn)生,云計算隨之出現(xiàn)。云計算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。簡單來說,云計算就是將所有資源進(jìn)過計算、轉(zhuǎn)換和存儲,形成一個巨型的云端網(wǎng)絡(luò)數(shù)據(jù)存儲平臺,利用此平臺可以完成各種存儲和運(yùn)算任務(wù),非常適合于檢索系統(tǒng)的應(yīng)用[4]。因此本文將單機(jī)SVM算法和云平臺結(jié)合,以探討提高海量圖像識別檢索效率的方法。

        1 云計算

        在云計算逐漸得到廣泛應(yīng)用的今天,云計算的方法種類也在增多,其中apache的開源分布式平臺Hadoop以其價格低廉、高容錯性等特點(diǎn)得到了廣泛的應(yīng)用。以IBM現(xiàn)階段使用的“藍(lán)云”云計算平臺為例,Hadoop最受廣大用戶群青睞的主要原因還是對于它所提供的分布式的可以提供存儲的計算平臺完全是開源的。Hadoop主要由三部分構(gòu)成:文件系統(tǒng)HDFS、數(shù)據(jù)庫Hbase、分布式并行計算Map Reduce。在平臺中最主要的運(yùn)算和處理部分主要通過分布式文件管理系統(tǒng)和并行處理兩個關(guān)鍵技術(shù)實現(xiàn)。

        作為存儲和計算的處理平臺,Hadoop平臺處理的核心部分還是分布式文件系統(tǒng)HDFS以及并行處理Map Reduce。優(yōu)越的硬件系統(tǒng)也使該平臺體現(xiàn)出了可擴(kuò)展、廉價、高容錯、高效穩(wěn)定等特點(diǎn)。該平臺結(jié)構(gòu)完善,不需要進(jìn)行改動即可直接進(jìn)行存儲和計算的擴(kuò)展,這也是Hadoop平臺的關(guān)鍵屬性:可擴(kuò)展性;該平臺可以直接設(shè)計并部署在低廉的硬件上;Hadoop平臺能夠自動保存數(shù)據(jù)的多個副本,當(dāng)錯誤發(fā)生時可以自動恢復(fù)分配;對于Hadoop平臺來說, Map Reduce對數(shù)據(jù)的處理方式為按位操作,更加安全高效[5?7]。

        2 Map Reduce過程

        Map Reduce編程的最主要內(nèi)容是對Map和Reduce函數(shù)自定義的過程。其中無論對于任何個體差異的編寫Map和Reduce函數(shù),其主要的任務(wù)都是對數(shù)據(jù)值的讀取以及運(yùn)算。Input Format類為Map操作提供最基本的支持。Map操作的主要對象是對形式的樣本,而Input Format類則是將數(shù)據(jù)文件的輸入地址或者其他形式的輸入樣本轉(zhuǎn)換為對。

        Input Format 類有兩個主要的抽象方法,主要是:get Splits,create Record Reader。其中g(shù)et Splits是將輸入圖像進(jìn)行分片處理并收集所有圖像的分片數(shù)據(jù)的集合。在HDFS中是按照塊的方法進(jìn)行儲存的。如果是針對于不同圖像形成Splits時,則需要調(diào)用執(zhí)行Map Reduce 編程框架,從而使運(yùn)算時間加長,所以數(shù)據(jù)處理過程中要盡量避免此現(xiàn)象的發(fā)生。

        通過以上方法可以得到分片數(shù)組,得到此數(shù)組后,Hadoop 平臺自動查詢tasktracker是否處于空閑狀態(tài),當(dāng)tasktracker處于空閑狀態(tài)時,Hadoop平臺進(jìn)行算法調(diào)度,將對應(yīng)的數(shù)據(jù)Splits輸入到Map任務(wù)中,同時也將Splits所含信息如位置節(jié)點(diǎn)信息一同進(jìn)行上傳處理。通過自定義的create Record Reader方法讀取該數(shù)據(jù)內(nèi)容,并將內(nèi)容轉(zhuǎn)化成的形式,供Map操作進(jìn)行試用。若不在空閑狀態(tài)則等待[8?11]。

        3 基于Hadoop的SVM算法

        Libsvm是由臺灣大學(xué)林智仁教授設(shè)計研發(fā)的一個簡單容易使用的軟件分析包,主要用于SVM 模式識別和回歸分析。1988年John C.Platt研究并發(fā)明SMO算法,通過此算法對Libsvm進(jìn)行二次規(guī)劃并進(jìn)行算法的優(yōu)化。SMO算法簡單實用,使得二次規(guī)劃優(yōu)化算法加快,再對SVM進(jìn)行求解得到了更好的效果,同時也得到了眾多學(xué)者的廣泛認(rèn)同。

        訓(xùn)練樣本數(shù)據(jù)量逐步增大,而且訓(xùn)練樣本的時間還出現(xiàn)了指數(shù)上升的趨勢,由此一來雖然二次規(guī)劃算法的速度相對較快,但在單機(jī)模式下進(jìn)行仍然十分困難。這也是訓(xùn)練樣本規(guī)模增大帶來的問題[12]。

        為了解決這個問題,使SVM 算法的訓(xùn)練速度加快,本文對基于Hadoop云平臺的并行運(yùn)算SVM方法進(jìn)行研究,使得運(yùn)算時間得到了進(jìn)一步縮短。

        SVM 算法的主要思想是在訓(xùn)練數(shù)據(jù)集中找到?jīng)Q策函數(shù)對應(yīng)的分類進(jìn)行分析,就是要找到數(shù)據(jù)集的支持向量。所有的支持向量都具有稀疏性的特點(diǎn),它們在數(shù)據(jù)向量集中占據(jù)很小的比重,可以通過利用這樣的特征,實現(xiàn)對數(shù)據(jù)的并行SVM算法。在運(yùn)算過程中,首先將訓(xùn)練數(shù)據(jù)進(jìn)行切分,進(jìn)行分塊化處理,然后對每個切分的數(shù)據(jù)塊分別進(jìn)行SVM 算法求解,以此來達(dá)到縮短求解時間的目的?;贖adoop的SVM算法示意圖如圖1所示。

        4 基于Hadoop的SVM算法的實現(xiàn)

        基于Hadoop的SVM 算法主要通過以下幾個方面來實現(xiàn)的:

        (1) 向Hadoop云平臺上傳數(shù)據(jù)信息。向Hadoop云平臺上傳數(shù)據(jù)信息及提交作業(yè),主要從HDFS 中獲取數(shù)據(jù)源,根據(jù)數(shù)據(jù)集群配置對數(shù)據(jù)進(jìn)行劃分處理,也要對作業(yè)的Map和Reduce進(jìn)行分類處理,輸入Map和Reduce 過程中所需的節(jié)點(diǎn)信息。

        (2) 實現(xiàn)Map 的操作過程。Map函數(shù)的主要功能是將儲存在HDFS中的圖像樣本讀入系統(tǒng),同時轉(zhuǎn)換block中的數(shù)據(jù)樣本的參數(shù)類型。轉(zhuǎn)換之后通過遺傳算法進(jìn)行優(yōu)化轉(zhuǎn)換的組合參數(shù)。所有準(zhǔn)備工作之后,進(jìn)行svm_train函數(shù)的調(diào)入,進(jìn)行樣本訓(xùn)練處理,從而得到數(shù)據(jù)的支持向量即形式的支持向量。最后處理結(jié)果等待傳入Reduce的操作過程。

        (3) 實現(xiàn)Reduce的操作過程。Reduce函數(shù)主要目的是把Map函數(shù)所轉(zhuǎn)換的數(shù)據(jù)形式進(jìn)行分類排序,經(jīng)過處理后輸入到事先所規(guī)定的指定路徑文件中[13?15]。

        實現(xiàn)過程示意圖如圖2所示。

        5 Hadoop平臺圖像識別效果分析

        5.1 實驗平臺搭建

        通過實驗對比方法研究在Hadoop平臺使用SVM算法進(jìn)行圖像識別以及在單機(jī)平臺使用SVM算法進(jìn)行圖像識別的效果。單機(jī)以及Hadoop中主機(jī)和各個節(jié)點(diǎn)均使用相同配置的計算機(jī): CPU為Intel I5 4950,內(nèi)存為8 GB DDR3 1 333 MHz,硬盤為1 TB。Hadoop平臺中節(jié)點(diǎn)計算機(jī)使用Ubuntu 14.10 操作系統(tǒng),Hadoop 1.0.0版本以及 eclipse?jee?juno?SR2版本的IDE平臺,Java的執(zhí)行環(huán)境為: JDK1.7.0_07。

        Hadoop平臺的主要搭建過程為安裝JDK;安裝并配置SSH;搭建 Hadoop分布式環(huán)境;進(jìn)行Hadoop云平臺測試。

        5.2 實驗數(shù)據(jù)集

        本文使用Corel 圖像庫中的圖像文件進(jìn)行Hadoop平臺下SVM圖像識別研究。該圖像庫含有恐龍、大象、公共交通工具、人物、山川、河流等圖像,常用于圖像檢索系統(tǒng)和方法的測試。部分圖像示例如圖3所示。

        5.3 圖像識別準(zhǔn)確率實驗研究

        從Corel圖像庫中分別選取訓(xùn)練樣本和測試樣本均為1 000,2 000,5 000和10 000的實驗組,使用本文研究的基于Hadoop平臺SVM圖像識別系統(tǒng),常規(guī)單機(jī)SVM圖像識別系統(tǒng)以及基于Hadoop平臺BP神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)對圖像樣本進(jìn)行訓(xùn)練和識別,測試結(jié)果如表1和圖4所示。

        對比表1和圖4中數(shù)據(jù)可以看出,常規(guī)單機(jī)SVM圖像識別系統(tǒng)以及基于Hadoop平臺SVM的圖像識別系統(tǒng)的識別準(zhǔn)確率相差不大,在Hadoop平臺下進(jìn)行圖像識別對于提高識別準(zhǔn)確率意義不大,而使用基于Hadoop平臺BP神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)識別準(zhǔn)確率很低,因此BP神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)不適用于Hadoop平臺中。

        5.4 圖像識別效率實驗研究

        對基于Hadoop平臺下SVM圖像識別技術(shù)的效率進(jìn)行研究,使用加速比衡量其效率,加速比為單機(jī)SVM訓(xùn)練時間和基于Hadoop平臺下SVM圖像識別技術(shù)的訓(xùn)練時間之比。同樣使用Corel圖像庫中的10 000條數(shù)據(jù)對兩種對比識別模型進(jìn)行訓(xùn)練,Hadoop平臺中的節(jié)點(diǎn)數(shù)分別設(shè)置為1,2,3和4,則實驗得到的訓(xùn)練時間和加速比如圖5所示。

        從實驗結(jié)果可看出,當(dāng)Hadoop平臺中僅有1個節(jié)點(diǎn)時,相當(dāng)于單機(jī)SVM識別模型,訓(xùn)練時間為66 s,加速比為1。當(dāng)Hadoop平臺中僅有2個節(jié)點(diǎn)時,由于計算機(jī)之間交互數(shù)據(jù)消耗了部分時間,因此訓(xùn)練時間甚至超過了單機(jī)SVM識別模型,加速比為0.92,低于1,當(dāng)Hadoop平臺中擁有超過2個節(jié)點(diǎn)時,加速比明顯上升,訓(xùn)練時間下降,Hadoop平臺中使用SVM進(jìn)行圖像識別的效率優(yōu)勢體現(xiàn)出來。

        6 結(jié) 語

        本文將單機(jī)SVM算法和云平臺結(jié)合,以探討提高海量圖像識別檢索效率的方法。通過實例分析,結(jié)果表明:常規(guī)單機(jī)SVM圖像識別系統(tǒng)以及基于Hadoop平臺SVM的圖像識別系統(tǒng)的識別準(zhǔn)確率相差不大,而使用基于Hadoop平臺BP神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)識別準(zhǔn)確率很低,BP神經(jīng)網(wǎng)絡(luò)的圖像識別系統(tǒng)不適用于Hadoop平臺中;當(dāng)Hadoop平臺中僅有1個節(jié)點(diǎn)時,相當(dāng)于單機(jī)SVM識別模型。當(dāng)Hadoop平臺中僅有2個節(jié)點(diǎn)時,訓(xùn)練時間甚至超過了單機(jī)SVM識別模型,當(dāng)Hadoop平臺中擁有超過2個節(jié)點(diǎn)時,加速比明顯上升,訓(xùn)練時間下降,Hadoop平臺中使用SVM進(jìn)行圖像識別的效率優(yōu)勢體現(xiàn)出來。

        參考文獻(xiàn)

        [1] ???基于Hadoop云平臺的分布式支持向量機(jī)研究[D].臨汾:山西師范大學(xué),2014.

        [2] 高曉健.基于支持向量機(jī)的高光譜遙感圖像分類方法研究[D].杭州:杭州電子科技大學(xué),2012.

        [3] 郭欣欣.基于分布式計算的SVM算法優(yōu)化[D].西安:西安電子科技大學(xué),2014.

        [4] 陶杭.基于Hadoop的SVM算法優(yōu)化及在文本分類中的應(yīng)用[D].北京:北京郵電大學(xué),2015.

        [5] 張小琴,胡景,肖煒.基于Hadoop云平臺的分布式支持向量機(jī)[J].山西師范大學(xué)學(xué)報(自然科學(xué)版),2015(4):19?23.

        [6] 張奕武.基于Hadoop分布式平臺的SVM算法優(yōu)化及應(yīng)用[D].廣州:中山大學(xué),2012.

        [7] 盧文清.基于Hadoop的Android軟件惡意檢測的研究與實現(xiàn)[D].寧波:寧波大學(xué),2014.

        [8] 張乃斌.HadoopDDos攻擊檢測研究分析[D].北京:北京郵電大學(xué),2014.

        [9] 張磊磊.基于Hadoop和SVM算法的中文文本分類的研究與實現(xiàn)[D].昆明:昆明理工大學(xué),2015.

        [10] 孫繼平,佘杰.基于支持向量機(jī)的煤巖圖像特征抽取與分類識別[J].煤炭學(xué)報,2013,38(z2):508?512.

        [11] 雷學(xué)智.云計算平臺下分布式支持向量機(jī)在煤炭行業(yè)分類預(yù)測應(yīng)用[J].煤炭技術(shù),2013(11):248?250.

        [12] 崔文斌,溫孚江,牟少敏,等.基于Hadoop的局部支持向量機(jī)[J].計算機(jī)研究與發(fā)展,2014(z2):116?121.

        [13] 曹健.基于支持向量機(jī)的圖像分類方法研究[D].金華:浙江師范大學(xué),2013.

        [14] 丁勝鋒,孫勁光,陳東莉,等.基于模糊雙支持向量機(jī)的遙感圖像分類研究[J].遙感技術(shù)與應(yīng)用,2012,27(3):353?358.

        [15] 祁亨年,楊建剛,方陸明.基于多類支持向量機(jī)的遙感圖像分類及其半監(jiān)督式改進(jìn)策略[J].復(fù)旦學(xué)報(自然科學(xué)版),2004,43(5):781?784.

        色妞www精品视频| 欧美成人网视频| 久久婷婷夜色精品国产 | 国产91在线精品观看| 亚洲日本高清一区二区| 国产熟女一区二区三区不卡| 欧美奶涨边摸边做爰视频 | 国产精品爆乳在线播放| 美女裸体无遮挡黄污网站| 日本在线一区二区三区观看| 久久久黄色大片免费看| 欧美性高清另类videosex| 亚洲综合在线一区二区三区| 亚洲最大天堂无码精品区| 亚州无线国产2021| 国产一区二区av在线观看| 国产视频一区二区三区观看| 免费不卡在线观看av| 99久久国语露脸精品国产| 欧美丝袜秘书在线一区| 国产精品一区二区熟女不卡| 国产无套内射又大又猛又粗又爽| 山外人精品影院| 国产精品免费观看久久| 97精品伊人久久大香线蕉app| 91久久福利国产成人精品| 日韩精品夜色二区91久久久| 亚洲毛片在线免费视频| 40岁大乳的熟妇在线观看| 精品久久久久久无码国产| 91产精品无码无套在线| 日本久久精品在线播放| 午夜视频在线观看国产19| 女优av一区二区三区| 六月丁香综合在线视频| 亚洲精品第一页国产精品| 午夜不卡亚洲视频| 中文字幕色婷婷在线视频| 少妇性l交大片7724com| 四房播播在线电影| 久久亚洲精品成人AV无码网址|