張棋 陳朝偉 熊鍇
摘要:隨著機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的快速發(fā)展,計算機視覺無疑是近年來發(fā)展最快的人工智能領(lǐng)域之一。本文針對機器學(xué)習(xí)在計算機視覺處理中的應(yīng)用進行了簡要分析,分別在圖像檢測領(lǐng)域、圖像語義分割領(lǐng)域介紹了機器學(xué)習(xí)的應(yīng)用進展,并著重分析了典型分類算法隨機森林的算法原理,在最后就機器學(xué)習(xí)在計算機視覺中的應(yīng)用前景進行了展望。
關(guān)鍵詞:機器學(xué)習(xí) 計算機視覺應(yīng)用研究
引言
計算機視覺是一種基于計算機算法的自動識別圖像內(nèi)容的領(lǐng)域,它源于20世紀(jì)60年代左右的人工智能和認(rèn)知神經(jīng)科學(xué)。50年后,GM圖像識別仍然難以普及,但圖像識別的發(fā)展取得了顯著進展。視覺算法已經(jīng)開始涵蓋廣泛的受眾,尤其是商業(yè)上的成功,包括交互式分割算法。圖像檢索,人臉識別和人體動作捕捉。這些領(lǐng)域的成功必須歸功于過去20年來機器學(xué)習(xí)的快速發(fā)展。
1圖像檢測
圖像檢測是指在對圖像進行分類時用矩形框包圍對象。從14年到18年,先后涌現(xiàn)出R- CNN,F(xiàn)ast R-CNN FasterR- CNN, YOLO,SSD等知名機器學(xué)習(xí)框架, 它的檢測平均準(zhǔn)確度(mAP), PASCAL VOC在眾所周知的計算機視覺數(shù)據(jù)集上的平均檢測精度(mAP),也從R- CNN的53.3,到Fast RCNN的68.4,再到Faster R-CNN的75.9,最新實驗表明,更快的RCNN結(jié)合殘留網(wǎng)絡(luò)(Resnet-101),其檢測精度可達到83.8。深度學(xué)習(xí)檢測速度也越來越快。然后到Y(jié)OLO的155幀/秒(缺點是精度很低,只有52.7),最后發(fā)布了具有高精度和高速度的SSD,其精度75.1,速度23幀/秒。
2隨機森林分類模型
在照片中,計算機通過算法實現(xiàn)“語義圖像分割”,并區(qū)分三個主要元素:汽車,道路,建筑物,這需要一個強大的構(gòu)建塊來實現(xiàn),即訓(xùn)練分類器預(yù)測不同分類圖像(如汽車,道路,樹木,墻壁等)中像素的分布。這項任務(wù)給機器學(xué)習(xí)帶來了很多計算問題,特別是那些包含大量像素的計算機,這意味著我們需要在整個圖像分類任務(wù)中進行超過一百萬次的培訓(xùn)和測試。
面對如此大的像素問題,通常使用更有效的分類模型:隨機森林。 隨機森林以隨機方式建造,構(gòu)造森林后,當(dāng)一個新的輸入樣本進入時,讓森林中的每個決策樹分別進行判斷。查看樣本應(yīng)屬于哪個類別,然后查看最多選擇哪個類別,預(yù)測該類使用哪個樣本。這種模型的優(yōu)勢在于:它可以處理許多高維數(shù)據(jù),不需要進行特征選擇,是一種很好的降維方法;在訓(xùn)練完后,它能夠給出哪些feature比較重要;它的訓(xùn)練速度較快;在訓(xùn)練過程中,可以檢測到特征之間的相互影響;容易做成并行化方法。
通過該技術(shù)手段,可以對超大像素圖片中的每個對象的外觀,顏色甚至角色的表情,動作,情感等進行分類和判斷。
3機器學(xué)習(xí)與計算機視覺
機器學(xué)習(xí)是研究計算機如何模擬人類學(xué)習(xí)行為以獲取新知識或技能,并重新組織現(xiàn)有知識結(jié)構(gòu)以不斷提高其績效。它是人工智能的核心,也是使計算機智能化的根本途徑。為了實現(xiàn)計算機視覺的功能,可以采用兩種技術(shù)方法,分別是仿生學(xué)方法和工程方法。
其中工程學(xué)方法的一般做法是將人類視覺系統(tǒng)視為黑盒子,并且實現(xiàn)僅關(guān)注視覺系統(tǒng)將為輸入提供何種輸出。這兩種方法在理論上都是可用的,但難點在于人類視覺系統(tǒng)對應(yīng)于某個輸入的輸出不能直接測量。而且因為人類智力活動是多功能系統(tǒng)組合的結(jié)果,即使得到輸入輸出對,也很難確定它是僅由當(dāng)前輸入視覺刺激產(chǎn)生的響應(yīng)。 而不是一個與歷史狀態(tài)綜合作用的結(jié)果。
4結(jié)論
計算機視覺的研究是具有雙重意義的,首先它是為了滿足人工智能應(yīng)用的需求,即需要用計算機實現(xiàn)手動視覺系統(tǒng),這些結(jié)果可以安裝在計算機和各種計算機上,使計算機和機器人能夠“看到”。反過來,視覺計算模型的研究成果對于我們進一步理解和研究人類視覺系統(tǒng)本身的機制,甚至是人腦的機制具有重要的參考意義。本文針對機器學(xué)習(xí)在計算機視覺處理中的應(yīng)用進行了簡要分析,分別在圖像檢測領(lǐng)域、圖像語義分割領(lǐng)域介紹了機器學(xué)習(xí)的應(yīng)用進展,并著重分析了典型分類算法 隨機森林的算法原理,在最后就機器學(xué)習(xí)在計算機視覺中的應(yīng)用前景進行了展望。
參考文獻
[1]陳熙霖,計算機視覺,算法與系統(tǒng)原理[M].清華大學(xué)出版社,2000
[2]高滿屯,計算機視覺研究中的投影理論和方法[M].西北工業(yè)大學(xué)出版社,1998
[3]馬頌德,張正友,計算機視覺計算理論與算法基礎(chǔ)[M].科學(xué)出版社,19 98
[4]章毓晉,圖像工程下 圖像理解與計算機視覺[M].清華大學(xué)出版社,2000