笪陳宇 唐明 雷鑑銘
摘要:機器視覺是一門跨越多門學科的前沿研究課題。視覺是生物億萬年進化的結(jié)晶,一代代科學家、工程師在模擬視覺的道路上傾注了無數(shù)心血,經(jīng)過數(shù)十年的研究,人類終于窺探到了神奇視覺的一角。文章將以自動駕駛系統(tǒng)為例針對現(xiàn)有的機器視覺原理和圖像分析的典型算法進行介紹,并展望機器視覺巨大的應(yīng)用前景。
關(guān)鍵詞:機器視覺;自動駕駛;直接感知
1 視覺概述
視覺是生物數(shù)十億年來進化的產(chǎn)物,是人類和其他高等生命體重要的信息來源。以人的視覺系統(tǒng)為例,它具有十分復(fù)雜的構(gòu)造:光線通過角膜和瞳孔進入眼球內(nèi)部,經(jīng)過晶狀體的聚焦調(diào)節(jié)到達視網(wǎng)膜,視網(wǎng)膜上的感光細胞再將光信號轉(zhuǎn)化成神經(jīng)沖動,最后由視覺中樞進行分析。如何模擬人類視覺的全部或部分功能來實現(xiàn)所謂的“機器視覺”,是幾十年來科學家和工程師不懈努力的方向。從20世紀50年代的圖像識別問題[1]得到研究以來,機器視覺獲得了長足的發(fā)展。20世紀80年代,Marr[2]首次提出了“重建”和“識別”的自底向上的視覺框架,而后又有自頂向下的框架提出。到如今,機器視覺已經(jīng)成為一門貫通硬件和軟件的龐大研究課題,其中的圖像分析和語義理解更是和人工智能密不可分[3]。機器視覺的原理和其廣闊的應(yīng)用前景是本文的主要討論內(nèi)容。
2 機器視覺的基本原理
一個完整的機械視覺流程包括圖像采集、圖像處理和圖像分析3部分[4]。
2.1 圖像采集
傳統(tǒng)的工業(yè)電荷藕合器件圖像傳感器(Charge CoupledDevice,CCD)相機是將相當數(shù)量的CCD排成陣列[5],如:512X480, 640X480, 800X600, 1024X768 等等,稱作解析度,決定了最后成像的清晰度。光線通過鏡頭聚焦投射到CCD陣列上,每個CCD單元根據(jù)自身接收到的光線強度發(fā)生光電效應(yīng),電信號再通過模數(shù)轉(zhuǎn)換得到一個數(shù)字量。這個數(shù)字量被稱為灰度或者灰階。最后計算機根據(jù)設(shè)定好的算法還原出圖像。
近幾年用互補金屬氧化物半導(dǎo)體(ComplementaryMetal-Oxide-Semiconductor,CMOS)組成陣列的CMOS相機發(fā)展迅速。與CCD陣列集成在半導(dǎo)體單晶材料上不同,CMOS是集成在被稱為金屬氧化物的半導(dǎo)體材料上的[6]。CCD工業(yè)生產(chǎn)的技術(shù)難度大成本高,被索尼、松下等大公司壟斷,而CMOS生產(chǎn)成本和難度都較低。同時CMOS相機還有抗輻射、低功耗、高集成等優(yōu)點,在克服噪音較大和感光靈敏度較差等不足后,取代CCD相機是大勢所趨。
2.2 圖像處理
狹義的圖像處理是指利用計算機強大的計算能力,對采集到的海量數(shù)字信號進行轉(zhuǎn)換、壓縮等操作。傳統(tǒng)的預(yù)處理包括濾去噪聲、均衡直方圖、矯正畸變等[7]。廣義的圖像處理甚至包括了圖像分析的過程,涵蓋了識別、增強、對比、依托人工智能進行“理解”等[8]。
2.3 圖像分析
圖像分析是當今機器視覺研究的熱點領(lǐng)域,涌現(xiàn)了眾多算法和框架。這也是一個跨越多學科的課題,圖像分析方法的進步同樣也幫助人們理解人類視覺的原理[3]。其中人工智能可視化、三維重建、虛擬現(xiàn)實是圖像分析的幾個研究的重點。隨著智能化、信息化時代的到來,人工智能和大數(shù)據(jù)的運用勢必成為圖像分析研究的主要方向。本文將以自動駕駛技術(shù)中涉及的動態(tài)圖像理解為例介紹兩種典型的圖像分析方法。
3 自動駕駛系統(tǒng)中兩種典型的圖像分析法
3.1 間接感知型
基于間接感知型的自動駕駛技術(shù)是通過多個子系統(tǒng)的合作間接達到圖像分析目的的方法。其中主要包括目標檢測、目標跟蹤、場景語義分割、三維重建等子系統(tǒng)。每個子系統(tǒng)都不斷有新的發(fā)展、新的理論補充,這形成了間接感知技術(shù)包容并蓄、集百家之長的特點。但同時,龐雜的子系統(tǒng)又使間接感知技術(shù)冗雜繁復(fù),無形中提高了應(yīng)用的成本[7]。
3.1.1 目標檢測
要準確地檢測出目標不僅要靠單一的光學傳感器,同時還要結(jié)合紅外傳感器、激光雷達等采集的信息綜合分析。目前普遍的目標檢測方法的主要思路是通過優(yōu)化過的窮舉法分割圖像,再將分割的區(qū)域與數(shù)據(jù)庫中的已知數(shù)據(jù)對比,最后確定目標。為了提高檢測的精準度和正確率,人們已經(jīng)將神經(jīng)網(wǎng)絡(luò)、深度學習的技術(shù)融入其中[9]。
3.1.2 目標跟蹤
在車輛行駛的過程中,行人或結(jié)伴而走,或被障礙物遮擋,車輛或加速,或急停,目標的狀態(tài)時時刻刻都在變化。自動駕駛系需要在混亂的路況中通過跟蹤目標得出距離、速度、加速的這些基本的物理量,從而做出正確的行為。在天氣良好、目標無遮擋的理想條件下,可以采用直接匹配的方法:將相鄰兩幀的圖像直接對比找出目標的運動規(guī)律。但當條件受限,目標被遮擋時,還需要采用基于區(qū)域統(tǒng)計的跟蹤法[10],輪廓跟蹤法[11]、基于貝葉斯濾波的跟蹤法[7]等復(fù)雜的算法。
3.1.3 場景語義分割
場景語義分割的作用是將圖像中的像素劃分行人、車輛、道路這些基本的元素,為自動駕駛提供參考。傳統(tǒng)上研究人員常運用概率圖模型進行分割。但因為單個像素所表達的信息十分有限,有的學者將超像素的思路引入了圖形分割領(lǐng)域,還有的學者通過車輛行駛過程中常見目標關(guān)系提出優(yōu)化的概率圖模型。近年來,卷積神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)也推動了圖像語義分割技術(shù)的發(fā)展。
3.2 直接感知型
直接感知,顧名思義是不通過分析圖像中的目標信息而通過直接學習圖像代表的車輛狀態(tài)信息從而指導(dǎo)駕駛的感知模式。自動駕駛系統(tǒng)利用卷積神經(jīng)網(wǎng)絡(luò)[9]學習汽車的第一視角圖像所表示的各種道路參數(shù),在研究人員的監(jiān)督下不斷提高駕駛技術(shù)、豐富知識儲備。直接感知型的圖像分析法省卻了各種子系統(tǒng)的集成和整合,復(fù)雜性降低,在高速公路等標志明顯的路況條件下表現(xiàn)良好。但是,當此系統(tǒng)在日常道路這樣沒有明顯特點的路況下運作時表現(xiàn)卻不理想。
4 機器視覺的應(yīng)用前景
4.1 自動駕駛汽車
機器視覺是自動駕駛汽車、自動駕駛技術(shù)的重要組成部分。駕駛員的觀察、監(jiān)視、分析的工作都將由機器視覺系統(tǒng)和其他傳感系統(tǒng)承擔。近幾年來,自動駕駛、智能汽車發(fā)展迅速,消費市場急劇擴大。行業(yè)內(nèi)普遍預(yù)測自動駕駛汽車將在2025年前后呈現(xiàn)爆發(fā)式增長;到2035年,自動駕駛汽車將取代當今一般的車輛,屆時自動駕駛整車及相關(guān)設(shè)備、應(yīng)用的收入規(guī)??傆媽⒊^5 000億美元。
4.2 工業(yè)制造領(lǐng)域
機器視覺擁有人類視覺不可比擬的精確度和穩(wěn)定性,在精密儀器檢測、電子元件裝配等制造業(yè)領(lǐng)域有巨大應(yīng)用前景[12]。人眼無法察覺超過可見光范圍的信息,但機器視覺系統(tǒng)可以利用紅外傳感器、超聲波傳感器獲得比人眼更多的信息。同時機器不知疲倦、不存在主觀觀測誤差,所以在工業(yè)領(lǐng)域,機器視覺正以極快的速度替代肉眼觀察。印刷電路板時,可以使用機器視覺進行定位,減小誤差;加工機械零件時,可以使用機器視覺捕捉產(chǎn)品的瑕疵誤差,提高效率;在食品包裝、物流分類、零件裝配等領(lǐng)域,機器視覺已經(jīng)大量取代了人工。
[參考文獻]
[1]李延浩.機器視覺在多領(lǐng)域內(nèi)的應(yīng)用[J].電子技術(shù)與軟件工程,2018(1):93-94.
[2]MARR D.Vision-A computational investigation into the human representation and processing of visual informantion[M]. San Francisco:W H Freeman and Company, 1982.
[3]周勇.智能車輛中的幾個關(guān)鍵技術(shù)研究[D].上海:上海交通大學,2007.
[4]何濤.或談機器視覺的原理及應(yīng)用[J].技術(shù)與市場,2011(5):11.
[5]朱飛虎.機器視覺原理及應(yīng)用[J].自動化博覽,2005(2):81-83.
[6]王旭東,葉玉堂.CMOS與CCD圖像傳感器的比較研究和發(fā)展趨勢[J].電子設(shè)計工程,2010(11):178-181.
[7]白辰曱.基于計算機視覺和深度學習的自動駕駛方法研究[D]哈爾濱:哈爾濱工業(yè)大學,2017.
[8]郭元戎.圖像處理與識別技術(shù)的發(fā)展應(yīng)用[J].電子技術(shù)與軟件工程,2018(1):58-59.
[9]LECUN Y, BENGIO Y, HINTON G.Deep learning[J].Nature, 2015(7553):436-444.
[10]DORIN C, VISVANATHAN R, PETER M.Kernel-based object tracking [J].Pattern Analysis and Machine Intelligence, 2003(5):564-577.
[11]GEMIGNANI V, PATERNI M, BENASSI A, et al.Real time contour tracking with a new edge detector[J].Real-Time Image, 2004(2):102-116.
[12]李延浩.機器視覺在多領(lǐng)域內(nèi)的應(yīng)用[J].電子技術(shù)與軟件工程,2018(1):93-94.