浙江省紹興魯迅中學 倪晨旭
視覺是人類理解認識外部世界的重要途徑。在人類認知的過程中,有超過80%的信息量來自視覺系統(tǒng)[1],如物體的形狀、大小、顏色、空間位置等。但是,由于主觀和客觀條件限制,很多信息不能由人類視覺系統(tǒng)直接或者準確的獲取,人類自然的希望借助外部設備幫助人類處理或者理解信息,這就為人類科學技術(shù)發(fā)展帶來一個嶄新的研究課題——計算機視覺。計算機視覺是研究如何讓機器“看”的科學,其可以模擬、擴展或者延伸人類智能,從而幫助人類解決大規(guī)模復雜的問題。計算機視覺任務應用相當廣泛,如人類識別、車輛或行人檢測、目標跟蹤、圖像生成等,其在科學、工業(yè)、農(nóng)業(yè)、醫(yī)療、交通、軍事等等領(lǐng)域都有著廣泛的應用前景。
隨著并行計算、云計算、機器學習等軟硬件技術(shù)的發(fā)展,計算機的圖像處理能力不斷提高,計算機視覺近幾年獲得了快速的發(fā)展,各項應用在各個領(lǐng)域落地生根,學術(shù)界和工業(yè)界的研究也如火如荼。本文從計算機視覺發(fā)展、研究技術(shù)、面臨的挑戰(zhàn)等方法對計算機視覺進行研究,為計算機視覺研究奠定基礎(chǔ)。
計算機視覺是從圖像或者視頻中提出符號或者數(shù)值信息,分析計算該信息以進行目標的識別、檢測和跟蹤等。更形象的說,計算機視覺就是讓計算機像人類一樣能看到圖像,并看懂理解圖像。
計算機視覺開始于20世紀50年代,主要用于分析和識別二維圖像,如光學字符識別、顯微圖片的分析解釋等。到60年代,通過計算機程序可以將二維圖像轉(zhuǎn)換成三維結(jié)構(gòu)進行分析,從此開啟三維場景下計算機視覺研究。到70年代,麻省理工學的人工智能實驗室院首次開開設計算機視覺課程,由著名的Horn教授主講,同實驗室的Marr教授首次提出表示形式(representation)是視覺研究最重要的問題。到80,90年代,計算機視覺迅速發(fā)展,形成感知特征的新理論框架并逐漸應用到工業(yè)環(huán)境中。到21世紀,計算機視覺領(lǐng)域呈現(xiàn)許多新的趨勢,計算機視覺與計算機圖形學深度結(jié)合,基于計算機視覺的應用也呈爆炸性增長,除了在手機、電腦上的應用,計算機視覺技術(shù)在交通、安防、醫(yī)療、機器人上有各種各樣形態(tài)的應用。
計算機視覺是讓計算機獲取圖像到看懂圖像的過程。圖像處理能力賦予了計算機看即獲取的能力,是人工智能的重要輸入。這里主要介紹數(shù)字圖像處理技術(shù),即將圖像信號轉(zhuǎn)化成數(shù)字信號再用計算機進行處理的技術(shù)[2]。圖像處理的目的,是將輸入的低質(zhì)量的圖像轉(zhuǎn)化成高質(zhì)量的圖像輸出,常用的方法有圖像壓縮編碼、圖像變換、圖像描述、圖像增強和復原。圖像壓縮編碼是減少描述圖像的比特數(shù),以節(jié)省傳輸和存儲消耗。圖像變換旨在減少計算量,如將空間域的圖像陣列變換成頻域空間去處理。圖像描述(representation)是圖像理解的前提,其作用是挖掘一般或主要信息去描述圖像。圖像增強和復原主要用于提高圖像質(zhì)量,如去除噪聲,強化高頻信息等。以上圖像處理技技術(shù)主要依賴一些數(shù)學變換。
模式識別、機器學習、深度學習等算法賦予計算機看懂的能力,是人工智能的核心,更形象的說就是讓計算機像人的大腦去理解圖像。模式識別、機器學習、深度學習是讓機器感知或?qū)W習的工具或方法,本文不對它們進行區(qū)別,主要幫助讀者理解這些方法是如何幫助計算機理解圖像或者視頻的。讓計算機看懂的過程,就是根據(jù)圖像或者視頻數(shù)據(jù)建模的過程,建模就是用數(shù)學符號或者公式推理數(shù)據(jù)之中的一般模式或者規(guī)律,從而可以對新輸入的數(shù)據(jù)進行分類或者回歸,分類就是輸出數(shù)據(jù)的類別,回歸類似與數(shù)學中的映射函數(shù),輸出數(shù)據(jù)的可能值。
隨著信息技術(shù)的發(fā)展,計算機視覺應用在人們的日常生活中、學術(shù)界和工業(yè)界已屢見不鮮,計算機視覺應用呈爆炸式增長,本文重點介紹計算機視覺任務的三大應用,分別是圖像識別、目標檢測和圖像分割。
圖像識別又叫圖像分類,就是輸入一張圖片,輸出該圖像的類別,讓計算機識別人、交通信號燈、動物等這些信息,這是廣義上的圖像識別[3]。在工業(yè)界和學術(shù)界還有針對特定目標的識別,比如車牌識別,在高速公路的ETC口,不需要人工收費,攝像頭會識別你的車牌并收取相應的費用。另外人臉識別在日常生活中也得到了廣泛的應用,如支付寶的人臉支付等。
計算機視覺任務中另一個常見的應用是目標檢測,其目的是輸出給定圖像中特定目標的位置,類別等。由此可見,目標檢測是對目標識別的進一步發(fā)展,計算機不僅要輸出圖像中目標的位置,還要給出目標的類別。目標檢測一個常見的應用是行人檢測,比如在一個交通路口,快速地檢測出攝像頭中拍到的所有行人,可以估計人流數(shù),從而對異常事件進行預警。
與計算機視覺任務相關(guān)的第三個任務是目標分割,圖像分割又可分為圖像語義分割和個體分割。圖像語義分割是將圖像分割成一個個獨立的個體,每個個體具有一定的語義意義[4]。圖像個體分割是比圖像語義分割更進一步的任務,其是圖像語義分割和圖像檢測的結(jié)合,即不僅要獨立出所有的物體,還要輸出所有物體的位置。圖像分割是計算機解釋圖像的過程,這類似于人理解圖像,就需要找出圖像中一個個的物體,找出物體之間的關(guān)系等。
以上三個計算機視覺任務的難度逐漸增加,并逐漸模擬人類理解圖像的過程。另外,計算機視覺任務并不局限于上述三個應用,還有許多有用的應用,如目標跟蹤。
未來計算機視覺任務發(fā)展面臨的挑戰(zhàn)主要來自三個方面:1)有標注的圖像和視頻數(shù)據(jù)較少,機器在模擬人類智能進行認知或者感知的過程中,需要大量有標注的圖像或者視頻數(shù)據(jù)指導機器學習其中一般的模式。當前,主要依賴人工標注海量的圖像視頻數(shù)據(jù),不僅費時費力而且沒有統(tǒng)一的標準,可用的有標注的數(shù)據(jù)有限,這使機器的學習能力受限;2)計算機視覺技術(shù)的精度有待提高,如在物體檢測任務中,當前最好的檢測正確率為66%,這樣的結(jié)果只能應用于對正確率要求不是很高的場景下;3)提高計算機視覺任務處理的速度迫在眉睫,圖像和視頻信息需要借助高維度的數(shù)據(jù)進行表示,這是讓機器看懂圖像或視頻的基礎(chǔ),這就對機器的計算能力和算法的效率提出很高的要求。
計算機視覺是人工智能的核心,在學術(shù)界和工業(yè)界有著廣泛的應用。本文簡述計算機視覺的發(fā)展歷程,研究意義,分析計算機視覺的核心技術(shù)和挑戰(zhàn)。讓計算機看得懂,看得遠是未來視覺的重中之重,計算機視覺研究任重而道遠。
[1]塞利斯基艾海舟,興軍亮.計算機視覺#:#算法與應用[M].清華大學出版社,2012.
[2]張波.數(shù)字圖像處理技術(shù)的發(fā)展及應用[J].品牌:理論月刊,2011(Z2):158-158.
[3]甄棟志,朱永偉,蘇楠等.基于計算機視覺對目標識別檢測的研究[J].機械工程與自動化,2014(1):129-130.
[4]楊雪.基于紋理基元塊的圖像語義分割[D].西南科技大學,2015.