黃凱奇 譚鐵牛
計算機視覺的中心任務是采用計算機對圖像進行理解和分析來獲取有效信息。圖像包括單幅圖像、多幅圖像和圖像序列(即視頻圖像)。但是,目前的計算機視覺與人類視覺仍存在較大差異??茖W家常以“過馬路”這個簡單的視覺任務為例來說明這一點?,F代高速計算機的計算能力已達到相當驚人的程度,但計算機視覺系統卻無法指導過馬路。很多研究者都將注意力集中在傳統的基于統計學習等方法上,卻忽略一個事實:人類視覺系統大大超過了當前最優(yōu)秀的基于統計學習等傳統方法的視覺系統。特別在處理一些惡劣環(huán)境下的視覺信息時,傳統方法遇到較大困難。鑒于此,如何從視覺認知的角度去研究和設計計算機視覺算法成為一項迫切而又富有挑戰(zhàn)性的任務。
認知科學及其信息處理方面的研究被列入國際人類前沿科學計劃(Human Frontier Science Program,HFSP)中,被國際上看成是和美國的戰(zhàn)略防御計劃、歐洲的尤里卡計劃(Eureka Plan)鼎足而立的3個重要規(guī)劃。國外幾乎所有的一流大學和研究所都建立相關研究機構進行視覺認知方法的研究,如美國麻省理工學院(MIT)的腦認知科學系人工智能實驗室,美國加州理工學院(Caltech)的計算與神經系統組、德國馬普協會等。將認知應用于視覺分析使他們取得優(yōu)于傳統方法的成績。
國內的主要研究機構也分別從神經生物學、認知心理學、機器學習、模式識別等方面對此開展研究,這些研究機構包括中國科學院生物物理研究所、北京師范大學、北京大學、清華大學、中國科學院自動化研究所、復旦大學、西安交通大學等。2008年起,在國家自然科學基金委員會的支持下,國內研究機構開展認知重大計劃“視聽覺信息的認知計算”,并將其結合智能車的應用,于2009年—2011年組織3次“中國智能車未來挑戰(zhàn)賽”,從而取得長足進展。國家 973計劃從20世紀 90年代就開始支持相關研究,其研究重點也從認知、知覺成像機理逐步發(fā)展到海量非結構化數據、可視媒體的計算模型、視頻編碼等,也取得一些在國際上有一定影響力的成績。
長期以來,人們對于認知過程的理解基本上還停留在直覺上,沒有形成準確的科學定義。而與此同時,信息科學尤其是計算機科學正面臨著高速發(fā)展中信息高速獲取和海量異構數據等的挑戰(zhàn)。借鑒人類處理復雜信息的認知機理去面對挑戰(zhàn)是一種必然趨勢,同時借助于計算機科學強大的計算能力,也能為認知科學的發(fā)展提供系統科學的計算依據。視覺認知的計算模型作為這一有效手段應運而生,并隨著認知科學和計算機科學的發(fā)展受到越來越多的重視。
視覺認知的生物模型,近年來在相關國際期刊都有大量最新研究成果。而對于視覺計算模型,從2005年開始在 CVPR、ICCV、ECCV等計算機視覺會議上也都有相關最新研究成果,包括純計算模型、決策計算模型等。本文并不試圖全面介紹所有的視覺計算模型,主要回顧一些具有一定歷史的模型,根據研究的感受對視覺認知計算模型發(fā)展的一些理解(目前視覺認知的研究不再僅圍繞初級視皮層的生物模型和計算模型研究,涉及到短時記憶、學習、整合加工等更深層次的研究,本文僅針對個人理解提出生物模型和計算模型相互影響和結合的一些看法),歸納其發(fā)展的兩條主線:生物視覺機制(以生物學視覺分析為基礎的視覺研究往往側重視覺皮層細胞和神經元的感知過程,目前對生物學認知過程的理解還沒有達到人類所期望的高度,本文也僅是對部分有代表性的工作進行歸納)和視覺計算理論,從這兩方面對較典型的計算模型的發(fā)展進行相關介紹,最后給出對視覺認知計算模型的一些思考。
視覺認知計算模型可稱為可計算的視覺認知模型,其目的是在人和計算機之間構建橋梁,讓計算機能完成人類大腦所完成的一些工作。人類具有最為魯棒的視覺系統,能在各種復雜環(huán)境下完成視覺識別任務,而計算機具備較強的計算能力,其計算能力已達到千萬億次。視覺認知計算模型就是通過對人類視覺認知機理的了解,完成視覺機理的數學建模并通過計算機得到實現,從而實現高效、魯棒的智能大腦系統。視覺認知計算模型的研究作為典型的交叉性領域,和計算機視覺、認知科學及模式識別等領域的進展息息相關,也是目前這些領域的研究熱點。由于迄今為止,人類視覺系統的工作機理還沒有完全弄清楚,這一研究還是任重道遠。
雖然認知的計算方法可追溯到20世紀40年代維納的控制論、50年代圖靈的人工智能和香農的信息論,但談到視覺認知計算模型得到重視和發(fā)展就不得不提到計算機視覺的研究。早期的計算機視覺研究主要集中于積木世界的理解及與此有關的底層視覺信息處理。但由于缺乏底層視覺信息處理提取的理論指導,這一研究遇到瓶頸。到20世紀70年代末,美國麻省理工學院(MIT)人工智能實驗室的Marr立足于計算機科學,總結心理物理學、神經生理學、臨床神經病學等在視覺研究上已取得成果,在此基礎上,提出視覺計算理論,為機理的研究提出理論指導。他從計算理論、計算算法、計算機制3個層次對視覺信息處理任務進行研究和區(qū)分,并對視覺任務中的表象描述定義為一個三維重建的過程。這一描述受到以美國馬里蘭大學計算機視覺研究實驗室的 Aloimonos為首的目的主義學派的置疑,并引發(fā)20世紀90年代計算機視覺領域多位學者的大討論。雖然最后對于計算機視覺的目的是否是三維重建沒有明確的結論,但進一步明確神經生理學等認知科學對計算機視覺發(fā)展的重要性,從視覺認知出發(fā)去研究計算機視覺這一觀點逐步被普遍接受。此后,出現越來越多關于視覺認知的計算模型作為聯系視覺認知和計算機視覺的橋梁的研究。
總體來說,視覺認知的計算模型應滿足模擬人類認知特性的要求同時還強調可計算性。因此,其來源主要可歸納為兩大類:基于生物視覺機制和基于視覺計算理論。從歸納出的計算模型和生物視覺機制與視覺計算理論的關系,可看出生物視覺機制的發(fā)展既能直接用于建立視覺計算模型,同時也推動視覺計算理論的發(fā)展,具有重要地位。本文將分別從生物視覺機制和視覺計算理論方面介紹視覺計算模型的發(fā)展。
在表達機制—理論—模型三者之間的關系中,機制是最為重要的創(chuàng)新源泉,生物視覺機制對于視覺計算理論有重要的促進作用。生物視覺機制的發(fā)現是計算理論產生的源泉,只有生物視覺機制新的發(fā)現,才能促進視覺計算理論的發(fā)展,有新的生物視覺機制的發(fā)現,一般會產生新的視覺計算模型。但并不是有了生物視覺機制的新發(fā)現就一定會產生新的視覺計算理論,視覺計算理論的產生是在多個生物視覺機制的基礎之上總結得出的。因此,計算視覺理論和生物視覺機制之間并不是都有一一對應的關系。以Marr視覺計算理論為例,作為視覺計算理論的奠基性工作,其形成也是在許多生物視覺機制的基礎上才提出并得以完善的。而一些重要的生物視覺機理的工作如顏色視覺理論就僅提出很多有益的模型,而沒有上升到計算理論的高度。視覺計算理論對生物視覺機理的研究具有一定的機理驗證作用,但本文主要是從思想創(chuàng)新的角度出發(fā),因此在圖中并沒有給出計算視覺理論對于生物視覺機理的作用關系。
生物視覺機制主要通過神經生理學和解剖學等學科的發(fā)展,對生物視覺系統的機理進行研究。生物視覺機制的研究成果是視覺研究的重要來源。早期的學者根據生物視覺系統的形成過程,將視覺信息處理的一般模型,分別可看成視網膜階段、早期視覺處理和高層視覺處理,這一框架在許多機器模型中得到應用。
本文中進一步根據視覺信息處理從人眼到人腦這一處理過程把目前的模型大致分為外周腦模型、腦皮層模型及知覺層模型。外周腦模型主要是模擬視覺信息在視網膜(retina)上的運行機理及視網膜和皮層之間的信息處理進行建模。視網膜是位于視覺系統最前端的具備感光功能并能對接收到的刺激信號進行初步處理的組織。視網膜包含大量的光感受器細胞,是外界視覺信息在人眼成像的主要部位,并對亮度、顏色、形狀、運動等信息進行初步感知和處理。對人眼的研究主要集中在對retina皮層的研究。根據對視網膜機理的研究結果,一些視覺理論和模型被提出來,如基于視網膜中的視桿和視錐細胞的特性,兩種最為常見顏色視覺模型(三刺激模型和對立色模型)被提出并被廣泛使用。Weber等發(fā)現,眼睛對光強的響應是非線性的,并且在一定范圍內,物體的亮度和背景的差別的比值是相對不變的,這使得視網膜細胞對外界光強具有較好的自適應特性。根據這一特性,圖像的單色對數模型和彩色對數模型被提出來,人眼對于對比度敏感而不是對于絕對亮度敏感的特性也被用于建立對比度模型實現對目標的檢測。19世紀馬赫發(fā)現視覺側抑制效應(Lateral Inhibition),并提出有關視網膜神經元相互作用原理。在視覺信號的預處理和傳輸階段,側抑制原理被認為起著關鍵性的作用,基于這一原理的模型常被用于圖像增強。
進一步結合視網膜和皮層的研究,Land在顏色恒常性基礎上提出模擬人類亮度和顏色感知的視覺模型——Retinex模型。這一模型可在動態(tài)范圍壓縮、邊緣增強和顏色恒常3方面達到平衡,可對各類圖像進行自適應增強,在很多方面得到廣泛應用。
Zaghloul等提出一種模擬視網膜細胞機理的數學模型。該模型具有帶通和時空濾波的功能,可實現亮度調節(jié)及對比度調節(jié),他們在CMOS電路上實現這一模型,并系統地進行分析。
腦皮層是視覺信息處理的中心區(qū)域,其主要工作由視覺皮層(visual cortex)來完成。人類的視覺皮層包括初級視皮層(V1)及紋外皮層(V2~V5等)。初級視皮層也是目前大腦皮層中被研究得最透徹的區(qū)域。Hubel等在20世紀50年代末首次開展對視皮層細胞的研究,為生物視覺系統方面做出開拓性工作。他們在20世紀六七十年代提出視覺感受野(Receptive Field)理論?;谶@一理論,Barlowd等提出“利用感知數據的冗余”進行編碼的理論,之后Michison等明確提出稀疏編碼理論(Sparse Coding),數據經稀疏編碼后僅有少數分量同時處于明顯激活狀態(tài),具有存儲能力大和聯想記憶能力等特點,近年來受到較大關注。Rodieck等在 1965年進一步指出這不同感受野的直徑方向上的截面對光信號的響應曲線都具有高斯分布的性質,彼此方向相反。他們采用兩個高斯函數的差來表示這種特性,稱為高斯差模型(Difference of Gaussians,DOG),這一模型作為濾波器模型已成功應用在圖像預處理中。1980年Daugman使用二維 Gabor函數模擬視皮層中細胞感受野的空間性質,汪云九等也提出用一族廣義 Gabor函數描述視覺系統各層次上感受野時空性質的模型。Gabor濾波器已在模式識別尤其是生物特征識別方面得到廣泛應用。1968年 Campell等進一步研究發(fā)現視覺系統具有空間頻率通道,這一成果被 Pattanaik等在1998年用于真實感圖形顯示(image display),取得較佳效果,Huang等結合彩色圖像的感知特性擴展這一模型用于彩色圖像的增強和評估。Lowe根據大腦皮層中下顳葉皮質(inferior temporal,IT)對于視覺刺激響應的特性,提出一種面向物體識別的旋轉和尺度不變的計算模型(Scale Invariant Feature Transform,SIFT)。這一模型之后經過改進,成為模式識別中用于局部特征提取算法的經典模型。
Poggio等在1999年首次建立完整的視覺處理模型 HMAX(Hierarchical Model and X),這是一個從生物學的角度上模擬的多層次模型。2007年,Serre等通過引入特征字典的學習過程,構造高層次的仿真生物視覺模型(Biological Inspired Model,BIM),并在當時取得優(yōu)于統計模式識別模型的結果,引起計算機視覺和生物視覺界的關注。這一模型通過改進在目標識別、場景分類等得到廣泛應用。更多的關于外周腦模型、腦皮層模型可參見Bednar等的工作。
視知覺是更為高層的視覺機理的描述,涉及到的現象更為復雜,如錯覺現象,圖像的二義性等,難以解釋。目前大部分的解釋還是存在于哲學家和心理學家所做的一些假想,至今還沒有非常系統的認知模型。如格式塔學派,強調人的視覺系統具有在對景物中的物體一無所知的情況下從景物的圖像中得到相對的聚集(grouping)和結構的能力,這種能力被稱為感知組織。以此為基礎,一些學者在圖像的組織方面尤其是圖像分割方面提出相應的數學模型,取得一定效果。另一種值得一提的知覺層研究方面的工作是Gibson提出的生態(tài)知覺理論,他試圖解決總體的視知覺問題,在這一理論中,Gibson認為知覺不是對視網膜上降采樣圖像的解釋,而是通過光學排列和流動直接和真實的體驗?;谶@一理論,光流模型(Optical Flow)被用于提出描述圖像灰度模式的表面運動,即獲取運動場。這一模型因為不需要預先知道場景的信息同時能獲取豐富的運動和結構等信息,使得光流在計算機視覺、圖像處理等得到較多應用。
視覺認知計算模型的另外一個重要的起源是視覺計算理論,即從計算機信息處理去描述視覺形成過程。相比于具有悠久歷史、紛繁復雜的生物視覺機理的研究,視覺計算理論的研究主要從 20世紀 60年代開始,而且相對集中。主要的視覺計算理論可分為以Marr理論為主的局部優(yōu)先和拓撲理論為主的全局優(yōu)先的理論。目前大部分的計算模型仍基于主流的 Marr視覺計算理論,包括三維物體重建模型,雙目立體視覺模型等。1987年Biederman在Marr理論的基礎上提出成分識別理論(Recognition by Component Theory)。該理論認為通過把復雜對象的結構拆分為簡單的部件形狀,就可進行視覺識別。在這一理論的指導下,Li等發(fā)展詞袋模型(Bag of Word)用于物體識別,成為目前物體識別中具有代表性的工作之一。1980年Treisman和Gelade等提出特征整合理論(Feature Integration),認為視覺處理是一個以自下而上的加工為主要特征的、具有局部交互作用的過程。在這一理論的基礎上,Koch等于1985年提出第1個視覺注意機制模型,1998年Itti等提出適用于自然圖像的高斯金字塔模型,鄭南寧等提出分層的注意視覺模型。
在19世紀80年代,McClelland等提出相互作用激活理論,他們認為知覺系統是由許多加工單元組成的。這些節(jié)點(node)是最小的加工單元。每個節(jié)點通過興奮和抑制兩種連接方式與大量其他節(jié)點聯結在一起。每個節(jié)點在某一時間都有一個激活值(activation value),它既受到直接輸入的影響,也受到相鄰各節(jié)點的興奮或抑制的影響。這些同層次和不同層次的節(jié)點之間興奮和抑制的各種關系,構成異常復雜的網絡。
相互激活理論也成為在語言學中風靡的連接主義理論的代表性理論。在這一理論的指導下,BP神經網絡(Back Propagation Neural Networks)模型被提出并得到學術界的高度重視,成為應用最為廣泛的神經網絡模型之一,在文字識別等領域得到成功應用。在假設神經網絡是多層的基礎上,Hinton等提出深度學習算法(Deep Learning),目前已在圖像、語音、文本等多個領域取得令人矚目的成績,成為大數據時代最為成功的學習模型之一。與傳統的信息表達方式不同,基于深度學習模型構建的表達強調的是一種深層次、端到端、數據驅動的特征學習方式。整個模型的參數不是通過人工設定,而是通過輸入大量的訓練樣本,采用無監(jiān)督或有監(jiān)督的方式,自動學習得到最佳參數。從函數論角度來說,深度學習模型可更有效地表達更復雜的函數,而這個也是深度學習模型強大表達能力的原因。
值得一提的是,Chen等提出另一種和Marr視覺計算理論不同的拓撲理論,他們發(fā)現對大范圍拓撲特征感知早于局部幾何特性的感知,《Visual Cognition》在2005年??M織著名學者進行評論,目前這一視覺理論得到越來越多的重視?;诖死碚?,Huang等提出一個從全局到局部的形狀目標分類模型,得到吻合視覺心理學的結果。
視覺認知計算模型是聯系視覺認知科學和計算機科學的橋梁和紐帶。一方面,視覺認知機理的研究為計算機科學的計算仿真、模型建立等提供良好的生理學和心理學參照,對視覺機理規(guī)律的認識為計算模型的建立提供努力的方向。另一方面,計算模型也為視覺機理的正確性和有效性提供驗證的平臺,能有力推動視覺認知機理的發(fā)展。總之,視覺認知計算模型的目的是借鑒人類視覺機理和相關學科的成果,建立新的數學模型,從而有效提高計算機對信息社會的理解能力和計算效率,因此這一研究具有以下特點。
1)視覺認知計算模型的研究是交叉性的。這一點很好理解,視覺是認知科學的一部分,其研究涉及到生理物理學、神經認知科學,又涉及到計算機科學,還包括數學及模式識別等相關建模的科學,因此對這一領域的研究需要寬廣的知識面,同時需要多個學科的學者能共同參與對這一問題進行探討。
2)視覺認知計算模型的研究是開放性的。這一研究既然是交叉性學科,那么必然不同領域的學者從不同學科的角度對這一領域進行研究,同時研究的特點和結論也會有差異。這一點在歷史上的視覺研究中得到體現,如顏色視覺模型既有三色模型又有對立色模型。但總的來看,兩者都是對機理在不同角度和程度上的闡釋,具有互補性。
3)視覺認知計算模型的研究是發(fā)展性的。任何定理或理論都是基于一定的假設情況的,這一限制對于視覺認知計算模型的研究尤為突出。人類認知的過程就是在不斷糾正的過程。同樣,對視覺認知計算模型的研究也是一個不斷完善和發(fā)展的過程。
視覺認知計算模型的研究在國外開展較早,許多學者從不同領域對此開展研究,也取得較大進展,近年來這一研究也趨向于多種學科的交叉融合。相比國外,我國在這方面的研究起步較晚,大部分的研究還是集中在心理學等認知科學。目前我國學者在神經心理學等認知科學方面已取得一些有國際影響力的工作,在視覺計算理論方面也有獨到的見解,但是在視覺計算模型的代表性的研究工作還是較少。這方面的研究涉及到多個交叉學科的發(fā)展,因此在人類視覺的生理機制還尚未得到解決情況下,這一領域的研究需要注意兩點問題。
1)避免大而全的模型。讓計算機來模擬人類的視覺機理是計算機視覺追求的目標,把人類視覺信息處理方式翻譯成程序語言對其建模來實現機器模仿人也是早期機器視覺研究的重點,取得一些成果,如Stanford的Shakeyh和MIT的Cog機器人等。但是否能按照這條路繼續(xù)前進,去構建一個大而全的視覺模型,目前還無法做到。一方面,人類視覺的獲取量是巨大的,而很大一部分的信息處理與建立視覺信息處理模型是無關的;另一方面,在人類視覺機理尚未完全清楚的情況下,試圖去構建一個包羅萬象的計算模型在現階段是不現實的。
2)注意發(fā)揮學科優(yōu)勢,以應用驅動來發(fā)揮特點(認知模型是多個學科關注的重點,但各個學科側重點不同,以生理物理學為代表的認知學科更關注的是模型如何能更好地模擬視覺機制,其設計出的模型目的是更好地反映出以計算機視覺為主的信息科學,更關注的是視覺模型的應用效果,本文主要關注后者)。目前國內外在視覺認知計算模型已開展較多的研究工作,有一些成果在相關的研究領域得到較好應用,如計算機視覺領域的物體識別、多媒體領域的視頻編解碼、圖像處理領域的圖像增強等,正因為這些模型的出發(fā)點和應用需求的不同,在模型的構造方式、應用目的等各方面都有其特點。而歸根到底是對人類視覺的各方面任務、特性有不同的側重點。許多心理物理學實驗也證明在人的視覺系統中似乎存在獨立的特定模塊,如Land關于照明的計算理論,這也指導我們在進一步的研究過程中可以以應用為驅動來獲得一些獨立的視覺認知計算模型。
那么,一個較好的視覺認知計算模型應具備什么樣的能力,本文認為應該具備如下能力。
1)學習能力。(1)自主學習能力。在已來臨的大數據時代,海量的圖像、視頻數據絕大多數是沒有標簽的,大量進行標注也是不太現實的。從大量的沒有標簽的圖像數據中自動挖掘知識,無疑有著重要意義。Ng和Dean領導的Google Brain計劃,通過將 YouTube上的視頻直接送入多層的sparse autoencoder系統,在沒有任何標簽和人為監(jiān)督的情況下,學習到貓臉和人臉等視覺概念,也驗證數據驅動的自主學習的可行性與有效性。(2)長期的增量學習能力(Life-Long Incremental Learning)。在系統已學習到大量知識的情況下,對新數據能以一種經濟的方式對整個現有模型進行相應的更新,以適應不斷變化的外部環(huán)境,這是生物界“物競天擇,適者生存”的準則,所有生物都具有的基本能力。我們希望基于計算機的視覺認知模型具有同樣的基本特性,也是實現人工智能的必然要求。
2)高容量的表達能力。人腦的記憶容量估計在 1 TB~2.5 PB左右,這保證人腦在整個人的一生中能記憶大量的信息。在現今大數據時代,要有效地建模海量的視覺數據,模型具有高容量是必不可少的,當前較活躍的層次表達模型如貝葉斯網、無向圖網等模型理論上都沒有容量的上限,保證其具有強大的建模、表達能力。當然,信息的組織、共享、稀疏表達等會大大壓縮信息存儲大小。
3)快速推斷能力。人眼能在非常短的時間內完成人臉的定位、識別。幾乎所有依賴視覺的生物都具有類似的能力。視覺認知計算模型在學習到大量視覺概念、知識之后,也應能對復雜視覺場景進行快速地目標檢測、識別等。
4)多任務信息共享能力。人類視覺系統在處理視覺任務時,不僅快速而且同時完成多個任務,這表明視覺系統在完成不同任務時具有共享信息的能力,也就是在獲取一些共性信息之后,能同時完成多個任務,這一能力已得到視覺研究和機器學習領域的關注。從系統一體化來講,希望最終能實現一套類似人類視覺系統的視覺認知計算模型,同時完成檢測、分類、識別、分割等多種任務。在這種情況下,用于分類的關于貓的信息與用于檢測的貓的信息共享,無疑是既自然而又經濟的。
認知科學和計算機視覺經過多年的研究和發(fā)展,已取得令人矚目的進展,在人工智能領域的研究方面,超級電腦沃森利用機器學習和自然語言處理模型,借助于強大的計算能力,在智力競答節(jié)目上戰(zhàn)勝人類冠軍,標志著人類對智能的計算模型發(fā)展到新的階段。這種通過樣本采集學習的方式來實現人類認知是視覺認知計算模型的一個思路。但生物視覺系統的功能和機構極其復雜,就目前而言要完全了解還存在巨大的挑戰(zhàn)。然而要真正實現有效的計算模型,對視覺認知機理的研究是成功的保障,正如霍金斯所言“真正認識人類大腦是開發(fā)智能機器的必由之路”。?
(摘自《模式識別與人工智能》2013年第10期)