許暉
通常人們提起汽車的眼睛,很自然地會(huì)聯(lián)想到汽車大燈。從象形學(xué)說來講,這沒毛病,然而伴隨著自動(dòng)駕駛技術(shù)逐步普及,“眼睛”已經(jīng)愈發(fā)被指代為負(fù)責(zé)感知車輛外部環(huán)境的各種傳感器了,譬如本刊于2018年初所刊登的《自動(dòng)駕駛的天眼—激光雷達(dá)是個(gè)啥》一文為讀者所介紹的激光雷達(dá)傳感器。倘若非要在各種傳感器之中選出最為貼合“眼睛”的一款,那么非攝像頭傳感器莫屬了,因?yàn)槠渌涗浵聛淼漠嬅嬲侨祟愖陨硭姷降那榫?。不同衣著的行人、色彩變換的信號(hào)燈、蜿蜒曲折的車道線、種類多樣的交通標(biāo)識(shí)牌或車輛……感知變化多端的道路環(huán)境是自動(dòng)駕駛中最為基礎(chǔ)的任務(wù)。而以上的那些復(fù)雜交通物體,都可以通過攝像頭來感知。在眾多用于感知環(huán)境的傳感器中,攝像頭所記錄下來的數(shù)據(jù)最為直接,日益精細(xì)的分辨率也要高出毫米波雷達(dá)或激光雷達(dá)兩個(gè)量級(jí),正因?yàn)槠淠軒砀嗑S度、更細(xì)節(jié)化的信息,因此要想在復(fù)雜的城市道路中實(shí)現(xiàn)自動(dòng)駕駛,攝像頭是必不可少的傳感工具。
計(jì)算機(jī)視覺識(shí)別技術(shù)需求最早可以追溯到1966年。人工智能學(xué)家、MIT教授馬文·明斯基給他的本科學(xué)生布置了一道的暑假作業(yè):“請(qǐng)諸位將一個(gè)攝像頭與電腦相連,讓計(jì)算機(jī)告訴我們攝像頭看到了什么?”這道難題代表了計(jì)算機(jī)視覺幾乎全部?jī)?nèi)容,用攝像頭模擬人眼、計(jì)算機(jī)模擬人腦,然后讓這套系統(tǒng)像人一樣去感知周邊環(huán)境??梢哉f誰也沒有想到,視覺識(shí)別技術(shù)的起源居然因?yàn)橐豁?xiàng)大學(xué)暑假作業(yè)。
進(jìn)入到七十年代,學(xué)術(shù)界對(duì)于計(jì)算機(jī)視覺的研究領(lǐng)域逐步收窄到一些特殊場(chǎng)景。當(dāng)時(shí)的主流思想認(rèn)為,人是通過物體中具有代表性的部分和結(jié)構(gòu)來生成模板,然后將所看到的目標(biāo)去和這個(gè)模板匹配來實(shí)現(xiàn)識(shí)別的。用古人所說的“窺一斑而知全豹”來形容還挺貼切。之后的十幾年,行業(yè)重新回歸到了一些更加基礎(chǔ)課題的研究上,這段時(shí)期的積累對(duì)于未來目標(biāo)識(shí)別技術(shù)的發(fā)展起到了至關(guān)重要的作用。
1990年以后,目標(biāo)識(shí)別技術(shù)的發(fā)展進(jìn)入了快車道,技術(shù)的演進(jìn)也幫助目標(biāo)識(shí)別走出實(shí)驗(yàn)室,進(jìn)入人們的生活。法國(guó)科學(xué)家Yann LeCun教授開發(fā)的基于神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別系統(tǒng)成功應(yīng)用到美國(guó)郵政和銀行系統(tǒng)中。這個(gè)方法正是當(dāng)下十分流行的CNN(卷積神經(jīng)網(wǎng)絡(luò))的前身。1999年以色列大學(xué)教授Amnon Shashua創(chuàng)立了Mobileye,雖然當(dāng)時(shí)并未引起廣泛的關(guān)注,今日的Mobileye已然成長(zhǎng)為無人駕駛領(lǐng)域最重要的玩家之一。
21世紀(jì)之后,計(jì)算機(jī)視覺領(lǐng)域不斷取得革命性的技術(shù)進(jìn)步。MIT的兩位教授——Paul Viola與Michael Jones在視覺領(lǐng)域的最頂級(jí)會(huì)議CVPR上發(fā)表了一篇震驚業(yè)界的論文,文中所提出的方法成功將人臉識(shí)別算法實(shí)時(shí)化,使得視覺識(shí)別在一些對(duì)實(shí)時(shí)性要求較高的場(chǎng)景應(yīng)用成為可能。
2006年以后,深度學(xué)習(xí)逐步受到追捧,它的最大優(yōu)勢(shì)在于能夠讓計(jì)算機(jī)去提取目標(biāo)的特征。只要樣本足夠豐富,就能更為有效地克服角度多變、尺寸多變、光照復(fù)雜等影響識(shí)別的特征,Deep learning出現(xiàn)以后,對(duì)各種各樣的視覺識(shí)別任務(wù)的精度都進(jìn)行了大幅度的提升。這與我們的成語“觸類旁通”又多么相似。
盡管目前目標(biāo)識(shí)別技術(shù)已經(jīng)發(fā)展得相當(dāng)成熟,但想要其像人腦一樣工作,除了需要解決感知層面的問題,還需要在認(rèn)知層面做研究,讓計(jì)算機(jī)理解它所看到的東西。幸運(yùn)的是,如今學(xué)術(shù)界和工業(yè)界都在積極地推動(dòng)計(jì)算機(jī)視覺技術(shù)白勺發(fā)展。
攝像頭技術(shù)其實(shí)并不是什么新鮮玩意,但是從出現(xiàn)至今,經(jīng)過近半個(gè)世紀(jì)的發(fā)展,其背后的視覺識(shí)別技術(shù)已經(jīng)變得越來越精準(zhǔn)、也越來越穩(wěn)定成熟,這一切恰好也為它在無人駕駛領(lǐng)域的運(yùn)用奠定了堅(jiān)實(shí)的基礎(chǔ)。在自動(dòng)駕駛領(lǐng)域而言,基于攝像頭技術(shù)而來的目標(biāo)識(shí)別包含了三個(gè)層次的任務(wù),由淺到深分別是:圖像分類、邊界框檢測(cè)與像素標(biāo)注。
通常而言,自動(dòng)駕駛研發(fā)工程師們會(huì)依據(jù)各個(gè)傳感器的特點(diǎn)進(jìn)行算法設(shè)計(jì),利用傳感器采集的信息,對(duì)其進(jìn)行時(shí)間軸對(duì)齊、匹配、可信度融合等操作,從而完成對(duì)周圍環(huán)境的感知?;谶@些環(huán)境信息,最終實(shí)現(xiàn)自動(dòng)緊急制動(dòng)、車道保持、車距監(jiān)控等自動(dòng)駕駛功能,從而提升駕駛的安全。
下面讓我們以高級(jí)輔助駕駛中的車輛識(shí)別為例,來了解目標(biāo)識(shí)別具體是怎樣進(jìn)行的。
這起事故的主因眾說紛紜,并催化了事故后沒多久特斯拉于Mobileye的全面分手,盡管雙方各執(zhí)一詞,馬斯特認(rèn)為Mobileye阻礙特斯拉自行研發(fā)視覺識(shí)別系統(tǒng),Mobileye則認(rèn)為特斯拉的自動(dòng)駕駛功能“越過了安全的底線”,令自己的視覺識(shí)別技術(shù)蒙??涩F(xiàn)在回頭看來主要的鍋還是讓視覺識(shí)別系統(tǒng)背了。這也難怪后來Mobileye被英特爾收購(gòu)了。
塞翁失馬,焉知非福,視覺識(shí)別系統(tǒng)的背鍋對(duì)于后來自動(dòng)駕駛領(lǐng)域的多傳感器融合以及多系統(tǒng)冗余起到了極大的推進(jìn)作用。譬如對(duì)于需要進(jìn)化到自動(dòng)駕駛的車輛,激光雷達(dá)是十分好的補(bǔ)充,不光對(duì)靜止的目標(biāo),它對(duì)所有的障礙物都能清晰的檢測(cè)出輪廓,而且它的探測(cè)距離也非常遠(yuǎn)。即使攝像頭不能辨別,激光掃描器也會(huì)檢測(cè)到障礙物而去制動(dòng)車輛。而各式傳感器的增加也能以互補(bǔ)長(zhǎng)短的方式令自動(dòng)駕駛解決方案日益健全。
自動(dòng)駕駛技術(shù)所需的攝像頭到底應(yīng)該朝哪里看,以及看什么?也許不少人第一反應(yīng)會(huì)是朝前看,偵測(cè)路面情況;而少部分思維更為縝密的會(huì)提出向后看以預(yù)警來自后方的威脅,甚至?xí)X得朝四面八方看全無死角就好。但能想到朝車內(nèi)看的肯定不多。僅僅依靠判斷駕駛員雙手是否在方向盤上來斷定駕駛狀態(tài)是遠(yuǎn)遠(yuǎn)不夠的。實(shí)際上許多車主可能會(huì)因?yàn)槠诙劬︼h忽或者精神放空。所以在目前的自動(dòng)駕駛技術(shù)階段。與其讓車輛自己看懂車外路面情況,倒不如先讓車輛看清楚座艙內(nèi)是否有一個(gè)正常清醒的司機(jī),讓汽車了解司機(jī)的實(shí)時(shí)狀態(tài),清楚其對(duì)控制汽車的能力更為實(shí)際。只要一天無法徹底達(dá)到L4級(jí)別自動(dòng)駕駛技術(shù),那么駕駛員仍將是車輛最直接的“眼睛”,而實(shí)現(xiàn)這個(gè)功能最簡(jiǎn)單的辦法就是在駕駛艙內(nèi)安裝以攝像頭為基礎(chǔ)的駕駛員檢測(cè)系統(tǒng)(Driver Monitoring)。
DM系統(tǒng)是一種基于人體生理反應(yīng)特征的駕駛員疲勞監(jiān)測(cè)預(yù)警系統(tǒng)。目前從整體架構(gòu)來講分為直接檢測(cè)和間接檢測(cè)兩類。相對(duì)于車外周遭環(huán)境識(shí)別的樣本數(shù)據(jù)來說,DM系統(tǒng)識(shí)別相對(duì)數(shù)據(jù)量并沒有如此巨大。為此已經(jīng)越來越多王機(jī)廠將DM的功能列為ADAS系統(tǒng)之中的一項(xiàng)。而Tier One們也在不遺余力地提供全套系統(tǒng),比如大陸集團(tuán)所提供單目攝像機(jī)能夠涵蓋旋轉(zhuǎn)頭±60。的范圍,藝術(shù)化圖像處理技術(shù)能夠識(shí)別駕駛員的頭部姿勢(shì)、視線和眼球運(yùn)動(dòng)。通過單目攝像機(jī)監(jiān)測(cè)駕駛員是否存在分心駕駛和疲勞駕駛,這是通過一項(xiàng)處理眨眼持續(xù)時(shí)間和眼球運(yùn)動(dòng)速度的模糊邏輯實(shí)現(xiàn)的。當(dāng)然,通過分析頭部方向和眼球注視方向,判斷駕駛員是否注意到人或物體(潛在的注意力分散)也是可能的。除了駕駛員疲勞監(jiān)測(cè)外,該技術(shù)還能夠進(jìn)行駕駛員面部識(shí)別,比如通過識(shí)別駕駛員的面部分析出哪位駕駛者在駕駛車輛等,該應(yīng)用受到共享汽車領(lǐng)域的青睞。
要看東西用一只眼睛就足夠了,瞇起一只眼看東西估計(jì)大家都能輕易做到,可從生物的進(jìn)化歷史而言,眼睛成對(duì)出現(xiàn)并非多余的,獨(dú)眼觀察的后果往往是缺乏應(yīng)有的空間距離感,那么多一只眼睛能否看得更清?答案是必然的。也許針對(duì)車內(nèi)情況監(jiān)控所需的攝像頭采用單目即可,畢竟車內(nèi)空間并不大,適當(dāng)可覆蓋整個(gè)車內(nèi)的攝像頭便已經(jīng)足夠??蓪?duì)于偵測(cè)車外路面的視覺識(shí)別系統(tǒng)來說,多少只眼睛才算夠呢?仿佛也有著自己的進(jìn)化發(fā)展一說。
市場(chǎng)上以攝像頭為核心的視覺解決方案層出不窮,不但有以Moblieye為代表的單目攝像頭技術(shù),還有類似斯巴魯為代表的雙目攝像頭技術(shù),當(dāng)然也少不了如國(guó)際主要Tier One供應(yīng)商ZF采埃孚所推進(jìn)的三目攝像頭技術(shù)了。
目前,大多數(shù)圖像算法的研究都是基于單目攝像開發(fā)的,不僅開發(fā)成本低,算法的成熟與穩(wěn)定程度也遠(yuǎn)勝過其他視覺解決方案。不過在測(cè)量范圍與測(cè)量精度萬面,單目攝像頭卻難以實(shí)現(xiàn)平衡。攝像頭的探測(cè)范圍越廣,探測(cè)的距離就越短,好比人眼看得越遠(yuǎn)時(shí),視線范圍也就越窄。同時(shí),單目攝像頭在精度萬面也有先天缺陷,由于攝像頭無法像人眼一樣,根據(jù)物體的距離與大小自由變焦,越遠(yuǎn)的物體,成像就越小,僅僅幾個(gè)像素點(diǎn)所能描繪出的物體,識(shí)別精度自然不高,單目攝像頭的探測(cè)據(jù)離也就限于200米之內(nèi)。為了克服單目攝像頭的缺點(diǎn),一些公司選擇了雙目乃至多目攝像頭作為解決方案。雙目攝像頭是通過拍攝同一場(chǎng)景下左右兩幅圖像,再運(yùn)用立體匹配算法獲取視差圖,進(jìn)而獲取深度圖。
更高級(jí)的解決方案如采埃孚與Mobileye合作研發(fā)的Tri-Cam攝像頭車輛攝像頭系統(tǒng)。舉個(gè)簡(jiǎn)單的例子,眾所周知的鷹眼能夠在約350米外發(fā)現(xiàn)小如老鼠的獵物。但是,在公路交通中,如此高的精確度帶來的更多是麻煩而不是幫助。在這種情況下,寬視野與良好分辨率的結(jié)合更為重要,尤其是與行進(jìn)方向呈直角的時(shí)候。作為采埃孚S-Cam4家族的下一代產(chǎn)品,Tri-Cam攝像頭使用了三鏡頭,專為支持高級(jí)自動(dòng)駕駛功能而設(shè)計(jì)。這款第四代攝像頭物體探測(cè)范圍和視場(chǎng)更廣,可以滿足對(duì)高級(jí)駕駛員輔助系統(tǒng)技術(shù)日益嚴(yán)格的法規(guī)要求。Tri-Cam增加了一個(gè)長(zhǎng)焦鏡頭使其傳感距離更遠(yuǎn),而魚眼鏡頭則改善了短距離探測(cè)。這樣的組合能夠更好地為自動(dòng)駕駛功能(比如高速公路駕駛輔助和交通擁堵輔助)提供支持。S-Cam4系列配置的攝像頭都配備了Mobileye的EyeQ4芯片以及物體識(shí)別算法,并結(jié)合采埃孚的橫向與縱向控制算法,進(jìn)一步增強(qiáng)了其在高級(jí)駕駛輔助系統(tǒng)和半自動(dòng)駕駛應(yīng)用中的性能。因此能夠更好地識(shí)別靠近的物體。上述傳感器系統(tǒng)與動(dòng)物界的感應(yīng)高手相比有一個(gè)重大優(yōu)勢(shì):它們不限于單一技術(shù),而是可以依靠多種集成的傳感器系統(tǒng)。雷達(dá)、激光雷達(dá)和攝像頭系統(tǒng)可以互補(bǔ)所長(zhǎng),從而覆蓋每種可以想象到的交通狀況。安裝所有這些系統(tǒng)的車輛具有360度全萬位視野。要知道,即使動(dòng)物界中具有最寬視野的記錄保持者變色龍,也“只”能夠?qū)⒀劬πD(zhuǎn)342度。盡管隆起的眼睛能夠獨(dú)立移動(dòng),這種動(dòng)物仍然有頭后18度的小小盲區(qū)。
相比單目攝像頭,雙目攝像頭的精度更高,而多目攝像頭更有過之而無不及。同時(shí),攝像頭融合得越多,對(duì)芯片的要求也更高、計(jì)算量更大,這這使得雙目乃至多目系統(tǒng)的產(chǎn)品化、小型化的難度較大,成本也顯著高于單目系統(tǒng),因此目前幣場(chǎng)上大多數(shù)視覺解決萬案仍然以單目為主。不過既然提到了多目系統(tǒng)所需要的龐大計(jì)算量,就有必要提及地平線公司了。在感知計(jì)算領(lǐng)域它們可算玩出了花,地平線面向智能駕駛,推出了征程(Journey)系列嵌入式人工智能視覺芯片,成為中國(guó)最早實(shí)現(xiàn)量產(chǎn)的人工智能芯片,該芯片具備同時(shí)對(duì)行人、機(jī)動(dòng)車、非機(jī)動(dòng)車、車道線、交通標(biāo)志牌、紅綠燈等多類目標(biāo)進(jìn)行精準(zhǔn)實(shí)時(shí)檢測(cè)與識(shí)別的處理能力,可以用于L2級(jí)別的高級(jí)駕駛輔助系統(tǒng)(ADAS)。同時(shí)地平線為之進(jìn)一步研發(fā)了Matrix自動(dòng)駕駛計(jì)算平臺(tái)。利用地平線Al加速IP最大化了嵌入式Al計(jì)算性能,可支持激光雷達(dá)、毫米波雷達(dá)的接入和多傳感器融合。以視覺感知能力為例,該平臺(tái)能夠基于稀疏化和定點(diǎn)化神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)8類不同類型物體的目標(biāo)檢測(cè)和多達(dá)25類像素級(jí)語義分割。有助于預(yù)測(cè)和深度估計(jì)的三維車輛檢測(cè),能夠更好地理解復(fù)雜場(chǎng)景,可輕松應(yīng)對(duì)高度遮擋,且需快速響應(yīng)場(chǎng)景下的自動(dòng)駕駛。而在保證高性能的前提下,其可在31W的低功耗下運(yùn)行,無需水冷系統(tǒng),滿足了高性能和低功耗的行業(yè)應(yīng)用級(jí)需求,非常適合嵌入式自動(dòng)駕駛的應(yīng)用和產(chǎn)品化。
2018年中,自動(dòng)駕駛開始回歸理性。在L4級(jí)別以上的自動(dòng)駕駛遇到了不小的技術(shù)瓶頸、市場(chǎng)前景不甚明確的當(dāng)下,以完善基于攝像頭的視覺識(shí)別技術(shù)為基礎(chǔ),結(jié)合對(duì)高精度地圖、駕駛策略方面的研究,不斷探索更高階的自動(dòng)駕駛技術(shù),不失是一種更為現(xiàn)實(shí)和理智的選擇。