文/山世光 中國科學(xué)院計算技術(shù)研究所
所謂計算機(jī)視覺,是希望利用科學(xué)技術(shù)實現(xiàn)能夠類像人的視覺一般敏銳的、讓機(jī)器能夠像人一樣去“看”、去理解這個世界的視覺效果。計算機(jī)視覺包括“看”人、“看”環(huán)境等內(nèi)容,主要目的是幫助人做出更好的決策。在很多時候,我們希望AI能夠去幫助人類做一些人類不希望做、做起來比較困難的事,比如農(nóng)作物的病蟲害的自動識別監(jiān)測任務(wù)。
人具有非常強(qiáng)的視覺能力,我們可以非常容易地感覺,不費(fèi)吹灰之力就可以看清楚這個世界、理解這個世界,但其實我們大腦在接受視覺信號后是經(jīng)過非常復(fù)雜處理的,目前,我們希望讓機(jī)器也能夠完成這一復(fù)雜的處理過程,實現(xiàn)視覺智能。計算機(jī)視覺的輸入是攝像頭,攝像頭捕捉光的反射,特別是在可見光的波段里面來采樣物體對光的反射。當(dāng)然,廣義的計算機(jī)視覺不只是在可見光波段,而是更寬的光的范圍采樣。在捕捉光的反射后,向計算機(jī)系統(tǒng)的輸入是一張照片,這張照片不是我們平時看的照片,而是存儲在計算機(jī)里面的一個個的數(shù)值,每一個數(shù)值是一個象素,這些數(shù)值輸出的就是標(biāo)簽。計算機(jī)視覺的建模是輸入紅綠藍(lán)數(shù)值,輸出我們希望看到的結(jié)果。其中,淺層視覺模型,人為分成幾個步驟:一是光的預(yù)處理,二是特征設(shè)計與提取,三是特征匯聚或變換;深層級抽象視覺模型,則是在深度學(xué)習(xí)后,通過數(shù)據(jù)把任意復(fù)雜的非線性函數(shù)擬合出來,可以說是能力非凡,容量足夠大。簡而言之,計算機(jī)視覺在大數(shù)據(jù)、在深度學(xué)習(xí)的算法、在進(jìn)行大的算率的結(jié)合之下,使我們在很多領(lǐng)域?qū)崿F(xiàn)從過去靠人看到變成靠攝象頭來看的轉(zhuǎn)變。
視覺智能的應(yīng)用領(lǐng)域有以下幾個例子:
左上:場景中的文字檢測與識別技術(shù)
左下:地面目標(biāo)檢測與跟蹤技術(shù):檢測率90%以上
右下:刷臉考勤或臉控閘機(jī) (中科視拓SeetaFace系統(tǒng))
一是人臉識別,目前已經(jīng)廣泛應(yīng)用,不管是手機(jī)的登錄、付款,還是高鐵、安防領(lǐng)域,比如一個單位幾千人,就可以做到不用刷卡而是“刷”臉通過閘機(jī)、進(jìn)門。我認(rèn)為,在接下來的兩到三年時間里,會有越來越多的園區(qū)、樓宇用人臉識別來代替刷卡。
二是無人機(jī)地面目標(biāo)監(jiān)測,可以監(jiān)測地面上的車輛以及畫面中的文字等。
三是在電力行業(yè)還可以做輸電塔、輸電線上的故障識別,照片上顯示的是種植的莊稼,實際上是通過無人機(jī)飛行在檢測莊稼地里面的輸電樁。
除了以上幾點,當(dāng)前,計算機(jī)視覺還可以進(jìn)行操作規(guī)程檢查包括安全帽、雙人搬梯、無人扶梯等等。
在農(nóng)牧領(lǐng)域,計算機(jī)視覺可能應(yīng)用到動植物分類與識別、農(nóng)牧魚病害識別或產(chǎn)品品質(zhì)分類、農(nóng)作物病蟲害識別與分類等方面。我們舉辦過機(jī)器識別農(nóng)作物病害的競賽,即對圖像中的農(nóng)作物葉子進(jìn)行檢測,識別出物種、病害等等數(shù)據(jù)。此次需要處理數(shù)據(jù)集一共有61種分類,按照“物種-病害-程度”劃分,有10個物種、10類健康類別,有27種病害(共51類),其中24個病害分一般和嚴(yán)重兩種程度,共48種,3種病害未分程度。這61種不同的類別可測試樣率非常不均衡,它的識別的精度就會有非常大的差異,從人類視覺的角度來看,比如蘋果的黑星病,一般還是嚴(yán)重就不好區(qū)分。這次競賽第一名準(zhǔn)確率為90%??梢哉f,視覺智能在農(nóng)牧領(lǐng)域大有可為。
我認(rèn)為,在未來數(shù)年里面,過去主要是靠人看來處理的任務(wù)或者做決策的事,只要是人不愿意做或者沒有足夠人力去做的事情,都可以實現(xiàn)用AI來完成。
從學(xué)術(shù)前沿來講,我們通過過去大量的數(shù)據(jù)解決了很多問題,但是,深度學(xué)習(xí)使得我們陷入另外兩個泥潭。一是過去主要依靠人設(shè)計特征和函數(shù)識別做出決策,現(xiàn)在轉(zhuǎn)變成靠數(shù)據(jù)分析做出決策,數(shù)據(jù)驅(qū)動還是需要靠大量的人工進(jìn)行完成實現(xiàn),而我們希望機(jī)器能夠?qū)崿F(xiàn)自動地學(xué)習(xí)選擇;二是過去大量靠專家支持,現(xiàn)在靠大數(shù)據(jù),相比人的話,現(xiàn)在進(jìn)行大數(shù)據(jù)的智能與人類智能還存在著非常大的差距。所以,我們所謂的人工智能2.0,從計算機(jī)視覺角度來講,我們希望增加可解釋性。我們現(xiàn)在的分類系統(tǒng)可以把病蟲害分出來,但是分出來的深層次原因不得而知,同時,計算機(jī)視覺也容易受到影響,比如拍照的角度都會影響內(nèi)容的結(jié)果。
上:輸電設(shè)備與缺陷檢測
下:大田中輸電樁檢測
從方法論的角度,我們希望突破現(xiàn)在需要大規(guī)模的數(shù)據(jù)驅(qū)動AI算法和設(shè)計方法,到一種可以像人類智能一樣,去依靠知識和相對消費(fèi)者的數(shù)據(jù)來實現(xiàn)智能,這種我們稱為類人智能。從內(nèi)容角度來講,人類智能之所以能夠做到這些,是因為我們有非常強(qiáng)的觸類旁通的能力,有舉一反三的能力,吃一塹長一智的能力,以及我們可以想象等等,而計算機(jī)在這些方面的能力還是非常弱的。
當(dāng)然,目前也有一些前沿的探索,比如人工設(shè)計模型,可以自動的通過大規(guī)模的GPU卡,做長時間訓(xùn)練;可以做內(nèi)容監(jiān)督學(xué)習(xí)或者弱監(jiān)督;也可以做遷移學(xué)習(xí),比如從一種數(shù)據(jù)類型遷移到另外一種數(shù)據(jù)類型,甚至可以描述病蟲害長什么樣子。也可以進(jìn)行零樣本學(xué)習(xí)(H. Jiang, et al.ECCV2018),以斑馬為例,我們沒見過斑馬,但是可以通過對它的語義描述,從動物園里面找到斑馬。
類腦(Brain-like)非常難,卷積神經(jīng)網(wǎng)絡(luò)是受腦神經(jīng)科學(xué)啟發(fā)而設(shè)計的(MCP neuron模型,Perceptron…,Neurocognitron, Fukushima, 1980 CNN),但多數(shù)在功能層面,結(jié)構(gòu)層面的類腦進(jìn)展不明,更多腦和神經(jīng)機(jī)制不清楚,更難形成計算模型。我們現(xiàn)在發(fā)現(xiàn)不一定非要做類腦,像飛機(jī)有翅膀,但是不一定非要像鳥類一樣扇動翅膀。我們甚至認(rèn)為機(jī)器智能在很多方面一定超過人,比如之前提到的人臉識別。我們利用基于視覺的情感感知(從智商到情商)這個人的情感,他的情緒,以及他的意圖,或者感知學(xué)生在學(xué)習(xí)過程中的狀態(tài)。還可以做手勢識別,通過手勢控制機(jī)器。
總體來說,視覺智能它有非常多的需求,但是這個需求的解決其實也是五花八門的,它的不同的任務(wù)需要不同的模型設(shè)計,所以導(dǎo)致不同的任務(wù)它的解決程度也是很不一樣的,特別需要解決幾個問題,包括成本、規(guī)?;瘑栴}。從基礎(chǔ)設(shè)施來看,農(nóng)業(yè)領(lǐng)域需要從軟件基礎(chǔ)設(shè)施、智件基礎(chǔ)設(shè)施(知識識別)、硬件基礎(chǔ)設(shè)施來考慮(AI云超算服務(wù))。
總而言之,從計算機(jī)視覺角度來講,強(qiáng)監(jiān)督、大規(guī)模數(shù)據(jù)條件下的AI任務(wù)多數(shù)都是可以解決得非常好的,而弱監(jiān)督、消費(fèi)者數(shù)據(jù)條件下的AI任務(wù)還在路上,解決程度各異。從農(nóng)業(yè)落地角度來講,要想把現(xiàn)在成熟的視覺智能應(yīng)用好,關(guān)鍵在于如何解決數(shù)據(jù)收集模式,優(yōu)質(zhì)數(shù)據(jù)收集和標(biāo)注的業(yè)務(wù)模式非常重要,數(shù)據(jù)匱乏任務(wù)的解決尚需時日。