伊珊
計(jì)算機(jī)視覺(jué)是一門(mén)研究計(jì)算機(jī)如何去“看”的技術(shù),是通過(guò)算法對(duì)圖像進(jìn)行識(shí)別,從而使計(jì)算機(jī)像人類(lèi)一樣甚至超越人類(lèi)去觀察和理解世界,它是人工智能領(lǐng)域的一個(gè)重要的組成部分。這幾年隨著相關(guān)硬件、算法及大數(shù)據(jù)的不斷發(fā)展,整個(gè)人工智能領(lǐng)域出現(xiàn)了井噴式發(fā)展,各大巨頭紛紛收購(gòu)視覺(jué)創(chuàng)業(yè)公司,各種新產(chǎn)品層出不窮。
生活中,每個(gè)人都問(wèn)過(guò)別人“這件衣服是從哪買(mǎi)的?”“這雙鞋是什么牌子的?”這一問(wèn)題很快會(huì)被AI技術(shù)解決,只需要拿出手機(jī)對(duì)著物品拍照,就會(huì)得到商品的各種信息,并且能一鍵買(mǎi)買(mǎi)買(mǎi)。這就是美國(guó)著名圖片社交網(wǎng)站Pinterest(拼趣)即將推出的應(yīng)用圖片識(shí)別購(gòu)買(mǎi)業(yè)務(wù)。
Pinterest總裁Tim Kendall表示,“Pinterest可以即刻在存儲(chǔ)750多億張圖片的巨大網(wǎng)絡(luò)空間內(nèi)進(jìn)行搜索,從而為用戶找到與所拍攝照片相似的配對(duì)圖片,以及查找到哪些地方能夠買(mǎi)到他們所需的商品?!?/p>
目前,Pinterest的估值已經(jīng)達(dá)到了110億美元,該公司的專(zhuān)注點(diǎn)正在向營(yíng)收增長(zhǎng)和創(chuàng)收方面轉(zhuǎn)變。相比Facebook、Twiter等社交網(wǎng)站,Pinterest已經(jīng)率先找到了一條清晰的創(chuàng)收道路。
從興趣到產(chǎn)品
亞里士多德曾經(jīng)說(shuō)過(guò),古往今來(lái)人們開(kāi)始探索,都應(yīng)起源于對(duì)自然萬(wàn)物的驚異??萍嫉倪M(jìn)步也是如此,就像微軟研發(fā)主管和項(xiàng)目負(fù)責(zé)人Mitch Goldberg所說(shuō):“我們想通過(guò)該應(yīng)用向人們展示識(shí)別技術(shù)的無(wú)限魅力?!?/p>
今年2月,微軟旗下的Garage實(shí)驗(yàn)室發(fā)布了一款名為“Fetch!”的應(yīng)用,它可通過(guò)機(jī)器學(xué)習(xí)系統(tǒng)識(shí)別照片中寵物狗的品種并用文字對(duì)該品種進(jìn)行簡(jiǎn)單的介紹。
隨著計(jì)算機(jī)視覺(jué)領(lǐng)域開(kāi)始利用深層神經(jīng)網(wǎng)絡(luò)這種模仿人類(lèi)大腦生物過(guò)程的系統(tǒng)來(lái)從事機(jī)器學(xué)習(xí),識(shí)別的精確度實(shí)現(xiàn)了巨大飛躍。也就是說(shuō)通過(guò)機(jī)器學(xué)習(xí)技術(shù),F(xiàn)etch!識(shí)別的準(zhǔn)確度會(huì)越來(lái)越高,隨著大量圖片的涌入,F(xiàn)etch! 可以自我修復(fù)錯(cuò)誤,從而更加精確地識(shí)別每一只狗的樣貌、形態(tài)、動(dòng)作。除了測(cè)試狗類(lèi)品種以外,你還可以把朋友的照片上傳至平臺(tái),看看他們能夠?qū)?yīng)出哪種寵物。
微軟的這款產(chǎn)品基于目前最為熱門(mén)的一種圖像識(shí)別技術(shù)——“深度神經(jīng)網(wǎng)絡(luò)”,同樣基于這種技術(shù),微軟還有另一款有趣的產(chǎn)品:How-Old.net。去年5月,有超過(guò)5.75億圖片被提交到How-Old.net,超過(guò)8500萬(wàn)來(lái)自世界各地的使用者訪問(wèn)了這個(gè)網(wǎng)站,只為尋找一個(gè)簡(jiǎn)單問(wèn)題的答案——顏齡機(jī)器人認(rèn)為我看起來(lái)像幾歲?如果是合照,并且顏齡機(jī)器人識(shí)別出的自己比周?chē)四挲g小,則更能引發(fā)用戶的興趣,這種“損人利己”的識(shí)別應(yīng)用著實(shí)在社交媒體上火了一把。
另一讓計(jì)算機(jī)視覺(jué)研究技術(shù)人員特別感興趣的領(lǐng)域是生物識(shí)別,當(dāng)下最為火爆的莫過(guò)于人臉識(shí)別技術(shù)了。早期的人臉識(shí)別技術(shù)多為安防領(lǐng)域,如海關(guān)識(shí)別走私犯、商店識(shí)別小偷等。近年來(lái),深度學(xué)習(xí)的研究與應(yīng)用使得人臉識(shí)別和人工智能的核心技術(shù)得到了極大的提升,攝像頭等圖像硬件的發(fā)展為人臉識(shí)別提供了很好的圖像基礎(chǔ),如今人臉識(shí)別技術(shù)應(yīng)用更加廣泛,比如公司可以使用刷臉打卡來(lái)杜絕代人打卡簽到現(xiàn)象。
其實(shí)早在2012年,谷歌就開(kāi)發(fā)出了安卓系統(tǒng)的“刷臉解鎖”技術(shù),但因安全問(wèn)題未解決,該技術(shù)一直未能得到普及。
而今年3月,電商巨頭亞馬遜提交了一項(xiàng)針購(gòu)物付費(fèi)的專(zhuān)利技術(shù),即消費(fèi)者在亞馬遜網(wǎng)站購(gòu)物時(shí)可以通過(guò)自拍或者視頻來(lái)進(jìn)行付費(fèi),無(wú)須再輸入賬號(hào)密碼。在消費(fèi)時(shí)系統(tǒng)會(huì)提示用戶表現(xiàn)出特定的行為、情緒或手勢(shì)來(lái)證明消費(fèi)者就是本人,而不是拿著照片的冒名頂替者。
亞馬遜表示,這項(xiàng)技術(shù)能使消費(fèi)者更加安全地進(jìn)行網(wǎng)上購(gòu)物,因?yàn)楹芏嘤脩魹榱耸∈聲?huì)把所有賬戶都用同一個(gè)密碼,或者把密碼記在手機(jī)里,一旦遭遇“撞庫(kù)”或者手機(jī)被盜,后果不堪設(shè)想,而刷臉技術(shù)則沒(méi)有這個(gè)風(fēng)險(xiǎn)。
除了識(shí)別人臉,在識(shí)別其他生物方面也有了突破性進(jìn)展,比如識(shí)別寄生蟲(chóng)。瘧疾,是一種由瘧原蟲(chóng)造成的全球性急性寄生蟲(chóng)傳染病,據(jù)統(tǒng)計(jì),2015年有大約有2.14億人受瘧疾的影響。
一直以來(lái),醫(yī)療工作者是通過(guò)肉眼觀察采樣玻片來(lái)確定采樣對(duì)象是否被瘧原蟲(chóng)感染,這不但是對(duì)醫(yī)療工作者經(jīng)驗(yàn)的考驗(yàn),而且工作效率也十分低下,而貧困地區(qū)一直都缺乏有經(jīng)驗(yàn)的醫(yī)療工作者。
今年2月,根據(jù)MIT Technology Review報(bào)道,Intellectual Ventures Laboratory(智能事業(yè)實(shí)驗(yàn)室)開(kāi)發(fā)出了能夠檢測(cè)和評(píng)估瘧疾感染的便攜式顯微鏡。這種顯微鏡采用的是一個(gè)名為“Autoscope”的系統(tǒng),通過(guò)計(jì)算機(jī)視覺(jué)和深度神經(jīng)網(wǎng)絡(luò)技術(shù),采用深度學(xué)習(xí)算法來(lái)鑒別瘧原蟲(chóng)。這款便攜式顯微鏡今年在泰國(guó)實(shí)地測(cè)試,成功鑒別出了 170塊玻片中的瘧原蟲(chóng)如果這項(xiàng)技術(shù)得到普及之后,只要診所有一臺(tái)Autoscope顯微鏡和一些載玻片,就可解決瘧疾的診斷問(wèn)題,這將使瘧疾診斷不再依賴(lài)于有限的專(zhuān)業(yè)醫(yī)療人員。
技術(shù)轉(zhuǎn)化為產(chǎn)品
新技術(shù)的出現(xiàn),讓計(jì)算機(jī)不但“看見(jiàn)”這個(gè)世界,更能“看懂”這個(gè)世界,可以代替人眼甚至超越人眼。
人的視野是有限的,并且會(huì)受到周邊條件的影響,駕駛員在開(kāi)車(chē)時(shí)會(huì)有視野盲區(qū),還會(huì)受到光線的影響,并且大霧、暴雨等極端天氣也會(huì)嚴(yán)重影響駕駛員的視線。而計(jì)算機(jī)視覺(jué)技術(shù)就不一樣了,視野會(huì)更開(kāi)闊,受限制更小。根據(jù)汽車(chē)媒體《Leftlane》報(bào)道,福特公司最新的無(wú)人駕駛汽車(chē)研究計(jì)劃是由激光感應(yīng)(LiDAR)和雷達(dá)、攝像頭形成一張周?chē)h(huán)境的高清3D地圖,不但讓無(wú)人駕駛汽車(chē)看到攝像頭視野范圍之外的物體,而且并不受光線限制。在夜間試駕后,福特工程師Wayne Williams說(shuō):“坐在汽車(chē)?yán)?,我能感到它在走,但是我往?chē)外看,只能看到一片漆黑。結(jié)果令人驚喜,車(chē)輛準(zhǔn)確地沿著蜿蜒的道路行駛?!?/p>
識(shí)別場(chǎng)景這一領(lǐng)域技術(shù)的發(fā)展,使得計(jì)算機(jī)不但能當(dāng)機(jī)器的眼睛,還能變成人類(lèi)的眼睛。
對(duì)于雙目失明的人來(lái)說(shuō),能親自感知這個(gè)世界是夢(mèng)寐以求的事,而微軟2016 Build開(kāi)發(fā)者大會(huì)上發(fā)布Seeing AI項(xiàng)目正是要幫助盲人實(shí)現(xiàn)這一愿望。
Seeing AI項(xiàng)目是通過(guò)計(jì)算機(jī)視覺(jué)和自然語(yǔ)言去形容一個(gè)人的周?chē)h(huán)境、朗讀文本、回答問(wèn)題以及識(shí)別人的面部表情,可以在手機(jī)上使用,也可以在Pivothead的智能眼鏡上使用。如果投入使用,將有助于為視障人士營(yíng)造更公平的環(huán)境,是一款能夠真正改變?nèi)藗兩畹漠a(chǎn)品,就像此項(xiàng)目的高級(jí)項(xiàng)目經(jīng)理Anne Taylor所說(shuō)的,這是“為真正重要的場(chǎng)景尋求解決方案”。也許不久微軟能開(kāi)發(fā)出一種仿生眼,直接發(fā)送視覺(jué)信號(hào)到大腦,讓盲人真正看到這個(gè)世界。
這項(xiàng)融合了圖像識(shí)別和自然語(yǔ)言程序的研究除了能幫助視障人士獲得準(zhǔn)確環(huán)境表述,也能幫助需要圖片信息但無(wú)法去看圖片的人們,比如正在開(kāi)車(chē)的司機(jī)。
計(jì)算機(jī)視覺(jué)研究背后的圖像識(shí)別、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等領(lǐng)域的研究已持續(xù)數(shù)十年了。近年來(lái)的一系列研究的突破讓計(jì)算機(jī)視覺(jué)研究者們實(shí)現(xiàn)了在幾年前還不敢想的事情。微軟圖像描述(Image Captioning)技術(shù)資深研究員何曉冬說(shuō):“我們今天開(kāi)發(fā)的技術(shù)比六年前好太多了,該領(lǐng)域的進(jìn)步是如此之快,不用說(shuō)六年,就是現(xiàn)在與六個(gè)月前相比都會(huì)有很多進(jìn)步?!辈贿h(yuǎn)的將來(lái),最新研究進(jìn)展都以會(huì)閃電般的速度轉(zhuǎn)化為人們可以實(shí)際使用的產(chǎn)品。