李翔
摘 要:人工智能(AI)已經(jīng)成為一種熱門(mén)、一種潮流、一種趨勢(shì),各行業(yè)已經(jīng)形成了“誰(shuí)掌握AI,誰(shuí)就掌握未來(lái)”的默契。而計(jì)算機(jī)視覺(jué)(CV)作為人工智能最有力的表現(xiàn)形式,為人工智能技術(shù)的順利落地開(kāi)辟了道路。計(jì)算機(jī)視覺(jué)已廣泛應(yīng)用于醫(yī)療、安防監(jiān)控、交通、工業(yè)生產(chǎn)、互聯(lián)網(wǎng)、游戲、軍事等各個(gè)領(lǐng)域。在電子商務(wù)領(lǐng)域中,為了提高運(yùn)營(yíng)效率,提升客戶在線購(gòu)物的滿意度和體驗(yàn)度,各大電商巨頭們也不斷創(chuàng)新和變革,其中計(jì)算機(jī)視覺(jué)技術(shù)發(fā)揮了重要作用。
關(guān)鍵詞:計(jì)算機(jī)視覺(jué);電子商務(wù);人工智能;應(yīng)用
視覺(jué)對(duì)于人類(lèi)是必不可少的,同樣視覺(jué)對(duì)于計(jì)算機(jī)也是不可或缺的。但是知之非艱、行之惟艱,計(jì)算機(jī)視覺(jué)的實(shí)現(xiàn)沒(méi)有想象中那么簡(jiǎn)單,不像人類(lèi)與生俱來(lái)的本領(lǐng),它需要經(jīng)過(guò)推理、計(jì)算、建模、學(xué)習(xí)等一系列過(guò)程。經(jīng)過(guò)五六十年的努力,科學(xué)家們發(fā)揮聰明才智,計(jì)算機(jī)視覺(jué)已經(jīng)在圖像識(shí)別、分類(lèi)、檢測(cè)、分割、搜索、合成等方面取得了巨大成果。在日常生活中,人們隨處可見(jiàn)計(jì)算機(jī)視覺(jué)帶來(lái)的便利,比如指紋識(shí)別、人臉識(shí)別、掃碼支付、車(chē)輛識(shí)別、美顏照相、醫(yī)療CT和MRI等。同時(shí),在人人網(wǎng)購(gòu)的當(dāng)代,計(jì)算機(jī)視覺(jué)在電子商務(wù)領(lǐng)域的貢獻(xiàn)也是可圈可點(diǎn)。本文針對(duì)計(jì)算機(jī)視覺(jué)的相關(guān)概念及應(yīng)用展開(kāi)論述,希望對(duì)讀者有所幫助。
一、計(jì)算機(jī)視覺(jué)
1.概念
計(jì)算機(jī)視覺(jué),是對(duì)生物視覺(jué)的一種模擬,是研究讓機(jī)器如何“看”的學(xué)科,是用攝影機(jī)和計(jì)算機(jī)代替人眼對(duì)目標(biāo)進(jìn)行跟蹤、識(shí)別、分析、處理等,它的目標(biāo)和挑戰(zhàn)是具有人類(lèi)一樣的視覺(jué)來(lái)觀察和理解事物。但需要說(shuō)明的是,計(jì)算機(jī)視覺(jué)系統(tǒng)并不一定按照人類(lèi)視覺(jué)系統(tǒng)那樣來(lái)處理信息,它會(huì)根據(jù)計(jì)算機(jī)本身的特點(diǎn)來(lái)處理,比如圖像感知、圖像預(yù)處理、圖像特征提取、檢測(cè)分割等。
2.視覺(jué)理論方法的發(fā)展
幫助計(jì)算機(jī)擁有“視覺(jué)”,讓它能夠理解圖片、看懂圖片,是艱巨的、富有挑戰(zhàn)性的任務(wù)。計(jì)算機(jī)視覺(jué)歷經(jīng)五六十年的不斷更新,其方法理論的發(fā)展也是坎坷不平、好事多妨的。
計(jì)算機(jī)視覺(jué)隨著人工智能的誕生而興起,最早要追溯到19世紀(jì)60年代,美國(guó)科學(xué)家拉里·羅伯茨(Larry Roberts)提出計(jì)算機(jī)視覺(jué)識(shí)別模式與生物的識(shí)別類(lèi)似,認(rèn)為邊緣是用來(lái)描述物體形狀的最關(guān)鍵信息。20世紀(jì)70年代,出現(xiàn)了計(jì)算機(jī)視覺(jué)的代表性人物——英國(guó)的戴維·馬爾(David Marr),他提出了計(jì)算機(jī)視覺(jué)由計(jì)算理論、表達(dá)和算法、硬件實(shí)現(xiàn)三個(gè)層次組成。馬爾認(rèn)為計(jì)算理論應(yīng)該充分挖掘圖像所蘊(yùn)含的對(duì)應(yīng)物理空間的內(nèi)在屬性,運(yùn)用這些屬性來(lái)實(shí)現(xiàn)物體的三維表達(dá)。
20世紀(jì)80年代,出現(xiàn)了主動(dòng)視覺(jué)理論和定性視覺(jué)理論,這些理論認(rèn)為計(jì)算機(jī)視覺(jué)應(yīng)該是主動(dòng)的,有目的性的。同時(shí)在這個(gè)時(shí)期,偏重計(jì)算和數(shù)學(xué)的計(jì)算機(jī)視覺(jué)方法開(kāi)始發(fā)展,如圖像金字塔、Canny邊緣檢測(cè)、離散馬爾科夫隨機(jī)模型、三維距離數(shù)據(jù)處理等。20世紀(jì)90年代,計(jì)算機(jī)視覺(jué)識(shí)別、檢測(cè)、分割、分類(lèi)、跟蹤等技術(shù)蓬勃發(fā)展。
到21世紀(jì)初,計(jì)算機(jī)視覺(jué)已然是個(gè)大學(xué)科了,比較活躍發(fā)展的有計(jì)算攝影學(xué)、基于特征的識(shí)別方法等。2012年開(kāi)始,隨著ImageNet競(jìng)賽中卷積神經(jīng)網(wǎng)絡(luò)AlexNet的出現(xiàn),計(jì)算機(jī)視覺(jué)進(jìn)入了一個(gè)全新的時(shí)代。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法幾乎占領(lǐng)了計(jì)算機(jī)視覺(jué)各個(gè)領(lǐng)域,賦予了該領(lǐng)域無(wú)限生機(jī)和可能,特別是基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,發(fā)揮了重要作用。
深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征,是通過(guò)簡(jiǎn)單的概念構(gòu)建復(fù)雜的概念。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)經(jīng)典的模型之一,由輸入層、卷積層、激活層、池化層、全連接層、輸出層組成。圖像輸入后,首先經(jīng)過(guò)卷積層和激活層進(jìn)行特征提取,然后進(jìn)入池化層進(jìn)行特征統(tǒng)計(jì)和過(guò)濾,最后通過(guò)全連接層輸出結(jié)果。目前,效果較好的經(jīng)典的視覺(jué)卷積神經(jīng)網(wǎng)絡(luò)模型有2012年的AlexNet、2014年的VGGNet和GoogleNet、2015年的ResNet、2017年的SENet等,其中SENet的分類(lèi)結(jié)果top-5錯(cuò)誤率降低到了2.25%,這些模型的演變和發(fā)展,為計(jì)算機(jī)視覺(jué)帶來(lái)了全新格局。
二、計(jì)算機(jī)視覺(jué)關(guān)鍵任務(wù)和技術(shù)
計(jì)算機(jī)視覺(jué)研究分為三個(gè)層次:低層特征研究,以識(shí)別和提取內(nèi)容簡(jiǎn)單圖像中的性能特征為目標(biāo);中層語(yǔ)義特征表達(dá),除了能夠識(shí)別圖像中的對(duì)象,還需要分析、區(qū)分圖像中不同區(qū)域的語(yǔ)義信息;高層語(yǔ)義理解,能夠分析和理解復(fù)雜圖像的語(yǔ)義。
目前,計(jì)算機(jī)視覺(jué)比較熱門(mén)的關(guān)鍵任務(wù)有圖像分類(lèi)、目標(biāo)檢測(cè)、圖像分割、目標(biāo)跟蹤、圖像搜索、圖像美化、三維重建等。
1.圖像分類(lèi)
圖像分類(lèi)是計(jì)算機(jī)視覺(jué)中最基礎(chǔ)的一個(gè)任務(wù),是通過(guò)算法對(duì)輸入的圖像進(jìn)行特征提取,然后判斷并將其歸分到已知的一個(gè)類(lèi)別中。比如一張哈士奇狗的圖片,計(jì)算機(jī)通過(guò)算法將其歸到“哈士奇”類(lèi)別中,而不是藏獒等其它種類(lèi)狗,也不是其它物體類(lèi)別。目前大部分圖像分類(lèi)技術(shù)在ImageNet數(shù)據(jù)集上訓(xùn)練,ImageNet數(shù)據(jù)集有超過(guò)1400萬(wàn)的圖像,包含2萬(wàn)多個(gè)類(lèi)別,計(jì)算機(jī)的圖像分類(lèi)技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了人類(lèi)。
2.目標(biāo)檢測(cè)
目標(biāo)檢測(cè)與圖像分類(lèi)相類(lèi)似,但有區(qū)別,它們的側(cè)重點(diǎn)不同。圖像分類(lèi)側(cè)重于圖像的內(nèi)容是什么,而目標(biāo)檢測(cè)側(cè)重于圖像中特定的目標(biāo),既要識(shí)別是什么又要標(biāo)出目標(biāo)位置,包含了分類(lèi)和定位兩個(gè)子任務(wù)。比如一張有貓和狗的圖片,通過(guò)目標(biāo)檢測(cè)算法,可以識(shí)別貓?jiān)谀睦?、狗在哪里?;谏疃葘W(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)Faster-R-CNN模型,是計(jì)算機(jī)目標(biāo)檢測(cè)的經(jīng)典。
3.圖像分割
圖像分割是計(jì)算機(jī)視覺(jué)傳統(tǒng)領(lǐng)域,是以像素為單位,根據(jù)顏色和紋理等特性,對(duì)每個(gè)像素進(jìn)行分類(lèi)和劃分,將圖像劃分成不同的子區(qū)域。同樣圖像分割方法也從閾值法、水平集法、GraphCut法等等傳統(tǒng)方法轉(zhuǎn)到了深度學(xué)習(xí)法,較熱門(mén)有全卷積神經(jīng)網(wǎng)絡(luò)(FCN)、深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)等。
4.目標(biāo)跟蹤
目標(biāo)跟蹤,是對(duì)視頻或者現(xiàn)實(shí)場(chǎng)景中的對(duì)象進(jìn)行檢測(cè)和跟蹤,常應(yīng)用于視頻監(jiān)控、無(wú)人駕駛等。傳統(tǒng)的目標(biāo)跟蹤算法分為生成算法和判別算法。生成算法針對(duì)指定目標(biāo)進(jìn)行跟蹤,而判別算法考慮目標(biāo)和背景的區(qū)分來(lái)跟蹤,后者魯棒性更高。目前常用的深度學(xué)習(xí)目標(biāo)跟蹤算法有基于堆棧自編碼器(SAE)的算法、基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的算法等。
5.圖像搜索
圖像搜索是一個(gè)比較復(fù)雜的過(guò)程,常見(jiàn)的應(yīng)用平臺(tái)有Google、百度等搜索平臺(tái)以及淘寶、京東等在線購(gòu)物平臺(tái)。傳統(tǒng)的圖像搜索方法是哈希編碼,而將其結(jié)合深度學(xué)習(xí)法,可以讓圖像搜索更高效。
6.圖像美化
生活中常見(jiàn)的各種美顏、濾鏡等功能都屬于計(jì)算機(jī)圖像美化技術(shù),通過(guò)計(jì)算機(jī)視覺(jué)算法,不僅可以給圖像降噪、對(duì)比度增強(qiáng)、超分辨處理、修復(fù)瑕疵等,還可以快速制作各種風(fēng)格化效果。近幾年,基于深度學(xué)習(xí)的人臉?biāo)惴?,可以很快很穩(wěn)定地識(shí)別人臉屬性,并可以靈活編輯和轉(zhuǎn)換,諸如此類(lèi)的美顏APP風(fēng)起云涌。
7.三維重建
三維重建,是運(yùn)用一個(gè)或多個(gè)場(chǎng)景圖片或視頻來(lái)重新建立三維模型,該技術(shù)在地圖、電影、游戲等領(lǐng)域應(yīng)用廣泛。
三、計(jì)算機(jī)視覺(jué)在電子商務(wù)中的應(yīng)用
我國(guó)電子商務(wù)始于20世紀(jì)90年代初,經(jīng)過(guò)30年的發(fā)展,隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的不斷更新,它的成長(zhǎng)是迅速的,它的變革是巨大的,同時(shí)人們對(duì)電子商務(wù)的要求也隨之越來(lái)越高?!白悴怀鰬簟辟?gòu)物的便利,已經(jīng)不是電子商務(wù)在線購(gòu)物的唯一要求。在線購(gòu)物的隨時(shí)隨地性、尋找商品的快速準(zhǔn)確性、商品描述的真實(shí)性、網(wǎng)絡(luò)購(gòu)物的安全性、快遞物流的高速及時(shí)性等等,都是人們對(duì)電子商務(wù)提出的更高要求。為提高消費(fèi)者的在線購(gòu)物滿意度,計(jì)算機(jī)視覺(jué)在電子商務(wù)中的主要貢獻(xiàn)有商品識(shí)別與搜索、內(nèi)容監(jiān)管、智能快遞等。
1.商品識(shí)別與搜索
商品識(shí)別與搜索,即“以圖搜圖”,是計(jì)算機(jī)視覺(jué)在電子商務(wù)領(lǐng)域中的重要應(yīng)用。特別是在這移動(dòng)電商的時(shí)代,“以圖搜圖”極大提升了人們的購(gòu)物效率,同時(shí)也增加了商品的附加值。傳統(tǒng)的商品文字搜索,只能帶人們找到與輸入的文字描述相關(guān)的產(chǎn)品,如果文字描述不準(zhǔn)確或者跟商品設(shè)置的關(guān)鍵詞不匹配,將難以搜到自己想要的商品,即使文字描述準(zhǔn)確且與商品關(guān)鍵詞匹配,也要花一段時(shí)間才有可能找到。而運(yùn)用圖片搜索商品,就顯得方便快捷很多,消費(fèi)者通過(guò)移動(dòng)設(shè)備,將想要的商品圖片或者類(lèi)似款式圖片上傳到網(wǎng)購(gòu)平臺(tái),平臺(tái)的視覺(jué)計(jì)算功能通過(guò)提取圖片的顏色、款式、形狀等特征,為用戶快速地找到相同的或相似的商品。另外,“以圖搜圖”也增強(qiáng)了線上線下銷(xiāo)售的聯(lián)系,為消費(fèi)者提供自主購(gòu)物體驗(yàn)的同時(shí),也促進(jìn)了商家線上線下?tīng)I(yíng)銷(xiāo)模式的融合。
2.內(nèi)容監(jiān)管
電商領(lǐng)域的內(nèi)容監(jiān)管是必要的,不僅有利于維護(hù)商家和消費(fèi)者的合法利益,而且有利于保護(hù)電商平臺(tái)的生態(tài)健康。傳統(tǒng)的人工監(jiān)管工作量太大,特別是對(duì)于現(xiàn)在大規(guī)模數(shù)量商品和信息,人工監(jiān)管費(fèi)時(shí)費(fèi)力費(fèi)成本。在此,計(jì)算機(jī)視覺(jué)的識(shí)別、分類(lèi)、檢測(cè)技術(shù)就顯得非常重要、有效了。比如違規(guī)商品監(jiān)管,運(yùn)用視覺(jué)算法對(duì)易燃易爆品、涉黃低俗品、部分藥品等電商禁止銷(xiāo)售商品進(jìn)行識(shí)別、檢測(cè),就像市場(chǎng)監(jiān)督管理員一樣,對(duì)線上商品進(jìn)行嚴(yán)格高效摸排,一旦發(fā)現(xiàn)違規(guī)品,可直接下架、扣分、封店等。比如違禁詞、敏感詞監(jiān)管,有些商家會(huì)把無(wú)法加入商品標(biāo)題中的違禁詞、敏感詞放到圖片或視頻中,計(jì)算機(jī)視覺(jué)的文字識(shí)別技術(shù)可以很好地消除商家的僥幸心理。再比如重復(fù)、侵權(quán)圖片監(jiān)管,計(jì)算機(jī)視覺(jué)技術(shù)可以對(duì)電商平臺(tái)中出現(xiàn)一樣的重復(fù)的圖片進(jìn)行監(jiān)管,可以有效監(jiān)督商家盜圖行為,另外計(jì)算機(jī)視覺(jué)中常用的人臉識(shí)別技術(shù)可以發(fā)現(xiàn)商家非法使用明星臉做廣告宣傳的圖片,以此有效保護(hù)了名人明星的權(quán)益。
3.智能快遞
快遞和電子商務(wù)雖然不屬于同一行業(yè),但是它們緊密相連。電子商務(wù)從誕生之日起,就需要快遞物流的支持,快遞行業(yè)也隨著電子商務(wù)的興起和發(fā)展而有了新的機(jī)遇。然而,電商在線購(gòu)物消費(fèi)數(shù)量在日益增長(zhǎng),人們對(duì)在線購(gòu)物體驗(yàn)的要求日益提高,這就需要更高效化、智能化的快遞服務(wù)來(lái)支撐。運(yùn)用計(jì)算機(jī)視覺(jué)技術(shù),可以快速識(shí)別收寄件人信息、快遞面單號(hào)等,相比較傳統(tǒng)的手寫(xiě)面單,現(xiàn)在的電子面單更快更準(zhǔn)確。另外,基于計(jì)算機(jī)視覺(jué)的快遞分揀機(jī)器人,可以對(duì)快遞包裹進(jìn)行自動(dòng)識(shí)別、分類(lèi)、搬運(yùn)等,大大降低了人力成本和資金成本。
四、總結(jié)
21世紀(jì)是智能化的時(shí)代,各種智能產(chǎn)品和智能服務(wù)正在走進(jìn)人們生活的方方面面,其中計(jì)算機(jī)視覺(jué)技術(shù)功高不賞,特別是深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的引入,更是讓其突飛猛進(jìn)。本文介紹了計(jì)算機(jī)視覺(jué)的相關(guān)基礎(chǔ)知識(shí),以及在電子商務(wù)領(lǐng)域中的應(yīng)用,希望能幫助讀者了解計(jì)算機(jī)視覺(jué),投入到更深的研究中。
參考文獻(xiàn):
[1]李彥冬.基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺(jué)關(guān)鍵技術(shù)研究[D].電子科技大學(xué),2017.
[2]葉韻.深度學(xué)習(xí)與計(jì)算機(jī)視覺(jué):算法原理、框架應(yīng)用與代碼實(shí)現(xiàn)[M].機(jī)械工業(yè)出版社,2017.
[3]西蒙J.D.普林斯.計(jì)算機(jī)視覺(jué)模型、學(xué)習(xí)和推理[M].機(jī)械工業(yè)出版社,2019.
[4]Richard Szeliski.計(jì)算機(jī)視覺(jué)-算法與應(yīng)用[M].清華大學(xué)出版社,2012.
[5]倪晨旭.計(jì)算機(jī)視覺(jué)研究綜述[J].電子世界,2018(01):91,93.
[6]劉哲.論計(jì)算機(jī)視覺(jué)技術(shù)[J].數(shù)字化用戶,2019(08):159.
[7]汪亞楠.基于卷積神經(jīng)網(wǎng)絡(luò)的電商圖像識(shí)別研究[D].華中科技大學(xué),2018.
[8]馬雪東.基于深度學(xué)習(xí)的電商產(chǎn)品圖像識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D].北京郵電大學(xué),2017.
[9]盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016(01):1-17.
[10]鄧小桂,黃睿,何金成,蒲海波.人工智能:快遞行業(yè)創(chuàng)新發(fā)展的新路徑[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(11):101-102.
[11]林劍宏.淺析人工智能技術(shù)在電子商務(wù)領(lǐng)域中的應(yīng)用[J].中國(guó)商論,2019(01):19-20.