羅術(shù)通 郝鵬
摘? 要:科學(xué)技術(shù)的進步為人們探索人工智能領(lǐng)域提供基礎(chǔ)支撐,作為人工智能領(lǐng)域中的重要分支,計算機視覺產(chǎn)業(yè)的發(fā)展愈發(fā)受到人們的重視。發(fā)展計算機視覺技術(shù),可以讓人工智能具備類人似的視覺功能,目前人們對計算機視覺的研究,已經(jīng)在人臉識別、圖片識別等方面取得一定成效,并且在科學(xué)技術(shù)日益更迭的背景下,計算機視覺的應(yīng)用會更為普及。本文立足于計算機視覺與人工智能發(fā)展的分析,在此基礎(chǔ)上闡明人工智能領(lǐng)域中計算機視覺技術(shù)的具體應(yīng)用。
關(guān)鍵詞:計算機視覺? 發(fā)展? 神經(jīng)網(wǎng)絡(luò)? 人工智能
中圖分類號:TP393? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)12(b)-0004-03
Abstract: The progress of science and technology provides basic support for people to explore the field of AI. As an important branch in the field of AI, the development of computer vision industry has been paid more and more attention. The development of computer vision technology can make AI have human like visual function. At present, people's research on computer vision has achieved certain results in face recognition, image recognition and so on. Under the background of the increasingly changing science and technology, the application of computer vision will be more popular. Based on the analysis of the development of computer vision and AI, this paper expounds the specific application of computer vision technology in the field of AI.
Key Words: Computer vision; Development; Neural network; AI
人工智能自問世到世人皆知,期間發(fā)展年限較多,但取得的成效十分顯著。人工智能的發(fā)展不僅是推動社會進步的重要一筆,更是人類邁向智能時代的關(guān)鍵基礎(chǔ)。對此,進行人工智能與計算機視覺產(chǎn)業(yè)的研究具有至關(guān)重要的意義。
1? 人工智能概述
人工智能簡稱AI技術(shù),自問世后便成為我國乃至全世界的關(guān)注焦點。隨著資本市場的進入,進一步推動人工智能的發(fā)展。自2005年到現(xiàn)在,東方財務(wù)通過數(shù)據(jù)調(diào)查統(tǒng)計表明,A股榜首為192家相關(guān)研究機構(gòu),這就意味著各大機構(gòu)的研究重點紛紛轉(zhuǎn)移至人工智能產(chǎn)業(yè)。截止到目前,國內(nèi)外諸多大型企業(yè)已經(jīng)著手對人工智能產(chǎn)業(yè)的布局,如阿里、騰訊、聯(lián)想、英特爾等。相關(guān)公共資料表明,2016年我國在智能硬件等相關(guān)智能領(lǐng)域的總投資額超過172億元[1]。
諸多學(xué)者對人工智能的發(fā)展做出預(yù)測,其中尤瓦爾·赫拉利提出,在未來發(fā)展中,人類會依托于人工智能技術(shù)來實現(xiàn)身體改造,通過對身體結(jié)構(gòu)的智能改造,幫助人類掙脫出生化反應(yīng)的限制。這表明未來社會中,新技術(shù)與生命科學(xué)的融合勢必會成為一大研究熱點。但是縱觀現(xiàn)階段人工智能的發(fā)展,大部分人對人工智能的應(yīng)用仍缺乏認(rèn)知,如何借助人工智能技術(shù)來轉(zhuǎn)變、優(yōu)化產(chǎn)業(yè)發(fā)展,是現(xiàn)階段我國社會及其產(chǎn)業(yè)發(fā)展的關(guān)注重點[2]。
2? 人工智能市場切入點分析
人工智能屬于廣義的大概念,目前我國對人工智能領(lǐng)域的研究已經(jīng)取得一定的成效。立足于人工智能驅(qū)動角度,現(xiàn)階段智投資、智能駕駛、智能語音識別均為該領(lǐng)域中熱門的研究分支。
以消費金融領(lǐng)域為例,在發(fā)展過程中合理引進深度學(xué)習(xí)算法、大數(shù)據(jù)技術(shù)等,可實現(xiàn)智能控制與智能風(fēng)險預(yù)防。例如互聯(lián)網(wǎng)金融消費者可依托于模型與算法的應(yīng)用進行風(fēng)險評估,以大數(shù)據(jù)為基礎(chǔ),實現(xiàn)對借款人信用風(fēng)險的智能評估,達到有效防控金融風(fēng)險的目的[3]。在此基礎(chǔ)上,借助相關(guān)智能技術(shù)可實現(xiàn)自動轉(zhuǎn)賬、數(shù)據(jù)傳輸、信用積累等功能的提供。而作為人工智能的重要分支之一,計算機視覺的應(yīng)用目前已經(jīng)在多個領(lǐng)域取得成效。自2010年深度學(xué)習(xí)算法的問世,為計算機視覺的創(chuàng)新與優(yōu)化打下良好基礎(chǔ),也為計算機視覺多領(lǐng)域、多產(chǎn)業(yè)的應(yīng)用提供支撐。
3? 計算機視覺產(chǎn)業(yè)及其衍生品概述
盡管立足于技術(shù)分類角度上而言,機器視覺與計算機視覺屬于同一科目,但是二者存在本質(zhì)區(qū)別,計算機視覺的研究重點在于軟件開發(fā),具體是進行算法的研發(fā),進而達到圖像分析的目的。而機器視覺則是軟件和硬件的綜合研究,包括算法研究、鏡頭控制設(shè)備研究、圖像采集設(shè)備研究等。并且,以不同視角去看待二者的區(qū)別,計算機視覺的側(cè)重點在于閱讀后進行分析技術(shù)的研究,而機器視覺則是以識別為任務(wù)進行操作的研究。
現(xiàn)階段我國對于計算機視覺技術(shù)的研究仍處于理論學(xué)術(shù)階段,尚無法做到對該技術(shù)的規(guī)?;?。但是因計算機視覺的研究已經(jīng)經(jīng)歷多年,所以誕生諸多高價值的技術(shù)原理與理論依據(jù),例如近幾年在計算機GPU等方面已經(jīng)開始嘗試對計算機視覺技術(shù)的應(yīng)用[4]。
縱觀現(xiàn)階段該技術(shù)相關(guān)的衍生品,其中個別產(chǎn)品的研發(fā)效果顯著。如2010Kinct在微軟誕生,該技術(shù)具備擬人功能,即通過運用核心技術(shù)進行人體運動的捕捉和模擬,通過對玩家動作的模擬,實現(xiàn)玩家可通過肢體動作來與電腦互動。隨后,各大企業(yè)開始紛紛在該領(lǐng)域投入更多精力與資源,如蘋果、谷歌等企業(yè)開始加大對深度應(yīng)用相機的研發(fā)力度。盡管各大企業(yè)對基礎(chǔ)應(yīng)用的研究取得一定成效,且進展十分順利,但是在市場投放時屢遭困難,無法將深度視覺技術(shù)作為單一產(chǎn)品實現(xiàn)大規(guī)模投放。
再如RGBD攝像機,市面上常見攝像機類型為RGB,其功能體現(xiàn)為可見光三原色的分辨,而RGBD攝像機則可以作為常規(guī)相機的強化版,增設(shè)深度信息加工技術(shù)后可實現(xiàn)主動、被動探取,達到獲取深度圖像信息的目的。RGBD攝像機在工作時,會依據(jù)探測光發(fā)射來實現(xiàn)目標(biāo)的探測,并按照接收信息來完成被動接收,無需通過發(fā)射能量來獲取目標(biāo)信息[5]。分析該技術(shù)應(yīng)用原理,主要是將攝像頭安設(shè)于不同的兩個位置,以圖像特征點的差異位置為依據(jù)來獲取信息。此原理類似于人眼感知,但是在實踐應(yīng)用中尚存辨識度低的問題,且必須在標(biāo)準(zhǔn)光線下進行。
4? 計算機視覺研究要點分析
針對計算機視覺的研究,目前仍以圖像理解為該領(lǐng)域的主要研究任務(wù),包括對視頻、單多幅等類型圖像的處理,所以計算機視覺產(chǎn)業(yè)的發(fā)展的主要服務(wù)目標(biāo)也是圖像的理解與處理。
不同圖像類型的理解方式不同,其中單幅圖像的處理囊括目標(biāo)檢測、場景分類、語義分割、圖像分類等;多幅圖像處理則以三維重建為主;視頻圖像理解則是以目標(biāo)跟蹤為主。當(dāng)然,語義分割、圖像識別等在視頻圖像理解中同樣有涉及。
(1)場景分類。
場景分類主要是對不同場景的識別,包括室內(nèi)外、山地與城市、廚房或起居室等方面。
(2)目標(biāo)識別。
理解時主要目標(biāo)為圖像類別的確定,或者是識別圖像是否與某物體、物質(zhì)、目標(biāo)之間存在關(guān)聯(lián)。
(3)目標(biāo)定位。
理解時對目標(biāo)的位置進行精準(zhǔn)定位,此類理解方式多應(yīng)用于單個目標(biāo)的理解。
(4)目標(biāo)檢測。
理解時以圖像位置的確定為主要任務(wù),在識別過程中確定目標(biāo)的具體類別,從任務(wù)目標(biāo)角度而言,目標(biāo)檢測為目標(biāo)定位、識別的綜合體[6]。
(5)語義分割。
作為圖像理解中的特殊性分類,需要在理解過程中進行圖像像素點的針對性分類,做到對每個像素點進行目標(biāo)類別的精準(zhǔn)給定。
(6)三維重建。
所謂三維重建,是指空間物體以視網(wǎng)膜成像的二維圖來進行恢復(fù),通過將二維圖恢復(fù)成三維表面形狀來達到三維重建的目的。而在圖像理解中,三維重建則是指以單、多視圖為依據(jù)進行三維信息的重建。
(7)目標(biāo)跟蹤。
主要是依據(jù)視頻圖像序列的處理與分析來完成目標(biāo)跟蹤,基于復(fù)雜背景下,進行運動目標(biāo)的確定,然后預(yù)測目標(biāo)在運行過程中存在的規(guī)律,并以此為依據(jù)來實現(xiàn)對目標(biāo)的跟蹤與檢測[7]。
5? 計算機視覺的人工智能應(yīng)用場景
自深度學(xué)習(xí)問世后,計算機視覺得益于深度學(xué)習(xí)的充分應(yīng)用而取得巨大進展,其分類、檢測等方面的精準(zhǔn)性因深度學(xué)習(xí)算法的充分應(yīng)用而得到提升,以此為計算機視覺技術(shù)在各個人工智能場景中的應(yīng)用打下良好基礎(chǔ)。目前,計算機視覺在以下人工智能場景中的應(yīng)用取得較好成果。
5.1 安全領(lǐng)域
安全領(lǐng)域中計算機視覺的應(yīng)用,主要體現(xiàn)為智能監(jiān)控與智能身份識別等方面。目前,我國在視頻監(jiān)控網(wǎng)方面的建設(shè)遙遙領(lǐng)先,安設(shè)的攝像頭數(shù)量超過2000萬個,以其中的道路智能監(jiān)控網(wǎng)為例,在具備機動車、非機動車監(jiān)控功能的同時,能實現(xiàn)對行人的有效監(jiān)控,包括對行人性別、穿著、身份的識別。以Sense Video系統(tǒng)為例,該系統(tǒng)的功能齊全,包括車輛分類識別、行人監(jiān)測等,可實現(xiàn)運行期間進進行區(qū)域內(nèi)行人、車輛的實時跟蹤、抓拍、檢索等,通過強大的數(shù)據(jù)分析能力,為密集高峰期的車輛識別、抓拍等提供基礎(chǔ)支撐。再如Face++系統(tǒng),該系統(tǒng)的主要使用場所包括火車站、機場等場合,其所具備的人臉識別功能可做到實時的大規(guī)模檢測。系統(tǒng)運行期間,可實現(xiàn)對人臉的精準(zhǔn)識別,正確鑒別出人的年齡、性別等。與此同時,將人臉識別信息與罪犯數(shù)據(jù)庫進行比對,可以實現(xiàn)對罪犯的有效識別,為打擊犯罪事業(yè)的開展提供幫助[8]。
5.2 營銷及其娛樂領(lǐng)域
隨著人們對手機照相需求的不斷提高,近幾年推出各種多功能照相軟件,以“faceu美顏相機”為例,該軟件可以在照相時為人們提供豐富的貼圖、道具功能,如照相時為對象提供帽子貼圖,或者是夸張的放大對象的眼睛。而這些功能的實現(xiàn)離不開對計算機視覺的影響。通過為其提供人臉檢測、識別技術(shù),實現(xiàn)精準(zhǔn)識別對象五官,并在此基礎(chǔ)上提供貼紙、放大五官的功能。再如小米手機提供的“一人一相冊”功能,此功能主要是依據(jù)對人臉的識別來實現(xiàn)相冊分類,將云端或者是手機本地存儲的相冊進行智能分類。
此外,其他企業(yè)也依托于計算機視覺技術(shù)的應(yīng)用開發(fā)出諸多趣味應(yīng)用,以“How-old.net”軟件為例,首先將照片上傳于電腦中,然后利用此軟件可實現(xiàn)對對象外觀年齡的判斷。再如“微軟我們”軟件,將帶有人物的圖片上傳于電腦中,此軟件可通過人臉識別與分析,判斷人臉之間的相似性。此外,Celebslike、Fetch等軟件也通過應(yīng)用計算機視覺,為人們提供豐富且趣味的功能。
而針對計算機視覺在營銷領(lǐng)域中的應(yīng)用,以YI+為例,可以實現(xiàn)用戶的邊看邊買,再如優(yōu)酷平臺,充分利用計算機視覺,可實現(xiàn)用戶觀看電影過程中進行明星同款物品的購買?;蛘呤且罁?jù)對視頻內(nèi)容的分析,智能投放相應(yīng)廣告等,提升廣告投放的契合性,避免用戶在觀看電影時對廣告的投放產(chǎn)生反感[9]。
5.3 金融領(lǐng)域
京東錢、拉卡拉、借貸寶等軟件中均存在計算機視覺的身影,通過人臉識別技術(shù)、證件識別、身份認(rèn)證等技術(shù),進一步提升金融軟件的安全性,并為用戶提供更為智能、多元的金融服務(wù)。
6? 結(jié)語
綜上所述,目前我國對計算機視覺與人工智能領(lǐng)域的研究,已經(jīng)取得初步的成效與成果,人類也因人工智能的不斷發(fā)展而邁入新的紀(jì)元。對此,應(yīng)繼續(xù)加大對人工智能與計算機視覺的研究力度,以期通過計算機視覺的廣泛普及來推動社會發(fā)展。
參考文獻
[1] 劉赟,周爽.人工智能與計算機視覺產(chǎn)業(yè)發(fā)展[J].現(xiàn)代商業(yè),2017(24):20-21.
[2] 王芳芳.計算機視覺在人工智能領(lǐng)域的應(yīng)用和發(fā)展概述[J].科學(xué)與信息化,2019(27):15.
[3] 壽偉義,章正平,潘學(xué)冬,等.杭州市人工智能產(chǎn)業(yè)發(fā)展現(xiàn)狀及對策研究[J]. 杭州科技,2017(2):11-15.
[4] 黃偉.計算機視覺技術(shù)及產(chǎn)業(yè)化應(yīng)用態(tài)勢分析[J]. 信息通信技術(shù)與政策,2018,291(9):66-69.
[5] 陳維維.多元智能視域中的人工智能技術(shù)發(fā)展及教育應(yīng)用[J].電化教育研究,2018,39(7):12-19.
[6] 張鵬.亞信軟件應(yīng)江勇:人工智能關(guān)鍵不在技術(shù)而是如何結(jié)合業(yè)務(wù)[J].通信世界,2017(31):47.
[7] 陳小亮,陳彥斌.發(fā)展人工智能的產(chǎn)業(yè)政策存在的問題與調(diào)整思路[J].人文雜志,2019(11):25-32.
[8] 胡誠,朱奧琪,李成.關(guān)于人工智能在計算機視覺及網(wǎng)絡(luò)領(lǐng)域中的應(yīng)用[J].數(shù)字化用戶,2019,25(16):150.
[9] 盧娜,陳勁佑.人工智能時代計算機視覺中若干問題實現(xiàn)技術(shù)研究[J].數(shù)碼世界, 2020(5):9-10.