羅術通 郝鵬
摘? 要:科學技術的進步為人們探索人工智能領域提供基礎支撐,作為人工智能領域中的重要分支,計算機視覺產(chǎn)業(yè)的發(fā)展愈發(fā)受到人們的重視。發(fā)展計算機視覺技術,可以讓人工智能具備類人似的視覺功能,目前人們對計算機視覺的研究,已經(jīng)在人臉識別、圖片識別等方面取得一定成效,并且在科學技術日益更迭的背景下,計算機視覺的應用會更為普及。本文立足于計算機視覺與人工智能發(fā)展的分析,在此基礎上闡明人工智能領域中計算機視覺技術的具體應用。
關鍵詞:計算機視覺? 發(fā)展? 神經(jīng)網(wǎng)絡? 人工智能
中圖分類號:TP393? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)12(b)-0004-03
Abstract: The progress of science and technology provides basic support for people to explore the field of AI. As an important branch in the field of AI, the development of computer vision industry has been paid more and more attention. The development of computer vision technology can make AI have human like visual function. At present, people's research on computer vision has achieved certain results in face recognition, image recognition and so on. Under the background of the increasingly changing science and technology, the application of computer vision will be more popular. Based on the analysis of the development of computer vision and AI, this paper expounds the specific application of computer vision technology in the field of AI.
Key Words: Computer vision; Development; Neural network; AI
人工智能自問世到世人皆知,期間發(fā)展年限較多,但取得的成效十分顯著。人工智能的發(fā)展不僅是推動社會進步的重要一筆,更是人類邁向智能時代的關鍵基礎。對此,進行人工智能與計算機視覺產(chǎn)業(yè)的研究具有至關重要的意義。
1? 人工智能概述
人工智能簡稱AI技術,自問世后便成為我國乃至全世界的關注焦點。隨著資本市場的進入,進一步推動人工智能的發(fā)展。自2005年到現(xiàn)在,東方財務通過數(shù)據(jù)調查統(tǒng)計表明,A股榜首為192家相關研究機構,這就意味著各大機構的研究重點紛紛轉移至人工智能產(chǎn)業(yè)。截止到目前,國內外諸多大型企業(yè)已經(jīng)著手對人工智能產(chǎn)業(yè)的布局,如阿里、騰訊、聯(lián)想、英特爾等。相關公共資料表明,2016年我國在智能硬件等相關智能領域的總投資額超過172億元[1]。
諸多學者對人工智能的發(fā)展做出預測,其中尤瓦爾·赫拉利提出,在未來發(fā)展中,人類會依托于人工智能技術來實現(xiàn)身體改造,通過對身體結構的智能改造,幫助人類掙脫出生化反應的限制。這表明未來社會中,新技術與生命科學的融合勢必會成為一大研究熱點。但是縱觀現(xiàn)階段人工智能的發(fā)展,大部分人對人工智能的應用仍缺乏認知,如何借助人工智能技術來轉變、優(yōu)化產(chǎn)業(yè)發(fā)展,是現(xiàn)階段我國社會及其產(chǎn)業(yè)發(fā)展的關注重點[2]。
2? 人工智能市場切入點分析
人工智能屬于廣義的大概念,目前我國對人工智能領域的研究已經(jīng)取得一定的成效。立足于人工智能驅動角度,現(xiàn)階段智投資、智能駕駛、智能語音識別均為該領域中熱門的研究分支。
以消費金融領域為例,在發(fā)展過程中合理引進深度學習算法、大數(shù)據(jù)技術等,可實現(xiàn)智能控制與智能風險預防。例如互聯(lián)網(wǎng)金融消費者可依托于模型與算法的應用進行風險評估,以大數(shù)據(jù)為基礎,實現(xiàn)對借款人信用風險的智能評估,達到有效防控金融風險的目的[3]。在此基礎上,借助相關智能技術可實現(xiàn)自動轉賬、數(shù)據(jù)傳輸、信用積累等功能的提供。而作為人工智能的重要分支之一,計算機視覺的應用目前已經(jīng)在多個領域取得成效。自2010年深度學習算法的問世,為計算機視覺的創(chuàng)新與優(yōu)化打下良好基礎,也為計算機視覺多領域、多產(chǎn)業(yè)的應用提供支撐。
3? 計算機視覺產(chǎn)業(yè)及其衍生品概述
盡管立足于技術分類角度上而言,機器視覺與計算機視覺屬于同一科目,但是二者存在本質區(qū)別,計算機視覺的研究重點在于軟件開發(fā),具體是進行算法的研發(fā),進而達到圖像分析的目的。而機器視覺則是軟件和硬件的綜合研究,包括算法研究、鏡頭控制設備研究、圖像采集設備研究等。并且,以不同視角去看待二者的區(qū)別,計算機視覺的側重點在于閱讀后進行分析技術的研究,而機器視覺則是以識別為任務進行操作的研究。
現(xiàn)階段我國對于計算機視覺技術的研究仍處于理論學術階段,尚無法做到對該技術的規(guī)?;?。但是因計算機視覺的研究已經(jīng)經(jīng)歷多年,所以誕生諸多高價值的技術原理與理論依據(jù),例如近幾年在計算機GPU等方面已經(jīng)開始嘗試對計算機視覺技術的應用[4]。
縱觀現(xiàn)階段該技術相關的衍生品,其中個別產(chǎn)品的研發(fā)效果顯著。如2010Kinct在微軟誕生,該技術具備擬人功能,即通過運用核心技術進行人體運動的捕捉和模擬,通過對玩家動作的模擬,實現(xiàn)玩家可通過肢體動作來與電腦互動。隨后,各大企業(yè)開始紛紛在該領域投入更多精力與資源,如蘋果、谷歌等企業(yè)開始加大對深度應用相機的研發(fā)力度。盡管各大企業(yè)對基礎應用的研究取得一定成效,且進展十分順利,但是在市場投放時屢遭困難,無法將深度視覺技術作為單一產(chǎn)品實現(xiàn)大規(guī)模投放。
再如RGBD攝像機,市面上常見攝像機類型為RGB,其功能體現(xiàn)為可見光三原色的分辨,而RGBD攝像機則可以作為常規(guī)相機的強化版,增設深度信息加工技術后可實現(xiàn)主動、被動探取,達到獲取深度圖像信息的目的。RGBD攝像機在工作時,會依據(jù)探測光發(fā)射來實現(xiàn)目標的探測,并按照接收信息來完成被動接收,無需通過發(fā)射能量來獲取目標信息[5]。分析該技術應用原理,主要是將攝像頭安設于不同的兩個位置,以圖像特征點的差異位置為依據(jù)來獲取信息。此原理類似于人眼感知,但是在實踐應用中尚存辨識度低的問題,且必須在標準光線下進行。
4? 計算機視覺研究要點分析
針對計算機視覺的研究,目前仍以圖像理解為該領域的主要研究任務,包括對視頻、單多幅等類型圖像的處理,所以計算機視覺產(chǎn)業(yè)的發(fā)展的主要服務目標也是圖像的理解與處理。
不同圖像類型的理解方式不同,其中單幅圖像的處理囊括目標檢測、場景分類、語義分割、圖像分類等;多幅圖像處理則以三維重建為主;視頻圖像理解則是以目標跟蹤為主。當然,語義分割、圖像識別等在視頻圖像理解中同樣有涉及。
(1)場景分類。
場景分類主要是對不同場景的識別,包括室內外、山地與城市、廚房或起居室等方面。
(2)目標識別。
理解時主要目標為圖像類別的確定,或者是識別圖像是否與某物體、物質、目標之間存在關聯(lián)。
(3)目標定位。
理解時對目標的位置進行精準定位,此類理解方式多應用于單個目標的理解。
(4)目標檢測。
理解時以圖像位置的確定為主要任務,在識別過程中確定目標的具體類別,從任務目標角度而言,目標檢測為目標定位、識別的綜合體[6]。
(5)語義分割。
作為圖像理解中的特殊性分類,需要在理解過程中進行圖像像素點的針對性分類,做到對每個像素點進行目標類別的精準給定。
(6)三維重建。
所謂三維重建,是指空間物體以視網(wǎng)膜成像的二維圖來進行恢復,通過將二維圖恢復成三維表面形狀來達到三維重建的目的。而在圖像理解中,三維重建則是指以單、多視圖為依據(jù)進行三維信息的重建。
(7)目標跟蹤。
主要是依據(jù)視頻圖像序列的處理與分析來完成目標跟蹤,基于復雜背景下,進行運動目標的確定,然后預測目標在運行過程中存在的規(guī)律,并以此為依據(jù)來實現(xiàn)對目標的跟蹤與檢測[7]。
5? 計算機視覺的人工智能應用場景
自深度學習問世后,計算機視覺得益于深度學習的充分應用而取得巨大進展,其分類、檢測等方面的精準性因深度學習算法的充分應用而得到提升,以此為計算機視覺技術在各個人工智能場景中的應用打下良好基礎。目前,計算機視覺在以下人工智能場景中的應用取得較好成果。
5.1 安全領域
安全領域中計算機視覺的應用,主要體現(xiàn)為智能監(jiān)控與智能身份識別等方面。目前,我國在視頻監(jiān)控網(wǎng)方面的建設遙遙領先,安設的攝像頭數(shù)量超過2000萬個,以其中的道路智能監(jiān)控網(wǎng)為例,在具備機動車、非機動車監(jiān)控功能的同時,能實現(xiàn)對行人的有效監(jiān)控,包括對行人性別、穿著、身份的識別。以Sense Video系統(tǒng)為例,該系統(tǒng)的功能齊全,包括車輛分類識別、行人監(jiān)測等,可實現(xiàn)運行期間進進行區(qū)域內行人、車輛的實時跟蹤、抓拍、檢索等,通過強大的數(shù)據(jù)分析能力,為密集高峰期的車輛識別、抓拍等提供基礎支撐。再如Face++系統(tǒng),該系統(tǒng)的主要使用場所包括火車站、機場等場合,其所具備的人臉識別功能可做到實時的大規(guī)模檢測。系統(tǒng)運行期間,可實現(xiàn)對人臉的精準識別,正確鑒別出人的年齡、性別等。與此同時,將人臉識別信息與罪犯數(shù)據(jù)庫進行比對,可以實現(xiàn)對罪犯的有效識別,為打擊犯罪事業(yè)的開展提供幫助[8]。
5.2 營銷及其娛樂領域
隨著人們對手機照相需求的不斷提高,近幾年推出各種多功能照相軟件,以“faceu美顏相機”為例,該軟件可以在照相時為人們提供豐富的貼圖、道具功能,如照相時為對象提供帽子貼圖,或者是夸張的放大對象的眼睛。而這些功能的實現(xiàn)離不開對計算機視覺的影響。通過為其提供人臉檢測、識別技術,實現(xiàn)精準識別對象五官,并在此基礎上提供貼紙、放大五官的功能。再如小米手機提供的“一人一相冊”功能,此功能主要是依據(jù)對人臉的識別來實現(xiàn)相冊分類,將云端或者是手機本地存儲的相冊進行智能分類。
此外,其他企業(yè)也依托于計算機視覺技術的應用開發(fā)出諸多趣味應用,以“How-old.net”軟件為例,首先將照片上傳于電腦中,然后利用此軟件可實現(xiàn)對對象外觀年齡的判斷。再如“微軟我們”軟件,將帶有人物的圖片上傳于電腦中,此軟件可通過人臉識別與分析,判斷人臉之間的相似性。此外,Celebslike、Fetch等軟件也通過應用計算機視覺,為人們提供豐富且趣味的功能。
而針對計算機視覺在營銷領域中的應用,以YI+為例,可以實現(xiàn)用戶的邊看邊買,再如優(yōu)酷平臺,充分利用計算機視覺,可實現(xiàn)用戶觀看電影過程中進行明星同款物品的購買?;蛘呤且罁?jù)對視頻內容的分析,智能投放相應廣告等,提升廣告投放的契合性,避免用戶在觀看電影時對廣告的投放產(chǎn)生反感[9]。
5.3 金融領域
京東錢、拉卡拉、借貸寶等軟件中均存在計算機視覺的身影,通過人臉識別技術、證件識別、身份認證等技術,進一步提升金融軟件的安全性,并為用戶提供更為智能、多元的金融服務。
6? 結語
綜上所述,目前我國對計算機視覺與人工智能領域的研究,已經(jīng)取得初步的成效與成果,人類也因人工智能的不斷發(fā)展而邁入新的紀元。對此,應繼續(xù)加大對人工智能與計算機視覺的研究力度,以期通過計算機視覺的廣泛普及來推動社會發(fā)展。
參考文獻
[1] 劉赟,周爽.人工智能與計算機視覺產(chǎn)業(yè)發(fā)展[J].現(xiàn)代商業(yè),2017(24):20-21.
[2] 王芳芳.計算機視覺在人工智能領域的應用和發(fā)展概述[J].科學與信息化,2019(27):15.
[3] 壽偉義,章正平,潘學冬,等.杭州市人工智能產(chǎn)業(yè)發(fā)展現(xiàn)狀及對策研究[J]. 杭州科技,2017(2):11-15.
[4] 黃偉.計算機視覺技術及產(chǎn)業(yè)化應用態(tài)勢分析[J]. 信息通信技術與政策,2018,291(9):66-69.
[5] 陳維維.多元智能視域中的人工智能技術發(fā)展及教育應用[J].電化教育研究,2018,39(7):12-19.
[6] 張鵬.亞信軟件應江勇:人工智能關鍵不在技術而是如何結合業(yè)務[J].通信世界,2017(31):47.
[7] 陳小亮,陳彥斌.發(fā)展人工智能的產(chǎn)業(yè)政策存在的問題與調整思路[J].人文雜志,2019(11):25-32.
[8] 胡誠,朱奧琪,李成.關于人工智能在計算機視覺及網(wǎng)絡領域中的應用[J].數(shù)字化用戶,2019,25(16):150.
[9] 盧娜,陳勁佑.人工智能時代計算機視覺中若干問題實現(xiàn)技術研究[J].數(shù)碼世界, 2020(5):9-10.