摘? 要:在通用人工智能中計算機視覺具有重要作用,主要表現(xiàn)在自動駕駛,智慧醫(yī)療和交通等方面。相比于傳統(tǒng)機器學習算法在計算機視覺中的應用效果,近年所研究的新型深度學習方法在計算機視覺研究領域取得新發(fā)展。本文主要是探討深度學習分類網絡研究及其在計算機視覺中的應用,希望能夠對相關人員起到參考性價值。
關鍵詞:深度學習;人工智能;計算機;視覺
計算機視覺簡言之即是依靠電子設備成像來代替生物視覺系統(tǒng),隨后依靠提前寫好的程序對獲取的圖像信息實施處理。該技術的短期應用目的在于完成相對簡單的智能視覺工作,而深度學習技術在計算機視覺領域的應用,在很大程度上豐富了其功能,提高了識別效率,讓其能夠在更多行業(yè)發(fā)揮出自身價值。
1 深度學習分類網絡分析
1.1 LeNet
該分類網絡是由卷積神經網絡發(fā)明人員所提出的第一個分類網絡,主要可以識別支票上的手寫數字、整個網絡主要包含七層結構,下采樣為池化層,由于池化層不具備權值參數,所以無法將其確定為計算層,這樣就導致網絡具有五層計算層。從某種程度上看,該網絡存在數個隱層。
LeNet最后一層主要采用歐式徑向基函數單元,可以對前一層激活函數的飽和問題進行限制,減少梯度消失效應。所以從某種程度上看,LeNet是首個被成功訓練的深層神經網絡,然而由于此種方法代表性比較弱,因此多數學者不認可。
1.2 AleNet
該深度學習分類網絡主要包含激活函數,局部響應歸一化和抑制過擬合、其中研究人員己經發(fā)現(xiàn)激活函數的應用優(yōu)勢,在使用激活函數的同時能夠避免梯度消失,全面提升訓練速度、局部響應歸一化特性不需要處理海量數據,以免其進入飽和區(qū)、抑制過擬合主要是對訓練數據進行擴增,平移和反轉線有訓練圖像,并且對訓練數據集進行擴充、對于后續(xù)連接中神經元連接過多以及加劇過擬合問題,可以利用隨機丟棄方式減少過擬合。
1.3 GoogLeNet
GoogLeNet設計思路是將所有連接轉化為稀疏結構,此處所提及的稀疏結構是基于Hebbin原理、該種深度學習分類網絡主要是使用龐大且稀疏的網絡表達數據集的分布情況,因此建立稀疏網絡的最佳方式在于將較高關聯(lián)性的節(jié)點進行聚類,之后將所有聚類節(jié)點連接在一起、按照此種原理展開設計就會產生GoogLeNet基礎結構。
在圖像中索選取的區(qū)域具備較高相關性的是區(qū)域周圍的像素,卷積操作可以有效連接像素。對于不同卷積核來說,其數對應的空間位置不同通道信息具有相關性、卷積核尺寸越小.不同通道信息相關性越高.能夠代表不同的感受視野。
2 深度學習在計算機視覺中的應用
2.1 深度學習在圖像分類中的應用
現(xiàn)階段比較常見的用于圖像分類的數據集是 Image Net,它包含的素材十分豐富,大約有一千五百萬張高分辨率圖像,所有的圖像又被分為兩萬多個類別。Image Net 歷年舉行圖像分類比賽,在比賽中圖像分類的算法和技術也得到逐漸的進步和提高,提高圖像分類的正確率、準確率。
具體的過程是卷積核中任一元素均可以成為權值參數,乘以輸入圖像相應區(qū)域的像素值,再將得到的每一個乘積相加,利用激活函數最終得到輸出的像素。卷積神經網絡的形式上通常表現(xiàn)為多通道特征圖的三階張量卷積操作,實際上卻是多個輸入的信號加權求和再作用于一個神經元,最后實現(xiàn)激活輸出數據的過程。
第 l 層的第 個特征圖矩陣 可能由前一層若干個特征圖卷積加權得到,一般可以表示為
其中 , 為 神 經 元 激 活 函 數 ; 代 表 輸 入 特 征 圖 的組合, 表示卷積運算, 為卷積核矩陣, 偏置矩陣。經常用到的神經元激活函數有 sigmoid 函數、tanh 函數、ReLU函數等。
2.2 深度學習在無人駕駛領域的應用
對于無人駕駛領域來說,選擇激光或雷達這類傳感器的成本更高,基于深度學習的計算機視覺技術也能夠提供新的解決方案。依靠攝像機對視頻畫面進行采集,對獲取到的圖像實施分析,提供類似于前車碰撞預警等功能。
在這一過程中,計算機視覺技術可以實現(xiàn)對目標的檢測識別、對目標車輛的跟蹤分析、對車道線是否偏離進行檢測等。基于深度學習技術的檢測識別表現(xiàn)出更加強大的優(yōu)勢,現(xiàn)階段深度學習芯片日益增多,對于無人駕駛技術的發(fā)展也帶來了更加有力的支持。
2.3 深度學習在面部識別中的應用
隨著網絡技術的不斷發(fā)展,面部識別被廣泛運用到各個領域,企業(yè)、小區(qū)在安裝面部識別系統(tǒng)后,可通過人員面部的識別以此打開大門,在一定程度上確保安全;在醫(yī)院、學校、超市等安裝攝像監(jiān)視系統(tǒng)對過往的人群進行監(jiān)視,為公安破案工作提高了效率;通過人臉自動支付識別系統(tǒng),可在安裝有人臉識別自動支付的銀行、商場等為人們帶來便捷的支付功能。
由于生理學與心理學特征與人們臉部存在變化性具有密切的聯(lián)系,所以,將人類視覺的特點與彈性建模進行相互的結合是十分有必要的,這不僅能為建立模型帶來良好的效果,而且還能在建立模型中突破剛體特性的特征帶來一定的效果。
3 深度學習在計算機視覺領域未來發(fā)展趨勢
深度學習在計算機視覺領域的應用研究已經越來越廣泛和成熟,并在更多方面取得實際的價值,其中最主要的是體現(xiàn)在商用方面,比如人臉識別技術,不僅可以用于手機等智能設備,也能用于門鎖等安全設置。
在之后的發(fā)展中,其還將被應用到工業(yè)、軍事、航空航天等高精密度的領域內,當然,只要在進步過程中成本得以下降,它也更能造福百姓的日常生活,促進生活水平的提高。
結 語
深度學習技術在計算機視覺領域中應用的終極目標是為了讓機器可以和人類一樣,觀察并讀懂世界。近年來AI技術的不斷發(fā)展與普及應用,深度學習技術必然會在計算機視覺領域中發(fā)揮出更大的價值,為現(xiàn)代人的生活和工作帶來更多便利。
參考文獻
[1]龔方生. 基于深度學習的計算機網絡數據包路由策略[J]. 網絡安全技術與應用, 2021,12(5):3-5.
[2]陳旭, 孟朝暉. 基于深度學習的目標視頻跟蹤算法綜述[J]. 計算機系統(tǒng)應用, 2019,45(6):14-16.
[3]仇秋飛, 周武源, 雷良育,等. 深度學習在機器人領域的應用進展[J]. 計算機技術與發(fā)展, 2021, 31(11):8-10.
作者簡介:馬驥、男、2001.02.08、安徽省滁州市瑯琊區(qū)、本科、西北工業(yè)大學、無,深度學習、計算機視覺。