南京大學(xué)(蘇州)高新技術(shù)研究院 徐自遠(yuǎn)
人工智能是當(dāng)今科技時代的寵兒,促進(jìn)了國家與社會的快速發(fā)展,為人們的生活出行提供便利。圖像識別技術(shù)在人工智能領(lǐng)域已經(jīng)有了廣泛的應(yīng)用,如利用指紋、面部特征識別身份信息、快速搜索圖片、監(jiān)測環(huán)境等。圖形識別是在圖形特征的基礎(chǔ)之上,通過算法在互聯(lián)網(wǎng)上進(jìn)行快速識別的技術(shù)。在此背景下,文中首先簡要介紹圖片識別的基本原理,然后對網(wǎng)絡(luò)識別技術(shù)展開分析,最后重點分析了圖形識別的實現(xiàn)過程。
圖像識別,顧名思義,就是對采取到的圖片信息進(jìn)行處理,根據(jù)圖像的特征進(jìn)行識別。作為人工智能的代表技術(shù)之一,圖像識別與人們的生活息息相關(guān),包括人臉掃描、指紋識別、條碼掃描等。圖像掃描有著光明的發(fā)展前景,可以極大地提高企業(yè)的服務(wù)效率、改善人們的生活方式。因此,深入研究基于人工智能算法的圖像識別技術(shù)具有十分重要的現(xiàn)實意義。
圖像識別技術(shù),最早只能識別一些文字、數(shù)字和符號,識別對象僅限于文字印刷體和手寫文字。1965年,圖像識別發(fā)展進(jìn)入到數(shù)字圖像處理與識別階段,此時的圖像識別技術(shù)初步具備存儲、可壓縮、傳輸失真低、便于處理等優(yōu)勢。如今,圖像識別為高級計算機建立了對三維世界的感知和認(rèn)識,為人工智能的發(fā)展作出了巨大貢獻(xiàn)[1]。
圖像識別的基本原理是利用計算機軟件程序圖片進(jìn)行信息處理,由人工智能算法對圖片信息進(jìn)行特征提取,經(jīng)智能處理之后達(dá)到圖像識別的目的。圖片識別的整個過程原理較為簡單,可以將計算機看成一個人,人的眼睛可以對圖像進(jìn)行識別,人的大腦經(jīng)過分析對比可以得出眼前圖像的基本特征,并與人腦中的信息進(jìn)行對比和分析。圖像識別技術(shù)和這一過程類似,只不過該技術(shù)是讓計算機模仿人類的行為和思維,利用人工智能算法處理圖像的信息和分類,達(dá)到實現(xiàn)人工智能圖像識別的目的。然而值得一提的是,計算機提取的圖像信息和特征和人類大腦相比存在著不穩(wěn)定性,這些不穩(wěn)定因素會影響圖像識別的效率和準(zhǔn)確性,所以基于人工智能算法的圖像識別技術(shù)需要不斷地學(xué)習(xí)和訓(xùn)練來減小誤差。
神經(jīng)網(wǎng)絡(luò)圖像識別[2],是傳統(tǒng)圖形識別與網(wǎng)絡(luò)神經(jīng)算法結(jié)合的一種新型識別方式,BP神經(jīng)網(wǎng)絡(luò)算法通過模仿生物的神經(jīng)網(wǎng)絡(luò)分布進(jìn)行圖像識別,可以提高圖像識別過程的穩(wěn)定性,使得高級計算機的行為和思維更接近于人類。神經(jīng)網(wǎng)絡(luò)的圖像識別技術(shù)實現(xiàn)較為復(fù)雜,成本相對較高,但是識別效果更加精準(zhǔn)和高效。目前神經(jīng)網(wǎng)絡(luò)的圖像識別技術(shù)在各大領(lǐng)域應(yīng)用廣泛,如道路交通領(lǐng)域中的交通管理系統(tǒng)、車輛視頻安全檢測等,可以快速識別道路上行駛的車輛信息,便于交通管理。
神經(jīng)網(wǎng)絡(luò)是模擬人類的神經(jīng)元進(jìn)行數(shù)據(jù)處理,同時具備自主學(xué)習(xí)的功能。如表1所示,神經(jīng)網(wǎng)絡(luò)會在訓(xùn)練后明顯提升識別率。神經(jīng)網(wǎng)絡(luò)圖像識別技術(shù)可以識別和處理更為復(fù)雜的圖像,由于其性能卓越使得該技術(shù)的應(yīng)用成本較高。
表1 神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點數(shù)目不同時的識別結(jié)果Tab.1 Identification results of different number of hidden layer nodes in neural network
非線性降維在圖像識別技術(shù)中是常用的手段之一。計算機對復(fù)雜圖像的處理成本較高,且在計算機識別高維圖像的特性時會存在因一些外在風(fēng)險影響圖像識別的效率的準(zhǔn)確性,通過對圖像的降維技術(shù)可以有效解決這些問題。
降維是通過將高維的圖像數(shù)據(jù)轉(zhuǎn)化成高維空間中的數(shù)據(jù)集合。非線性降維的圖像識別技術(shù)可以根據(jù)一維的特征表達(dá)量進(jìn)行數(shù)據(jù)識別。理論上,線性降維的圖像識別技術(shù)具有簡單和易于理解的優(yōu)點。但是人們通過采用線性降維的方法進(jìn)行圖像識別,發(fā)現(xiàn)該技術(shù)的計算過程較為復(fù)雜、耗費空間和時間資源,不能很好地滿足各大領(lǐng)域?qū)τ趫D像識別技術(shù)的需求,于是人們便采用了非線性降維進(jìn)行圖像識別(如圖1所示)。非線性降維的圖像識別技術(shù)不僅精準(zhǔn)高效,且不存在線性降維存在的問題。以人臉識別系統(tǒng)為例,識別這種高維度的復(fù)雜圖像需經(jīng)過大量的時間進(jìn)行運算,通過非線性降維的圖像識別技術(shù)可以較好地提高人臉識別系統(tǒng)的工作效率。
圖1 非線性降維技術(shù)Fig.1 Nonlinear dimensionality reduction technique
模式識別在圖像識別方面的應(yīng)用效果非常顯著,一般多應(yīng)用于醫(yī)療行業(yè)中的器械、醫(yī)學(xué)和實驗檢測等。在模式識別的技術(shù)基礎(chǔ)上,我國研究學(xué)者提出了仿生模式識別理論,其是從數(shù)學(xué)角度進(jìn)行推理,結(jié)合圖像特征的一種圖像識別技術(shù)。以臨床醫(yī)學(xué)檢測為例,識別X射線以及核磁共振等圖像可以科學(xué)地輔助醫(yī)生完成診斷,根據(jù)圖像特征的數(shù)據(jù)情況,快速匹配病癥。
當(dāng)前,模式識別分為兩個階段:第一階段是學(xué)習(xí)階段,在此階段中,是對信息圖像進(jìn)行信息特征的采集和存儲,通過計算機將特征信息進(jìn)行分類,并根據(jù)特征規(guī)律進(jìn)行快速識別。第二階段是實現(xiàn)階段,在此階段中,通過識別程序識別圖像的特征信息,需與規(guī)定的模版完全符合,避免計算中出現(xiàn)誤差。識別模式的系統(tǒng)框圖如圖2所示。
圖2 識別模式的系統(tǒng)框圖Fig.2 System block diagram of pattern recognition
貝葉斯分析是整個機器學(xué)習(xí)的基礎(chǔ)框架[3],其以概率學(xué)理論對模式識別方法進(jìn)行推理,根據(jù)被識別圖像的特征和類型進(jìn)行觀測和學(xué)習(xí)。貝葉斯定理具有方法簡單、計算效率高等優(yōu)點,在近年來得以快速發(fā)展,并衍生出了貝葉斯分類算法,其已廣泛應(yīng)用于多個領(lǐng)域。
隨著人工智能的發(fā)展,圖像識別技術(shù)自誕生后發(fā)展愈發(fā)成熟,目前該技術(shù)具有和人腦相似的圖像識別過程,其識別過程如圖3所示。
圖3 圖像識別過程圖Fig.3 Image recognition process diagram
首先通過傳感器獲取數(shù)據(jù)信息的基本圖像。在信息數(shù)據(jù)傳遞的過程中,傳感器將聲音或光信號轉(zhuǎn)換成電信號,即完成計算機不被識別的信號轉(zhuǎn)換成可識別信號的過程。計算機在接收到信號之后與計算機內(nèi)儲存的特征數(shù)據(jù)對比,然后進(jìn)行特征提取和處理。
圖像預(yù)處理,是指圖像數(shù)據(jù)傳輸?shù)接嬎銠C內(nèi)部后的抗干擾處理過程,包括濾波、平滑、增強等。經(jīng)過抗干擾的處理過程可以排除掉圖像中不必要的干擾因素,快速提取到有效數(shù)據(jù),提升圖像識別過程的準(zhǔn)確性。
圖像特征提取是指計算機程序通過對獲取的圖像特征進(jìn)行分類、計算和處理,最后得出圖片與計算機內(nèi)部儲存相匹配的特征。特征提取是圖像識別最為重要的一個環(huán)節(jié),提取和選擇到的特征是否精準(zhǔn)將直接影響到圖像識別的匹配程度。特征提取的算法包括有卷積神經(jīng)網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、深度殘差收縮網(wǎng)絡(luò)等。
圖像匹配分類需利用有效程序制定標(biāo)準(zhǔn)的識別規(guī)則,避免盲目識別造成的數(shù)據(jù)誤差[4]。按照標(biāo)準(zhǔn)的識別規(guī)則可以突顯出相似的特征種類。對圖像匹配分類需要圖像識別過程具有很好的辨識度,不僅需要標(biāo)準(zhǔn)的識別規(guī)則,還需要設(shè)計合適的分類器。
常用的分類器有Adaboost分類器和SVM分類器。前者利用迭代的分類方法,自適應(yīng)組合精度更高的弱分類器,合成一個功能強大的分類器;后者利用二分類算法,獲取小數(shù)據(jù)集的分類精度,同時可以支持線性和非線性分類。
圖像識別技術(shù)作為科技發(fā)展的新生力量,伴隨著該技術(shù)的完善和普及,人臉識別和指紋解鎖已經(jīng)成為人們?nèi)粘VЦ逗万炞C的常規(guī)安全手段,極大提高了用戶的信息安全服務(wù)體驗,提高了大眾的生活質(zhì)量[5]。在未來,伴隨著人工智能技術(shù)水平的不斷提高,圖像識別技術(shù)也會愈發(fā)趨于完善,在各領(lǐng)域得到推廣和應(yīng)用,滿足廣大人民的生產(chǎn)、生活需求。
引用
[1] 蔣樹強,閔巍慶,王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機研究與發(fā)展,2016,53(1):113-122.
[2] 李萍,徐安林.基于BP神經(jīng)網(wǎng)絡(luò)的智能制造系統(tǒng)圖像識別技術(shù)[J].現(xiàn)代電子技術(shù),2016,39(18):107-109.
[3] 葛瑋,吳佳.關(guān)于計算機智能圖像識別的算法及技術(shù)分析[J].無線互聯(lián)技,2014(10):82.
[4] 陳波光,劉姝姝,蔡揚亞.計算機的智能化圖像識別技術(shù)的理論性突破[J].電子制作,2013(15):69.
[5] 張家怡.圖像識別的技術(shù)現(xiàn)狀和發(fā)展趨勢[J].電腦知識與技術(shù),2010,6(21):6045-6046.