關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);圖像識(shí)別;語(yǔ)義分割;自然語(yǔ)言處理
doi:10.3969/J.ISSN.1672-7274.2025.04.037
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)志碼:A 文章編碼:1672-7274(2025)04-0108-03
Abstract: With the rapid development of information technology,the scale and complexity of dataare constantly increasing.In this context, traditional machine learning algorithms face many chalenges when dealing with largescale data and complex tasks. Convolutional neural network models,as a deep learning algorithm,have emerged and rapidly developed.The article elaborates on the roles of the input layer,hidden layer,and output layer in the structure of convolutional neural network models.The article also reviews the development processof convolutional neural network models, which have gone through multiple stages,and introduces their practical appications in image recognition,semanticsgmentation,objecttracking,naturallanguage processing,intelligentrecommendationsstems, security monitoring,and agriculture.Convolutional neural network models playan importantrolein multiple felds due to their advantages,providing strong support for the intellgent development of various industries and having broad prospects for future development.
Keywords: convolutional neural network; image recognition; semanticsegmentation; natural language processing
當(dāng)前在人工智能領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)模型的發(fā)展可謂突飛猛進(jìn)。20世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,卷積神經(jīng)網(wǎng)絡(luò)逐漸興起,其能夠通過(guò)模擬生物視覺(jué)系統(tǒng),對(duì)圖像等數(shù)據(jù)進(jìn)行高效處理[1。從早期簡(jiǎn)單的結(jié)構(gòu)到如今復(fù)雜且深度的架構(gòu),卷積神經(jīng)網(wǎng)絡(luò)不斷演進(jìn),在圖像識(shí)別領(lǐng)域取得了巨大成功,其能夠準(zhǔn)確識(shí)別各種物體與場(chǎng)景,為自動(dòng)駕駛與安防監(jiān)控等提供關(guān)鍵技術(shù)支持;在醫(yī)療領(lǐng)域可輔助醫(yī)生進(jìn)行疾病診斷,如識(shí)別醫(yī)學(xué)影像中的病變;在工業(yè)檢測(cè)與自然語(yǔ)言處理等領(lǐng)域也有廣泛應(yīng)用,極大地推動(dòng)了各行業(yè)的智能化發(fā)展,成為人工智能技術(shù)的重要組成部分。
1 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
1.1輸入層
輸入層是卷積神經(jīng)網(wǎng)絡(luò)接收數(shù)據(jù)的起點(diǎn),主要作用是將原始數(shù)據(jù)傳遞給后續(xù)的網(wǎng)絡(luò)層進(jìn)行處理。在處理彩色圖像時(shí),輸入層可以是一個(gè)三維矩陣,分別對(duì)應(yīng)圖像的高度、寬度與顏色通道(如RGB三個(gè)通道)[2]。輸入層的數(shù)據(jù)格式與大小對(duì)于整個(gè)網(wǎng)絡(luò)的性能至關(guān)重要,如果輸入數(shù)據(jù)的尺寸不合適,則需要進(jìn)行裁剪與縮放或歸一化等預(yù)處理,以確保數(shù)據(jù)能夠被網(wǎng)絡(luò)有效地處理。
1.2隱含層
隱含層是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,由多個(gè)卷積層、池化層與激活函數(shù)等組成,卷積層通過(guò)卷積核與輸入數(shù)據(jù)進(jìn)行卷積操作以提取局部特征,每個(gè)卷積核在圖像上滑動(dòng),與對(duì)應(yīng)的局部區(qū)域進(jìn)行乘法與加法運(yùn)算生成特征圖,不同的卷積核可以捕捉不同的特征。池化層通常位于卷積層之后,用于降低特征圖的維度,減少計(jì)算量與過(guò)擬合的風(fēng)險(xiǎn)。常見的池化方法有最大池化與平均池化,其分別選取局部區(qū)域中的最大值或平均值作為輸出。激活函數(shù)則用于引入非線性因素,使得網(wǎng)絡(luò)能夠?qū)W習(xí)到更加復(fù)雜的特征表示。常用的激活函數(shù)有ReLU、Sigmoid和與Tanh等。
1.3輸出層
輸出層是卷積神經(jīng)網(wǎng)絡(luò)的最后一層,其作用是將隱含層提取的特征轉(zhuǎn)化為最終的輸出結(jié)果。輸出層的結(jié)構(gòu)取決于具體的任務(wù)需求。在圖像分類任務(wù)中,輸出層通常是一個(gè)全連接層,其節(jié)點(diǎn)數(shù)量與類別數(shù)量相等,每個(gè)節(jié)點(diǎn)代表一個(gè)類別的概率。網(wǎng)絡(luò)通過(guò)計(jì)算輸入圖像屬于各個(gè)類別的概率,最終確定圖像的類別標(biāo)簽。在目標(biāo)檢測(cè)任務(wù)中,輸出層可能會(huì)輸出多個(gè)邊界框與對(duì)應(yīng)的類別概率,用于定位與識(shí)別圖像中的多個(gè)目標(biāo)。輸出層的設(shè)計(jì)需要考慮任務(wù)的復(fù)雜性與數(shù)據(jù)的特點(diǎn),以確保網(wǎng)絡(luò)能夠準(zhǔn)確地輸出所需的結(jié)果,并且為了提高輸出結(jié)果的準(zhǔn)確性與可靠性,還可以采用非極大值抑制等一些后處理方法[3]。
2 卷積神經(jīng)網(wǎng)絡(luò)模型的發(fā)展歷程
2.1起源與早期探索階段(20世紀(jì)80年代及以前)
日本學(xué)者福島邦彥在1979與1980年發(fā)表的論文中提出了神經(jīng)認(rèn)知機(jī)(Neocognitron)模型,這是一個(gè)具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),其隱含層由S層(Simple-layer)與C層(Complex-layer)交替構(gòu)成,部分實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)中卷積層與池化層的功能,被認(rèn)為是啟發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的開創(chuàng)性研究[4]。
2.2初步發(fā)展階段 (20世紀(jì)90年代)
YannLeCun及其合作者構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,并在手寫數(shù)字的識(shí)別問(wèn)題中取得成功。LeNet-5沿用了隨機(jī)梯度下降的學(xué)習(xí)策略并加入了池化層對(duì)輸入特征進(jìn)行篩選,定義了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)[5]。
2.3快速發(fā)展階段 (2006年一2012年)
在深度學(xué)習(xí)理論的助推下,2006年Hinton提出無(wú)監(jiān)督的“逐層初始化”策略以降低訓(xùn)練難度并提出具有多隱層的深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN),為卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了理論基礎(chǔ)。
2.4爆發(fā)階段(2012年至今)
AlexKrizhevshy提出的AlexNet在百萬(wàn)量級(jí)的ImageNet數(shù)據(jù)集上對(duì)于圖像分類的精度大幅度超過(guò)傳統(tǒng)方法,一舉摘下了視覺(jué)領(lǐng)域競(jìng)賽ILSVRC2012的桂冠,引起了許多學(xué)者對(duì)深度學(xué)習(xí)的研究,卷積神經(jīng)網(wǎng)絡(luò)也迎來(lái)了歷史性的突破[。隨后幾年,卷積神經(jīng)網(wǎng)絡(luò)呈現(xiàn)爆發(fā)式發(fā)展,各種優(yōu)秀的模型不斷涌現(xiàn),像2013年的ZFNet、2014年的VGGNet、GoogLeNet以及2015年的ResNet等,這些模型不斷在網(wǎng)絡(luò)深度、寬度以及結(jié)構(gòu)等方面進(jìn)行創(chuàng)新與優(yōu)化,提高了模型的性能與泛化能力。
3 卷積神經(jīng)網(wǎng)絡(luò)模型的實(shí)際應(yīng)用
3.1圖像識(shí)別
圖像識(shí)別是卷積神經(jīng)網(wǎng)絡(luò)最為廣泛的應(yīng)用之一。在圖像識(shí)別中卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)大量圖像數(shù)據(jù)的學(xué)習(xí),能夠自動(dòng)提取圖像中的特征,實(shí)現(xiàn)對(duì)不同圖像類別的準(zhǔn)確識(shí)別。如在人臉識(shí)別系統(tǒng)中,卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到眼睛、鼻子、嘴巴的形狀與位置等人臉的各種特征,準(zhǔn)確地識(shí)別出不同的人。在交通標(biāo)志識(shí)別上,卷積神經(jīng)網(wǎng)絡(luò)可以識(shí)別出各種交通標(biāo)志,為自動(dòng)駕駛提供重要的信息。卷積神經(jīng)網(wǎng)絡(luò)還廣泛應(yīng)用于醫(yī)學(xué)圖像識(shí)別與工業(yè)產(chǎn)品檢測(cè)等領(lǐng)域。通過(guò)卷積操作,卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)提取局部特征,如邊緣、角點(diǎn)和紋理等,這些特征對(duì)圖像的整體識(shí)別至關(guān)重要。傳統(tǒng)的圖像處理方法往往需要手動(dòng)設(shè)計(jì)特征,而卷積神經(jīng)網(wǎng)絡(luò)則依賴于大規(guī)模的數(shù)據(jù)訓(xùn)練,能夠適應(yīng)不同的任務(wù)和數(shù)據(jù)集。池化層的引入,有效地減少了特征維度和計(jì)算復(fù)雜度,同時(shí)增強(qiáng)了模型對(duì)輸入數(shù)據(jù)微小變換(如平移、旋轉(zhuǎn)等)的魯棒性,使得模型在復(fù)雜場(chǎng)景中也能保持較高的識(shí)別精度。
3.2語(yǔ)義分割
語(yǔ)義分割是將圖像中的每個(gè)像素分配一個(gè)類別標(biāo)簽,從而實(shí)現(xiàn)對(duì)圖像的精細(xì)分割。卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)義分割中發(fā)揮了重要作用,其通過(guò)使用卷積層與池化層,提取圖像中的不同層次的特征,從而實(shí)現(xiàn)對(duì)圖像的精細(xì)分割。譬如,在自動(dòng)駕駛中,語(yǔ)義分割可以將圖像中的道路、車輛與行人等不同物體分割出來(lái),為自動(dòng)駕駛提供更加準(zhǔn)確的環(huán)境信息。在醫(yī)學(xué)圖像分析中,語(yǔ)義分割可以將醫(yī)學(xué)圖像中的不同組織與器官分割出來(lái),為醫(yī)生提供更加準(zhǔn)確的診斷信息。
3.3目標(biāo)跟蹤
目標(biāo)跟蹤是指在視頻序列中跟蹤特定的目標(biāo)。卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)跟蹤中有廣泛的應(yīng)用,其通過(guò)使用卷積層與池化層提取目標(biāo)的特征,從而實(shí)現(xiàn)對(duì)目標(biāo)的準(zhǔn)確跟蹤。如像在安防監(jiān)控中,應(yīng)用目標(biāo)跟蹤功能可以跟蹤特定的人員或車輛,為安全防范提供重要的信息。在體育比賽中,應(yīng)用目標(biāo)跟蹤功能可以跟蹤運(yùn)動(dòng)員的位置與動(dòng)作,為比賽分析提供重要的信息。
3.4自然語(yǔ)言處理
雖然卷積神經(jīng)網(wǎng)絡(luò)主要是為處理圖像數(shù)據(jù)而設(shè)計(jì)的,但它在自然語(yǔ)言處理中也得到了一定的應(yīng)用。在自然語(yǔ)言處理中,卷積神經(jīng)網(wǎng)絡(luò)可以用于文本分類、情感分析以及機(jī)器翻譯等任務(wù)。如在文本分類中,卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到文本中的特征,實(shí)現(xiàn)對(duì)不同文本類別的準(zhǔn)確分類。在情感分析中,卷積神經(jīng)網(wǎng)絡(luò)可以分析文本中的情感傾向,為企業(yè)了解用戶反饋提供重要的信息。在機(jī)器翻譯中,卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到不同語(yǔ)言之間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)更加準(zhǔn)確的翻譯[]。
3.5智能推薦系統(tǒng)領(lǐng)域的應(yīng)用
在電商領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)可以用于商品推薦,其通過(guò)分析用戶的歷史購(gòu)買記錄與瀏覽行為等數(shù)據(jù),提取出用戶的興趣特征,并根據(jù)這些特征為用戶推薦他們可能感興趣的商品。在視頻推薦方面,卷積神經(jīng)網(wǎng)絡(luò)可以根據(jù)用戶的觀看歷史、點(diǎn)贊與評(píng)論等行為數(shù)據(jù),分析用戶的興趣愛好,為用戶推薦個(gè)性化的視頻內(nèi)容。卷積神經(jīng)網(wǎng)絡(luò)還可以對(duì)視頻的內(nèi)容進(jìn)行分析,提取出主題、風(fēng)格與演員等特征,更好地為用戶推薦符合其興趣的視頻。在音樂(lè)上,卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)分析用戶的聽歌歷史、收藏與分享等行為數(shù)據(jù),了解用戶的音樂(lè)口味,為用戶推薦他們喜歡的音樂(lè)。而且卷積神經(jīng)網(wǎng)絡(luò)還可以對(duì)音樂(lè)的音頻特征進(jìn)行分析,更好地為用戶推薦符合他們音樂(lè)喜好的歌曲。
3.6安全監(jiān)控領(lǐng)域的應(yīng)用
在安防領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)可用于智能視頻監(jiān)控。通過(guò)對(duì)監(jiān)控畫面的實(shí)時(shí)分析,其能夠快速識(shí)別出異常行為與潛在的安全威脅。如在機(jī)場(chǎng)或者車站等公共場(chǎng)所,卷積神經(jīng)網(wǎng)絡(luò)可以檢測(cè)到人群中的異常聚集與奔跑等行為,及時(shí)發(fā)出警報(bào),為安全防范提供有力支持。在工業(yè)安全上,卷積神經(jīng)網(wǎng)絡(luò)可以對(duì)生產(chǎn)現(xiàn)場(chǎng)的圖像進(jìn)行分析,識(shí)別設(shè)備故障與違規(guī)操作等潛在的安全隱患。通過(guò)安裝在生產(chǎn)線上的攝像頭采集圖像數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)還能夠自動(dòng)檢測(cè)設(shè)備的運(yùn)行狀態(tài)與工人的操作行為,及時(shí)發(fā)現(xiàn)問(wèn)題并進(jìn)行預(yù)警,降低事故發(fā)生的風(fēng)險(xiǎn)[8]。
3.7農(nóng)業(yè)領(lǐng)域的應(yīng)用
在農(nóng)作物病蟲害檢測(cè)中,卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)對(duì)農(nóng)作物葉片與果實(shí)等部位的圖像進(jìn)行分析,快速準(zhǔn)確地識(shí)別出病蟲害的類型與程度。農(nóng)民或農(nóng)業(yè)技術(shù)人員可以使用配備卷積神經(jīng)網(wǎng)絡(luò)算法的手機(jī)應(yīng)用或?qū)S迷O(shè)備,對(duì)農(nóng)作物進(jìn)行定期檢測(cè),及時(shí)采取防治措施,減少病蟲害對(duì)農(nóng)作物的損害。在農(nóng)產(chǎn)品質(zhì)量檢測(cè)上,卷積神經(jīng)網(wǎng)絡(luò)可以對(duì)農(nóng)產(chǎn)品的外觀、顏色以及形狀等特征進(jìn)行分析,判斷其品質(zhì)是否符合標(biāo)準(zhǔn)。如在水果分揀過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)識(shí)別出不同品質(zhì)的水果,提高分揀效率與準(zhǔn)確性,確保消費(fèi)者能夠購(gòu)買到優(yōu)質(zhì)的農(nóng)產(chǎn)品。
結(jié)束語(yǔ)
人工智能的發(fā)展已經(jīng)成為當(dāng)今科技領(lǐng)域的重要趨勢(shì)。在人工智能的眾多分支中,深度學(xué)習(xí)以其卓越的性能引起了廣泛關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)模型作為深度學(xué)習(xí)的重要代表,在理論研究與實(shí)際應(yīng)用中都取得了顯著的成果。當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)模型在圖像識(shí)別、語(yǔ)義分割、目標(biāo)跟蹤、自然語(yǔ)言處理、智能推薦系統(tǒng)領(lǐng)域、安全監(jiān)控領(lǐng)域以及農(nóng)業(yè)領(lǐng)域等展現(xiàn)出強(qiáng)大的實(shí)力。從早期的探索到如今的廣泛應(yīng)用,其在不斷發(fā)展與創(chuàng)新。卷積神經(jīng)網(wǎng)絡(luò)模型獨(dú)特的結(jié)構(gòu)使得其能夠自動(dòng)提取特征,為各行業(yè)的智能化發(fā)展提供了有力支持。未來(lái),隨著技術(shù)的不斷進(jìn)步,卷積神經(jīng)網(wǎng)絡(luò)有望在更多領(lǐng)域發(fā)揮更大的作用,進(jìn)一步推動(dòng)人工智能的發(fā)展。
參考文獻(xiàn)
[1]林依林,林珊玲,林志賢.基于級(jí)聯(lián)特征和圖卷積的三維手部姿態(tài)估計(jì)算法[J].液晶與顯示,2022(6):736-745.
[2]張文超.基于圖神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)識(shí)別關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2022.
[3]梁曉輝,李琴.一種基于圖像序列的三維手部姿態(tài)估計(jì)與識(shí)別方法:CN202110089991.5[P].2024-10-22.
[4]林晉鋼,李東年,陳成軍,等.基于像素投票的人手全局姿態(tài)估計(jì)[J].光學(xué)精密工程,2022,30(19):2379-2389.
[5]王琦,鄭默,王詩(shī)宇,等.一種基于輕量級(jí)堆疊沙漏網(wǎng)絡(luò)的機(jī)械臂姿態(tài)估計(jì)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2022,43(11):2370-2374.
[6]劉立業(yè),蓋璇.面向智能體能檢測(cè)系統(tǒng)的三維姿態(tài)估計(jì)方法研究及應(yīng)用[J]自動(dòng)化與儀器儀表,2023(12):197-200.
[7]吳均城,王華龍,李澤輝.一種基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計(jì)的優(yōu)化方法:CN202211277156.5[P].2024-10-22.
[8]侯利康.基于Transformer模型的三維人體姿態(tài)估計(jì)算法研究[D].西安:西安理工大學(xué),2023.