趙佳英
(浙大寧波理工學(xué)院圖書與信息技術(shù)中心,浙江 寧波 315199)
近年來,深度學(xué)習(xí)作為機器學(xué)習(xí)領(lǐng)域的一個重要研究方向,在圖像分類和視頻分析等領(lǐng)域取得了重大的研究成果。1943 年,MCLLOCH 和PITTS 合作提出了最早的神經(jīng)網(wǎng)絡(luò)雛形MCP 模型技術(shù),對0 或1 的二值化數(shù)據(jù)輸入進行了簡單的線性加權(quán)組合。1949 年Hebb 理論提出后,計算科學(xué)家開始考慮通過調(diào)整神經(jīng)元之間的權(quán)值來進行機器學(xué)習(xí)[1]。1951 年,ROBBINS和MONRO 提出了隨機逼近算法計算梯度進行參數(shù)優(yōu)化,大大降低了計算復(fù)雜度[2]。
本文通過全連接神經(jīng)網(wǎng)絡(luò)模型和卷積神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)圖像分類技術(shù),分析模型思想和結(jié)構(gòu),通過仿真實驗訓(xùn)練研究超參數(shù)對圖像分類技術(shù)的影響;最后進行總結(jié),為今后用圖像分類技術(shù)設(shè)置參數(shù)提供參考。
20 世紀50 年代,ROSENBLATT 提出單層感知機后,在輸入層與輸出層之間由一到多個隱藏層構(gòu)成的多層感知機也應(yīng)運而生。全連接神經(jīng)網(wǎng)絡(luò)模型是一種多層感知機技術(shù),對l-1 層和l 層而言,l-1 層的任意一個節(jié)點都和第l 層所有節(jié)點有連接,但不與同一層內(nèi)的其他節(jié)點連接。假定l-1 層圖像特征為al-1,l-1 層和l 層之間的權(quán)重為w,偏置值為b,n 為節(jié)點個數(shù),m 為單個節(jié)點的特征維度,k 為類別數(shù),則有:
1989 年,LECUN 等人首次提出了“卷積”一詞,之后卷積神經(jīng)網(wǎng)絡(luò)逐漸得到了發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層、全連接層交叉堆疊而成,是一種具有局部連接和權(quán)重共享等特性的深度前饋神經(jīng)網(wǎng)絡(luò)。
1.2.1 卷積層
卷積需要定義一個二維矩陣的卷積核,再與圖像中同樣大小的子像素點矩陣進行加權(quán)和操作。利用圖像像素點存在空間依賴性的特點,卷積計算保留了圖像相鄰像素點之間的強相關(guān)性和相隔較遠的像素點之間的弱相關(guān)性。在圖像邊緣像素點填充0 解決圖像邊緣像素點的特征提取。
1.2.2 池化層
池化是對圖像指定窗口大小內(nèi)的像素點進行最值、平均值或其他操作的步驟。池化層可用于壓縮數(shù)據(jù)和參數(shù)的量,在對圖像特征進行降維和去除冗余的同時,可以一定程度加快計算速度和降低過擬合的風(fēng)險。
1.2.3 全連接層
卷積層和池化層對圖像特征進行了降維,將原始圖像特征映射到隱藏特征空間中。全連接層使用分布式特征表示方式把隱藏空間中的特征映射到具體圖像分類空間。
本文使用的圖像集為fashion-mnist,包含60 000張訓(xùn)練圖像和10 000 張測試圖像。每張圖像都是1 個28×28 像素的灰度圖像,像素值為0~255 之間的整數(shù)。此數(shù)據(jù)集標簽有10,包含T 恤、褲子、運動鞋、包等。
數(shù)據(jù)量較大時,將所有數(shù)據(jù)一次性放入網(wǎng)絡(luò)模型容易引起內(nèi)存爆炸,引入了批處理的概念。在保證學(xué)習(xí)率與動量不變的情況下,通過技術(shù)實驗,觀察全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的批處理大小對圖像分類技術(shù)的影響[3],如圖1、圖2 所示。從圖中可以看出,批處理值小時收斂較快;批處理值增大,訓(xùn)練過程出現(xiàn)了過擬合現(xiàn)象,對圖像分類技術(shù)的準確度影響較大。批處理大小對訓(xùn)練時長的影響如圖3 所示。圖中,批處理與時間復(fù)雜度呈現(xiàn)正相關(guān)關(guān)系,但在批處理大小為256 前后出現(xiàn)了波動。原因可能是當批處理值過大時,批數(shù)小,單批節(jié)點過多,計算梯度的用時增加;當批處理值小時,批數(shù)多,循環(huán)次數(shù)多,計算用時增加。
圖1 批處理大小對分類結(jié)果的影響(全連接神經(jīng)網(wǎng)絡(luò))
圖2 批處理大小對分類結(jié)果的影響(卷積神經(jīng)網(wǎng)絡(luò))
圖3 批處理大小對訓(xùn)練時長的影響
研究動量時需考慮歷史的梯度下降方向,類似物理學(xué)中的慣性。即使碰到梯度值為0 的鞍點,由于受到歷史梯度的影響,也可能會突破局部最優(yōu)點。動量對分類結(jié)果的影響如圖4 所示。0.5 和0.09 的動量值準確率高于0.9 和0.99 的動量值,且動量值為0.5 時訓(xùn)練結(jié)果較穩(wěn)定。
圖4 動量對分類結(jié)果的影響
學(xué)習(xí)率決定了梯度下降的速率,學(xué)習(xí)率越大,損失函數(shù)對參數(shù)的影響就越大,參數(shù)更新得就越快;但學(xué)習(xí)率過大時,參數(shù)更新波動也較大,如圖5 所示,學(xué)習(xí)率為0.1 時,分類效果發(fā)散或陷入了局部最優(yōu)造成震蕩。
圖5 學(xué)習(xí)率對分類結(jié)果的影響
由以上技術(shù)實驗可以得出,超參數(shù)設(shè)置會對圖像分類技術(shù)產(chǎn)生影響?,F(xiàn)采用批處理為256、動量值為0.5、學(xué)習(xí)率為0.001 的全連接模型對fashion-mnist 圖像集進行分類,圖像分類結(jié)果如圖6 所示,基本實現(xiàn)了圖像分類,且結(jié)果是正確的。
圖6 預(yù)測分類結(jié)果示意圖
本文采用全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練fashion-mnist 圖像集,利用控制變量法,研究批處理大小、動量、學(xué)習(xí)率等超參數(shù)對圖像分類技術(shù)的影響。通過技術(shù)實驗發(fā)現(xiàn),批處理大小對分類準確度、時間復(fù)雜度等方面都有一些影響,但并不是完全的正相關(guān)關(guān)系,動量使得圖像分類訓(xùn)練過程更加穩(wěn)定。當學(xué)習(xí)率過高時參數(shù)更新過快,結(jié)果波動較大;當學(xué)習(xí)率低時,收斂速度過慢。