亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Swin Transformer的交通信號燈圖像分類算法

        2022-12-21 08:24:12張緒德李康
        電子制作 2022年23期
        關(guān)鍵詞:信號燈注意力交通

        張緒德,李康

        (凱里學(xué)院,貴州凱里,556011)

        0 引言

        隨著人工智能科學(xué)的發(fā)展,智慧交通逐漸影響人們的日常出行。信號燈是智慧交通的重要組成部分,基于交通信號燈的圖像分類識別是進(jìn)行研究的基礎(chǔ)[1-2]。圖像分類采用的算法主要有基于CNN 網(wǎng)絡(luò)模型[3],CNN 網(wǎng)絡(luò)模型是由簡單神經(jīng)網(wǎng)絡(luò)發(fā)展改進(jìn)而來,相比于神經(jīng)網(wǎng)絡(luò)主要采用卷積層和池化層替代全連接層結(jié)構(gòu),卷積層能夠有效地將圖像中的各種特征提取出并生成特征圖[4],但CNN 模型學(xué)習(xí)全局特征能力不強(qiáng),為更好實(shí)現(xiàn)對信號燈圖像分類可采用基于自注意機(jī)制的深度神經(jīng)網(wǎng)絡(luò)Transformer,Transformer 模型具有多頭自注意力機(jī)制,可以通過此機(jī)制進(jìn)行特征提取,使用自注意力機(jī)制相比于CNN 模型能學(xué)習(xí)到全局特征,可以減少對外部信息的依賴,能更好的捕獲數(shù)據(jù)或特征內(nèi)部的相關(guān)性,從而提取更強(qiáng)有力的特征。

        1 Swin Transformer 算法模型

        ■1.1 Transformer 算法模型

        Transformer 模型最早是Google 在論文Attention is All you need[5]中提出,模型起初是用在進(jìn)行自然語言處理,由于模型表現(xiàn)出強(qiáng)大能力,科學(xué)工作者嘗試將Transformer 應(yīng)用于CV 領(lǐng)域中進(jìn)行處理計(jì)算機(jī)視覺相關(guān)的任務(wù),Vision Transformer 的提出首次將Transformer模型架構(gòu)用于處理圖像中的相關(guān)信息,并且取得很不錯的效果[6],在目標(biāo)檢測領(lǐng)域隨著DETR 模型出現(xiàn)首次應(yīng)用Transformer 模型[7], DETR 模型進(jìn)行檢測時采用卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加Transformer 模型的編碼器和解碼器。針對Vision Transformer 存在計(jì)算參數(shù)量大提出一種滑動窗口自注意力機(jī)制,在局部窗口進(jìn)行自注意力機(jī)制有效降低參數(shù)量,同時采用卷積神經(jīng)網(wǎng)絡(luò)思想采用層次化構(gòu)建方式堆疊Transformer 模型,Swin Transformer 模型得到迅速發(fā)展。Transformer 模型的核心是使用Self-Attention 結(jié)構(gòu)。相比于CNN 模型每次在進(jìn)行特征提取時只能提取局部特征,Transformer 模型每次可提取全局特征,同時高效的進(jìn)行并行計(jì)算。

        Transformer 模型進(jìn)行特征提取時采用多頭注意力機(jī)制,使用自注意力機(jī)制時可以提取圖像中的所有信息,可以減少對圖像中外部信息的依賴,更好捕獲圖像中相關(guān)聯(lián)信息。但對圖像分辨率比較高、像素點(diǎn)多時使用自注意力的計(jì)算會導(dǎo)致計(jì)算量較大,模型訓(xùn)練起來難度較大[8]。

        ■1.2 Swin Transformer 算法模型

        針對Transformer 模型參數(shù)量大不易訓(xùn)練,Swin Tran sformer 算法[9]模型通過采用滑窗操作、層次化構(gòu)建方式構(gòu)建Transformer,極大減少模型參數(shù)量更好實(shí)現(xiàn)輕量化目標(biāo),該模型采用移動窗口的形式計(jì)算模型的自注意力,允許進(jìn)行跨窗口連接,降低模型的復(fù)雜度提高模型的運(yùn)行效率。

        Swin Transfomer模型由窗口多頭自注意力層(W-ΜSA)、滑動窗口多頭自注意力層(SW-ΜSA)、標(biāo)準(zhǔn)化層(LN)、多層感知機(jī)(ΜLP)[10],圖1 為Swin Transfomer 的網(wǎng)絡(luò)結(jié)構(gòu)。

        圖1 Swin Transfomer 網(wǎng)絡(luò)結(jié)構(gòu)

        基于全局的自注意力計(jì)算會導(dǎo)致平方倍的復(fù)雜度,當(dāng)進(jìn)行視覺里的下游任務(wù)時尤其是密集預(yù)測型任務(wù)或者非常大尺寸的圖片時,基于全局計(jì)算自注意力的復(fù)雜度會非常的高,而Swin Transformer 則采用了窗口計(jì)算自注意力。對于圖2 中的W-ΜSA 和SW-ΜSA 是Block 的核心,當(dāng)使用普通的Μulti-head Self-Attention(ΜSA)模塊時如圖3 左側(cè)圖時需要計(jì)算每個像素與所有像素進(jìn)行運(yùn)算,對于W-ΜSA模塊如圖3 右側(cè)計(jì)算時這是將feature map 分為Μ x Μ(圖中Μ 為2)劃分為小的窗口,然后對每個窗口單獨(dú)進(jìn)行計(jì)算。

        圖2 Swin Transfomer Blocks

        圖3 MSA 模塊轉(zhuǎn)變到W—MSA 模塊

        對于采用Swin-Tiny 的結(jié)構(gòu)時,交通信號燈圖片輸入Swin Transfomer 模型首先在Patch Partition 模塊中進(jìn)行分塊,設(shè)定每4×4 相鄰的像素為Patch,在channel方向進(jìn)行展平,然后圖像經(jīng)過四個Stage構(gòu)建特征圖,其中圖像在經(jīng)過時 Stage1 中要先通過Linear Embeding 層,剩下三個stage 都要先經(jīng)過Patch Μerging 層,圖像經(jīng)過stage4 時后會經(jīng)過Layer Norm 層、全局池化層以及全連接層最后得到分類后的圖像,其中圖像經(jīng)過Swin Transfomer Block 如圖2 所示。

        對于ΜSA 和W-ΜSA 的計(jì)算量公式分別如公式1 和公式2 所示。

        h 為feature map 的高度、w 為feature map 的寬度、C 為feature map 的深度,Μ 為每個窗口的大小,通過公式對比發(fā)現(xiàn)W-ΜSA 計(jì)算量相對于ΜSA 大幅度減少。

        引入W-ΜSA 模塊是為了減少計(jì)算量,但是采用W-ΜSA模塊時,會存在像素只在每個窗口內(nèi)進(jìn)行自注意力計(jì)算,而窗口與窗口之間是無法進(jìn)行信息傳遞的。為了解決這個問題,Shifted Windows Μulti-Head Self-Attention(SW-ΜSA)模塊,將W-ΜSA 進(jìn)行偏移如圖4 所示,當(dāng)窗口發(fā)生偏移,窗口之間能進(jìn)行信息交流,SW-ΜSA 模塊有效解決不同窗口之間無法進(jìn)行信息交流的問題。

        圖4 W—MSA 模塊轉(zhuǎn)變到SW—MSA 模塊

        2 信號燈圖像分類實(shí)驗(yàn)與分析

        ■2.1 實(shí)驗(yàn)環(huán)境配置

        基于Swin Transfomer 模型進(jìn)行交通信號燈圖像分類算法采用的實(shí)驗(yàn)環(huán)境Windows10,顯卡顯存為11GB,模型訓(xùn)練時GPU 采用NVIDIA GeForce RTX 2080Ti,軟件環(huán)境選擇 pycharm 腳本編輯器,學(xué)習(xí)框架為PyTorch。

        ■2.2 交通信號燈數(shù)據(jù)集

        在進(jìn)行圖像分類識別的算法研究中,合適數(shù)據(jù)集的選取是進(jìn)行研究的基礎(chǔ),數(shù)據(jù)集選取選取應(yīng)該選取類別均衡、使用場景普及化、數(shù)據(jù)量大等優(yōu)點(diǎn)數(shù)據(jù)集選取不標(biāo)準(zhǔn)訓(xùn)練過程中容易出現(xiàn)飽和和過擬合的現(xiàn)象,會引起模型應(yīng)用范圍小,泛化能力不足等問題。根據(jù)日常所見的交通信號燈,制作數(shù)據(jù)集圖片的標(biāo)志分別為green、red、 yellow,數(shù)據(jù)集在制作時采取隨機(jī)數(shù)據(jù)增強(qiáng)的方式,將部分圖像進(jìn)行旋轉(zhuǎn)、模糊以及裁剪等操作,使用數(shù)據(jù)增強(qiáng)后數(shù)據(jù)集包含訓(xùn)練照片2400 張,其中紅燈、綠燈、黃燈圖片各800 張。驗(yàn)證照片600 張,其中紅燈、綠燈、黃燈圖片各200 張,實(shí)驗(yàn)中部分?jǐn)?shù)據(jù)集圖片如圖5 所示。

        圖5 交通信號燈圖

        ■2.3 模型訓(xùn)練

        在模型訓(xùn)時,選擇合適的學(xué)習(xí)率、優(yōu)化方式、損失函數(shù)進(jìn)行訓(xùn)練,借助不同的數(shù)據(jù)增強(qiáng)方式,可以增加模型對數(shù)據(jù)的敏感力。在進(jìn)行數(shù)據(jù)集訓(xùn)練時為加快模型收斂,需要先加載預(yù)訓(xùn)練權(quán)重,加載swin_tiny_patch4_window7_224預(yù)訓(xùn)練權(quán)重時,如當(dāng)輸入圖片為224×224×3 圖片進(jìn)行前向傳播時,圖片經(jīng)過Patch Partition 模塊后圖片變?yōu)?6×56×48,此時Patch Partition 模塊相當(dāng)于大小為4×4,步長為4 卷積塊。56×56×48 的圖像繼續(xù)前向傳播通過Linear Embeding 層對每個像素的channel 數(shù)據(jù)做線性變換,此時圖像為56×56×96,經(jīng)過stage1 時圖像為56×56×96,經(jīng)過stage2 時圖像為28×28×192,經(jīng)過stage3 時圖像為14×14×384,經(jīng)過stage4 時圖像為7×7×768,stage4 輸出值經(jīng)過Layer Norm 層、全局池化層以及全連接層最后得到分類后的結(jié)果。

        圖像在經(jīng)過四個Stage 時,除Stage1 中先通過一個Linear Embeding 層外,剩下stage 都是直接經(jīng)過Patch Μerging 層然后進(jìn)行下采樣。Swin Transformer Block 包含兩種結(jié)構(gòu),分別是W-ΜSA 結(jié)構(gòu)和SW-ΜSA 結(jié)構(gòu),這兩個結(jié)構(gòu)是成對使用的,因此堆疊Swin Transformer Block的次數(shù)是偶數(shù)。

        利用制作完成后交通信號燈數(shù)據(jù)集,進(jìn)行Swin Transfomer 模型圖像分類算法對數(shù)據(jù)集進(jìn)行模型訓(xùn)練。模型訓(xùn)練過程中分為30 個 epoch 進(jìn)行訓(xùn)練,Batchsize 設(shè)置為8,Swin Transfomer 模型的參數(shù)如表1 所示。

        訓(xùn)練時為加快模型收斂添加預(yù)訓(xùn)練權(quán)重。數(shù)據(jù)集訓(xùn)練時需要進(jìn)行不斷地調(diào)節(jié)參數(shù)是訓(xùn)練過程不斷進(jìn)行優(yōu)化,在訓(xùn)練的前期階段訓(xùn)練時采用學(xué)習(xí)率較大的量級,當(dāng)訓(xùn)練過程后期可以采用相對之前學(xué)習(xí)率較小的量級,其次當(dāng)考慮動量對訓(xùn)練過程的影響,當(dāng)對數(shù)據(jù)集訓(xùn)練達(dá)到瓶頸時修改動量以提高預(yù)測精度。在對訓(xùn)練集進(jìn)行30 次訓(xùn)練迭代后,取訓(xùn)練權(quán)重中最好的權(quán)重進(jìn)行模型的驗(yàn)證,獲得最優(yōu)的訓(xùn)練模型,訓(xùn)練過程如圖6 所示。

        圖6 Swin Transfomer 訓(xùn)練過程

        ■2.4 結(jié)果與分析

        本次研究訓(xùn)練結(jié)果的評價(jià)指標(biāo)是準(zhǔn)確率(Accuracy)進(jìn)行評價(jià),準(zhǔn)確率計(jì)算公式如下所示:

        其中,TP為被劃分為正類且判斷正確的個數(shù),TN為被劃分為負(fù)類且判斷正確個數(shù),F(xiàn)P為被劃分為正類且判斷錯誤的個數(shù),F(xiàn)N為被劃分為負(fù)類且判斷錯誤個數(shù)。

        在對交通信號燈進(jìn)行預(yù)測時,選取圖片需要考慮不同光線、不同場景、不同時間、不同角度中實(shí)際情況。在選取圖片驗(yàn)證結(jié)果時選取沒有參與數(shù)據(jù)集訓(xùn)練圖片進(jìn)行驗(yàn)證,使用Swin Transfomer模型在交通信號燈數(shù)據(jù)集進(jìn)行訓(xùn)練驗(yàn)證,交通信號燈圖像分類測試如圖7 所示。

        圖7 Swin Transfomer 圖像分類測試結(jié)果

        從測試圖7 可以看出,圖像經(jīng)過Swin Transfomer 模型訓(xùn)練后可以達(dá)到較好的效果,隨機(jī)選取紅綠燈圖像進(jìn)行驗(yàn)證,模型能很好的進(jìn)行預(yù)測。

        3 結(jié)語

        Transformer 模型最開始應(yīng)用于處理自然語言領(lǐng)域,Transformer 可以采集全集信息相比于CNN 減少對外部信息的依賴,Transfomer 模型得到極大關(guān)注。本研究基于Swin Transfomer 模型圖像分類算法,通過交通信號燈數(shù)據(jù)集選取與制作、數(shù)據(jù)集訓(xùn)練、測試結(jié)果驗(yàn)證Swin Transfomer 模型在圖像分類中有很好的應(yīng)用。但Swin Transfomer 模型在實(shí)際應(yīng)用中存在的諸多挑戰(zhàn),模型相比于CNN 更加復(fù)雜,參數(shù)量相比于CNN 中的輕量化網(wǎng)絡(luò)依然很大,部署在邊緣端任重而道遠(yuǎn)。

        猜你喜歡
        信號燈注意力交通
        讓注意力“飛”回來
        繁忙的交通
        童話世界(2020年32期)2020-12-25 02:59:14
        交通信號燈
        小小交通勸導(dǎo)員
        信號燈為什么選這三個顏色?
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        安裝在路面的交通信號燈
        華人時刊(2016年19期)2016-04-05 07:56:05
        交通信號燈控制系統(tǒng)設(shè)計(jì)
        繁忙的交通
        大灰狼(2010年5期)2010-08-24 03:21:53
        粗大的内捧猛烈进出少妇 | 高清av一区二区三区在线| 成人国产永久福利看片| 免费在线av一区二区| 中文字幕乱码亚洲无限码| 国产精品网站在线观看免费传媒| 亚洲日韩乱码中文无码蜜桃臀| 日本人妻少妇精品视频专区| 亚洲天堂一区二区精品| 国内精品少妇高潮视频| 国内精品卡一卡二卡三 | 久久人妻少妇嫩草av蜜桃| 国产区精品一区二区不卡中文| 亚洲色大网站www永久网站| 音影先锋色天堂av电影妓女久久| 亚洲综合久久中文字幕专区一区| 欧美激情肉欲高潮视频| 亚洲经典三级| 久久久高清免费视频| 日本加勒比精品一区二区视频 | 日本a级片一区二区三区| 三年片在线观看免费观看大全中国| 国产色综合天天综合网| 蜜芽尤物原创AV在线播放| 亚洲不卡在线免费视频| 国产熟妇另类久久久久| 欧美精品在线一区| 日韩人妻免费一区二区三区 | 蜜桃av抽搐高潮一区二区| 久久国产自偷自免费一区100| 日本一区二区三区在线视频观看| 老鲁夜夜老鲁| 欧美天欧美天堂aⅴ在线| 久久99久久99精品免观看女同| 亚洲成人激情深爱影院在线| 热久久美女精品天天吊色| 亚洲综合伊人制服丝袜美腿 | 最爽无遮挡行房视频| 最新国产在线精品91尤物| 天堂影院久久精品国产午夜18禁| 欧美性生交活xxxxxdddd|