亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的手寫數(shù)字圖像識別模型研究及其瀏覽器服務(wù)平臺搭建

        2022-02-19 09:19:56黃瀚宇陳焯輝肖梓勤王達灝王業(yè)哲趙志紅
        科學技術(shù)創(chuàng)新 2022年1期
        關(guān)鍵詞:數(shù)字圖像手寫圖像識別

        黃瀚宇 陳焯輝 肖梓勤 王達灝 王業(yè)哲 趙志紅*

        (北京理工大學珠海學院,廣東珠海 519088)

        1 概述

        信息技術(shù)是人類歷史上的第三次工業(yè)革命,計算機、互聯(lián)網(wǎng)、智能家居等技術(shù)的普及極大地方便了人們的日常生活。通過編程的方式,人們可以將提前設(shè)計好的交互邏輯交給機器重復(fù)且快速地執(zhí)行,從而將人們從簡單枯燥的重復(fù)勞動工作中解脫出來。但是對于需要較高智能水平的任務(wù),如人臉識別、聊天機器人、自動駕駛等任務(wù),很難設(shè)計明確的邏輯規(guī)則,傳統(tǒng)的編程方式顯得力不從心,而人工智能(Artificial Intelligence, AI)是有望解決此問題的關(guān)鍵技術(shù)。

        隨著深度學習算法的崛起,人工智能在部分任務(wù)上取得了類人甚至超人的智力水平,如圍棋上AlphaGo 智能程序已經(jīng)擊敗人類最強圍棋專家之一柯潔,在Dota2 游戲上OpenAI Five 智能程序擊敗冠軍隊伍OG,同時人臉識別、智能語音、機器翻譯等實用的技術(shù)已經(jīng)進入到人們的日常生活中?,F(xiàn)在的生活處處被人工智能所環(huán)繞,盡管目前能達到的智能水平離通用人工智能(Artificial General Intelligence, AGI)還有一段距離,但仍堅定地相信人工智能時代已經(jīng)來臨。

        本文首先收集手寫數(shù)字表格,然后用OpenCV(一個基于BSD 許可(開源)發(fā)行的跨平臺計算機視覺和機器學習軟件庫)技術(shù)制作手寫數(shù)字圖像數(shù)據(jù)集,接著用LeNet-5 模型檢測數(shù)據(jù)集的數(shù)據(jù)質(zhì)量優(yōu)劣情況,最后使用HTML 和Flask 框架搭建網(wǎng)站,再使用內(nèi)網(wǎng)穿透使外網(wǎng)用戶訪問網(wǎng)站。

        2 基于OpenCV 技術(shù)與LeNet-5 模型的手寫數(shù)字圖像識別技術(shù)

        2.1 數(shù)據(jù)收集

        首先收集100 份手寫數(shù)字表格,如圖1。

        圖1 手寫數(shù)字表格

        然后使用圖像處理中二值化、腐蝕與膨脹技術(shù)[1]去除圖像中的表格,去除表格后的圖像,如圖2。

        圖2 去除表格后的圖像

        接著使用OpenCV 技術(shù),提取每張圖片中所有數(shù)字的輪廓。至此,使用OpenCV 技術(shù)自制的手寫數(shù)字圖像數(shù)據(jù)集已完成,共10000 張手寫數(shù)字圖像。

        2.2 數(shù)據(jù)預(yù)處理

        首先使用圖像的像素值作為模型的特征,由于特征的數(shù)量級不一致,圖片像素值的范圍為[0, 255],因此需要對特征進行標準化,將原來的在[0, 255]范圍內(nèi)的特征值映射到[0,1]區(qū)間。因標簽為數(shù)字編碼,會占用較多的存儲空間,因此需將標簽轉(zhuǎn)為獨熱編碼,即One-hot 編碼。One-hot 編碼是非常稀疏的,一般在計算時,需要把離散的數(shù)字編碼轉(zhuǎn)換成One-hot 編碼。最后對數(shù)據(jù)集進行拆分,選擇80%作為訓練集,20%作為測試集。即訓練集的樣本容量為8000,測試集的樣本容量為2000。

        2.3 模型建立

        首先使用LeNet-5 模型作為手寫數(shù)字圖像識別模型,LeNet-5 是由Lecun 等[2]設(shè)計的用于識別手寫和機器打印字符的卷積神經(jīng)網(wǎng)絡(luò)[3],是首次提出的卷積- 池化- 全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。LeNet-5 共有7 層(不包括輸出層),包含卷積層、池化層和全連接層。輸入圖片的形狀為28×28×1,Convolutions 為卷積層,Subsampling 為池化層,F(xiàn)ull connection 為全連接層,Gaussian connections 為輸出層,且輸出層神經(jīng)元個數(shù)為10。

        由于手寫數(shù)字圖像識別[4]屬于多分類問題,需分別使用Softmax 與交叉熵作為輸出層的激活函數(shù)與損失函數(shù),具體如下。

        Softmax 激活函數(shù)公式:

        其中,xi為第i 張圖片的像素值,M為類別總數(shù)。

        Softmax 函數(shù)不僅可以將輸出值映射到[0, 1]區(qū)間,還滿足所有的輸出值之和為1 的特性。每個輸出值代表了當前樣本屬于每個類別的概率,且概率值之和為1。通過Softmax 函數(shù)可以將輸出層的輸出轉(zhuǎn)譯為類別概率,在分類問題中使用得非常頻繁。

        交叉熵可以很好地衡量兩個分布之間的“距離”,其損失函數(shù)公式:

        其中,c 為類別,M為類別總數(shù)。

        當Loss 為0 時,損失函數(shù)取得最小值,此時網(wǎng)絡(luò)輸出的預(yù)測值與標簽真實值完全一致,神經(jīng)網(wǎng)絡(luò)取得最優(yōu)狀態(tài)。

        2.4 模型訓練

        對LeNet-5[5]模型進行訓練,設(shè)置模型訓練的超參數(shù)如表1。

        表1 模型訓練超參數(shù)

        其中,Epoch 為模型的訓練次數(shù),此處設(shè)置訓練次數(shù)為20;Batch size 為批訓練大小,設(shè)置為128 即一次并行計算128 個樣本的數(shù)據(jù);Optimizer 為優(yōu)化器,這里選擇Adam 作為圖像類別數(shù)量預(yù)測模型的優(yōu)化器,它默認學習率(Learning rate)為0.001,是一種基于梯度的隨機目標函數(shù)優(yōu)化算法[6];Input shape 為輸入圖像的形狀,設(shè)置輸入圖像為像素大小28×28,并且通道數(shù)為3 的RGB 圖片;Validation split 為訓練集與驗證集的比例,設(shè)置為0.2 即選擇訓練集中的80%作為模型的訓練集,20%作為驗證集,即模型的訓練集的樣本容量為6400,驗證集的樣本容量為1600。

        模型訓練共20 個epoch,耗時5 秒。最終訓練集的準確率為99.60%,驗證集的準確率為98.12%。并且繪制訓練過程的損失值與準確率的變化曲線,最后保存模型。訓練過程的損失值和準確率的變化曲線如圖3。

        圖3 去除表格后的圖像

        2.5 模型評估

        將測試集放入模型中進行測試,準確率達到了98.30%,可以看出模型的預(yù)測結(jié)果較好,手寫數(shù)字圖像識別準確。首先輸出模型預(yù)測的混淆矩陣如圖4。

        圖4 混淆矩陣

        從混淆矩陣來看,混淆矩陣的理想輸出結(jié)果是主對角線上均存在非零的數(shù)字,而非主對角線上的元素均為零,由此可以看出該模型的預(yù)測效果好。

        再輸出分類報告如表2。

        表2 分類報告

        Precision1為查準率,Recall1為查全率,F(xiàn)1-score 為F1分數(shù)。

        Support1為標簽各類別的數(shù)量,它們可用于評估模型的預(yù)測效果。

        從分類報告來看,查準率和召回率得分都較高,且平均的F1-Score 達到98%,由此也能看出該模型的預(yù)測效果好。

        2.6 模型對比

        使用VGG16、VGG19、ResNet50、DenseNet169 和Dense Net201[7]共5 種深層CNN 模型架構(gòu)對手寫數(shù)字圖像數(shù)據(jù)集進行訓練。在模型訓練之前,先對上述五個模型進行介紹。VGG 系列網(wǎng)絡(luò)模型是ILSVRC14 挑戰(zhàn)賽ImageNet 數(shù)據(jù)集分類任務(wù)的亞軍牛津大學VGG 實驗室于2014 年提出的,如VGG16 與VGG19 模型。以VGG16 為例,它在ImageNet 取得了7.4%的Top-5 錯誤率,比AlexNet 在錯誤率上降低了7.9%。ResNet50 網(wǎng)絡(luò)則由微軟亞洲研究院何凱明于2015 年提出,在ILSVRC2015 挑戰(zhàn)賽ImageNet 數(shù)據(jù)集上的分類與檢測等任務(wù)上面均獲得了最好性能。而DenseNet 與ResNet 頗為相似,但是它將前面所有層的特征圖信息通過Skip Connection 與當前層輸出進行聚合,與ResNet 的對應(yīng)位置相加方式不同,DenseNet 采用在通道軸維度進行拼接操作,聚合特征信息。

        并且在更換模型訓練的過程中控制相同的超參數(shù),所有的模型都在同一環(huán)境下進行訓練,得出各個模型的得分與耗時如表3。

        表3 模型比較

        可以看出LeNet-5[8]的準確率已經(jīng)接近各種大型網(wǎng)絡(luò),并且比多個大型網(wǎng)絡(luò)的要高。另外,耗時比各種大型網(wǎng)絡(luò)的少得多。因此選用得分較高而且更加小巧的網(wǎng)絡(luò)LeNet-5 作為訓練手寫數(shù)字圖像數(shù)據(jù)集的模型。

        3 瀏覽器服務(wù)平臺搭建

        使用HTML 來構(gòu)建網(wǎng)站頁面,再使用flask 框架使網(wǎng)站運轉(zhuǎn)起來,最后使用內(nèi)網(wǎng)穿透技術(shù)來實現(xiàn)外網(wǎng)訪問網(wǎng)站。

        4 結(jié)論

        本文使用OpenCV[9]技術(shù)制作手寫數(shù)字圖片數(shù)據(jù)集,并用LeNet-5 網(wǎng)絡(luò)檢測數(shù)據(jù)集的數(shù)據(jù)質(zhì)量優(yōu)劣情況。得出自制數(shù)據(jù)集的測試集得分為98.30%,并從混淆矩陣與分類報告輸出結(jié)果中發(fā)現(xiàn),數(shù)據(jù)集是可用的。使用Flask 框架和內(nèi)網(wǎng)穿透搭建網(wǎng)站使用戶可以在網(wǎng)站上使用該模型。

        猜你喜歡
        數(shù)字圖像手寫圖像識別
        手寫比敲鍵盤更有助于學習和記憶
        我手寫我心
        抓住身邊事吾手寫吾心
        基于Resnet-50的貓狗圖像識別
        電子制作(2019年16期)2019-09-27 09:34:50
        高速公路圖像識別技術(shù)應(yīng)用探討
        圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
        電子制作(2018年19期)2018-11-14 02:37:04
        基于集成學習的MINIST手寫數(shù)字識別
        電子制作(2018年18期)2018-11-14 01:48:08
        ARGUS-100 藝術(shù)品鑒證數(shù)字圖像比對系統(tǒng)
        圖像識別在水質(zhì)檢測中的應(yīng)用
        電子制作(2018年14期)2018-08-21 01:38:16
        基于塊效應(yīng)測度的JPEG數(shù)字圖像盲取證
        亚洲在线视频免费视频| 九九精品国产99精品| 中文字幕精品乱码一二三区| 风韵犹存丰满熟妇大屁股啪啪| 又粗又硬又大又爽免费视频播放 | 国产不卡在线免费视频| 精华国产一区二区三区| 免费观看18禁无遮挡真人网站| 国产裸体歌舞一区二区| 91日本在线精品高清观看| 国产91在线播放九色快色| 免费又黄又爽又色的视频| 内射中出无码护士在线| 在线国产视频精品视频| 蜜桃在线视频一区二区| 18岁日韩内射颜射午夜久久成人| 少妇脱了内裤让我添| 精品久久久久久午夜| 最近中文字幕精品在线| 亚洲日韩激情无码一区| 亚洲av无码专区亚洲av| 免费人成视频网站在线| 亚洲国产精品中文字幕久久| 人妻少妇精品无码专区动漫| 国产欧美久久久另类精品 | 亚洲熟女少妇一区二区三区青久久| 337p日本欧洲亚洲大胆| 男女男在线精品网站免费观看| 亚洲av永久久无久之码精| 中国亚洲一区二区视频| 熟妇丰满多毛的大隂户| 欧美 亚洲 国产 日韩 综AⅤ | 亚洲av无码专区亚洲av网站| 亚洲欧美日韩精品高清| 亚洲人妻有码中文字幕| 麻豆精品国产av在线网址| 先锋影音最新色资源站| 亚洲中文无码精品久久不卡| 日本在线观看一二三区| 久久天堂综合亚洲伊人hd妓女| 国产在线手机视频|