基于深度學(xué)習(xí)的到課率統(tǒng)計系統(tǒng)設(shè)計與實(shí)現(xiàn)

2024-03-12 04:07:47趙衍魯力立

現(xiàn)代教育技術(shù) 2024年2期

趙衍魯力立

摘要：到課率作為宏觀教學(xué)管理數(shù)據(jù)，對高校教學(xué)管理具有重要作用。雖然近年來出現(xiàn)了一些課率統(tǒng)計的數(shù)字化方法，解決了傳統(tǒng)到課率統(tǒng)計費(fèi)時、費(fèi)力、滯后等問題，但由于成本高、使用不方便、準(zhǔn)確率不高等原因，導(dǎo)致其無法推廣。隨著技術(shù)的發(fā)展，深度學(xué)習(xí)在多目標(biāo)檢測中的準(zhǔn)確率越來越高，有助于解決此類問題。為此，文章利用深度學(xué)習(xí)技術(shù)，設(shè)計了一種基于教室攝像頭RTSP視頻流的到課學(xué)生頭部識別的模型1MB-Plus，并將其應(yīng)用于某高校的一百余間教室的到課率統(tǒng)計中，取得了97.3%的準(zhǔn)確率。研究表明，該模型有助于解決到課率統(tǒng)計存在的問題。文章通過研究，旨在以最小的成本為高校教務(wù)管理部門提供較為準(zhǔn)確的宏觀到課率數(shù)據(jù)，輔助學(xué)校的教學(xué)管理工作。

關(guān)鍵詞：到課率統(tǒng)計；機(jī)器學(xué)習(xí)；模式識別；擁擠人群計數(shù)；頭部檢測

【中圖分類號】G40-057 【文獻(xiàn)標(biāo)識碼】A 【論文編號】1009—8097（2024）02—0108—10 【DOI】10.3969/j.issn.1009-8097.2024.02.012

在高校教學(xué)管理中，到課率是一個能綜合反映教學(xué)管理水平、學(xué)風(fēng)和教學(xué)質(zhì)量的重要指標(biāo)，根據(jù)到課率數(shù)據(jù)，院系和學(xué)校教務(wù)管理部門可以整體把握教學(xué)情況，以進(jìn)行更好的教學(xué)管理。傳統(tǒng)的到課率統(tǒng)計方法主要包括課堂點(diǎn)名和課后統(tǒng)計，然而這兩種方法的效率都非常低下，雖然近年來業(yè)內(nèi)先后出現(xiàn)了通過紅外、藍(lán)牙、無線射頻標(biāo)簽、二維碼、WiFi、指紋識別、人臉識別等多種到課率統(tǒng)計的方法，但都存在各種各樣的問題，導(dǎo)致其無法得到大規(guī)模推廣。因此，在大學(xué)教學(xué)管理中，迫切需要一種能夠基于現(xiàn)有條件，便捷、高效、低成本、準(zhǔn)確地統(tǒng)計到課率的方法。當(dāng)前，深度學(xué)習(xí)在多目標(biāo)檢測中的準(zhǔn)確率越來越高，而隨著我國各高校標(biāo)準(zhǔn)化考場和智慧教室建設(shè)進(jìn)程的加快，很多大學(xué)教室中都安裝了能夠覆蓋整個教室場景的攝像頭，如果能夠利用這些攝像頭，結(jié)合深度學(xué)習(xí)技術(shù)構(gòu)建到課人數(shù)統(tǒng)計模型，或許有助于提升到課率的統(tǒng)計效率和精確度。為此，本研究嘗試基于深度學(xué)習(xí)框架試構(gòu)建到課人數(shù)統(tǒng)計模型，并用標(biāo)注過的教室照片對模型進(jìn)行深度學(xué)習(xí)，將訓(xùn)練好的模型部署在生產(chǎn)環(huán)境中，通過對接課表、教師基本信息等數(shù)據(jù)，生成不同維度的到課率統(tǒng)計數(shù)據(jù)。

一研究現(xiàn)狀

到課人數(shù)統(tǒng)計模型主要是利用教室中的攝像頭所采集到的視頻幀進(jìn)行人頭部檢測，從而識別教室中的人數(shù)。而教室內(nèi)的人頭部檢測是一個典型的擁擠場景下的人群計數(shù)（Crowd Counting）問題。擁擠場景下的人群計數(shù)是計算機(jī)視覺研究領(lǐng)域的一個經(jīng)典問題，主要實(shí)現(xiàn)手段有基于熱力圖的人群密度檢測（DenseCrowd Counting）和基于頭部檢測（Head Counting）的人數(shù)統(tǒng)計兩種，其中基于頭部檢測的人數(shù)統(tǒng)計方法具有更好的參考價值和應(yīng)用場景[1]。早期的人群計數(shù)研究主要基于檢測的方法和回歸的方法來實(shí)現(xiàn)，而從2015年開始，卷積神經(jīng)網(wǎng)絡(luò)（CNN）被引入人群計數(shù)研究。鑒于CNN在機(jī)器學(xué)習(xí)領(lǐng)域的良好表現(xiàn)[2]，現(xiàn)有的人頭部檢測方面的研究大部分基于CNN開展，如陳久紅等[3]對基于區(qū)域的全卷積神經(jīng)網(wǎng)絡(luò)（R-FCN）目標(biāo)檢測算法進(jìn)行改進(jìn)，提高了R-FCN算法對小目標(biāo)的識別能力，使其在自制的數(shù)據(jù)集上達(dá)到89.4%的準(zhǔn)確率；張曉強(qiáng)等[4]利用教室現(xiàn)有的視頻監(jiān)控系統(tǒng)獲取教室實(shí)時圖像，結(jié)合教室內(nèi)人員分布特點(diǎn)及教室建筑風(fēng)格，通過檢測學(xué)生頭部特征，并使用AdaBoost級聯(lián)分類器對提取的視頻幀HOG樣本特征進(jìn)行訓(xùn)練，構(gòu)建頭部檢測模型用于檢測人數(shù)，取得了80%的準(zhǔn)確率。

然而，很多人群計數(shù)算法雖然在實(shí)驗(yàn)條件下具有很好的表現(xiàn)，但到了生產(chǎn)環(huán)境下，由于受到光照、遮蓋、相似物體等噪聲干擾，識別準(zhǔn)確性會大大降低。因此，生產(chǎn)環(huán)境中的人頭檢測模型除保證較高的檢全率和檢準(zhǔn)率外，還需要有較強(qiáng)的魯棒性。在教室環(huán)境下，由于存在學(xué)生之間相互遮擋、低頭、轉(zhuǎn)頭、佩戴帽子、有相似物體、弱光線及光線分布不均、噪聲干擾等問題，導(dǎo)致目標(biāo)檢測的準(zhǔn)確性難以得到保證。針對這種情況，Yudin等[5]利用標(biāo)注的1000張教室照片，訓(xùn)練了FCN、Faster R-CNN和Mask R-CNN三種卷積神經(jīng)網(wǎng)絡(luò)，結(jié)果表明：Mask R-CNN的速度雖不及FCN的十分之一，但準(zhǔn)確率卻很高；Faster R-CNN的精度雖不如Mask R-CNN，但比FCN更穩(wěn)定。Monti等[6]提出了一種基于攝像頭和Raspberry Pi平臺的人數(shù)統(tǒng)計方法，得益于邊緣計算的遷移學(xué)習(xí)框架，該系統(tǒng)在教室人數(shù)統(tǒng)計中的最大平均絕對誤差小于1.23。Yi等[7]標(biāo)注了3070張課堂照片，并通過改進(jìn)YOLO V4算法構(gòu)建了教室人數(shù)統(tǒng)計系統(tǒng)，結(jié)果表明其準(zhǔn)確率在測試集上獲得明顯提升。劉媛等[8]構(gòu)建了真實(shí)教室場景的圖像數(shù)據(jù)集，并基于RetinaFace人臉檢測網(wǎng)絡(luò)設(shè)計RetinaStudent人頭檢測網(wǎng)絡(luò)模型，提升了學(xué)生臉部被遮擋情況下的模型性能，在自制數(shù)據(jù)集上達(dá)到99.1%的識別率。何強(qiáng)等[9]通過改進(jìn)YOLO V3模型，增強(qiáng)了模型對模糊或者較小目標(biāo)的檢測能力。Niu等[10]則提出一種基于YOLO V5的增強(qiáng)型骨骼識別系統(tǒng)，用于檢測課堂行為。這些方法對提高人頭檢測模型的檢全率、檢準(zhǔn)率和魯棒性都起到了一定的作用。

為了提高準(zhǔn)確率，還有研究者嘗試采用兩種或兩種以上的方法分別對教室內(nèi)的人頭數(shù)進(jìn)行統(tǒng)計，通過比較和綜合，以獲得更準(zhǔn)確的結(jié)果。例如，F(xiàn)u等[11]將多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)（MTCNN）人臉檢測和中心人臉識別兩種深度學(xué)習(xí)算法進(jìn)行結(jié)合，開發(fā)了一套大學(xué)課堂自動考勤系統(tǒng)，該系統(tǒng)在實(shí)驗(yàn)環(huán)境下能達(dá)到98.87%的準(zhǔn)確率；單華標(biāo)等[12]綜合使用藍(lán)牙傳輸和人臉識別技術(shù)設(shè)計了一套點(diǎn)名系統(tǒng)，可有效防止出勤作弊問題；胡青松等[13]開發(fā)了一種融合WiFi數(shù)據(jù)與人臉識別的課堂點(diǎn)名方法，利用教室WiFi接入數(shù)據(jù)和人臉識別數(shù)據(jù)進(jìn)行交叉比對，實(shí)現(xiàn)精準(zhǔn)點(diǎn)名。

總的來看，現(xiàn)有教室場景下的人群計數(shù)研究雖然在一定程度上提高了人頭部識別的準(zhǔn)確率，但都缺乏生產(chǎn)環(huán)境下大規(guī)模部署的實(shí)驗(yàn)數(shù)據(jù)。而當(dāng)前已投入實(shí)際使用的模型精度都不超過90%，在學(xué)校課堂到課人數(shù)統(tǒng)計應(yīng)用場景下，這樣的準(zhǔn)確率明顯滿足不了學(xué)校管理的實(shí)際需求。因此，本研究旨在構(gòu)建一套在生產(chǎn)環(huán)境下能快速、準(zhǔn)確統(tǒng)計到課率的系統(tǒng)，以滿足學(xué)校教學(xué)管理需求。

二基于深度學(xué)習(xí)的到課人數(shù)統(tǒng)計系統(tǒng)設(shè)計

近年來，很多高校建設(shè)了大量的智慧教室、標(biāo)準(zhǔn)化考場和直錄播教室，這些教室都安裝了標(biāo)清或高清攝像頭；還有些學(xué)校從安全角度考慮，在教室內(nèi)安裝了安防攝像頭。利用這些攝像頭的視頻幀，結(jié)合深度學(xué)習(xí)技術(shù)進(jìn)行到課人數(shù)統(tǒng)計，既可以最大限度地利用現(xiàn)有資源，又能給學(xué)校教學(xué)管理部門提供亟須的到課率統(tǒng)計數(shù)據(jù)。為此，本研究在通過可行性驗(yàn)證的基礎(chǔ)上設(shè)計了一套完整的基于深度學(xué)習(xí)的到課率統(tǒng)計系統(tǒng)，具體設(shè)計思想如下：

1 可行性分析

首先，教室中的攝像頭從像素上分為標(biāo)清和高清兩類，其中標(biāo)清攝像頭的像素在30萬左右，高清攝像頭的像素在100萬左右。標(biāo)清攝像頭雖然無法用于教室環(huán)境下的人臉識別，但對于“頭部識別”卻沒有太大的影響。其次，這些攝像頭都支持標(biāo)準(zhǔn)的實(shí)時流傳輸協(xié)議（RTSP），可以較為方便地獲得不同廠商的攝像頭視頻流。最后，近年來基于多層神經(jīng)的深度學(xué)習(xí)技術(shù)日趨成熟，特別是在模式識別領(lǐng)域表現(xiàn)優(yōu)異，業(yè)界也開發(fā)出Caffe、PyTorch等成熟的深度學(xué)習(xí)框架。因此，從技術(shù)角度來看，本研究方法是可行的。

2 系統(tǒng)實(shí)現(xiàn)流程

到課人數(shù)統(tǒng)計是典型的模式識別問題，主要思想是通過識別人的頭部特征，來判斷在課堂環(huán)境下，哪些是“人”，哪些不是。因此，本研究基于深度學(xué)習(xí)框架設(shè)計的到課率統(tǒng)計系統(tǒng)的實(shí)現(xiàn)流程是：①采集教室上課照片，對人的頭部進(jìn)行標(biāo)注；②基于PyTorch深度學(xué)習(xí)框架，搭建到課人數(shù)統(tǒng)計模型；③利用標(biāo)注好的照片，對到課人數(shù)統(tǒng)計模型進(jìn)行訓(xùn)練（監(jiān)督學(xué)習(xí)），經(jīng)過多輪調(diào)整、優(yōu)化、迭代，得到成熟的到課人數(shù)統(tǒng)計模型；④在服務(wù)器上部署模型；⑤通過對教室攝像頭RTSP視頻流進(jìn)行抽幀，將視頻幀輸入模型，計算每幀中的到課人數(shù)；⑥通過與課表數(shù)據(jù)對接，在上課時間準(zhǔn)點(diǎn)、上課開始后若干分鐘、課程結(jié)束前若干分鐘分別抽幀并統(tǒng)計人頭數(shù)，生成到課率、遲到率、早退率等數(shù)據(jù)；⑦通過對接課表、院系、教師等數(shù)據(jù)，生成不同維度的到課率統(tǒng)計報告，供院系管理者和學(xué)校教學(xué)管理部門參考。具體的實(shí)現(xiàn)流程如圖1所示。

3 機(jī)器學(xué)習(xí)框架的選擇

目前已有多種成熟的深度學(xué)習(xí)框架，其中由Facebook人工智能研究院基于Torch開發(fā)的PyTorch開源深度學(xué)習(xí)框架廣受科研人員的青睞。PyTorch底層由C++實(shí)現(xiàn)，簡潔、高效、快速、功能強(qiáng)大，并且可以部署于CPU服務(wù)器，在科研和工程領(lǐng)域都很適用。因此，本研究選擇基于PyTorch機(jī)器學(xué)習(xí)框架搭建課堂學(xué)生頭部識別模型。

4 模型訓(xùn)練

剛搭建好的到課人數(shù)統(tǒng)計模型未經(jīng)過深度學(xué)習(xí)訓(xùn)練，準(zhǔn)確率不高，因此還需要標(biāo)注一定數(shù)量的課堂照片用于模型訓(xùn)練、調(diào)優(yōu)和迭代。為了提高模型識別的準(zhǔn)確度，在系統(tǒng)運(yùn)行后，還需要將識別錯誤的照片進(jìn)行重新標(biāo)注，再對模型進(jìn)行新一輪的訓(xùn)練，如此反復(fù)迭代多次，不斷調(diào)整和優(yōu)化模型參數(shù)，最終得到令人滿意的結(jié)果。

5 模型的部署

與所有深度學(xué)習(xí)模型部署過程類似，在公開數(shù)據(jù)集上預(yù)訓(xùn)練好的頭部檢測模型需要在教室場景下進(jìn)行定制化微調(diào)，這就需要采集教室場景下的數(shù)據(jù)對模型進(jìn)行定制化訓(xùn)練。該系統(tǒng)的場景是課堂教學(xué)環(huán)境，移動干擾較少，場景固定，定制化訓(xùn)練后的到課人數(shù)統(tǒng)計模型會有比較高的性能。同時，各個攝像頭采集到的課堂場景比較類似，因此定制化訓(xùn)練后的模型在課堂場景下會有比較好的泛化能力，可以較為容易地推廣到其他教室。

三系統(tǒng)的實(shí)現(xiàn)與實(shí)踐

研究團(tuán)隊基于上述的設(shè)計思想，在上海市A大學(xué)的數(shù)據(jù)中心部署了一臺業(yè)務(wù)處理服務(wù)器和一臺到課人數(shù)統(tǒng)計服務(wù)器。其中，業(yè)務(wù)處理服務(wù)器通過同步教務(wù)系統(tǒng)數(shù)據(jù)，按照事先設(shè)定的業(yè)務(wù)邏輯，發(fā)送采集指令給到課人數(shù)統(tǒng)計服務(wù)器，采集指令包括采集時間和攝像頭的IP地址。到課人數(shù)統(tǒng)計服務(wù)器按照指定的時間和IP地址從攝像頭上采集視頻幀并計算人數(shù)，將結(jié)果以Json格式發(fā)回給業(yè)務(wù)處理服務(wù)器。業(yè)務(wù)處理服務(wù)器再結(jié)合教務(wù)系統(tǒng)、人事系統(tǒng)和學(xué)工系統(tǒng)數(shù)據(jù)，從各個維度統(tǒng)計到課率。

1 到課人數(shù)統(tǒng)計模型的構(gòu)建

在課堂人數(shù)統(tǒng)計的應(yīng)用場景下，需要識別的目標(biāo)實(shí)例較多，實(shí)例密度較大，且各實(shí)例在圖像上的占比較小，對算力的要求也較高，但考慮到系統(tǒng)的可推廣性，到課人數(shù)統(tǒng)計模塊又不能占用太大的算力資源。這些場景特點(diǎn)和約束條件要求算法模型的參數(shù)量不宜過大，但推理速度又必須足夠快。針對這樣密集的人頭部檢測任務(wù)，研究團(tuán)隊在輕量級的小目標(biāo)檢測模型網(wǎng)絡(luò)結(jié)構(gòu)1MB-RFB的基礎(chǔ)上，設(shè)計了一個1MB的輕量級到課人數(shù)統(tǒng)計模型，并對模型結(jié)構(gòu)進(jìn)行了改進(jìn)，使其在保持現(xiàn)有推理性能的前提下進(jìn)一步提升識別性能。

1MB小目標(biāo)檢測項(xiàng)目是業(yè)界影響力較高的開源項(xiàng)目，其模型結(jié)構(gòu)1MB-RFB（如圖2所示）主要針對邊端低算力設(shè)備進(jìn)行設(shè)計，在檢測任務(wù)上以較低算力獲取較好的識別性能。原始的1MB-RFB采用單步多框目標(biāo)檢測（Single Shot MultiBox Detector，SSD）的基礎(chǔ)結(jié)構(gòu)，改進(jìn)了初始特征學(xué)習(xí)部分和中間層不同尺度特征學(xué)習(xí)部分的網(wǎng)絡(luò)（改進(jìn)后的結(jié)構(gòu)分別對應(yīng)如圖2左側(cè)和中間部分），初始特征學(xué)習(xí)部分采用DepthwiseConv在端側(cè)提升模型的運(yùn)行速度，中間層采用Inception結(jié)構(gòu)加強(qiáng)多尺度特征的融合。同時，網(wǎng)絡(luò)根據(jù)檢測任務(wù)減少了各個特征圖的特征維度，進(jìn)一步提升了模型的推理性能。

在實(shí)驗(yàn)過程中，研究團(tuán)隊發(fā)現(xiàn)，1MB-RFB初始特征學(xué)習(xí)部分特征圖的尺度下降速度過快會影響模型底層特征的表達(dá)，進(jìn)而影響模型的推理性能，需要找到一種在快速降低特征尺度的同時又能保持底層特征表達(dá)能力的結(jié)構(gòu)。為此，研究團(tuán)隊嘗試不同的網(wǎng)絡(luò)結(jié)構(gòu)及其參數(shù)的排列組合，結(jié)合人頭檢測任務(wù)平衡特征檢測性能和推理速度，最終選取Depthwise+CReLU的組合。

在網(wǎng)絡(luò)中間層不同尺度特征學(xué)習(xí)部分，原始的1MB模型采用Inception結(jié)構(gòu)，此結(jié)構(gòu)會計算多種維度特征并在最后進(jìn)行融合，因而會消耗較多的算力。同時，多層特征的存儲和訪問也會帶來更多的I/O操作，降低網(wǎng)絡(luò)的推理速度。如果能找到一個統(tǒng)一的Block結(jié)構(gòu)來進(jìn)行中間層部分的特征學(xué)習(xí)，將會明顯改善模型性能，加快模型的推理速度。為此，研究團(tuán)隊先后嘗試了ShuffleBlock、CGBlock、MBBlock等多種結(jié)構(gòu)，并根據(jù)參數(shù)量和計算量定義這些模塊的維度參數(shù)。通過比較，最終選取MBBlock作為中間部分特征學(xué)習(xí)的基礎(chǔ)模塊。綜合上述兩部分的改進(jìn)，本研究團(tuán)隊構(gòu)建了如圖3所示的輕量模型結(jié)構(gòu)，將其命名為1MB-Plus。

2 模型對比結(jié)果

為了測試1MB-Plus到課人數(shù)統(tǒng)計模型的性能，本研究團(tuán)隊使用了開放數(shù)據(jù)集WIDER FACE進(jìn)行驗(yàn)證。該數(shù)據(jù)集包含393703張標(biāo)注人臉，這些人臉在尺度、姿勢、標(biāo)準(zhǔn)、表達(dá)、裝扮和光照方面都有不同的體現(xiàn)，是業(yè)界較為常用的人臉檢測數(shù)據(jù)集。

研究團(tuán)隊使用數(shù)據(jù)集提供的切分方式進(jìn)行模型訓(xùn)練測試，為了更貼近真實(shí)使用場景，在測試時對圖像進(jìn)行統(tǒng)一的尺度操作——將測試圖像進(jìn)行等比例縮放，分別保持圖像不超過320×240和640×480。本研究將1MB-Plus與1MB的另外兩個版本1MB-slim、1MB-RFB進(jìn)行了對照，得到Wider-face檢測性能測試的對照結(jié)果如表1所示?？梢钥闯觯?MB-Plus模型各方面的性能均優(yōu)于1MB模型所提供的slim模型和RFB模型。

在推理速度方面，研究團(tuán)隊使用聯(lián)想Thinkpad T450筆記本電腦、邊端設(shè)備RK3399以及云上設(shè)備P40分別進(jìn)行推理速度測試，得到的數(shù)據(jù)如表2所示。可以看出，1MB-Plus模型比1MB-RFB模型推理速度更快。

3 訓(xùn)練數(shù)據(jù)采集與標(biāo)注

整個模型采用“預(yù)標(biāo)注-人工修正-模型訓(xùn)練-系統(tǒng)部署”的方式進(jìn)行多次迭代，以不斷提高性能。為了獲得真實(shí)場景照片以對模型進(jìn)行持續(xù)訓(xùn)練，研究團(tuán)隊將系統(tǒng)部署在上海市A大學(xué)的數(shù)據(jù)中心。該校有120間教室安裝了攝像頭，系統(tǒng)對部分教室隨機(jī)采集500張左右的上課照片，每張照片均為30～60萬像素，共獲得5000張課堂照片。

對采集到的照片進(jìn)行人工分析，可以發(fā)現(xiàn)由于每間教室攝像頭安裝的位置、角度和高度都不盡不同，學(xué)生上課時坐座位也有相當(dāng)?shù)碾S意性，因此教室照片中的學(xué)生頭部會出現(xiàn)多種情況，影響識別效果。圖4展示的就是其中一節(jié)課的課堂場景。

在圖4中，位置1的學(xué)生頭部被手遮擋；位置2的學(xué)生低下頭，看不見面部；位置3的學(xué)生也低下頭，只能看見黑色頭發(fā)，且被前面的同學(xué)遮擋了一部分頭部；位置4的學(xué)生戴了白色的帽子，且面部被帽檐遮擋。

為了在降低標(biāo)注成本的同時提高標(biāo)注效率，研究團(tuán)隊先使用基于開源數(shù)據(jù)集訓(xùn)練好的1MB-Plus模型對采集的圖片進(jìn)行預(yù)標(biāo)注，然后利用Labelme工具對預(yù)標(biāo)注的結(jié)果進(jìn)行人工校正。通過對預(yù)標(biāo)注結(jié)果進(jìn)行抽樣檢查，發(fā)現(xiàn)預(yù)標(biāo)注錯誤主要有三種類型：漏標(biāo)、錯標(biāo)、重復(fù)標(biāo)注。圖5為預(yù)標(biāo)注結(jié)果示例，圖中位置1～7為漏標(biāo)，位置8和9為誤標(biāo)，位置10為重復(fù)標(biāo)注。

在預(yù)標(biāo)注結(jié)果中隨機(jī)抽取500張照片進(jìn)行人工統(tǒng)計，發(fā)現(xiàn)預(yù)標(biāo)注準(zhǔn)確率在70%～80%之間，并不理想；采用人工手段修正錯誤標(biāo)注，并進(jìn)行新一輪機(jī)器學(xué)習(xí)后，再隨機(jī)抽樣500張照片進(jìn)行人工統(tǒng)計，發(fā)現(xiàn)預(yù)標(biāo)注準(zhǔn)確率已接近90%，有明顯提升；采用人工手段對錯誤的標(biāo)注繼續(xù)進(jìn)行修正，再重新進(jìn)行第三輪機(jī)器學(xué)習(xí)，隨機(jī)抽取500張照片進(jìn)行人工統(tǒng)計，發(fā)現(xiàn)預(yù)標(biāo)注準(zhǔn)確率為97.3%，說明模型已經(jīng)收斂，準(zhǔn)確度能滿足學(xué)校教學(xué)管理部門對到課率統(tǒng)計數(shù)據(jù)的要求。

4 系統(tǒng)架構(gòu)

整個系統(tǒng)除自身的數(shù)據(jù)處理和業(yè)務(wù)邏輯外，還涉及與多個外部系統(tǒng)進(jìn)行通信和信息交換。系統(tǒng)的復(fù)雜性和對處理能力的要求決定了該系統(tǒng)架構(gòu)是一個分布式的異步系統(tǒng)，不同的任務(wù)和功能需要分別運(yùn)行在不同的計算節(jié)點(diǎn)上。同時，考慮到系統(tǒng)的迭代升級，系統(tǒng)的架構(gòu)設(shè)計需要滿足可擴(kuò)展性要求。按照功能劃分，系統(tǒng)整體架構(gòu)包括四個模塊，分別為視頻幀采集模塊、到課人數(shù)統(tǒng)計模塊、業(yè)務(wù)系統(tǒng)對接及數(shù)據(jù)交換模塊、數(shù)據(jù)存儲模塊。

（1）各模塊功能

①視頻幀采集模塊。本系統(tǒng)采用攝像頭生產(chǎn)廠商提供的SDK與視頻監(jiān)控服務(wù)器通訊來獲得視頻幀。視頻幀獲取是一個異步的過程，需要編寫和配置正確的回調(diào)函數(shù)。而每獲取一個視頻幀，系統(tǒng)需要與監(jiān)控服務(wù)器進(jìn)行三次異步通訊。該模塊的主要難點(diǎn)在于管理120余個視頻源的異步通訊，并正確處理通訊過程中可能出現(xiàn)的各種異常，如超時、抖動等。

②到課人數(shù)統(tǒng)計模塊。該模塊是純計算模塊，對算力要求比較高，同時在功能上獨(dú)立性比較強(qiáng)，因此在進(jìn)行架構(gòu)設(shè)計時，需要將其作為獨(dú)立的模塊運(yùn)行在一個單獨(dú)的計算節(jié)點(diǎn)上。為了增強(qiáng)系統(tǒng)的可擴(kuò)展性，整個模塊被打包成一個Docker鏡像，并通過容器的方式進(jìn)行部署。同時，模塊會對外提供一個RESTful服務(wù)接口，視頻幀采集模塊將采集到的視頻圖片通過HTTP請求發(fā)送給該服務(wù)接口，檢測模塊完成頭部檢測后，將結(jié)果以HTTP Response形式返回。

③業(yè)務(wù)系統(tǒng)對接及數(shù)據(jù)交換模塊。該模塊需要對接兩個外部業(yè)務(wù)系統(tǒng)和一個數(shù)據(jù)存儲模塊。其中，對接的外部業(yè)務(wù)系統(tǒng)包括教務(wù)處的課表系統(tǒng)和到課率統(tǒng)計系統(tǒng)的上層應(yīng)用。課表信息存儲在Oracle數(shù)據(jù)庫中，業(yè)務(wù)系統(tǒng)對接模塊需要定時從該數(shù)據(jù)庫中讀取課表信息，并且根據(jù)當(dāng)日的課表信息，自動創(chuàng)建視頻抓拍任務(wù)。到課人數(shù)統(tǒng)計模塊會在每日凌晨2點(diǎn)觸發(fā)一個定時任務(wù)，該定時任務(wù)從課表系統(tǒng)拉取當(dāng)日的課表信息進(jìn)行解析，然后生成一系列的定時抓拍任務(wù)。每個抓拍任務(wù)對應(yīng)一個定時器，當(dāng)定時器到期的時候，系統(tǒng)自動觸發(fā)抓拍任務(wù)，調(diào)用視頻幀采集模塊向抓拍任務(wù)指定的攝像頭發(fā)送抓拍指令，并將抓拍的圖片發(fā)送給到課人數(shù)統(tǒng)計模塊進(jìn)行處理，返回的結(jié)果則發(fā)送給上層應(yīng)用進(jìn)行統(tǒng)計和展示，同時發(fā)送給數(shù)據(jù)存貯模塊進(jìn)行持久化。為了充分解耦前端業(yè)務(wù)系統(tǒng)（業(yè)務(wù)處理服務(wù)器）和后端計算系統(tǒng)（到課人數(shù)統(tǒng)計服務(wù)器）之間的關(guān)聯(lián)，人數(shù)統(tǒng)計模塊中生成的到課人數(shù)結(jié)果通過RESTful接口向外部發(fā)布。上層的應(yīng)用處理模塊和數(shù)據(jù)存儲模塊均打開一個監(jiān)聽接口，接收到課人數(shù)統(tǒng)計系統(tǒng)發(fā)來的數(shù)據(jù)。

④數(shù)據(jù)存儲模塊。本模塊存儲課程唯一記錄號、抓拍到的圖片和圖片中的到課人數(shù)統(tǒng)計結(jié)果。數(shù)據(jù)存儲模塊不僅存數(shù)據(jù)，還需要滿足簡單、輕量級的查詢?nèi)蝿?wù)?？紤]到需要存儲的數(shù)據(jù)較為簡單，查詢要求不高，本系統(tǒng)采用了基于文件的MySQL存儲方案，以簡化系統(tǒng)復(fù)雜度。為了留有擴(kuò)展余地，數(shù)據(jù)存儲模塊作為獨(dú)立的服務(wù)可部署在不同的節(jié)點(diǎn)上，其對外的數(shù)據(jù)通信通過RESTful接口實(shí)現(xiàn)。因此，如果將來由于業(yè)務(wù)發(fā)展需要升級數(shù)據(jù)存儲模塊，可在不影響系統(tǒng)中其他模塊正常運(yùn)行的前提下單獨(dú)進(jìn)行。

（2）數(shù)據(jù)生成與使用

到課人數(shù)統(tǒng)計模塊通過同步課表數(shù)據(jù)，從每節(jié)課的上課時間點(diǎn)開始，在課程開始后的前5分鐘、中間5分鐘和最后5分鐘，每分鐘從攝像頭視頻流采集一幀圖像用于計算到課人數(shù)，然后將人數(shù)、課程號、課堂照片等數(shù)據(jù)以Json格式編碼作為HTTP的Body發(fā)送給前端業(yè)務(wù)模塊。

對于每一節(jié)課，前端業(yè)務(wù)模塊會收到多個推送過來的到課人數(shù)統(tǒng)計結(jié)果。受抓拍條件、人員流動及算法自身的影響，對于同一節(jié)課，后端每次推送過來的到課人數(shù)是存在差異的，因此前端應(yīng)用通過計算平均值從多次到課人數(shù)統(tǒng)計結(jié)果中得到一個更為可靠的最終結(jié)果。具體算法是：課程開始后的前5分鐘計算到課人數(shù)平均值，作為按時到課人數(shù)，用于計算準(zhǔn)時出勤率和遲到率；課程中間5分鐘計算到課人數(shù)平均值，作為課堂到課人數(shù)，用于統(tǒng)計到課率；課程最后5分鐘計算到課人數(shù)平均值，用于計算早退率。

將到課人數(shù)數(shù)據(jù)與課程信息表、選課信息表、學(xué)生基本信息表等數(shù)據(jù)表進(jìn)行關(guān)聯(lián)計算，在院長和系主任端顯示各學(xué)院和各專業(yè)的到課率情況，并可按教師、班級、教學(xué)周、學(xué)期等不同維度進(jìn)行查詢；在教務(wù)處及分管教學(xué)校領(lǐng)導(dǎo)端可按專業(yè)、學(xué)院、年級、教學(xué)周、學(xué)期等不同維度進(jìn)行查詢，為學(xué)校各級教學(xué)管理者提供參考數(shù)據(jù)。圖6所示為到課率數(shù)據(jù)在用戶端的展示。

本系統(tǒng)的前端基于HTML5設(shè)計，具有自適應(yīng)性，可以方便地在PC端和移動端使用?；趯W(xué)校的統(tǒng)一組織架構(gòu)圖和統(tǒng)一身份認(rèn)證，可以為不同角色的用戶提供相應(yīng)的授權(quán)，以保障數(shù)據(jù)安全。為穩(wěn)妥推進(jìn)系統(tǒng)應(yīng)用，教務(wù)管理部門選擇兩個學(xué)院進(jìn)行試點(diǎn)，每個月給學(xué)院分管教學(xué)副院長發(fā)送本月到課率統(tǒng)計報告，報告內(nèi)容不僅包括本學(xué)院到課率情況，也提供橫向?qū)Ρ葦?shù)據(jù)（全校平均到課率、各學(xué)院平均到課率等），分管教學(xué)副院長也可以自行登錄平臺查詢具體到課率情況和現(xiàn)場照片。每月發(fā)送的到課率統(tǒng)計數(shù)據(jù)提高了試點(diǎn)學(xué)院對到課率的重視，也給學(xué)院教學(xué)管理工作提供了數(shù)據(jù)支持，經(jīng)2023年3月～7月一個學(xué)期的試用，兩個學(xué)院的平均到課率均有8%以上的提升，說明本系統(tǒng)對于學(xué)校的教學(xué)管理和督導(dǎo)具有一定的作用。

四結(jié)論與展望

本研究設(shè)計的基于深度學(xué)習(xí)的到課率統(tǒng)計系統(tǒng)在生產(chǎn)環(huán)境下獲得了97.3%的準(zhǔn)確率，且具有較好的魯棒性，已經(jīng)可以滿足學(xué)校宏觀教學(xué)管理對到課率統(tǒng)計的要求，充分說明本系統(tǒng)設(shè)計的科學(xué)性和有效性。同時，本系統(tǒng)最大程度地利用了高?，F(xiàn)有的IT硬件資源，且基于開源框架和開源系統(tǒng)進(jìn)行開發(fā)與部署，具有良好的經(jīng)濟(jì)性和可復(fù)制性。但是，由于深度學(xué)習(xí)原理和機(jī)制的限制，當(dāng)有新教室接入本系統(tǒng)的時候，需要拍攝一定量的課堂照片進(jìn)行新一輪的機(jī)器學(xué)習(xí)才能保證識別的準(zhǔn)確率；而且攝像頭的安裝位置、角度對本系統(tǒng)的識別準(zhǔn)確率都有一定的影響。在后續(xù)的系統(tǒng)迭代和升級中，可以考慮對深度學(xué)習(xí)模型做進(jìn)一步優(yōu)化，以提升性能。優(yōu)化的方向主要有兩條：一是獲取更多的線上數(shù)據(jù)，并通過人工標(biāo)注后反哺給模型，以提升模型性能。這種方法可以最大程度地挖掘現(xiàn)有模型的潛力，將其性能充分發(fā)揮出來。二是采用新的深度學(xué)習(xí)模型，通過檢測整個人體（考慮到教室場景，主要是坐姿下的人體檢測）來達(dá)到識別到課人數(shù)的目的。這種方法可以突破現(xiàn)有模型的性能瓶頸，有望帶來更好的識別效果，但需要更大的投入，且結(jié)果有一定的不確定性。

參考文獻(xiàn)

[1]Sam D B， Surya S， Babu R V. Switching convolutional neural network for crowd counting[A]. 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）[C]. Honolulu： IEEE Computer Society， 2017：4031-4039.

[2]Damale R C， Pathak B V. Face recognition based attendance system using machine learning algorithms[A]. 2018 Second International Conference on Intelligent Computing and Control Systems （ICICCS）[C]. Madurai： IEEE， 2018：414-419.

[3]陳久紅，張海玉.基于深度學(xué)習(xí)的教室人數(shù)統(tǒng)計系統(tǒng)設(shè)計[J].軟件導(dǎo)刊，2019，（10）：27-29、35.

[4]張曉強(qiáng)，王迅，楊航，等.基于智能視覺物聯(lián)網(wǎng)的教室人數(shù)跟蹤系統(tǒng)[J].圖像與信號處理，2019，（2）：8.

[5]Yudin D， Ivanov A， Shchendrygin M. Detection of a human head on a low-quality image and its software implementation[J]. The International Archives of the Photogrammetry， Remote Sensing and Spatial Information Sciences， 2019，42：237-241.

[6]Monti L， Tse R， Tang S K， et al. Edge-based transfer learning for classroom occupancy detection in a smart campus context[J]. Sensors， 2022，（10）：3692.

[7]Yi K， Yan S， Liu L， et al. CCSS： An effective object detection system for classroom crowd statistics[A]. 2022 IEEE 46th Annual Computers， Software， and Applications Conference（COMPSAC）[C]. Los Alamitos： IEEE， 2022：111-116.

[8]劉媛，陳小麗，屠增輝，等.基于改進(jìn)RetinaFace算法的教室人數(shù)統(tǒng)計方法[J].計算機(jī)與數(shù)字工程，2022，（9）：1887-1890、1916.

[9]何強(qiáng)，李靜，陳琳琳.基于改進(jìn)YOLO V3算法的室內(nèi)人數(shù)統(tǒng)計模型[J]. Hans Journal of Data Mining， 2023，（1）：10-22.

[10]Niu W， Sun X， Yi K. Improved YOLOv5 for skeleton-based classroom behavior recognition[A]. Third International Conference on Intelligent Computing and Human-Computer Interaction（ICHCI 2022）[C]. Guangzhou： SPIE， 2023：107-112.

[11]Fu R， Wang D， Li D， et al. University classroom attendance based on deep learning[A]. 2017 10th International Conference on Intelligent Computation Technology and Automation（ICICTA）[C]. Changsha： IEEE， 2017：128-131.

[12]單華標(biāo)，龍華偉.高校點(diǎn)名方法和系統(tǒng)[P].中國專利：CN113256834A，2021-8-13.

[13]胡青松，張淳一，陳艷.一種融合WiFi數(shù)據(jù)與人臉識別的課堂點(diǎn)名方法[P].中國專利： CN112734966A，2021-04-30.

Design and Implementation of a Class Attendance Statistics System Based on Deep Learning

Abstract： As a macro teaching management data， class attendance rate plays an important role in the teaching management of colleges and universities. Although some digital methods of class attendance rate statistics methods have emerged in recent years to solve the problems of time， effort and lag in traditional class attendance statistics， they cannot be popularized due to high cost， inconvenient use and low accuracy. With the development of technology， the accuracy of deep learning in multi-target detection is increasingly higher， helping to solve such problems. Therefore， this paper used deep learning technology to design a 1MB-Plus model based on classroom camera RTSP video stream to recognize arriving students heads， and applied it to the class attendance statistics in more than 100 classrooms of a university， and obtained the accuracy of 97.3%. The experiment also showed that the model was helpful to solve the problems of class attendance statistics. Through research， this paper was aimed to provide more accurate macroscopic attendance data for the educational administration departments of colleges and universities at the lowest cost， so as to assist the school teaching management.

KeyWords： class attendance statistics; machine learning; pattern recognition; crowd counting; head detection

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的到課率統(tǒng)計系統(tǒng)設(shè)計與實(shí)現(xiàn)