亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的實驗鼠行為識別關鍵技術研究①

2020-05-18 13:26:02徐涌霞

佳木斯大學學報(自然科學版) 2020年2期

徐涌霞

(淮北職業(yè)技術學院計算機系，安徽淮北 235000)

0 引言

行為的準確量化對理解大腦[1-3]至關重要。目前在神經(jīng)科學等傳統(tǒng)的領域內使用新技術(如深度學習)來進行相關研究卓有成效。通常，新技術的應用有可能揭示正在研究的現(xiàn)象中無法預料的特征，例如在19世紀中葉梅布里奇著名的攝影研究。以往所收集到的數(shù)據(jù)都是需要人工進行分析的，這是一個費時、費力且容易出錯的過程。隨著大數(shù)據(jù)時代的來臨，人工進行數(shù)據(jù)采集的效率極低。而計算機視覺和人工智能相關技術的進步為數(shù)據(jù)分析提供了新的思路[4-6]。研究利用深度學習這一新興技術，探討實驗鼠行為的識別問題。

1 深度神經(jīng)網(wǎng)絡及性能指標

首先，探討動作識別深度神經(jīng)網(wǎng)絡在實驗室老鼠行為數(shù)據(jù)集上的表現(xiàn)。采用老鼠行為短片的數(shù)據(jù)集進行實驗。應用兩種不同的輸入方案：第一種是不進行預處理的端到端輸入；第二種是跟蹤信息中基于區(qū)域的輸入，即動物周圍的區(qū)域以及光流。在有數(shù)據(jù)增強和無數(shù)據(jù)增強的情況下進行訓練。然后，探討深度神經(jīng)網(wǎng)絡在連續(xù)視頻和不同設置下的性能。使用性能最佳的輸入方案評估實驗室老鼠的行為視頻。

1.1 Multi-Fiber神經(jīng)網(wǎng)絡

使用了多纖維網(wǎng)絡(Multi-Fiber網(wǎng)絡)[7]作為深度神經(jīng)網(wǎng)絡模型。與現(xiàn)有的深度神經(jīng)網(wǎng)絡相比，多纖維網(wǎng)絡在一些重要的行為識別基準數(shù)據(jù)集上均有較高的識別效率。多纖維網(wǎng)絡使用輕量級的網(wǎng)絡(即Fiber)的組合來替代復雜的神經(jīng)網(wǎng)絡，從而能在提高識別性能的同時降低計算成本。多路復用器模塊用于Fiber模塊之間的信息流。

采用的網(wǎng)絡由一個3維卷積層(用“conv3d”表示)和四個多纖維模塊(用“MFconv”表示)組成。每個MFconv模塊包含多個多纖維單元，每個多纖維單元包含四個conv3d層。所有conv3d層輸出的結果均進行批標準化并輸入到整流線性單位(ReLU)。網(wǎng)絡的最后一層是平均池層和完全連接層。

1.2 性能指標

對于行為識別算法，最常用的性能指標是top-1準確率和top-k準確率。但是，正如從連續(xù)視頻中進行采樣一樣，這些指標對于具有同等重要類別的不平衡數(shù)據(jù)集具有誤導性。假設主要類別覆蓋了80%的樣本，并且模型將所有的樣本歸為該類別。那么這個分類器的總體同意率將是80%。在這種情況下，不僅需要評估模型的準確率，還需要評估模型的精度和召回率。使用平均召回率作為聚合度量。由于考慮了所有類別，所有標記不良的樣本均會對平均召回率產(chǎn)生負面影響，因此這里并沒有考慮精度。與平均F1-score相比，稀有類別的誤報率要比頻繁類別的誤報率更大。同時，還考慮了交叉設置評估中每個視頻的總體一致性。實驗鼠的行為并不是離散的，而且行為的改變需要時間。因此，模型是無法獲得100%的準確率。在文中所有的實驗和評估中，不屬于九個類別之一的幀都被排除在評估之外。

2 視頻片段的網(wǎng)絡模型配置

2.1 數(shù)據(jù)集

實驗使用了一個高質量數(shù)據(jù)集[8]，該數(shù)據(jù)集由生活在行為觀察箱的六只實驗鼠的視頻組成。視頻長度為25.3h，分辨率為720×576像素，每秒25個幀。其中約2.7個h的視頻由實驗室觀察員使用注釋軟件進行標注。重點研究九種最常見的狀態(tài)行為類別：喝水、進食、舔毛、跳、休息、無支撐站立、支撐墻站立、嗅探和行走。

端到端的輸入模式是分辨率大小被調整為224×224的灰度視頻。在視頻片段上訓練的端到端模型稱為EtoE。除了端到端模式以外，還將區(qū)域作為輸入。該區(qū)域是以實驗鼠為中心、分辨率為88×88的運動區(qū)域。同時，將光流添加到幀運動信息的第二和第三通道中。文中用Region表示以區(qū)域作為模型輸入的模型。

2.2 MF網(wǎng)絡參數(shù)設置

因為EtoE模式和Region模式的輸入分辨率不同，因此網(wǎng)絡模型的結構略有不同。主要的區(qū)別在于：Region分辨率需要較少的空間縮小，因此Region中省略了最大池化層。這兩個網(wǎng)絡模型擁有約770兆個參數(shù)，模型的相關參數(shù)如表1和2所示。

表1 EtoE模式的網(wǎng)絡參數(shù)設置

表2 Region模式的網(wǎng)絡參數(shù)設置

2.3 采樣

對不同的隨機訓練/測試分組執(zhí)行四重交叉驗證。每重驗證中都有2314個訓練視頻片段和398個測試視頻片段。每個片段包含32個連續(xù)的幀。片段標簽是片段中間點的行為，即第17幀的注釋。對于隨機選擇的片段，片段中間的第14幀和第19幀之間不能出現(xiàn)行為轉換。在訓練集中，片段的最大重疊為29幀，并且每個片段最多選擇四個片段行為回合，每個行為最多400個片段。對于測試集，最大重疊為25幀，每個行為回合最多選擇兩個片段，每個行為最多50個片段。來自同一行為回合的片段始終以相同的方式組合在一起，因此無論是在訓練中還是在測試集中。

2.4 數(shù)據(jù)增強策略

為了防止過擬合，可以通過隨機組合以下的過濾器來增強數(shù)據(jù)：調整剪切、水平和垂直翻轉、反向、旋轉、亮度變化等等。此外，使用了兩個新的過濾器：視頻剪切和動態(tài)照度變化。視頻剪切是2D剪切的3D版本。這意味著通過使用平均片段值替換隨機放置的長方體來向片段添加遮擋。通過向片段添加隨機3D高斯來創(chuàng)建動態(tài)照明變化。對于Region模型，光流是在隨機旋轉并反轉視頻幀之后計算的。不采用調整剪切，并且僅將亮度變化過濾器應用于灰度通道。Region模型不使用動態(tài)照明變化過濾器，因為它會影響光流的計算。在數(shù)據(jù)增強后，對片段進行標準化，使其平均值為0、標準差為1。對每個通道均進行標準化，以避免混合圖像和光流信息。

3 連續(xù)視頻的網(wǎng)絡模型配置

3.1 數(shù)據(jù)集

實驗使用交叉設置驗證數(shù)據(jù)集[8]，如表3所示。數(shù)據(jù)集中包含一個來自內部設置數(shù)據(jù)集的視頻以及四個以不同分辨率、光照、背景以及飼養(yǎng)者的視頻。視頻的幀率和相機視角并未發(fā)生變化，所有視頻均在恒定光照下進行拍攝，并且動物和背景之間具有良好的對比度。

表3 視頻數(shù)據(jù)集參數(shù)

3.2 采樣

為了評估模型在實際場景中的魯棒性，接下來評估在連續(xù)視頻數(shù)據(jù)集下模型的性能。上一節(jié)實驗的數(shù)據(jù)集是在平衡的片段子集上進行的，而且忽略了行為回合過渡周圍。而本節(jié)的實驗部署在滑動窗口片段(寬32幀，步長1幀)上。與上一節(jié)相比，實驗的片段包含的數(shù)據(jù)含糊不清，并且片段集合不平衡。

在交叉設置實驗中，僅考慮端到端模式。將在整個均衡片段數(shù)據(jù)集(一共有2712個片段)上訓練的EtoE模型應用于測試視頻的滑動窗口片段。然后在上一節(jié)的數(shù)據(jù)集中的所有滑動窗口片段上對模型進行了重新訓練，其中幀寬為32，步長為4。將這個新模型稱為enEtoE。滑動窗口片段集具有52,560個片段，并且數(shù)據(jù)不平衡。為了解決訓練過程中的不平衡問題，使用了加權隨機抽樣。在每個時期內，頻率較低的行為都會更頻繁地呈現(xiàn)給模型。由于應用了隨機數(shù)據(jù)增強，網(wǎng)絡可以看到不同版本的剪輯。

4 實驗評估

實驗環(huán)境的配置如下所示：處理器為英特爾至強Xeon E5-1603 v4 3.5GHz，內存為 32 GB，顯卡為NVIDIA Titan X，顯存12 GB，操作系統(tǒng)為Ubuntu 18.04，深度學習的框架為PyTorch，采用高級語言Python 3.7進行算法實現(xiàn)。

4.1 視頻片段實驗結果

圖1展示了有數(shù)據(jù)增強和沒有數(shù)據(jù)增強的分類結果。具有數(shù)據(jù)增強的端到端輸入模式具有75%的平均召回率的最佳結果。表4展示了每種行為的召回率。圖2是進行數(shù)據(jù)增強后的影響。

圖1 有/無數(shù)據(jù)增強下EtoE和Region模式的召回率

表4 各種行為的召回率

數(shù)據(jù)集行為視頻片段EtoE連續(xù)視頻EtoEenEtoE跳0.67——休息0.680.790.32無支撐站立0.660.560.76支撐墻站立0.960.860.94喝水0.810.180.39進食0.830.440.53舔毛0.800.680.86嗅探0.510.410.80行走0.890.680.89

圖2 數(shù)據(jù)增強對召回率的影響

4.2 連續(xù)視頻實驗結果

首先，評估了端到端模型在連續(xù)視頻數(shù)據(jù)集上的性能。在表4中，與EtoE相比，enEtoE模型在除休息以外的其他行為上都具有更好的性能。接下來，在不同設置下的視頻集上評估了enEtoE模型。表5列出了每個視頻數(shù)據(jù)集的總體一致性。與人工分類(即RBR)相比，enEtoE具有更好的總體一致性。

表5 視頻的總體一致性

5 結論

研究探討實驗鼠行為識別的問題，將深度神經(jīng)網(wǎng)絡(即多纖維網(wǎng)絡)應用于實驗鼠的行為識別。在不同的輸入模式、不同的數(shù)據(jù)增強方案下進行了大量的實驗。與人工分類相比，在進行數(shù)據(jù)增強后，具有端到端輸入模式的多纖維網(wǎng)絡有著更好的分類性能。未來的工作集中于進一步優(yōu)化多纖維網(wǎng)絡的結構，實現(xiàn)自動化的實時實驗鼠行為識別。