何宗霖 楊觀賜 羅可欣
摘 要:阿爾茲海默癥發(fā)病早期癥狀不明顯,被確診時往往已步入中晚期。為了通過日?;顒拥囊曨l監(jiān)控提早識別阿爾茲海默癥,提出了基于時空雙流網絡的阿爾茲海默癥先兆動作識別方法(premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks, STADP )。首先,從阿爾茲海默癥對人體機能的負面影響角度出發(fā),基于醫(yī)學研究成果定義了日?;顒又械陌柶澓DY先兆動作,構建了阿爾茲海默癥先兆動作數據集(Alzheimers disease premonitory action dataset, ADP),給出了基于關鍵幀的視頻數據處理算法;其次,將基于三維卷積模型的空間特征提取模塊與基于Transformer模型的時間特征提取模塊結構相融合,設計了時空雙流網絡以捕捉阿爾茲海默先兆動作的特征,從而形成了STADP算法;最后,對不同特征融合權重的模型性能進行比較,獲得了STADP的最優(yōu)工作參數。與2種模型的對比實驗結果表明:STADP的平均識別準確率、精確度、召回率以及F1值均優(yōu)于比較算法,分別為83.21%、84.61%、83.14%和82.14%。本研究將為日?;顒訑祿寗拥陌柶澓DY先兆動作智能感知提供方法與實現手段。
關鍵詞:阿爾茲海默癥;動作識別;雙流網絡;特征融合;日常活動
中圖分類號:TP18
文獻標志碼:A
阿爾茲海默癥(Alzheimers disease, AD)是一種進行性神經系統變性病,發(fā)病早期癥狀不明顯[1]。由于迄今為止沒有任何有效藥物或治療可以逆轉AD的進程,因此提早發(fā)現和干預勝過治療。令人感到鼓舞的是計算機輔助技術、人工智能技術的發(fā)展為神經病理學診斷和病癥早期預防開辟了新的道路。當前,運用人工智能技術輔助診斷AD患者,其數據集來源主要分為3類:1)基于專業(yè)儀器采集的醫(yī)學數據[2-3];2)基于AD神經心理測試采集的臨床數據[4-6];3)從日常生活中采集的數據[7-10]。基于專業(yè)儀器采集的數據具有測定準確、較為權威的特點,是醫(yī)生診斷AD的最重要的依據。AD神經心理測試中的測試項目來源于長期對大量AD患者的觀察,進而總結出某些普遍規(guī)律,最終形成測試方案,是醫(yī)生做出診斷的重要依據。然而,上述兩種數據采集方式不僅需要專業(yè)人員來執(zhí)行,而且需要長時間的采集過程。與之相對的是,從日常生活中采集的數據能夠依托長期的個人行為監(jiān)控,實現AD的輔助診斷和提早發(fā)現。
從日常生活中采集的數據又可以分為:1)視覺傳感器獲得的視頻數據[11-12];2)聲音傳感器獲得的言語數據[13-14];3)其他傳感器(如:加速度計、人體傳感器等)獲得的單一或多模態(tài)數據[10]。其中,視覺傳感器具有用戶容易接受、采集處理數據方便的特點,更適用于采集日常生活中潛在患者的動作數據。進一步,針對該數據基于視覺的深度學習算法可以通過識別潛在患者的日常行為[15],找到反應阿爾茲海默癥對人體機能產生負面影響的阿爾茲海默癥先兆動作(例如阿爾茲海默癥會導致人體記憶力下降,反映在生活中,患者更容易做飯時多次放鹽或未放鹽),從而實現AD的早期干預。
圍繞AD對人體機能的負面影響,利用深度學習技術實現AD的輔助診療,學界已經做出了許多有益的嘗試。針對AD導致的記憶力的衰弱,Lussier等[7]通過對比正常人和阿爾茲海默癥患者的日?;顒有袨椋l(fā)現阿爾茲海默癥患者在冰箱、櫥柜前經常出現非正常的停頓。研究AD對人體行動能力的影響中,Bringas等[10]發(fā)現AD患者在日?;顒又写嬖趧幼鞯闹袛?,因此引入加速度計監(jiān)測患者的日常活動數據,實現了通過深度學習模型判定AD患者的患病階段。針對AD患者的認知能力情況測試,Negin等[12]提出了一種Praxis測試,根據醫(yī)學的29個特定手勢,提出了一個深度學習框架,通過學習患者與正常人的手勢區(qū)別,判斷用戶是否發(fā)生了阿爾茲海默癥病變。
綜上所述,AD對人體產生的傷害主要有以下多種表現形式:喪失情緒管理能力、記憶力下降、認知能力不足、行動能力衰弱等,而這些表現形式都可以通過識別潛在患者的日常行為中的阿爾茲海默癥先兆動作加以認知。因此,本文基于醫(yī)學研究找到了反應人體機能衰退的阿爾茲海默癥先兆動作并構建了數據集。同時,為了提高阿爾茲海默癥先兆動作的識別能力,通過融合視頻的空間維度特征和時間維度特征,提出了基于時空雙流網絡的阿爾茲海默癥先兆動作識別方法。
1 阿爾茲海默癥先兆動作數據集的構建
由上述對阿爾茲海默癥患者進行輔助診療的相關研究可知,現有的阿爾茲海默癥數據集存在諸多問題。一方面,這些數據集事先設定了阿爾茲海默癥的異常行為可能發(fā)生的具體場景,人為設計了一系列需要潛在患者逐項完成的動作,獲得了類似于阿爾茲海默癥臨床測試的視頻數據,但此類數據集并不能反映受測者的真實情況;另一方面,部分數據集利用多類型的傳感器長期監(jiān)測受測對象的日?;顒樱@種“飽和式”監(jiān)測會產生大量冗余數據,甚至是對阿爾茲海默癥識別做出相反判斷的沖突數據,反而對阿爾茲海默癥早期預防產生負面影響。針對上述情況,本文從現有醫(yī)學研究所揭示的阿爾茲海默癥先兆動作出發(fā),采集日常活動的視頻數據并通過關鍵幀技術處理視頻,構造了阿爾茲海默癥先兆動作數據集(Alzheimers disease premonitory action dataset, ADP),進而識別潛在患者日常生活中的異常動作,為AD早期診斷提供支撐。
發(fā)表在期刊《ALZHEIMERS & DEMENTIA》上的研究[16]建議在AD的早期輕度認知障礙時期的臨床檢查中應引入記憶力方面的檢查,同時該研究舉了兩個記憶力檢查的例子,AD患者容易記憶不清物品擺放的位置以及忘記近期才做過的行為?;谠撗芯勘疚倪x取了日常生活中翻箱倒柜地尋找東西rs、炒菜時重復放鹽as、出門后返回檢查門是否上鎖cl這3個典型動作作為反應人體記憶力機能下降的阿爾茲海默癥先兆動作。
癡呆的行為和精神癥狀(behavioral and psychological symptoms of dementia, BPSD)是阿爾茲海默癥患者的一組異質性非認知癥狀和行為,研究表明,BPSD在AD患病過程中影響了高達90%患者。文獻[17]歸納了BPSD影響人群中常見的一些情緒,例如焦慮、高興、易激惹、傷心、冷漠等?;谠撗芯浚疚倪x取了日常生活中哭泣cr、大笑la、吸煙so、自言自語to、生氣地踢開或推開東西kp以及情緒失控動手打人hp這些典型動作作為反應人體情緒管理機能下降的阿爾茲海默癥先兆動作。
日常生活能力評定量表(activity of daily living scale, ADL Scale)是由美國心理學家勞頓(M. P. Lawton)等于1969年編制的用于評定個體日常生活能力的經典評量表,在AD神經心理學測驗中常作為評定患者日常生活功能損害程度的權威測試[18]。該量表內容有兩部分:一是軀體生活自理能力量表,即測定患者照顧自己生活的能力,本文中選取了吃東西et、喝飲料dr、咀嚼食物ch、吹干頭發(fā)bl、刷牙bt、梳頭br、爬樓梯cs、摔倒fd這些典型動作作為反應人體自理機能下降的阿爾茲海默癥先兆動作;二是工具使用能力量表,即測定患者使用日常生活工具的能力,本文中選取了攪拌食物mi、切菜cv、拖地mf這3個典型動作作為反應人體工具使用機能下降的阿爾茲海默癥先兆動作。
能夠表征AD對人體機能負面影響的20種阿爾茲海默癥先兆動作如表1所示,視頻數據來源包括:從互聯網獲取,對現有數據集(HMDB-51、UCF-101)的篩選以及基于課題組搭建的智能家居環(huán)境自主拍攝。其中,翻箱倒柜地尋找東西rs,出門后返回檢查門是否上鎖cl,生氣地踢開或推開東西kp這3類動作在公開文獻中沒有符合要求的數據,因此組織了20個志愿者分別拍攝了這3類動作,每類動作每人在相同的背景下拍攝120個視頻樣本,每個動作樣本時長1~5 s。
阿爾茲海默癥先兆動作數據采集涉及的智能家居環(huán)境和視覺傳感器如圖1所示。20名志愿者身材不一(體重在55~75 kg),身高范圍在1.60~1.85 m之間,符合日常生活中大部分人的身材比例,年齡在19~40歲之間,符合阿爾茲海默癥早期癥狀出現的時間。
最終獲得的ADP數據集有20個動作類別共2 301個視頻總計317 553幀,平均每個視頻超過138幀。由于所采集的動作均為原子動作(無法被進一步分解為多個動作的最小動作),完全可以用更少的幀表示動作的完整過程,因此為了減少視頻信息冗余的同時保留視頻主要內容,本文構建了基于關鍵幀的視頻數據處理算法,其步驟如算法1所示。
算法1 基于關鍵幀的視頻數據處理算法
輸入:采集的視頻數據Dv。
輸出:ADP數據集Dk。
Step 1 利用OpenCV將視頻數據Dv中的視頻進行幀切分,并將幀fi的尺寸初始化為(3,340,240)。
Step 2 構建視頻數據Dv中每一幀的兩種特征空間fa、fc和關鍵幀獲取模型Rm。
Step 2.1 利用多種圖像特征描述符(包括顏色直方圖、圖像熵、灰度共生矩陣等)為視頻數據Dv的每一幀fi構建起表征視頻幀圖像屬性的特征空間fa。
Step 2.2 利用幀間距離特征為視頻數據Dv的每一幀fi構建起表征視頻幀之前距離差距的特征空間fc。
Step 2.3 通過特征空間fa和fc構建了基于特征交叉注意力機制的關鍵幀獲取模型Rm。
Step 3 構建關鍵幀基準kt,并將其作為用于Rm模型訓練的真實值。
Step 3.1 利用混合高斯模型實現視頻每一幀背景差分fg的計算。
Step 3.2 利用聚類算法從由fg組成的集群中獲得其聚類中心。該聚類中心即為視頻幀的代表和關鍵幀基準kt。
Step 4 將數據Dv的特征fa、fc輸入推薦模型Rm以kt為真實值訓練模型,并最終通過模型Rm輸出關鍵幀集合K。
Step 5 利用數據增廣技術擴充關鍵幀集合K,最終構成ADP數據集Dk。
Step 5.1 將關鍵幀集合K的每一幀圖像fj隨機裁剪兩次,獲得兩幀大小為(3,240,240)的圖像,并壓縮至大?。?,224,224)。
Step 5.2 將壓縮后的圖像通過水平翻轉和上下翻轉使關鍵幀集合K的大小擴充為最初始的4倍,最終形成了ADP數據集Dk。
需要說明的是,在步驟2.3中,基于特征交叉注意力機制的關鍵幀獲取模型Rm可以表示為
youtput=dnn(yattention)
其中,ycross表示特征空間fa與fc中的特征向量mi與nj兩兩相乘并以隱向量矩陣wij為系數構建的交叉特征;aij為交叉特征經過單層全連接網絡計算獲得的注意力分數,Wmlp和bmlp為單層全連接網絡的權重和偏置矩陣;yattention為每種交叉特征結合注意力分數的結果;youtput為經過全連接神經網絡dnn(.)獲得的概率值。
在步驟3.2中,聚類中心數量為視頻幀數量的25%。在步驟5中運用隨即裁剪和翻轉這兩種數據增廣方法實現擴充數據集的目的。
最終,通過基于關鍵幀的視頻數據處理算法,將每類動作的視頻幀的數量壓縮為原始數據的25%,但每個視頻至少保留16幀,獲得了每個視頻平均37幀數據壓縮率為26.8%的ADP數據集。
2 基于時空雙流網絡的阿爾茲海默癥先兆動作識別算法
我們注意到雙流網絡在視頻動作識別任務中取得了較好的效果,該網絡的主要特點在于存在兩個通路分別處理動作姿態(tài)信息和動作變化信息。雙流網絡的一條通路主要關注視頻隨時間變化較小的動作姿態(tài)語義信息(例如:顏色、紋理、人物等),而另一條通路則尋找視頻隨時間變化劇烈的運動語義信息。通過上述兩路對一段視頻的“動”與“靜”或者說“空間”與“時間”兩個維度語義信息的提取,雙流網絡實現了對視頻內容的準確識別。受此啟發(fā),為了融合阿爾茲海默癥早期行為的空間維度特征、時間維度特征,提高動作識別的能力,提出基于時空雙流網絡的阿爾茲海默癥早期行為識別算法(premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks, STADP)(見圖2)。
圖2是基于時空雙流網絡的阿爾茲海默癥先兆動作識別算法的總體架構。輸入模塊從視頻流中截取所需要的幀并將獲得的幀片段整合為不同維度的特征向量;中間模塊使用所設計的時空雙流網絡提取特征,其中空間特征提取模塊將視頻視為相互獨立的幀,通過三維卷積獲取視頻中第一幀的動作姿態(tài)特征,時間特征提取模塊則將視頻視為按時間排列的幀序列,通過Transformer模型提取視頻中隨時間變化而變化的動態(tài)特征;輸出模塊根據上述兩種特征融合獲得的特征向量輸出動作類別、動作時間序列和動作質量。
1)STADP算法流程
基于時空雙流網絡的視頻動作識別算法的詳細流程如算法2所示。需要說明的是,步驟8中的特征融合公式為
Ffusion=αFs+(1-α)Ft
其中,α表示特征融合權重系數,用于平衡空間特征和時間特征的權重。后文給出了不同特征融合權重下模型性能的實驗結果。
算法2 基于時空雙流網絡的阿爾茲海默癥先兆動作識別算法
輸入:視頻流Vf,時空雙流網絡Nst(空間特征提取模塊Ms,時間特征提取模塊Mt)。
輸出:視頻流識別結果Aresult。
Step 1 加載模型Nst并置時間序列位置T=?,Aresult=?,動作質量Qa=?。
Step 2 讀取t=T+1秒視頻流 if 幀速率fv>24 f/s else 讀取t=math.ceil(fv/24)秒視頻流。
Step 3 從讀取的視頻流中隨機且連續(xù)的截取16幀,設該片段的時間序列為T+=t。
Step 4 將16幀圖像表示為三維特征向量Vt=(16*3,224,224)。
Step 5 將16幀圖像表示為四維特征向量Vs=(3,16,224,224)。
Step 6 將特征向量Vs=(3,16,224,224)輸入空間特征提取模塊Ms,計算獲得空間特征Fs。
Step 7 將特征向量Vt=(16*3,224,224)輸入時間特征提取模塊Mt,計算獲得時間特征Ft。
Step 8 融合空間特征Fs與時間特征Ft輸出融合特征Ffusion。
Step 9 將Ffusion輸入至softmax()獲得視頻動作類別概率分布Ap,輸出動作類別Aresult。
Step 10 若max(Ap)>0.7,置Qa=high;否則置Qa=low。
Step 11 輸出(T,Aresult, Qa)。
2)時空雙流網絡結構
由于原子動作持續(xù)時間短,因此對視頻每一幀的全部特征信息的深度提取對準確識別動作具有重要意義。為了捕捉圖像空間和時間維度上的細節(jié)特征,將三維卷積網絡與Transformer模型結構相結合,設計了時空雙流網絡(spatiotemporal two-stream network, ST2SN),圖3是其模型結構。
ST2SN模型由空間特征提取模塊、時間特征提取模塊構成。
(1)空間特征提取模塊
空間特征提取模塊由6個三維卷積特征提取單元和1個全連接網絡單元組成??臻g特征提取模塊的輸入特征向量Sin可以表示為
Sin=(b,c,f,w,h)
其中,b表示1個批次內樣本的數量;(c,f,w,h)表示1個樣本包含f幀c個通道、寬高尺寸為(w,h)的圖像。
空間特征提取模塊進行特征提取時,三維卷積特征提取單元的卷積核Ks= (fs,ws,hs)在(f,w,h)三個維度上滑動,但由于卷積核的深度大小fs
三維卷積特征提取單元包括三維卷積層C和三維池化層P,輸入向量(cin,fin,win,hin)經過三維卷積層C獲得輸出向量(cout,fout,wout,hout)的計算公式為
其中,Ks= (fs,ws,hs)表示卷積核的尺寸,p表示填充值,s表示滑動步長;k表示一次卷積操作中掃描過的幀的數量。
同理,輸入向量(cin,fin,win,hin)經過三維池化層P獲得輸出向量(cout,fout,wout,hout)的計算公式為
其中,|_._|表示向上取整。
經三維卷積提取單元提取空間特征后獲得的特征向量xin輸入全連接網絡單元獲得輸出yout的過程可以表示為
yout=Wl(…σ(W0xin+b0)…)+bl
其中,l表示全連接網絡單元中全連接層的數量;σ(.)表示激活函數ReLU;Wi和bj為各全連接層的權重和偏置矩陣。
(2)時間特征提取模塊
時間特征提取模塊由分塊單元、Transformer 編碼器單元以及全連接網絡單元構建。時間特征提取模塊的總體輸入特征向量Tin可以表示為
Tin=(b,c*f,w,h)
其中,b表示1個批次內樣本的數量;(c*f,w,h)表示單個樣本是通道大小為c*f、寬高尺寸為(w,h)的三維向量。
時間特征提取模塊將幀圖像沿深度按順序排列。當分塊單元進行特征提取時,卷積核Ks= (ws,hs)在(w,h)兩個維度上滑動,由于卷積核的深度大小為c*f,因此空間特征提取模塊能獲得全部幀的信息,于是特征主要集中于運動變化特征即視頻時間特征。
分塊單元可以表示為
Pembed=conv2d(c*f,v,Ks=Ps=(ws,hs))
其中,v表示得到的每1個小塊展開后特征向量的維度;conv2d(.)表示利用2D卷積同時實現分塊和塊編碼;Ks=Ps= (ws,hs)表示卷積核的尺寸與分塊的尺寸相同。
分塊單元為圖3中時間特征提取模塊的分塊和塊編碼兩個步驟。編碼器單元和全連接網絡單元與VIT[19]模型的相對應模塊完全相同,在此不再贅述。
3 測試與分析
實驗所用的軟硬件平臺如表2所示。
3.1 不同特征融合系數的模型性能分析
特征融合公式為
Ffusion=αFs+(1-α)Ft
其中,α為特征融合系數;Fs為空間特征;Ft為時間特征。劃定 α的取值集合為{0.3,0.35,…,0.65,0.7}。對于每1個α的取值,基于ADP數據集將本文提出的時空雙流網絡的空間特征模塊和時間特征模塊進行加權平均融合,對得到的融合模型進行訓練與測試。實驗參數設置如下。
訓練循環(huán)2 000輪,批處理參數為8,采用Adam為模型優(yōu)化器,損失計算公式為CrossEntropyLoss,初始學習率設為0.001,學習率的L2正則系數為5e-4,學習率衰減公式為LambdaLR,衰減系數為 0.000 1。實驗中將ADP數據集以7∶1∶2進行隨機劃分,獲得訓練集、測試集和驗證集。實驗測試結果如表3所示。
當α=0.7時,時空特征融合方法的準確率方差最小,識別準確率均值為80.33%,排在所有α取值情況下平均準確率的最后一位;當α=0.35時,融合方法的識別準確率均值最高,準確率方差為2.949。研究發(fā)現,α=0.35時,融合方法的識別兼顧識別的效果與穩(wěn)定性,性能最優(yōu)。因此,下文的比較分析中α取值0.35。
3.2 比較結果與分析
3.2.1 對比模型、測評指標及實驗設置
為了評價所提STADP對阿爾茲海默癥先兆動作的識別性能,選擇C3D[17]和VIT[19]作為比較基準。
采用識別準確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F1值(F1score)4個性能指標評估模型識別阿爾茲海默癥先兆動作的效果。
對比實驗的參數設置如表4所示。
3.2.2 實驗結果與分析
基于構建的ADP數據集和3.2.1設定的對比實驗的參數,對各模型進行訓練與測試,3種模型的識別精度、準確率、召回率以及F1值的平均值和方差統計結果如表5所示,各指標統計結果的盒圖如圖4所示。
觀察圖4和表5的數據可得:
1)在平均識別準確率方面,本文提出的STADP方法比其他2種比較模型分別提高了3.33%、6.74%。同時,圖4(a)表明STADP在總體上的識別準確率明顯最優(yōu)。
2)在3個模型中,VIT的平均識別精度最高但其方差也是最高的,STADP的平均識別精度為第二,但方差最低。因此,本文提出的方法穩(wěn)定性是最優(yōu)的。
3)從平均召回率來看,STADP的平均值最高。因此,STADP的性能是最好的,這說明對于測試數據,STADP在每種類型的樣本中識別正樣本的能力最強。
4)觀察圖4可知,VIT模型的識別能力總體上不如STADP。但由圖4(b)可以看出,VIT模型在識別精度上接近STADP,這表明VIT模型在極限性能上或許接近STADP,但由于整體基于Transformer模型構建,在沒有大規(guī)模數據集訓練的情況下VIT模型難以收斂,同時難以找到好的超參數。
總體上,STADP的平均識別準確率、平均精確率、平均召回率、平均F1值分別為83.21%、84.61%、83.14%和82.14%,正是因為ST2SN能夠獲得空間特征和時間特征,輸出阿爾茲海默癥早期行為的時空信息,進而使得提出的STADP識別性能優(yōu)于其他2種模型。
4 結束語
第一時間發(fā)現AD出現的苗頭可以為早確診早干預贏得黃金時間。為此,本文通過基于醫(yī)學研究的知識構建了阿爾茲海默癥先兆動作數據集,以及基于關鍵幀的視頻數據集預處理方法,設計了提取空間特征與時間特征的時空雙流網絡,提出了基于時空雙流網絡的阿爾茲海默癥早期行為識別方法。實驗結果表明,STADP的識別準確率優(yōu)于其他比較的模型。在后續(xù)的研究中,將依據醫(yī)學知識進一步細化和擴充數據集,深入研究多模態(tài)特征融合方法,集成開發(fā)可應用的基于STADP的阿爾茲海默癥早期行為識別系統。
參考文獻:
[1]孔祥怡, 杜建時, 馬明, 等. 阿爾茲海默癥血清多肽組生物標志物研究[J]. 分析化學, 2017, 45(7): 937-943.
[2] 黃悅, 胡廣書, 孫學智. 阿爾茨海默癥海馬區(qū)顯微圖像的分割算法[J]. 清華大學學報(自然科學版), 2008: 1511-1514.
[3] CHANG T S, COEN M H, LA RUE A, et al. Machine learning amplifies the effect of parental family history of alzheimers disease on list learning strategy[J]. Journal of the International Neuropsychological Society, 2012, 18(3): 428-439.
[4] DA SILVA R C R, DE CARVALHO R L S, DOURADO M C N. Deficits in emotion processing in Alzheimers disease: a systematic review[J]. Dementia & Neuropsychologia, 2021, 15(3): 314-330.
[5] TALER V, PHILLIPS N A. Language performance in Alzheimers disease and mild cognitive impairment: a comparative review[J]. Journal of Clinical and Experimental Neuropsychology, 2008, 30(5): 501-556.
[6] DOROCIAK K E, MATTEK N, LEE J, et al. The survey for memory, attention, and reaction time (SMART): development and validation of a brief web-based measure of cognition for older adults[J]. Gerontology, 2021, 67(6): 740-752.
[7] LUSSIER M, ADAM S, CHIKHAOUI B, et al. Smart home technology: a new approach for performance measurements of activities of daily living and prediction of mild cognitive impairment in older adults[J]. Journal of Alzheimers Disease, 2019, 68(1): 85-96.
[8] LEE B, AHN C R, MOHAN P, et al. Evaluating routine variability of daily activities in smart homes with image complexity measures[J]. Journal of Computing in Civil Engineering, 2020, 34(6): 376-377.
[9] AKL A, TAATI B, MIHAILIDIS A. Autonomous unobtrusive detection of mild cognitive impairment in older adults[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(5): 1383-1394.
[10]BRINGAS S, SALOMON S, DUQUE R, et al. Alzheimers disease stage identification using deep learning models[J]. Journal of Biomedical Informatics, 2020, 109: 103514.
[11]ALBERDI A, WEAKLEY A, SCHMITTER-EDGECOMBE M, et al. Smart home-based prediction of multidoma n symptoms related to Alzheimers disease[J]. IEEE Journal of Biomedical and Health Informatics, 2018, 22(6): 1720-1731.
[12]NEGIN F, RODRIGUEZ P, KOPERSKI M, et al. PRAXIS: towards automatic cognitive assessment using gesture recognition[J]. Expert Systems with Applications, 2018, 106: 21-35.
[13]ROSHANZAMIR A, AGHAJAN H, SOLEYMANI BAGHSHAH M. Transformer-based deep neural network language models for Alzheimers disease risk assessment from targeted speech[J]. Bmc Medical Informatics and Decision Making, 2021, 21(1): 92.
[14]MARTINEZ-SANCHEZ F, MEILAN J J G, CARRO J, et al. A prototype for the voice analysis diagnosis of Alzheimers disease[J]. Journal of Alzheimers Disease, 2018, 64(2): 473-481.
[15]陳曦, 劉本永. 基于深度網絡特征提取與核非線性分類的視頻行為識別[J]. 貴州大學學報(自然科學版), 2017, 34: 51-56.
[16]ALBERT M S, DEKOSKY S T, DICKSON D, et al. The diagnosis of mild cognitive impairment due to Alzheimers disease: recommendations from the national institute on aging-Alzheimers association workgroups on diagnostic guidelines for Alzheimers disease[J].Alzheimers & Dementia, 2011, 7(3): 270-279.
[17]CEREJEIRA J, LAGARTO L, MUKAETOVA-LADINSKA E B. Behavioral and psychological symptoms of dementia. [J]. Frontiers in Neurology, 2012, 3: 73.
[18]JEKEL K, DAMIAN M, WATTMO C, et al. Mild cognitive impairment and deficits in instrumental activities of daily living: a systematic review[J]. Alzheimers Research & Therapy, 2015, 7(1): 17.
[19]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations. Vienna, Austria: Open Review, 2021.
[20]DU T, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE Computer Society, 2015: 4489-4497.
(責任編輯:曾 晶)
Premonitory Behavioral Identification of Alzheimers Disease Based on Spatiotemporal Two-stream Networks
HE Zonglin1, YANG Guanci*1,2,3,4, LUO Kexin1,2
(1.Key Laboratory of Advanced Manufacturing Technology of the Ministry of Education, Guizhou University, Guiyang 550025, China; 2.School of Mechanical Engineering, Guizhou University, Guiyang 550025, China; 3.State Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, China; 4.Guizhou Provincial Key Laboratory of "Internet+" Collaborative Intelligent Manufacturing, Guizhou University, Guiyang 550025, China))
Abstract: The early symptoms of Alzheimers disease (AD) are not obvious, and they are often in the middle or late stages when diagnosed. In order to identify AD early through video surveillance of daily activities, the premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks (STADP) is proposed. Firstly, from the viewpoint of the negative impact of AD on the ability of individuals, based on medical research results, the premonitory actions of AD in daily activities are defined and an AD premonitory behaviors dataset (ADP) is constructed, and a video data processing algorithm based on key frame recommendation is put forward. Then, by combining the space feature extraction module based on the 3D convolutional model and the temporal feature extraction module based on the Transformer model, a spatiotemporal two-stream Networks is designed to capture the action features of Alzheimers early behavior, and then the STADP has been proposed. Finally, the performance of STADP with different feature fusion weights was investigated to obtain the optimal parameters; Comparative experiment results on ADP dataset show that the proposed STADP outperforms the compared state-of-the-art methods in terms of average recognition accuracy, precision, recall, and F1 score with 83.21%, 84.61%, 83.14%, and 82.14%, respectively. This study will provide methods and implementation means for intelligent perception of Alzheimers disease premonitory actions driven by daily activity data.
Key words: Alzheimers disease; action recognition; two-stream network; feature fusion; daily activities