王齊 陳功 胡文昕 胡嘉
摘? 要:周圍型面癱作為一種多為急性發(fā)作的臨床常見病,治療上需要準確掌握患者發(fā)病狀態(tài),以便判斷治療的最佳時機。現(xiàn)有的面癱治療方法多依賴于醫(yī)生對患者臨床癥狀的直觀判斷,而本文通過研究當前基于深度學習的異常檢測方法,并將異常檢測生成對抗網絡(GANomaly)作用于面癱圖像上,實現(xiàn)正常人臉和面癱人臉的識別分類,為醫(yī)生診斷提供輔助工具,可有效提高診斷效率,彌補現(xiàn)有方法的不足。訓練后的GANomaly網絡可有效分辨出面癱圖像的異常。實驗結果表明,基于深度學習的GANomaly網絡可有效實現(xiàn)面癱的診斷識別。
關鍵詞:深度學習;面癱識別;異常檢測;GANomaly
中圖分類號:TP39? ? ?文獻標識碼:A
Application Research of Facial Paralysis Recognition based on GANomaly Network
WANG Qi1, CHEN Gong1,2, HU Wenxin1, HU Jia1
(1. School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing 210046, China;
2. Jiangsu Province Hospital of Chinese Medicine, Nanjing 210029, China)
20190616@njucm.edu.cn; wqdlrb@163.com; 20200998@njucm.edu.cn; 20200997@njucm.edu.cn
Abstract: Peripheral facial paralysis is a common clinical disease that is mostly acute. It is necessary to accurately grasp the patient's onset status in order to determine the best time for treatment. Existing facial paralysis treatments mostly rely on doctors' intuitive judgments of patients' clinical symptoms. This paper proposes to study current deep learning-based anomaly detection methods, and apply generative adversarial networks for anomaly detection (GANomaly) to facial paralysis images, so that recognition and classification of normal faces and facial paralysis ones are realized. It provides auxiliary tools for doctors to diagnose, which effectively improve the efficiency of diagnosis and make up for the shortcomings of existing methods. The trained GANomaly network can effectively distinguish the anomalies of facial paralysis images. The experimental results show that the GANomaly network based on deep learning can effectively realize the diagnosis and recognition of facial paralysis.
Keywords: deep learning; facial paralysis recognition; anomaly detection; GANomaly
1? ?引言(Introduction)
面癱是臨床多發(fā)疾病,患者發(fā)病時會出現(xiàn)口眼歪斜、臉部痙攣、唾液分泌減少等現(xiàn)象。據(jù)流行病學顯示,近些年來,面癱發(fā)病率不斷升高,患病比例約為(11.5—53.3)/10萬[1],所以為提高面癱診斷效率,需要研究建立更多高效的輔助診療工具。傳統(tǒng)面癱診斷方法多為利用面部觀察或醫(yī)學檢查來判斷臨床體征,例如REITZEN等人[2]研究發(fā)現(xiàn),使用House-Brackmann[3]分級量表可有效評估患者患病區(qū)域和嚴重程度。此量表作為臨床上應用最普遍的評價系統(tǒng),可根據(jù)面部表情動作變化和是否伴有聯(lián)動或面部痙攣現(xiàn)象,將面癱嚴重程度區(qū)分為六級,如表1所示。而管子玉等人[4]設計了深度差異性網絡模型(Deep Differentiated Network, DDN),實現(xiàn)對面癱和“假面癱”的面部特征區(qū)分。SONG等人[5]設計了結合圖像分類(GoogLeNet)神經網絡和人臉識別(DeepID)神經網絡的新型卷積神經網絡系統(tǒng),完成面癱評估分類及其研究[6-7]等,體現(xiàn)了深度學習方法應用到面癱診斷研究中的有效性。
本文在此基礎上,利用面癱作為一種面部異常疾病,發(fā)病時面部圖像與正常圖像存在明顯差異的特點,選擇將圖像異常檢測方法GANomaly應用到面癱識別中,從而實現(xiàn)從正常人臉圖像中檢測識別出異常面癱圖像的目的,實現(xiàn)了一種新的基于深度學習的面癱診斷應用研究。
2? 基于深度學習的異常檢測方法(Anomaly detection method based on deep learning)
人工智能(AI)技術在醫(yī)療影像識別、輔助醫(yī)療診斷、智能機器人等醫(yī)療場景中得到了較為廣泛的應用發(fā)展,而目前大部分AI應用中使用較多的技術是深度學習技術。深度學習屬于機器學習范疇,實現(xiàn)了利用非監(jiān)督式的學習算法來獲得數(shù)據(jù)更深層的特征信息。與傳統(tǒng)的人工提取不同,深度學習通過建立神經網絡來分析學習圖像、聲音、文本等不同類型數(shù)據(jù),實現(xiàn)特征的自動提取。深度學習技術學習能力強大,網絡結構復雜,特別是應用于處理圖像問題方面,可得到相當優(yōu)秀的結果。例如生成對抗網絡(Generative Adversarial Network, GAN)[8]作為當前比較熱門的無監(jiān)督算法,通過可以生成與原圖像高度相似的新圖像的生成器模型,以及可以分辨示例為真實還是偽造的判別器模型,來實現(xiàn)圖像的生成、圖像的轉換、圖像的分類等應用。本文在解決面癱診斷問題時,選擇使用基于深度學習的異常檢測技術,以便獲得優(yōu)良的實驗效果。
2.1? ?異常檢測方法
傳統(tǒng)的異常檢測方法多需要人為設計特征模型,實現(xiàn)復雜算法,以達到分辨異常的目的。隨著人工智能技術的發(fā)展,越來越多的研究者選擇將深度學習方法應用到圖像異常檢測任務中,從而獲得更高的異常檢測精度。在這之中,利用圖像重構檢測異常的方法得到了更為廣泛的應用,該方法核心思想在于通過訓練神經網絡,以不斷最小化重構圖像與輸入圖像之間的距離為目的,學習正常圖像的分布模式,在檢測階段利用檢測原圖像和重構圖像之間的差異大小實現(xiàn)異常檢測的目標。較為典型的應用包括基于自編碼器(AutoEncoder)的相關方法,例如變分自動編碼器(Variational Autoencoders, VAE)[9]、對抗式自動編碼器(Adversarial Autoencoder, AAE)[10]等,以及基于GAN的相關方法,例如深度卷積生成對抗網絡(Deep Convolutional Generative Adversarial Networks, DCGAN)[11]、AnoGAN[12]、BiGAN[13]等。
本文選擇了在圖像識別和分類方面應用較廣泛的GAN模型來解決面癱識別問題,并選擇使用檢測效果較好的異常檢測方法GANomaly[14]來檢測識別面癱圖像。該模型的優(yōu)勢在于模型訓練是作用于正常人臉圖像的,從而僅需要少量的面癱圖像就可以完成測試,這對當前研究面癱圖像量少且難以獲得的實驗環(huán)境是十分友好的。通過實現(xiàn)使用GANomaly網絡進行面癱識別,能夠輔助醫(yī)生有效判斷患者患病狀態(tài),為面癱診斷提供輔助診療工具,可滿足醫(yī)學治療的部分智能化需求。
2.2? ?GAN相關異常檢測方法
生成對抗網絡GAN于2014 年由GOODFELLOW等人[8]提出,該網絡主要包括兩個部分:生成網絡和判別網絡。生成網絡G作用于輸入的噪聲變量,輸出重構圖像;判別網絡D作用于輸入的真實圖像或重構圖像,盡可能地分辨出重構圖像,輸出判斷結果。生成網絡會盡可能地生成與真實圖像高度相似的圖像,從而混淆判別網絡,而判別網絡會盡可能地分辨輸入圖像真實與否,兩個網絡相互對抗,就會得到最佳的生成結果。利用GAN網絡這一特性,RADFORD等人[11]提出并評估了一組深度卷積GANs的體系結構,命名為深度卷積生成對抗網絡(DCGAN),并通過一系列實驗證明對抗性網絡可以用于學習圖像表示,實現(xiàn)圖像生成建模,并且在大多數(shù)情況下可以穩(wěn)定地訓練和取得良好的結果。該體系結構主要使用判別器和生成器,并使用批量歸一化Batchnorm處理數(shù)據(jù),除了輸出層使用Tanh外,生成器的其他所有層使用ReLU激活,判別器中所有層都使用LeakyReLU激活。
而在DCGAN網絡的基礎上,SCHLEGL等人[12]提出了AnoGAN網絡用于檢測異常,該網絡通過在正常圖像數(shù)據(jù)上訓練DCGAN,生成得到重構圖像,測試階段通過比對重構圖像與原圖得到異常區(qū)域,計算異常值,通過判別器來分辨異常。KAPLAN等人[13]提出了BiGAN異常檢測模型,該模型與AnoGAN有所不同的是,生成網絡中分為編碼器Encoder和解碼器Decoder。編碼器通過輸入圖像x得到編碼z,而解碼器通過輸入編碼生成圖像,判別器通過不斷縮小編碼器和解碼器之間的分布差異,使編碼z與不斷接近,從而生成得到最佳的重構圖像,并同樣通過計算異常值來判別異常。
3? 實驗方法——GANomaly網絡(Experimental method-GANomaly network)
為了得到更好的實驗結果,相比于AnoGAN和BiGAN,本文選擇了檢測準確率更高的GANomaly[14]網絡。該網絡通過采用編碼—解碼—編碼的網絡結構,實現(xiàn)將輸入圖像映射成一個低維向量,然后重構低維向量生成得到重構圖像,附加的編碼器將重構圖像映射得到潛在變量。模型在訓練階段會不斷地最小化低維向量和潛在變量之間的差異,學習得到正常圖像的數(shù)據(jù)分布,判別器根據(jù)從該學習數(shù)據(jù)分布中獲得的較大距離度量推斷該分布中存在的異常值。
GANomaly網絡模型可分為三個部分。第一個部分是作為模型生成器部分的自動編碼器網絡,該網絡首先讀取輸入圖像x到編碼器GE,GE利用帶有批量歸一化batch-norm和激活函數(shù)ReLU的多個卷積層,將圖像壓縮成一維向量z,即,然后通過解碼器GD的卷積轉置層作用于向量z得到重構圖像,即。第二個部分是編碼器網絡E,除了參數(shù)不同,其結構與GE基本相似,主要對重構圖像壓縮得到,即。第三個部分是判別器網絡D,對輸入圖像x和重構圖像進行分類,區(qū)分真假。但當測試階段異常圖像傳入生成器網絡G時,GD無法重建異常,遺漏異常所得到的特征表示就會和z之間呈現(xiàn)差異性,模型通過檢測到這種差異性,從而判定輸入的圖像存在異常。
實驗采用三個損失函數(shù)訓練優(yōu)化模型,包括對抗性損失Ladv、上下文損失Lcon和編碼器損失Lenc。Ladv表示特征匹配誤差,可優(yōu)化圖像特征之間的差異,通過計算輸入圖像與重構圖像的特征表示之間的歐式距離,得到判別器網絡D的中間層向量:
Lcon表示重構誤差損失,通過訓練不斷減少輸入圖像與重構圖像之間的差異,采用曼哈頓距離計算差異結果,即:
Lenc表示計算輸入圖像的向量特征和重構圖像的向量特征之間的差異,優(yōu)化潛在變量誤差,即:
得到的目標函數(shù)為:
其中,、、為加權參數(shù)。
利用公式(3)可計算得出輸入圖像與重構圖像之間的異常分,異常分越小則代表模型重構得越成功;反之,則表示模型無法成功重構,從而得出該輸入圖像為異常圖像。對于異常圖像,其異常分定義如下:
通過設定一個評估閾值,得到的異常分則表示存在異常圖像。由于面癱患者眼部下垂,嘴部歪斜,與正常人臉的眼部、嘴部存在明顯差別,因此GANomaly無法完美重構異常圖像的眼部、嘴部,得到的異常分過高,從而檢測出異常,實現(xiàn)面癱的識別,如圖1所示。
4? ?實驗過程及結果(Experimental process and results)
本文的實驗目的是將GANomaly網絡應用到正常面部圖像和面癱圖像數(shù)據(jù)中,以實現(xiàn)對面癱的檢測識別,證明異常檢測模型作用于面癱數(shù)據(jù)的有效性。
實驗開始之前,需要準備實驗數(shù)據(jù)和配置實驗環(huán)境。本實驗在訓練階段需作用于大量的正常人臉圖像,故選取了公開數(shù)據(jù)集Pins人臉識別數(shù)據(jù)集中的3,993 張圖像作為訓練集。為得到更好的實驗效果以有效分辨正常人臉圖像和面癱圖像,在人臉圖像的選擇上遵循無遮擋、五官清晰、無夸張表情等原則,盡量保證面部充滿整張圖像,并設置正常人臉圖像標簽為0。依照模型訓練集數(shù)據(jù)量遠大于測試集的原則,本實驗的測試集僅選取了33 張正常人臉圖像和33 張面癱圖像(來自HSU等人[15]使用的面癱數(shù)據(jù)),并設置正常人臉圖像標簽為0,面癱圖像標簽為1。
實驗使用Intel(R) Core(TM) i5-10500處理器和GeForce RTX 3060 GPU處理圖像,并在配置有Windows 10+CUDA 11.1.0+CUDNN 8.0+PyTorch(v1.9.0,Python 3.7.1)的環(huán)境下進行代碼實現(xiàn)。實驗學習速率設置為0.0002,在人臉圖像數(shù)據(jù)上進行了50 個時期(epochs)的訓練,輸入批次大小設為64,每一時期處理62 批,每一批平均運行時間約為8.4 ms,CPU利用率平均約為10%,內存占用率平均約為51%,GPU利用率平均約為11%,顯存占用為518 MiB/12,288 MiB,并使用WandB可視化實驗結果。
實驗訓練參數(shù)主要包括、和,通過調整參數(shù),改變模型作用區(qū)域權重,并利用AUC值比較模型訓練好壞。AUC值是指用于檢測分類器泛化能力的ROC曲線下方的總面積。偽正類率(False Positive Rate, FPR)越大,預測結果為正常的數(shù)據(jù)中實際的異常數(shù)據(jù)越多;真正類率(True Positive Rate, TPR)越大,預測結果為正常的數(shù)據(jù)中實際的正常數(shù)據(jù)越多。故而,TPR越大越好,F(xiàn)PR越小越好,體現(xiàn)在AUC值上就是AUC值越大越好[16]。通過比較不同參數(shù)條件下實驗得到的AUC值,判斷模型訓練得到的最佳結果。
經過實驗,如圖2所示,通過比較模型在取不同權重值時AUC值的大小,得出模型在=1、=50和=1時取得最佳結果。訓練過程中AUC值的變化如圖3(a)所示;AUC值不斷增大,最大可達到0.90,如圖3(b)所示,其中EER表示等錯誤率,即偽正類率和真正類率相等的點。實驗最終得到的AUC均值約為0.87,故該模型應用效果較好,可有效檢測分類。模型的損失函數(shù)變化結果如圖4所示。圖4(a)顯示了三個損失函數(shù)的損失變化,圖4(b)顯示了生成器和判別器的損失變化,可見模型損失不斷下降并最后趨于平穩(wěn),模型實現(xiàn)收斂。
本實驗使用WandB可視化實驗結果,得到的實驗結果具體數(shù)值如圖5所示,圖中展示了AUC和各種損失均值結果。實驗設置了閾值=0.2,異常分大于0.2即判定為異常。為了更直觀地展示實驗樣本分類結果,使用直方圖展現(xiàn)標簽為0表示正常人臉圖像的異常分和標簽為1表示面癱圖像的異常分,如圖6所示。異常樣本分值基本分布在大于0.2的范圍內,體現(xiàn)了正常樣本和異常樣本的分離,從而證明了模型可有效檢測識別出異常。
圖7展示生成器網絡的訓練結果,可以看出通過生成器訓練得到的人臉圖像與實際數(shù)據(jù)相差無幾,且人臉五官均可清晰生成,可達到“以假亂真”的目的。圖8展示面癱數(shù)據(jù)的測試結果,與正常人臉圖像對比,使用該模型作用于面癱數(shù)據(jù)時發(fā)現(xiàn),模型無法生成清晰的面癱圖像,面部五官基本無法生成,說明模型無法產生異常圖像,從而達到檢測異常的目的,進一步證實了模型識別面癱的有效性。
綜上所述,GANomaly網絡可有效分辨面癱圖像和正常人臉圖像,并對面癱識別是十分有效的,可有效提高面癱診斷的可靠性和直觀性,有利于患者理解和接受,從而為面癱診斷提供有效的輔助診療工具。
5? ?結論(Conclusion)
本文選擇基于深度學習的異常檢測技術解決面癱的診斷識別問題,通過異常檢測方法GANomaly深度挖掘人臉圖像面部特征,并實現(xiàn)圖像的生成重構,利用正常人臉和面癱圖像重構的特征差異來有效識別面癱,從而為面癱治療提供高效的輔助診療工具。面癱識別研究可幫助醫(yī)生更有效地判斷病情,并可盡量避免僅依靠主觀經驗帶來的診斷失誤,其主要優(yōu)勢包括:計算機代替人工,可在短時間內學習到大量經驗和觀察到更多細節(jié);有效保存患者各治療階段的圖像信息,從而作為醫(yī)生判斷病情的依據(jù);具有更客觀、更直觀、更準確的優(yōu)點,患者也更容易理解和接受?;谏疃葘W習的異常檢測網絡GANomaly對面癱識別的成功實現(xiàn),體現(xiàn)了異常檢測方法應用到面癱研究領域的有效性,并為以后將更多異常檢測方法應用于面癱研究中和實現(xiàn)面癱嚴重程度的分類打下基礎。在之后的研究中將不斷優(yōu)化模型,并深度挖掘面癱圖像與正常人臉圖像的差異特征,實現(xiàn)面癱嚴重程度的診斷評估。
參考文獻(References)
[1] 劉明生.中國特發(fā)性面神經麻痹診治指南[J].中華神經科雜志,2016,49(2):84-86.
[2] REITZEN S D, BABB J S, LALWANI A K. Significance and reliability of the House-Brackmann grading system for regional facial nerve function[J]. Otolaryngology-Head Neck Surg, 2009, 140(2):154-158.
[3] SONG I, VONG J, YEN N Y, et al. Profiling Bell's palsy based on House-Brackmann score[J]. Journal of Artificial Intelligence and Soft Computing Research, 2013(3):1-6.
[4] 管子玉,劉杰,謝飛,等.基于深度差異性網絡的真假面癱識別[J].西北大學學報(自然科學版),2019, 49(2):171-179.
[5] SONG A, WU Z, DING X, et al. Neurologist standard classification of facial nerve paralysis with deep neural networks[J]. Future Internet, 2018, 10(11):111.
[6] LIU X, XIA Y, YU H, et al. Region based parallel hierarchy convolutional neural network for automatic facial nerve paralysis evaluation[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2020, 28(10):2325-2332.
[7] WANG T, ZHANG S, LIU L, et al. Automatic facial paralysis evaluation augmented by a cascaded encoder network structure[J]. IEEE Access, 2019(7):135621-135631.
[8] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.
[9] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. (2013-12-20) [2014-05-01]. https://arxiv.org/abs/1312.6114.
[10] MAKHZANI A, SHLENS J, JAITLY N, et al. Adversarial autoencoders[EB/OL]. (2015-11-18) [2016-05-25]. https://arxiv.org/abs/1511.05644.
[11] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19) [2016-01-07]. https://arxiv.org/abs/1511.06434.
[12] SCHLEGL T, WALDSTEIN S M, LANGS G, et al. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery[C]// NIETHAMMER M, STYNER M, AYLWARD S, et al. Lecture Notes in Computer Science. Switzerland: Springer, Cham, 2017:146-157.
[13] KAPLAN M O, ALPTEKIN S E. An improved BiGAN based approach for anomaly detection[J]. Procedia Computer Science, 2020, 176:185-194.
[14] AKCAY S, ATAPOUR-ABARGHOUEI A, BRECKON T P. GANomaly: Semi-supervised anomaly detection via adversarial training[C]// JAWAHAR C, LI H, MORI G, et al.
Lecture Notes in Computer Science. Switzerland: Springer, Cham, 2018:622-637.
[15] HSU G S J, KANG J H, HUANG W F. Deep hierarchical network with line segment learning for quantitative analysis of facial palsy[J]. IEEE Access, 2018(7):4833-4842.
[16] FAWCETT T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006(27):861-874.
作者簡介:
王? ?齊(1995-),女,碩士生.研究領域:智能信息處理與軟件技術.
陳? 功(1969-),男,博士,研究員.研究領域:生物醫(yī)學工程,智能信息處理與軟件技術.
胡文昕(1997-),男,碩士生.研究領域:智能信息處理與軟件技術.
胡? ?嘉(1997-),男,碩士生.研究領域:智能信息處理與軟件技術.