亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)的多特征輕度認(rèn)知功能障礙檢測(cè)模型*

        2024-01-10 10:50:44王欣陳澤森
        關(guān)鍵詞:特征文本檢測(cè)

        王欣, 陳澤森

        1.中山大學(xué)外國(guó)語(yǔ)學(xué)院,廣東 廣州 510275

        2.中山大學(xué)航空航天學(xué)院,廣東 深圳 518107

        輕度認(rèn)知障礙(MCI,mild cognitive impairment)是一種神經(jīng)系統(tǒng)慢性退行性疾病,也是阿爾茨海默?。ˋD,Alzheimer's disease)的早期關(guān)鍵階段。研究發(fā)現(xiàn),MCI 患者每年約有10%~15%的概率轉(zhuǎn)化為AD(Buckner,2004)。國(guó)際AD 協(xié)會(huì)報(bào)告顯示,全球AD 患者已超過(guò)5 500 萬(wàn)人,到2050年將增加到1.31億人(Prince et al.,2015)。AD 已成為繼癌癥、心臟病、腦血管疾病之后,引起老年人死亡的第四大病因,是不可忽視的重大健康問(wèn)題。

        提高M(jìn)CI的早期診斷準(zhǔn)確率是延緩、防治AD的關(guān)鍵(Association,2019)。但由于發(fā)病機(jī)制尚未明確,早期診斷十分困難,漏診率高達(dá)76.8%(田金洲等,2019)。檢測(cè)手段中使用基于腦電圖等各類影像學(xué)檢查結(jié)果準(zhǔn)確率高(Duan et al.,2020),對(duì)專業(yè)醫(yī)生的經(jīng)驗(yàn)依賴性強(qiáng),成本高、效率低(黃立鶴,2022);生物標(biāo)志物檢查對(duì)患者具有創(chuàng)傷性及昂貴的缺點(diǎn),不適用于大規(guī)模篩查(李妍等,2019)。此外,對(duì)于未出現(xiàn)明顯影像學(xué)特征的MCI患者,上述方法則表現(xiàn)出較低的準(zhǔn)確率和特異性。

        MCI 患者在話語(yǔ)表現(xiàn)方面與健康老年人有著較大的差異(劉紅艷,2014;劉建鵬等,2017),存在詞匯量減少、語(yǔ)法結(jié)構(gòu)受損、交流能力下降等特征。這使得基于語(yǔ)言學(xué)測(cè)量指標(biāo)的診斷手段成為可能。與傳統(tǒng)的神經(jīng)心理學(xué)量表、腦電圖、磁共振成像等檢測(cè)方法相比,話語(yǔ)表現(xiàn)具有顯著的外顯特征,侵入性低,更經(jīng)濟(jì)、擴(kuò)展性更強(qiáng),引起了研究人員的廣泛關(guān)注。研究結(jié)果顯示,MCI 患者不僅在語(yǔ)義流暢性測(cè)驗(yàn)任務(wù)上的表現(xiàn)受到病理性老化和正常老化的雙重影響(劉紅艷,2014),而且使用話語(yǔ)標(biāo)記的頻率和變化呈減少傾向(冉永平等,2017;楊軍,2004)。但由于指標(biāo)差異等原因,單純地利用語(yǔ)言學(xué)理論難以對(duì)自然會(huì)話的多個(gè)維度進(jìn)行量化,研究成果對(duì)病理性老化的區(qū)分度不高。

        在人工智能技術(shù)發(fā)展的推動(dòng)下,計(jì)算機(jī)輔助話語(yǔ)分析技術(shù)有了明顯的改善(鄂海紅等,2019)。基于卷積神經(jīng)網(wǎng)絡(luò)開(kāi)展的研究已經(jīng)成為了AD 和MCI 診斷準(zhǔn)確率的熱點(diǎn)趨勢(shì)之一(Chen,2015)。Shi et al.(2017)將一種多模態(tài)堆疊深度極性網(wǎng)絡(luò)模型應(yīng)用在多模態(tài)的神經(jīng)影像學(xué)數(shù)據(jù)中,并對(duì)AD 進(jìn)行特征學(xué)習(xí)和分類預(yù)測(cè)。K?nig et al.(2015)使用語(yǔ)音信號(hào)處理技術(shù),對(duì)MCI和AD患者的語(yǔ)音進(jìn)行標(biāo)記,并使用機(jī)器學(xué)習(xí)方法訓(xùn)練檢測(cè)的自動(dòng)分類器,測(cè)試檢測(cè)的準(zhǔn)確性。結(jié)果表明,對(duì)照組和輕度認(rèn)知障礙之間識(shí)別準(zhǔn)確率為(79% ±5%);對(duì)照組和實(shí)驗(yàn)組之間識(shí)別準(zhǔn)確率為(87% ±3%);MCI 和AD 之間識(shí)別準(zhǔn)確率為(80% ± 5%)。該研究證明自動(dòng)語(yǔ)音分析是客觀評(píng)估老年人認(rèn)知能力下降與否的補(bǔ)充工具。

        利用MCI 患者日常會(huì)話中的異常特征,多個(gè)研究團(tuán)隊(duì)使用神經(jīng)網(wǎng)絡(luò)區(qū)分患者是否罹患MCI。針對(duì)DementiaBank 數(shù)據(jù)集中的473 個(gè)樣本的語(yǔ)音和轉(zhuǎn)錄文本,F(xiàn)raser et al.(2016)選取了35個(gè)聲學(xué)特征和語(yǔ)言學(xué)特征組成的特征集合訓(xùn)練邏輯回歸分類器,識(shí)別的最高準(zhǔn)確率為 81.92%。Chen et al.(2016)提出更高效的層次化Transformer 模型,提高了AD 等神經(jīng)性認(rèn)知障礙檢測(cè)任務(wù)的運(yùn)行效率;Zhang et al.(2022)從全局和局部的音頻和文本中提取4 個(gè)特征,提出融合粗粒度和細(xì)粒度的復(fù)合模型,提高了檢測(cè)的準(zhǔn)確性;董瑞等(2020)提出了一種融合多種語(yǔ)言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行命名實(shí)體識(shí)別,溫健(2022)針對(duì)AD 患者的自發(fā)語(yǔ)音構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,搭建了認(rèn)知衰退檢測(cè)系統(tǒng)。總體來(lái)說(shuō),基于神經(jīng)網(wǎng)絡(luò)的研究方法在AD 早期診斷和發(fā)展趨勢(shì)檢測(cè)方面具有較高的可行性,但由于此類研究多通過(guò)人工智能數(shù)據(jù)仿真技術(shù)獲得會(huì)話數(shù)據(jù),忽視了數(shù)據(jù)的語(yǔ)言學(xué)特征,其檢測(cè)準(zhǔn)確率逐漸陷入瓶頸(趙俊海,2012)。

        綜上,如何提取患者自然會(huì)話中的語(yǔ)言學(xué)特征是提升語(yǔ)言認(rèn)知障礙的檢測(cè)準(zhǔn)確率的關(guān)鍵。因此,本文采用真實(shí)受試者的自然會(huì)話數(shù)據(jù)取代仿真數(shù)據(jù),融合語(yǔ)言學(xué)多特征分析與神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的多特征MCI 模型,提高了語(yǔ)言認(rèn)知障礙檢測(cè)的準(zhǔn)確率。

        1 數(shù)據(jù)概述

        1.1 數(shù)據(jù)來(lái)源

        本文使用的數(shù)據(jù)集來(lái)源于TalkBank 中的DementiaBank—English Protocol Delaware Corpus數(shù)據(jù)集(Lanzi et al.,2023)。DemantiaBank 是一個(gè)開(kāi)源的、面向老年人癡呆癥狀的語(yǔ)料庫(kù),也是世界最知名的AD 患者多模態(tài)語(yǔ)料庫(kù)之一。在數(shù)據(jù)采集過(guò)程中,所有受試者要求在44 歲以上,至少受過(guò)7年的教育,沒(méi)有精神失常的歷史或正在服用精神藥物。研究人員首先把圖片呈現(xiàn)給受調(diào)查者,并給每個(gè)受調(diào)查者1 min 時(shí)間熟悉圖片的內(nèi)容,然后要求受試者將自己的圖片內(nèi)容盡可能完整地講述出來(lái)。在語(yǔ)料收集的過(guò)程上,患者組和健康組均遵循相同的步驟。每個(gè)被采集的音頻文件由人工轉(zhuǎn)出文本,依據(jù)TalkBank 的CHAT(codes for the human analysis of transcripts)協(xié)議寫(xiě)成標(biāo)準(zhǔn)的CHAT 格式。文本被按句分段并標(biāo)注出填充停頓、起止時(shí)間、錯(cuò)誤的詞和無(wú)法理解的詞。

        表1為訪談?wù){(diào)查員和受試者06(MCI患者)訪談會(huì)話轉(zhuǎn)錄文本示例。其中,INV 表示訪談?wù){(diào)查員;PAR 表示訪談參與者;eng 表示訪談?wù)Z言為英語(yǔ);audio 表示訪談使用的媒介為音聲;ID 為訪談?wù){(diào)查員與訪談參與者的詳細(xì)信息。@G: Cookie表示圍繞《偷餅干圖》(見(jiàn)圖1)進(jìn)行的訪談會(huì)話。

        表1 轉(zhuǎn)錄文本示例Table 1 Transcription example

        圖1 偷餅干圖(de la Fuente Garcia et al.,2020)Fig.1 Cookie theft diagram

        1.2 數(shù)據(jù)結(jié)構(gòu)

        本文使用DementiaBank 數(shù)據(jù)集的轉(zhuǎn)錄文本進(jìn)行語(yǔ)言學(xué)特征的提取和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,受試者的采訪內(nèi)容包括看圖說(shuō)話(偷餅干圖等)、故事敘述(灰姑娘的故事)、自由談話(生命中的重要事件、自豪的事件)以及程序性描述話語(yǔ)(制作花生醬及三明治的過(guò)程)。為了確保模型的泛化能力,將訓(xùn)練集設(shè)置為每一個(gè)文檔中隨機(jī)分配的80%文本,其他的20%文本作為測(cè)試集,以期通過(guò)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練預(yù)估受試者患有MCI 的概率,數(shù)據(jù)規(guī)模如表2 所示。其中,MCI 為輕度認(rèn)知障礙;WNL(within normal limits)為正常范圍,即對(duì)照者。如表3所示,數(shù)據(jù)集中包括每位受試者的人口學(xué)信息,如年齡、性別、第一語(yǔ)言等。以第一語(yǔ)言為例,因?yàn)椴稍L要求受試者運(yùn)用英語(yǔ)進(jìn)行回答,所以第一語(yǔ)言為英語(yǔ)的受試者在表達(dá)流暢程度方面會(huì)好于第一語(yǔ)言為漢語(yǔ)或者其他語(yǔ)種的受試者。因此,將人口學(xué)信息作為輸入張量的一部分對(duì)于MCI檢測(cè)模型的訓(xùn)練是必要的。

        表2 訓(xùn)練集和測(cè)試集規(guī)模Table 2 Size of training and test sets min

        2 基于語(yǔ)言學(xué)的多特征分析

        2.1 特征提取

        AD 患者在早期輕度認(rèn)知障礙階段就已經(jīng)表現(xiàn)出了一定的語(yǔ)言學(xué)特征,并且話語(yǔ)表現(xiàn)在AD 的不同階段表現(xiàn)出不同特征,其價(jià)值不受疾病階段限制(de la Fuente Garcia et al.,2020)。因此,話語(yǔ)表現(xiàn)作為MCI 早期評(píng)估和診斷的重要證據(jù)(Croot et al.,2000),成為了老年語(yǔ)言學(xué)和神經(jīng)網(wǎng)絡(luò)算法等交叉領(lǐng)域的熱點(diǎn)。但一方面,由于單純地利用語(yǔ)言學(xué)理論難以對(duì)語(yǔ)言學(xué)測(cè)量指標(biāo)進(jìn)行量化,另一方面神經(jīng)網(wǎng)絡(luò)算法相關(guān)研究多通過(guò)數(shù)據(jù)仿真擴(kuò)大數(shù)據(jù)集規(guī)模,雖然使得實(shí)驗(yàn)效率有所提高,但同時(shí)簡(jiǎn)化了真實(shí)會(huì)話數(shù)據(jù)特征,模擬結(jié)果與自然會(huì)話數(shù)據(jù)之間存在一定的差距,致使其檢測(cè)準(zhǔn)確率逐漸陷入瓶頸。語(yǔ)言學(xué)測(cè)量指標(biāo)是精確區(qū)分病理老化和正常老化的重要篩選工具,也是構(gòu)建語(yǔ)言障礙診斷模型的基礎(chǔ)。因此,本文將真實(shí)的自然會(huì)話語(yǔ)料作為數(shù)據(jù)集,通過(guò)將語(yǔ)言學(xué)定性分析和神經(jīng)網(wǎng)絡(luò)算法定量分析結(jié)合起來(lái)相互驗(yàn)證,而全面提取這些特征將進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型在MCI檢測(cè)上的準(zhǔn)確率。

        語(yǔ)言學(xué)測(cè)量指標(biāo)主要分為語(yǔ)音、語(yǔ)義、語(yǔ)用三個(gè)層面。由于MCI 患者在患病初期語(yǔ)音和句法相對(duì)完好(Tsantali et al.,2013),其受損通常出現(xiàn)在語(yǔ)義和語(yǔ)用層面(Araujo et al.,2011),因此本模型分別提取了自然會(huì)話中的語(yǔ)義和語(yǔ)用層面的特征。在語(yǔ)義指標(biāo)中,由于MCI 患者最常見(jiàn)的障礙是語(yǔ)義流暢性受損導(dǎo)致的命名不能(anomia),因此語(yǔ)義流暢度可作為客觀研究和量化MCI 語(yǔ)言障礙的工具(Bucks et al.,2000)。另外,相比較于健康老年人對(duì)照組,MCI 患者的形容詞比例和動(dòng)詞比例相對(duì)較高(黃立鶴,2022)。因此,本文選擇形容詞比例和動(dòng)詞比例,作為模型的語(yǔ)義特征。進(jìn)一步考慮MCI 患者在填塞語(yǔ)和語(yǔ)義密度上表現(xiàn)出顯著缺陷,本文總共提取了以下5個(gè)特征:命名不能、形容詞比例、動(dòng)詞比例、語(yǔ)義密度、填塞語(yǔ)。

        在語(yǔ)用指標(biāo)中,大致分為語(yǔ)篇銜接性、連貫性和簡(jiǎn)潔性(Bucks et al.,2000)。語(yǔ)篇的銜接性體現(xiàn)受試者在詞匯和語(yǔ)法方面的銜接手段,如有無(wú)濫用、誤用代詞及不定詞,空洞詞匯及杜撰次詞,話語(yǔ)缺損出現(xiàn)頻次等;連貫性主要體現(xiàn)受試者話題維持的能力,如是否偏題、答非所問(wèn),多次重復(fù)某一主題,維持話語(yǔ)連貫上是否具有嚴(yán)重缺陷等;簡(jiǎn)潔性則體現(xiàn)在受試者話語(yǔ)的簡(jiǎn)潔程度,常見(jiàn)的有話語(yǔ)是否冗長(zhǎng),是否過(guò)分使用某一種特定的言語(yǔ)行為,是否能夠進(jìn)行正常的話輪轉(zhuǎn)換及話輪轉(zhuǎn)換次數(shù)等。通過(guò)運(yùn)用話語(yǔ)分析理論對(duì)數(shù)據(jù)集的語(yǔ)料做了細(xì)致的標(biāo)記與分析后,本文發(fā)現(xiàn)MCI患者在話語(yǔ)銜接與連貫方面與健康老年人的話語(yǔ)構(gòu)建策略有著較大的差別。具體而言,MCI 患者在語(yǔ)言學(xué)的語(yǔ)篇銜接性、連貫性和簡(jiǎn)潔性等方面比健康組使用的話語(yǔ)構(gòu)建策略較少,且存在較多的錯(cuò)誤,這和以往研究成果一致(黃立鶴等,2022;李妍等,2019)。因此,本文采用以下5 個(gè)語(yǔ)用指標(biāo):無(wú)指稱代詞數(shù)、信息單位、局部連貫性、省略、重復(fù)。綜合以上分析結(jié)果,本文中采用的語(yǔ)義和語(yǔ)用方面的具體特征如表4所示。

        表4 本文采用的語(yǔ)言學(xué)特征Table 4 The linguistic features used in this study

        2.2 基于LDA的T-W矩陣提取

        隱含狄利克雷分布(LDA,latent Dirichlet allocation)是自然語(yǔ)言處理領(lǐng)域中文本建模中的重要工具。通過(guò)每篇文檔的主題的概率分布,構(gòu)建每篇文檔(document)中主題(topic)和詞語(yǔ)(word)的關(guān)系。采用LDA 對(duì)測(cè)試文本進(jìn)行預(yù)處理,提取會(huì)話文本中的主題詞、表征語(yǔ)義密度、語(yǔ)篇連貫性、簡(jiǎn)潔性等語(yǔ)言學(xué)特征,構(gòu)建神經(jīng)網(wǎng)絡(luò)的輸入張量。

        2.2.1 文本清潔 在構(gòu)建神經(jīng)網(wǎng)絡(luò)模型之前,對(duì)自然會(huì)話數(shù)據(jù)進(jìn)行文本清潔(見(jiàn)表5)。一方面,文本清潔可以有效減少待處理的輸入變量和文本隨機(jī)性,提高了總體性能,避免誤報(bào);另一方面,文本清潔可以在LDA 和神經(jīng)網(wǎng)絡(luò)的構(gòu)建、測(cè)試和訓(xùn)練時(shí),刪除明顯的干擾數(shù)據(jù),降低載入數(shù)據(jù)所需的處理量。文本清潔操作通過(guò)Python 中的自然語(yǔ)言處理包(NLTK,natural language toolkit)實(shí)現(xiàn)。其中,texti,j表示第i條文本中的第j個(gè)詞語(yǔ);blanks 表示多余空白;tags 表示詞性標(biāo)注;stopwords 表示除去常見(jiàn)定語(yǔ)等停用詞表,避免對(duì)MCI 的檢測(cè)準(zhǔn)確率造成影響;digits 表示數(shù)字,symbols 表示特殊符號(hào),seg 表示分詞函數(shù),low_freq_words表示出現(xiàn)低頻詞。

        表5 文本清潔算法Table 5 Text cleaning algorithm

        在文本清潔后,進(jìn)一步制作基于目標(biāo)數(shù)據(jù)集的詞典,詞典可以提供訓(xùn)練模型所需的語(yǔ)言背景和文本數(shù)據(jù)。對(duì)清洗后的文本進(jìn)行詞頻統(tǒng)計(jì),參照2.1 中提取的語(yǔ)言學(xué)指標(biāo)進(jìn)行有監(jiān)督的深度學(xué)習(xí),進(jìn)一步提取對(duì)病理性老化敏感度高的前N個(gè)語(yǔ)言學(xué)指標(biāo)共同作為模型的詞典。

        2.2.2 求解輸入張量 在LDA 主題模型中,每篇文檔都由多個(gè)主題組成,每份文檔的主題分布由Dirichlet 分布產(chǎn)生,每份文檔的主題分布都有差異,是長(zhǎng)度為主題個(gè)數(shù)的向量。單詞的主題分布z由參數(shù)為θ的多項(xiàng)式分布產(chǎn)生。因此,將文本集中的每篇文檔表示成一組主題的概率分布,則LDA的概率分布函數(shù)為

        其中θ表示文檔的主題分布,zn表示文檔中第n個(gè)單詞的主題,wn表示文檔中第n個(gè)單詞,α和β是LDA模型的超參數(shù)。α用于控制每個(gè)文檔中主題的分布情況,β則用于控制每個(gè)主題中詞語(yǔ)的分布情況。模型求解目標(biāo)為得到每份文檔的主題分布θ和每個(gè)單詞的主題分布z。

        從公式(1)可以看出,α和β的選取是LDA 分布的重要參數(shù)。為了確保數(shù)據(jù)的正則性,本文將α和β設(shè)置為相等。根據(jù)DementiaBank 的話題設(shè)定,本文引入模型復(fù)雜度和主題一致性兩個(gè)指標(biāo),如表6所示。由此確定最佳主題數(shù)量和主題詞數(shù)分別為10。

        表6 LDA模型指標(biāo)與主題數(shù)Table 6 LDA model indicators and the number of topics

        給定文本的主題數(shù)和單詞數(shù)之后,通過(guò)LDA模型可以得到主題-詞語(yǔ)(T-W,topic-word)的二維矩陣。T-W 矩陣的每一行表示1 個(gè)主題,每一列表示1個(gè)詞語(yǔ),矩陣中的每個(gè)元素表示該主題中包含該詞語(yǔ)的概率。下面是一個(gè)示例T-W 矩陣,包含3個(gè)文檔和3個(gè)主題,如表7所示。

        表7 T-W矩陣Table 7 The T-W matrix

        從表7可得在各個(gè)主題下受試者轉(zhuǎn)錄文本中占比最多的詞語(yǔ),其融合而成的T-W 矩陣表征了語(yǔ)言學(xué)特征,是神經(jīng)網(wǎng)絡(luò)的輸入張量,可作為檢測(cè)受試者是否為MCI患者的原始依據(jù)。

        3 基于語(yǔ)言學(xué)特征的神經(jīng)網(wǎng)絡(luò)檢測(cè)模型

        3.1 考慮多特征的分類模型結(jié)構(gòu)

        本文將人工定性分析提取的語(yǔ)言學(xué)特征與LDA 定量分析提取的語(yǔ)言學(xué)特征相結(jié)合,構(gòu)建基于語(yǔ)言學(xué)特征的卷積神經(jīng)網(wǎng)絡(luò)模型(TextCNN,text convolutional neural network)。TextCNN 是卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中的一種應(yīng)用。與傳統(tǒng)模型相比,TextCNN 能夠有效地處理不同長(zhǎng)度的文本,通過(guò)在數(shù)據(jù)集上提取多個(gè)高敏感度的語(yǔ)言學(xué)特征,并導(dǎo)入到神經(jīng)網(wǎng)絡(luò)模型中以達(dá)到更高的檢測(cè)準(zhǔn)確率。同時(shí),由于模型引入了CNN,可設(shè)置卷積核的寬度和不同的卷積核大小,靈活性高、訓(xùn)練速度快,可以應(yīng)用于臨床大規(guī)模文本分類任務(wù)中。此模型既可以避免語(yǔ)言學(xué)指標(biāo)無(wú)法客觀量化等難題,又能夠彌補(bǔ)利用數(shù)據(jù)仿真構(gòu)建語(yǔ)料庫(kù)的單一性,從根本上保證了MCI早期檢測(cè)準(zhǔn)確性。

        本文的分類檢測(cè)模型主要分為兩部分:一是提取語(yǔ)言學(xué)特征,構(gòu)建神經(jīng)網(wǎng)絡(luò)的輸入。它主要包括語(yǔ)義和語(yǔ)用特征的提取,文本清潔和應(yīng)用LDA 模型提取制作T-W 矩陣。二是構(gòu)建TextCNN模型進(jìn)行訓(xùn)練和測(cè)試,預(yù)估罹患MCI 的概率。本文的分類模型如圖2所示。

        圖2 考慮多特征的分類模型Fig.2 A classification model that consider multiple features

        3.2 模型參數(shù)選擇

        為確保訓(xùn)練模型的穩(wěn)定性和準(zhǔn)確率,研究對(duì)神經(jīng)網(wǎng)絡(luò)的輸入張量進(jìn)行了歸一化、標(biāo)準(zhǔn)化處理。LDA 中的主題數(shù)和單詞數(shù)的選擇是一個(gè)重要的超參數(shù)調(diào)節(jié)問(wèn)題。合適的主題數(shù)和單詞數(shù)可以提高模型的效果和穩(wěn)定性。主題數(shù)和單詞數(shù)的選擇通常是在較小的范圍內(nèi)進(jìn)行調(diào)整,以避免模型過(guò)于復(fù)雜和計(jì)算量過(guò)大。本文的兩組主題數(shù)和單詞數(shù)分別設(shè)置為5和5,以及10和10。對(duì)于主題數(shù)和單詞數(shù)為5的情況,考慮到文本中的采訪者,在引導(dǎo)采 訪 時(shí) 就 設(shè) 計(jì) 了5 個(gè) 主 題“Cookie”、“Cat”、“Rockwell”、“Cinderella”、“Sandwich”,模型能夠提取出比較明顯的主題特征,同時(shí)避免過(guò)擬合。通過(guò)2.2.2 中對(duì)于LDA 的最佳主題數(shù)和單詞數(shù)實(shí)驗(yàn),研究將主題數(shù)和單詞數(shù)設(shè)置為10,可以更細(xì)致地提取主題特征并保持模型的準(zhǔn)確率。

        本文的最優(yōu)解求解器為SGD 優(yōu)化器,其訓(xùn)練速度快且在小樣本的最優(yōu)解求解中穩(wěn)定性較高。優(yōu)化器的誤差函數(shù)為

        其中y是受試者的真實(shí)類型(MCI 為1,WNL 為0),y?是檢測(cè)的概率值,L表征真實(shí)樣本標(biāo)簽和檢測(cè)概率之間的差值。嵌入層輸入為經(jīng)過(guò)處理之后的二維張量;卷積層卷積核大小設(shè)置為3×3;卷積層激活函數(shù)為ReLU;全連接層激活函數(shù)為ReLU/Sigmoid;全連接層輸出為one-hot編碼;在CPU服務(wù)器上完成訓(xùn)練。

        3.3 檢測(cè)模型的構(gòu)建

        本文模型的第一步是構(gòu)建多特征輸入張量,包括切分、標(biāo)注自然會(huì)話語(yǔ)料,運(yùn)用語(yǔ)言學(xué)話語(yǔ)分析理論,提取自然會(huì)話中的語(yǔ)義密度、形容詞比例等語(yǔ)義特征以及填充語(yǔ)、重復(fù)等語(yǔ)用特征;以及清潔轉(zhuǎn)錄文本,應(yīng)用LDA 模型制作詞典獲取T-W矩陣及語(yǔ)言學(xué)特征,表征其語(yǔ)言學(xué)特征;進(jìn)一步讀取受試者性別、第一學(xué)歷、年齡等信息,共同融合形成神經(jīng)網(wǎng)絡(luò)輸入張量。第二步是構(gòu)建基于多語(yǔ)言學(xué)特征的Text-CNN 模型,模型中包含兩個(gè)隱藏層,以熱點(diǎn)分布輸出表示分類結(jié)果,并在數(shù)據(jù)集上對(duì)模型進(jìn)行實(shí)證訓(xùn)練和檢測(cè)。檢測(cè)模型如圖3所示。

        圖3 基于多語(yǔ)言學(xué)特征的CNN模型Fig.3 CNN model based on multilingualism features

        圖3中輸入張量由T-W 矩陣、語(yǔ)義特征、語(yǔ)用特征和受試者信息組成。首先對(duì)于每個(gè)卷積核大小k,使用多個(gè)寬度為k的卷積核對(duì)輸入進(jìn)行卷積操作,得到一系列的特征圖,然后將所有的特征拼接在一起,作為全連接層的輸入,最終輸出分類結(jié)果。具體來(lái)說(shuō),本文使用了一組3×3 的卷積核,通過(guò)ReLU 激活函數(shù)的作用。接下來(lái)使用全連接層對(duì)這個(gè)張量進(jìn)行處理,即將其展開(kāi)為一維張量,然后使用ReLU、Sigmoid 激活函數(shù)進(jìn)行激活,最后使用one-hot編碼輸出分類結(jié)果。

        4 結(jié)果評(píng)價(jià)與分析

        4.1 評(píng)價(jià)指標(biāo)

        為了保證檢測(cè)的準(zhǔn)確性,研究結(jié)合語(yǔ)言學(xué)的語(yǔ)篇銜接性、連貫性和簡(jiǎn)潔性,設(shè)置了靈敏度特異度、精度、準(zhǔn)確性相關(guān)指標(biāo)展示神經(jīng)網(wǎng)絡(luò)模型的測(cè)試效果。4項(xiàng)指標(biāo)及計(jì)算公式如表8所示。

        表8 4項(xiàng)指標(biāo)及計(jì)算公式Table 8 Four kinds of indicators and calculation formulas

        表8 中,TP 表示真陽(yáng)性,即實(shí)際為正例且被檢測(cè)為正例的樣本數(shù)量;FN 表示假陰性,即實(shí)際為正例但被檢測(cè)為負(fù)例的樣本數(shù)量。TN 表示真陰性,即實(shí)際為負(fù)例且被檢測(cè)為負(fù)例的樣本數(shù)量;FP 表示假陽(yáng)性,即實(shí)際為負(fù)例但被檢測(cè)為正例的樣本數(shù)量。

        4.2 結(jié)果分析

        本文應(yīng)用LDA 和TextCNN 模型對(duì)Dementia-Bank 數(shù)據(jù)集進(jìn)行訓(xùn)練。其中MCI 患者的測(cè)試總時(shí)長(zhǎng)為394.28 min, WNL 的測(cè)試時(shí)長(zhǎng)則為250.87 min,全部數(shù)據(jù)時(shí)長(zhǎng)為645.15 min。對(duì)同一受試者的轉(zhuǎn)錄文本,使用隨機(jī)函數(shù)按照4∶1的比例選擇訓(xùn)練和校驗(yàn)數(shù)據(jù),訓(xùn)練誤差如圖4所示。

        圖4 訓(xùn)練誤差曲線Fig.4 Training error curve

        圖4 中ntopics= 5,nword= 5,no_ages 表示LDA中主題數(shù)目為5,單詞數(shù)目為5,輸入張量不額外添加年齡等受試者信息;ntopics= 10,nword=10,no_ages 表示LDA 中主題數(shù)目為10,單詞數(shù)目為10,輸入張量不額外添加年齡等受試者信息;ntopics= 10,nword= 10,ages表示LDA中主題數(shù)目為10,單詞數(shù)目為10,輸入張量額外添加年齡等受試者信息。

        比較3 條曲線的走勢(shì),可以發(fā)現(xiàn):(1)主題數(shù)和單詞數(shù)分別設(shè)置為5 和5 時(shí),誤差曲線收斂效果明顯較差。(2)主題數(shù)和單詞數(shù)分別設(shè)置為10 和10時(shí),收斂速度明顯加快,訓(xùn)練步數(shù)達(dá)200時(shí)基本完成收斂。(3)三種模型在訓(xùn)練步數(shù)到達(dá)1 000 時(shí),誤差依次遞減,分別為0.004 021、0.001 050、0.000 874,并且最終在測(cè)試集中的準(zhǔn)確率達(dá)到了1.00。因此,本文在后續(xù)調(diào)整模型參數(shù)時(shí)選擇第3種模型。

        為了進(jìn)一步提升模型的檢測(cè)準(zhǔn)確率,本文對(duì)模型進(jìn)行了3種不同的參數(shù)調(diào)優(yōu)操作,包括增加語(yǔ)言學(xué)輸入張量信息(模型 1)、加密神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(模型 2)和修改激活函數(shù)(模型 3)。如表9 所示,隨著參數(shù)的不斷優(yōu)化,模型的性能逐步提升,表現(xiàn)為靈敏度、特異度、精度和準(zhǔn)確性逐步增加。

        表9 參數(shù)調(diào)后4項(xiàng)指標(biāo)的變化Table 9 Variation of the four kinds of indicatorsafter parameter adjustment

        計(jì)算結(jié)果表明,本文所構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型能夠?qū)CI 和WNL 進(jìn)行有效識(shí)別,在測(cè)試集上的準(zhǔn)確率為0.93。分類結(jié)果的靈敏度和特異度分別達(dá)到了1.00 和0.80,表明該模型對(duì)于MCI 患者的識(shí)別能力很強(qiáng),但是在識(shí)別WNL 時(shí)會(huì)出現(xiàn)一定誤差;在增加受試者的年齡、性別、第一語(yǔ)言等信息后有明顯改進(jìn)。同時(shí),這些指標(biāo)值也表明該模型具有較好的穩(wěn)定性和泛化能力。

        5 結(jié) 論

        本文利用MCI 患者語(yǔ)言學(xué)話語(yǔ)表現(xiàn)變化顯著的特點(diǎn),提出了一種基于神經(jīng)網(wǎng)絡(luò)的多特征輕度認(rèn)知障礙檢測(cè)模型。在提取自然會(huì)話中的語(yǔ)言學(xué)特征的基礎(chǔ)上,融合LDA 模型的T-W 矩陣與受試者資料等多特征信息,形成TextCNN 網(wǎng)絡(luò)的輸入張量,構(gòu)建了基于語(yǔ)言學(xué)特征的神經(jīng)網(wǎng)絡(luò)檢測(cè)模型。同時(shí),利用世界公認(rèn)的AD 多模態(tài)語(yǔ)料庫(kù)DemantiaBank 進(jìn)行了模型訓(xùn)練和測(cè)試。結(jié)果顯示,該模型在MCI 早期檢測(cè)方面具有較高的準(zhǔn)確率和靈敏度,并在闡明語(yǔ)言障礙機(jī)理具有一定的潛力。目前,研究側(cè)重于會(huì)話文本這一單一模態(tài)。在未來(lái)的工作中,將增加語(yǔ)音、表情、手勢(shì)等更多模態(tài)的語(yǔ)言特征,以期提高面向臨床實(shí)踐的AD 早期檢測(cè)的準(zhǔn)確率。

        猜你喜歡
        特征文本檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产影片一区二区三区| 国产精品高清视亚洲乱码有限公司 | 伊人久久精品亚洲午夜| 亚洲乱码中文字幕三四区| 久久久精品中文字幕麻豆发布 | 亚洲熟妇av一区二区三区| 中文字幕一区二区三区人妻少妇| 日韩一区二区肥| av成人资源在线播放| 国产一区二区三区av天堂| 欧洲女人性开放免费网站| 2022Av天堂在线无码| 亚洲人妻av在线播放| 午夜天堂一区人妻| 欧洲一卡2卡三卡4卡免费网站| 毛片无遮挡高清免费久久| 精品国产一区二区三区九一色| 亚洲中国精品精华液| 黄色视频免费在线观看| 毛片在线啊啊| 一区二区高清视频免费在线观看| 男人和女人做爽爽免费视频| 精品性影院一区二区三区内射| 日本一区二区三区在线| 久久伊人亚洲精品视频| 一二三四日本中文在线| 国产91精品成人不卡在线观看| 日韩av他人妻中文字幕| 亚洲精品中文字幕一区二区| 熟妇丰满多毛的大隂户| 亚洲 欧美 激情 小说 另类| 女同在线网站免费观看| 黄桃av无码免费一区二区三区| 久草热8精品视频在线观看| 亚洲蜜芽在线精品一区| 久久久精品亚洲一区二区国产av| 亚洲精品久久久久中文字幕一福利 | 精品国产精品三级精品av网址| 波多野结衣一区二区三区高清| 久久久久久无码AV成人影院| 精品人妻av一区二区三区麻豆|