聶卉 吳曉燕
關(guān)鍵詞: 在線醫(yī)療咨詢文本; 抑郁癥; 語(yǔ)義建模; 短語(yǔ)識(shí)別
DOI:10.3969 / j.issn.1008-0821.2023.09.006
〔中圖分類號(hào)〕G202; TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 09-0063-11
據(jù)世界衛(wèi)生組織報(bào)告, 抑郁癥已成為全球巨大的疾病負(fù)擔(dān), 約3 8%的世界人口患有不同程度的抑郁癥[1] 。要降低疾病危害, 患者盡早接受醫(yī)療救助至關(guān)重要?!熬€上問(wèn)診” 打破了傳統(tǒng)就醫(yī)模式的時(shí)空束縛, 調(diào)查顯示抑郁癥病患對(duì)線上問(wèn)診的接受度高達(dá)92 24%[2] 。在線問(wèn)診記錄是患者與醫(yī)生的交流文本, 求診者對(duì)病程、感受、狀態(tài)、情緒的陳述[3] 反饋出其罹患疾病的性質(zhì)、嚴(yán)重度及對(duì)健康的影響, 是疾病診斷的重要依據(jù)[4] 。在真實(shí)的醫(yī)療場(chǎng)景中, 相較其他疾病, 抑郁癥診斷也主要依托量表及患者與醫(yī)生的交流記錄, 因此, 大規(guī)模在線問(wèn)診記錄為抑郁癥研究提供了充分的數(shù)據(jù)支持。
現(xiàn)有基于互聯(lián)網(wǎng)的抑郁癥研究, 主要是通過(guò)分析用戶生成內(nèi)容來(lái)預(yù)測(cè)抑郁風(fēng)險(xiǎn), 首要任務(wù)是識(shí)別抑郁癥狀。早期研究采用詞典法, 但靜態(tài)詞典不能全面覆蓋患者病況, 預(yù)測(cè)精準(zhǔn)度低; 而隨后提出的有監(jiān)督機(jī)器學(xué)習(xí)則需付出人工標(biāo)注成本。因此, 設(shè)計(jì)一個(gè)無(wú)需標(biāo)注, 也能高效地從患者問(wèn)診記錄中識(shí)別抑郁病癥的方案成為本研究要點(diǎn)。
深度學(xué)習(xí)建模技術(shù)在自然語(yǔ)言處理方面性能卓越?;诖笠?guī)模的抑郁癥在線咨詢文本語(yǔ)料, 本研究引入深度學(xué)習(xí)建模技術(shù), 采用無(wú)監(jiān)督機(jī)器學(xué)習(xí)策略構(gòu)建癥狀識(shí)別模型, 并通過(guò)抑郁癥典型特征分析、抑郁癥風(fēng)險(xiǎn)預(yù)測(cè)兩個(gè)實(shí)際應(yīng)用檢驗(yàn)癥狀識(shí)別模型的實(shí)效。本研究工作旨為輔助醫(yī)生診斷、提高醫(yī)療平臺(tái)問(wèn)診服務(wù)效率、增強(qiáng)抑郁癥篩查和防控能力提供技術(shù)參考。
1文獻(xiàn)綜述
1.1醫(yī)學(xué)術(shù)語(yǔ)與疾病癥狀的識(shí)別研究
與疾病有關(guān)的醫(yī)學(xué)術(shù)語(yǔ)的識(shí)別與表示是醫(yī)學(xué)自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題[5] 。早期研究主要采用詞典和規(guī)則匹配法, 如Matheny M E 等[6] 基于關(guān)鍵字和本體規(guī)則, 從臨床記錄中自動(dòng)抽取傳染性疾病的癥狀。Byrd R J 等[7] 借助詞典與語(yǔ)法分析, 從病人記錄中提取心力衰竭的描述?;谠~典和規(guī)則的方法完全依靠醫(yī)學(xué)領(lǐng)域詞典和專家, 實(shí)際應(yīng)用中普適性較差[8] 。隨后, 學(xué)者們提出了有監(jiān)督機(jī)器學(xué)習(xí)方案, 因?yàn)橛袑W(xué)習(xí)過(guò)程, 有監(jiān)督學(xué)習(xí)擺脫了外部資源的制約, 可應(yīng)用于不同場(chǎng)景。用有監(jiān)督機(jī)器學(xué)習(xí)抽取醫(yī)學(xué)術(shù)語(yǔ)的3 個(gè)主流算法是支持向量機(jī)(SVM)、隱馬爾可夫模型(HMM) 和條件隨機(jī)場(chǎng)(CRF),CRF 應(yīng)用最廣[9] 。葉楓等[10] 以語(yǔ)言符號(hào)、詞性、構(gòu)詞模式、詞邊界、上下文為特征, 采用CRF 識(shí)別電子病歷中包括癥狀在內(nèi)的醫(yī)學(xué)命名實(shí)體。Forsyth AW 等[11] 用CRF 從乳腺癌患者的診療記錄中提取疾病癥狀并判斷性質(zhì)。相較詞典匹配, 有監(jiān)督機(jī)器學(xué)習(xí)方案顯著提升了術(shù)語(yǔ)識(shí)別的查全率, 整體表現(xiàn)更優(yōu)。但有監(jiān)督機(jī)器學(xué)習(xí)算法的表現(xiàn)很大程度上取決于特征工程, 存在不穩(wěn)定性。
近年, 深度學(xué)習(xí)為醫(yī)學(xué)領(lǐng)域的自然語(yǔ)言處理任務(wù)提供了富有潛力的方案。深度學(xué)習(xí)框架不考慮特征工程, 以分布式向量表示醫(yī)學(xué)文本, 并應(yīng)用于疾病診斷。如Guo D 等[12] 先利用MetaMap 從病案記錄中抽取癥狀, 然后用詞向量表示癥狀, 再運(yùn)用深度學(xué)習(xí)框架(Bi-LSTM)預(yù)測(cè)疾病發(fā)生風(fēng)險(xiǎn)。Luo X等[13] 同樣先用MetaMap 提取病案中有關(guān)體征和生理的醫(yī)學(xué)術(shù)語(yǔ), 再整合用藥等信息, 構(gòu)建咳嗽診斷模型, 該研究對(duì)比了多種機(jī)器學(xué)習(xí)方案, 基于BERT 預(yù)訓(xùn)練模型的診斷模型表現(xiàn)最佳。
1.2抑郁癥狀的提取與應(yīng)用研究
作為面向特定疾病的醫(yī)學(xué)癥狀識(shí)別研究, 抑郁癥癥狀識(shí)別遵循同樣的技術(shù)路線。Karmen C 等[14] 根據(jù)抑郁癥量表獲取癥狀術(shù)語(yǔ)種子, 然后利用詞典拓展同義詞, 生成癥狀詞典。Cavazos-Rehg P A 等[15]直接依據(jù)《精神障礙診斷與統(tǒng)計(jì)手冊(cè)》(DSM-5),對(duì)Twitter 推文中的抑郁癥狀進(jìn)行手動(dòng)編碼, 然后統(tǒng)計(jì)出與重度抑郁癥相關(guān)的癥狀描述。Wu C 等[16]利用電子健康記錄檢測(cè)重度抑郁癥的典型癥狀, 癥狀識(shí)別采用了CRF。深度學(xué)習(xí)技術(shù)則越來(lái)越多地在最新的研究文獻(xiàn)中出現(xiàn), Uddin M Z 等[17] 通過(guò)公共信息網(wǎng)獲取用戶生成內(nèi)容, 根據(jù)醫(yī)生列出的抑郁癥狀為用戶建模, 再運(yùn)用深度學(xué)習(xí)框架RNN 預(yù)測(cè)用戶的抑郁癥傾向。Yao X 等[18] 運(yùn)用深度學(xué)習(xí)框架Att-BiLSTM 構(gòu)建文本分類器, 對(duì)抑郁癥社區(qū)中用戶提及的抑郁癥狀進(jìn)行分類整理, 再通過(guò)網(wǎng)絡(luò)分析挖掘癥狀間的關(guān)聯(lián)。
包括深度學(xué)習(xí), 應(yīng)用有監(jiān)督機(jī)器學(xué)習(xí)算法, 移植性和標(biāo)注成本是兩個(gè)不可回避的問(wèn)題。面對(duì)大規(guī)模語(yǔ)料, 有學(xué)者嘗試了無(wú)監(jiān)督機(jī)器學(xué)習(xí)策略, Ma L等[19] 使用詞向量表示癥狀, 用聚類技術(shù)抽取抑郁癥狀。Usman A 等[20] 首先構(gòu)建基于詞向量的情感詞典, 再運(yùn)用深度聚類算法分析患者發(fā)布文本, 以可視化方式呈現(xiàn)患者文本中的情緒??梢?, 用無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法識(shí)別疾病癥狀同樣可行[21] 。相關(guān)研究發(fā)現(xiàn)對(duì)于患者個(gè)性化的陳述, 癥狀表達(dá)存在句法和語(yǔ)義上的變異性[4] , 常無(wú)法直接對(duì)應(yīng)單一詞項(xiàng),短語(yǔ)的長(zhǎng)度靈活, 表達(dá)語(yǔ)義豐富, 顯然更適于描述疾病癥狀。
綜上, 無(wú)監(jiān)督機(jī)器學(xué)習(xí)的普適性為在大規(guī)模語(yǔ)料集上快速檢測(cè)抑郁癥風(fēng)險(xiǎn)提供了新的技術(shù)選擇,短語(yǔ)形式的癥狀描述則能更準(zhǔn)確地表達(dá)語(yǔ)義, 因此, 采用無(wú)監(jiān)督機(jī)器學(xué)習(xí)策略, 基于語(yǔ)義建模, 實(shí)現(xiàn)短語(yǔ)級(jí)抑郁癥狀的自動(dòng)識(shí)別值得探究。
2研究設(shè)計(jì)
數(shù)據(jù)層面, 基于求診者的問(wèn)診記錄建立語(yǔ)料庫(kù),是本研究的首要任務(wù)。問(wèn)診記錄中的“疾病描述”部分包含大量抑郁癥狀描述, 本研究從中提取這些癥狀描述, 用于構(gòu)建患者模型, 并用于抑郁癥典型癥狀分析和抑郁癥風(fēng)險(xiǎn)預(yù)測(cè)兩個(gè)任務(wù)。在原始語(yǔ)料中, 沒(méi)有字段明確標(biāo)識(shí)病況(是否是確診患者以及抑郁的程度), 病況從問(wèn)診記錄中獲取, 并據(jù)此生成研究語(yǔ)料集。方法層面, 識(shí)別癥狀短語(yǔ)是研究重點(diǎn), 主要涉及短語(yǔ)抽取與語(yǔ)義建模兩個(gè)任務(wù)。對(duì)此, 本研究采用無(wú)監(jiān)督機(jī)器學(xué)習(xí)策略并引入深度學(xué)習(xí)模型表示癥狀。應(yīng)用層面, 在抑郁癥典型癥狀分析和抑郁癥風(fēng)險(xiǎn)預(yù)測(cè)兩個(gè)具體任務(wù)上檢測(cè)癥狀識(shí)別算法的實(shí)效。依據(jù)上述設(shè)計(jì), 將整個(gè)研究分為三部分, 如圖1 所示: 語(yǔ)料庫(kù)構(gòu)建, 抑郁癥狀短語(yǔ)自動(dòng)識(shí)別及應(yīng)用, 核心是癥狀短語(yǔ)的識(shí)別算法。
3研究方法
研究采用無(wú)監(jiān)督機(jī)器學(xué)習(xí)方案實(shí)現(xiàn)抑郁癥狀短語(yǔ)的自動(dòng)識(shí)別。算法基本思想是, 基于抑郁癥量表先構(gòu)建癥狀種子詞庫(kù), 再?gòu)摹凹膊∶枋觥?文本提取有關(guān)癥狀的敘述(短語(yǔ)形式)作為癥狀候選項(xiàng), 計(jì)算候選項(xiàng)與種子間的語(yǔ)義相似度, 據(jù)此判定候選短語(yǔ)是否為抑郁癥癥狀, 并明確癥狀的類別。算法核心是如何對(duì)短語(yǔ)進(jìn)行恰當(dāng)?shù)恼Z(yǔ)義表示, 本研究選擇了Word2Vec、Doc2Vec 和Sentence-BERT 3 種語(yǔ)言模型, 通過(guò)數(shù)據(jù)實(shí)驗(yàn)從中選出最佳。整個(gè)算法包括抑郁癥癥狀種子庫(kù)構(gòu)建、候選癥狀短語(yǔ)提取、癥狀識(shí)別3 個(gè)部分。
3.1抑郁癥癥狀種子庫(kù)構(gòu)建
抑郁癥癥狀種子是一組描述抑郁典型癥狀的詞項(xiàng)或短語(yǔ), 是診斷患者抑郁的重要依據(jù)。臨床檢測(cè)中, 患者需要填寫抑郁測(cè)試量表, 醫(yī)生據(jù)此了解其感知、認(rèn)知、生理、行為等方面的狀態(tài), 量表題項(xiàng)中有針對(duì)癥狀的規(guī)范表達(dá)。例如, 貝克抑郁量表BDI-Ⅱ量表的題項(xiàng)“我比之前睡眠過(guò)少” 中“睡眠過(guò)少” 就是抑郁癥“睡眠障礙” 的典型癥狀。
研究首先依據(jù)國(guó)際疾病分類ICD-10(Interna?tional Classification of Diseases, ICD)體系標(biāo)準(zhǔn)診斷中的癥狀類別建立抑郁癥癥狀分類體系, 再按分類體系從量表題項(xiàng)中梳理出表述癥狀的代表性短語(yǔ)或詞項(xiàng), 即癥狀種子。研究共梳理了10 個(gè)臨床心理學(xué)常用量表, 包括貝克抑郁量表Ⅱ(BDI-Ⅱ)、抑郁癥DSM-IV 的診斷標(biāo)準(zhǔn)、抑郁癥診斷標(biāo)準(zhǔn)ICD-10、流行病學(xué)研究中心抑郁量表(CES-D)、老年抑郁量表(GDS)、漢密爾頓抑郁量表(HAM-D)、蒙哥馬利-阿斯伯格抑郁量表(MADRS)、Zung 抑郁自評(píng)量表(SDS)、DSM-5 對(duì)抑郁癥的診斷標(biāo)準(zhǔn)、PHQ-9 抑郁癥篩查量表。將從量表中提取的癥狀種子映射到癥狀分類體系中, 形成癥狀種子庫(kù)。如表1 所示, 癥狀種子庫(kù)含有86 個(gè)種子詞, 對(duì)應(yīng)10類抑郁癥典型癥狀。
3.2候選癥狀短語(yǔ)提取
候選短語(yǔ)提取在開源漢語(yǔ)語(yǔ)言平臺(tái)HanLP(ht?tps:/ / www.hanlp.com/ )[22] 上實(shí)現(xiàn)。該平臺(tái)在中文自然語(yǔ)言處理領(lǐng)域有廣泛應(yīng)用, 提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、短語(yǔ)識(shí)別等基本語(yǔ)言處理功能, 其中, 短語(yǔ)識(shí)別基于互信息與信息熵實(shí)現(xiàn)。研究利用該平臺(tái)從“疾病描述” 文本中抽取短語(yǔ), 并對(duì)組成短語(yǔ)的詞項(xiàng)進(jìn)行詞性標(biāo)注, 將含有動(dòng)詞(包括動(dòng)詞v、動(dòng)詞性慣用語(yǔ)vl 和不及物動(dòng)詞vi)、名詞(包括名詞n、名動(dòng)詞vn、專有名詞nz)和形容詞(包括形容詞a 和名形詞an)的短語(yǔ)作為候選癥狀短語(yǔ), 短語(yǔ)抽取效果如表2 所示??梢钥闯?, 候選短語(yǔ)中有大量與抑郁癥癥狀有關(guān)的敘述, 后續(xù)識(shí)別任務(wù)即通過(guò)語(yǔ)義計(jì)算確立候選短語(yǔ)與抑郁癥典型癥狀間的關(guān)系。
3.3癥狀識(shí)別
要確立候選短語(yǔ)與抑郁癥典型癥狀的語(yǔ)義關(guān)聯(lián),語(yǔ)義模型的選擇是關(guān)鍵。研究選用了Word2Vec、Doc2Vec 和Sentence-BERT 3 個(gè)語(yǔ)義模型對(duì)抑郁癥癥狀短語(yǔ)向量化。Word2Vec 是經(jīng)典的詞向量模型,成功運(yùn)用在各種自然語(yǔ)言分析任務(wù)中, 完成了從詞袋到詞向量語(yǔ)義特征表示的跨越[23] 。Doc2Vec[24] 是Word2Vec 的文檔級(jí)模型??紤]到本研究中, 抑郁癥癥狀采用短語(yǔ)表達(dá), Doc2Vec 模型可能更合理。
BERT 是目前自然語(yǔ)言處理領(lǐng)域最流行的語(yǔ)言模型, 它通過(guò)在大規(guī)模語(yǔ)料上采用NSP(Next Sen?tence Prediction)機(jī)制和掩碼語(yǔ)言模型(Masked Lan?guage Model, MLM)做預(yù)訓(xùn)練任務(wù), 能夠使模型學(xué)到豐富的語(yǔ)義知識(shí), 具備理解文本深層語(yǔ)義的能力[25] 。盡管如此, 在句子對(duì)回歸等任務(wù)(如文本相似度計(jì)算, 語(yǔ)義聚類)上, 原生BERT 需將句子拼接后輸入模型, 再通過(guò)帶有自注意機(jī)制Self-atten?tion 的transformer 網(wǎng)絡(luò)進(jìn)行預(yù)測(cè), 這導(dǎo)致巨大的計(jì)算開銷, 在語(yǔ)義相似度搜索等任務(wù)上的表現(xiàn)并不理想。為此, Reimers N 等[26] 對(duì)BERT 結(jié)構(gòu)進(jìn)行修改,他們使用孿生網(wǎng)絡(luò)或3 胞胎網(wǎng)絡(luò)(Siamese and Trip?let Network)生成維度固定的語(yǔ)句向量, 語(yǔ)義相近的語(yǔ)句, 語(yǔ)句向量的空間距離接近, 通過(guò)余弦相似度、歐式距離計(jì)算能夠快速找到語(yǔ)義相近的語(yǔ)句,這就是Sentence - BERT 的構(gòu)建原理。相較原生BERT, Sentence-BERT 在不影響準(zhǔn)確性的同時(shí),能夠大幅提升計(jì)算效率(計(jì)算余弦相似度大概為0.01 秒), 特別適用于文本相似度計(jì)算、文本聚類等無(wú)監(jiān)督機(jī)器學(xué)習(xí)任務(wù)[27] 。
Sentence-BERT 的結(jié)構(gòu)如圖2 所示。兩個(gè)語(yǔ)句Sentence A 和Sentence B 通過(guò)共享參數(shù)的BERT 模型生成它們的字向量(Token Embedding), 再傳入池化層(Pooling)進(jìn)行平均池化操作, 得到固定維度的句向量u 和v。然后計(jì)算u 和v 的余弦相似度Cos-similarity(u,v), 并輸出。微調(diào)過(guò)程中均方誤差(Mean Squared Error, MSE)為損失函數(shù)。在Rei?mers N 等[26] 的實(shí)驗(yàn)中, 文本語(yǔ)義相似度計(jì)算的評(píng)測(cè)語(yǔ)料是語(yǔ)義文本相似計(jì)算(Semantic Textual Simi?larity, STS)任務(wù)的數(shù)據(jù), 這些數(shù)據(jù)是成對(duì)帶類標(biāo)的語(yǔ)句, 類標(biāo)標(biāo)識(shí)了語(yǔ)句間的關(guān)系, 取值范圍為0~5。評(píng)測(cè)實(shí)驗(yàn)直接用訓(xùn)練好的模型計(jì)算語(yǔ)句對(duì)的相似度, 然后通過(guò)皮爾曼等級(jí)相關(guān)系數(shù)評(píng)測(cè)模型優(yōu)劣, 結(jié)果顯示, 相較原生BERT, Sentence-BERT表現(xiàn)最佳。
本研究要計(jì)算種子詞與候選癥狀短語(yǔ)之間的語(yǔ)義相似度, 分別采用了Word2Vec、Doc2Vec 和Sentence-BERT 3 個(gè)模型對(duì)候選癥狀短語(yǔ)和種子詞向量化, 再計(jì)算候選癥狀短語(yǔ)與每類種子詞的語(yǔ)義相似度, 見式(1)。其中, t 為候選癥狀短語(yǔ)向量, Ci 對(duì)應(yīng)癥狀類i, 為候選癥狀短語(yǔ)t 與種子詞s的余弦相似度。依據(jù)式(1) 分別計(jì)算候選詞t 與每個(gè)癥狀類Ci(i =1,2,…,10)的相似度, 若相似度的最大值滿足閾值設(shè)定, 指定相似度最大的類CMax為候選癥狀t 的類別。
4實(shí)驗(yàn)與結(jié)果
4.1語(yǔ)料庫(kù)構(gòu)建
4.1.1數(shù)據(jù)源與數(shù)據(jù)采集
“好大夫在線” (https://www.haodf.com/ )是國(guó)內(nèi)領(lǐng)先的在線醫(yī)療平臺(tái)。據(jù)最新統(tǒng)計(jì), 該平臺(tái)收錄了國(guó)內(nèi)1 萬(wàn)多家正規(guī)醫(yī)院的89 萬(wàn)名醫(yī)生的信息,累計(jì)服務(wù)量超過(guò)7 900萬(wàn)人次[28] 。問(wèn)診記錄規(guī)模在國(guó)內(nèi)在線醫(yī)療平臺(tái)中名列前茅?;谠撈脚_(tái)的數(shù)據(jù)質(zhì)量及在醫(yī)療服務(wù)領(lǐng)域的權(quán)威性, 本研究將其作為數(shù)據(jù)源, 采集了“好大夫在線” 近3 年問(wèn)診記錄百萬(wàn)余條, 其中361 647條記錄來(lái)自精神科、心理咨詢科和神經(jīng)內(nèi)科, 從中篩選出抑郁癥醫(yī)療咨詢記錄71 654條。每條記錄包含疾病描述、疾病名、患者性別、年齡、病程等字段。其中, “疾病描述”為文本型字段, 是患者面對(duì)醫(yī)生針對(duì)個(gè)人病情的詳細(xì)陳述, 為患者問(wèn)診的主要內(nèi)容。本研究選擇該字段內(nèi)容提取患者的病征、情緒、心理狀態(tài)和行為,數(shù)據(jù)采集樣例如圖3所示。
4.1.2 抑郁癥預(yù)測(cè)評(píng)測(cè)語(yǔ)料
抑郁癥預(yù)測(cè)評(píng)測(cè)語(yǔ)料用于檢驗(yàn)抑郁癥人群的自動(dòng)識(shí)別效果。研究采用關(guān)鍵詞匹配策略從問(wèn)診記錄中提取確診信息, 并對(duì)語(yǔ)料做標(biāo)注。具體步驟如下:
首先對(duì)“疾病描述” 的內(nèi)容進(jìn)行分詞, 剔除單個(gè)字詞語(yǔ)、數(shù)字、標(biāo)點(diǎn)符號(hào)及過(guò)短(文本長(zhǎng)度<18)記錄, 獲得抑郁癥問(wèn)診記錄70 705條。算法遍歷每條記錄內(nèi)容, 依據(jù)匹配規(guī)則, 提取確診信息。例如: “…今天去了北京安定醫(yī)院診療。做了心理評(píng)估, 結(jié)果為輕度抑郁?!?, 由此斷定問(wèn)診者患“輕度” 抑郁癥, 將其問(wèn)診記錄標(biāo)注為“輕度”。完成初始標(biāo)注后, 進(jìn)行抽樣檢查, 發(fā)現(xiàn)部分確診情況只是患者推測(cè), 如“感覺有輕/ 中/ 重度抑郁”,故設(shè)定“非確診” 規(guī)則對(duì)初標(biāo)注語(yǔ)料進(jìn)行二次梳理與核查, 最終獲得帶抑郁癥程度標(biāo)記的語(yǔ)料8391條, 其中, 重度抑郁3090條, 中度抑郁3016條, 輕度抑郁問(wèn)診記錄2 285條。另外, 從非精神類疾病的問(wèn)診記錄中隨機(jī)抽取2 797條, 歸為“非抑郁”, “非抑郁” 疾病涵蓋多種疾病, 這些疾病在生理層面與抑郁癥可能存在類似癥狀, 如“頭痛”“乏力”, 但精神情志層面與抑郁癥應(yīng)有顯著差異。將這類問(wèn)診記錄與抑郁癥問(wèn)診記錄進(jìn)行整合, 分成“輕度、中度、重度、非抑郁” 4 組, 共計(jì)11188條, 語(yǔ)料命名為DATASET1。
4.1.3抑郁癥癥狀識(shí)別評(píng)測(cè)語(yǔ)料
研究采用Word2Vec、Doc2Vec 和Sentence-BERT3 個(gè)語(yǔ)義模型表示癥狀短語(yǔ), 抑郁癥癥狀識(shí)別語(yǔ)料用于評(píng)測(cè)3 個(gè)模型的性能表現(xiàn)。語(yǔ)料標(biāo)注采用人工方式, 從抑郁癥患者的70 705條問(wèn)診記錄中隨機(jī)抽?。福埃?條, 對(duì)照抑郁癥癥狀分類體系, 如表2 所示, 對(duì)“疾病描述” 文本中提及的候選癥狀短語(yǔ)進(jìn)行人工歸類, 示例如表3 所示。形成一個(gè)小規(guī)模的評(píng)測(cè)語(yǔ)料集DATASET2。
4.2抑郁癥癥狀識(shí)別模型
采用4.1.3 的癥狀短語(yǔ)識(shí)別方法, 在DATA?SET2 上進(jìn)行實(shí)驗(yàn)。Word2Vec 和Doc2Vec 基于361 647條來(lái)自精神科、心理咨詢科、神經(jīng)內(nèi)科的問(wèn)診記錄構(gòu)建。3 個(gè)語(yǔ)言模型的參數(shù)設(shè)置如表4 所示。另外, 依據(jù)算法, 在確定候選短語(yǔ)t 的癥狀類別C 時(shí), 要求t 與C 的相似度超過(guò)閾值ε。研究將ε 作為參數(shù), 通過(guò)實(shí)驗(yàn)確定, 如圖4(a)、圖4(b)所示。
評(píng)測(cè)指標(biāo)是識(shí)別10 類癥狀短語(yǔ)的準(zhǔn)確率、召回率和F1 值的微平均值。如圖4(a)所示, 模型Word2Vec 和Sentence-BERT 的表現(xiàn)優(yōu)于Doc2Vec。當(dāng)ε∈[0.5,0. 6]時(shí), Word2Vec 和Sentence-BERT的F1 值接近, 分值最高。細(xì)分ε 的實(shí)驗(yàn)結(jié)果見圖4(b)。整體觀察, 當(dāng)ε =0.51 時(shí), Sentence-BERT的表現(xiàn)最好, F1 值為70.27%, 略優(yōu)于Word2Vec的最好表現(xiàn)(F1 = 70.09%)。準(zhǔn)確率指標(biāo)上, Sen?tence-BERT 最好達(dá)到73.85%, 高Word2Vec 3.76個(gè)百分點(diǎn), 表明Sentence-BERT 的錯(cuò)誤率更低。但召回率指標(biāo)上, Sentence-BERT 為67.03%, 低于Word2Vec(召回率70.09%)。權(quán)衡兩個(gè)模型, 研究認(rèn)為對(duì)于疾病癥狀識(shí)別任務(wù), 在語(yǔ)料相對(duì)充足的前提下, 準(zhǔn)確率更重要。因此, 后續(xù)采用Sentence-BERT 表示短語(yǔ), 閾值ε 設(shè)定為0.51。因該評(píng)測(cè)語(yǔ)料規(guī)模相對(duì)較小, Sentence-BERT 癥狀識(shí)別算法的實(shí)效在抑郁癥患者典型特征分析和抑郁預(yù)測(cè)兩個(gè)任務(wù)上將做進(jìn)一步檢測(cè)。
4.3抑郁癥典型癥狀分析
將4.2 的抑郁癥癥狀識(shí)別算法應(yīng)用于DATA?SET1。針對(duì)不同抑郁程度的病人, 抽取“疾病描述” 中的癥狀短語(yǔ)進(jìn)行統(tǒng)計(jì)。圖5 展示了“輕度,中度, 重度” 3 組患者問(wèn)診記錄中癥狀短語(yǔ)的分布情況??傮w觀察, 嚴(yán)重困擾抑郁癥患者的3 類癥狀分別是心境低落(類1)、睡眠障礙(類9)和精力下降(類3), 3 類癥狀的出現(xiàn)頻率顯著高于其他癥狀; 而不同抑郁程度的患者, 3 類癥狀出現(xiàn)頻率差異不大, 說(shuō)明心境低落、睡眠障礙和精力下降是抑郁患者的共有表現(xiàn)。但圖4 揭示出, 隨著患者病情加重, 興趣和愉快感喪失(類2)、自傷或自殺觀念行為(類8)、食欲下降(類10)癥狀的提及率逐步上升, 尤其輕度、中度和重度患者問(wèn)診記錄中有關(guān)“自傷或自殺觀念行為(類8)” 的短語(yǔ)的提及率有顯著差異, 說(shuō)明“自傷或自殺觀念行為” 的出現(xiàn)是抑郁嚴(yán)重度診斷的重要依據(jù), 嚴(yán)重抑郁伴隨著極端行為的發(fā)生, 這一結(jié)論與臨床檢測(cè)量表的測(cè)度依據(jù)一致, 從一定程度上檢驗(yàn)了癥狀識(shí)別算法的效力。
4.4根據(jù)癥狀識(shí)別抑郁人群
該實(shí)驗(yàn)通過(guò)建立抑郁癥預(yù)測(cè)模型明確抑郁癥人群的典型特征, 進(jìn)一步檢驗(yàn)本文提出的癥狀識(shí)別算法的實(shí)效。根據(jù)10 類癥狀創(chuàng)建10 個(gè)特征變量, 若“疾病描述” 中提及了某類癥狀, 則對(duì)應(yīng)的特征變量賦1, 否則為0, 即將病情描述文本轉(zhuǎn)換為10 維的0/1矢量, 以癥狀矢量為輸入, 預(yù)測(cè)問(wèn)診者是否為確診病人。
預(yù)測(cè)模型選用了分類性能優(yōu)異, 并能夠進(jìn)行特征重要性分析的XGBoost 集成樹算法[31] 。以DATA?SET1 為實(shí)驗(yàn)數(shù)據(jù), 按1∶4劃分為測(cè)試集和訓(xùn)練集。在訓(xùn)練集上采用五折交叉驗(yàn)證的網(wǎng)格搜索法確定重要參數(shù), 參數(shù)取值及最優(yōu)參數(shù)結(jié)果如表5 所示, 采用最優(yōu)參數(shù)模型對(duì)測(cè)試集的問(wèn)診記錄做預(yù)測(cè)。結(jié)果如表6 所示, 二分類模型的F1 值達(dá)到75.3%, 精確率和召回率接近, 均在75%以上, 模型整體表現(xiàn)較理想。對(duì)抑郁患者的識(shí)別能夠達(dá)到精確率(78.81%), 高于非抑郁患者(72.29%), 說(shuō)明基于癥狀特征構(gòu)建的預(yù)測(cè)模型能較好區(qū)分抑郁與非抑郁癥患者。
XGBoost 同時(shí)計(jì)算出10 類癥狀特征變量的相對(duì)重要度。特征重要度反映各特征項(xiàng)在預(yù)測(cè)任務(wù)中的貢獻(xiàn), 據(jù)此也可揭示抑郁癥人群的典型癥狀。結(jié)果如圖6 所示, 心境低落(類1)、睡眠障礙(類9)、自傷或自殺的觀念或行為(類8)3 類癥狀是診斷抑郁癥的重要因素, 基于XGBoost 的特征重要度排名與抑郁癥典型癥狀特征分析結(jié)果一致。心境低落(類1)、睡眠障礙(類9)是患者提及率最高的癥狀, 特別是心境低落(類1), 其重要度遠(yuǎn)高出其他9 個(gè)變量。這兩個(gè)癥狀也是抑郁癥診斷標(biāo)準(zhǔn)ICD-107 列出的抑郁癥主要特征。自傷或自殺的觀念或行為(類8)是區(qū)分抑郁程度的重要線索, 同樣也是臨床判斷病患病況的關(guān)鍵信息。這些與臨床抑郁癥診斷標(biāo)準(zhǔn)相吻合結(jié)論, 間接驗(yàn)證了本文抑郁癥狀自動(dòng)識(shí)別算法的有效性。
5研究結(jié)論與局限
5.1研究結(jié)論
本研究利用心理學(xué)領(lǐng)域的抑郁癥測(cè)度量表, 運(yùn)用自然語(yǔ)言處理及深度學(xué)習(xí)建模技術(shù), 以無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了基于患者在線問(wèn)診記錄的抑郁癥癥狀的自動(dòng)抽取?;诔槿〉募膊“Y狀, 對(duì)不同抑郁程度的患者進(jìn)行了典型癥狀分析, 并實(shí)現(xiàn)抑郁癥人群的自動(dòng)檢測(cè), 檢驗(yàn)了本文抑郁癥癥狀識(shí)別算法的有效性。主要結(jié)論歸結(jié)為以下兩點(diǎn):
方法層面, 在評(píng)測(cè)語(yǔ)料上, 本文提出算法的癥狀識(shí)別精度為73.85%。應(yīng)用該算法分析抑郁癥患者典型特征、識(shí)別抑郁癥人群, 結(jié)果與臨床診斷標(biāo)準(zhǔn)基本一致, 驗(yàn)證了算法的可行性與合理性。癥狀短語(yǔ)的語(yǔ)義建模實(shí)驗(yàn)比較了3 個(gè)深度學(xué)習(xí)模型,Word2Vec、Doc2Vec 和Sentence-BERT, 具有深層次語(yǔ)義表達(dá)能力Sentence-BERT 整體表現(xiàn)最佳, 表明強(qiáng)化短語(yǔ)的語(yǔ)義表示, 用無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方案也能夠有效識(shí)別疾病癥狀。
應(yīng)用層面, 從患者問(wèn)診記錄中的“疾病描述”中提取抑郁癥癥狀, 應(yīng)用描述統(tǒng)計(jì)和集成樹算法XGBoost 對(duì)抑郁癥群體的典型癥狀進(jìn)行分析。描述統(tǒng)計(jì)得出的結(jié)論是, 心境低落、睡眠障礙和精力降低是抑郁癥患者的共有癥狀, 興趣和愉快感喪失、自傷或自殺觀念行為、食欲下降是中/ 重度病患的典型表現(xiàn)。抑郁癥人群的預(yù)測(cè)實(shí)驗(yàn)則揭示, 心境低落、睡眠障礙、自傷或自殺的觀念或行為是診斷抑郁癥的3 個(gè)主要依據(jù)。這些依據(jù)在線醫(yī)療文本數(shù)據(jù)得出的結(jié)論與臨床心理學(xué)的抑郁癥診斷標(biāo)準(zhǔn)相吻合, 說(shuō)明本方案在實(shí)際應(yīng)用中能為醫(yī)生快速診斷病情提供有價(jià)值的參考, 而檢測(cè)手段的自動(dòng)化將有助于提升醫(yī)療平臺(tái)對(duì)危重患者的響應(yīng)能力, 采取有效的干預(yù)措施, 降低病癥帶給人類健康的危害。
5.2研究局限和后續(xù)研究思考
本研究有3點(diǎn)不足, 為后續(xù)工作提供了研究思路: ①本研究重點(diǎn)分析醫(yī)療咨詢文本中患者疾病癥狀的顯性表達(dá), 用短語(yǔ)描述癥狀, 盡管運(yùn)用了語(yǔ)義模型, 但語(yǔ)句的上下文信息并未納入模型, 這可能導(dǎo)致抑郁癥的某些癥狀表述未能提取, 從而對(duì)抑郁癥人群識(shí)別模型的預(yù)測(cè)精度產(chǎn)生影響。后續(xù)考慮直接利用疾病描述本文建模, 基于隱性表達(dá)的特征預(yù)測(cè)抑郁癥發(fā)生風(fēng)險(xiǎn), 并與本文模型進(jìn)行對(duì)比; ②因癥狀短語(yǔ)的標(biāo)注成本較高, 癥狀識(shí)別評(píng)測(cè)語(yǔ)料規(guī)模偏小。本研究通過(guò)兩個(gè)下游任務(wù)檢測(cè)算法, 后續(xù)將擴(kuò)大評(píng)測(cè)語(yǔ)料的規(guī)模, 進(jìn)一步優(yōu)化算法; ③將癥狀提取結(jié)果應(yīng)用于檢測(cè)抑郁人群, 以實(shí)現(xiàn)抑郁癥早期發(fā)現(xiàn), 而抑郁嚴(yán)重程度預(yù)測(cè)將有助于實(shí)施個(gè)性化治療, 這將成為未來(lái)的另一探索方向。