徐慕豪,葛欣宜,劉 洋,劉俊秀,趙 耀,朱振峰+
1.北京交通大學(xué) 信息科學(xué)研究所,北京100044
2.北京交通大學(xué) 現(xiàn)代信息科學(xué)與網(wǎng)絡(luò)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100044
3.北京大學(xué)第三醫(yī)院 耳鼻咽喉頭頸外科,北京100191
近年來(lái),隨著計(jì)算機(jī)和信息技術(shù)的不斷發(fā)展,我國(guó)的醫(yī)療信息化產(chǎn)業(yè)逐漸建設(shè)完善,其中患者的就診記錄也從原先的紙質(zhì)材料轉(zhuǎn)變?yōu)閿?shù)字化的電子病歷。相比世界其他國(guó)家,我國(guó)在電子病歷建設(shè)方面起步較晚。但隨著醫(yī)療衛(wèi)生系統(tǒng)愈發(fā)受到人們關(guān)注重視,近年來(lái)我國(guó)政府也出臺(tái)了多項(xiàng)政策來(lái)支持醫(yī)療信息化的建設(shè)與發(fā)展。
電子病歷是醫(yī)療信息化中重要的數(shù)據(jù)資料,其貫穿于患者就診看病的全部醫(yī)療活動(dòng)中,涵蓋了大量的醫(yī)療信息和健康信息,有著巨大的研究意義。首先對(duì)于患者來(lái)說(shuō),挖掘電子病歷中的信息有益于自身的健康發(fā)展?;颊咭酝脑\斷信息和健康狀況都被記錄在電子病歷中,如果能提取、分析這些記錄中的數(shù)據(jù)信息,便可為患者的身體狀況、健康信息提供一定的參考與預(yù)測(cè)。同時(shí),通過(guò)挖掘分析患者的電子病歷數(shù)據(jù),可以在大數(shù)據(jù)中尋找到其他類似的患者,以其他患者的狀況信息和用藥信息為該患者提供參考[1-2]。其次對(duì)于醫(yī)生來(lái)說(shuō),挖掘電子病歷中的寶貴信息能提高醫(yī)療效率。
推薦系統(tǒng)可以根據(jù)用戶的偏好預(yù)測(cè)用戶對(duì)其他未接觸項(xiàng)目的潛在興趣,從而為用戶形成個(gè)性化推薦列表[3],已廣泛應(yīng)用在電子商務(wù)、新聞媒體、社交網(wǎng)絡(luò)等眾多領(lǐng)域。目前的用藥推薦算法一般只限于對(duì)患者電子病歷數(shù)據(jù)中數(shù)值型、結(jié)構(gòu)化數(shù)據(jù)的使用,然而本文研究的過(guò)敏性鼻炎是一種較為常見(jiàn)的呼吸道疾病,通常情況下醫(yī)生通過(guò)患者的癥狀和病史便可做出診斷和治療,少數(shù)情況下可能會(huì)進(jìn)行過(guò)敏原檢測(cè)。其病歷中一般只包含文本類型的主訴信息和醫(yī)囑用藥信息,其中主訴文本蘊(yùn)含了醫(yī)生為患者做出診斷和醫(yī)囑用藥的關(guān)鍵信息。同時(shí),注意到癥狀和用藥相當(dāng)于患者在兩個(gè)不同視角上的描述,且兩視角具有較強(qiáng)的相關(guān)關(guān)系。因此,本文研究的問(wèn)題便是通過(guò)構(gòu)建患者主訴和用藥信息之間的關(guān)聯(lián)關(guān)系,將其投影到一個(gè)共享子空間,學(xué)習(xí)患者表示從而為患者推薦合適的藥物,其示意圖如圖1 所示。
圖1 過(guò)敏性鼻炎用藥推薦示意圖Fig.1 Medicine recommendation for allergic rhinitis
為了解決上述問(wèn)題,本文提出了一種基于深度典型相關(guān)自編碼器的過(guò)敏性鼻炎用藥推薦算法。本文首先從非結(jié)構(gòu)化的主訴文本中抽取關(guān)鍵信息,然后通過(guò)構(gòu)建深度典型相關(guān)自編碼器模型對(duì)數(shù)據(jù)進(jìn)行特征提取并建立起主訴癥狀和用藥情況之間的關(guān)聯(lián)關(guān)系,從而為過(guò)敏性鼻炎患者推薦用藥。
本文的主要貢獻(xiàn)有三方面:
(1)提出一種基于搜索引擎的主訴文本結(jié)構(gòu)化表示方法,使用詞語(yǔ)間互信息值對(duì)主訴文本進(jìn)行分詞,基于搜索引擎計(jì)算詞語(yǔ)相似性從而將相似詞語(yǔ)歸為一類,將主訴分詞結(jié)果轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
(2)提出一種基于深度典型相關(guān)分析的藥品推薦算法,利用深度典型相關(guān)自編碼器構(gòu)建患者癥狀和用藥之間的關(guān)聯(lián)關(guān)系,進(jìn)而根據(jù)患者癥狀信息通過(guò)近鄰搜索來(lái)為其推薦用藥。
(3)在一個(gè)真實(shí)的來(lái)自三甲醫(yī)院耳鼻喉科的電子病歷數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)驗(yàn)證了模型的準(zhǔn)確性和有效性,證實(shí)了模型的實(shí)際應(yīng)用價(jià)值。
廣義的推薦系統(tǒng)依賴用戶和項(xiàng)目之間的交互關(guān)系找到用戶的個(gè)性化需求,從而實(shí)現(xiàn)推薦功能。傳統(tǒng)的推薦系統(tǒng)主要分為基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦和混合推薦[4]。其中應(yīng)用最廣泛的基于協(xié)同過(guò)濾的推薦可以分為基于用戶的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾,前者首先尋找與當(dāng)前用戶偏好相似的鄰居用戶,然后從鄰居用戶中為當(dāng)前用戶推薦其沒(méi)有進(jìn)行過(guò)操作的項(xiàng)目;后者則是計(jì)算項(xiàng)目之間的相似性,然后為當(dāng)前用戶推薦和他以前喜好的項(xiàng)目相似的項(xiàng)目。文獻(xiàn)[5]提出一種基于隱性反饋模型與交叉推薦的藥物推薦方法,使用非負(fù)矩陣分解提取癥狀和藥物特征。文獻(xiàn)[6]提出一種基于多源情境協(xié)同感知的藥品推薦方法,對(duì)情境信息、病情信息和藥品信息綜合建模。以上研究并未考慮患者的癥狀和用藥信息之間的相關(guān)關(guān)系,并且線性模型限制了模型的表征能力。
目前用藥推薦方面的研究并不充分,且大多數(shù)研究主要依據(jù)的是患者和藥品之間的交互關(guān)系,從醫(yī)學(xué)領(lǐng)域來(lái)看,僅僅使用交互關(guān)系來(lái)進(jìn)行推薦是極其不準(zhǔn)確的。
典型相關(guān)分析(canonical correlation analysis,CCA)[7]是一種多元統(tǒng)計(jì)分析方法,用于探尋同一個(gè)體中兩個(gè)多向量之間的關(guān)聯(lián)關(guān)系,其使用典型變量對(duì)之間的相關(guān)關(guān)系來(lái)衡量?jī)山M指標(biāo)之間的整體相關(guān)性。CCA 是一種廣泛應(yīng)用在多視角學(xué)習(xí)當(dāng)中的方法,其將兩個(gè)視角的數(shù)據(jù)線性映射到低維子空間中,使得映射后的數(shù)據(jù)具有最大的相關(guān)性。
因?yàn)镃CA 本質(zhì)上是一種線性映射的方法,不能較好地處理現(xiàn)實(shí)世界中錯(cuò)綜復(fù)雜的數(shù)據(jù)關(guān)系。核典型相關(guān)分析(Kernel CCA)[8]將核函數(shù)的思想引入典型相關(guān)分析中,將低維數(shù)據(jù)映射到高維的核函數(shù)空間后,再進(jìn)行典型相關(guān)分析。深度神經(jīng)網(wǎng)絡(luò)和CCA也有較好的結(jié)合,Andrew 等人提出了深度典型相關(guān)分析(Deep CCA)[9],依據(jù)大量數(shù)據(jù)同時(shí)對(duì)兩個(gè)視角進(jìn)行非線性映射,保持映射后的數(shù)據(jù)有最大相關(guān)性。
基于深度典型相關(guān)自編碼器的過(guò)敏性鼻炎用藥推薦算法整體框架如圖2 所示,該模型主要包括三部分。
圖2 過(guò)敏性鼻炎用藥推薦算法整體框架Fig.2 Framework for medicine recommendation for allergic rhinitis
(1)主訴文本結(jié)構(gòu)化表示。使用詞語(yǔ)間互信息值對(duì)主訴文本進(jìn)行分詞,基于搜索引擎計(jì)算詞語(yǔ)相似性從而將相似詞語(yǔ)歸為一類,將分詞結(jié)果轉(zhuǎn)換為結(jié)構(gòu)化的癥狀表示。
(2)深度典型相關(guān)自編碼器學(xué)習(xí)癥狀和用藥表示。主訴癥狀和用藥情況可以看作一位患者的兩個(gè)視角信息,且兩者之間具有較強(qiáng)的相關(guān)關(guān)系,基于深度典型相關(guān)自編碼器來(lái)學(xué)習(xí)深層表示并提高兩視角數(shù)據(jù)之間的相關(guān)性。
(3)加權(quán)近鄰搜索進(jìn)行用藥推薦。針對(duì)上述獲取的癥狀和用藥深層表示,通過(guò)距離值加權(quán)的近鄰搜索為新患者推薦用藥。
在過(guò)敏性鼻炎患者的電子病歷中,最主要的內(nèi)容便是主訴文本,其蘊(yùn)含了醫(yī)生為患者做出診斷和醫(yī)囑用藥的關(guān)鍵信息。主訴文本通常不超過(guò)20 個(gè)字,且多以關(guān)鍵詞形式呈現(xiàn),而常用的命名實(shí)體識(shí)別技術(shù)需要大量的標(biāo)注信息和語(yǔ)料庫(kù),需要耗費(fèi)極大的人力、物力,因此,本文提出了一種主訴文本結(jié)構(gòu)化表示方法,通過(guò)分詞處理、信息抽取等提取包含的癥狀信息。
對(duì)于本文研究的過(guò)敏性鼻炎,患者主訴信息中的醫(yī)學(xué)詞語(yǔ)使用較為固定,考慮使用互信息值[10]來(lái)進(jìn)行新詞發(fā)現(xiàn),識(shí)別出主訴文本中的醫(yī)學(xué)詞語(yǔ)和固定搭配,計(jì)算公式如式(1)。
點(diǎn)互信息值越大,表明兩個(gè)詞語(yǔ)之間的關(guān)聯(lián)性越強(qiáng),即相鄰出現(xiàn)的概率越大,也就意味著其成為固定搭配組成詞語(yǔ)的概率越大。篩選出合適的固定搭配新詞,將其添加進(jìn)自定義詞典,對(duì)主訴文本再次進(jìn)行分詞。下一步以醫(yī)院方提供的M類癥狀作為癥狀標(biāo)準(zhǔn)詞典模板對(duì)文本中信息進(jìn)行提取。但在實(shí)際中,由于不同醫(yī)生的習(xí)慣不同,針對(duì)同一癥狀事物,其在主訴上的描述可能存在一定的差異。為了更準(zhǔn)確全面地提取主訴文本中的信息,本文提出了一種基于搜索引擎的詞語(yǔ)相似性計(jì)算方法,將含義相似的詞語(yǔ)歸為一類。基于搜索引擎的詞語(yǔ)相似性計(jì)算[11]將網(wǎng)絡(luò)作為一個(gè)實(shí)時(shí)更新的語(yǔ)料庫(kù),其側(cè)重于詞語(yǔ)對(duì)的相關(guān)性。主訴結(jié)構(gòu)化的整體處理過(guò)程如圖3。
圖3 基于搜索引擎的主訴文本結(jié)構(gòu)化表示Fig.3 Structured representation of chief complaint text based on search engine
在進(jìn)行信息抽取時(shí),首先對(duì)分詞后的結(jié)果與標(biāo)準(zhǔn)逐個(gè)對(duì)比,若與癥狀標(biāo)準(zhǔn)匹配,則直接完成抽取工作;若均不匹配,則依據(jù)式(2)計(jì)算該詞語(yǔ)與全部癥狀標(biāo)準(zhǔn)模板的相似度,若最大的相似度超過(guò)設(shè)定的閾值,便將其歸為對(duì)應(yīng)的標(biāo)準(zhǔn)。
其中,w是分詞結(jié)果中的詞語(yǔ),q∈Q,Q是全部癥狀標(biāo)準(zhǔn)詞語(yǔ)的集合,N(w)表示使用搜索引擎對(duì)w進(jìn)行搜索返回的查詢結(jié)果數(shù)量,N(w,q)表示同時(shí)搜索兩個(gè)詞語(yǔ)w和q返回的查詢結(jié)果數(shù)量,Nb表示搜索引擎的索引總數(shù)。
每位患者的主訴癥狀和用藥情況可以看作該患者的兩個(gè)視角信息,且兩者之間具有較強(qiáng)的相關(guān)關(guān)系。本文將堆棧稀疏自編碼器[12]和典型相關(guān)分析[13-14]相結(jié)合,構(gòu)建一個(gè)深度典型相關(guān)自編碼器(deep canonically correlated autoencoder,DCCAE)用于更好地獲取患者主訴癥狀和用藥情況的表示,模型如圖4所示。
圖4 深度典型相關(guān)自編碼器Fig.4 Deep canonically correlated autoencoder
首先對(duì)主訴癥狀和用藥情況分別使用一個(gè)堆棧稀疏自編碼器重構(gòu)輸入數(shù)據(jù),并提取對(duì)應(yīng)的非線性特征。然后對(duì)隱藏層的輸出進(jìn)行典型相關(guān)分析,將患者癥狀和用藥情況投影至一個(gè)共享子空間,并計(jì)算兩者的相關(guān)系數(shù),將結(jié)果反饋給網(wǎng)絡(luò)的輸入層,通過(guò)迭代訓(xùn)練最小化兩個(gè)自編碼器的重構(gòu)誤差,并且最大化兩視角信息的典型相關(guān)系數(shù)。模型目標(biāo)函數(shù)定義如式(3)。
其中,f和g分別是自編碼器中編碼階段的深度神經(jīng)網(wǎng)絡(luò),p和q分別是解碼階段的深度神經(jīng)網(wǎng)絡(luò),X和Y表示主訴癥狀和用藥情況的輸入矩陣,U=[u1,u2,…,uL]和V=[v1,v2,…,vL]分別表示處理兩個(gè)隱藏層輸出向量的投影矩陣,rx和ry分別是協(xié)方差估計(jì)的正則化參數(shù),α是重構(gòu)誤差和相關(guān)系數(shù)之間的權(quán)衡參數(shù),λ是自編碼器的正則化參數(shù)。
通過(guò)DCCAE獲取了患者主訴癥狀和用藥情況之間非線性的特征表示,分別為。對(duì)于一個(gè)僅含主訴癥狀信息的新患者樣本,首先通過(guò)訓(xùn)練好的癥狀自編碼器獲取其癥狀表示xa∈RL,并計(jì)算其經(jīng)過(guò)U投影的典型向量。然后使用K近鄰算法搜索在訓(xùn)練集中與該樣本距離較近的其他多組典型向量,距離計(jì)算公式如式(4)。
其中,ρ是經(jīng)過(guò)歸一化處理的相關(guān)系數(shù)。
至此,獲得了與新樣本癥狀向量鄰近的K個(gè)癥狀向量,而這K個(gè)癥狀向量對(duì)應(yīng)著K個(gè)原始患者信息,下面根據(jù)近鄰度距離加權(quán)計(jì)算用藥平均值作為用藥評(píng)分,計(jì)算公式如式(5)。
獲取新樣本的用藥評(píng)分后,從大到小將藥品進(jìn)行排序,從而為患者推薦一種或多種藥品。
本文實(shí)驗(yàn)所用數(shù)據(jù)集來(lái)自某三甲醫(yī)院耳鼻喉科診斷為過(guò)敏性鼻炎的患者電子病歷,且經(jīng)過(guò)脫敏處理,對(duì)電子病歷進(jìn)行清洗、去重等操作,獲得3 700 條電子病歷記錄,包含患者的基本信息、主訴癥狀、用藥醫(yī)囑等。藥品種類共100 種,其中使用頻率大于1%的藥品有23 種。通過(guò)2.1 節(jié)主訴文本結(jié)構(gòu)化處理得到最終數(shù)據(jù)集,其中每條記錄為一位患者的全部信息,包括16 項(xiàng)癥狀指標(biāo)和23 項(xiàng)用藥情況,均為二值數(shù)據(jù)。實(shí)驗(yàn)中數(shù)據(jù)集按比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
本文采用精確率(Precision@R)、召回率(Recall@R)和F1-score(F@R)作為評(píng)價(jià)指標(biāo)。精確率表示正確預(yù)測(cè)正樣本占預(yù)測(cè)為正樣本的比例,召回率表示正確預(yù)測(cè)正樣本占實(shí)際正樣本的比例,F(xiàn)1-score 是精確率和召回率的調(diào)和平均值,公式如下:
其中,N為數(shù)據(jù)總數(shù)量,表示第n個(gè)數(shù)據(jù)的用藥集合,表示第n個(gè)數(shù)據(jù)推薦的前R個(gè)用藥集合。在本文使用的數(shù)據(jù)集中,所有患者使用的藥物組合中均包含了同一種藥品“鼻炎3 號(hào)”,因此僅推薦一種藥品時(shí)的結(jié)果沒(méi)有差異,故R在{2,3}中取值。
為了驗(yàn)證本文算法的效果,選擇使用以下5 種算法進(jìn)行對(duì)比實(shí)驗(yàn)。
(1)Frequency(Freq)。該方法統(tǒng)計(jì)訓(xùn)練數(shù)據(jù)中每種藥品的出現(xiàn)頻次,在進(jìn)行推薦時(shí),對(duì)于測(cè)試集上每一條數(shù)據(jù)均以出現(xiàn)頻次作為用藥評(píng)分。
(2)KNN-e[15]。直接使用原始的主訴數(shù)據(jù)計(jì)算歐式距離來(lái)找出與此患者最相似的K個(gè)患者,計(jì)算用藥數(shù)據(jù)的平均值作為用藥評(píng)分。
(3)KNN-h。將(2)方法中的漢明距離替換為歐式距離。
(4)MLP(multi-layer perceptron)。多層感知機(jī)是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò),包括輸入層、輸出層和多個(gè)隱藏層。將患者的主訴數(shù)據(jù)作為輸入層的輸入,使用ReLU 函數(shù)作為激活函數(shù),訓(xùn)練其輸出每種藥品推薦的概率作為用藥評(píng)分。
(5)CCA。對(duì)原始主訴信息和用藥信息進(jìn)行典型相關(guān)分析,獲取兩者的投影向量,再使用3.3 節(jié)當(dāng)中的方法進(jìn)行用藥推薦。
實(shí)驗(yàn)中,在驗(yàn)證集上進(jìn)行多次重復(fù)實(shí)驗(yàn),利用網(wǎng)格搜索方法確定最優(yōu)參數(shù)。對(duì)于所有方法,設(shè)置癥狀維度為16,用藥維度為23。其中KNN 算法中近鄰個(gè)數(shù)K在{12,24,36,48,60}中取值;MLP 具有一層隱藏層,維度在{16,18,20,22}中取值;CCA 算法中最終輸出維度在{4,8,12,16}中取值;在本文提出的方法中,隱藏層維度d0和d1均在{4,8,12,16}中取值,近鄰個(gè)數(shù)K在{12,24,36,48,60}中取值,權(quán)衡參數(shù)α在{0.50,0.75,1.00,1.50,2.00}中取值,正則化系數(shù)λ在{10-5,10-4,10-3,10-2,10-1}中取值。
得到的最優(yōu)參數(shù)如下:KNN 算法中近鄰個(gè)數(shù)K=36,MLP 的隱藏層維度為18,CCA 算法中最終輸出維度為8;在本文方法中,兩個(gè)自編碼器網(wǎng)絡(luò)的維度分別為16-12-8-12-16 和23-16-8-16-23,K=36,α=2,λ=10-5。
本文首先對(duì)上述數(shù)據(jù)集進(jìn)行主訴結(jié)構(gòu)化,圖5 和圖6 分別給出了詞語(yǔ)“流白涕”和“嗅覺(jué)下降”基于搜索引擎計(jì)算詞語(yǔ)相似性的結(jié)果圖。從結(jié)果可以看出,“流白涕”與“流清涕”的匹配度最高,“嗅覺(jué)下降”和“嗅覺(jué)減退”的匹配度最高,這也符合實(shí)際中醫(yī)生的認(rèn)知。
圖5 “流白涕”與癥狀標(biāo)準(zhǔn)詞典模板的匹配結(jié)果Fig.5 Matching results of word thin nasal discharge to standard dictionary template for symptoms
圖6 “嗅覺(jué)下降”與癥狀標(biāo)準(zhǔn)詞典模板的匹配結(jié)果Fig.6 Matching results of word hyposmia to standard dictionary template for symptoms
通過(guò)實(shí)驗(yàn)比較了本文方法和其他對(duì)比方法。表1 給出了不同方法的性能表現(xiàn),實(shí)驗(yàn)結(jié)果均是運(yùn)行5次然后取平均性能所得。觀察表1 可以看出:
表1 各方法在數(shù)據(jù)集上的推薦性能Table 1 Evaluation results of different methods on dataset
(1)與所有的對(duì)比方法相比,本文方法在精確率Precision、召回率Recall和F1-score 上都取得了最好的結(jié)果,這證明本文方法在過(guò)敏性鼻炎的用藥推薦上能夠?qū)崿F(xiàn)更有效的實(shí)驗(yàn)性能提升。
(2)KNN-e 方法未能超過(guò)Frequency 方法,可以看作完全無(wú)效果。這是因?yàn)镵NN-e 直接使用患者的二值化癥狀數(shù)據(jù)計(jì)算歐式距離,不能較好地計(jì)算患者之間的相似度。相比而言,KNN-h 使用的漢明距離比歐式距離更加有效。
(3)基于深度學(xué)習(xí)的MLP 方法比CCA 模型效果更好,這是因?yàn)镃CA 模型雖然考慮了患者癥狀和用藥之間的相關(guān)性,但線性變換的特點(diǎn)限制了模型的表征能力。
(4)對(duì)比MLP 和本文方法,前者采用端到端的模式進(jìn)行訓(xùn)練,沒(méi)有考慮患者之間的相似性。相較而言,本文方法使用深度典型相關(guān)自編碼器對(duì)患者的癥狀和用藥進(jìn)行表征并構(gòu)建相關(guān)關(guān)系,能夠搜索到與患者相似的群體,同時(shí)取得良好的推薦效果。
下面測(cè)試不同參數(shù)設(shè)置對(duì)模型結(jié)果的影響。圖7展示了K 近鄰中的近鄰個(gè)數(shù)對(duì)本文方法及對(duì)比方法效果的影響,其中設(shè)置推薦藥品數(shù)為3,調(diào)節(jié)不同的K值大小??梢钥闯觯贙=36時(shí)取得最好效果。這是因?yàn)殡S著K值的增大,搜索得到的患者相似度逐漸降低,可能引入更多的噪聲信息,從而降低實(shí)驗(yàn)性能。
圖7 近鄰個(gè)數(shù)K 對(duì)性能的影響Fig.7 Effect of the number of neighbors K on performance
本文方法使用了兩個(gè)含有2 層隱藏層的自編碼器,令每層的維度分別為d0和d1。固定d0不變,圖8展示了d1的變化對(duì)本文方法效果的影響,其中K設(shè)置為36,推薦結(jié)果數(shù)設(shè)置為3??梢钥闯?,在d1=8 時(shí)取得最好效果,這是因?yàn)檩^低維度的空間沒(méi)有足夠能力表示數(shù)據(jù)的隱藏屬性,而較高維度的空間又不利于模型的泛化能力,造成推薦性能下降。
圖8 隱藏層維度d1 對(duì)性能的影響Fig.8 Effect of hidden layer dimension d1 on performance
本文提出了一種基于深度典型相關(guān)自編碼器的過(guò)敏性鼻炎用藥推薦算法。該模型通過(guò)一種主訴文本結(jié)構(gòu)化表示方法,使用詞語(yǔ)間互信息值對(duì)主訴文本進(jìn)行分詞,基于搜索引擎計(jì)算詞語(yǔ)相似性從而將相似詞語(yǔ)歸為一類,將分詞結(jié)果轉(zhuǎn)換為結(jié)構(gòu)化的癥狀表示。與目前常見(jiàn)的自然語(yǔ)言處理方法相比,該表示方法可移植性好,不需要在大量語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練便可完成任務(wù)。同時(shí),該模型考慮到患者的癥狀和用藥之間存在較強(qiáng)的相關(guān)關(guān)系,通過(guò)深度典型相關(guān)自編碼器建立起兩者之間的關(guān)聯(lián)關(guān)系。最后在一個(gè)真實(shí)的來(lái)自三甲醫(yī)院耳鼻喉科的電子病歷數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了模型的準(zhǔn)確性和有效性,證實(shí)了模型的實(shí)際應(yīng)用價(jià)值。