亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種用于病案相似性度量的弱監(jiān)督學(xué)習(xí)算法

2019-09-28 01:30:44張振宇朱培棟趙東升

計算機技術(shù)與發(fā)展 2019年9期

張振宇，朱培棟,2，趙東升

(1.國防科技大學(xué) 計算機學(xué)院，湖南長沙 410073；2.長沙學(xué)院電子信息與電氣工程學(xué)院，湖南長沙 410022；3.軍事醫(yī)學(xué)科學(xué)院網(wǎng)絡(luò)信息中心，北京 100039)

0 引言

隨著數(shù)字技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用，PACS和HIS系統(tǒng)的廣泛采用，醫(yī)院和醫(yī)學(xué)中心每天都產(chǎn)生和處理大量的醫(yī)學(xué)數(shù)據(jù)。數(shù)據(jù)的爆炸式增長給人們的生活帶來了多方面影響，一方面伴隨著數(shù)據(jù)的急劇增多，給數(shù)據(jù)的存儲、傳輸、應(yīng)用等帶來了技術(shù)難題和挑戰(zhàn)；另一方面，數(shù)據(jù)的大量生產(chǎn)為多種應(yīng)用服務(wù)的出現(xiàn)、人們生活質(zhì)量的提高提供了可能。病案相似性度量就是這樣的應(yīng)用，其對于理解病案間的關(guān)系、識別病案的聚類情況及預(yù)測病人病情的發(fā)展趨勢有著極其重要的基礎(chǔ)性作用。

病案相似性的度量方法有兩類：基于理論知識的傳統(tǒng)理論模型[1]和基于病案數(shù)據(jù)的機器學(xué)習(xí)模型[2]。傳統(tǒng)理論模型從醫(yī)學(xué)領(lǐng)域知識出發(fā)，通過病理分析判斷病案之間的相似性大小關(guān)系，這種模型的優(yōu)點在于解釋性好，少量疾病之間的相似性度量精度高，缺點在于對專業(yè)知識要求較高，同時受到專業(yè)領(lǐng)域知識的限制，模型精度提升難度大?；诓“笖?shù)據(jù)的機器學(xué)習(xí)模型從病案數(shù)據(jù)本身出發(fā)，通過對大量已形成關(guān)系的病案數(shù)據(jù)進行分析學(xué)習(xí)，進而學(xué)習(xí)到其中的相似性關(guān)系。該模型的優(yōu)點在于精度可能與數(shù)據(jù)量正相關(guān)，不受限于領(lǐng)域知識，缺點在于解釋性不好。

現(xiàn)有的一些病案相似性度量算法大都是基于理論知識的理論模型[3]。針對該類算法的不足，文中從病案數(shù)據(jù)的實際情況出發(fā)，綜合傳統(tǒng)理論模型和機器學(xué)習(xí)模型，傳統(tǒng)理論模型完成弱標(biāo)簽的工作，機器學(xué)習(xí)模型進行病案相似性的學(xué)習(xí)，充分利用各模型的優(yōu)勢，對病案的相似性進行度量學(xué)習(xí)。

1 問題描述及建模

1.1 問題描述

病案數(shù)據(jù)的病案屬性特征具有大量性、異源性和動態(tài)權(quán)的特點。其中，大量性表現(xiàn)在病案數(shù)據(jù)屬性特征多；異源性表現(xiàn)在病案數(shù)據(jù)屬性特征來源不同，使得特征權(quán)重未知、共線性大、特征量綱不統(tǒng)一等；動態(tài)權(quán)表現(xiàn)在病案數(shù)據(jù)的屬性特征在不同類別的比較中有著不同的權(quán)重。

兩病案之間的相似性其實質(zhì)是病案對應(yīng)的向量之間的距離?？坍媰上蛄恐g距離的方法有很多，比如：歐氏距離、曼哈頓距離、漢明距離、信息熵、相關(guān)系數(shù)等[4]。這些距離計算方法都需要向量各維度等權(quán)或者權(quán)重已知，然而，基于上述病案數(shù)據(jù)的特點，這恰恰是病案數(shù)據(jù)無法滿足的。因此，文中從機器學(xué)習(xí)的角度對病案向量之間的距離進行學(xué)習(xí)表示。其模型表示如下：

Sij=f(bi,bj)

(1)

其中，Sij表示病案i和病案j之間的距離；bi表示病案i，bj表示病案j，函數(shù)f表示從病案到病案相似性值的映射，函數(shù)f即為所求。

1.2 問題的模型方案設(shè)計

根據(jù)前文對問題模型化的描述，文中模型的輸入為病案組bi和bj，經(jīng)過模型的映射，得到模型輸出為病案的相似性值Sij。采用傳統(tǒng)理論模型和機器學(xué)習(xí)模型相結(jié)合的方法：傳統(tǒng)理論模型對病案數(shù)據(jù)進行相似性標(biāo)簽的工作，將病案無標(biāo)簽數(shù)據(jù)轉(zhuǎn)化為弱標(biāo)簽數(shù)據(jù)；機器學(xué)習(xí)模型在弱標(biāo)簽病案數(shù)據(jù)的基礎(chǔ)上進行學(xué)習(xí)[5]，通過訓(xùn)練得到模型，如圖1所示。

圖1 病案相似性模型流程

病案數(shù)據(jù)一般不存在大量相似性標(biāo)簽，使得用機器學(xué)習(xí)算法進行病案相似性學(xué)習(xí)時無法使用監(jiān)督學(xué)習(xí)方法，這對提高算法上限有一定的限制。因此，文中通過機器學(xué)習(xí)與傳統(tǒng)理論模型相結(jié)合的方式進行。如圖1所示，首先，將無標(biāo)簽病案數(shù)據(jù)轉(zhuǎn)化為有標(biāo)簽病案數(shù)據(jù)，提出“偽標(biāo)記”的思想，利用現(xiàn)有的理論模型方法以及數(shù)據(jù)特征的標(biāo)記創(chuàng)建一個弱注釋的訓(xùn)練數(shù)據(jù)集，傳統(tǒng)理論模型是基于病理推導(dǎo)進行，數(shù)據(jù)特征標(biāo)記是對特殊的病案特征屬性的標(biāo)簽化，文中采用診斷數(shù)據(jù)；然后，對弱標(biāo)簽病案數(shù)據(jù)進行機器學(xué)習(xí)算法的訓(xùn)練，進而得到病案相似性度量的方法。

2 病案相似性度量

2.1 病案標(biāo)簽

病案標(biāo)簽的設(shè)計其本質(zhì)是將無標(biāo)簽病案數(shù)據(jù)轉(zhuǎn)化為弱標(biāo)簽病案數(shù)據(jù)，原始病案數(shù)據(jù)只包含病案屬性特征以及特征對應(yīng)的特征值，標(biāo)簽病案數(shù)據(jù)應(yīng)該增加病案間相似性特征及特征值。由此，病案標(biāo)簽設(shè)計就分為兩個步驟：病案組的設(shè)計和病案組的標(biāo)簽。病案組的設(shè)計主要討論如何合理且均勻地將病案兩兩成組；病案組的標(biāo)簽主要討論如何對所有的病案組進行標(biāo)簽值的賦予。

2.1.1 病案組的設(shè)計

病案組的設(shè)計是將病案兩兩成組的過程，確定哪些病案組成病案組對病案相似性學(xué)習(xí)有重要影響。從逆向的角度考慮：假設(shè)病案主要分為兩類，即A和B，其中同處于A類或B類中的病案相似性較高，分別處于A類和B類中的病案相似性較低，病案組集合需要同時有都處于A類的病案組、都處于B類的病案組、分別處于A類和B類的病案組。同時，需要考慮數(shù)據(jù)的均衡性問題。

病案真正的分類情況是未知的，很難準(zhǔn)確判定所有病案組的分布情況，如何避免該問題是病案組設(shè)計需要重點考慮的。文中設(shè)計一種選排的病案數(shù)據(jù)集合設(shè)計方法。病案的選排組合方法需要選擇不同的病案組，所以該方法的關(guān)鍵問題就是選擇病案組的標(biāo)準(zhǔn)，病案組的選擇標(biāo)準(zhǔn)在病案的分布上體現(xiàn)在三個方面：病案組分布的完整性，病案的分布具有社區(qū)性，表示各種病案類別之間需要一定數(shù)量的病案成組；病案組分布的均勻性，表示各種病案類別之間病案成組的數(shù)量與病案數(shù)量正相關(guān)；病案組分布的邊界性，體現(xiàn)在病案形成的社區(qū)的邊界上，病案社區(qū)靠近邊界的病案形成的病案組具有更好的邊界性。

病案組分布的性質(zhì)都是通過病案之間的距離體現(xiàn)的。由于沒有精確度量病案之間距離的方法，文中提出類似于遺傳算法中的“遺傳選擇”的思想—多指標(biāo)概率分配的方法進行文檔對的選擇[6]。具體就是，從數(shù)據(jù)的角度進行病案距離的量化，由于距離量化的低精度性，選取多種量化方法[7]，對每種量化方法都進行選擇，這樣可以一定程度上避免最優(yōu)解消失的問題，具體設(shè)計如表1所示。

表1 病案組選擇

其中，每種距離的度量方式不一樣，選擇概率表示病案組集合中對應(yīng)的病案組數(shù)量，所有選擇概率之和為1，即有a1+a2+a3+a4+a5=1。

選擇概率是病案組數(shù)據(jù)集分布情況的關(guān)鍵參數(shù)?；贙-means算法中初始聚類中心選擇的思想，文中提出一種迭代優(yōu)化的操作對選擇概率參數(shù)進行優(yōu)化[8]。隨機初始選擇概率，然后進行訓(xùn)練學(xué)習(xí)，通過每次學(xué)習(xí)后的網(wǎng)絡(luò)模型進行病案相似性測試，通過測試損失函數(shù)對選擇概率參數(shù)進行優(yōu)化，進而迭代求解。其實質(zhì)就是把選擇概率作為學(xué)習(xí)模型的中間參數(shù)進行學(xué)習(xí)求解。

該過程得到的病案數(shù)據(jù)如下：

(2)

(3)

2.1.2 病案組的標(biāo)簽

病案組的標(biāo)簽是對該病案組中兩個病案之間的相似性的度量，用相似性值表示。文中將病案的相似性值限定在0和1之間，當(dāng)病案組對應(yīng)的標(biāo)簽為1時，表示兩病案完全一樣；當(dāng)病案組標(biāo)簽為0時，表示兩病案完全不同。病案組標(biāo)簽越大，表明兩病案的相似性越高。

從傳統(tǒng)IR理論模型—BM25算法的思想出發(fā)[9]，結(jié)合病案數(shù)據(jù)中的特殊屬性，設(shè)計一種病案組相似性弱標(biāo)簽的生成方法。BM25算法是一種用于文本相似度分析的檢索算法：有一個查詢文檔Q和一批文檔D，先對文檔Q進行切分，得到單詞集合q，然后每個單詞的分?jǐn)?shù)由三部分組成：單詞q與文檔D之間的相關(guān)性、單詞q與查詢Q之間的相關(guān)性、每個單詞的權(quán)重。最后對于每個單詞的分?jǐn)?shù)求和，就得到了查詢Q和文檔D之間的相似性分?jǐn)?shù)，該算法很好地解決了文本相似性的度量問題。對文中病案，病案特征可類比于BM25算法中的單詞；特征值可類比于BM25算法中單詞間的相關(guān)性。由前文對BM25算法的描述，需要得到特征的權(quán)重，才能通過該模型進行病案標(biāo)簽的設(shè)計。

文中設(shè)計一種基于數(shù)據(jù)穩(wěn)定性和特殊特征相關(guān)性的權(quán)值擬合方法[10]。其中，數(shù)據(jù)穩(wěn)定性方面，基于信息理論中后驗概率的思想提出，這是一種通過結(jié)果討論條件的分布情況的思想，結(jié)果集在一定程度上相對穩(wěn)定，故對結(jié)果形成具有影響的因素的突變性應(yīng)該受到限制，所以，對結(jié)果具有較大影響的因素相對穩(wěn)定；特殊特征相關(guān)性方面，病案中診斷數(shù)據(jù)屬于特殊特征，該特征和病案之間具有極大的相關(guān)性，因此，所有病案的診斷值向量與特征向量之間的夾角大小是對特征權(quán)重的部分表征。

根據(jù)該原理，病案數(shù)據(jù)表示如下：其中有m個病案，每個病案有n+1個特征，最后一個特征s為特殊特征—診斷信息。

(4)

每個特征對應(yīng)的權(quán)重為：

(5)

(6)

綜上所述，基于BM25算法的思想，文中分別通過特征之間的相似性以及特征對應(yīng)的權(quán)重來表征病案之間的相似性：

(7)

病案組數(shù)據(jù)集進行標(biāo)簽化，該過程得到的病案數(shù)據(jù)如下：

(8)

其中，Z表示帶標(biāo)簽的病案組集合，共有t個病案組，每個病案組包含兩個病案和標(biāo)簽值。

2.2 病案相似性學(xué)習(xí)

前文對病案數(shù)據(jù)進行了分析處理，得到了帶標(biāo)簽的病案組的數(shù)據(jù)集，其中標(biāo)簽表示病案組對應(yīng)病案之間的相似性。文中通過機器學(xué)習(xí)的方法對病案間的相似性進行訓(xùn)練學(xué)習(xí)，主要通過損失函數(shù)的分析、學(xué)習(xí)算法的選擇進行設(shè)計[11]。

2.2.1 模型的損失函數(shù)

機器學(xué)習(xí)中模型的損失函數(shù)是訓(xùn)練過程中對誤差的表示，準(zhǔn)確的損失函數(shù)能夠精確反映學(xué)習(xí)模型的不足，進而通過對應(yīng)的參數(shù)調(diào)整對誤差進行修正，因此，損失函數(shù)的選擇對學(xué)習(xí)模型的效率具有很大的影響。文分別設(shè)計三種損失函數(shù)，對每種損失函數(shù)的效果進行驗證分析。

(1)評分損失函數(shù)。

評分損失函數(shù)是最直接的損失函數(shù)，模型輸入為兩病案數(shù)據(jù)，輸出為相似性評分值，損失函數(shù)通過預(yù)測評分值與標(biāo)簽評分值之間的絕對值表示，模型結(jié)構(gòu)如圖2所示。

圖2 評分損失函數(shù)結(jié)構(gòu)

這種損失函數(shù)的設(shè)計實際上是一個預(yù)測“病案組”的檢索分?jǐn)?shù)的逐點排序模型，這種結(jié)構(gòu)的目標(biāo)就是掌握一個“分?jǐn)?shù)功能”，這一功能能夠決定一個“病案組”的檢索分?jǐn)?shù)。損失函數(shù)的表達(dá)式如下：

(9)

(2)排序損失函數(shù)。

排序損失函數(shù)是比較性的損失函數(shù)，模型輸入為三個病案數(shù)據(jù)，其中一個查詢病案，兩個排序病案，輸出為相似性評分值，損失函數(shù)通過查詢病案分別與兩排序病案之間預(yù)測評分值的高低與標(biāo)簽評分值的高低之間的差異表示。模型結(jié)構(gòu)如圖3所示。

圖3 排序損失函數(shù)結(jié)構(gòu)

這種損失函數(shù)的設(shè)計并不是為了使評分標(biāo)準(zhǔn)化，而是關(guān)注于病案相似性的相對大小，具體來說就是在訓(xùn)練中使用了兩個參數(shù)相同的學(xué)習(xí)模型，通過兩個排序病案與查詢病案之間相似性大小的差異表示損失函數(shù)，表達(dá)式如下：

(3)排序概率損失函數(shù)。

排序概率損失函數(shù)是概率比較性的損失函數(shù)，模型輸入為三個病案數(shù)據(jù)，其中一個查詢病案，兩個排序病案，輸出為評分比較概率值，損失函數(shù)通過查詢病案分別與兩排序病案之間預(yù)測評分值的高低與標(biāo)簽評分值的高低之間的差異概率表示。模型結(jié)構(gòu)如圖4所示。

圖4 排序概率損失函數(shù)結(jié)構(gòu)

這種損失函數(shù)的設(shè)計是在排序損失函數(shù)的基礎(chǔ)上考慮概率浮動得到的，具體來說就是在訓(xùn)練中使用了兩個參數(shù)相同的學(xué)習(xí)模型，通過兩個排序病案與查詢病案之間相似性大小的差異概率表示損失函數(shù)，表達(dá)式如下：

(11)

(12)

2.2.2 模型的學(xué)習(xí)算法

病案數(shù)據(jù)具有數(shù)據(jù)維度大、數(shù)據(jù)數(shù)量多的特點，鑒于病案數(shù)據(jù)的特征復(fù)雜，文中采用BP神經(jīng)網(wǎng)絡(luò)算法進行病案相似性度量的訓(xùn)練學(xué)習(xí)[12]。

該網(wǎng)絡(luò)模型由輸入層、隱藏層和輸出層組成。輸入層將病案所有維度完整輸入網(wǎng)絡(luò)；隱藏層是一個完全連接層網(wǎng)絡(luò)，用于病案的特征處理；輸出層的情況取決于模型的損失函數(shù)。激活函數(shù)根據(jù)損失函數(shù)的不同選用不同的函數(shù)：評分損失函數(shù)模型用線性激活函數(shù)[13]；排序損失函數(shù)用tanh函數(shù)作為激活函數(shù)；排序概率損失函數(shù)用sigmoid函數(shù)作為激活函數(shù)。

學(xué)習(xí)模型的結(jié)構(gòu)如圖5所示。

圖5 學(xué)習(xí)模型結(jié)構(gòu)

3 算法描述與分析

3.1 算法描述

基于上文的一系列工作，從病案數(shù)據(jù)出發(fā)，對病案進行病案組生成、病案標(biāo)簽設(shè)計得到大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù)，然后通過弱監(jiān)督學(xué)習(xí)器的設(shè)計對病案相似性進行訓(xùn)練學(xué)習(xí)得到一個回歸器，該回歸器對于輸入的兩病案能夠輸出其對應(yīng)的相似性值。文中給出一種全新的病案相似性度量方法，算法流程如圖6所示。

圖6 算法流程

從病案信息出發(fā)，得到病案信息中的結(jié)構(gòu)型病案數(shù)據(jù)；通過設(shè)計的距離度量方法和選擇概率從病案數(shù)據(jù)中得到病案組集合；基于理論模型的思想結(jié)合特殊特征對病案組數(shù)據(jù)進行標(biāo)簽化工作，得到帶有標(biāo)簽的病案組集合；將帶標(biāo)簽的病案組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集對設(shè)計的機器學(xué)習(xí)訓(xùn)練器進行訓(xùn)練學(xué)習(xí)，得到回歸器；歸回器可以完成病案相似性度量的工作，對輸入的病案組計算得到病案相似性值的輸出。由此，綜合理論模型和機器學(xué)習(xí)模型得到一種弱監(jiān)督病案相似性度量方法。

3.2 算法分析

對提出的病案相似性度量算法進行編程實現(xiàn)，并基于病案數(shù)據(jù)集與各算法進行比較分析。采用醫(yī)療數(shù)據(jù)中心的實際病案數(shù)據(jù)和公共數(shù)據(jù)集Robust04；評價指標(biāo)[14]采用MAP、P@20和nDCG@20，其中MAP表示所有檢索病案的平均精度，P@20表示檢索的前20個病案的平均精度，nDCG@20表示檢索的前20個病案的累計折扣精度，即其每個病案精度對應(yīng)權(quán)重不同，靠前的病案權(quán)重較大；對兩類病案數(shù)據(jù)集進行實驗；不同數(shù)據(jù)集下各算法的MAP、P@20和nDCG@20的分布如表2所示。

表2 病案相似性度量精度

其中，BM25為基于理論的模型；RanksSVM為基于SVM的弱監(jiān)督學(xué)習(xí)算法；弱監(jiān)督算法為文中設(shè)計的算法，采用排序概率損失函數(shù)。通過實驗結(jié)果可以看到，在不同的數(shù)據(jù)集中，弱監(jiān)督算法在各個評價指標(biāo)下均有較大的優(yōu)勢；在nDCG@20指標(biāo)下文中算法優(yōu)勢最大，MAP指標(biāo)下文中算法優(yōu)勢相對較小，表明該算法對具有較大相似性的病案組敏感。

4 結(jié)束語

隨著標(biāo)簽數(shù)據(jù)的獲取成本越來越高，弱監(jiān)督機器學(xué)習(xí)算法的應(yīng)用也越來越廣。病案相似性度量就是這樣的情況，其對醫(yī)學(xué)研究和醫(yī)療應(yīng)用均有重要作用，而病案相似性標(biāo)簽的獲取成本非常高。文中從理論模型和弱標(biāo)簽機器學(xué)習(xí)模型著手，通過理論模型進行病案數(shù)據(jù)的弱標(biāo)簽設(shè)計，進而將帶有弱標(biāo)簽的病案數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對設(shè)計的機器學(xué)習(xí)模型進行訓(xùn)練學(xué)習(xí)，得到能夠度量病案相似性的回歸器，該回歸器對輸入的兩病案進行處理得到病案相似性值的輸出。通過對比文中算法和理論算法BM25以及RanksSVM在不同數(shù)據(jù)集上不同評價指標(biāo)下的實驗結(jié)果，表明文中設(shè)計的弱標(biāo)簽機器學(xué)習(xí)算法應(yīng)用于病案相似性度量時具有較大優(yōu)勢，其對高相似度的病案敏感。