亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種在線醫(yī)療社區(qū)問答文本實(shí)體識(shí)別方法
——基于卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)

2021-05-25 06:45:04廖開際鄒珂欣席運(yùn)江

科技管理研究 2021年8期

關(guān)鍵詞：文本模型

廖開際，鄒珂欣，席運(yùn)江

（華南理工大學(xué)工商管理學(xué)院，廣東廣州 510641）

1 研究背景

自2012 年谷歌提出了“知識(shí)圖譜”的概念至今，知識(shí)圖譜這一領(lǐng)域一直是科學(xué)研究和科技應(yīng)用的前沿?zé)狳c(diǎn)，其應(yīng)用也涉及了從搜索到推薦等眾多領(lǐng)域。目前，醫(yī)學(xué)是知識(shí)圖譜應(yīng)用最廣的垂直領(lǐng)域之一,也是國(guó)內(nèi)外人工智能領(lǐng)域研究的熱點(diǎn)，在如疾病風(fēng)險(xiǎn)評(píng)估、智能輔助診療、醫(yī)療質(zhì)量控制及醫(yī)療知識(shí)問答等智慧醫(yī)療領(lǐng)域都有著很好的發(fā)展前景［1］。構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜可以分為3 個(gè)步驟：醫(yī)療實(shí)體識(shí)別、實(shí)體關(guān)系抽取、實(shí)體對(duì)齊與知識(shí)融合，其中醫(yī)療實(shí)體識(shí)別一直是構(gòu)建知識(shí)圖譜過程中的重難點(diǎn)。

在醫(yī)療領(lǐng)域，隨著互聯(lián)網(wǎng)的快速普及，網(wǎng)絡(luò)技術(shù)的創(chuàng)新與發(fā)展已逐漸影響醫(yī)患雙方的行為方式，越來(lái)越多的病人在網(wǎng)上尋醫(yī)問藥，醫(yī)生和醫(yī)院也更加重視通過互聯(lián)網(wǎng)進(jìn)行醫(yī)患之間的交流和溝通［2］，例如尋醫(yī)問藥網(wǎng)等用戶規(guī)模較大的在線醫(yī)療社區(qū)中，已積累了大量醫(yī)患問答文本，若能通過這些問答文本進(jìn)行醫(yī)療實(shí)體識(shí)別，便可以更準(zhǔn)確且更加深層次地挖掘患者的需求，清晰地展現(xiàn)患者所關(guān)心的醫(yī)療問題，從而推動(dòng)醫(yī)療行業(yè)進(jìn)一步發(fā)展。然而，此類在線醫(yī)療社區(qū)問答文本不僅具有傳統(tǒng)社區(qū)類文本體量大、數(shù)據(jù)稀疏的特點(diǎn)，還具有醫(yī)療文本的專業(yè)性和復(fù)雜性，同時(shí)由于個(gè)人語(yǔ)言習(xí)慣不同，醫(yī)患問答文本中還有大量簡(jiǎn)寫、略寫甚至模糊的表達(dá)，給醫(yī)療實(shí)體識(shí)別工作帶來(lái)了巨大的挑戰(zhàn)。

2 相關(guān)研究

命名實(shí)體識(shí)別（named entity recognition，NER）是指識(shí)別文本中具有特定意義的實(shí)體。醫(yī)療實(shí)體識(shí)別，就是從文本中識(shí)別出具有醫(yī)學(xué)意義的實(shí)體，如疾病名稱、治療手段、檢查方法、藥物名稱等。對(duì)于醫(yī)療實(shí)體識(shí)別，目前采用較多的有基于詞典和規(guī)則的識(shí)別方法、基于淺層機(jī)器學(xué)習(xí)的識(shí)別方法以及基于深層神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。

早期的醫(yī)療實(shí)體識(shí)別，多采用基于詞典的方法?；谠~典的方法是原理比較簡(jiǎn)單但也是最有效的方法之一，其基本思路是通過遍歷詞典進(jìn)行字符串匹配而實(shí)現(xiàn)實(shí)體識(shí)別［3］。如，Kristina 等［4］結(jié)合來(lái)自UMLS、MeSH 等醫(yī)學(xué)平臺(tái)的信息，開發(fā)了用于識(shí)別文本中的小分子和藥物的詞典，并將其予以應(yīng)用于識(shí)別醫(yī)療實(shí)體；寧時(shí)賢［5］通過生物醫(yī)學(xué)詞典識(shí)別了醫(yī)學(xué)實(shí)體，經(jīng)過實(shí)驗(yàn)驗(yàn)證表明，詞典特征有助于生物醫(yī)學(xué)實(shí)體的識(shí)別。上述基于詞典的方法雖然能對(duì)醫(yī)學(xué)實(shí)體進(jìn)行有效識(shí)別，但由于對(duì)醫(yī)學(xué)詞典和醫(yī)療知識(shí)庫(kù)的依賴程度較高，導(dǎo)致該方法的靈活程度較低。

近幾年，隨著人工智能與其相關(guān)技術(shù)的快速發(fā)展，“機(jī)器學(xué)習(xí)”這一概念逐漸進(jìn)入人們的視野，基于淺層機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法也隨之得到快速發(fā)展。淺層機(jī)器學(xué)習(xí)方法主要包括條件隨機(jī)場(chǎng)（conditional random fields，CRF）模型、隱馬爾可夫模型（HMM）、最大熵 (ME）模型、支持向量機(jī)（SVM）等［6］。王若佳等［7］針對(duì)電子病歷分詞后的文本，采用條件隨機(jī)場(chǎng)機(jī)器學(xué)習(xí)算法進(jìn)行實(shí)體識(shí)別，結(jié)果表示該算法對(duì)醫(yī)療實(shí)體中“檢查”和“疾病”兩類實(shí)體的識(shí)別效果較好。龔樂君等［8］基于領(lǐng)域詞典和條件隨機(jī)場(chǎng)模型，從中文電子病歷文本中識(shí)別出了4 類醫(yī)療實(shí)體，該模型在測(cè)試數(shù)據(jù)中的精確率達(dá)到了96.7%

2006 年Hinton 等［9］創(chuàng)建了一種多層次的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，完成了神經(jīng)網(wǎng)絡(luò)從淺層到深層的轉(zhuǎn)變，深度學(xué)習(xí)由此誕生?；谏疃壬窠?jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別方法在近幾年成為了實(shí)體識(shí)別領(lǐng)域的熱點(diǎn)，如曹明宇等［10］使用雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型（bi-directional long short-term memory，BiLSTM）對(duì)醫(yī)學(xué)藥物類實(shí)體進(jìn)行了識(shí)別，結(jié)果明顯優(yōu)于針對(duì)相同數(shù)據(jù)集所采用的其他識(shí)別方法；李綱等［11］采用BiLSTM-CRF 模型，針對(duì)全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)（China Conference on Knowledge Graph and Semantic Computing，CCKS）提供的中文電子病歷做醫(yī)療實(shí)體識(shí)別，結(jié)果表明該方法能夠顯著提升傳統(tǒng)CRF 方法的實(shí)體識(shí)別效果；李雙麗等［6］提出一種基于卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks,CNN）-長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型（long short-term memory，BLSTM）-CRF 的醫(yī)學(xué)實(shí)體識(shí)別方法，通過卷積神經(jīng)網(wǎng)絡(luò)抽取英文的字符特征和單詞特征來(lái)進(jìn)行實(shí)體識(shí)別，并在Biocreative ⅡGM 和JNLPBA2004生物醫(yī)學(xué)語(yǔ)料上驗(yàn)證了該方法的有效性。

雖然采用上述方法均能有效識(shí)別有關(guān)文本中的醫(yī)療實(shí)體，但是以上識(shí)別方法大多是針對(duì)語(yǔ)言專業(yè)化和結(jié)構(gòu)化程度較高的電子病歷文本或者醫(yī)學(xué)語(yǔ)料庫(kù)而進(jìn)行的。相比于去實(shí)體醫(yī)院，目前越來(lái)越多的患者選擇直接在醫(yī)療社區(qū)平臺(tái)或者社交媒體上進(jìn)行在線的專業(yè)咨詢和健康經(jīng)驗(yàn)分享［12］，此類醫(yī)患問答文本數(shù)據(jù)是患者最真實(shí)、最直接的需求和想法反饋，但針對(duì)在線醫(yī)療社區(qū)中的患者編寫文本做醫(yī)療實(shí)體識(shí)別的研究仍然相對(duì)較少。因此，本研究將以在線醫(yī)療社區(qū)中的問答作為文本數(shù)據(jù)源進(jìn)行醫(yī)療實(shí)體識(shí)別工作。由于在線醫(yī)療社區(qū)中的問答文本非結(jié)構(gòu)化程度高、文字表達(dá)因個(gè)人語(yǔ)言習(xí)慣也有較大差異，因此本研究提出一種基于CNN 和BiLSTM 的醫(yī)療實(shí)體識(shí)別方法。

3 基于CNN 和BiLSTM 的實(shí)體識(shí)別方法模型

圖1 為本研究提出的實(shí)體識(shí)別方法的整體框架示意圖，模型整體可分為3 個(gè)模塊，分別為CNN 模塊、BiLSTM 模塊以及CRF 模塊。模型先利用字向量通過CNN 識(shí)別出中文單個(gè)字的漢字級(jí)特征，再采用BiLSTM 識(shí)別出結(jié)合上下文信息的特征，然后將以上兩種特征相結(jié)合放入CRF 模型中進(jìn)行訓(xùn)練，最后采用尋醫(yī)問藥網(wǎng)在線醫(yī)療社區(qū)中有關(guān)乳腺癌的醫(yī)患問答對(duì)方法的有效性進(jìn)行驗(yàn)證。

首先對(duì)文本數(shù)據(jù)進(jìn)行清洗去重等預(yù)處理操作，之后選取處理好的部分?jǐn)?shù)據(jù)，根據(jù)定義好的實(shí)體類別采用BIO 標(biāo)注法對(duì)文本數(shù)據(jù)進(jìn)行逐字標(biāo)注，然后將標(biāo)注好的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，其中80%為訓(xùn)練集，20%為測(cè)試集。接下來(lái)將訓(xùn)練集中的數(shù)據(jù)分別放入CNN 和BiLSTM 模型中抽取漢字級(jí)別的特征以及結(jié)合上下文信息的特征，并將抽取得到的特征利用連接函數(shù)融合，放入CRF 模型中輸出預(yù)測(cè)結(jié)果，將標(biāo)注好的測(cè)試集的數(shù)據(jù)對(duì)結(jié)果進(jìn)行驗(yàn)證，從預(yù)測(cè)結(jié)果的準(zhǔn)確率、召回率和F值3 個(gè)指標(biāo)評(píng)價(jià)模型的質(zhì)量。經(jīng)過對(duì)上述模型中的參數(shù)多次設(shè)置和調(diào)整，選取預(yù)測(cè)結(jié)果指標(biāo)最優(yōu)的模型作為最終的預(yù)測(cè)模型，最后將前期未被標(biāo)注的文本數(shù)據(jù)放入已訓(xùn)練好的預(yù)測(cè)模型中去，經(jīng)過所選模型的計(jì)算，得到最終的實(shí)體識(shí)別結(jié)果。

圖1 醫(yī)療實(shí)體識(shí)別方法框架

3.1 CNN 模塊

20 世紀(jì)60 年代，科學(xué)家們?cè)谘芯控埖哪X皮層局部的神經(jīng)元時(shí)發(fā)現(xiàn)，其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，從而提出了“卷積神經(jīng)網(wǎng)絡(luò)”的概念。卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)［13］，是深度學(xué)習(xí)的代表算法之一。自提出以來(lái)，卷積神經(jīng)網(wǎng)絡(luò)已大量應(yīng)用于圖像、視頻等文件的處理領(lǐng)域中。2014年Kim［14］對(duì)CNN 的輸入層做了改進(jìn)和調(diào)整，提出了適用于文本的處理的模型，自此CNN 也被廣泛應(yīng)用于對(duì)文本的處理中。如，陶源等［15］結(jié)合門控線性單元和卷積神經(jīng)網(wǎng)絡(luò)在中文數(shù)據(jù)集SIGHAN2006上進(jìn)行了實(shí)體識(shí)別，識(shí)別準(zhǔn)確率達(dá)到了91.05%；曹依依等［16］采用卷積神經(jīng)網(wǎng)絡(luò)針對(duì)中文電子病歷進(jìn)行了實(shí)體識(shí)別，識(shí)別結(jié)果F 值達(dá)到了90.31%。所以，本研究提出采用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)識(shí)別文本中的特征進(jìn)行醫(yī)療實(shí)體識(shí)別。由于醫(yī)患問答文本中可能由于個(gè)人語(yǔ)言習(xí)慣導(dǎo)致醫(yī)療實(shí)體間距離較遠(yuǎn)，如“我最近嗓子疼，不光是吃東西的時(shí)候疼，有時(shí)候就連喝水的時(shí)候也覺得疼，吃了阿莫西林等消炎藥之后感覺好多了”這句話中，疾病實(shí)體“嗓子疼”就與藥物實(shí)體“阿莫西林”距離較遠(yuǎn)，而且詞向量難以處理長(zhǎng)距離的依賴關(guān)系，因此本研究采用字向量與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的方式，首先對(duì)在線醫(yī)療社區(qū)中的問答文本進(jìn)行特征抽取。

卷積的表達(dá)式用矩陣表示見式（1）。其中：s代表卷積函數(shù)；*表示卷積操作；X為輸入，A為卷積核，n代表詞的數(shù)量。

在卷積神經(jīng)網(wǎng)絡(luò)中，若是二維的卷積則表示如式（2）所示。其中：i和j分別代表二維矩陣的長(zhǎng)和寬。

卷積神經(jīng)網(wǎng)絡(luò)可以分為輸入層、隱藏層和輸出層。在適用于文本的卷積神經(jīng)網(wǎng)絡(luò)中，輸入層是句子中的詞對(duì)應(yīng)的詞向量或字向量依次排列的矩陣，假設(shè)句子有n個(gè)詞（或字），向量的維數(shù)為k，那么輸入層的向量矩陣就是n×k。通常用戶圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)使用的卷積核的寬度和高度是一樣的（見圖2），但在處理文本數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)中，卷積核的寬度與詞向量或字向量的維度一致（見圖3），只有高度可以任意設(shè)置，輸入的每一行向量代表一個(gè)詞或字。

圖2 圖像識(shí)別的CNN 卷積核

圖3 文本處理的CNN 卷積核

本研究采用文本的字向量作為輸入層。數(shù)據(jù)通過輸入層后抵達(dá)卷積層，模型設(shè)置3 層卷積，卷積后的數(shù)據(jù)將會(huì)依次通過歸一化處理和ReLU 激活函數(shù)，后轉(zhuǎn)化形狀輸出。其中ReLU 函數(shù)的公式見式（3）：

3.2 BiLSTM 模塊

長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)期依賴問題和梯度消失問題而衍生出來(lái)的模型，而雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型包含了兩個(gè)方向的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型，如圖4 所示。

圖4 BiLSTM 模型結(jié)構(gòu)

在BiLST 模型中，每個(gè)細(xì)胞內(nèi)部結(jié)構(gòu)如圖5 所示。其中：ht為當(dāng)前隱藏層狀態(tài)；xt為當(dāng)前輸入；ct為當(dāng)前細(xì)胞狀態(tài)；δ為Sigmoid 激活函數(shù)。從RNN 改進(jìn)而來(lái)的長(zhǎng)短期記憶模型利用門機(jī)制可以克服RNN 的缺點(diǎn)［17］，這種門機(jī)制即通過遺忘門、輸入門和輸出門的引入，可以有效解決梯度消失等問題。

圖5 BiLSTM 的單元內(nèi)部結(jié)構(gòu)

由圖5 可見：

（1）遺忘門原理：上一階段的ht-1與當(dāng)前的輸入xt級(jí)聯(lián)之后，經(jīng)過 Sigmoid 函數(shù)后與ct-1相乘。若δ函數(shù)的輸出ft接近 0，則表示ct-1這個(gè)信息被忘掉了。ft的計(jì)算公式見式（4），其中W和b分別為模型的權(quán)重和偏置向量。

（2）輸入門原理：上一階段的ht-1與當(dāng)前輸入xt級(jí)聯(lián)之后，經(jīng)過Sigmoid 函數(shù)后與 tanh 的輸出相乘，并與之前的細(xì)胞狀ct-1×ft相加，得到ct。若it接近 0，則表示此輸入被丟棄。

（3）輸出門原理：上一階段的ht-1與當(dāng)前的輸入xt級(jí)聯(lián)之后，經(jīng)過Sigmoid 函數(shù)后與 tanh（ct）的輸出相乘，得到ht。其中O代表輸出。若Ot接近 0，則表示輸出細(xì)胞信息不會(huì)進(jìn)入到隱藏層狀態(tài)中。

3.3 CRF 模塊

由于CRF 能更有效地限制輸出的序列位置，因此可以避免前期CNN 和BiLSTM 特征抽取輸出的結(jié)構(gòu)錯(cuò)誤，所以在實(shí)體識(shí)別模型的最后會(huì)將數(shù)據(jù)輸入線性CRF 中。2001 年Lafferty 等［18］首次提出一種判別式概率——條件隨機(jī)場(chǎng)模型，是在給定一組輸入序列條件下另一組輸出序列的條件概率分布模型，在自然語(yǔ)言處理中得到了廣泛應(yīng)用。即給出輸入序列，便可以通過線性CRF 得到對(duì)應(yīng)的序列的概率，即。其概率的計(jì)算公式見式（9），其中wk為權(quán)重值。

綜上，本研究提出的基于在線醫(yī)療社區(qū)問答文本的醫(yī)療實(shí)體識(shí)別方法的流程可表示為如圖6所示。

圖6 醫(yī)療實(shí)體識(shí)別方法流程結(jié)構(gòu)

4 實(shí)驗(yàn)和結(jié)果

4.1 實(shí)驗(yàn)環(huán)境

本研究的實(shí)驗(yàn)采用Python 語(yǔ)言（版本3.7），在Pytorch 深度學(xué)習(xí)框架下進(jìn)行。Pytorch 是Facebook 開源的神經(jīng)網(wǎng)絡(luò)框架，相比于其他深度學(xué)習(xí)的編程框架而言，具有簡(jiǎn)潔、高速、易用等特點(diǎn)。

4.2 實(shí)驗(yàn)數(shù)據(jù)

爬取了尋醫(yī)問藥網(wǎng)問答模塊中關(guān)于乳腺癌的12 000 條患者提問及其對(duì)應(yīng)的醫(yī)生回復(fù)，經(jīng)過清洗去重等預(yù)處理操作后，保留了10 673 條有效問答文本（以下簡(jiǎn)稱“樣本”）（即10 673 條提問和10 673 條回復(fù)）。為了使數(shù)據(jù)格式統(tǒng)一規(guī)范以及保證問答數(shù)據(jù)一一對(duì)應(yīng)，將患者提問和對(duì)應(yīng)的醫(yī)生回復(fù)拼接成一條數(shù)據(jù)，并將所有拼接后的文本數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)，文本拼接格式為“患者病情描述（Q）＋醫(yī)生對(duì)應(yīng)回復(fù)（A）”，如表1 所示。

表1 樣本實(shí)驗(yàn)數(shù)據(jù)示例

4.3 實(shí)體類別確定

根據(jù)ICD-10 和各百科網(wǎng)站對(duì)醫(yī)療實(shí)體的劃分，并參考楊錦鋒等［19］和楊文明等［20］對(duì)醫(yī)療實(shí)體的分類方式，將醫(yī)療實(shí)體分為疾?。╠isease）、癥狀（symptom）、藥物（medicine）、治療（treatment）和檢查（check）這5 項(xiàng)基礎(chǔ)類別。因患者在描述自身病情和癥狀時(shí)常會(huì)提及對(duì)應(yīng)的身體部位，如“胸部有硬塊”“淋巴結(jié)那里疼”“手指也有明顯的腫脹”，若只將“硬塊”“疼”“腫脹”等詞標(biāo)記為癥狀，則會(huì)遺漏部分信息或扭曲患者原有的描述意圖，所以增設(shè)身體部位（body）類別，以提高癥狀類別識(shí)別的精確度。實(shí)體細(xì)分類別如表2 所示。

表2 醫(yī)療實(shí)體細(xì)分類別

4.4 文本標(biāo)注

采用BIO 標(biāo)注法對(duì)預(yù)處理好的數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注，隨機(jī)選取了共計(jì)2 000 條數(shù)據(jù)進(jìn)行標(biāo)注。BIO標(biāo)注是將每個(gè)文本中的每個(gè)字標(biāo)注為“B-X”“I-X”或者“O”的形式［21］。其中：B 即Begin，表示開始；I 即Intermediate，表示實(shí)體的中間或結(jié)尾；O 即Other，表示其他；X 表示實(shí)體的名稱。則“B-X”所標(biāo)注的字是X 類型并且是該實(shí)體的開頭，“I-X”所標(biāo)注的字是X 類型并且是該實(shí)體的中間部分，“O”表示不屬于任何類型。如，對(duì)于“經(jīng)過鉬靶照相確診了乳腺癌，現(xiàn)在在接受化療”這個(gè)短句，根據(jù)BIO 標(biāo)注規(guī)則，其標(biāo)注后的結(jié)果如表3 所示。其中“鉬靶照相”為檢查類的實(shí)體，“乳腺癌”為疾病類的實(shí)體，“化療”為治療類的實(shí)體，其余均不屬于任何實(shí)體類別。將標(biāo)注后的2 000 條數(shù)據(jù)中的1 600 條作為訓(xùn)練集、400 條作為測(cè)試集，供后續(xù)模型的訓(xùn)練和檢驗(yàn)使用。

表3 樣本BIO 標(biāo)記結(jié)果示例

4.5 實(shí)驗(yàn)結(jié)果

在本研究給出的醫(yī)療實(shí)體識(shí)別模型中，樣本的參數(shù)設(shè)置如表4 所示。

表4 樣本醫(yī)療實(shí)體識(shí)別模型參數(shù)設(shè)置

對(duì)實(shí)驗(yàn)結(jié)果采用準(zhǔn)確率、召回率和F值進(jìn)行評(píng)價(jià)。其中：準(zhǔn)確率又稱為查準(zhǔn)率，它表示實(shí)體識(shí)別的正確程度；召回率也稱為查全率，它表示識(shí)別實(shí)體的覆蓋度；而F值則綜合考慮了準(zhǔn)確率和召回率。上述3 個(gè)指標(biāo)的計(jì)算公式分別如下：

為驗(yàn)證模型中CNN 模塊的有效性，選取BiLSTM-CRF 實(shí)體識(shí)別模型作為對(duì)比，實(shí)驗(yàn)結(jié)果如表5 所示?？梢钥闯?，基于CNN 和BiLSTM 的模型識(shí)別方法，總體和各個(gè)實(shí)體類別的指標(biāo)結(jié)果準(zhǔn)確率均優(yōu)于BiLSTM-CRF 實(shí)體識(shí)別模型，其中疾病和治療類別的結(jié)果有較大提升，召回率和F值指標(biāo)也有明顯提升，說明本研究提出的基于的CNN 的醫(yī)療實(shí)體識(shí)別方法在針對(duì)在線醫(yī)療社區(qū)問答文本的數(shù)據(jù)集上是有效的。

表5 樣本基于卷積神經(jīng)網(wǎng)絡(luò)模塊的有效性驗(yàn)證結(jié)果

為驗(yàn)證模型中BiLSTM 模塊的有效性，選取CNN-CRF 實(shí)體識(shí)別模型作為對(duì)比，實(shí)驗(yàn)結(jié)果如表6所示?？梢钥闯觯贑NN 和BiLSTM 的模型識(shí)別方法，各指標(biāo)結(jié)果均優(yōu)于CNN-CRF 實(shí)體識(shí)別模型，說明本研究提出的基于的BiLSTM 的醫(yī)療實(shí)體識(shí)別方法針對(duì)在線醫(yī)療社區(qū)問答文本的數(shù)據(jù)集是有效的。

表6 樣本基于雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模塊的有效性驗(yàn)證結(jié)果

表6 （續(xù)）

5 結(jié)論

隨著互聯(lián)網(wǎng)不斷深入人們生活的方方面面，以及人們對(duì)于健康的重視度逐漸提高，互聯(lián)網(wǎng)醫(yī)療領(lǐng)域的研究也是當(dāng)下的熱點(diǎn)，其中通過對(duì)文本中的醫(yī)療實(shí)體識(shí)別從而構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜更是研究的熱門。目前，在線醫(yī)療社區(qū)為廣大患者提供了方便、及時(shí)的咨詢平臺(tái)，越來(lái)越多的人通過在線醫(yī)療社區(qū)尋醫(yī)問藥、查詢病情，其中的醫(yī)患問答對(duì)話反映了患者最真實(shí)、最直接需求，但此類文本結(jié)構(gòu)化程度不高且融合了個(gè)人的語(yǔ)言習(xí)慣，分析較為困難，為此，本研究聚焦于此類問答文本數(shù)據(jù)，提出一種基于CNN 和BiLSTM 的醫(yī)療實(shí)體識(shí)別方法，致力于通過CNN 和BiLSTM 兩種深度學(xué)習(xí)算法，分別抽取文本特征并進(jìn)行融合，多方位地獲取文本中的信息，以提高醫(yī)療實(shí)體識(shí)別的效果。

通過針對(duì)尋醫(yī)問藥網(wǎng)平臺(tái)上關(guān)于乳腺癌疾病問答文本進(jìn)行實(shí)驗(yàn)，結(jié)果表明本研究提出的模型方法優(yōu)于BiLSTM-CRF 和CNN-CRF 方法，且總體識(shí)別準(zhǔn)確率達(dá)到92.3%、召回率達(dá)到89.3%、F值達(dá)到90.8%，即表示此方法是有效的。雖然本模型方法取得了較好的識(shí)別結(jié)果，但研究數(shù)據(jù)所涉及的疾病僅包含乳腺癌，疾病類別比較單一，今后的研究將結(jié)合更多類型的疾病和醫(yī)療社區(qū)平臺(tái)進(jìn)行。