亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種在線醫(yī)療社區(qū)問答文本實(shí)體識(shí)別方法
        ——基于卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)

        2021-05-25 06:45:04廖開際鄒珂欣席運(yùn)江
        科技管理研究 2021年8期
        關(guān)鍵詞:文本模型

        廖開際,鄒珂欣,席運(yùn)江

        (華南理工大學(xué)工商管理學(xué)院,廣東廣州 510641)

        1 研究背景

        自2012 年谷歌提出了“知識(shí)圖譜”的概念至今,知識(shí)圖譜這一領(lǐng)域一直是科學(xué)研究和科技應(yīng)用的前沿?zé)狳c(diǎn),其應(yīng)用也涉及了從搜索到推薦等眾多領(lǐng)域。目前,醫(yī)學(xué)是知識(shí)圖譜應(yīng)用最廣的垂直領(lǐng)域之一,也是國(guó)內(nèi)外人工智能領(lǐng)域研究的熱點(diǎn),在如疾病風(fēng)險(xiǎn)評(píng)估、智能輔助診療、醫(yī)療質(zhì)量控制及醫(yī)療知識(shí)問答等智慧醫(yī)療領(lǐng)域都有著很好的發(fā)展前景[1]。構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜可以分為3 個(gè)步驟:醫(yī)療實(shí)體識(shí)別、實(shí)體關(guān)系抽取、實(shí)體對(duì)齊與知識(shí)融合,其中醫(yī)療實(shí)體識(shí)別一直是構(gòu)建知識(shí)圖譜過程中的重難點(diǎn)。

        在醫(yī)療領(lǐng)域,隨著互聯(lián)網(wǎng)的快速普及,網(wǎng)絡(luò)技術(shù)的創(chuàng)新與發(fā)展已逐漸影響醫(yī)患雙方的行為方式,越來(lái)越多的病人在網(wǎng)上尋醫(yī)問藥,醫(yī)生和醫(yī)院也更加重視通過互聯(lián)網(wǎng)進(jìn)行醫(yī)患之間的交流和溝通[2],例如尋醫(yī)問藥網(wǎng)等用戶規(guī)模較大的在線醫(yī)療社區(qū)中,已積累了大量醫(yī)患問答文本,若能通過這些問答文本進(jìn)行醫(yī)療實(shí)體識(shí)別,便可以更準(zhǔn)確且更加深層次地挖掘患者的需求,清晰地展現(xiàn)患者所關(guān)心的醫(yī)療問題,從而推動(dòng)醫(yī)療行業(yè)進(jìn)一步發(fā)展。然而,此類在線醫(yī)療社區(qū)問答文本不僅具有傳統(tǒng)社區(qū)類文本體量大、數(shù)據(jù)稀疏的特點(diǎn),還具有醫(yī)療文本的專業(yè)性和復(fù)雜性,同時(shí)由于個(gè)人語(yǔ)言習(xí)慣不同,醫(yī)患問答文本中還有大量簡(jiǎn)寫、略寫甚至模糊的表達(dá),給醫(yī)療實(shí)體識(shí)別工作帶來(lái)了巨大的挑戰(zhàn)。

        2 相關(guān)研究

        命名實(shí)體識(shí)別(named entity recognition,NER)是指識(shí)別文本中具有特定意義的實(shí)體。醫(yī)療實(shí)體識(shí)別,就是從文本中識(shí)別出具有醫(yī)學(xué)意義的實(shí)體,如疾病名稱、治療手段、檢查方法、藥物名稱等。對(duì)于醫(yī)療實(shí)體識(shí)別,目前采用較多的有基于詞典和規(guī)則的識(shí)別方法、基于淺層機(jī)器學(xué)習(xí)的識(shí)別方法以及基于深層神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。

        早期的醫(yī)療實(shí)體識(shí)別,多采用基于詞典的方法?;谠~典的方法是原理比較簡(jiǎn)單但也是最有效的方法之一,其基本思路是通過遍歷詞典進(jìn)行字符串匹配而實(shí)現(xiàn)實(shí)體識(shí)別[3]。如,Kristina 等[4]結(jié)合來(lái)自UMLS、MeSH 等醫(yī)學(xué)平臺(tái)的信息,開發(fā)了用于識(shí)別文本中的小分子和藥物的詞典,并將其予以應(yīng)用于識(shí)別醫(yī)療實(shí)體;寧時(shí)賢[5]通過生物醫(yī)學(xué)詞典識(shí)別了醫(yī)學(xué)實(shí)體,經(jīng)過實(shí)驗(yàn)驗(yàn)證表明,詞典特征有助于生物醫(yī)學(xué)實(shí)體的識(shí)別。上述基于詞典的方法雖然能對(duì)醫(yī)學(xué)實(shí)體進(jìn)行有效識(shí)別,但由于對(duì)醫(yī)學(xué)詞典和醫(yī)療知識(shí)庫(kù)的依賴程度較高,導(dǎo)致該方法的靈活程度較低。

        近幾年,隨著人工智能與其相關(guān)技術(shù)的快速發(fā)展,“機(jī)器學(xué)習(xí)”這一概念逐漸進(jìn)入人們的視野,基于淺層機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法也隨之得到快速發(fā)展。淺層機(jī)器學(xué)習(xí)方法主要包括條件隨機(jī)場(chǎng)(conditional random fields,CRF)模型、隱馬爾可夫模型(HMM)、最大熵 (ME)模型、支持向量機(jī)(SVM)等[6]。王若佳等[7]針對(duì)電子病歷分詞后的文本,采用條件隨機(jī)場(chǎng)機(jī)器學(xué)習(xí)算法進(jìn)行實(shí)體識(shí)別,結(jié)果表示該算法對(duì)醫(yī)療實(shí)體中“檢查”和“疾病”兩類實(shí)體的識(shí)別效果較好。龔樂君等[8]基于領(lǐng)域詞典和條件隨機(jī)場(chǎng)模型,從中文電子病歷文本中識(shí)別出了4 類醫(yī)療實(shí)體,該模型在測(cè)試數(shù)據(jù)中的精確率達(dá)到了96.7%

        2006 年Hinton 等[9]創(chuàng)建了一種多層次的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,完成了神經(jīng)網(wǎng)絡(luò)從淺層到深層的轉(zhuǎn)變,深度學(xué)習(xí)由此誕生?;谏疃壬窠?jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別方法在近幾年成為了實(shí)體識(shí)別領(lǐng)域的熱點(diǎn),如曹明宇等[10]使用雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(bi-directional long short-term memory,BiLSTM)對(duì)醫(yī)學(xué)藥物類實(shí)體進(jìn)行了識(shí)別,結(jié)果明顯優(yōu)于針對(duì)相同數(shù)據(jù)集所采用的其他識(shí)別方法;李綱等[11]采用BiLSTM-CRF 模型,針對(duì)全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(China Conference on Knowledge Graph and Semantic Computing,CCKS)提供的中文電子病歷做醫(yī)療實(shí)體識(shí)別,結(jié)果表明該方法能夠顯著提升傳統(tǒng)CRF 方法的實(shí)體識(shí)別效果;李雙麗等[6]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)-長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(long short-term memory,BLSTM)-CRF 的醫(yī)學(xué)實(shí)體識(shí)別方法,通過卷積神經(jīng)網(wǎng)絡(luò)抽取英文的字符特征和單詞特征來(lái)進(jìn)行實(shí)體識(shí)別,并在Biocreative ⅡGM 和JNLPBA2004生物醫(yī)學(xué)語(yǔ)料上驗(yàn)證了該方法的有效性。

        雖然采用上述方法均能有效識(shí)別有關(guān)文本中的醫(yī)療實(shí)體,但是以上識(shí)別方法大多是針對(duì)語(yǔ)言專業(yè)化和結(jié)構(gòu)化程度較高的電子病歷文本或者醫(yī)學(xué)語(yǔ)料庫(kù)而進(jìn)行的。相比于去實(shí)體醫(yī)院,目前越來(lái)越多的患者選擇直接在醫(yī)療社區(qū)平臺(tái)或者社交媒體上進(jìn)行在線的專業(yè)咨詢和健康經(jīng)驗(yàn)分享[12],此類醫(yī)患問答文本數(shù)據(jù)是患者最真實(shí)、最直接的需求和想法反饋,但針對(duì)在線醫(yī)療社區(qū)中的患者編寫文本做醫(yī)療實(shí)體識(shí)別的研究仍然相對(duì)較少。因此,本研究將以在線醫(yī)療社區(qū)中的問答作為文本數(shù)據(jù)源進(jìn)行醫(yī)療實(shí)體識(shí)別工作。由于在線醫(yī)療社區(qū)中的問答文本非結(jié)構(gòu)化程度高、文字表達(dá)因個(gè)人語(yǔ)言習(xí)慣也有較大差異,因此本研究提出一種基于CNN 和BiLSTM 的醫(yī)療實(shí)體識(shí)別方法。

        3 基于CNN 和BiLSTM 的實(shí)體識(shí)別方法模型

        圖1 為本研究提出的實(shí)體識(shí)別方法的整體框架示意圖,模型整體可分為3 個(gè)模塊,分別為CNN 模塊、BiLSTM 模塊以及CRF 模塊。模型先利用字向量通過CNN 識(shí)別出中文單個(gè)字的漢字級(jí)特征,再采用BiLSTM 識(shí)別出結(jié)合上下文信息的特征,然后將以上兩種特征相結(jié)合放入CRF 模型中進(jìn)行訓(xùn)練,最后采用尋醫(yī)問藥網(wǎng)在線醫(yī)療社區(qū)中有關(guān)乳腺癌的醫(yī)患問答對(duì)方法的有效性進(jìn)行驗(yàn)證。

        首先對(duì)文本數(shù)據(jù)進(jìn)行清洗去重等預(yù)處理操作,之后選取處理好的部分?jǐn)?shù)據(jù),根據(jù)定義好的實(shí)體類別采用BIO 標(biāo)注法對(duì)文本數(shù)據(jù)進(jìn)行逐字標(biāo)注,然后將標(biāo)注好的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中80%為訓(xùn)練集,20%為測(cè)試集。接下來(lái)將訓(xùn)練集中的數(shù)據(jù)分別放入CNN 和BiLSTM 模型中抽取漢字級(jí)別的特征以及結(jié)合上下文信息的特征,并將抽取得到的特征利用連接函數(shù)融合,放入CRF 模型中輸出預(yù)測(cè)結(jié)果,將標(biāo)注好的測(cè)試集的數(shù)據(jù)對(duì)結(jié)果進(jìn)行驗(yàn)證,從預(yù)測(cè)結(jié)果的準(zhǔn)確率、召回率和F值3 個(gè)指標(biāo)評(píng)價(jià)模型的質(zhì)量。經(jīng)過對(duì)上述模型中的參數(shù)多次設(shè)置和調(diào)整,選取預(yù)測(cè)結(jié)果指標(biāo)最優(yōu)的模型作為最終的預(yù)測(cè)模型,最后將前期未被標(biāo)注的文本數(shù)據(jù)放入已訓(xùn)練好的預(yù)測(cè)模型中去,經(jīng)過所選模型的計(jì)算,得到最終的實(shí)體識(shí)別結(jié)果。

        圖1 醫(yī)療實(shí)體識(shí)別方法框架

        3.1 CNN 模塊

        20 世紀(jì)60 年代,科學(xué)家們?cè)谘芯控埖哪X皮層局部的神經(jīng)元時(shí)發(fā)現(xiàn),其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,從而提出了“卷積神經(jīng)網(wǎng)絡(luò)”的概念。卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[13],是深度學(xué)習(xí)的代表算法之一。自提出以來(lái),卷積神經(jīng)網(wǎng)絡(luò)已大量應(yīng)用于圖像、視頻等文件的處理領(lǐng)域中。2014年Kim[14]對(duì)CNN 的輸入層做了改進(jìn)和調(diào)整,提出了適用于文本的處理的模型,自此CNN 也被廣泛應(yīng)用于對(duì)文本的處理中。如,陶源等[15]結(jié)合門控線性單元和卷積神經(jīng)網(wǎng)絡(luò)在中文數(shù)據(jù)集SIGHAN2006上進(jìn)行了實(shí)體識(shí)別,識(shí)別準(zhǔn)確率達(dá)到了91.05%;曹依依等[16]采用卷積神經(jīng)網(wǎng)絡(luò)針對(duì)中文電子病歷進(jìn)行了實(shí)體識(shí)別,識(shí)別結(jié)果F 值達(dá)到了90.31%。所以,本研究提出采用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)識(shí)別文本中的特征進(jìn)行醫(yī)療實(shí)體識(shí)別。由于醫(yī)患問答文本中可能由于個(gè)人語(yǔ)言習(xí)慣導(dǎo)致醫(yī)療實(shí)體間距離較遠(yuǎn),如“我最近嗓子疼,不光是吃東西的時(shí)候疼,有時(shí)候就連喝水的時(shí)候也覺得疼,吃了阿莫西林等消炎藥之后感覺好多了”這句話中,疾病實(shí)體“嗓子疼”就與藥物實(shí)體“阿莫西林”距離較遠(yuǎn),而且詞向量難以處理長(zhǎng)距離的依賴關(guān)系,因此本研究采用字向量與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,首先對(duì)在線醫(yī)療社區(qū)中的問答文本進(jìn)行特征抽取。

        卷積的表達(dá)式用矩陣表示見式(1)。其中:s代表卷積函數(shù);*表示卷積操作;X為輸入,A為卷積核,n代表詞的數(shù)量。

        在卷積神經(jīng)網(wǎng)絡(luò)中,若是二維的卷積則表示如式(2)所示。其中:i和j分別代表二維矩陣的長(zhǎng)和寬。

        卷積神經(jīng)網(wǎng)絡(luò)可以分為輸入層、隱藏層和輸出層。在適用于文本的卷積神經(jīng)網(wǎng)絡(luò)中,輸入層是句子中的詞對(duì)應(yīng)的詞向量或字向量依次排列的矩陣,假設(shè)句子有n個(gè)詞(或字),向量的維數(shù)為k,那么輸入層的向量矩陣就是n×k。通常用戶圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)使用的卷積核的寬度和高度是一樣的(見圖2),但在處理文本數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)中,卷積核的寬度與詞向量或字向量的維度一致(見圖3),只有高度可以任意設(shè)置,輸入的每一行向量代表一個(gè)詞或字。

        圖2 圖像識(shí)別的CNN 卷積核

        圖3 文本處理的CNN 卷積核

        本研究采用文本的字向量作為輸入層。數(shù)據(jù)通過輸入層后抵達(dá)卷積層,模型設(shè)置3 層卷積,卷積后的數(shù)據(jù)將會(huì)依次通過歸一化處理和ReLU 激活函數(shù),后轉(zhuǎn)化形狀輸出。其中ReLU 函數(shù)的公式見式(3):

        3.2 BiLSTM 模塊

        長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)期依賴問題和梯度消失問題而衍生出來(lái)的模型,而雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型包含了兩個(gè)方向的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型,如圖4 所示。

        圖4 BiLSTM 模型結(jié)構(gòu)

        在BiLST 模型中,每個(gè)細(xì)胞內(nèi)部結(jié)構(gòu)如圖5 所示。其中:ht為當(dāng)前隱藏層狀態(tài);xt為當(dāng)前輸入;ct為當(dāng)前細(xì)胞狀態(tài);δ為Sigmoid 激活函數(shù)。從RNN 改進(jìn)而來(lái)的長(zhǎng)短期記憶模型利用門機(jī)制可以克服RNN 的缺點(diǎn)[17],這種門機(jī)制即通過遺忘門、輸入門和輸出門的引入,可以有效解決梯度消失等問題。

        圖5 BiLSTM 的單元內(nèi)部結(jié)構(gòu)

        由圖5 可見:

        (1)遺忘門原理:上一階段的ht-1與當(dāng)前的輸入xt級(jí)聯(lián)之后,經(jīng)過 Sigmoid 函數(shù)后與ct-1相乘。若δ函數(shù)的輸出ft接近 0,則表示ct-1這個(gè)信息被忘掉了。ft的計(jì)算公式見式(4),其中W和b分別為模型的權(quán)重和偏置向量。

        (2)輸入門原理:上一階段的ht-1與當(dāng)前輸入xt級(jí)聯(lián)之后,經(jīng)過Sigmoid 函數(shù)后與 tanh 的輸出相乘,并與之前的細(xì)胞狀ct-1×ft相加,得到ct。若it接近 0,則表示此輸入被丟棄。

        (3)輸出門原理:上一階段的ht-1與當(dāng)前的輸入xt級(jí)聯(lián)之后,經(jīng)過Sigmoid 函數(shù)后與 tanh(ct)的輸出相乘,得到ht。其中O代表輸出。若Ot接近 0,則表示輸出細(xì)胞信息不會(huì)進(jìn)入到隱藏層狀態(tài)中。

        3.3 CRF 模塊

        由于CRF 能更有效地限制輸出的序列位置,因此可以避免前期CNN 和BiLSTM 特征抽取輸出的結(jié)構(gòu)錯(cuò)誤,所以在實(shí)體識(shí)別模型的最后會(huì)將數(shù)據(jù)輸入線性CRF 中。2001 年Lafferty 等[18]首次提出一種判別式概率——條件隨機(jī)場(chǎng)模型,是在給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,在自然語(yǔ)言處理中得到了廣泛應(yīng)用。即給出輸入序列,便可以通過線性CRF 得到對(duì)應(yīng)的序列的概率,即。其概率的計(jì)算公式見式(9),其中wk為權(quán)重值。

        綜上,本研究提出的基于在線醫(yī)療社區(qū)問答文本的醫(yī)療實(shí)體識(shí)別方法的流程可表示為如圖6所示。

        圖6 醫(yī)療實(shí)體識(shí)別方法流程結(jié)構(gòu)

        4 實(shí)驗(yàn)和結(jié)果

        4.1 實(shí)驗(yàn)環(huán)境

        本研究的實(shí)驗(yàn)采用Python 語(yǔ)言(版本3.7),在Pytorch 深度學(xué)習(xí)框架下進(jìn)行。Pytorch 是Facebook 開源的神經(jīng)網(wǎng)絡(luò)框架,相比于其他深度學(xué)習(xí)的編程框架而言,具有簡(jiǎn)潔、高速、易用等特點(diǎn)。

        4.2 實(shí)驗(yàn)數(shù)據(jù)

        爬取了尋醫(yī)問藥網(wǎng)問答模塊中關(guān)于乳腺癌的12 000 條患者提問及其對(duì)應(yīng)的醫(yī)生回復(fù),經(jīng)過清洗去重等預(yù)處理操作后,保留了10 673 條有效問答文本(以下簡(jiǎn)稱“樣本”)(即10 673 條提問和10 673 條回復(fù))。為了使數(shù)據(jù)格式統(tǒng)一規(guī)范以及保證問答數(shù)據(jù)一一對(duì)應(yīng),將患者提問和對(duì)應(yīng)的醫(yī)生回復(fù)拼接成一條數(shù)據(jù),并將所有拼接后的文本數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),文本拼接格式為“患者病情描述(Q)+醫(yī)生對(duì)應(yīng)回復(fù)(A)”,如表1 所示。

        表1 樣本實(shí)驗(yàn)數(shù)據(jù)示例

        4.3 實(shí)體類別確定

        根據(jù)ICD-10 和各百科網(wǎng)站對(duì)醫(yī)療實(shí)體的劃分,并參考楊錦鋒等[19]和楊文明等[20]對(duì)醫(yī)療實(shí)體的分類方式,將醫(yī)療實(shí)體分為疾?。╠isease)、癥狀(symptom)、藥物(medicine)、治療(treatment)和檢查(check)這5 項(xiàng)基礎(chǔ)類別。因患者在描述自身病情和癥狀時(shí)常會(huì)提及對(duì)應(yīng)的身體部位,如“胸部有硬塊”“淋巴結(jié)那里疼”“手指也有明顯的腫脹”,若只將“硬塊”“疼”“腫脹”等詞標(biāo)記為癥狀,則會(huì)遺漏部分信息或扭曲患者原有的描述意圖,所以增設(shè)身體部位(body)類別,以提高癥狀類別識(shí)別的精確度。實(shí)體細(xì)分類別如表2 所示。

        表2 醫(yī)療實(shí)體細(xì)分類別

        4.4 文本標(biāo)注

        采用BIO 標(biāo)注法對(duì)預(yù)處理好的數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注,隨機(jī)選取了共計(jì)2 000 條數(shù)據(jù)進(jìn)行標(biāo)注。BIO標(biāo)注是將每個(gè)文本中的每個(gè)字標(biāo)注為“B-X”“I-X”或者“O”的形式[21]。其中:B 即Begin,表示開始;I 即Intermediate,表示實(shí)體的中間或結(jié)尾;O 即Other,表示其他;X 表示實(shí)體的名稱。則“B-X”所標(biāo)注的字是X 類型并且是該實(shí)體的開頭,“I-X”所標(biāo)注的字是X 類型并且是該實(shí)體的中間部分,“O”表示不屬于任何類型。如,對(duì)于“經(jīng)過鉬靶照相確診了乳腺癌,現(xiàn)在在接受化療”這個(gè)短句,根據(jù)BIO 標(biāo)注規(guī)則,其標(biāo)注后的結(jié)果如表3 所示。其中“鉬靶照相”為檢查類的實(shí)體,“乳腺癌”為疾病類的實(shí)體,“化療”為治療類的實(shí)體,其余均不屬于任何實(shí)體類別。將標(biāo)注后的2 000 條數(shù)據(jù)中的1 600 條作為訓(xùn)練集、400 條作為測(cè)試集,供后續(xù)模型的訓(xùn)練和檢驗(yàn)使用。

        表3 樣本BIO 標(biāo)記結(jié)果示例

        4.5 實(shí)驗(yàn)結(jié)果

        在本研究給出的醫(yī)療實(shí)體識(shí)別模型中,樣本的參數(shù)設(shè)置如表4 所示。

        表4 樣本醫(yī)療實(shí)體識(shí)別模型參數(shù)設(shè)置

        對(duì)實(shí)驗(yàn)結(jié)果采用準(zhǔn)確率、召回率和F值進(jìn)行評(píng)價(jià)。其中:準(zhǔn)確率又稱為查準(zhǔn)率,它表示實(shí)體識(shí)別的正確程度;召回率也稱為查全率,它表示識(shí)別實(shí)體的覆蓋度;而F值則綜合考慮了準(zhǔn)確率和召回率。上述3 個(gè)指標(biāo)的計(jì)算公式分別如下:

        為驗(yàn)證模型中CNN 模塊的有效性,選取BiLSTM-CRF 實(shí)體識(shí)別模型作為對(duì)比,實(shí)驗(yàn)結(jié)果如表5 所示??梢钥闯?,基于CNN 和BiLSTM 的模型識(shí)別方法,總體和各個(gè)實(shí)體類別的指標(biāo)結(jié)果準(zhǔn)確率均優(yōu)于BiLSTM-CRF 實(shí)體識(shí)別模型,其中疾病和治療類別的結(jié)果有較大提升,召回率和F值指標(biāo)也有明顯提升,說明本研究提出的基于的CNN 的醫(yī)療實(shí)體識(shí)別方法在針對(duì)在線醫(yī)療社區(qū)問答文本的數(shù)據(jù)集上是有效的。

        表5 樣本基于卷積神經(jīng)網(wǎng)絡(luò)模塊的有效性驗(yàn)證結(jié)果

        為驗(yàn)證模型中BiLSTM 模塊的有效性,選取CNN-CRF 實(shí)體識(shí)別模型作為對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示??梢钥闯觯贑NN 和BiLSTM 的模型識(shí)別方法,各指標(biāo)結(jié)果均優(yōu)于CNN-CRF 實(shí)體識(shí)別模型,說明本研究提出的基于的BiLSTM 的醫(yī)療實(shí)體識(shí)別方法針對(duì)在線醫(yī)療社區(qū)問答文本的數(shù)據(jù)集是有效的。

        表6 樣本基于雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模塊的有效性驗(yàn)證結(jié)果

        表6 (續(xù))

        5 結(jié)論

        隨著互聯(lián)網(wǎng)不斷深入人們生活的方方面面,以及人們對(duì)于健康的重視度逐漸提高,互聯(lián)網(wǎng)醫(yī)療領(lǐng)域的研究也是當(dāng)下的熱點(diǎn),其中通過對(duì)文本中的醫(yī)療實(shí)體識(shí)別從而構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜更是研究的熱門。目前,在線醫(yī)療社區(qū)為廣大患者提供了方便、及時(shí)的咨詢平臺(tái),越來(lái)越多的人通過在線醫(yī)療社區(qū)尋醫(yī)問藥、查詢病情,其中的醫(yī)患問答對(duì)話反映了患者最真實(shí)、最直接需求,但此類文本結(jié)構(gòu)化程度不高且融合了個(gè)人的語(yǔ)言習(xí)慣,分析較為困難,為此,本研究聚焦于此類問答文本數(shù)據(jù),提出一種基于CNN 和BiLSTM 的醫(yī)療實(shí)體識(shí)別方法,致力于通過CNN 和BiLSTM 兩種深度學(xué)習(xí)算法,分別抽取文本特征并進(jìn)行融合,多方位地獲取文本中的信息,以提高醫(yī)療實(shí)體識(shí)別的效果。

        通過針對(duì)尋醫(yī)問藥網(wǎng)平臺(tái)上關(guān)于乳腺癌疾病問答文本進(jìn)行實(shí)驗(yàn),結(jié)果表明本研究提出的模型方法優(yōu)于BiLSTM-CRF 和CNN-CRF 方法,且總體識(shí)別準(zhǔn)確率達(dá)到92.3%、召回率達(dá)到89.3%、F值達(dá)到90.8%,即表示此方法是有效的。雖然本模型方法取得了較好的識(shí)別結(jié)果,但研究數(shù)據(jù)所涉及的疾病僅包含乳腺癌,疾病類別比較單一,今后的研究將結(jié)合更多類型的疾病和醫(yī)療社區(qū)平臺(tái)進(jìn)行。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产suv精品一区二区883| 午夜免费观看一区二区三区| 日韩av一区二区网址| 亚洲综合激情五月丁香六月| 污污污污污污污网站污| 国产丰满乱子伦无码专| 日韩av在线手机免费观看| 欧美老熟妇乱xxxxx| 波多野结衣av手机在线观看| 五月婷婷激情六月| 免费观看一区二区三区视频| 精品无码av一区二区三区不卡| 黑人巨茎大战欧美白妇| 99久久超碰中文字幕伊人| 美女射精视频在线观看| 在线精品亚洲一区二区动态图| 成人区人妻精品一熟女| 国产又黄又爽又无遮挡的视频| 在线观看视频国产一区二区三区| 欧美性高清另类videosex| 成在人线av无码免观看麻豆| 亚洲中文无码精品久久不卡| 男女打扑克视频在线看| 欧美大片aaaaa免费观看| 人人狠狠综合久久亚洲婷婷| 日韩精品视频免费福利在线观看| 精品亚洲第一区二区三区| 久久久g0g0午夜无码精品| 任你躁国产自任一区二区三区| 色综合久久人妻精品日韩| 亚洲国产精品成人精品无码区在线| 理论片87福利理论电影| 久久久久久久久久91精品日韩午夜福利| 小池里奈第一部av在线观看| 人妻少妇乱子伦精品| 国产91在线免费| 久久精品天堂一区二区| 国产极品女主播国产区| 这里有精品可以观看| 国产中文字幕亚洲综合| 妺妺窝人体色www在线|