亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CHIP2020評(píng)測(cè)任務(wù)1概述: 中文醫(yī)學(xué)文本命名實(shí)體識(shí)別

        2022-06-18 01:58:58李雯昕張坤麗關(guān)同峰朱田恬常寶寶陳清財(cái)
        中文信息學(xué)報(bào) 2022年4期
        關(guān)鍵詞:評(píng)測(cè)命名類別

        李雯昕,張坤麗,關(guān)同峰,張 歡,朱田恬,常寶寶,陳清財(cái),4

        (1. 鄭州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,河南 鄭州 450001; 2. 北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;3. 哈爾濱工業(yè)大學(xué)(深圳) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;4. 鵬城實(shí)驗(yàn)室人工智能研究中心,廣東 深圳 518055)

        0 引言

        隨著醫(yī)療信息化的發(fā)展,醫(yī)學(xué)領(lǐng)域積累了大量醫(yī)學(xué)文本數(shù)據(jù),例如,醫(yī)學(xué)期刊、醫(yī)學(xué)教材、醫(yī)學(xué)百科、醫(yī)學(xué)檢驗(yàn)報(bào)告和用藥診斷等,這些信息大多為敘述性文本摘要,是進(jìn)行疾病預(yù)測(cè)、用藥推薦、輔助診療的重要資源。

        醫(yī)學(xué)命名實(shí)體識(shí)別是醫(yī)學(xué)領(lǐng)域文本挖掘的一個(gè)基礎(chǔ)任務(wù),該任務(wù)旨在自動(dòng)識(shí)別醫(yī)學(xué)文本中具有特殊意義的醫(yī)學(xué)實(shí)體,并將抽取的信息以結(jié)構(gòu)化的形式存儲(chǔ),供研究者們做進(jìn)一步分析使用。醫(yī)學(xué)命名實(shí)體在醫(yī)學(xué)文本中普遍存在,例如,“疾病”實(shí)體被廣泛用于病因探索、病情診斷、疾病預(yù)防以及后遺癥的醫(yī)學(xué)研究中。

        醫(yī)學(xué)領(lǐng)域文本數(shù)據(jù)具有信息密集、數(shù)據(jù)量龐大等特征,而且醫(yī)學(xué)文本中往往包含大量半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),文本用詞不受約束,使用簡(jiǎn)寫/縮寫、近義詞、未登錄詞的現(xiàn)象普遍存在,導(dǎo)致醫(yī)學(xué)命名實(shí)體本身具有復(fù)雜性與歧義性?,F(xiàn)有的醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別研究不免存在數(shù)據(jù)利用效率低、對(duì)現(xiàn)有數(shù)據(jù)挖掘和分析能力較弱等問題,與通用領(lǐng)域的命名實(shí)體識(shí)別相比還具有一定差距。通過自然語言處理技術(shù)與醫(yī)學(xué)專業(yè)領(lǐng)域結(jié)合,從多元異構(gòu)的醫(yī)學(xué)文本中挖掘重要信息,有利于提高臨床科研的效率和質(zhì)量,并服務(wù)于下游子任務(wù)。

        CHIP2020的主題為“數(shù)據(jù)和知識(shí)驅(qū)動(dòng)的醫(yī)療AI”,會(huì)議組織了中文醫(yī)療信息處理相關(guān)的六項(xiàng)評(píng)測(cè)任務(wù),其中評(píng)測(cè)任務(wù)一為中文醫(yī)學(xué)文本命名實(shí)體識(shí)別任務(wù),該評(píng)測(cè)鼓勵(lì)參賽隊(duì)伍使用基于自然語言處理技術(shù)和深度學(xué)習(xí)算法對(duì)中文醫(yī)學(xué)文本進(jìn)行命名實(shí)體識(shí)別研究。本次評(píng)測(cè)任務(wù)使用的數(shù)據(jù)集是由北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室、鄭州大學(xué)計(jì)算機(jī)與人工智能學(xué)院、哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院以及鵬城實(shí)驗(yàn)室人工智能研究中心聯(lián)合構(gòu)建的中文醫(yī)學(xué)實(shí)體抽取數(shù)據(jù)集CMeEE(Chinese Medical Entity Extraction)。總計(jì)開放了28 618條被標(biāo)注的中文醫(yī)學(xué)文本,包含定義的9類醫(yī)學(xué)實(shí)體類別,如疾病(dis)、身體部位(bod),任務(wù)要求給定一條真實(shí)的醫(yī)學(xué)教材文本,需要模型返回文本中可能的醫(yī)學(xué)實(shí)體位置和醫(yī)學(xué)實(shí)體類型。評(píng)測(cè)任務(wù)最終排名指標(biāo)為微平均F1值,示例數(shù)據(jù)如表1所示。

        表1 評(píng)測(cè)任務(wù)示例

        1 相關(guān)工作

        1.1 醫(yī)學(xué)命名實(shí)體識(shí)別研究

        醫(yī)學(xué)命名實(shí)體識(shí)別是醫(yī)學(xué)領(lǐng)域信息抽取的關(guān)鍵任務(wù),是醫(yī)學(xué)關(guān)系抽取、醫(yī)學(xué)文檔分類和健康問答系統(tǒng)等技術(shù)研究中的重要步驟。醫(yī)學(xué)命名實(shí)體識(shí)別方法可分為基于規(guī)則的方法、基于詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。

        基于詞典的方法和基于規(guī)則的方法往往需要醫(yī)學(xué)領(lǐng)域?qū)<医Y(jié)合語料特點(diǎn)人工構(gòu)建詞典和規(guī)則模板[1],然后采取字符串匹配模式,從醫(yī)學(xué)文本中檢索相似單詞進(jìn)行命名實(shí)體識(shí)別,如統(tǒng)一語言系統(tǒng)(Unified Medical Language System,UMLS)[2]。Etzioni等[3]提出了一個(gè)基于規(guī)則的實(shí)體識(shí)別系統(tǒng),通過規(guī)則模板能夠自動(dòng)化地提取網(wǎng)頁中存在的實(shí)體。Hanisch等[4]通過處理同義詞詞典構(gòu)建一個(gè)用于識(shí)別生物醫(yī)學(xué)文本中實(shí)體名的系統(tǒng)?;谠~典和規(guī)則的方法易于實(shí)現(xiàn),但識(shí)別性能受限于構(gòu)建的詞典和規(guī)則的質(zhì)量,所制定的規(guī)則僅對(duì)特定數(shù)據(jù)集有效,很難用單個(gè)詞典或規(guī)則涵蓋所有可能的表述,無法應(yīng)用于其他數(shù)據(jù)集。對(duì)于新出現(xiàn)或不在專業(yè)醫(yī)學(xué)詞典中的命名實(shí)體,字符串匹配方法很難進(jìn)行識(shí)別,且匹配精度不高。

        基于機(jī)器學(xué)習(xí)的方法需要標(biāo)準(zhǔn)的標(biāo)注數(shù)據(jù)集,利用樣本數(shù)據(jù)統(tǒng)計(jì)特征和模型參數(shù)來構(gòu)建模型。常用的機(jī)器學(xué)習(xí)模型有隱馬爾可夫模型HMM(Hidden Markov Model)、支持向量機(jī)SVM(Support Vector Machine)和條件隨機(jī)場(chǎng)CRF(Conditional Random Field)等。Wang等[5]采取模型融合策略,將SVM、CRF等模型組合,結(jié)果顯示融合的模型比單一模型效果更好。

        基于深度學(xué)習(xí)的方法利用詞向量作為輸入,通過深度學(xué)習(xí)框架自動(dòng)學(xué)習(xí)語料特征,有效降低了人工的干預(yù)。Qiu等[6]提出了一種基于條件隨機(jī)場(chǎng)的殘差擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)RD-CNN-CRF(Residual Dilated ConVolutional Neural Network with the Conditional Random Field),使模型在計(jì)算上具有異步性,從而加快了訓(xùn)練速度。Xue等[7]通過動(dòng)態(tài)范圍注意機(jī)制集成變換器雙向編碼表征模型BERT(Bidirectional Encoder Representations from Trans-formers),提高了共享參數(shù)層的特征表示能力,在曙光醫(yī)院冠脈造影文本命名實(shí)體識(shí)別F1值達(dá)到96.89%。Wang等[8]針對(duì)識(shí)別嵌套實(shí)體的任務(wù)設(shè)計(jì)了次優(yōu)序列學(xué)習(xí)的算法,并采用從外部到內(nèi)部迭代提取實(shí)體的方式進(jìn)行解碼預(yù)測(cè),取得不錯(cuò)的效果。

        1.2 醫(yī)學(xué)命名實(shí)體評(píng)測(cè)會(huì)議

        國(guó)內(nèi)外組織了多個(gè)與醫(yī)學(xué)命名實(shí)體識(shí)別相關(guān)的評(píng)測(cè)任務(wù),如I2B2[9]評(píng)測(cè)任務(wù)一要求從電子病歷中識(shí)別并提取出醫(yī)療疾病、檢查和治療等實(shí)體,JNLPBA2004[10]要求自動(dòng)識(shí)別五類生物醫(yī)學(xué)命名實(shí)體,以及BioCreative IV化合物和藥品實(shí)體識(shí)別任務(wù)[11]等。在國(guó)內(nèi),全國(guó)知識(shí)圖譜與語義計(jì)算大會(huì)CCKS(China Conference on Knowledge Graph and Semantic Computing)于2017年發(fā)布了中文電子病歷命名實(shí)體評(píng)測(cè)任務(wù),識(shí)別并抽取電子病歷中與醫(yī)學(xué)臨床相關(guān)的實(shí)體提及,并于2018~2020年在此基礎(chǔ)上進(jìn)行數(shù)據(jù)集更新和規(guī)范的補(bǔ)充。此次CHIP評(píng)測(cè)任務(wù)一基于醫(yī)學(xué)教學(xué)文本聚焦于中文醫(yī)學(xué)文本命名實(shí)體識(shí)別,希望驗(yàn)證最新的自然語言處理技術(shù)和算法,為生物醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別研究提供最新實(shí)驗(yàn)結(jié)果。

        2 評(píng)測(cè)數(shù)據(jù)

        本次評(píng)測(cè)任務(wù)使用的數(shù)據(jù)集(CMeEE數(shù)據(jù)集)的標(biāo)注語料來自《臨床兒科學(xué)》[12],全書共分為17篇,介紹了兒科各系統(tǒng)疾病、傳染病、腫瘤以及新生兒生長(zhǎng)發(fā)育、營(yíng)養(yǎng)、監(jiān)護(hù)和急救等基礎(chǔ)理論知識(shí)。該教材由兒科專家編寫,文本敘述簡(jiǎn)潔,內(nèi)容具有權(quán)威性,可用于專業(yè)科學(xué)研究。

        CMeEE參考面向醫(yī)學(xué)教材的醫(yī)學(xué)實(shí)體標(biāo)注規(guī)范[13],將醫(yī)學(xué)實(shí)體劃分為9類,并對(duì)每種類別定義了實(shí)體邊界和標(biāo)注規(guī)則,如表2所示。18名經(jīng)過培訓(xùn)的標(biāo)注者被分為9組,采用多輪迭代的模式進(jìn)行規(guī)范的修訂和標(biāo)注工作[14],根據(jù)科恩卡帕評(píng)分對(duì)每個(gè)類別進(jìn)行標(biāo)注一致性計(jì)算,總體的一致性分?jǐn)?shù)為0.869。

        表2 9類醫(yī)學(xué)實(shí)體簡(jiǎn)述及分類

        CHIP2020評(píng)測(cè)任務(wù)一最終公布的數(shù)據(jù)集包括9種實(shí)體類別信息和28 618條醫(yī)學(xué)文本,包括訓(xùn)練集15 000條,驗(yàn)證集5 000條,測(cè)試集8 618條,各實(shí)體類別的分布如表3所示。

        表3 訓(xùn)練集、驗(yàn)證集、測(cè)試集中各命名實(shí)體數(shù)量分布情況

        續(xù)表

        3 評(píng)測(cè)結(jié)果

        CHIP2020評(píng)測(cè)任務(wù)一于2020年7月12日開放注冊(cè),參賽團(tuán)隊(duì)通過郵箱進(jìn)行報(bào)名。評(píng)測(cè)任務(wù)的訓(xùn)練集、驗(yàn)證集、測(cè)試集A以及評(píng)價(jià)腳本于2020年7月20日發(fā)布,供參賽隊(duì)伍搭建并測(cè)試各自開發(fā)的模型。測(cè)試集B于2020年9月28日發(fā)布,每支隊(duì)伍在測(cè)試集B公布期間最多提交兩次結(jié)果文件。CHIP2020評(píng)測(cè)任務(wù)一于2020年9月29日截止,總共253支隊(duì)伍報(bào)名參加評(píng)測(cè),共計(jì)614人,其中,128支隊(duì)伍來自科研院校等機(jī)構(gòu),41支隊(duì)伍來自企業(yè),84支隊(duì)伍為個(gè)人報(bào)名。最終有91支隊(duì)伍提交了測(cè)試集A模型評(píng)測(cè)結(jié)果,37支隊(duì)伍提交了測(cè)試集B模型評(píng)測(cè)結(jié)果。參賽隊(duì)伍的評(píng)測(cè)方法和結(jié)果,由評(píng)測(cè)組織者進(jìn)行學(xué)術(shù)評(píng)測(cè)分析研究。

        3.1 評(píng)估指標(biāo)

        在評(píng)估單個(gè)實(shí)體類別預(yù)測(cè)性能時(shí)采用準(zhǔn)確率P、召回率R、F1值為評(píng)估指標(biāo),計(jì)算如式(1)~式(3)所示。本次評(píng)測(cè)使用的評(píng)價(jià)指標(biāo)包括微平均準(zhǔn)確率(Micro_P)、微平均召回率(Micro_R)和微平均F1值(Micro_F1), 最終排名以微平均F1值為基準(zhǔn)。假設(shè)有n個(gè)類別:C1,…,Ci…,Cn,微平均F1值計(jì)算如式(4)~式(6)所示,其中,TP、FP、TN和FN分別代表真正類、假正類、真負(fù)類和假負(fù)類。

        3.2 方法分析

        本次評(píng)測(cè)隊(duì)伍解決中文醫(yī)學(xué)文本命名實(shí)體識(shí)別任務(wù)的主流思路為引入預(yù)訓(xùn)練語言模型和神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行多種模型集成,并在此基礎(chǔ)上引入詞匯增強(qiáng)等方案提升性能。評(píng)測(cè)任務(wù)一的參賽隊(duì)伍使用了多種預(yù)訓(xùn)練語言模型,主要包括BERT[15]、強(qiáng)力優(yōu)化變換器雙向編碼表征模型RoBERTa(Robustly Optimized BERT Pretraining Approach)[16]、面向中文理解的神經(jīng)語境表征模型NEZHA(Neural Contextualized Representation for Chinese Language Understanding)[17]、高效替代令牌檢測(cè)分類編碼器Electra(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[18],其中,RoBERTa模型使用次數(shù)最多。用大規(guī)模領(lǐng)域文本語料訓(xùn)練預(yù)訓(xùn)練語言模型,可以提供豐富的語義表示知識(shí)。此外有部分隊(duì)伍采用多種機(jī)器學(xué)習(xí)算法通過與預(yù)訓(xùn)練語言模型拼接進(jìn)行分類,如門控循環(huán)單元GRU(Gate Recurrent Unit)[19]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型LSTM(Long Short-term Memory)[20]、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型BiLSTM(Bi-Directional Long Short-Term Memory)[21]、CRF[22]、空洞卷積神經(jīng)網(wǎng)絡(luò)IDCNN(Iterated Dilated Convolutional Neural Networks)[23]等。提交的最終結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)模型在序列標(biāo)注問題中具有更好的性能表現(xiàn),多數(shù)隊(duì)伍利用BiLSTM得到上下文特征,結(jié)合CRF對(duì)標(biāo)注結(jié)果進(jìn)一步優(yōu)化。

        由于評(píng)測(cè)任務(wù)一是嵌套類命名實(shí)體識(shí)別問題,傳統(tǒng)的基于序列標(biāo)注的命名實(shí)體模型不能很好地解決嵌套命名實(shí)體識(shí)別的任務(wù),此次評(píng)測(cè)中前三名隊(duì)伍采用的策略包括以下幾點(diǎn):

        (1) 結(jié)合機(jī)器閱讀理解任務(wù)MRC(Machine Reading Comprehension)的研究方法,對(duì)每一個(gè)實(shí)體類別構(gòu)建問題,以問答的方式利用預(yù)訓(xùn)練模型提取實(shí)體,同時(shí)獲得實(shí)體首尾可能位置的預(yù)測(cè)結(jié)果;

        (2) 層疊式模型,每一層采取指針標(biāo)注,通過堆疊多個(gè)識(shí)別層的方式來識(shí)別命名實(shí)體中的層次化結(jié)構(gòu);

        (3) 多頭選擇機(jī)制,結(jié)合關(guān)系抽取任務(wù)中的關(guān)系線性分類器,將其適用于嵌套實(shí)體抽取任務(wù);

        (4) 雙仿射機(jī)制,通過雙仿射機(jī)制捕獲邊界信息,并采取傳統(tǒng)的序列標(biāo)注任務(wù)強(qiáng)化嵌套結(jié)構(gòu)的內(nèi)部信息交互;

        (5) 詞匯增強(qiáng),在模型中結(jié)合詞級(jí)別的信息,將文本的編碼結(jié)果和實(shí)體的詞向量作為抽取層的最終向量;

        (6) 采用動(dòng)態(tài)規(guī)劃的思想對(duì)超長(zhǎng)的句子進(jìn)行切分。

        結(jié)果顯示,這些策略單獨(dú)使用和組合使用時(shí)對(duì)模型最終的性能表現(xiàn)有不同程度的提升。此外,在特定領(lǐng)域?qū)︻A(yù)訓(xùn)練模型進(jìn)行進(jìn)一步的訓(xùn)練也能提升模型效果。

        3.3 結(jié)果分析

        對(duì)37支隊(duì)伍提交的評(píng)測(cè)結(jié)果進(jìn)行分析,微平均F1值的平均數(shù)為0.603 8,最大值為0.683 5,最小值為0.001 8,中位數(shù)為0.661 8。排名前三的隊(duì)伍提交的各自最優(yōu)的結(jié)果信息如表4所示,包括參賽單位、方法描述和微平均F1值。

        表4 排名前三參賽隊(duì)伍的系統(tǒng)結(jié)果

        排名前三的隊(duì)伍提交結(jié)果在9種實(shí)體類別的性能表現(xiàn)如圖1所示,本文使用F1值評(píng)估每一個(gè)類的性能指標(biāo),縱坐標(biāo)表示為F1值,橫坐標(biāo)表示9類實(shí)體類別,其中6種類別的F1值在0.60以上。藥物(dru)識(shí)別效果最優(yōu),所有隊(duì)伍結(jié)果F1值都在0.82以上,可能原因?yàn)樗幬镞@類實(shí)體數(shù)據(jù)量較多,句子長(zhǎng)度較短,且語義信息辨識(shí)性高。臨床表現(xiàn)(sym)和醫(yī)學(xué)檢驗(yàn)項(xiàng)目(ite)識(shí)別效果最差,成績(jī)?cè)?.48~0.50之間??赡茉蛟谟卺t(yī)學(xué)檢驗(yàn)項(xiàng)目實(shí)體往往嵌套出現(xiàn)在臨床表現(xiàn)實(shí)體中,這在一定程度上影響了模型的識(shí)別能力。而臨床表現(xiàn)是指病人患病時(shí)的異常變化以及異常結(jié)果,實(shí)體普遍較長(zhǎng),且構(gòu)成規(guī)律復(fù)雜,模型的識(shí)別能力有待提高。并且臨床表現(xiàn)實(shí)體與疾病實(shí)體易混淆,相同的實(shí)體在不同語境下可能具有不同的實(shí)體類別。例如,“病人患高血壓”以及“病人檢測(cè)出高血壓、高血糖”,“高血壓”在前者語境中應(yīng)被識(shí)別為疾病,后者被識(shí)別為臨床表現(xiàn)。

        圖1 排名前三的隊(duì)伍最終結(jié)果分布在9類實(shí)體類別的性能表現(xiàn)

        將評(píng)測(cè)結(jié)果結(jié)合9類醫(yī)學(xué)實(shí)體的數(shù)據(jù)量和文本描述分析,可以發(fā)現(xiàn)數(shù)據(jù)量豐富,具有獨(dú)特描述特征的實(shí)體類別識(shí)別效果最好,數(shù)據(jù)稀疏,構(gòu)成規(guī)律復(fù)雜的實(shí)體類別識(shí)別效果較差。模型識(shí)別效果較好的實(shí)體,如藥物、疾病、微生物類,以上類別文本往往是醫(yī)學(xué)領(lǐng)域?qū)I(yè)名詞,文本描述信息獨(dú)特性高,這些都會(huì)幫助模型表現(xiàn)出更好的識(shí)別效果。識(shí)別效果較差的實(shí)體類別,如科室、臨床表現(xiàn)、醫(yī)學(xué)檢驗(yàn)項(xiàng)目,由于數(shù)據(jù)量少、實(shí)體長(zhǎng)度不確定以及存在實(shí)體嵌套等原因而使識(shí)別效果表現(xiàn)一般。

        結(jié)合不同隊(duì)伍的系統(tǒng)方案分析,預(yù)訓(xùn)練語言模型結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)模型是大部分隊(duì)伍采用的方案,排名較好的隊(duì)伍將多個(gè)模型的實(shí)驗(yàn)結(jié)果相融合,相比于單個(gè)模型取得較好的性能提升。如排名第3的隊(duì)伍與排名第7的隊(duì)伍均采用RoBERTa預(yù)訓(xùn)練模型,但第3名在此基礎(chǔ)上構(gòu)建了5種不同策略進(jìn)行模型融合識(shí)別實(shí)體,總體效果取得一定提升,同時(shí)在識(shí)別藥物、微生物類、科室這3種實(shí)體中取得最好效果。在識(shí)別表現(xiàn)較好的實(shí)體類別中,如藥物、疾病,各模型的表現(xiàn)差異不大。在識(shí)別效果較差的實(shí)體類別中,各模型表現(xiàn)差異較為明顯。因此提升數(shù)據(jù)辨識(shí)度低、數(shù)據(jù)量小的實(shí)體識(shí)別效果有助于提升模型性能。

        4 結(jié)語

        CHIP2020中國(guó)健康信息處理會(huì)議中的評(píng)測(cè)任務(wù)一為中文醫(yī)學(xué)文本命名實(shí)體識(shí)別,總共開放了28 618條中文醫(yī)學(xué)文本,以及預(yù)先定義好的9類醫(yī)學(xué)實(shí)體。一共37支隊(duì)伍提交了最終結(jié)果,排名第1的模型在對(duì)應(yīng)領(lǐng)域再次訓(xùn)練預(yù)訓(xùn)練語言模型BERT并結(jié)合MRC,微平均F1值達(dá)到了0.683 5。大部分參賽隊(duì)伍都使用了預(yù)訓(xùn)練語言模型,結(jié)合深度學(xué)習(xí)模型,然后針對(duì)任務(wù)進(jìn)行詞匯增強(qiáng),最后進(jìn)行模型融合,提高模型總體性能。結(jié)果分析排名靠前的隊(duì)伍模型總體表現(xiàn)很接近,但在不同類別的實(shí)體間識(shí)別效果差異明顯,F(xiàn)1值最低為0.487 5,最高為0.859 0。其中,數(shù)據(jù)規(guī)模大、描述文本辨識(shí)度強(qiáng)、實(shí)體邊界明顯的類別識(shí)別效果較好。

        未來的研究中,在對(duì)應(yīng)領(lǐng)域訓(xùn)練預(yù)訓(xùn)練模型,提高小類別和嵌套實(shí)體的表現(xiàn),可進(jìn)一步提高中文醫(yī)學(xué)文本命名實(shí)體識(shí)別模型的性能。

        猜你喜歡
        評(píng)測(cè)命名類別
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
        攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
        服務(wù)類別
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        亚洲精品~无码抽插| 亚洲人妖女同在线播放| 国产av一区二区网站| 夫妻免费无码v看片| 欧美日韩一区二区综合| 国产精品一区二区在线观看完整版| 日本经典中文字幕人妻| 精品国产亚洲第一区二区三区| 国产专区一线二线三线码| 嫩草影院未满十八岁禁止入内| 国产精品98福利小视频| 亚洲成人av一区免费看| 精品国际久久久久999波多野| 老湿机香蕉久久久久久| 99色网站| 日本女优中文字幕在线播放 | 亚洲熟女www一区二区三区| 国产精品美女久久久浪潮av| 国产福利小视频91| 国产极品大奶在线视频| 天堂中文最新版在线中文| 久99久热只有精品国产男同| av毛片在线播放网址| 久久一二区女厕偷拍图| 99国产精品无码| 久久精品伊人无码二区| 白嫩少妇在线喷水18禁| 国产色视频一区二区三区qq号 | 日韩中文字幕在线观看一区| 国产成本人片无码免费2020| 中文字幕久久久久人妻无码| 精品国产日产av在线| 国产精品 无码专区| 两个人看的www高清视频中文| 白白视频在线免费观看| 91精品国产福利在线观看麻豆| 女人高潮被爽到呻吟在线观看| 亚洲综合色区无码专区| 日本在线一区二区三区视频| 成人国产一区二区三区| 广东少妇大战黑人34厘米视频|