亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT 的中文健康問句分類研究

        2022-04-12 03:40:32徐星昊
        電視技術 2022年3期
        關鍵詞:短文標簽分類

        徐星昊

        (昆明理工大學 信息工程與自動化學院,云南 昆明 650000)

        0 引言

        目前,智能醫(yī)療問答系統(tǒng)已逐步參與到醫(yī)院的診療過程中,如何將用戶所提出的問題進行準確分類是智能醫(yī)療問答系統(tǒng)的關鍵。例如問題“病情描述:高壓196 低壓139 血壓嚴重嗎?”的類別是“治療”,而問題“病情描述:請問高血壓能否吃銀杏葉片?”的類別是“健康生活方式”。由此,能否正確識別用戶問題的語義類別,是決定系統(tǒng)能否返回正確答案的重點,醫(yī)療健康問句分類尤為關鍵。

        醫(yī)學健康問句具有以下兩個特點:第一,由于所有健康問句都是病人在平臺中的口語化提問,其中涉及的語句大多數為短文本,而短文本包含的詞項少,導致文本內容缺乏足夠的上下文信息,極大地限制了短文本分類任務的完成。第二,健康問句具有較強的專業(yè)性和復雜性,病人在提出問題時會出現描述不準確、不全面等問題。對于短文本稀疏性問題的研究,陳等人[1]使用BERT、ERNIE 模型通過領域預訓練提取先驗知識信息,結合TextCNN模型生成高階文本特征向量并進行特征融合來實現短文本分類。楊等人[2]提出了一種基于多特征融合動態(tài)調整模型特征的方法進行短文本分類。而對于問句中病人描述不準確、不全面的問題,將表述不清晰的醫(yī)學關鍵詞進行加強解釋,有助于輔助健康問句的分類,如張等人[3]使用外部知識結合雙層注意力機制的方法進行短文本分類。以上研究方法都只是簡單地對特征進行融合。

        健康問句的文本大多是短文本,詞項少且存在問句描述不清晰的問題,上述的幾種短文本分類方法都有一定的局限性,因此本文提出一種把基于變換器的雙向編碼器表征技術(Bidirectional Encoder Representations from Transformers,BERT)的字符級特征取平均與BERT 的句子級特征拼接的中文健康問句分類方法。本文的創(chuàng)新點是:通過將BERT 的字符級特征與BERT 的句子級特征融合,獲取多維度特征知識來為分類任務提供基礎,從而進一步改善多標簽文本分類(Multi-Label text classification,MLTC)效果。

        1 相關工作及理論

        1.1 BERT 模型

        1.1.1 BERT 模型概述

        BERT 模型是以雙向Transformer 為基礎,面向掩碼模型(Masked Language Model)和下一句判斷(Next Sentence Prediction)任務構建的深度學習模型。當前,采用大量文本作為數據集預訓練而成的BERT 模型已成為處理多項自然語言處理(Natural Language Processing,NLP)任務的通用架構。

        1.1.2 BERT 模型的輸出

        BERT 模型的輸出有兩種模式:一種是字符級別的輸出,對應的是輸入短文本中的每一個字符所對應的特征表示;另一種是句子級別的向量,即BERT 模型輸出最左邊[CLS]特殊符號的向量。BERT 通常將[CLS]視作整個句子的語義特征,如圖1 所示。

        圖1 BERT 輸出模型

        1.2 多標簽文本分類

        在自然語言處理中,多標簽文本分類是一項基本且具有挑戰(zhàn)性的任務。MLTC 的目的是為給定的文本分配多個標簽。MLTC 已廣泛應用于情感分析、意圖識別以及問答系統(tǒng)等許多領域。隨著深度學習的發(fā)展,單標簽分類取得了巨大的成功。通過將問題視為一系列單標簽分類任務,可以將單標簽文本分類簡單地擴展到MLTC 任務,但是這種過度簡化的擴展通常會帶來較差的性能。與常規(guī)的單標簽分類不同,MLTC 各種標簽之間存在語義依賴性。由于本文的數據集不考慮標簽之間的語義依賴性,而是將問題視為一系列的單標簽分類任務,因此本文的多標簽分類流程如圖2 所示。

        圖2 多標簽文本分類

        2 模型設計

        大規(guī)模的預訓練語言模型開始出現在公眾的視線之中,是因為這些預訓練模型可以縮短人們花費在特征提取工作上的時間,使得自然語言處理走向另一個階段。BERT 就是這類基于預訓練任務的自然語言處理模型。這些模型往往基于大量的語料預訓練任務,在有足夠的算力的情況下,通過對下游任務的微調工作,能夠產生優(yōu)越的表現。通過對具體問題具體語料下的分析和模型結構的調整,預訓練模型結構可以產生更加優(yōu)異的效果。

        由于本文數據集相與醫(yī)學健康相關,因此采用Zhang 等[4]提供的mcBERT 預訓練模型,在中文生物醫(yī)學領域的大量語料上完成訓練。

        本文利用BERT 模型輸出的Sequence_out 取平均并與Pooler_out 進行拼接,也就是將BERT 的字符級特征取平均與句子級特征拼接,該模型記為SQ_BERT。CLS 代表的是分類任務的特殊token,它的輸出就是模型的Pooler_output。SQ_BERT 算法中,Pooler_output 對應的是[CLS]的輸出,Sequence_output 對應的是所有其他的輸入字的最后輸出。算法的具體流程步驟如下。

        (1)輸入原始文本數據。

        (2)對文本數據進行預處理。

        (3)預處理好的數據按照[CLS]+句子A(+[SEP]+句子B+[SEP])的格式送入模型中。其中,[CLS]代表分類任務的特殊token,它的輸出就是模型的Pooler output;[SEP]是分隔符,句子A 以及句子B 是模型的輸入文本。句子B 可以為空,如果句子B 為空,則輸入變?yōu)閇CLS]+句子A。

        (4)對步驟(3)所得到的結果Sequence_output取平均且與Pooler_output 進行拼接。

        (5)將步驟(4)的結果作為輸入送入Sigmoid分類器進行分類。

        3 實驗分析

        基于提出的模型與算法,對問句的主題進行分類(包含A 診斷、B 治療、C 解剖學/生理學、D流行病學、E 健康生活方式、F 擇醫(yī)共6 個大類)實驗[5]。由于C 解剖學/生理學這一類數據集中僅含有一個問句數據,無法保證實驗的全面性和有效性,因此在實際實驗中將問句主題分為5 類,即診斷、治療、流行病學、健康生活方式以及擇醫(yī)[6]。

        3.1 數據集和評價指標

        3.1.1 數據集

        本文所用的數據集為Kesci 的公眾健康問句分類比賽數據集和中文公眾健康問句數據集。Kesci的公眾健康問句分類比賽數據集的各項基本信息如表1 所示,中文公眾健康問句數據集[7]基本信息如表2 所示。

        表1 Kesci 公眾健康問句分類數據集

        表2 中文公眾健康問句數據集

        3.1.2 評價指標

        本文實驗的評價指標引入文本分類模型常用的評價指標,包括精確度(Precision,簡稱P)、召回率(Recall,簡稱R)以及F 值(F-Score,簡稱F)。

        3.2 實驗設置

        3.2.1 實驗平臺

        本研究中所有的代碼都由Python 語言編寫,模型基于Pytorch 搭建。設備操作系統(tǒng)為Windows,配備GeForce RTX 1650,內存為16 GB。

        3.2.2 數據預處理

        對于Kesci 公眾健康問句分類數據集,通過每一類數據量的比較發(fā)現解剖學/生理學這一類別數量分布極度不平衡。為保證數據集在訓練和測試的過程中的合理性,將于解剖學/生理學這一類別剔除掉。由于該數據集包含5 000 條有標簽的數據,將數據集按4∶1 的比例分為訓練集和測試集[12]。

        對于實驗參數設置,在訓練模型中,初始學習率設置為2×10-5,epoch 設置為5,并且利用K 折交叉驗證法(實驗中K=5)。由于BERT 的最大處理長度為512,因此在處理長文本的過程中使用截斷法。從數據集可以看到,由于問句基本集中在尾部,因此可以將頭部長度設置為127(稍短),尾部長度設置為383(稍長)。具體參數設置如表3 所示。

        表3 參數設置

        3.3 實驗結果與分析

        3.3.1 實驗結果

        實驗結果分為兩部分,一個是Kesci 公眾健康問句分類數據集對比實驗,另一個是中文公眾健康問句數據集對比實驗。第一部分實驗分別為CNN[8]、LSTM[9]、BiGRU+Attention[10]以 及BERT 與本文模型在實驗中的效果對比,實驗結果如表4所示。

        表4 實驗效果對比

        第二部分實驗分別為CNN、LSTM、SA-CIndRNN 與本文模型在實驗中的效果對比。本文模型相較于一般的基線模型對比實驗效果有顯著提高,與同樣使用特征融合的模型SA-C-INDRNN 進行對比,效果也略高于SA-C-INDRNN 模型。實驗結果如表5 所示。

        表5 對比實驗結果

        3.3.2 實驗分析

        由表4 的實驗結果可知,本模型的效果優(yōu)于LSTM、BiGRU 以及CNN 等傳統(tǒng)文本分類深度學習模型。相比于BERT,本文模型的F1 值上升了3.3%。通過效果分析可知,將BERT 的字符級特征取平均與句子級特征拼接的效果優(yōu)于BERT。由表5 結果可知本模型相比于傳統(tǒng)的深度學習模型有或多或少的提升,并且比SA-C-IndRNN 模型的結果F1 值上升了1%。

        4 結語

        針對患者在提出健康問句時描述不明確、不全面以及短文本分類存在特征少且稀疏等問題,本文提出了通過將BERT 的字符級特征拼接于BERT 的句子級特征的方式進行分類。實驗結果表明,所提的方法在醫(yī)學中文健康問句數據集分類中取得了較好的效果,相較于傳統(tǒng)的深度學習方法有著明顯的提升。

        本文方法提升了健康問句在問答系統(tǒng)中的分類效果,使問答系統(tǒng)能夠對健康問句進行更高效、便捷的分類,也可為其他領域的短文本分類模型構建提供借鑒。未來將對不同語料庫內容進行對比,優(yōu)化關鍵詞詞典;嘗試在語義層面深度提取醫(yī)學短文本關鍵詞,從而深度提取關鍵詞,更好地實現醫(yī)學短文本分類。另外,盡管將BERT 的句子級特征與字符級特征拼接取得了較好效果,但是特征提取方面依舊不足,可進一步改善特征提取效果,從而使健康問句的分類更準確。

        猜你喜歡
        短文標簽分類
        分類算一算
        分類討論求坐標
        KEYS
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        數據分析中的分類討論
        Keys
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        教你一招:數的分類
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        国产又爽又大又黄a片| 国产精品国产三级国产专区51区 | 日本成人一区二区三区| 亚洲国产日韩av一区二区 | 男女一边摸一边做爽爽的免费阅读 | 日韩a毛片免费观看| 一区二区三区福利在线视频| 国产女主播一区二区三区在线观看| 老女老肥熟女一区二区| 无码ol丝袜高跟秘书在线观看| 国产成人久久精品区一区二区| 久久麻豆精亚洲av品国产蜜臀| 成人偷拍自拍视频在线观看 | 日本老熟妇乱| 亚洲成人欧美| 丰满人妻一区二区三区精品高清 | 国产七十六+老熟妇| 欧美俄罗斯乱妇| 精品无码人妻久久久一区二区三区 | 精品国产免费一区二区三区香蕉| 欧美aa大片免费观看视频| 中文无码日韩欧免费视频 | 无码中文字幕专区一二三| 午夜精品男人天堂av| 狠狠噜狠狠狠狠丁香五月| 欧美老妇人与禽交| 蜜桃av噜噜一区二区三区香| 亚洲女同恋av中文一区二区| 天天做天天爱天天综合网2021| 成人区视频| 日本中文字幕人妻精品| 性色av一二三天美传媒| 狼色精品人妻在线视频| 亚欧视频无码在线观看| 自拍视频在线观看首页国产| 日本老熟妇乱| 久久99国产亚洲高清| 青青草在线免费观看在线| 久久精品中文闷骚内射| 精品人妻少妇一区二区不卡 | 好爽受不了了要高潮了av|