亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-Att-biLSTM模型的醫(yī)學(xué)信息分類研究

        2020-04-09 04:54:20於張閑胡孔法
        計(jì)算機(jī)時(shí)代 2020年3期

        於張閑 胡孔法

        摘 ?要: 目前,對(duì)互聯(lián)網(wǎng)上虛假健康信息的研究多集中于謠言識(shí)別,而對(duì)醫(yī)學(xué)信息自動(dòng)分類的研究較少。采用基于雙向編碼的語言表征模型和注意力增強(qiáng)的雙向長短時(shí)記憶模型(BERT-Att-BiLSTM模型),對(duì)健康信息文本進(jìn)行分類,實(shí)現(xiàn)自動(dòng)識(shí)別虛假健康信息。實(shí)驗(yàn)結(jié)果表明,BERT-Att-BiLSTM模型可以高效地對(duì)醫(yī)學(xué)信息進(jìn)行分類,其中BERT模型相較于BiLSTM模型,性能提升明顯;與融合Word2Vec的BiLSTM模型相比,BERT-Att-BiLSTM模型效果更佳。

        關(guān)鍵詞: 健康信息; 語言表征模型; 雙向長短時(shí)記憶模型; BERT-Att-BiLSTM模型

        中圖分類號(hào):TP389.1 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2020)03-01-04

        Medical information classification based on BERT-Att-biLSTM model

        Yu Zhangxian, Hu Kongfa

        (School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing, Jiangsu 210023, China)

        Abstract: At present, the research on false health information on the Internet focuses on rumor recognition, while the research on automatic classification of medical information is less. In this paper, a language presentation model based on BERT (Bidirectional Encoder Representations from Transformers) model and Att-BiLSTM (Attention-based Bidirectional Long Short-Term Memory) model is used to classify the health information texts and realize the automatic identification of false health information. The experimental results show that the BERT-Att-BiLSTM model can classify medical information efficiently. The performance of the BERT model is significantly improved compared with the BiLSTM model. Compared with the BiLSTM model with Word2Vec, the BERT-Att-BiLSTM model is better.

        Key words: health information; language representation model; bidirectional long short-term memory model; BERT-Att-BiLSTM model

        0 引言

        近年隨著互聯(lián)網(wǎng)的快速發(fā)展和人類經(jīng)濟(jì)與科學(xué)的進(jìn)步,人們對(duì)自身健康越來越重視,促使互聯(lián)網(wǎng)上健康相關(guān)信息呈現(xiàn)豐富、多樣的特點(diǎn)。目前,有不少研究表明,網(wǎng)絡(luò)上的一般謠言基本可以自動(dòng)識(shí)別。但是,若要自動(dòng)識(shí)別虛假健康信息卻難以達(dá)到理想的效果。因?yàn)樘摷俳】敌畔⑼剖嵌?,與真實(shí)信息相似度較高,需要具有一定的專業(yè)醫(yī)學(xué)知識(shí)才能識(shí)別,這樣的信息只有靠人工才能夠識(shí)別。因此,自動(dòng)高效地識(shí)別虛假健康信息的意義重大。

        文本分類是自然語言處理(NaturalLanguage Processing,NLP)的研究熱點(diǎn)之一。近年來,隨著計(jì)算機(jī)硬件性能的提高、云計(jì)算、大數(shù)據(jù)等技術(shù)的成熟,深度神經(jīng)網(wǎng)絡(luò)取得了巨大的突破,在很多應(yīng)用領(lǐng)域取得了顛覆性的成果[1]。目前,網(wǎng)上信息以短文本為主,由于短文本具有長度短、特征稀疏及上下文依賴性等特點(diǎn),采用例如樸素貝葉斯(Na?ve Bayes,NB)和支持向量機(jī)(Support Vector Machines,SVM)等傳統(tǒng)的文本分類方法,直接進(jìn)行分類,分類效果不佳[2]。

        深度學(xué)習(xí)方法將人工選取特征的過程,轉(zhuǎn)化為通過數(shù)據(jù)自動(dòng)學(xué)習(xí)特征的通用的學(xué)習(xí)過程,同時(shí)通過優(yōu)化訓(xùn)練模型的參數(shù),提高效率和精度,避免了人工選取特征的主觀性和偶然性。2014年,Kim[3]將簡單卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)用于文本分類,提高了文本分類的準(zhǔn)精確度,使得CNN成為NLP中最具代表性的模型之一,但CNN擅長學(xué)習(xí)文本的局部特征,忽略了詞的上下文含義。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能學(xué)習(xí)任意時(shí)長序列的輸入,為了學(xué)習(xí)序列的上下語義關(guān)系,主要采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN,BiRNN)[4]。但隨著輸入的增多,RNN對(duì)很久以前信息的感知能力下降,產(chǎn)生長期依賴和梯度消失問題[5]。從RNN 改進(jìn)而來的長短時(shí)記憶模型(Long Short-Term Memory,LSTM)[6]利用門機(jī)制可以克服RNN的缺點(diǎn)。

        近幾年,注意力(Attention)機(jī)制在文本分類領(lǐng)域受到關(guān)注,且該機(jī)制在文本處理領(lǐng)域被驗(yàn)證為一種有效的機(jī)制,它的主要原理是通過動(dòng)態(tài)學(xué)習(xí)不同特征對(duì)不同任務(wù)的貢獻(xiàn)程度,將注意力集中在重點(diǎn)詞上;就像人類視覺產(chǎn)生的注意力能夠以“高分辨率”聚焦在圖像的特定區(qū)域,同時(shí)以“低分辨率”感知周圍圖像,然后隨時(shí)間調(diào)整焦點(diǎn)[7]。2018年,可以稱之為NLP的一個(gè)重要的分水嶺——ELMo[8]、OpenAI-GPT以及BERT[9]模型的出現(xiàn),尤其是BERT模型,其刷新了11項(xiàng)NLP任務(wù)的之前最優(yōu)性能記錄。

        本文以果殼網(wǎng)“流言百科”上的健康相關(guān)信息為研究對(duì)象,采用基于雙向編碼的語言表征模型(Bidirectional Encoder Representations from Transformers,BERT)和注意力增強(qiáng)的雙向長短時(shí)記憶模型(Attention-Based Bidirectional LSTM,Att-BiLSTM),對(duì)健康信息文本進(jìn)行分類,實(shí)現(xiàn)對(duì)虛假健康信息的自動(dòng)識(shí)別。

        1 相關(guān)研究

        文本分類包含廣泛的引用場景:垃圾郵件篩查、主題分類和情感分析等。近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺、圖像、語音等領(lǐng)域取得了重大進(jìn)展,但在NLP領(lǐng)域,深度學(xué)習(xí)的潛力并沒有被挖掘,因此學(xué)者們開啟了將深度學(xué)習(xí)應(yīng)用于NLP領(lǐng)域的研究[10],從CNN,RNN到RNN的變型結(jié)構(gòu)——LSTM和GRU等。同時(shí),基于注意力機(jī)制的深度學(xué)習(xí)模型也得到了廣泛的應(yīng)用。潘曉英[11]等提出一種基于雙向長短時(shí)記憶網(wǎng)絡(luò)(BLSTM)和注意力機(jī)制的電商評(píng)論情感分類模型,實(shí)驗(yàn)表明,相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和普通的深度學(xué)習(xí)方法,論模型在準(zhǔn)確率、召回率和F1值指標(biāo)上均有明顯提高,而且BLSTM模型的實(shí)驗(yàn)結(jié)果也明顯優(yōu)于LSTM模型。

        2018年,ELMo、OpenAI GPT及BERT模型的出現(xiàn),尤其是BERT模型一度被稱為“NLP史上最強(qiáng)模型”。BERT模型是基于Transformer模型,它摒棄了常用的CNN 或者RNN模型,采用Encoder-Decoder架構(gòu)。其本質(zhì)就是一個(gè)預(yù)訓(xùn)練結(jié)構(gòu),先通過利用大量原始的語料庫訓(xùn)練,得到一個(gè)泛化能力很強(qiáng)的模型,再進(jìn)行微調(diào)參數(shù)訓(xùn)練,將模型應(yīng)用到任意的特定任務(wù)中[9,12]。目前,NLP領(lǐng)域有些研究的核心都是基于BERT預(yù)訓(xùn)練模型。張培祥[12]結(jié)合BERT預(yù)訓(xùn)練模型和MMR模型,進(jìn)行抽取式自動(dòng)摘要實(shí)驗(yàn),發(fā)現(xiàn)能提取出更符合人們語言邏輯的摘要句。楊飄提出BERT-BiGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu),在MSRA語料上進(jìn)行訓(xùn)練,實(shí)驗(yàn)表明,該模型效果優(yōu)于目前最優(yōu)的 Lattice-LSTM 模型。

        2 BERT-Att-BiLSTM模型

        BERT-Att-BiLSTM模型如圖1所示,主要分為三部分:先通過BERT模型訓(xùn)練獲取每則文本的語義表示;再將文本中每個(gè)字的向量表示輸入到Att-iLSTM模型中,進(jìn)行進(jìn)一步語義分析;最后將softmax層輸出文本標(biāo)簽0(假)/1(真)。

        2.1 BERT模型

        對(duì)于文本分類任務(wù),首先要將文本用向量表示,這一過程稱為詞嵌入(Word Embedding)。Mikolov等[13]于2013年提出了Word2Vec模型進(jìn)行詞向量訓(xùn)練,再應(yīng)用于文本分類。盡管Word2Vec在不少領(lǐng)域都取得了不錯(cuò)的效果,但其使用惟一的詞向量來表征一個(gè)詞的多個(gè)語義[14]。與Word2Vec模型相比,BERT模型(如圖2所示)采用的是雙向的Transformer結(jié)構(gòu)進(jìn)行編碼,其中“雙向”意味著模型在處理一個(gè)詞時(shí),其可以根據(jù)上下文的語義關(guān)系,表征字在上下文中的具體語義。

        預(yù)訓(xùn)練,是BERT模型的一個(gè)重要階段,通過對(duì)海量語料的訓(xùn)練,使得單詞學(xué)習(xí)到很好的特征表示。通過BERT模型訓(xùn)練得到文本的向量表示W(wǎng):

        其中W(i)表示第i則文本的向量矩陣,w(i)表示單個(gè)字的表征向量,n表示最大句子長度(max_seq_length)。

        2.2 Att-BiLSTM模型

        本文采用Att-BiLSTM模型進(jìn)一步學(xué)習(xí)句中的語義關(guān)系,在正常的BiLSTM模型的輸出層之前增加Attention層,采用Attention機(jī)制,核心在于生成注意力向量,通過與輸入向量進(jìn)行相似性計(jì)算,更新各個(gè)維度的權(quán)重值,提升重點(diǎn)詞語在句子中的價(jià)值,使模型將注意力集中在重點(diǎn)詞上,降低其他無關(guān)詞的作用,進(jìn)一步提高文本分類的精度[7]。

        Att-BiLSTM由詞嵌入層、雙向LSTM層、Attention層及輸出層組成,結(jié)構(gòu)如圖1所示:BERT模型作為Att-BiLSTM的詞嵌入層,雙向LSTM層為隱含層,將輸入序列分別從兩個(gè)方向輸入模型,保存兩個(gè)方向的信息,最后拼接兩個(gè)隱層的信息,得到輸出信息:

        其中表示第i則文本的BiLSTM信息,表示第i則文本的前向LSTM信息,表示第i則文本的反向LSTM信息。

        為BiLSTM的每個(gè)輸出值分配不同的權(quán)重ω和偏置項(xiàng)b,計(jì)算出第i則文本中每個(gè)單詞的權(quán)重:

        通過softmax歸一化,計(jì)算出各時(shí)刻一個(gè)權(quán)值:

        其中uω表示隨機(jī)初始化的注意力矩陣。

        對(duì)每個(gè)時(shí)刻的與進(jìn)行加權(quán)求和,得到Attention層的輸出s(i):

        將Attention層的輸出s(i)作為輸出層的輸入,通過softmax對(duì)分類情況進(jìn)行歸一化處理,輸出一個(gè)信息真假標(biāo)簽:0(假)/1(真)。

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)收集及預(yù)處理

        “流言百科”是果殼網(wǎng)站開發(fā)的最新辟謠平臺(tái),該平臺(tái)上包括食品安全、醫(yī)療健康等方面的健康信息。本次實(shí)驗(yàn)的數(shù)據(jù)集是通過ScraPy和BeautifulSoup等工具,爬取“流言百科”上發(fā)布的健康相關(guān)信息文本(截至2018年10月23日),最終數(shù)據(jù)集大小如表1所示。

        3.2 模型參數(shù)設(shè)置

        本文中的模型都通過TensorFlow實(shí)現(xiàn),將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對(duì)照,Word2Vec模型參數(shù)如表2所示。

        BERT模型對(duì)硬件要求較高,條件限制較大,但此次實(shí)驗(yàn)的數(shù)據(jù)集較小,所以在進(jìn)行BERT-Att-BiLSTM模型訓(xùn)練時(shí),采用的是同時(shí)進(jìn)行BERT和 Att-BiLSTM模型的參數(shù)優(yōu)化,參數(shù)設(shè)置如表3所示。

        3.3 結(jié)果分析

        為了檢驗(yàn)本文提出的基于深度學(xué)習(xí)的健康信息分類方法的有效性,將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對(duì)照,與BERT-Att-

        BiLSTM模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示,融合Word2vec的Att-BiLSTM模型比簡單的Att-BiLSTM模型在分類性能上表現(xiàn)更好。BERT模型相較于神經(jīng)網(wǎng)絡(luò)模型,性能提升非常明顯;與BERT-Att-BiLSTM模型相比,BERT模型的性能略差一些,但是差距較小,可能是由于數(shù)據(jù)集較小導(dǎo)致提升效果不顯著。

        4 結(jié)束語

        網(wǎng)絡(luò)上的健康信息中含有大量的專業(yè)術(shù)語,虛虛實(shí)實(shí),傳統(tǒng)的文本分類方法并不適用。本文采用基于雙向編碼的語言表征模型和注意力增強(qiáng)的雙向長短時(shí)記憶模型,對(duì)健康相關(guān)的信息文本進(jìn)行自動(dòng)分類,實(shí)驗(yàn)結(jié)果表明,與直接采用神經(jīng)網(wǎng)絡(luò)算法和簡單利用BERT模型相比,該模型表現(xiàn)更加良好,在測試集的準(zhǔn)確率最高可達(dá)到89.7%,比常用的神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率更高,也優(yōu)于直接使用BERT模型進(jìn)行分類。由于目前數(shù)據(jù)集還比較小,這也可能導(dǎo)致常用的深度神經(jīng)網(wǎng)絡(luò)模型的效果不甚理想,所以需要進(jìn)一步擴(kuò)大數(shù)據(jù)集,并嘗試其他方法來進(jìn)一步改進(jìn)模型的性能。

        參考文獻(xiàn)(References):

        [1] Lecun Y, Bengio Y, Hinton G. Deep learning [J].Nature,2015.521(7553):436-444

        [2] 劉敬學(xué),孟凡榮,周勇,劉兵.字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J].計(jì)算機(jī)工程與應(yīng)用,2018.9:1-11

        [3] Kim Y. Convolutional neural networks for sentenceclassification[C].in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, (EMNLP14), Doha, State of Qatar,2014:1746-1751

        [4] 李洋,董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J].計(jì)算機(jī)應(yīng)用,2018.38(11):3075-3080

        [5] Bengio Y. Learning long-term dependencies with gradientdescent is difficult[J]. IEEE Transactions on Neural Networks,1994.5(2):157-166

        [6] Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow inrecurrent nets: The difficulty of learning long-term dependencies. Kolen JF, Kremer SC. A Field Guide to Dynamical Recurrent Networks. Los Alamitos: IEEE Press,2001.

        [7] 朱茂然,王奕磊,高松,王洪偉,鄭麗娟.中文比較關(guān)系的識(shí)別:基于注意力機(jī)制的深度學(xué)習(xí)模型[J].情報(bào)學(xué)報(bào),2019.38(6):612-621

        [8] Peters M, Neumann M, Iyyer M, et al. Deep contextualized?word representations. In Proceedings of NAACL,2018:2227-2237

        [9] Jacob D, Ming-Wei C, Kenton L, Kristina T. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL],arXiv,2018-10-11, https://arxiv.org/pdf/1810.04805.pdf

        [10] 王瑩.基于深度學(xué)習(xí)的文本分類研究[D].沈陽工業(yè)大學(xué),2019.

        [11] 潘曉英,趙普,趙倩.基于BLSTM和注意力機(jī)制的電商評(píng)論情感分類模型[J].計(jì)算機(jī)與數(shù)字工程,2019.47(9):2227-2232

        [12] 張培祥.中文自動(dòng)摘要模型及其應(yīng)用[D].天津商業(yè)大學(xué),2019.

        [13] Mikolov T,Chen K,Corrado G, et al. Efficient estimation?of word representations in vector space[J]. Computer Science,2013:1301,3781

        [14] 龔麗娟,王昊,張紫玄,朱立平.Word2vec對(duì)海關(guān)報(bào)關(guān)商品文本特征降維效果分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019:1-19

        激情五月婷婷一区二区| 在线永久免费观看黄网站| 欧美 变态 另类 人妖| 国产成人精品午夜福利在线| 中国精品视频一区二区三区| 无码av专区丝袜专区| 天涯成人国产亚洲精品一区av| 精品粉嫩av一区二区三区| 成人免费直播| 国产日韩欧美亚洲精品中字| 国产午夜精品久久久久| 国产成人一区二区三区影院| 亚洲深深色噜噜狠狠网站| 精品深夜av无码一区二区| 精品性高朝久久久久久久| 亚洲无码vr| 91久久国产香蕉熟女线看| 久久青青草原精品国产app| 日日摸天天摸人人看| 国产精品久久久久久久久免费观看 | 国产香蕉尹人在线视频你懂的| 亚洲大片一区二区三区四区| 国产一区二区资源在线观看| 天天躁日日躁狠狠躁av麻豆| 男女上下猛烈啪啪免费看| 亚洲乱码日产精品bd在线观看 | 国产成人av性色在线影院色戒 | 亚洲AV小说在线观看| 蜜桃视频第一区免费观看| 久久久精品国产免大香伊| 三级4级全黄60分钟| 精品国产群3p在线观看| 无码熟妇人妻av在线c0930| 亚洲女同av在线观看| 亚洲精品无码久久久| 国产suv精品一区二区69| 少妇av免费在线播放| 免费人成在线观看播放视频| 国产乱妇无码大片在线观看| 精品无码久久久久久久动漫| 欧美成人高清手机在线视频|