亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BERT-Att-biLSTM模型的醫(yī)學(xué)信息分類研究

2020-04-09 04:54:20於張閑胡孔法

計(jì)算機(jī)時(shí)代 2020年3期

於張閑胡孔法

摘 ?要：目前，對(duì)互聯(lián)網(wǎng)上虛假健康信息的研究多集中于謠言識(shí)別，而對(duì)醫(yī)學(xué)信息自動(dòng)分類的研究較少。采用基于雙向編碼的語言表征模型和注意力增強(qiáng)的雙向長短時(shí)記憶模型（BERT-Att-BiLSTM模型），對(duì)健康信息文本進(jìn)行分類，實(shí)現(xiàn)自動(dòng)識(shí)別虛假健康信息。實(shí)驗(yàn)結(jié)果表明，BERT-Att-BiLSTM模型可以高效地對(duì)醫(yī)學(xué)信息進(jìn)行分類，其中BERT模型相較于BiLSTM模型，性能提升明顯;與融合Word2Vec的BiLSTM模型相比，BERT-Att-BiLSTM模型效果更佳。

關(guān)鍵詞：健康信息; 語言表征模型; 雙向長短時(shí)記憶模型; BERT-Att-BiLSTM模型

中圖分類號(hào)：TP389.1 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A ? ? 文章編號(hào)：1006-8228（2020）03-01-04

Medical information classification based on BERT-Att-biLSTM model

Yu Zhangxian， Hu Kongfa

（School of Artificial Intelligence and Information Technology， Nanjing University of Chinese Medicine， Nanjing， Jiangsu 210023， China）

Abstract： At present， the research on false health information on the Internet focuses on rumor recognition， while the research on automatic classification of medical information is less. In this paper， a language presentation model based on BERT （Bidirectional Encoder Representations from Transformers） model and Att-BiLSTM （Attention-based Bidirectional Long Short-Term Memory） model is used to classify the health information texts and realize the automatic identification of false health information. The experimental results show that the BERT-Att-BiLSTM model can classify medical information efficiently. The performance of the BERT model is significantly improved compared with the BiLSTM model. Compared with the BiLSTM model with Word2Vec， the BERT-Att-BiLSTM model is better.

Key words： health information; language representation model; bidirectional long short-term memory model; BERT-Att-BiLSTM model

0 引言

近年隨著互聯(lián)網(wǎng)的快速發(fā)展和人類經(jīng)濟(jì)與科學(xué)的進(jìn)步，人們對(duì)自身健康越來越重視，促使互聯(lián)網(wǎng)上健康相關(guān)信息呈現(xiàn)豐富、多樣的特點(diǎn)。目前，有不少研究表明，網(wǎng)絡(luò)上的一般謠言基本可以自動(dòng)識(shí)別。但是，若要自動(dòng)識(shí)別虛假健康信息卻難以達(dá)到理想的效果。因?yàn)樘摷俳】敌畔⑼剖嵌?，與真實(shí)信息相似度較高，需要具有一定的專業(yè)醫(yī)學(xué)知識(shí)才能識(shí)別，這樣的信息只有靠人工才能夠識(shí)別。因此，自動(dòng)高效地識(shí)別虛假健康信息的意義重大。

文本分類是自然語言處理（NaturalLanguage Processing，NLP）的研究熱點(diǎn)之一。近年來，隨著計(jì)算機(jī)硬件性能的提高、云計(jì)算、大數(shù)據(jù)等技術(shù)的成熟，深度神經(jīng)網(wǎng)絡(luò)取得了巨大的突破，在很多應(yīng)用領(lǐng)域取得了顛覆性的成果[1]。目前，網(wǎng)上信息以短文本為主，由于短文本具有長度短、特征稀疏及上下文依賴性等特點(diǎn)，采用例如樸素貝葉斯（Na?ve Bayes，NB）和支持向量機(jī)（Support Vector Machines，SVM）等傳統(tǒng)的文本分類方法，直接進(jìn)行分類，分類效果不佳[2]。

深度學(xué)習(xí)方法將人工選取特征的過程，轉(zhuǎn)化為通過數(shù)據(jù)自動(dòng)學(xué)習(xí)特征的通用的學(xué)習(xí)過程，同時(shí)通過優(yōu)化訓(xùn)練模型的參數(shù)，提高效率和精度，避免了人工選取特征的主觀性和偶然性。2014年，Kim[3]將簡單卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）用于文本分類，提高了文本分類的準(zhǔn)精確度，使得CNN成為NLP中最具代表性的模型之一，但CNN擅長學(xué)習(xí)文本的局部特征，忽略了詞的上下文含義。循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）能學(xué)習(xí)任意時(shí)長序列的輸入，為了學(xué)習(xí)序列的上下語義關(guān)系，主要采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Bidirectional RNN，BiRNN）[4]。但隨著輸入的增多，RNN對(duì)很久以前信息的感知能力下降，產(chǎn)生長期依賴和梯度消失問題[5]。從RNN 改進(jìn)而來的長短時(shí)記憶模型（Long Short-Term Memory，LSTM）[6]利用門機(jī)制可以克服RNN的缺點(diǎn)。

近幾年，注意力（Attention）機(jī)制在文本分類領(lǐng)域受到關(guān)注，且該機(jī)制在文本處理領(lǐng)域被驗(yàn)證為一種有效的機(jī)制，它的主要原理是通過動(dòng)態(tài)學(xué)習(xí)不同特征對(duì)不同任務(wù)的貢獻(xiàn)程度，將注意力集中在重點(diǎn)詞上;就像人類視覺產(chǎn)生的注意力能夠以“高分辨率”聚焦在圖像的特定區(qū)域，同時(shí)以“低分辨率”感知周圍圖像，然后隨時(shí)間調(diào)整焦點(diǎn)[7]。2018年，可以稱之為NLP的一個(gè)重要的分水嶺——ELMo[8]、OpenAI-GPT以及BERT[9]模型的出現(xiàn)，尤其是BERT模型，其刷新了11項(xiàng)NLP任務(wù)的之前最優(yōu)性能記錄。

本文以果殼網(wǎng)“流言百科”上的健康相關(guān)信息為研究對(duì)象，采用基于雙向編碼的語言表征模型（Bidirectional Encoder Representations from Transformers，BERT）和注意力增強(qiáng)的雙向長短時(shí)記憶模型（Attention-Based Bidirectional LSTM，Att-BiLSTM），對(duì)健康信息文本進(jìn)行分類，實(shí)現(xiàn)對(duì)虛假健康信息的自動(dòng)識(shí)別。

1 相關(guān)研究

文本分類包含廣泛的引用場景：垃圾郵件篩查、主題分類和情感分析等。近年來，深度學(xué)習(xí)在計(jì)算機(jī)視覺、圖像、語音等領(lǐng)域取得了重大進(jìn)展，但在NLP領(lǐng)域，深度學(xué)習(xí)的潛力并沒有被挖掘，因此學(xué)者們開啟了將深度學(xué)習(xí)應(yīng)用于NLP領(lǐng)域的研究[10]，從CNN，RNN到RNN的變型結(jié)構(gòu)——LSTM和GRU等。同時(shí)，基于注意力機(jī)制的深度學(xué)習(xí)模型也得到了廣泛的應(yīng)用。潘曉英[11]等提出一種基于雙向長短時(shí)記憶網(wǎng)絡(luò)（BLSTM）和注意力機(jī)制的電商評(píng)論情感分類模型，實(shí)驗(yàn)表明，相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和普通的深度學(xué)習(xí)方法，論模型在準(zhǔn)確率、召回率和F1值指標(biāo)上均有明顯提高，而且BLSTM模型的實(shí)驗(yàn)結(jié)果也明顯優(yōu)于LSTM模型。

2018年，ELMo、OpenAI GPT及BERT模型的出現(xiàn)，尤其是BERT模型一度被稱為“NLP史上最強(qiáng)模型”。BERT模型是基于Transformer模型，它摒棄了常用的CNN 或者RNN模型，采用Encoder-Decoder架構(gòu)。其本質(zhì)就是一個(gè)預(yù)訓(xùn)練結(jié)構(gòu)，先通過利用大量原始的語料庫訓(xùn)練，得到一個(gè)泛化能力很強(qiáng)的模型，再進(jìn)行微調(diào)參數(shù)訓(xùn)練，將模型應(yīng)用到任意的特定任務(wù)中[9，12]。目前，NLP領(lǐng)域有些研究的核心都是基于BERT預(yù)訓(xùn)練模型。張培祥[12]結(jié)合BERT預(yù)訓(xùn)練模型和MMR模型，進(jìn)行抽取式自動(dòng)摘要實(shí)驗(yàn)，發(fā)現(xiàn)能提取出更符合人們語言邏輯的摘要句。楊飄提出BERT-BiGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu)，在MSRA語料上進(jìn)行訓(xùn)練，實(shí)驗(yàn)表明，該模型效果優(yōu)于目前最優(yōu)的 Lattice-LSTM 模型。

2 BERT-Att-BiLSTM模型

BERT-Att-BiLSTM模型如圖1所示，主要分為三部分：先通過BERT模型訓(xùn)練獲取每則文本的語義表示;再將文本中每個(gè)字的向量表示輸入到Att-iLSTM模型中，進(jìn)行進(jìn)一步語義分析;最后將softmax層輸出文本標(biāo)簽0（假）/1（真）。

2.1 BERT模型

對(duì)于文本分類任務(wù)，首先要將文本用向量表示，這一過程稱為詞嵌入（Word Embedding）。Mikolov等[13]于2013年提出了Word2Vec模型進(jìn)行詞向量訓(xùn)練，再應(yīng)用于文本分類。盡管Word2Vec在不少領(lǐng)域都取得了不錯(cuò)的效果，但其使用惟一的詞向量來表征一個(gè)詞的多個(gè)語義[14]。與Word2Vec模型相比，BERT模型（如圖2所示）采用的是雙向的Transformer結(jié)構(gòu)進(jìn)行編碼，其中“雙向”意味著模型在處理一個(gè)詞時(shí)，其可以根據(jù)上下文的語義關(guān)系，表征字在上下文中的具體語義。

預(yù)訓(xùn)練，是BERT模型的一個(gè)重要階段，通過對(duì)海量語料的訓(xùn)練，使得單詞學(xué)習(xí)到很好的特征表示。通過BERT模型訓(xùn)練得到文本的向量表示W(wǎng)：

其中W（i）表示第i則文本的向量矩陣，w（i）表示單個(gè)字的表征向量，n表示最大句子長度（max_seq_length）。

2.2 Att-BiLSTM模型

本文采用Att-BiLSTM模型進(jìn)一步學(xué)習(xí)句中的語義關(guān)系，在正常的BiLSTM模型的輸出層之前增加Attention層，采用Attention機(jī)制，核心在于生成注意力向量，通過與輸入向量進(jìn)行相似性計(jì)算，更新各個(gè)維度的權(quán)重值，提升重點(diǎn)詞語在句子中的價(jià)值，使模型將注意力集中在重點(diǎn)詞上，降低其他無關(guān)詞的作用，進(jìn)一步提高文本分類的精度[7]。

Att-BiLSTM由詞嵌入層、雙向LSTM層、Attention層及輸出層組成，結(jié)構(gòu)如圖1所示：BERT模型作為Att-BiLSTM的詞嵌入層，雙向LSTM層為隱含層，將輸入序列分別從兩個(gè)方向輸入模型，保存兩個(gè)方向的信息，最后拼接兩個(gè)隱層的信息，得到輸出信息：

其中表示第i則文本的BiLSTM信息，表示第i則文本的前向LSTM信息，表示第i則文本的反向LSTM信息。

為BiLSTM的每個(gè)輸出值分配不同的權(quán)重ω和偏置項(xiàng)b，計(jì)算出第i則文本中每個(gè)單詞的權(quán)重：

通過softmax歸一化，計(jì)算出各時(shí)刻一個(gè)權(quán)值：

其中uω表示隨機(jī)初始化的注意力矩陣。

對(duì)每個(gè)時(shí)刻的與進(jìn)行加權(quán)求和，得到Attention層的輸出s（i）：

將Attention層的輸出s（i）作為輸出層的輸入，通過softmax對(duì)分類情況進(jìn)行歸一化處理，輸出一個(gè)信息真假標(biāo)簽：0（假）/1（真）。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)收集及預(yù)處理

“流言百科”是果殼網(wǎng)站開發(fā)的最新辟謠平臺(tái)，該平臺(tái)上包括食品安全、醫(yī)療健康等方面的健康信息。本次實(shí)驗(yàn)的數(shù)據(jù)集是通過ScraPy和BeautifulSoup等工具，爬取“流言百科”上發(fā)布的健康相關(guān)信息文本（截至2018年10月23日），最終數(shù)據(jù)集大小如表1所示。

3.2 模型參數(shù)設(shè)置

本文中的模型都通過TensorFlow實(shí)現(xiàn)，將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對(duì)照，Word2Vec模型參數(shù)如表2所示。

BERT模型對(duì)硬件要求較高，條件限制較大，但此次實(shí)驗(yàn)的數(shù)據(jù)集較小，所以在進(jìn)行BERT-Att-BiLSTM模型訓(xùn)練時(shí)，采用的是同時(shí)進(jìn)行BERT和 Att-BiLSTM模型的參數(shù)優(yōu)化，參數(shù)設(shè)置如表3所示。

3.3 結(jié)果分析

為了檢驗(yàn)本文提出的基于深度學(xué)習(xí)的健康信息分類方法的有效性，將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對(duì)照，與BERT-Att-

BiLSTM模型進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果如表4所示，融合Word2vec的Att-BiLSTM模型比簡單的Att-BiLSTM模型在分類性能上表現(xiàn)更好。BERT模型相較于神經(jīng)網(wǎng)絡(luò)模型，性能提升非常明顯;與BERT-Att-BiLSTM模型相比，BERT模型的性能略差一些，但是差距較小，可能是由于數(shù)據(jù)集較小導(dǎo)致提升效果不顯著。

4 結(jié)束語

網(wǎng)絡(luò)上的健康信息中含有大量的專業(yè)術(shù)語，虛虛實(shí)實(shí)，傳統(tǒng)的文本分類方法并不適用。本文采用基于雙向編碼的語言表征模型和注意力增強(qiáng)的雙向長短時(shí)記憶模型，對(duì)健康相關(guān)的信息文本進(jìn)行自動(dòng)分類，實(shí)驗(yàn)結(jié)果表明，與直接采用神經(jīng)網(wǎng)絡(luò)算法和簡單利用BERT模型相比，該模型表現(xiàn)更加良好，在測試集的準(zhǔn)確率最高可達(dá)到89.7%，比常用的神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率更高，也優(yōu)于直接使用BERT模型進(jìn)行分類。由于目前數(shù)據(jù)集還比較小，這也可能導(dǎo)致常用的深度神經(jīng)網(wǎng)絡(luò)模型的效果不甚理想，所以需要進(jìn)一步擴(kuò)大數(shù)據(jù)集，并嘗試其他方法來進(jìn)一步改進(jìn)模型的性能。

參考文獻(xiàn)（References）：

[1] Lecun Y， Bengio Y， Hinton G. Deep learning [J].Nature，2015.521（7553）：436-444

[2] 劉敬學(xué)，孟凡榮，周勇，劉兵.字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J].計(jì)算機(jī)工程與應(yīng)用，2018.9：1-11

[3] Kim Y. Convolutional neural networks for sentenceclassification[C].in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing，（EMNLP14）， Doha， State of Qatar，2014：1746-1751

[4] 李洋，董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J].計(jì)算機(jī)應(yīng)用，2018.38（11）：3075-3080

[5] Bengio Y. Learning long-term dependencies with gradientdescent is difficult[J]. IEEE Transactions on Neural Networks，1994.5（2）：157-166

[6] Hochreiter S， Bengio Y， Frasconi P， et al. Gradient flow inrecurrent nets： The difficulty of learning long-term dependencies. Kolen JF， Kremer SC. A Field Guide to Dynamical Recurrent Networks. Los Alamitos： IEEE Press，2001.

[7] 朱茂然，王奕磊，高松，王洪偉，鄭麗娟.中文比較關(guān)系的識(shí)別：基于注意力機(jī)制的深度學(xué)習(xí)模型[J].情報(bào)學(xué)報(bào)，2019.38（6）：612-621

[8] Peters M， Neumann M， Iyyer M， et al. Deep contextualized?word representations. In Proceedings of NAACL，2018：2227-2237

[9] Jacob D， Ming-Wei C， Kenton L， Kristina T. BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL]，arXiv，2018-10-11， https：//arxiv.org/pdf/1810.04805.pdf

[10] 王瑩.基于深度學(xué)習(xí)的文本分類研究[D].沈陽工業(yè)大學(xué)，2019.

[11] 潘曉英，趙普，趙倩.基于BLSTM和注意力機(jī)制的電商評(píng)論情感分類模型[J].計(jì)算機(jī)與數(shù)字工程，2019.47（9）：2227-2232

[12] 張培祥.中文自動(dòng)摘要模型及其應(yīng)用[D].天津商業(yè)大學(xué)，2019.

[13] Mikolov T，Chen K，Corrado G， et al. Efficient estimation?of word representations in vector space[J]. Computer Science，2013：1301，3781

[14] 龔麗娟，王昊，張紫玄，朱立平.Word2vec對(duì)海關(guān)報(bào)關(guān)商品文本特征降維效果分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2019：1-19

計(jì)算機(jī)時(shí)代2020年3期

計(jì)算機(jī)時(shí)代的其它文章: 征稿啟事; 基于天地圖的山西地震應(yīng)急基礎(chǔ)數(shù)據(jù)庫建設(shè); 以軟件項(xiàng)目為課外實(shí)踐導(dǎo)向的導(dǎo)師制在計(jì)算機(jī)類專業(yè)中的探索; 翻轉(zhuǎn)課堂在數(shù)字圖像處理實(shí)驗(yàn)教學(xué)中的應(yīng)用分析; 學(xué)生綜合素質(zhì)評(píng)價(jià)的用戶畫像構(gòu)建研究; 基于智慧校園的黨建管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)