亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社交媒體的藥物不良反應(yīng)檢測(cè)

        2020-04-01 02:51:02朱曉旭林鴻飛曾澤淵
        關(guān)鍵詞:膠囊向量神經(jīng)網(wǎng)絡(luò)

        朱曉旭,林鴻飛,曾澤淵

        (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        0 引言

        目前,藥品不良反應(yīng)(adverse drug reactions,ADRs)已經(jīng)成為美國(guó)第四高的死亡原因,僅次于心臟病、糖尿病、艾滋病的疾病[1]。研究表明,由藥物引起的不良反應(yīng)同時(shí)帶來(lái)了公共衛(wèi)生問(wèn)題,每年帶來(lái)的死亡人數(shù)和住院人數(shù)以百萬(wàn)計(jì),并且大約每年有七十五億美元的相關(guān)費(fèi)用[2-4]。藥物不良反應(yīng)作為生物醫(yī)學(xué)界乃至社會(huì)關(guān)注的熱點(diǎn)問(wèn)題,已經(jīng)引起世界的高度重視。但實(shí)際上在臨床試驗(yàn)中不可能調(diào)查所有可以使用藥物的條件和環(huán)境,因此進(jìn)行藥物不良反應(yīng)的檢測(cè)問(wèn)題至關(guān)重要。

        隨著互聯(lián)網(wǎng)的快速普及,像Twitter這樣的社交媒體已經(jīng)成為用戶(hù)及患者之間進(jìn)行分享知識(shí)和交流情感的主要平臺(tái)。在這個(gè)平臺(tái)上,使用者會(huì)討論他們患病吃藥物的相關(guān)經(jīng)歷和感受,其中包括處方藥的使用、副作用以及治療效果等,這為我們的檢測(cè)提供了大量的數(shù)據(jù)。與傳統(tǒng)的醫(yī)學(xué)報(bào)告相比,社交媒體上的這些信息會(huì)更充分,更具有時(shí)效性而且傳播更快。到目前為止,從社交媒體中進(jìn)行藥物不良反應(yīng)的自動(dòng)檢測(cè)的相關(guān)數(shù)據(jù)和語(yǔ)料還相對(duì)較少,所以生成對(duì)抗學(xué)習(xí)、半監(jiān)督[5]和無(wú)監(jiān)督的發(fā)展和研究顯得至關(guān)重要。

        2015年,Sarker and Gonzalez[6]利用手動(dòng)提取句子中單個(gè)單詞的特征,然后通過(guò)機(jī)器學(xué)習(xí)算法支持向量機(jī)(SVM)進(jìn)行藥物不良反應(yīng)實(shí)驗(yàn),在實(shí)驗(yàn)結(jié)果中可以看出傳統(tǒng)的機(jī)器學(xué)習(xí)算法在文本分類(lèi)任務(wù)中存在一定局限。在2016年,Huynh等人[7]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取局部序列窗口特征,在一定程度上增強(qiáng)對(duì)文本的分類(lèi)結(jié)果,但是效果并不明顯。在2017年的The Social Media Mining for Health (SMM4H)共享任務(wù)評(píng)測(cè)中,許多參賽隊(duì)伍都利用當(dāng)前流行的SVM和CNN來(lái)實(shí)現(xiàn)藥物不良反應(yīng)的分類(lèi)。雖然傳統(tǒng)的神經(jīng)卷積網(wǎng)絡(luò)存在局部感知、權(quán)重共享和多卷積核的優(yōu)點(diǎn),但是其很容易丟失特征之間的空間位置關(guān)系以及不考慮任何單詞或局部模式的順序。Hinton[8]提出的通過(guò)放射變換和動(dòng)態(tài)路由協(xié)議的膠囊網(wǎng)絡(luò)則有效地解決了這類(lèi)問(wèn)題,使得每個(gè)神經(jīng)元的輸出不再僅僅是一個(gè)標(biāo)量值,而是一個(gè)向量包含特征的一些屬性,每個(gè)膠囊的模長(zhǎng)能夠代表這個(gè)特征發(fā)生的概率。因此,本文提出一種基于膠囊網(wǎng)絡(luò)的深度學(xué)習(xí)算法,盡最大努力減少由于藥物不良反應(yīng)對(duì)社會(huì)造成的影響,同時(shí)也減少領(lǐng)域?qū)<覍?duì)存在藥物不良反應(yīng)的句子進(jìn)行標(biāo)注,從而為社會(huì)帶來(lái)便利。

        早期,在進(jìn)行文本分類(lèi)時(shí),通常使用詞袋模型,詞頻-逆文件頻率(TF-IDF)以及N-gram等特征作為機(jī)器學(xué)習(xí)模型的特征輸入,其中常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)(SVM)[9]、邏輯回歸模型(LR)[10]、樸素貝葉斯(NB)[11]等。但是,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法有一個(gè)較為明顯的弊端,通常需要依賴(lài)于費(fèi)時(shí)費(fèi)力的特征工程構(gòu)建和較弱的適應(yīng)性和遷移性。

        深度神經(jīng)網(wǎng)絡(luò)的提出大大提高了在文本分類(lèi)任務(wù)上的性能,例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)。2014年Kim提出多通道卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子分類(lèi)[12],該實(shí)驗(yàn)是將固定的預(yù)訓(xùn)練詞向量和微調(diào)的詞向量分別當(dāng)作一個(gè)通道作為神經(jīng)網(wǎng)絡(luò)的輸入,再經(jīng)過(guò)池化和正則化得到最終的特征提取向量,該模型在4項(xiàng)任務(wù)中都提高了性能。2015年提出使用字符級(jí)神經(jīng)網(wǎng)絡(luò)(Convnets)進(jìn)行文本分類(lèi),實(shí)驗(yàn)結(jié)果也優(yōu)于傳統(tǒng)方法[13]。在2016年Joulin等提出一種簡(jiǎn)單而且快速有效的分類(lèi)方法fastText,同時(shí)將N-gram模型融入特征中來(lái)提高效率[14]。雖然深度神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)的機(jī)器學(xué)習(xí)在實(shí)驗(yàn)性能上有所改善,但是存在特征空間關(guān)系缺失以及建模效率低的缺點(diǎn)[8],原因是必須在大小隨維數(shù)增加指數(shù)增長(zhǎng)的復(fù)制檢測(cè)器和以類(lèi)似指數(shù)方式增加標(biāo)記訓(xùn)練集的體積之間進(jìn)行選擇,同時(shí)不管任何單詞或局部模式的順序,使得深度神經(jīng)網(wǎng)絡(luò)方法在文本分類(lèi)任務(wù)中有一定的局限性。

        2017年Hinton提出了膠囊網(wǎng)絡(luò)(Capsule Network),以神經(jīng)元向量來(lái)代替?zhèn)鹘y(tǒng)深度神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元節(jié)點(diǎn),用動(dòng)態(tài)路由協(xié)議代替深度卷積網(wǎng)絡(luò)中最大池化的方法訓(xùn)練全新的神經(jīng)網(wǎng)絡(luò)。與CNN中的最大池化不同,膠囊網(wǎng)絡(luò)不會(huì)丟棄區(qū)域內(nèi)實(shí)體之間的準(zhǔn)確位置信息,在文本分類(lèi)中保留了語(yǔ)義信息和各種特征之間的空間關(guān)系,同時(shí)致力于檢測(cè)特征和它的各種變種。目前,膠囊網(wǎng)絡(luò)的有效性已經(jīng)在手寫(xiě)體MNIST數(shù)據(jù)集上已經(jīng)得到了證實(shí)[7],訓(xùn)練速度快而且準(zhǔn)確率高。

        表1 數(shù)據(jù)存儲(chǔ)格式

        1 問(wèn)題及方法概述

        本文研究的主要目的為從社交媒體中檢測(cè)出具有藥物不良反應(yīng)的評(píng)論,該研究屬于自然語(yǔ)言處理、文本挖掘領(lǐng)域的研究,采用的數(shù)據(jù)集是The Social Media Mining for Health (SMM4H)共享任務(wù)中的數(shù)據(jù)集,完成藥物不良反應(yīng)的檢測(cè)任務(wù)。因此本文的系統(tǒng)主要包括三部分:數(shù)據(jù)獲取模塊、特征提取模塊和分類(lèi)器模塊,如圖1所示。

        1.1 數(shù)據(jù)獲取

        本文基于Scrapy程序包搭建爬蟲(chóng)平臺(tái),根據(jù)SMM4H共享任務(wù)中公布的Twitter中用戶(hù)帖子的ID號(hào)進(jìn)行獲取對(duì)應(yīng)的帖子,將爬下來(lái)的數(shù)據(jù)統(tǒng)一存儲(chǔ)到文本文件中,存儲(chǔ)的格式如表1所示。

        1.2 特征工程

        該部分手動(dòng)提取自然語(yǔ)言處理任務(wù)中常用的詞向量,Part-Of-Speech(POS)位置標(biāo)記等特征,同時(shí)由于社交媒體中用戶(hù)拼寫(xiě)錯(cuò)誤以及表達(dá)不規(guī)范等問(wèn)題,增加對(duì)charCNN特征的抽取。除此之外,考慮到本任務(wù)是對(duì)藥物不良反應(yīng)的分類(lèi)任務(wù),對(duì)藥物名和情感詞等特征主題詞的標(biāo)記會(huì)使實(shí)驗(yàn)性能有所提高,將這些特征進(jìn)行融合和拼接得到最終的特征向量。將得到的特征向量輸入到長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)進(jìn)行句子表示,然后再經(jīng)過(guò)膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由協(xié)議迭代得到膠囊。其中每個(gè)膠囊代表一個(gè)高級(jí)特征,每個(gè)膠囊都輸出一個(gè)向量,其大小對(duì)應(yīng)該特征存在的概率值。

        1.3 分類(lèi)器

        經(jīng)膠囊網(wǎng)絡(luò)的扁平層輸出輸送到softmax激活函數(shù)進(jìn)行分類(lèi),選擇發(fā)生概率大的作為分類(lèi)器的輸出。即評(píng)論中若與藥物副作用相關(guān),則標(biāo)簽為1;反之,標(biāo)簽則為0,從而達(dá)到了通過(guò)提取的生物醫(yī)學(xué)特征以及文本挖掘特征進(jìn)行藥物不良反應(yīng)檢測(cè)的效果。

        2 模型構(gòu)建及算法介紹

        2.1 模型構(gòu)建

        本文應(yīng)用的模型由Twitter評(píng)論中的詞特征表示和Twitter分類(lèi)器兩部分組成。其中第一部分由詞向量,字符級(jí)向量,POS特征,情感詞等多種特征構(gòu)成,第二部分由雙向LSTM神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)組成,在一定程度上可以改善當(dāng)前機(jī)器學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的不足,具體如圖2所示。

        2.2 特征表示

        該模型中的特征表示由CharCNN、詞向量、POS標(biāo)記、藥物名稱(chēng)以及情感詞特征聯(lián)合組成,這為檢測(cè)藥物不良反應(yīng)事件提供了較好的基礎(chǔ)。我們將預(yù)處理后的Twitter評(píng)論存儲(chǔ)在一個(gè).txt文件中,記作D。

        D=(T1,T2,T3,…,Tn)

        (1)

        其中T1,T2…Tn表示文件中的每一個(gè)Twitter評(píng)論,最終通過(guò)分類(lèi)器判斷該句子是不是含有藥物不良反應(yīng)的論評(píng)。

        圖2 模型圖Fig.2 Model diagram

        2.2.1 分布式文本表示

        目前,在自然語(yǔ)言處理領(lǐng)域詞向量的表示方法有兩種,分別是傳統(tǒng)的獨(dú)熱表示方法(one-hot representation)和分布式表示方法(Distributed Representation,Embedding)。其中獨(dú)熱表示詞向量方法由高維向量組成,但是存在的問(wèn)題是忽略了單詞之間是有語(yǔ)義關(guān)系和相似度的。分布式表示方法則是通過(guò)訓(xùn)練文本將語(yǔ)言中的每一個(gè)單詞映射到固定長(zhǎng)度的向量,然后將這些詞向量形成一個(gè)詞向量空間,通過(guò)詞之間在該空間上的距離判斷其相似度,如圖3所示。

        圖3 分布式詞向量的表示方法Fig.3 Distributed word vector representation

        本文利用Word2Vec[13]工具通過(guò)對(duì)wiki百科進(jìn)行詞向量的訓(xùn)練,Word2Vec工具具有兩種工作模式,分別是Skip-gram模型和連續(xù)的詞袋模型(CBOW),文中利用CBOW模型進(jìn)行訓(xùn)練,隨機(jī)初始化,然后將單詞或者字詞映射到同一個(gè)坐標(biāo)系下,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征學(xué)習(xí),得到連續(xù)的數(shù)值向量,因此該向量蘊(yùn)含了豐富的上下文語(yǔ)義信息,對(duì)文本分類(lèi)任務(wù)起著重要作用,其在一定程度上決定分類(lèi)任務(wù)的上限。具體公式如下所示。本次實(shí)驗(yàn)的窗口C取為5,詞匯表的大小為V,則輸入層可表示為{x1,x2,x3,x4,x5},可以先計(jì)算出隱藏層的輸出見(jiàn)式(2)。

        (2)

        該輸出h是對(duì)輸入向量作加權(quán)平均,其中W是輸入層到隱藏層的權(quán)重矩陣。接著計(jì)算在輸出層每個(gè)節(jié)點(diǎn)的輸入,見(jiàn)式(3)。

        (3)

        (4)

        2.2.2 CharCNN

        除了詞向量以外,在自然語(yǔ)言處理問(wèn)題上詞向量的選擇也同樣重要。字符級(jí)別的特征對(duì)于在形態(tài)和語(yǔ)義信息上表示有著較大的優(yōu)勢(shì),尤其面對(duì)Twitter上常常出現(xiàn)的縮寫(xiě)和拼寫(xiě)錯(cuò)誤等,它起到可以糾正和識(shí)別作用。例如,前綴dis-通常在英文中是否定的意思,表示不贊同;后綴-ing通常是現(xiàn)在分詞形式,表示正在或者將要發(fā)生的動(dòng)作。在實(shí)驗(yàn)中首先構(gòu)建由符號(hào)和字母組成的字母表,對(duì)應(yīng)使用one-hot表示共統(tǒng)計(jì)了87個(gè)字符,當(dāng)出現(xiàn)不存在的字符時(shí)候,另加全零向量表示。每個(gè)單詞wi用字符表示為wi=(c1,c2,c3,…,cn),然后通過(guò)神經(jīng)網(wǎng)絡(luò)的卷積層和最大池化層進(jìn)行訓(xùn)練優(yōu)化參數(shù),最終生成可供模型使用的字符級(jí)別的特征向量。

        2.2.3 POS標(biāo)記

        詞性(POS)標(biāo)記在藥物不良反應(yīng)的分類(lèi)任務(wù)中也起著舉足輕重的作用,通常描述一個(gè)詞在上下文中的作用,同時(shí)詞的特性和位置一定程度上蘊(yùn)含了句子的信息。更重要的一點(diǎn),在此任務(wù)中,藥物名稱(chēng)和藥物不良反應(yīng)的表述通常有著自己特定的POS標(biāo)記(如名詞)。在該模型中我們應(yīng)用的是自然語(yǔ)言處理工具包nltk中的Tokenize進(jìn)行分詞和pos_tag來(lái)詞性標(biāo)記,然后將標(biāo)記完的詞性作為模型輸入的特征之一,與其他特征進(jìn)行串聯(lián)拼接。

        2.2.4 藥物名和情感詞

        說(shuō)到藥物不良反應(yīng),當(dāng)然離不開(kāi)藥物,所以檢測(cè)句子中是否含有藥物名稱(chēng)是判斷藥物不良反應(yīng)的關(guān)鍵因素,只有句子中出現(xiàn)相關(guān)的藥物名稱(chēng),才有可能和藥物不良反應(yīng)有關(guān)。此外,還需要關(guān)注情感詞的出現(xiàn),因?yàn)樗幬锊涣挤磻?yīng)的評(píng)論中用戶(hù)通常會(huì)表達(dá)出一定的不滿(mǎn)或者悲傷甚至絕望的情感。例如,“Metformin has made me very ill for a very long time. It feels good to be alive and not taking that fucking poison”,我們可以很清楚地看到,發(fā)該帖子的用戶(hù)一定被二甲雙胍藥物折磨得很痛苦。本文提出的模型應(yīng)用SentiWordNet_3.0.0情感詞典和SIDER 4.1醫(yī)學(xué)藥典來(lái)進(jìn)行抽取Twitter中每句帖子的藥物名和情感詞,以此作為訓(xùn)練模型的另一個(gè)特征。

        2.3 Twitter分類(lèi)器

        藥物不良反應(yīng)的分類(lèi)器由兩部分組成,第一部分是雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),第二部分是膠囊網(wǎng)絡(luò)。

        2.3.1 LSTM網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是解決序列數(shù)據(jù)問(wèn)題的一種有效的方法,主要分為三層,分別是輸入層、隱層以及輸出層,其工作核心為每個(gè)輸入對(duì)應(yīng)隱層節(jié)點(diǎn),而在隱含層之間形成線(xiàn)型序列,但是循環(huán)神經(jīng)網(wǎng)絡(luò)由于在時(shí)間上參數(shù)共享,經(jīng)常會(huì)出現(xiàn)梯度消失或者梯度爆炸問(wèn)題。本文采用的是LSTM模型,它有效地解決了簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸或者梯度消失問(wèn)題,然而LSTM自循環(huán)的權(quán)重是不固定的,它是根據(jù)上下文來(lái)確定權(quán)重值,更好地處理了長(zhǎng)距離依賴(lài)問(wèn)題。

        LSTM引入了輸入門(mén)、遺忘門(mén)和輸出門(mén),由輸入門(mén)控制當(dāng)前計(jì)算的新?tīng)顟B(tài)以多大程度更新到記憶單元中;遺忘門(mén)控制前一步記憶單元中的信息有多大程度被遺忘掉;輸出門(mén)控制當(dāng)前的輸出有多大程度上取決于當(dāng)前的記憶單元,進(jìn)而實(shí)現(xiàn)了對(duì)較長(zhǎng)序列的語(yǔ)義長(zhǎng)期和短期記憶。具體公式如下:

        it=σ(Wixt+Uiht-1+Vict-1)

        (5)

        ft=σ(Wfxt+Ufht-1+Vfct-1)

        (6)

        ot=σ(Woxt+Uoht-1+Voct-1)

        (7)

        ct=ft×ct-1+it×tanh(Wcxt+Ucht-1)

        (8)

        ht=ot×tanh(ct)

        (9)

        其中,it代表輸入門(mén),ft代表遺忘門(mén),ot代表輸出門(mén),ht代表隱含層狀態(tài)節(jié)點(diǎn),ct代表記憶單元,xt是當(dāng)前時(shí)刻t的輸入,σ是logistic激活函數(shù),W、U、V是權(quán)重矩陣,其中Vi、Vf、Vo是對(duì)角矩陣。

        2.3.2 膠囊網(wǎng)絡(luò)

        針對(duì)傳統(tǒng)深度學(xué)習(xí)CNN中存在的易丟失特征之間的空間位置關(guān)系和建模效率低的問(wèn)題,Hinton在2017年提出膠囊網(wǎng)絡(luò)。膠囊網(wǎng)絡(luò)顧名思義就是由一系列的膠囊組成,每一個(gè)膠囊代表一種比較高級(jí)別的特征,輸出是一個(gè)矢量,其幅度代表該高級(jí)特征存在的概率。實(shí)驗(yàn)中我們選用了10個(gè)膠囊,每個(gè)膠囊的維度設(shè)置為16,并且把路由迭代的次數(shù)設(shè)置為3。

        (10)

        每一個(gè)膠囊sj的總輸入是對(duì)所有預(yù)測(cè)向量的加權(quán)求和得到,這一步的關(guān)鍵是通過(guò)迭代動(dòng)態(tài)路由找到耦合關(guān)系cij。公式見(jiàn)式(11)。

        (11)

        表2 算法

        與CNN中ReLU激活函數(shù)不同,膠囊網(wǎng)絡(luò)中用的是擠壓函數(shù)Squash,作用是把這個(gè)sj向量縮放在0到單位長(zhǎng)度1之間。公式見(jiàn)式(12)。

        (12)

        為了處理膠囊網(wǎng)絡(luò)中膠囊之間的關(guān)系,Hinton引入動(dòng)態(tài)路由機(jī)制,詳細(xì)算法如表2所示。

        其中在前向傳播時(shí),b的初始值設(shè)置為0。cij與b的關(guān)系見(jiàn)式(13)。

        (13)

        2.3.3 分類(lèi)器層

        膠囊網(wǎng)絡(luò)的扁平層(C)通過(guò)連接權(quán)重W得到加權(quán),見(jiàn)式(14)。

        Y=WC

        (14)

        然后經(jīng)過(guò)softmax激活函數(shù)進(jìn)行分類(lèi),選擇較大的概率值作為分類(lèi)結(jié)果。見(jiàn)式(15-16)。

        (15)

        (16)

        3 實(shí)驗(yàn)結(jié)果與分析

        針對(duì)所提出來(lái)的方法,本文進(jìn)行了兩個(gè)實(shí)驗(yàn):實(shí)驗(yàn)一是以機(jī)器學(xué)習(xí)中的支持向量機(jī)SVM和傳統(tǒng)深度學(xué)習(xí)中的CNN方法以及加了self-attention機(jī)制的模型為基線(xiàn),從而說(shuō)明本文提出來(lái)的基于詞特征表示的膠囊網(wǎng)絡(luò)模型可以有效地進(jìn)行藥物不良反應(yīng)的檢測(cè);實(shí)驗(yàn)二是證明用于詞表示的每一個(gè)特征都是有作用的,是缺一不可的。

        3.1 實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)

        本文的研究?jī)?nèi)容是藥物不良反應(yīng)的檢測(cè)任務(wù),是自然語(yǔ)言處理中常見(jiàn)的分類(lèi)任務(wù),因此對(duì)于該系統(tǒng)性能我們可以用準(zhǔn)確率(P)、召回率(R)兩個(gè)參數(shù)進(jìn)行評(píng)估,而F1值是對(duì)準(zhǔn)確率和召回率的綜合評(píng)價(jià)指標(biāo),本實(shí)驗(yàn)選擇用F1值作為參數(shù)評(píng)估。其計(jì)算公式如公式(17-19)所示。

        (17)

        (18)

        (19)

        其中TP表示將藥物不良反應(yīng)正確分類(lèi)的句子,FN表示將含有藥物不良反應(yīng)預(yù)測(cè)為沒(méi)有不良反應(yīng)的句子,FP表示將不含有不良反應(yīng)的句子預(yù)測(cè)為藥物不良反應(yīng)的句子,TN表示正確預(yù)測(cè)不含藥物不良反應(yīng)的句子。

        3.2 藥物不良反應(yīng)識(shí)別結(jié)果

        本次實(shí)驗(yàn)用的語(yǔ)料集在2017年的SMM4H共享任務(wù)評(píng)測(cè)的數(shù)據(jù)集,在2016年的共享任務(wù)基礎(chǔ)上擴(kuò)展了訓(xùn)練集。但是由于其提供的是Twitter的ID號(hào)而且存在用戶(hù)大量刪帖現(xiàn)象,我們一共爬取得到14881條Twitter帖子。在做實(shí)驗(yàn)之前,首先對(duì)本次實(shí)驗(yàn)的數(shù)據(jù)集進(jìn)行了詳細(xì)的信息統(tǒng)計(jì),如表3所示。

        表3 數(shù)據(jù)集統(tǒng)計(jì)

        為了驗(yàn)證論文中提出的方法的有效性,我們做了多個(gè)對(duì)比實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與前人實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析,表明了本文實(shí)驗(yàn)結(jié)果的可比性,其實(shí)驗(yàn)結(jié)果如表4所示。

        通過(guò)對(duì)比實(shí)驗(yàn),可以看出本文提出的基于膠囊網(wǎng)絡(luò)的藥物不良反應(yīng)分類(lèi)器相比于機(jī)器學(xué)習(xí)算法、傳統(tǒng)深度學(xué)習(xí)算法均有助于提高分類(lèi)性能,同時(shí)也要比2017年的SMM4H共享任務(wù)中最好的分類(lèi)結(jié)果高4.2個(gè)百分點(diǎn)(表3中用Model[15]表示)。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在對(duì)空間信息進(jìn)行建模過(guò)程中,通常需要對(duì)特征檢測(cè)器復(fù)制,這就會(huì)使模型的建模效率降低;其次,因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)往往對(duì)空間位置不敏感,因此對(duì)于文本句子中像位置信息,語(yǔ)義信息等難以有效地編碼。而膠囊網(wǎng)絡(luò)中以神經(jīng)元向量來(lái)代替?zhèn)鹘y(tǒng)深度神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元節(jié)點(diǎn),用動(dòng)態(tài)路由協(xié)議代替深度卷積網(wǎng)絡(luò)中最大池化的方法的特點(diǎn),使得膠囊網(wǎng)絡(luò)相比較于其他神經(jīng)網(wǎng)絡(luò)架構(gòu)更容易找到特征之間的空間位置關(guān)系,并且可以更高效地建立模型,同時(shí)也增強(qiáng)模型的健壯性。

        表4 實(shí)驗(yàn)結(jié)果對(duì)比

        3.3 實(shí)驗(yàn)結(jié)果分析

        本文的模型中應(yīng)用的詞表示特征由詞向量、字符向量、POS標(biāo)記、藥物名和情感詞組成,實(shí)驗(yàn)一已經(jīng)證明有效地提高了方法的性能。下面通過(guò)實(shí)驗(yàn)二來(lái)討論這些特征的作用大小,我們做了這些特征有效性的對(duì)比測(cè)試,分別將如下特征輸入到模型中,經(jīng)過(guò)文中提出的LSTM和膠囊網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果具體如表5所示。

        表5 特征有效性對(duì)比

        可見(jiàn),一方面,這些特征缺一不可。當(dāng)詞特征僅僅是分布式詞向量或者CharCNN時(shí)分類(lèi)效果并不好,然而當(dāng)與其他特征如POS特征、藥物名以及情感詞進(jìn)行特征融合之后,可以看到效果要比只加一兩個(gè)特征性能要好。另一方面,通過(guò)實(shí)驗(yàn)也可以看出,僅僅用分布式詞向量特征要比單用CharCNN結(jié)果好,原因是詞向量中包含有更多的語(yǔ)義信息,這是字符級(jí)特征向量所不具備的;但是當(dāng)CharCNN和藥物名、情感詞進(jìn)行特征融合時(shí)要比詞向量和藥物名、情感詞的特征融合效果好,很重要的一個(gè)原因是在藥物不良反應(yīng)檢測(cè)時(shí),CharCNN可以從Twitter中識(shí)別單詞縮寫(xiě)和錯(cuò)誤拼寫(xiě),加上藥物不良反應(yīng)句子中負(fù)面的情感詞可以達(dá)到很好的效果。而詞向量中本來(lái)就帶有豐富的情感,因此加上情感詞特征性能并沒(méi)有大的提高??傊?實(shí)驗(yàn)結(jié)果顯示,將這些特征進(jìn)行串聯(lián)拼接之后可以使模型的性能更好,對(duì)藥物不良反應(yīng)的檢測(cè)更準(zhǔn)確。

        模型中先將提取到的特征經(jīng)過(guò)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),然后通過(guò)膠囊網(wǎng)絡(luò)和softmax激活函數(shù)對(duì)藥物不良反應(yīng)句子進(jìn)行分類(lèi)。創(chuàng)新點(diǎn)在于針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)模型和卷積神經(jīng)網(wǎng)絡(luò)模型存在的不足,提出膠囊網(wǎng)絡(luò)來(lái)提高實(shí)驗(yàn)的性能。通過(guò)設(shè)置對(duì)比實(shí)驗(yàn)也證明本文提出豐富的詞表示的動(dòng)態(tài)路由機(jī)制的膠囊網(wǎng)絡(luò)有助于表示多個(gè)特征之間的空間關(guān)系,因此可以有效地提高對(duì)藥物不良反應(yīng)的分類(lèi)。

        4 結(jié)論

        為了從傳播快,時(shí)效性高的社交媒體上檢測(cè)出含有藥物不良反應(yīng)的句子,本文提出基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)的藥物不良反應(yīng)檢測(cè)模型,通過(guò)對(duì)含有豐富語(yǔ)義信息的詞向量與字符級(jí)CharCNN、詞性特征、藥物名以及情感詞特征進(jìn)行特征融合,使得模型可以進(jìn)行更加準(zhǔn)確地學(xué)習(xí)。本文研究表明,以社交媒體作為載體,結(jié)合文本分類(lèi)任務(wù)的特征表示和膠囊網(wǎng)絡(luò)的研究,可以做到有效的藥物不良反應(yīng)檢測(cè),這對(duì)改善人類(lèi)的健康水平有著至關(guān)重大的意義。實(shí)驗(yàn)結(jié)果雖然客觀,但是基于社交媒體做藥物不良反應(yīng)的檢測(cè)F1值普遍比較低,這與用戶(hù)在帖子中表達(dá)的非正式性以及數(shù)據(jù)集的正負(fù)例不平衡性有很大關(guān)系,下一步的研究重點(diǎn)在于如何將用戶(hù)表達(dá)標(biāo)準(zhǔn)化以及解決數(shù)據(jù)集正負(fù)例平衡問(wèn)題,如何利用相關(guān)模型提高系統(tǒng)學(xué)習(xí)特征的能力等。

        猜你喜歡
        膠囊向量神經(jīng)網(wǎng)絡(luò)
        膠囊可以打開(kāi)吃嗎?
        Shugan Jieyu capsule (舒肝解郁膠囊) improve sleep and emotional disorder in coronavirus disease 2019 convalescence patients: a randomized,double-blind,placebo-controlled trial
        向量的分解
        Shumian capsule(舒眠膠囊)improves symptoms of sleep mood disorder in convalescent patients of Corona Virus Disease 2019
        聚焦“向量與三角”創(chuàng)新題
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        向量垂直在解析幾何中的應(yīng)用
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        92午夜少妇极品福利无码电影| baoyu网址国产最新| 国产黄a三级三级三级av在线看| 国产人成亚洲第一网站在线播放| 午夜一区二区在线视频| 精品久久亚洲中文字幕| 国产好大好硬好爽免费不卡| 亚洲色图视频在线| 亚洲五月激情综合图片区| 在线观看女同一区二区| 精品人妻系列无码人妻漫画| 久久综合国产乱子伦精品免费| 中字无码av电影在线观看网站| WWW拍拍拍| 中文字幕日韩高清乱码| 午夜免费观看日韩一级视频| 亚洲日韩精品a∨片无码加勒比| 免费无码又黄又爽又刺激| 精品人无码一区二区三区| 国产av一区二区三区香蕉| 亚洲综合视频一区二区| 国产电影一区二区三区| 国产日韩精品中文字无码| 日本免费一区二区三区在线看| 极品精品视频在线观看| 妺妺跟我一起洗澡没忍住| 亚洲欧美日韩综合久久久| 91天堂素人精品系列全集亚洲 | 日本三级吃奶头添泬| 欧美成人一区二区三区| 无码免费午夜福利片在线| 少妇又紧又色又爽又刺| 日韩欧美中文字幕公布| 国产在线观看无码免费视频| 亚洲红怡院| 久草视频华人在线观看| 亚洲国产精品成人av网| 国产高潮刺激叫喊视频| 精品2021露脸国产偷人在视频| 国产 无码 日韩| 国产一区二区三区视频地址|