亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文獻(xiàn)挖掘的生物實(shí)體關(guān)系提取研究

        2021-04-12 05:18:28偉,徐

        陳 偉,徐 云

        1.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230026

        2.安徽省高性能計(jì)算重點(diǎn)實(shí)驗(yàn)室,合肥 230026

        在生物細(xì)胞中,整個(gè)機(jī)體的正常運(yùn)轉(zhuǎn)是通過生物實(shí)體之間的相互作用共同完成的。如圖1所示,在代謝過程中,包含多種生物實(shí)體的相互作用,其中任何一個(gè)環(huán)節(jié)出現(xiàn)問題都可能導(dǎo)致機(jī)體紊亂。生物實(shí)體作用關(guān)系提取在生物醫(yī)學(xué)研究領(lǐng)域有著廣泛的應(yīng)用。例如,蛋白質(zhì)-蛋白質(zhì)相互作用在許多生命過程中發(fā)揮重要作用,這些過程有助于發(fā)現(xiàn)治療疾病的藥物靶點(diǎn)[1]。同樣,藥物-藥物作用產(chǎn)生的不良反應(yīng)對(duì)人們健康也有影響,國際醫(yī)學(xué)組織估計(jì),每年有超過40 億美元用于治療可預(yù)防的藥物不良反應(yīng)[2]。研究生物實(shí)體之間的相互作用關(guān)系對(duì)理解生命機(jī)制和醫(yī)藥研發(fā)至關(guān)重要。

        圖1 細(xì)胞代謝過程中部分生物實(shí)體相互作用

        如今,生命科學(xué)研究者通常將研究成果發(fā)表到科學(xué)文獻(xiàn)進(jìn)行公布和傳播。與此同時(shí),他們經(jīng)常檢索文獻(xiàn),獲取領(lǐng)域相關(guān)的信息。目前生物醫(yī)學(xué)文獻(xiàn)數(shù)量巨大,增長速度遠(yuǎn)遠(yuǎn)超過其他科學(xué)領(lǐng)域。大量的生物醫(yī)學(xué)知識(shí)以非結(jié)構(gòu)化的形式存在于海量的文獻(xiàn)中,通過人工方式進(jìn)行文獻(xiàn)檢索并提取信息成為了一個(gè)艱難的任務(wù)。例如,美國國家醫(yī)學(xué)圖書館建立的MEDLINE生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫,收錄了從1950 年至今的5 639 個(gè)出版刊物,總計(jì)文獻(xiàn)記錄超過2 600 萬個(gè),目前每年仍遞增30~35萬文獻(xiàn)[3]。如何在海量的生物醫(yī)學(xué)文獻(xiàn)中有效地獲取相關(guān)知識(shí),是生物醫(yī)學(xué)領(lǐng)域?qū)W者面臨的嚴(yán)峻挑戰(zhàn)。隨著文本挖掘技術(shù)的發(fā)展,可以自動(dòng)從海量生物醫(yī)學(xué)文獻(xiàn)中提取生物實(shí)體相互作用關(guān)系,進(jìn)而方便生命科學(xué)研究者獲取信息,輔助他們的研究工作,這將對(duì)生命科學(xué)領(lǐng)域的研究具有廣泛的應(yīng)用意義。

        目前,隨著深度學(xué)習(xí)的發(fā)展,有較多工作借助深度方法提取生物實(shí)體關(guān)系,而現(xiàn)有基于深度學(xué)習(xí)方法的工作還處于初級(jí)階段。大部分工作仍然依靠領(lǐng)域經(jīng)驗(yàn)手工設(shè)計(jì)特征,然后將手工特征結(jié)合詞向量,再通過傳統(tǒng)CNN 或者LSTM 等淺層模型來提取生物實(shí)體關(guān)系。由于這些特征大部分是在有限的訓(xùn)練集上進(jìn)行設(shè)計(jì)的,可能不適用其他數(shù)據(jù)集。另外,一些工作通過融合多種淺層模型來提升預(yù)測效果,但這種方法會(huì)使得模型變得龐大和復(fù)雜。所以本文目的是設(shè)計(jì)一種普適性更好的深層模型,通過模型自己學(xué)習(xí)出表達(dá)關(guān)系的語義,進(jìn)而提取各種生物實(shí)體關(guān)系。本文方法未通過手工設(shè)計(jì)額外的特征,只利用動(dòng)態(tài)詞向量和位置向量作為輸入,增強(qiáng)了模型的魯棒性,然后通過Attention 機(jī)制賦予詞匯權(quán)重,并利用殘差單元構(gòu)成深層多通道CNN模型,讓模型學(xué)習(xí)出表達(dá)關(guān)系的特征,最終通過實(shí)驗(yàn),驗(yàn)證了本文的方法對(duì)生物實(shí)體關(guān)系提取任務(wù)的有效性。

        1 問題定義及相關(guān)工作

        1.1 問題定義

        生物實(shí)體作用關(guān)系提取是指在自由文本中找出任意實(shí)體(如,蛋白質(zhì)、藥物等)間的相互作用信息。當(dāng)前大多數(shù)研究是提取句子級(jí)別的二元實(shí)體關(guān)系信息,即提取一個(gè)句子中任意兩個(gè)實(shí)體間的作用關(guān)系。

        該領(lǐng)域普遍將關(guān)系提取任務(wù)抽象成分類問題。首先通過專家預(yù)定義一些關(guān)系類別,在進(jìn)行關(guān)系提取時(shí),需要設(shè)計(jì)方法識(shí)別出任意兩個(gè)實(shí)體間作用屬于哪一類[4]。例如,圖2 的化合物-蛋白質(zhì)關(guān)系提取,句子“We conclude that erg3 can be blocked by sertindole and pimozide.”包含三個(gè)生物實(shí)體,通過兩兩組合可形成三個(gè)實(shí)體對(duì)。研究者需要設(shè)計(jì)方法識(shí)別出這些實(shí)體對(duì)之間的關(guān)系,如:關(guān)系均為“INHIBITOR”類。而之間不存在關(guān)系,在多分類時(shí),通常把這種情況歸為特定的類別“OTHER”。

        圖2 化合物-蛋白質(zhì)關(guān)系提取示例

        1.2 相關(guān)工作

        通過文本挖掘提取生物實(shí)體關(guān)系,一直受到研究者們關(guān)注。早在1988 年,Swanson 等[5]通過文獻(xiàn)挖掘發(fā)現(xiàn)了鎂缺失與偏頭痛的醫(yī)學(xué)關(guān)系?,F(xiàn)在越來越多的研究者和組織參與這項(xiàng)工作,如著名的文本挖掘組織,BioCreative(http://www.biocreative.org/),每年都會(huì)組織有關(guān)生物醫(yī)學(xué)文獻(xiàn)挖掘的競賽,積極推動(dòng)了本領(lǐng)域研究的發(fā)展。生物實(shí)體作用關(guān)系提取的研究方法主要有以下四種:實(shí)體詞共現(xiàn)、模式匹配,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法。

        實(shí)體詞共現(xiàn)常用共現(xiàn)頻率來判別實(shí)體間是否有關(guān)系。文獻(xiàn)[6]開發(fā)的在線應(yīng)用STITCH 就是一個(gè)例子。但是此方法不能提供關(guān)系的類型和證據(jù)。模式匹配方法,如,文獻(xiàn)[7]利用最大頻繁序列思想自動(dòng)總結(jié)文本中的規(guī)則,進(jìn)而挖掘?qū)嶓w關(guān)系。此方法往往獲得較高的準(zhǔn)確率,但設(shè)計(jì)覆蓋全面的模式很難。而使用機(jī)器學(xué)習(xí)的方法,效果好壞和構(gòu)建的特征有很大關(guān)系。文獻(xiàn)[8-9]使用兩階段的方法提取藥物-藥物關(guān)系,通過設(shè)計(jì)豐富的語義特征,首先判斷實(shí)體間是否存在關(guān)系,然后再對(duì)關(guān)系進(jìn)一步分類,該過程較為繁瑣。近來深度學(xué)習(xí)方法發(fā)展迅速,文獻(xiàn)[10]提出了句法CNN,使用句法詞嵌入提升了模型的性能。文獻(xiàn)[11]通過組合LSTM 和CNN 等模型,使用投票法識(shí)別了文獻(xiàn)中化合物-蛋白質(zhì)關(guān)系。

        傳統(tǒng)基于實(shí)體詞共現(xiàn)和模式匹配的方法不能滿足目前大規(guī)模語料上的關(guān)系提取,基于機(jī)器學(xué)習(xí)的方法不僅需要設(shè)計(jì)大量專業(yè)特征,而且在多分類問題上需要訓(xùn)練多個(gè)分類器,模型比較復(fù)雜。目前,采用深度學(xué)習(xí)的方法還有很大提升空間。這些使用深度學(xué)習(xí)的模型大多使用靜態(tài)詞向量,對(duì)于新詞、組合詞不能產(chǎn)生對(duì)應(yīng)的詞向量。此外,由于語料中正負(fù)樣本不平衡影響模型的性能,以往的方法通常采用模型組合或過濾樣本來保證樣本平衡[10,12],但過濾樣本需要有較強(qiáng)的專業(yè)知識(shí)設(shè)計(jì)過濾規(guī)則,該過程不僅繁瑣,還會(huì)降低模型的泛化性。所以,本文提出MCCNN模型,它利用BERT[13]產(chǎn)生動(dòng)態(tài)詞向量,使相同的詞匯在不同的句子中能夠根據(jù)上下文語境產(chǎn)生不同的向量表示,這可以克服靜態(tài)詞向量的缺點(diǎn)。為了提高對(duì)長句子的提取能力,設(shè)計(jì)了Attention機(jī)制,使模型能夠?qū)W習(xí)句子的內(nèi)部依賴特征。另外,在樣本不平衡問題上,為了保持?jǐn)?shù)據(jù)原有分布,減少人工干預(yù)并降低成本,本文未過濾負(fù)樣本,而是設(shè)計(jì)損失函數(shù)來降低樣本不平衡的影響。最后,通過實(shí)驗(yàn)驗(yàn)證,表明提出模型具有較好效果。

        2 方法與模型

        2.1 方法概述

        本文的方法如圖3 所示。首先將語料庫分為訓(xùn)練集、驗(yàn)證集和測試集,并進(jìn)行預(yù)處理;然后通過BERT產(chǎn)生動(dòng)態(tài)詞向量;接著使用Attention機(jī)制計(jì)算詞匯之間的相關(guān)程度,學(xué)習(xí)詞匯的權(quán)重;進(jìn)一步通過殘差層抽取高級(jí)別語義特征;然后使用多通道CNN 學(xué)習(xí)出表達(dá)關(guān)系的語義,最終通過預(yù)測層輸出模型預(yù)測的結(jié)果。

        圖3 方法概述

        2.2 輸入數(shù)據(jù)表示

        本文研究的輸入是文本數(shù)據(jù),建模時(shí)需要轉(zhuǎn)換成數(shù)學(xué)語言。常用的方法是使用詞匯的分布式表示(又稱為詞嵌入、詞向量),即將輸入句子中的單詞用低維實(shí)值向量表示,進(jìn)而把句子轉(zhuǎn)換成矩陣。詞嵌入是從大規(guī)模語料庫中學(xué)習(xí)的,它可以將意思相似的詞匯聚為一類。以往使用Word2Vec[14]等得到的詞嵌入是固定不變的,這樣無法解決單詞的歧義性問題。如,“Bank”即表示“銀行”又表示“河岸”。所以采用BRET產(chǎn)生動(dòng)態(tài)詞嵌入,它通過對(duì)大規(guī)模語料進(jìn)行建模,得到一個(gè)語言模型。當(dāng)面對(duì)具體任務(wù)時(shí),它可以根據(jù)輸入即時(shí)地產(chǎn)生詞嵌入。此時(shí)的詞嵌入結(jié)合了輸入的上下文信息,對(duì)同一個(gè)詞在不同的場景中會(huì)產(chǎn)生不同的詞嵌入,這樣很好地解決了一詞多義的問題。而且對(duì)于新詞和組合詞,BERT 將它們拆分成多個(gè)短詞的組合,這樣完全避免了新詞匯找不到對(duì)應(yīng)詞嵌入的情況。

        根據(jù)距離實(shí)體較近的詞匯對(duì)關(guān)系貢獻(xiàn)更大的假設(shè),本文在詞嵌入的基礎(chǔ)上,對(duì)每個(gè)詞匯加入了相對(duì)位置信息。如圖2 例子,“blocked”相對(duì)于“erg3”和“sertindole”的距離分別為3和?2。

        2.3 多頭注意力機(jī)制

        以往的模型在處理序列信息時(shí)只能做順序計(jì)算,較難捕捉長句子依賴信息,所以提取效果不佳。注意力機(jī)制(Attention)可以解決這個(gè)問題,本文的Attention 由Vaswani 等[15]提出,它使用向量內(nèi)積表示兩個(gè)詞匯的相關(guān)程度,消除了單詞之間的距離影響,不再受限于句子長度。Attention具體計(jì)算如下:

        多頭Attention是上述Attention的變體,它將輸入拆分成多份,再重復(fù)上述計(jì)算,最后再將結(jié)果合并。本文的多頭Attention 輸入為每個(gè)樣本經(jīng)過BERT 轉(zhuǎn)換后的矩陣,記為矩陣X。如圖4計(jì)算過程,首先將輸入矩陣X分別通過3種不同的線性變換,得到的查詢Q和鍵值對(duì)K、V,然后分別拆分成若干份。接著每一份的Q和K進(jìn)行矩陣乘法運(yùn)算,再縮放倍(dk為詞嵌入的緯度),并通過softmax函數(shù)歸一化得到權(quán)重值,表示為詞匯之間的相關(guān)程度。然后將權(quán)重和對(duì)應(yīng)的V加權(quán)求和,再合并起來。最后,將合并的輸出通過線性變換得到多頭Attention的計(jì)算結(jié)果。這樣進(jìn)行拆分-合并的計(jì)算可以獲得更多樣本子空間的信息,而且在計(jì)算過程中可以并行執(zhí)行,提高運(yùn)算效率。

        圖4 多頭注意力機(jī)制的結(jié)構(gòu)

        2.4 多通道卷積神經(jīng)網(wǎng)絡(luò)

        在圖像識(shí)別中,使用多通道提供不同子空間的信息,可以提升模型的識(shí)別能力。借鑒此觀點(diǎn),本文提出多通道卷積神經(jīng)網(wǎng)絡(luò)來提取生物實(shí)體關(guān)系。大量研究表明,較深的網(wǎng)絡(luò)可以學(xué)習(xí)到更豐富的知識(shí),但網(wǎng)絡(luò)的加深也會(huì)導(dǎo)致梯度消失和難以訓(xùn)練的問題,而引入殘差單元可以避免上述問題。為此,通過殘差單元學(xué)習(xí)子空間的語義信息,來增加輸入通道。

        如圖5,多通道輸入由注意力機(jī)制的輸出和殘差單元產(chǎn)生的子空間語義矩陣堆疊形成,每個(gè)通道具有不同粒度的語義信息。首先根據(jù)式(2)的多通道卷積計(jì)算模擬滑動(dòng)窗口操作,得到窗口i內(nèi)短語的特征ci。接著使用式(3)所示的最大池化提取出能夠表達(dá)關(guān)系的短語特征p。其中,Vk為第k個(gè)通道的輸入,c為通道數(shù)量,W為卷積核參數(shù),h為窗口尺寸,b為偏置,f為激活函數(shù),L為卷積核滑動(dòng)時(shí)產(chǎn)生的窗口數(shù)量。

        圖5 多通道卷積神經(jīng)網(wǎng)絡(luò)

        2.5 預(yù)測層

        預(yù)測層需要計(jì)算出每個(gè)關(guān)系類別對(duì)應(yīng)的概率,然后將概率最大的那個(gè)類別作為樣本的預(yù)測結(jié)果。如式(4),在多通道卷積神經(jīng)網(wǎng)絡(luò)中使用m個(gè)不同的卷積核計(jì)算會(huì)產(chǎn)生m個(gè)不同的輸出。而關(guān)系類別個(gè)數(shù)(記為n)與卷積核個(gè)數(shù)不相等,所以需要式(5)所示的變換操作,將m維的向量z變換為n維向量,然后再通過softmax函數(shù)歸一化得到輸出o,其中Wout為變換矩陣,o=[o1,o2,…,on]的每一維都是[0,1]的實(shí)數(shù),代表每個(gè)關(guān)系類別對(duì)應(yīng)的概率。

        2.6 損失函數(shù)

        在預(yù)處理階段,同一個(gè)句子的實(shí)體通過兩兩組合,會(huì)造成大量不含關(guān)系的實(shí)體對(duì),導(dǎo)致正負(fù)樣本不平衡。為此本文采用如式(4)的基于Ranking的損失函數(shù)[16],它不將負(fù)樣本作為新的類別“OTHER”來訓(xùn)練,而是通過改變邊緣因子來調(diào)節(jié)負(fù)樣本的梯度更新。在訓(xùn)練過程中,當(dāng)模型把正標(biāo)簽預(yù)測成負(fù)標(biāo)簽時(shí),會(huì)對(duì)計(jì)算的梯度進(jìn)行懲罰,使參數(shù)的更新的幅度大,這樣可以改善正負(fù)樣本嚴(yán)重失衡的問題。損失函數(shù)計(jì)算如下:

        其中γ是縮放因子,m+和m-是邊緣因子,用于調(diào)節(jié)正負(fù)樣本的梯度更新。s表示模型預(yù)測函數(shù),y表示輸入樣本的真實(shí)標(biāo)簽,c表示在預(yù)測時(shí)具有最高得分的負(fù)標(biāo)簽。在訓(xùn)練模型階段,設(shè)置γ 為2.5,m+和m-分別為3和0.5。此外,為了加速模型訓(xùn)練和提高泛化性,在此損失函數(shù)上加入了L2 正則化。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集描述

        為了測試本文方法的效果,選取了如表1所示的兩個(gè)常用的生物實(shí)體關(guān)系數(shù)據(jù)集。DDI數(shù)據(jù)集由DDIExtraction 2013 challenge提供,其中標(biāo)注了藥物和藥物之間的5 類關(guān)系。其數(shù)據(jù)來源于PubMed 和DrugBank 兩種語料庫,前者是醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫,后者是藥物化學(xué)資源庫。CHEMPROT 數(shù)據(jù)集是由BioCreative 組織提供,其中標(biāo)注了化合物和蛋白質(zhì)之間的10 類關(guān)系,但官方只評(píng)測其中5 種常見關(guān)系,其數(shù)據(jù)均來源于PubMed 文獻(xiàn)數(shù)據(jù)庫。這兩種數(shù)據(jù)集中負(fù)樣本都明顯多于正樣本,其中,DDI 數(shù)據(jù)集的正負(fù)樣本比約為1∶5.7,CHEMPROT 數(shù)據(jù)集的正負(fù)樣本比約為1∶3.1,所以在訓(xùn)練模型時(shí)需要考慮樣本不平衡帶來的問題。

        表1 生物實(shí)體作用關(guān)系數(shù)據(jù)集

        3.2 評(píng)估指標(biāo)

        本領(lǐng)域常用于評(píng)價(jià)模型的指標(biāo)有精確率P、召回率R和F值,它們的定義如下:

        其中TP表示把正樣本預(yù)測為正類的個(gè)數(shù),F(xiàn)P表示把負(fù)樣本預(yù)測為正類的個(gè)數(shù),F(xiàn)N表示把正樣本預(yù)測為負(fù)類的個(gè)數(shù)。一般精確率和召回率會(huì)相互制約,所以常使用F值來衡量系統(tǒng)的整體性能。

        3.3 結(jié)果分析

        本文提出的模型使用開源的深度學(xué)習(xí)框架Tensor-Flow實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境配置如表2所示。模型大部分的結(jié)構(gòu)為卷積神經(jīng)網(wǎng)絡(luò),并行度較大,采用GPU 加速計(jì)算,可以明顯減少訓(xùn)練時(shí)間。

        表2 實(shí)驗(yàn)環(huán)境配置

        由于一些模型只在特定數(shù)據(jù)集上進(jìn)行評(píng)估,分析比較時(shí),在兩個(gè)數(shù)據(jù)集上分別進(jìn)行。首先在兩個(gè)數(shù)據(jù)集上分別訓(xùn)練提出的模型,然后利用測試集測試,計(jì)算相應(yīng)的評(píng)估指標(biāo),最后比較并分析本文的模型與現(xiàn)有模型的性能。為了保證結(jié)果的嚴(yán)謹(jǐn)性,在測試時(shí),取了5 次結(jié)果的平均值作為最終結(jié)果。其他模型的評(píng)測結(jié)果均來自其原文。

        如表3所示,在DDI數(shù)據(jù)集上評(píng)測結(jié)果表明本文提出的方法較其他方法具有可比性。SCNN[10]通過將句子結(jié)構(gòu)解析,訓(xùn)練句法詞向量,把句法信息引入了模型。這種做法取得了一定效果,但解析句子結(jié)構(gòu)時(shí)產(chǎn)生一些錯(cuò)誤,會(huì)導(dǎo)致模型錯(cuò)誤累積。Joint AB-LSTM[12]由兩種基于LSTM的子模型結(jié)合而成,該模型的精確率和F值都取得最好結(jié)果,說明模型結(jié)合能降低關(guān)系識(shí)別的錯(cuò)誤率,但其文中指出預(yù)測錯(cuò)誤的樣本中長句子所占比例更大,表明該模型對(duì)長句子提取效果有限。相比之下,本文方法的F值與效果最好的模型相差0.9%,但本文模型未通過模型融合來提升效果,所以具有可比性。進(jìn)一步分析發(fā)現(xiàn)DDI數(shù)據(jù)集中來源于DrugBank的樣本句子較短,而來源于PubMed 的樣本句子較長。本文提出的Attention機(jī)制對(duì)長句子提取效果的提升較大,而對(duì)短句子提取效果的提升不明顯,這可能是本模型未能取得最高F值的主要原因。而本文模型召回率最高,且比最好的模型高2.2%,說明本文的方法能夠識(shí)別出更多的生物實(shí)體關(guān)系,證明了該方法在提取藥物-藥物關(guān)系任務(wù)上的有效性。

        表3 DDI數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對(duì)比%

        在CHEMPROT 數(shù)據(jù)集上測試結(jié)果如表4 所示,Transfer Model[19]采用遷移學(xué)習(xí)方法,通過相關(guān)任務(wù)的網(wǎng)絡(luò)參數(shù)初始化模型,使F值達(dá)到61.5%。Ensemble Model[10]包括SVM、CNN 和Bi-LSTMs 這3 種獨(dú)立的模型,并加入手工構(gòu)造額外的特征,然后通過投票的方法取得最高的精確率,但該模型相對(duì)復(fù)雜,較難遷移到別的任務(wù)上。GA-BGRU[20]則利用雙向GRU 單元提取句子語義特征,并使用Swish 激活函數(shù)提升了模型效果。相比之下,本文的方法未使用模型集成,而是通過多通道卷積操作,在召回率和F值上都達(dá)到了最好的結(jié)果,其中F值比最好的方法高5.1%。相比于DDI 數(shù)據(jù)集,CHEMPROT 數(shù)據(jù)集中長句子較多,通過Attention 機(jī)制使總體效果提升的更明顯。由此說明本文的方法也能夠很好地提取化合物-蛋白質(zhì)之間的關(guān)系。

        表4 CHEMPROT數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對(duì)比%

        總而言之,本文提出的模型在上述兩個(gè)生物數(shù)據(jù)集上表現(xiàn)較好,其中召回率都最高。主要是因?yàn)楸疚牡姆椒ㄍㄟ^動(dòng)態(tài)詞向量和多通道卷積等機(jī)制,學(xué)習(xí)了更廣泛的關(guān)系表達(dá)語義,從而識(shí)別出更多的實(shí)體關(guān)系。本文的提出的多通道CNN 模型能夠明顯提高召回率,通過實(shí)驗(yàn)發(fā)現(xiàn),召回率和多通道數(shù)量具有一定關(guān)系,當(dāng)設(shè)置通道數(shù)量依次為1~4 時(shí),召回率有明顯提升,而當(dāng)繼續(xù)增加多通道時(shí),召回率增加不明顯甚至出現(xiàn)下降的情況,而且通道數(shù)量過多時(shí),模型參數(shù)增多,訓(xùn)練時(shí)間增長。為此,本文最終設(shè)置多通道數(shù)目為4,然后進(jìn)行訓(xùn)練測試。

        4 結(jié)束語

        生物實(shí)體關(guān)系提取是實(shí)現(xiàn)智慧醫(yī)療的基礎(chǔ),可以提升智能醫(yī)療問答的效果,推進(jìn)精準(zhǔn)醫(yī)療的發(fā)展。如何從海量的生物醫(yī)學(xué)文本中提取出生物實(shí)體之間的關(guān)系是當(dāng)前生命科學(xué)專家面臨的難點(diǎn),也是生物文本挖掘領(lǐng)域的熱點(diǎn)。因此,本文提出了一種新的多通道卷積神經(jīng)網(wǎng)絡(luò)模型(MCCNN)用于提取生物實(shí)體之間的關(guān)系。本文目標(biāo)是建立一個(gè)具有普適性的系統(tǒng),用于提取各種生物實(shí)體關(guān)系,所以只給模型輸入動(dòng)態(tài)詞嵌入和位置嵌入信息,讓模型自動(dòng)提取表達(dá)關(guān)系的語義,而沒有通過手工設(shè)計(jì)特征和過濾負(fù)樣本的方式來提升模型的效果。通過實(shí)驗(yàn)比較,表明本文方法在生物實(shí)體關(guān)系提取任務(wù)上是有效的。下一步的工作計(jì)劃是利用訓(xùn)練好的模型挖掘海量生物醫(yī)學(xué)文獻(xiàn),提取出結(jié)構(gòu)化的生物實(shí)體關(guān)系,并建立開源數(shù)據(jù)庫供生命科學(xué)研究者使用。

        变态另类人妖一区二区三区| 激情 一区二区| 亚洲一区二区三区久久久| av网站大全免费在线观看| 免费人成激情视频在线观看冫| 懂色av一区二区三区尤物| 国产av旡码专区亚洲av苍井空| 欧美午夜精品久久久久免费视| 偷拍熟女亚洲另类| 中文天堂一区二区三区| 国产精品自拍盗摄自拍| 日韩av午夜在线观看| 国产精品熟女视频一区二区| 亚洲美国产亚洲av| 久久av无码精品人妻糸列| 日本久久一级二级三级| 日本在线精品一区二区三区| 少妇熟女天堂网av| 久久夜色撩人精品国产小说| 亚洲日韩精品AⅤ片无码富二代| 国产又色又爽的视频在线观看91 | 亚洲九九夜夜| 日本一区二区三区四区在线视频 | 甲状腺囊实性结节三级| 亚洲中文字幕人妻诱惑| 一区二区三区国产精品麻豆| 朋友的丰满人妻中文字幕| 少妇无码一区二区三区免费| 国精品无码一区二区三区在线看| 中国老太老肥熟女视频| 91偷拍与自偷拍亚洲精品86| 中文字幕日韩欧美一区二区三区| 久久久久亚洲av无码专区桃色| 亚洲AV日韩AV高潮喷潮无码| 亚洲日本一区二区三区四区| 亚洲精品成人无码中文毛片| 欧美成人中文字幕| 亚洲二区精品婷婷久久精品| 森中文字幕一区二区三区免费| 亚洲性啪啪无码av天堂| av一区二区三区亚洲|