亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的小規(guī)模醫(yī)學(xué)領(lǐng)域文本摘要生成模型

        2021-03-24 08:21:48劉佳芮
        現(xiàn)代計算機 2021年3期
        關(guān)鍵詞:單詞文本實驗

        劉佳芮

        (同濟大學(xué)電子與信息工程學(xué)院,上海201804)

        0 引言

        隨著社會分工的日益明確,幾乎每個人都帶有專業(yè)性的行業(yè)標(biāo)簽。然而快速迭代的經(jīng)濟發(fā)展模式需要人們不斷學(xué)習(xí)才能更好地適應(yīng)工作中的各種挑戰(zhàn),因此人們總會通過不斷地補充大量的跨領(lǐng)域知識讓自身在職場中一直保持競爭性。但是當(dāng)人們需要去檢索有關(guān)文獻時,太過專業(yè)性的文本總會削弱對跨領(lǐng)域知識學(xué)習(xí)的求知欲。因此,本文旨在通過機器學(xué)習(xí)模型解決跨領(lǐng)域標(biāo)題可讀性和可理解的問題,并基于文本自身文意[1]得到更常語化的標(biāo)題表達。傳統(tǒng)的機器學(xué)習(xí)方法經(jīng)常依賴于大量數(shù)據(jù)以支撐參數(shù)調(diào)整優(yōu)化[3],然而特定專業(yè)領(lǐng)域的數(shù)據(jù)往往由于上述假設(shè)過于嚴(yán)格而難以成立。事實上,這些領(lǐng)域的可用數(shù)據(jù)量較小,特別是有標(biāo)簽的數(shù)據(jù)樣本更加難得,這使得訓(xùn)練樣本不足以供復(fù)雜的機器學(xué)習(xí)算法進行訓(xùn)練并得到一個可靠的生成預(yù)測模型。

        如何分析并挖掘小規(guī)模樣本數(shù)據(jù)是現(xiàn)代機器學(xué)習(xí)最具有挑戰(zhàn)性的前沿方向之一。在該環(huán)境背景下,遷移學(xué)習(xí)應(yīng)運而生。該學(xué)習(xí)算法的主要優(yōu)點在于避免了必須有足夠可用的訓(xùn)練樣本才能夠?qū)W習(xí)到一個好的生成模型的束縛,因此遷移學(xué)習(xí)能夠在彼此不同但又相互關(guān)聯(lián)的兩個領(lǐng)域間挖掘數(shù)據(jù)的本質(zhì)特征和內(nèi)在結(jié)構(gòu),這使得有監(jiān)督參數(shù)信息得以在領(lǐng)域間實現(xiàn)遷移和復(fù)用。

        摘要文本生成模型研究是當(dāng)前自然語言處理中的難點和熱點,其主要分為抽取式和生成式方法,前者通過直接獲取原文中的相應(yīng)句子并根據(jù)一定的排列方式構(gòu)成摘要標(biāo)題,后者與其的區(qū)別在于會自動生成一些在源文本中不存在的新單詞或詞組。本文的主要目的是為特定專業(yè)領(lǐng)域的文本構(gòu)造清晰易懂的標(biāo)題,因此我們將使用生成摘要的方法構(gòu)造標(biāo)題。當(dāng)前生成式文本摘要的方法主要依靠深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn),如2014 年Google 團隊[5]提出的Seq2Seq 模型開啟了自然語言處理中端到端的研究,其中編碼器負責(zé)將原文編碼為一個向量,解碼器負責(zé)從該向量中提取語義并生成相應(yīng)的生成式文本摘要。該模型在機器翻譯、文本理解等領(lǐng)域具有卓越的效果。Rush[6]團隊受機器翻譯原理的啟發(fā),首次將Seq2Seq 模型應(yīng)用到生成式摘要的任務(wù)中,其主要使用帶有注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型對文檔進行編碼來提取文本的特征,然后由基于前饋網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型作為解碼器生成摘要,并在Giga word 數(shù)據(jù)集中得到了良好的實驗結(jié)果。

        基于上述研究,本文旨在解決以醫(yī)學(xué)為代表的特定專業(yè)領(lǐng)域小規(guī)模文本的摘要生成問題,提出了基于遷移學(xué)習(xí)的文本摘要生成模型,其有效解決了專業(yè)領(lǐng)域標(biāo)題簡易化以及小規(guī)模樣本不足以支撐現(xiàn)有機器學(xué)習(xí)模型的問題。

        1 基于遷移學(xué)習(xí)的文本摘要生成模型

        1.1 預(yù)訓(xùn)練文本模型

        本文在文本詞向量生成階段主要使用了針對特定領(lǐng)域數(shù)據(jù)集的BERT 改進模型。BERT 模型在摘要任務(wù)中并不直觀,大多數(shù)BERT 模型任務(wù)主要解決的是某一個字段的生成,而摘要自動生成任務(wù)是一個Seq2Seq 生成模型問題,因此我們需要解決整個摘要生成句子的向量表示。由于本文以小規(guī)模的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集為研究對象,考慮到文本的特殊性,下面將采用三層嵌入層來實現(xiàn)上述目標(biāo)。如圖1 所示,①為了使模型對文本中不同的句子關(guān)系進行區(qū)分,在生成過程中嵌入A、B 符號表示區(qū)分多個句子在整篇文章中的奇偶性。②在針對每個句子的處理中,原本的BERT 模型僅在每個樣本前端插入[CLS]標(biāo)識,而本文針對特定領(lǐng)域的文本摘要生成。為了更細粒度地提取樣本內(nèi)容的語義特征,我們在樣本中為每個句子的起始位置均插入[CLS],而非傳統(tǒng)上只在每條文本前插入[CLS]符號。同時,在每句話的最后加入[SEP]標(biāo)識來表明每個句子的結(jié)束邊界。③為了識別文本中單詞的前后依賴關(guān)系,我們在最后一層嵌入了位置向量層去傳遞模型相應(yīng)單詞的位置信息。

        圖1 預(yù)訓(xùn)練文本模型結(jié)構(gòu)

        通過上述分析,文本向量由三層嵌入層作為數(shù)據(jù)輸入到初始化Transformer 模型中,并且運用上層的Transformer 層訓(xùn)練得到句子間的區(qū)分邊界;通過關(guān)注句子的末尾特征,下層運用自注意力機制訓(xùn)練得到各文本之間的權(quán)重。在該模型中,我們同時考慮了BERT在對長文本的處理中帶有最大長度為512 個單詞的限制,因此在輸入每個樣本超過512 個長度情況下,加入了更多的位置向量并隨機初始化。

        1.2 基于遷移學(xué)習(xí)的文本摘要生成模型

        基于數(shù)據(jù)預(yù)訓(xùn)練模型和改進的BERT 算法,本文提出的基于遷移學(xué)習(xí)的文本摘要生成模型如圖2所示。

        圖2 基于遷移學(xué)習(xí)的文本摘要生成模型結(jié)構(gòu)圖

        在自動抽取摘要的任務(wù)中,我們通常會將其看作一個Seq2Seq 的建模問題。假設(shè)每個輸入數(shù)據(jù)文件以一串序列x={x1,x2,x3,x4,…,xn}輸入至編碼器中并生成一個連續(xù)的特征表示z={z1,z2,z3,…,zk},然后再輸入至解碼器中以單詞為單位,通過自回歸方式生成目標(biāo)摘要y={y1,y2,y3,y4,…,ym},最后得到條件概率分布:p(y1,…,ym|x1,…,xn)。

        本部分的編碼器為上一節(jié)提到的預(yù)訓(xùn)練文本模型,首先使用源域數(shù)據(jù)對編碼器進行預(yù)先訓(xùn)練,提取相似特征的全連接層進行模型遷移;其次,進行細粒度調(diào)整隱層權(quán)重矩陣;最后,加入醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)進行參數(shù)微調(diào)使其更適合目標(biāo)域數(shù)據(jù)。

        本部分的解碼器為六層隨機初始化的Transformer模型,由于編碼器是已訓(xùn)練的參數(shù)值,而解碼器參數(shù)是未設(shè)置的初始默認值,則在進行模型訓(xùn)練時,參數(shù)調(diào)整幅度的不匹配會導(dǎo)致微調(diào)效果不穩(wěn)定,故在本文中我們使用了兩個不同的Adam 優(yōu)化器去解決這個問題,使前者編碼器訓(xùn)練的步長較小而后者解碼器訓(xùn)練的步長較大。

        圖3 隨機初始化的Transformer模型結(jié)構(gòu)圖

        如圖3 所示為一層的Transformer 結(jié)構(gòu)圖。在得到了輸入的特征向量后,疊加標(biāo)識位置的嵌入層,并將其輸入至編碼器中;訓(xùn)練集中的標(biāo)簽文本即標(biāo)題轉(zhuǎn)為詞向量后加入位置嵌入層后進入解碼器,其中解碼器一共由三個部分組成,即由兩層多頭注意力機制和一層前饋網(wǎng)絡(luò)構(gòu)成。當(dāng)經(jīng)過第一層多頭注意力機制[4]后,我們即可通過不同序列位置的不同子空間的特征信息進行序列處理,并將其結(jié)果與編碼器生成的特征向量共同進入第二層多頭注意力機制中。最后通過前饋神經(jīng)網(wǎng)絡(luò)的線性映射得到詞庫的概率分布。

        在如圖2 所示的詞庫概率分布模塊中,以y2舉例進行說明。首先選取詞匯中概率分布最高的單詞;其次,根據(jù)前序單詞y1影響參數(shù)與詞庫生成單詞的概率p2的參數(shù)加權(quán)求和得到y(tǒng)3,以此類推;最后,輸出結(jié)果即為生成式文本摘要。同時在圖3 的模型結(jié)構(gòu)中,每層注意力機制與前饋網(wǎng)絡(luò)后均有歸一化層以減小過擬合對訓(xùn)練效果的影響。

        2 實驗結(jié)果

        2.1 實驗數(shù)據(jù)

        本文采用普華永道RegRanger 項目中醫(yī)療引擎后臺數(shù)據(jù)庫中的新聞文章作為目標(biāo)領(lǐng)域數(shù)據(jù)集,該數(shù)據(jù)集共包含四千條數(shù)據(jù),數(shù)據(jù)集內(nèi)容為醫(yī)學(xué)領(lǐng)域法律條款、文獻指導(dǎo)和新聞類英文文本。同時,RegRanger 本身包括了500 條相關(guān)法律信函。我們在對該數(shù)據(jù)集的預(yù)處理中,考慮到警告信函、醫(yī)學(xué)法規(guī)等具有特定文本格式的數(shù)據(jù)文本的標(biāo)題位置相對固定唯一的特點,其均位于文章第一段的內(nèi)容中。由于本文的目的為基于文本自身文意得到更常語化的標(biāo)題表達,我們剔除了該部分具有特定文本格式的數(shù)據(jù)文本并保留了有效的文本數(shù)據(jù)即內(nèi)容非空或內(nèi)容可追溯的文本。本文首先使用斯坦福核心NLP 工具包OpenNMT 對實驗數(shù)據(jù)進行預(yù)處理,這樣每個輸入文本被分塊并被截斷為長度是512 的輸入數(shù)據(jù)。具體數(shù)據(jù)集分布信息見表1。

        表1 實驗文本數(shù)據(jù)集分布

        根據(jù)表中數(shù)據(jù)集標(biāo)題的特點,本文將模型的生成摘要標(biāo)題的長度設(shè)置為10。本文的測試環(huán)境為Linux,NVIDIA GTX 1080Ti GPU。模型的實現(xiàn)基于Pytorch 深度學(xué)習(xí)框架,版本為1.3.1,開發(fā)環(huán)境為Ubuntu18.04,Python 版本為3.7.4,模型支持多GPU 多線程進行。

        2.2 評估指標(biāo)

        本文將使用一種廣泛被認可的評估工具ROUGE[2,7]對所提出模型的性能進行評價。在自動評估機器生成的標(biāo)題與人工標(biāo)題的相似度的任務(wù)中,ROUGE 包含了五種評估方法,分別是ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S 和ROUGE-SU。本文僅使用ROUGE-N 和ROUGE-L 評測。

        (1)ROUGE-N 通過N 元模型計算生成摘要和人工摘的召回率去評判匹配度,其表達式如下:

        其中N 表示N 元模型的長度,Countmatch(gramn)表示在一個生成摘要元素和一系列人工摘要元素共現(xiàn)的最大數(shù)目,Count(gramn)表示人工摘要元素中n 元模型的數(shù)目。

        相對應(yīng)的ROUGE-1 即僅考慮單個單詞,生成式摘要和人工摘要都出現(xiàn)的個數(shù)與人工摘要的單個單詞之比,同理ROUGE-2 為兩個單詞作為兩元標(biāo)識進行兩者比較計算。

        (2)ROUGE-L 通過計算生成摘要和人工摘要的最長相同子序列的比率去評測,其表達式如下所示:

        其中 |R|和 |S|分別表示人工摘要與生成摘要的長度,LCS(R,S)表示二者的最長共同子序列的長度。PLCS(R,S)表示LCS(R,S)的精準(zhǔn)率,RLCS(R,S)表示LCS(R,S)的召回率,β為精準(zhǔn)率與召回率的比值。本文主要使用ROUGE-1、ROUGE-2、ROUGE-3 以及ROUGE-L 評估模型生成摘要的效果。

        2.3 實驗結(jié)果

        本文中,我們在給定的樣本數(shù)據(jù)集上進行實驗,并使用標(biāo)準(zhǔn)的Seq2Seq 模型、基于遷移學(xué)習(xí)的模型以及基于遷移學(xué)習(xí)的預(yù)訓(xùn)練模型與Seq2Seq 融合的模型進行了摘要生成任務(wù),并通過Rouge-F 和Rouge-R 對上述三種模型進行了對比,結(jié)果如表2 所示,其中遷移學(xué)習(xí)思想所達到的跨領(lǐng)域同參使相似度得到了明顯的提升,同時預(yù)訓(xùn)練模型的結(jié)果在此任務(wù)中也達到了一定的提升。

        表2 原始模型、基于遷移學(xué)習(xí)的Seq2Seq 模型以及本文的實驗?zāi)P蛯Ρ冉Y(jié)果

        如 表2 所 示,我 們 使 用ROUGE-F1、2、3 和ROUGE-R1、2、3 分別表示F 分數(shù)和召回率在一元語法、二元語法與三元語法上的表現(xiàn)。基于遷移學(xué)習(xí)的Seq2Seq 的表現(xiàn)最優(yōu)時相較原始Seq2Seq 模型在一元召回率上提升了14.77;同時,基于遷移學(xué)習(xí)的文本摘要生成模型相較基于遷移學(xué)習(xí)的Seq2Seq 模型在一元F 分數(shù)上提升了2.29。

        本文提出的基于遷移學(xué)習(xí)的預(yù)訓(xùn)練與Seq2Seq 的融合模型的實驗結(jié)果如表3 所示。

        為了評估小規(guī)模樣本集下所提模型中不同參數(shù)對實驗結(jié)果的影響程度,我們對本文提出的模型做了多種參數(shù)的調(diào)試,同時應(yīng)用在文本生成任務(wù)中。最終我們所選取的部分主要超參數(shù)如表4 所示。圖5 為不同Batch size 設(shè)置下的實驗結(jié)果。

        表3 模型生成摘要文本與人工標(biāo)注摘要的對比

        表4 實驗參數(shù)設(shè)置

        圖4 不同Batch size下在Rouge中的實驗結(jié)果

        如圖4 所示,本文模型在Batch size 為200 時的表現(xiàn)最為優(yōu)異。圖5 為在輸入文本中每個樣本超過512個至1000 個長度并以隨機初始化位置向量加入詞嵌入層的模型與僅考慮前512 個單詞作截斷的模型進行對比得到的實驗結(jié)果。

        圖5 對輸入文本長度進行約束的模型在相似Rouge-F上的實驗結(jié)果

        圖5 中Rouge-F’表示在考慮了前512 個單詞的同時對輸入文本第512 個至2000 個詞以隨機向量嵌入至位置嵌入層時模型在Rouge-F 中的評測結(jié)果。實驗結(jié)果表明,基于遷移學(xué)習(xí)的文本摘要生成模型在加入輸入文本的限制后在摘要生成任務(wù)的表現(xiàn)更為優(yōu)異。從以上分析可知,在解決基于小規(guī)模樣本的深度學(xué)習(xí)訓(xùn)練時,基于遷移學(xué)習(xí)對模型進行異域調(diào)參相較于僅單純改善模型結(jié)構(gòu)有更明顯的優(yōu)勢,并且本文所提模型在醫(yī)學(xué)文本摘要生成任務(wù)中的表現(xiàn)優(yōu)于標(biāo)準(zhǔn)的基于遷移學(xué)習(xí)的Seq2Seq 模型,同時所提模型的實驗結(jié)果與人工處理結(jié)果具有較高的匹配度。

        3 結(jié)語

        本文針對以醫(yī)學(xué)為代表的特定專業(yè)領(lǐng)域小規(guī)模文本標(biāo)題摘要難以閱讀理解的問題,提出了基于遷移學(xué)習(xí)預(yù)訓(xùn)練與注意力機制的融合模型對原始文本進行自動生成標(biāo)題摘要,主要貢獻是在原有的Seq2Seq 模型中引入遷移學(xué)習(xí)思想,其可以使模型在彼此不同但又相互關(guān)聯(lián)的兩個領(lǐng)域間有效挖掘文本的本質(zhì)特征和結(jié)構(gòu),實現(xiàn)了有監(jiān)督參數(shù)信息在領(lǐng)域間進行遷移和復(fù)用;同時,文本采用了預(yù)訓(xùn)練模型作為編碼器,在句子前端加入[CLS]以便更精準(zhǔn)地得到每個句子的特征,這可以使專業(yè)領(lǐng)域知識進行細粒度的特征化表示。綜上所述,本文所提模型有效地解決了專業(yè)領(lǐng)域標(biāo)題簡易化以及小規(guī)模樣本不足以支撐現(xiàn)有機器學(xué)習(xí)模型訓(xùn)練的難題,這對于基于自身文本得到更常語化的標(biāo)題摘要具有重要的指導(dǎo)意義。

        猜你喜歡
        單詞文本實驗
        記一次有趣的實驗
        單詞連一連
        在808DA上文本顯示的改善
        做個怪怪長實驗
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲中文无码精品久久不卡| 国产激情视频在线观看你懂的| avtt一区| 国产视频一区二区三区久久亚洲| 少妇下面好紧好多水真爽| 无码人妻丰满熟妇区免费| 国产精品综合一区二区三区| 国产精品沙发午睡系列990531| 国产精品.xx视频.xxtv| 欧美成人精品福利在线视频 | 一道久在线无码加勒比| 国产精品视频一区二区三区,| 91九色极品探花内射| 麻豆精品一区二区综合av| 成人aaa片一区国产精品 | 国产亚洲精品不卡在线| 久久一区二区视频在线观看| 国产精品亚洲精品国产| 级毛片内射视频| 性激烈的欧美三级视频| 日韩欧美国产丝袜视频| 成人激情视频一区二区三区 | 2022精品久久久久久中文字幕| 国产内射一级一片内射高清视频1| 一本色道久久88—综合亚洲精品| 国产又色又爽又高潮免费视频麻豆 | 人妻少妇中文字幕久久hd高清| 久久人妻少妇嫩草av| 不卡一卡二卡三乱码免费网站| 99久久综合狠狠综合久久| 日本精品极品视频在线| 亚洲综合色视频在线免费观看| 亚洲精品中文字幕熟女| 亚洲av无码无线在线观看| 成人一区二区免费视频| 国产亚洲精品性爱视频| av在线播放免费网站| 国产色在线 | 亚洲| 日韩一区二区肥| 国产白浆大屁股精品视频拍| 国产免码va在线观看免费|