亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        反饋式K近鄰語(yǔ)義遷移學(xué)習(xí)的領(lǐng)域命名實(shí)體識(shí)別

        2019-07-16 08:51:06朱艷輝李飛冀相冰曾志高徐嘯
        智能系統(tǒng)學(xué)報(bào) 2019年4期
        關(guān)鍵詞:源域語(yǔ)料命名

        朱艷輝,李飛,冀相冰,曾志高,徐嘯

        (1. 湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412008; 2. 湖南省智能信息感知及處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,湖南 株洲412008)

        命名實(shí)體識(shí)別(named entity recognition,NER)作為信息抽取的子任務(wù),是指將非結(jié)構(gòu)化文本中具有特定意義的實(shí)體抽取出來(lái),對(duì)文本的結(jié)構(gòu)化起著至關(guān)重要的作用。由于其在自然語(yǔ)言處理中的重要地位,許多國(guó)際會(huì)議,如MUC-6、MUC-7、Conll2002等,都將命名實(shí)體識(shí)別作為共享任務(wù)(share tasks)。國(guó)內(nèi)會(huì)議諸如全國(guó)語(yǔ)義網(wǎng)與知識(shí)圖譜計(jì)算大會(huì)(CCKS 2017),也組織了醫(yī)療實(shí)體識(shí)別的評(píng)測(cè)任務(wù)。傳統(tǒng)命名實(shí)體識(shí)別采用最大熵、隱馬爾科夫模型、支持向量機(jī)、條件隨機(jī)場(chǎng)等方法,但傳統(tǒng)機(jī)器學(xué)習(xí)方法需要人工定義特征模板,并且無(wú)法充分獲取隱含信息,對(duì)文本長(zhǎng)距離依賴關(guān)系難以捕捉。隨著深度學(xué)習(xí)的快速發(fā)展以及卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory ,LSTM)等學(xué)習(xí)算法的提出,命名實(shí)體識(shí)別任務(wù)在獲取隱含信息及捕捉長(zhǎng)距離文字依賴關(guān)系上取得了長(zhǎng)足的進(jìn)步。命名實(shí)體識(shí)別是典型的序列標(biāo)注任務(wù),RNN可以很好地克服傳統(tǒng)機(jī)器學(xué)習(xí)的文本長(zhǎng)依賴信息難以獲取的缺點(diǎn)[1],具有一定的記憶功能,但RNN在訓(xùn)練算法時(shí)存在梯度彌散和梯度爆炸問(wèn)題。因此,Hochreiter等[2]提出了LSTM方法,LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系,以解決RNN梯度消失和梯度爆炸的問(wèn)題。Yoon[3]首次將CNN應(yīng)用到自然語(yǔ)言處理領(lǐng)域并獲得成功后,由于其可以利用窗口滑動(dòng),可以很好地解決詞之間的組合特征及一部分依賴問(wèn)題,故廣泛的應(yīng)用在自然語(yǔ)言處理領(lǐng)域。張海楠等[4]提出了一種用于深度學(xué)習(xí)框架的字詞聯(lián)合方法,結(jié)合字詞特征,提高了系統(tǒng)性能,最終取得了較好的F1值。Ma等[5]提出了基于LSTMCNN-CRFs的端對(duì)端序列標(biāo)注方法,該模型無(wú)需數(shù)據(jù)預(yù)處理和特征選擇,在Conll2003語(yǔ)料庫(kù)上F1值為91.21%。Chiu等[6]提出了BiLSTM-CNNs的新型網(wǎng)絡(luò)框架,在Conll2003語(yǔ)料庫(kù)取得F1值為91.61%的成績(jī)。姚霖等[7]提出一種基于詞邊界字向量的中文命名實(shí)體識(shí)別方法,在Sighan Bakeoff-3語(yǔ)料中取得了F1值89.18%的效果,上述文獻(xiàn)證明了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)用于序列標(biāo)注任務(wù)的可行性和有效性。

        遷移學(xué)習(xí)[8]是運(yùn)用已有知識(shí)對(duì)不同但是相關(guān)領(lǐng)域問(wèn)題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法。其放寬了傳統(tǒng)機(jī)器學(xué)習(xí)的兩個(gè)基本假設(shè),通過(guò)減小源域與目標(biāo)域的數(shù)據(jù)分布差異,從而從已有的知識(shí)中解決目標(biāo)領(lǐng)域中僅有少量或沒(méi)有標(biāo)簽樣本數(shù)據(jù)的學(xué)習(xí)問(wèn)題。Pan等[9]提出了著名的遷移成分分析 (transfer component analysis,TCA)方法,針對(duì)域適配(domain adaptation)問(wèn)題中源域和目標(biāo)域處于不同數(shù)據(jù)分布,將2個(gè)領(lǐng)域的數(shù)據(jù)一起映射到一個(gè)高維的再生核希爾伯特空間,并在此空間中最小化源和目標(biāo)的數(shù)據(jù)距離,同時(shí)最大程度地保留它們各自的內(nèi)部屬性。Long等[10]在TCA基礎(chǔ)上提出了聯(lián)合分布適配方法(joint distribution adaptation ,JDA),在源域和目標(biāo)域條件分布不同的基礎(chǔ)上,提出了聯(lián)合分布適配方法,同時(shí)適配源域和目標(biāo)域的邊緣分布和條件分布,在4種類型的跨域圖像分類任務(wù)上取得了較好的效果。卞則康等[11]提出一種基于相似度學(xué)習(xí)的多源域遷移SL-MSTL算法,增加對(duì)多源域與目標(biāo)域之間的相似度學(xué)習(xí),可以有效地利用各源域中的有用信息。莊福振[12]介紹了遷移學(xué)習(xí)研究進(jìn)展,并且針對(duì)遷移學(xué)習(xí)領(lǐng)域所做的工作和未來(lái)的方向做了總結(jié)和展望。

        目前,已有命名實(shí)體識(shí)別方法在通用領(lǐng)域的人名、地名、組織機(jī)構(gòu)名上取得了較好的效果。然而專業(yè)領(lǐng)域由于語(yǔ)料匱乏,導(dǎo)致領(lǐng)域命名實(shí)體識(shí)別進(jìn)展緩慢且識(shí)別效果差強(qiáng)人意。因此,本文針對(duì)專業(yè)領(lǐng)域語(yǔ)料匱乏、標(biāo)注語(yǔ)料缺失等特點(diǎn),引入遷移學(xué)習(xí)技術(shù),構(gòu)建基于深度學(xué)習(xí)的BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型,提出一種反饋式K近鄰語(yǔ)義遷移學(xué)習(xí)的領(lǐng)域命名實(shí)體識(shí)別算法。首先,對(duì)專業(yè)領(lǐng)域語(yǔ)料和通用領(lǐng)域語(yǔ)料分別訓(xùn)練得到語(yǔ)料文檔向量,使用馬哈拉諾比斯距離計(jì)算領(lǐng)域語(yǔ)料與通用語(yǔ)料的語(yǔ)義相似性,針對(duì)每個(gè)專業(yè)領(lǐng)域樣本分別取K個(gè)語(yǔ)義最相似的通用領(lǐng)域樣本進(jìn)行語(yǔ)義遷移學(xué)習(xí),構(gòu)建N個(gè)遷移語(yǔ)料集。然后,使用BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型對(duì)N個(gè)遷移語(yǔ)料集進(jìn)行領(lǐng)域命名實(shí)體識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行評(píng)估和前饋,根據(jù)反饋結(jié)果選取合適的K值,作為語(yǔ)義遷移學(xué)習(xí)的最佳閾值。實(shí)驗(yàn)結(jié)果表明,K近鄰語(yǔ)義遷移學(xué)習(xí)算法取得了較好的結(jié)果,可以有效解決專業(yè)領(lǐng)域語(yǔ)料匱乏問(wèn)題。

        1 深度學(xué)習(xí)BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型構(gòu)建

        本文利用CNN的詞組合特點(diǎn)和LSTM的長(zhǎng)期依賴關(guān)系,結(jié)合CRF作為解碼輸出,構(gòu)建一種基于深度學(xué)習(xí)的BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型,作為命名實(shí)體識(shí)別的學(xué)習(xí)算法。首先對(duì)文本的字訓(xùn)練詞向量,將詞向量輸入到CNN層,得到窗口詞組合特征,再進(jìn)一步輸入到LSTM層,LSTM選取分?jǐn)?shù)最高的標(biāo)簽作為輸出。但LSTM默認(rèn)詞之間是獨(dú)立分布的,并未考慮相鄰詞之間的相關(guān)性及其約束性,對(duì)于序列標(biāo)注任務(wù),相鄰詞之間的標(biāo)簽相關(guān)性直接影響句子的最佳標(biāo)簽鏈,所以在輸出層使用條件隨機(jī)場(chǎng)(CRF)進(jìn)行聯(lián)合建模以解碼標(biāo)簽序列。

        1.1 詞向量

        自然語(yǔ)言理解的問(wèn)題首先要轉(zhuǎn)化成機(jī)器能夠處理的問(wèn)題,詞向量[13](word Embedding)提供了一種將文本表達(dá)映射到低維向量空間的方法,詞向量解決了傳統(tǒng)稀疏表示的“詞匯溝鴻”缺點(diǎn),通過(guò)將詞匯映射到一個(gè)新的低維空間,解決了維數(shù)災(zāi)難問(wèn)題,并且可以挖掘到詞匯之間的關(guān)聯(lián)屬性,提高向量語(yǔ)義的準(zhǔn)確度。針對(duì)專業(yè)領(lǐng)域語(yǔ)料容易出現(xiàn)分詞不準(zhǔn)確,從而導(dǎo)致實(shí)體被錯(cuò)分出現(xiàn)無(wú)法識(shí)別的問(wèn)題,本文不直接進(jìn)行分詞,采取訓(xùn)練字符級(jí)別的詞向量方法,詞向量形式如下:

        1.2 CNN層

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常用于字符級(jí)信息建模等自然語(yǔ)言處理任務(wù),本文使用CNN對(duì)輸入字的詞向量利用窗口滑動(dòng)將當(dāng)前字與前后漢字連接,計(jì)算前后字對(duì)當(dāng)前字的影響,所生成的詞表示詞語(yǔ)特征。本文以“中國(guó)包裝網(wǎng)訊”一詞為例,其CNN層結(jié)構(gòu)如圖1所示。卷積完成后提取出字符與字符之間的上下文信息,生成詞語(yǔ)和句子表示特征,再輸入到下層神經(jīng)網(wǎng)絡(luò)中。

        圖 1 CNN層結(jié)構(gòu)示意圖Fig. 1 CNN layer structure diagram

        1.3 LSTM層與CRF層

        LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),一個(gè)LSTM單元是由一個(gè)cell和輸入門(mén)(input)、輸出門(mén)(output)、遺忘門(mén)(forget)組成。LSTM自提出后,很多研究人員針對(duì)LSTM做了一系列優(yōu)化改進(jìn)工作,現(xiàn)已被應(yīng)用于自然語(yǔ)言處理領(lǐng)域的各個(gè)方面。LSTM的特性使得其只能獲取到本單元之前的所有單元的信息,但是無(wú)法獲取此單元后的所有單元信息,因此雙向LSTM(bi-directional LSTM,BiLSTM)應(yīng)運(yùn)而生,其基本思想是將每個(gè)序列向前和向后呈現(xiàn)為兩個(gè)單獨(dú)的隱藏狀態(tài),分別捕獲過(guò)去和未來(lái)的信息,然后將兩個(gè)隱藏狀態(tài)鏈接形成最終輸出。BiLSTM相較于LSTM識(shí)別效果更好,故本文使用BiLSTM作為一層網(wǎng)絡(luò)。由于BiLSTM僅對(duì)于標(biāo)簽之間的獨(dú)立任務(wù)(如詞性標(biāo)注)識(shí)別效果較好,而命名實(shí)體識(shí)別標(biāo)簽則是互相關(guān)聯(lián)的,故考慮在BiLSTM輸出層加入CRF層以增加約束,進(jìn)行聯(lián)合解碼標(biāo)簽序列。

        假設(shè)一個(gè)序列“中國(guó)包裝網(wǎng)訊”及其序列標(biāo)注如表1所示。

        表 1 詞序列及其標(biāo)注Table 1 Word sequence and its annotation

        將以上詞序列的詞向量輸入BiLSTM-CRFs網(wǎng)絡(luò),假設(shè)以上詞序列的詞向量為:

        將式(2)作為BiLSTM-CRFs的輸入,如圖2所示。

        圖 2 BiLSTM-CRFs網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 BiLSTM-CRFs network structure diagram

        1.4 基于深度學(xué)習(xí)的BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型

        本文構(gòu)建的用于領(lǐng)域命名實(shí)體識(shí)別的基于深度學(xué)習(xí)的BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型如圖3所示。對(duì)于一個(gè)句子序列,將每個(gè)字的詞向量輸入到CNN網(wǎng)絡(luò)中,并在使用時(shí)對(duì)詞向量進(jìn)行微調(diào)(fine tuning),采用CNN的窗口滑動(dòng)功能得到詞表示向量,然后將詞表示向量與字的詞向量饋送至BiLSTM網(wǎng)絡(luò)中,學(xué)習(xí)到句子序列標(biāo)簽的最高得分(虛線表示引入Dropout層防止數(shù)據(jù)過(guò)擬合)。最后BiLSTM輸出的向量再饋送至CRF層,CRF通過(guò)從訓(xùn)練語(yǔ)料中自學(xué)習(xí)得到約束,對(duì)BiLSTM中的輸出向量進(jìn)行聯(lián)合標(biāo)簽解碼。在卷積過(guò)程和BiLSTM預(yù)測(cè)過(guò)程中引入Dropout技術(shù)以防止過(guò)擬合現(xiàn)象。

        圖 3 基于深度學(xué)習(xí)的BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型Fig. 3 BiLSTM-CNN-CRFs network model based on deep learning

        2 反饋式K近鄰語(yǔ)義遷移學(xué)習(xí)算法

        2.1 問(wèn)題描述

        傳統(tǒng)機(jī)器學(xué)習(xí)假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)滿足數(shù)據(jù)同分布,然而現(xiàn)實(shí)中的大量數(shù)據(jù)并不滿足這種同分布假設(shè)。隨著深度學(xué)習(xí)的發(fā)展,對(duì)數(shù)據(jù)量的要求不斷增大,現(xiàn)實(shí)中很難獲取到如此大量的同分布數(shù)據(jù)集。在此背景下,遷移學(xué)習(xí)的提出,為數(shù)據(jù)量不足的問(wèn)題提供了新的解決思路。遷移學(xué)習(xí)可以利用已有的數(shù)據(jù)遷移知識(shí),用于幫助目標(biāo)域中的學(xué)習(xí)問(wèn)題。針對(duì)特定領(lǐng)域,雖然隨著計(jì)算機(jī)的普及與發(fā)展已產(chǎn)生大量的非結(jié)構(gòu)化文本,但這些語(yǔ)料并未標(biāo)注,導(dǎo)致專業(yè)領(lǐng)域文本訓(xùn)練語(yǔ)料嚴(yán)重缺乏。而隨著互聯(lián)網(wǎng)行業(yè)與移動(dòng)互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了海量的通用領(lǐng)域新聞文本,且形成了成熟的標(biāo)注語(yǔ)料庫(kù)。而通用領(lǐng)域新聞文本與專業(yè)領(lǐng)域新聞文本同屬新聞?wù)Z料,彼此具有一定的相似性和數(shù)據(jù)同分布性,這為我們提供了解決特定領(lǐng)域文本嚴(yán)重不足的思路。

        為了解決領(lǐng)域訓(xùn)練語(yǔ)料嚴(yán)重缺乏的現(xiàn)實(shí),本文應(yīng)用遷移學(xué)習(xí)方法從通用新聞?wù)Z料中得到與專業(yè)領(lǐng)域語(yǔ)料語(yǔ)義正相關(guān)的數(shù)據(jù)以擴(kuò)充領(lǐng)域語(yǔ)料集。應(yīng)用遷移學(xué)習(xí)技術(shù)解決專業(yè)領(lǐng)域語(yǔ)料不足的問(wèn)題,面臨的主要挑戰(zhàn)如下:1)如何表達(dá)通用新聞數(shù)據(jù)中的知識(shí),以適配專業(yè)領(lǐng)域樣本語(yǔ)義中的知識(shí)與分布,從而達(dá)到遷移目的;2)在解決1)中問(wèn)題的基礎(chǔ)上,如何衡量通用新聞?wù)Z料與領(lǐng)域新聞?wù)Z料的相似性;3)對(duì)于遷移的標(biāo)準(zhǔn)與質(zhì)量應(yīng)該如何度量,何時(shí)達(dá)到遷移閾值,停止遷移,防止“負(fù)遷移”出現(xiàn)。

        針對(duì)上述挑戰(zhàn),本文提出一種反饋式K近鄰語(yǔ)義遷移學(xué)習(xí)(feedback K-Nearest-neighbor semantic transfer learning,F(xiàn)-KNST)算法,并采用 BiLSTM-CNN-CRFs深度學(xué)習(xí)網(wǎng)絡(luò)模型,對(duì)領(lǐng)域?qū)嶓w進(jìn)行識(shí)別,其流程如圖4所示。針對(duì)1),本文選用文檔向量(Doc2Vec)衡量通用新聞?wù)Z料與領(lǐng)域語(yǔ)料的語(yǔ)義差異性。Doc2Vec[14]是由Quoc Le 和Tomas Mikolov在Word2Vec的基礎(chǔ)上提出的,文檔向量充分利用了詞向量和段落向量(paragraphs vectors),可以很好地預(yù)測(cè)文檔之間的語(yǔ)義相似性。針對(duì)2),本文提出一種使用馬哈拉諾比斯距離[15](馬氏距離)的語(yǔ)義距離度量方法。傳統(tǒng)歐氏距離存在無(wú)法結(jié)合先驗(yàn)知識(shí)、同等看待樣本等局限性,在實(shí)際應(yīng)用中常無(wú)法滿足需求。馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯提出的,表示數(shù)據(jù)的協(xié)方差距離,它是一種有效的計(jì)算2個(gè)未知樣本集的相似度的方法,其協(xié)方差特性不僅可以結(jié)合數(shù)據(jù)的統(tǒng)計(jì)特性,還能兼顧到樣本的相關(guān)性。楊緒兵等[16]已經(jīng)通過(guò)證明和相關(guān)實(shí)驗(yàn)驗(yàn)證了馬氏距離相對(duì)于歐氏距離的優(yōu)越性。針對(duì)3),提出F-KNST算法,從1)和2)中得到通用新聞?wù)Z料與領(lǐng)域語(yǔ)料的語(yǔ)義向量距離作為遷移標(biāo)準(zhǔn),從通用新聞?wù)Z料中獲取K個(gè)與每篇特定領(lǐng)域語(yǔ)料最相近的文本,從而達(dá)到擴(kuò)充領(lǐng)域語(yǔ)料集的目的。將擴(kuò)充的語(yǔ)料集送入1.4節(jié)所述網(wǎng)絡(luò)模型中進(jìn)行實(shí)體識(shí)別,由實(shí)體識(shí)別結(jié)果作為反饋不斷修正K值,從而實(shí)現(xiàn)最佳遷移標(biāo)準(zhǔn)與質(zhì)量。

        圖 4 反饋式K近鄰語(yǔ)義遷移學(xué)習(xí)的領(lǐng)域命名實(shí)體識(shí)別流程Fig. 4 F-KNST domain named entity recognition flowchart

        2.2 F-KNST算法實(shí)現(xiàn)

        通用新聞數(shù)據(jù)集(以下稱源域)中存在許多可以遷移到特定領(lǐng)域新聞數(shù)據(jù)集(以下稱目標(biāo)域)的知識(shí)。由于目標(biāo)域除了行業(yè)名詞之外,與源域數(shù)據(jù)格式、報(bào)道措辭均相差不大,數(shù)據(jù)分布基本滿足獨(dú)立同分布。因此,從源域中獲取與目標(biāo)域中語(yǔ)義相近的新聞?wù)Z料以填充目標(biāo)域可以更加豐富目標(biāo)域中數(shù)據(jù)分布特點(diǎn),擴(kuò)充目標(biāo)域中語(yǔ)義特征,使目標(biāo)域在后續(xù)預(yù)訓(xùn)練和訓(xùn)練過(guò)程中獲取到足夠的語(yǔ)義信息及類實(shí)體特征。

        1)馬氏距離定義

        設(shè)隨機(jī)向量x∈Rn,來(lái)自分布X(XRn),E∈Rn與 Σ∈Rn×n分別表示的期望和協(xié)方差,是的一組觀測(cè)值,并且滿足獨(dú)立同分布條件。

        定義1設(shè)為空間Rn的一個(gè)維向量,Σ是分布X的協(xié)方差,則稱

        定義2在M范數(shù)定義下,若,則馬氏距離定義為:

        2)F-KNST算法描述

        輸入源域數(shù)據(jù)集,目標(biāo)域數(shù)據(jù)集,樣本近鄰數(shù);

        輸出目標(biāo)域數(shù)據(jù)擴(kuò)展集;

        3 實(shí)驗(yàn)與分析

        為驗(yàn)證本文所提出算法的有效性,本文分別以包裝領(lǐng)域和醫(yī)療領(lǐng)域?yàn)槔M(jìn)行命名實(shí)體識(shí)別實(shí)驗(yàn)。

        3.1 包裝領(lǐng)域命名實(shí)體識(shí)別

        3.1.1 數(shù)據(jù)準(zhǔn)備

        中國(guó)包裝網(wǎng)作為我國(guó)最大的包裝行業(yè)專業(yè)網(wǎng)站,包含了大量的包裝領(lǐng)域文本。本文從中國(guó)包裝網(wǎng)[17]上獲取包裝行業(yè)新聞作為實(shí)驗(yàn)數(shù)據(jù)構(gòu)成遷移學(xué)習(xí)目標(biāo)域樣本,共計(jì)500篇。為保證源域與目標(biāo)域的樣本分布,本文選取搜狗實(shí)驗(yàn)室[18]的全網(wǎng)新聞?wù)Z料,通過(guò)xml解析并去除Html標(biāo)簽后得到共計(jì)3.8 GB約120萬(wàn)篇新聞,作為源域數(shù)據(jù)集。為更好的完成包裝領(lǐng)域命名實(shí)體識(shí)別任務(wù),獲取了包裝領(lǐng)域?qū)<彝瓿傻陌b領(lǐng)域產(chǎn)業(yè)分類體系結(jié)構(gòu),確定了如表2所示6類實(shí)體類別。

        表 2 包裝實(shí)體類別及其含義Table 2 Packaging entity categories and their meanings

        由于包裝語(yǔ)料中包含大量的包裝專業(yè)名詞,如“瓦楞紙板”、“靜電復(fù)印紙”等,故對(duì)包裝語(yǔ)料進(jìn)行分詞容易導(dǎo)致實(shí)體被錯(cuò)分,從而導(dǎo)致無(wú)法識(shí)別命名實(shí)體。所以本文選擇字標(biāo)注方法對(duì)包裝語(yǔ)料進(jìn)行標(biāo)注,采用BIO標(biāo)注法,其中B表示實(shí)體的開(kāi)頭,I表示實(shí)體的剩余部分,O表示非實(shí)體序列。具體實(shí)體類別及其標(biāo)注方法如表3所示。

        表 3 實(shí)體標(biāo)注方法Table 3 Entity labeling method

        在確定包裝領(lǐng)域?qū)嶓w類別及其標(biāo)注方法后,本文采用人工標(biāo)注與CRF相結(jié)合的迭代修正方式對(duì)包裝語(yǔ)料進(jìn)行標(biāo)注。首先人工標(biāo)注50篇文章,然后將其送入CRF中進(jìn)行訓(xùn)練,得到實(shí)體識(shí)別模型,并預(yù)測(cè)50篇未標(biāo)注文檔,再使用人工方法對(duì)CRF模型標(biāo)注錯(cuò)誤的數(shù)據(jù)進(jìn)行修正,得到100篇標(biāo)注文本。再將100篇未標(biāo)注文檔送入CRF中進(jìn)行訓(xùn)練識(shí)別,如此反復(fù)。隨著語(yǔ)料的增加,CRF的擬合結(jié)果越來(lái)越好,人工修改的工作量逐漸減少,最終迭代完成后形成500篇質(zhì)量較高的標(biāo)注語(yǔ)料。

        3.1.2 實(shí)驗(yàn)設(shè)計(jì)及參數(shù)設(shè)置

        本文實(shí)驗(yàn)使用TensorFlow框架編寫(xiě)B(tài)iLSTMCNN-CRFs網(wǎng)絡(luò)模型,軟硬件環(huán)境如表4所示。

        表 4 實(shí)驗(yàn)軟硬件環(huán)境Table 4 Experimental software and hardware environment

        本文使用Doc2Vec計(jì)算源域與目標(biāo)域的文檔向量,并且使用Word2vec對(duì)目標(biāo)域擴(kuò)展集預(yù)訓(xùn)練詞向量,F(xiàn)-KNST算法中初始值K=100,以100為步長(zhǎng)分別獲取7組數(shù)據(jù)構(gòu)成7個(gè)目標(biāo)域擴(kuò)展集。設(shè)計(jì)的實(shí)驗(yàn)參數(shù)如表5、表6所示。

        表 5 Doc2Vec參數(shù)表Table 5 Doc2Vec parameter list

        表 6 Word2Vec參數(shù)表Table 6 Word2Vec parameter list

        基于深度學(xué)習(xí)的BiLSTM+CNN+CRFs網(wǎng)絡(luò)模型參數(shù)如表7所示。

        表 7 BiLSTM-CNN-CRFs模型參數(shù)表Table 7 BiLSTM-CNN-CRFS model parameter table

        3.1.3 實(shí)驗(yàn)結(jié)果與分析

        評(píng)價(jià)指標(biāo)采用準(zhǔn)確率、召回率和F值。這3個(gè)指標(biāo)廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域,用于評(píng)估結(jié)果質(zhì)量。準(zhǔn)確率、召回率和F值定義如下:

        式中:TP(true positive)表示正類且被預(yù)測(cè)為正類的數(shù)目;FP(false positive)表示負(fù)類且被預(yù)測(cè)為正類的數(shù)目;FN(false negative)表示正類被預(yù)測(cè)為負(fù)數(shù)的數(shù)目。

        本文將包裝標(biāo)注語(yǔ)料按照6:2:2的比例切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別使用LSTMCRF模型、BiLSTM-CRF模型和BiLSTM-CNNCRFs模型對(duì)遷移和非遷移方法進(jìn)行對(duì)比實(shí)驗(yàn)。

        1)反饋值K的選取實(shí)驗(yàn)

        分別使用LSTM-CRF、BiLSTM-CRF和BiLSTM-CNN-CRFs 3組模型進(jìn)行語(yǔ)義遷移學(xué)習(xí),識(shí)別包裝領(lǐng)域?qū)嶓w,所獲得的識(shí)別效果隨K值的變化情況如表8所示。

        表 8 識(shí)別結(jié)果隨K值的變化情況Table 8 The experimental results changed with K

        各模型識(shí)別結(jié)果如圖5~圖7所示。

        實(shí)驗(yàn)結(jié)果表明,3組模型的P、R和F值,均先隨著K值的增大呈上升趨勢(shì),當(dāng)達(dá)到某一特定值時(shí)反而呈下降趨勢(shì),LSTM-CRF和BiLSTMCRF模型在K=400時(shí)F值達(dá)到最大,而B(niǎo)iLSTMCNN-CRFs模型在K=500時(shí)F值達(dá)到最大。證明了隨著遷移語(yǔ)義知識(shí)的增加,提高了模型的識(shí)別率。但隨著領(lǐng)域新聞數(shù)據(jù)與通用新聞數(shù)據(jù)樣本語(yǔ)義距離的增大,準(zhǔn)確率、召回率和F值反而開(kāi)始下降。這是由于隨著語(yǔ)義距離的增大,通用新聞數(shù)據(jù)與領(lǐng)域新聞數(shù)據(jù)語(yǔ)義相關(guān)性降低,此時(shí)引入的樣本多為“噪聲”,開(kāi)始產(chǎn)生“負(fù)遷移”現(xiàn)象,應(yīng)停止遷移,選用得到最佳識(shí)別結(jié)果的K值作為最佳遷移閾值。因此,接下來(lái)反饋值K分別取400和500進(jìn)行對(duì)比實(shí)驗(yàn)。

        圖 5 BiLSTM-CNN-CRFs識(shí)別結(jié)果Fig. 5 BiLSTM-CNN-CRFs results

        圖 6 LSTM-CRF識(shí)別結(jié)果Fig. 6 LSTM-CRF results

        圖 7 BiLSTM-CRF識(shí)別結(jié)果Fig. 7 BiLSTM-CRF results

        2)對(duì)比實(shí)驗(yàn)與分析

        LSTM-CRF、BiLSTM-CRF和BiLSTM-CNNCRFs三種模型下遷移前后對(duì)比實(shí)驗(yàn)結(jié)果如表9所示。

        表 9 3種網(wǎng)絡(luò)模型遷移前后實(shí)驗(yàn)結(jié)果Table 9 Experimental results before and after transfer of three network models

        結(jié)果表明,3種模型采用F-KNST算法遷移后的P、R、F值均比遷移前提升很多,F(xiàn)值分別提升23.1%、22.4%和32.7%,BiLSTM-CNN-CRFs模型相比其他2種模型的P、R、F值亦有較大提升,遷移前的F值分別提升8.4%、4.7%,采用F-KNST算法遷移后的F值分別提升16.9%、13.5%,亦有效證明了本文構(gòu)建的用于領(lǐng)域命名實(shí)體識(shí)別的BiLSTM-CNN-CRFs深度學(xué)習(xí)網(wǎng)絡(luò)模型相較于其他模型的優(yōu)越性。

        3.2 醫(yī)療領(lǐng)域命名實(shí)體識(shí)別

        3.2.1 數(shù)據(jù)準(zhǔn)備

        本文采用CCKS 2017[19]任務(wù)二提供的電子病歷命名實(shí)體識(shí)別語(yǔ)料作為遷移學(xué)習(xí)目標(biāo)域樣本,共計(jì)1 200篇。

        CCKS 2017任務(wù)二的電子病歷語(yǔ)料數(shù)據(jù)集來(lái)源于真實(shí)電子病歷經(jīng)脫敏處理后形成的標(biāo)注數(shù)據(jù),電子病歷按照數(shù)據(jù)組織不同分為:一般項(xiàng)目、病史特征、診療過(guò)程、出院情況。該數(shù)據(jù)集已經(jīng)詳細(xì)標(biāo)注了實(shí)體名稱、實(shí)體起始終止位置與實(shí)體所屬類別等。CCKS的電子病歷語(yǔ)料規(guī)定的抽取實(shí)體如表10所示5類實(shí)體類別。

        表 10 醫(yī)療實(shí)體類別及其含義Table 10 Medical entity categories and their meanings

        為了保證遷移學(xué)習(xí)的質(zhì)量,本文編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)分別從醫(yī)療資訊網(wǎng)[20]、好醫(yī)生在線[21]等醫(yī)療在線網(wǎng)站獲取醫(yī)療健康咨詢數(shù)據(jù),通過(guò)網(wǎng)頁(yè)去重、xml解析和Html標(biāo)簽去除后得到共計(jì)100萬(wàn)篇作為源域數(shù)據(jù)集。

        本文在進(jìn)行醫(yī)療實(shí)體識(shí)別時(shí)同樣采用字標(biāo)注方法對(duì)醫(yī)療實(shí)體進(jìn)行標(biāo)注,采用BIO標(biāo)注法,具體實(shí)體類別與標(biāo)注編碼如表11所示。

        3.2.2 實(shí)驗(yàn)設(shè)計(jì)及參數(shù)設(shè)置

        本文實(shí)驗(yàn)使用TensorFlow框架編寫(xiě)深度學(xué)習(xí)網(wǎng)絡(luò)模型。為驗(yàn)證反饋K近鄰遷移學(xué)習(xí)算法的有效性,本文保證實(shí)驗(yàn)中其他因素的一致性,故實(shí)驗(yàn)環(huán)境、Doc2Vec參數(shù)、Word2Vec參數(shù)與模型參數(shù)表均與3.1.2節(jié)中參數(shù)保持一致。設(shè)置FKNST算法中初始值K=100,以100為步長(zhǎng)分別獲取7組數(shù)據(jù)構(gòu)成7組目標(biāo)域擴(kuò)展集。

        3.2.3 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)評(píng)價(jià)指標(biāo)與3.1.3中(5)式完全一致。本實(shí)驗(yàn)采用CCKS的標(biāo)準(zhǔn)測(cè)試集進(jìn)行實(shí)驗(yàn)結(jié)果測(cè)試,驗(yàn)證集按照8:2的比例從訓(xùn)練集中切分得到。分別使用LSTM-CRF模型、BiLSTM-CRF模型和BiLSTM-CNN-CRFs模型對(duì)遷移和非遷移方法進(jìn)行對(duì)比實(shí)驗(yàn)。

        1)反饋值K的選取實(shí)驗(yàn)

        由以上的實(shí)驗(yàn)設(shè)置通過(guò)3組模型進(jìn)行語(yǔ)義遷移學(xué)習(xí),最終所獲得的識(shí)別效果隨K值變化情況如表12所示。

        表 12 識(shí)別結(jié)果隨K值變化情況Table 12 The experimental results changed with K

        3組模型識(shí)別結(jié)果變化折線圖分別如圖8~圖10所示。

        圖 8 BiLSTM-CNN-CRFs識(shí)別結(jié)果Fig. 8 BiLSTM-CNN-CRFs results

        圖 9 LSTM-CRF識(shí)別結(jié)果Fig. 9 LSTM-CRF results

        圖 10 BiLSTM-CRF識(shí)別結(jié)果Fig. 10 BiLSTM-CRF results

        實(shí)驗(yàn)結(jié)果表明,3組模型的P、R和F值,同樣呈現(xiàn)出先上升后下降的趨勢(shì),3組模型均在K=500時(shí)F值達(dá)到最大。證明了隨著遷移語(yǔ)義知識(shí)的增加,提高了模型的識(shí)別率。接下來(lái)取最佳閾值K=500的識(shí)別結(jié)果進(jìn)行對(duì)比試驗(yàn)。

        結(jié)果表明,在不同數(shù)據(jù)集上K值的選擇是由該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果反饋決定。本實(shí)驗(yàn)最優(yōu)結(jié)果在K=400時(shí)達(dá)到穩(wěn)定。而實(shí)驗(yàn)一中的包裝實(shí)體識(shí)別在K=500時(shí)達(dá)到最優(yōu)結(jié)果。如表13所示醫(yī)療領(lǐng)域語(yǔ)料采用F-KNST算法遷移后的P、R、F值同樣有效果提升,F(xiàn)值分別提升4.96%、3.15%和2.57%,通過(guò)醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別實(shí)驗(yàn),亦有效證明了本文構(gòu)建的用于領(lǐng)域命名實(shí)體識(shí)別的BiLSTM-CNN-CRFs深度學(xué)習(xí)網(wǎng)絡(luò)模型相較于其他模型的優(yōu)越性。

        表 13 3種網(wǎng)絡(luò)模型遷移前后實(shí)驗(yàn)結(jié)果Table 13 Experimental results before and after transfer of three network models

        4 結(jié)束語(yǔ)

        本文針對(duì)專業(yè)領(lǐng)域語(yǔ)料匱乏的特點(diǎn),構(gòu)建基于深度學(xué)習(xí)的BiLSTM-CNN-CRFs網(wǎng)絡(luò)模型,以包裝領(lǐng)域和醫(yī)療領(lǐng)域?yàn)槔?,提出了一種基于反饋式K近鄰語(yǔ)義遷移學(xué)習(xí)的命名實(shí)體識(shí)別方法。本文方法不僅避免了傳統(tǒng)機(jī)器學(xué)習(xí)無(wú)法學(xué)習(xí)到長(zhǎng)距離依賴等缺點(diǎn),而且很好地解決了專業(yè)領(lǐng)域的命名實(shí)體識(shí)別問(wèn)題,有較強(qiáng)的通用性。實(shí)驗(yàn)結(jié)果表明,本文提出的F-KNST算法和BiLSTM-CNNCRFs網(wǎng)絡(luò)模型可以很好的提取語(yǔ)義信息,擴(kuò)充專業(yè)領(lǐng)域語(yǔ)料集,提高專業(yè)領(lǐng)域命名實(shí)體識(shí)別的準(zhǔn)確率。

        本文仍存在以下不足之處:1)Doc2Vec能夠提取的語(yǔ)義信息比較有限,對(duì)于文本實(shí)體分布信息等并沒(méi)有進(jìn)一步挖掘;2)包裝領(lǐng)域語(yǔ)料為多人協(xié)作標(biāo)注,由于對(duì)包裝實(shí)體有著不同的理解,導(dǎo)致部分實(shí)體標(biāo)注標(biāo)準(zhǔn)不盡相同,影響識(shí)別率。接下來(lái)將對(duì)以上缺點(diǎn)開(kāi)展進(jìn)一步的研究,以進(jìn)一步提高專業(yè)領(lǐng)域命名實(shí)體識(shí)別的效果。

        猜你喜歡
        源域語(yǔ)料命名
        多源域適應(yīng)方法綜述
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        国产一级黄色片在线播放| 乱人伦中文字幕成人网站在线| 被黑人做的白浆直流在线播放| 日韩美女av二区三区四区| 最近更新中文字幕一区二区| 欧美综合天天夜夜久久| 日韩精品人妻系列无码专区免费 | 国产夫妻精品自拍视频| 国产麻豆精品精东影业av网站| 真实单亲乱l仑对白视频| 日韩久久久久中文字幕人妻| 99在线视频精品费观看视| 激情网色图区蜜桃av| 成人免费自拍视频在线观看| 亚洲精品第一国产综合亚av| 国产精品美女久久久久久大全 | 国产一区二区三区青青草| 青娱乐极品视觉盛宴国产视频| 日本在线观看| 日韩偷拍视频一区二区三区| 三上悠亚亚洲精品一区| 亚洲综合激情五月丁香六月| 78成人精品电影在线播放| 国产一区二区三区免费小视频| 亚洲色图在线免费观看视频| 桃花影院理论片在线| 国产成人亚洲综合无码DVD| 久久精品久久精品中文字幕| 曰韩无码av一区二区免费| 少妇脱了内裤让我添| 亚洲精品乱码久久久久99| 日本本土精品午夜视频| 人妻 日韩 欧美 综合 制服| 女同啪啪免费网站www| 都市激情亚洲综合一区| 欧美xxxxx高潮喷水| 欧美激情a∨在线视频播放| 欧美成人网视频| 亚洲乱码av乱码国产精品| 真多人做人爱视频高清免费| 亚洲一区二区欧美色妞影院 |