亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多級(jí)別特征感知網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別

        2022-11-07 10:12:08周俊昊
        中文信息學(xué)報(bào) 2022年9期
        關(guān)鍵詞:特征信息方法

        宋 威,周俊昊

        (1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122;2.江南大學(xué) 江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無錫 214122)

        0 引言

        如何從海量的非結(jié)構(gòu)化文本數(shù)據(jù)中,準(zhǔn)確識(shí)別其中的各種各樣的實(shí)體,成為當(dāng)下的研究熱點(diǎn)和難點(diǎn)。命名實(shí)體識(shí)別(Named Entity Recognitior,NER)作為自然語言處理領(lǐng)域的一項(xiàng)基礎(chǔ)任務(wù),主要是識(shí)別文本中有一些特定含義的實(shí)體,例如,人名、地名、時(shí)間及專有名詞等。目前,命名實(shí)體識(shí)別作為其他自然語言處理任務(wù)的上游任務(wù),已廣泛應(yīng)用于自動(dòng)摘要[1]、情感分析[2]和機(jī)器翻譯[3]等多種自然語言處理任務(wù)中。

        從早期的基于規(guī)則和字典的方法到基于傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,再到現(xiàn)在主流的基于深度學(xué)習(xí)的方法,研究人員不斷地將新的技術(shù)應(yīng)用到命名實(shí)體識(shí)別中。其中,基于規(guī)則和字典的方法的可擴(kuò)展性較差,一種規(guī)則或字典只能應(yīng)用在一種領(lǐng)域中。隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)的發(fā)展,隱馬爾科夫鏈[4]、最大熵[5]和條件隨機(jī)場(chǎng)(Conditional Randm Field,CRF)[6]等方法逐漸取代了早期的基于規(guī)則和字典的方法,進(jìn)一步推動(dòng)了命名實(shí)體識(shí)別朝著智能化的方向發(fā)展?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,一方面較依賴于本領(lǐng)域的專家,造成大量的人力耗費(fèi);另一方面,特征標(biāo)注的質(zhì)量直接影響實(shí)體識(shí)別的好壞。現(xiàn)在基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法既不需要定制規(guī)則和字典,也不需要進(jìn)行大量的人工標(biāo)注,因此逐漸成為主流的方法。命名實(shí)體識(shí)別是一種典型的序列標(biāo)注問題,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)非常擅長處理具有時(shí)序特征的數(shù)據(jù)。但是RNN 在實(shí)際使用的過程中,存在記憶信息有限、保留信息不完全的問題,同時(shí)存在梯度爆炸的情況。RNN 和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memony,LSTM)都是從前往后傳遞信息,這在很多任務(wù)中都有局限性,比如詞性標(biāo)注任務(wù),一個(gè)詞的詞性不僅和前面的詞有關(guān)還和后面的詞有關(guān)。因此提出了雙向長短期記憶網(wǎng)絡(luò)(Bi-derectional Long Short Term Memory,BiLSTM),將同一個(gè)輸入序列分別接入向前和后的兩個(gè)LSTM 中,然后將兩個(gè)LSTM 的隱含層連在一起,共同接入到輸入層進(jìn)行預(yù)測(cè)。Huang[7]等人提出了該方法在詞性標(biāo)注和命名實(shí)體識(shí)別任務(wù)中均取得了不俗的效果。

        目前中文命名實(shí)體識(shí)別方法主要分為基于字和基于詞的兩種方法。其中,基于字的中文命名實(shí)體識(shí)別方法用來獲取字級(jí)別特征。例如,Jin[8]等人引入了一種帶有門控濾波機(jī)制的混合卷積神經(jīng)網(wǎng)絡(luò)來捕獲局部上下文信息,并用一個(gè)High Way網(wǎng)絡(luò)來選擇感興趣的特征。另外,門控自注意力機(jī)制可用于捕獲來自不同的多個(gè)子空間和任意相鄰字符的全局依賴關(guān)系,如Zhang[9]等人利用注意機(jī)制和一個(gè)信息門來融合字符級(jí)和詞級(jí)特征。該方法應(yīng)用反向堆疊的LSTM 層來獲得一個(gè)序列的深度語義信息。數(shù)據(jù)集中實(shí)體識(shí)別的F1達(dá)到91.09%。馮艷紅[10]等人提出了一種基于雙向LSTM 的中文命名實(shí)體識(shí)別方法,該方法不直接依賴于人工特征,它利用標(biāo)簽之間的相關(guān)性,增強(qiáng)模型的識(shí)別能力,在1998年《人民日?qǐng)?bào)》數(shù)據(jù)集中人名、地名和機(jī)構(gòu)名實(shí)體識(shí)別的F1值分別達(dá)到93.66%、90.77%和93.25%。Tang[11]等人構(gòu)建一種新的字符圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)使用交叉圖卷識(shí)網(wǎng)絡(luò)(Graph Convolational Netnwork,GCN)塊同時(shí)處理兩個(gè)方向的字符有向無環(huán)圖。其次,為了提高長距離依賴的捕獲,引入了全局注意力機(jī)制來學(xué)習(xí)基于全局上下文的節(jié)點(diǎn)表示。在這兩個(gè)模塊中,單詞和字符被平等地視為圖中的節(jié)點(diǎn)。

        在電力系統(tǒng)安全生產(chǎn)的過程中,員工的安全保障意識(shí)還有待提升,許多安全事故的發(fā)生大多是由于工作人員沒有足夠的安全生產(chǎn)意識(shí)。這不僅為工作人員帶來了許多安全隱患,也不利于電力公司的發(fā)展。所以,我國的電力公司必須建立一個(gè)科學(xué)合理、安全性強(qiáng)的安全生產(chǎn)制度,并且加強(qiáng)對(duì)員工進(jìn)行安全教育和安全培訓(xùn)。同時(shí)還要對(duì)電力系統(tǒng)中的生產(chǎn)工具進(jìn)行嚴(yán)格的檢修與管理,避免因工具有缺陷而造成的安全生產(chǎn)事故、

        即將到來的各種節(jié)日,不僅是奢侈腕表,更是幾乎所有奢侈品牌爭(zhēng)奪的營銷主戰(zhàn)場(chǎng)。想要從中分一杯羹,創(chuàng)新的營銷形式、精準(zhǔn)的渠道選擇以及電商導(dǎo)入能力,在品牌營銷中更加至關(guān)重要了。

        由于中文中漢字在不同的場(chǎng)景有著不同的含義,但是字級(jí)別特征僅考慮字本身,忽視了字在在具體語境中的含義,沒有考慮到詞級(jí)別特征。為此,Wang[12]等提出了一種基于多粒度語義字典和多模態(tài)樹的中文命名實(shí)體識(shí)別方法,該方法包括以下步驟。首先,利用多模態(tài)樹提取不同的語義詞級(jí)別特征,然后再提取邊界信息,最后進(jìn)行多粒度特征融合。Hu[13]等人將詞典信息融合進(jìn)詞特征中,最終利用條件隨機(jī)場(chǎng)加入一些約束來保證預(yù)測(cè)結(jié)果,其中詞級(jí)別特征的方法和分詞工具最終的結(jié)果起著至關(guān)重要的作用。

        其中,Ti,yi表示字符xi的標(biāo)簽概率,A是轉(zhuǎn)移矩陣。實(shí)際輸出標(biāo)簽序列y的條件概率如式(15)所示。

        由于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)更偏向于獲取數(shù)據(jù)的局部特征,不能很好的獲取全局信息。因此Strubell[21]等人利用空洞卷積網(wǎng)絡(luò)(Dilated CNN,DCNN)獲取更遠(yuǎn)距離的關(guān)系,通過擴(kuò)大感受野的方式改善效果,但其缺點(diǎn)是容易造成局部信息丟失。為了綜合考慮遠(yuǎn)距離和相鄰字符之間的信息,同時(shí)受到Dauphin[22]等人提出的門控機(jī)制啟發(fā),本文采用一種雙通道門控卷積神經(jīng)網(wǎng)絡(luò),利用門控機(jī)制動(dòng)態(tài)加權(quán)地獲取兩個(gè)部分卷積網(wǎng)絡(luò)之間的信息流動(dòng)。如圖2所示。具體的,首先利用DCNN 和CNN 分別獲取遠(yuǎn)近距離字級(jí)別特征。其次利用門控機(jī)制,加權(quán)獲取遠(yuǎn)距離和相鄰字符的特征。式(3)和式(4)為本文定義的DCGCN。

        (1)構(gòu)建了一種雙通道門控卷積網(wǎng)絡(luò),獲取字級(jí)別特征,以表示單字所包含字的字形信息。

        (2)獲取詞語的詞義信息,在詞級(jí)別的特征中嵌入對(duì)應(yīng)位置信息,同時(shí)為了賦予實(shí)體更大權(quán)重,利用自注意力機(jī)制感知帶有位置信息的詞級(jí)別特征。

        (3)在MSRA、Resume、《人民日?qǐng)?bào)》和Literature數(shù)據(jù)集中進(jìn)行廣泛的實(shí)驗(yàn),所提出的方法總體上優(yōu)于近幾年提出的主流方法,驗(yàn)證了本文所提出的方法的有效性。

        1 相關(guān)工作

        近年來,神經(jīng)網(wǎng)絡(luò)已成為主流的命名實(shí)體識(shí)別方法。Lin[15]等人受到象形字的啟發(fā),將漢字分解為不同的偏旁部首,同時(shí)將這些偏旁部首融入到字級(jí)別特征中,進(jìn)而作為BiLSTM 的輸入,但是僅考慮偏旁部首,卻沒有考慮位置關(guān)系,無法表示每個(gè)漢字中偏旁部首的位置,因此這種字級(jí)別特征無法表示完整的字形信息。針對(duì)此問題,Jia[16]等人在此基礎(chǔ)之上融入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取字的形態(tài)和結(jié)構(gòu)等字級(jí)別特征。

        標(biāo)準(zhǔn)允許使用的刀具有:單刃刀具和多刃刀具。由于多刃刀具只適用于漆膜厚度小于120μm的漆膜[1],且使用時(shí)因受力點(diǎn)多,容易出現(xiàn)施力不勻的現(xiàn)象,很難達(dá)到全部劃透漆膜。因此,推薦優(yōu)先使用單刃刀具。

        其中,Wg和Wh分別表示轉(zhuǎn)換門和輸入層權(quán)重,bg和bh分別為上述權(quán)重的偏置。tg是轉(zhuǎn)換門,控制信息的流動(dòng),保留更多有用的信息。

        由于詞語在不同的語境中可以表達(dá)不同的含義,為有效地區(qū)分一字多義的問題,Peters[17]首先利用大量的未標(biāo)注的數(shù)據(jù)進(jìn)行正反向語言模型的訓(xùn)練,得到兩個(gè)預(yù)訓(xùn)練的RNN 網(wǎng)絡(luò),同時(shí)對(duì)于句子中的每個(gè)單詞,經(jīng)過第一層RNN 得到隱層表示,此時(shí)該句子經(jīng)過預(yù)訓(xùn)練的兩個(gè)RNN,并與之前的網(wǎng)絡(luò)隱層進(jìn)行拼接,進(jìn)行序列標(biāo)注。BiLSTM 擅長處理時(shí)序信息,但無法獲取詞語的局部特征。針對(duì)此問題,盛劍等人[18]在BiLSTM 基礎(chǔ)上,借助卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取詞語的局部特征,提出細(xì)粒度的命名實(shí)體識(shí)別方法,首先利用網(wǎng)絡(luò)詞典標(biāo)注一些數(shù)據(jù),獲取一批粒度比較粗糙的文本數(shù)據(jù)。為了減少噪聲和冗余信息對(duì)結(jié)果造成的影響,先獲取實(shí)體的大類標(biāo)簽,然后確定命名實(shí)體的細(xì)粒度標(biāo)簽。然而,上述兩種方法無法動(dòng)態(tài)地為句子的每個(gè)詞分配權(quán)重,因此無法體現(xiàn)更重要的實(shí)體,忽略了句子中詞語之間的相關(guān)性信息。Zhu[19]等提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Attention Network,CAN),該方法利用全局和局部的注意力機(jī)制,從相鄰的字符和句子上下文中獲取信息。此外,與其他方法不同的是,CAN 不依賴于任何外部資源,字符嵌入使得CAN 在實(shí)際場(chǎng)景中更加實(shí)用。

        針對(duì)僅采用字級(jí)別或詞級(jí)別特征網(wǎng)絡(luò)進(jìn)行識(shí)別,不能兼顧二者優(yōu)點(diǎn),難以獲取足夠的特征信息這一問題,本文提出了一種基于多級(jí)別特征感知網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別方法MFPN。首先為了獲取單字的字形信息,構(gòu)建一種雙通道門控卷積神經(jīng)網(wǎng)絡(luò)獲取字級(jí)別特征信息。由于詞在不同位置有著不同的含義,本文利用自注意力機(jī)制感知嵌入位置信息的詞級(jí)別特征,同時(shí)考慮了詞語間的相關(guān)性。進(jìn)一步地,將字和詞級(jí)別特征拼接,從而有效結(jié)合了字和詞級(jí)別的特征,以全面表示詞的語義信息。

        蘇州市于1997年年底著手農(nóng)村河道疏浚5年規(guī)劃,經(jīng)過1998—2002年5年的艱苦努力,投資超過6億元,完成了第一輪河道疏浚。但由于“重建輕管”觀念未徹底扭轉(zhuǎn),河道整治后疏于管理,再次造成河道屢疏屢堵,引、排、蓄功能削弱等情況。2002年,在總結(jié)經(jīng)驗(yàn)教訓(xùn)的基礎(chǔ)上,確立了農(nóng)村河道 “疏浚整治和堅(jiān)持長效管理”兩手抓的方針。至2006年,借助江蘇省委發(fā)出“關(guān)于動(dòng)員農(nóng)村黨員集中開展村莊河道疏浚整治的要求”的東風(fēng),蘇州市又提出了“加快河道綜合整治和堅(jiān)持長效管理全覆蓋”的第三輪河道整治,真正做到了“疏好一條河道,復(fù)墾一塊土地,增加一片林地,整治一村環(huán)境,盤活一方水系”。

        2 基于多級(jí)別特征感知網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別方法

        本節(jié)具體介紹MFPN,整體框架如圖1所示。多級(jí)別特征感知網(wǎng)絡(luò)主要包括以下幾個(gè)部分:字級(jí)別特征感知網(wǎng)絡(luò)(Character-level Feature Perception Network,CFPN)、詞級(jí)別特征感知網(wǎng)絡(luò)(Wordlevel Feature Perception Network,WFPN)、Highway網(wǎng)以及CRF層。

        然而,中文中漢字在不同的場(chǎng)景有著不同的含義,字級(jí)別特征僅考慮字的本身,忽視了字在在具體語境中的含義,即僅基于字級(jí)別的方法無法解決中文命名實(shí)體識(shí)別方法中字的多義性問題。例如“小明去朋友家做客,盛情難卻,多盛了一碗飯吃”第一個(gè)“盛”表示多,第二個(gè)“盛”是動(dòng)詞,表示動(dòng)作,兩個(gè)“盛”在不同的語境中表達(dá)不同的含義。

        隨著我國全社會(huì)經(jīng)濟(jì)和信息化進(jìn)程的不斷發(fā)展,各類刑事犯罪高發(fā),社會(huì)矛盾日趨激化,影響社會(huì)穩(wěn)定的不確定因素增多,難以預(yù)料的挑戰(zhàn)和風(fēng)險(xiǎn)明顯加大,在這些維護(hù)社會(huì)和諧穩(wěn)定的巨大挑戰(zhàn)面前,傳統(tǒng)的被動(dòng)反應(yīng)型警務(wù)模式已經(jīng)無法適應(yīng)社會(huì)發(fā)展的需要,公安信息化被賦予了重大的時(shí)代意義。

        圖1 MFPN 結(jié)構(gòu)

        2.1 字級(jí)別特征感知網(wǎng)絡(luò)

        假設(shè)句子X={x1,x2,...,xn},其中xi表示X中的第i個(gè)字符,字符xi的字級(jí)別特征表示如式(1)所示。

        由于傳統(tǒng)的RNN 網(wǎng)絡(luò)在訓(xùn)練的過程中存在梯度消失的問題,Hochreiter[20]等人利用LSTM 解決梯度消失問題,但是LSTM 僅考慮文本中字符前向序列信息。因此本文利用雙向LSTM 獲取文本中字符的上下文信息。

        她被媽媽罵的時(shí)候,會(huì)噘起小嘴巴,眼睛向下看。有時(shí),還會(huì)帶一點(diǎn)點(diǎn)眼淚。被罵得很兇的時(shí)候,她放聲哇哇大哭,眼淚就像泉水一樣涌出來。

        這里把式(1)中的字級(jí)別特征作為雙向LSTM的輸入,從而得到字符xi的隱層表示,如式(2)所示。

        本文貢獻(xiàn)主要包含以下三點(diǎn):

        圖2 DCGCN 的網(wǎng)絡(luò)結(jié)構(gòu)

        其中ht用以獲取字符序列前向和后向特征,ConvD1和ConvD2分別表示CNN 和DCNN 兩個(gè)不同的卷積輸出信息,分別用以獲取相鄰字符和遠(yuǎn)距離字符特征,σ為Sigmoid激活函數(shù)。

        2.2 詞級(jí)別特征感知網(wǎng)絡(luò)(WFPN)

        假設(shè)有一個(gè)句子W={w1,w2,...,wn},其中wi代表第i個(gè)詞語。句子中的詞向量表示如式(5)表示。

        本文利用雙向LSTM 獲取詞語的上下文信息。同時(shí)為了給詞語嵌入不同的位置,給定一組位置標(biāo)簽L={l1,l2,...,ln},第i個(gè)位置標(biāo)簽li的表示如式(6)所示。

        將詞向量特征和位置特征組合,獲取融合特征,表示如式(7)所示。

        自注意力機(jī)制通過接收n個(gè)輸入,然后返回n個(gè)輸出,讓每個(gè)輸入都會(huì)彼此交互,然后找到應(yīng)該更加關(guān)注的輸入。具體地,通過某種運(yùn)算來直接計(jì)算得到句子在編碼過程中每個(gè)位置上的注意力權(quán)重;然后再以權(quán)重和的形式來計(jì)算得到整個(gè)句子的隱含向量,從而獲取詞語的相關(guān)詞義信息。自注意力機(jī)制主要包括點(diǎn)乘和多頭注意力兩個(gè)部分。點(diǎn)乘注意力如式(8)所示。

        多頭注意力就是在多個(gè)不同的投影空間中建立不同的投影信息,將輸入矩陣進(jìn)行不同的投影,得到許多輸出矩陣后,將其拼接在一起。實(shí)現(xiàn)方式如式(9)、式(10)所示。

        其中,WQi、WKi和WVi分別為Q、K和V的參數(shù),WO為可學(xué)習(xí)的權(quán)重。對(duì)于序列G,本文利用自注意力機(jī)制獲取帶有位置信息的詞級(jí)別特征向量C=SAM(G)。

        3.罪犯教育方法人性化。要充分考慮人性發(fā)展的要求,采用引導(dǎo),激勵(lì)等方式,盡最大可能去調(diào)動(dòng)和發(fā)揮罪犯的積極性、主動(dòng)性與創(chuàng)造性。要給予罪犯一定的自由宣泄手段。要認(rèn)真考慮給予罪犯?jìng)€(gè)體適當(dāng)?shù)淖杂煽臻g和時(shí)間。同時(shí),對(duì)一些過去明令禁止的,但又有助于罪犯心理自我調(diào)整的行為要認(rèn)真加以研究,給予罪犯自由的情感宣泄手段。如,建立供給罪犯釋放情緒的傾訴室、拳擊室、靜思室等等。

        中心機(jī)房是計(jì)算機(jī)網(wǎng)絡(luò)信息系統(tǒng)的核心組織結(jié)構(gòu),完善中心機(jī)房安全管理策略可以從技術(shù)與角度兩個(gè)入手,從而提升中心機(jī)房安全管理質(zhì)量。

        2.3 字詞特征融合

        由于字級(jí)別特征無法解決一詞多義的問題,但是分詞的好壞又直接影響到基于詞級(jí)別特征方法的識(shí)別實(shí)體的準(zhǔn)確性。因此,我們將字-詞特征融合,如式(11)所示。

        2.4 Highway網(wǎng)絡(luò)

        Highway網(wǎng)絡(luò)主要利用門控機(jī)制,將一部分?jǐn)?shù)據(jù)過濾,控制信息的流動(dòng),過濾掉重復(fù)語義信息的同時(shí),盡可能地將有用信息保留下來。最終的輸出如式(12)、式(13)所示。

        清查表中每項(xiàng)數(shù)據(jù)中都需要填寫聯(lián)系電話,按規(guī)定固定電話在區(qū)號(hào)和號(hào)碼之間使用連字符“-”,手機(jī)號(hào)碼位11位數(shù)字,數(shù)據(jù)量很大,常出現(xiàn)漏區(qū)號(hào)、位數(shù)錯(cuò)、非數(shù)字的情況,在這些列的后面增加一列并填上公式“=LEN(SUBSTITUTE(M2,“-”,“”))”,如圖 1,同時(shí)為此整列設(shè)置條件格式,可以明顯判斷左側(cè)的電話號(hào)碼是否有輸入錯(cuò)誤。

        莫西沙星組臨床總有效率顯著高于左氧氟沙星組,不良反應(yīng)發(fā)生率顯著低于左氧氟沙星組,差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)。莫西沙星與左氧氟沙星相比,細(xì)菌不易產(chǎn)生耐藥性,患者對(duì)莫西沙星的耐受性也較好,出現(xiàn)的不良反應(yīng)和副作用少。

        2.5 CRF層

        由于CRF層可以加入一些約束來保證最終預(yù)測(cè)結(jié)果是有效的。因此本文利用CRF獲得全局最優(yōu)序列。對(duì)于一個(gè)句子來說,其概率表示如式(14)所示。

        針對(duì)上述問題,本文提出了一種基于多級(jí)別特征感知網(wǎng)絡(luò)(Multi-level Feature Perception Network,MFPN)的命名實(shí)體識(shí)別方法[14]。首先提出一種雙通道門控卷積神經(jīng)網(wǎng)絡(luò),用于感知字級(jí)別特征,以表示字形信息。其次,在詞級(jí)別特征中嵌入對(duì)應(yīng)的位置信息,以表示詞語的語義信息。本文利用自注意力機(jī)制感知帶有位置信息的詞級(jí)別特征。進(jìn)一步地將上述得到的字級(jí)別和詞級(jí)別信息融合,以此全面表示句子的語義信息。在此基礎(chǔ)上,本文設(shè)計(jì)一種帶有門控機(jī)制的網(wǎng)絡(luò)來過濾重疊的冗余信息。最后結(jié)合CRF學(xué)習(xí)到句子中的約束條件,實(shí)現(xiàn)中文的命名實(shí)體識(shí)別。

        其中,λ表示L2正則化的超參數(shù),θ表示可訓(xùn)練參數(shù)。

        最后我們通過維特比算法[23]來求解最優(yōu)序列。目標(biāo)損失函數(shù)如式(16)所示。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集介紹、評(píng)價(jià)指標(biāo)及參數(shù)設(shè)置

        本文在如下四個(gè)數(shù)據(jù)集上驗(yàn)證多級(jí)別特征感知網(wǎng)絡(luò)的有效性,分別是Resume、MSRA、Literature和1998年的《人民日?qǐng)?bào)》(以下簡稱《人民日?qǐng)?bào)》)。表1是對(duì)這四個(gè)數(shù)據(jù)集的訓(xùn)練集和測(cè)試集情況的一個(gè)統(tǒng)計(jì)詳情。其中Resume主要包括上市公司一些管理人員的國籍、學(xué)歷、工作地點(diǎn)、姓名、職業(yè)及職稱等簡歷實(shí)體信息。MSRA主要是簡體中文的新聞,其中主要包括任命、地名和機(jī)構(gòu)名等三種實(shí)體信息。Literature主要包括任務(wù)、地點(diǎn)、時(shí)間、組織和摘要等文學(xué)實(shí)體?!度嗣袢?qǐng)?bào)》主要是由中文文章組成的。其次,本文利用F1值來評(píng)價(jià)命名實(shí)體識(shí)別的有效性。

        表1 數(shù)據(jù)集介紹

        本文使用Word2vec對(duì)MSRA、1998年《人民日?qǐng)?bào)》、Resume和Literature數(shù)據(jù)集進(jìn)行詞向量訓(xùn)練。通十折交叉驗(yàn)證法,獲取多級(jí)別特征感知網(wǎng)絡(luò)的最優(yōu)參數(shù)。具體參數(shù)情況,其中學(xué)習(xí)率為0.001,隱藏層的節(jié)點(diǎn)數(shù)為300,向量的維度為300,Dropout設(shè)置為0.5。

        3.2 實(shí)驗(yàn)結(jié)果和分析

        本文在3.1節(jié)介紹的四個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以此對(duì)所提的方法進(jìn)行驗(yàn)證。同時(shí)本文做了消融實(shí)驗(yàn)。具體的,將多級(jí)別特征感知網(wǎng)絡(luò)拆分成以下三個(gè)部分,僅基于字級(jí)別特征(CFPN)、僅基于詞級(jí)別特征(WFPN),以及本文所提出的基于多級(jí)別特征感知網(wǎng)絡(luò)(MFPN)的中文命名實(shí)體識(shí)別方法。圖3~圖6分別展示了上述三種方法(MFPN、CFPN 和WFPN)在MSRA、《人民日?qǐng)?bào)》、Resume和Literature數(shù)據(jù)集上的訓(xùn)練過程。

        圖3 MSRA 數(shù)據(jù)集訓(xùn)練過程

        圖4 1998年《人民日?qǐng)?bào)》數(shù)據(jù)集訓(xùn)練過程

        圖5 Resume數(shù)據(jù)集訓(xùn)練過程

        圖6 Literature數(shù)據(jù)集訓(xùn)練過程

        從訓(xùn)練過程圖中可以發(fā)現(xiàn),在訓(xùn)練之初的前若干次迭代中,迭代次數(shù)和F1值呈現(xiàn)出正相關(guān)的關(guān)系。之后F1的上升趨勢(shì)逐漸放緩,并且伴隨著小幅度波動(dòng)。但是在四個(gè)數(shù)據(jù)集上的F1值最終都趨于穩(wěn)定。

        此外在上述的四個(gè)數(shù)據(jù)集上,本文所提的多級(jí)別特征感知網(wǎng)絡(luò)均優(yōu)于單一模型CFPN 和WFPN的識(shí)別效果。這主要是因?yàn)楸疚乃岬亩嗉?jí)別特征感知網(wǎng)絡(luò)既考慮了字級(jí)別的字形信息,又考慮了詞級(jí)別的語義信息,以此全面表示句子的語義信息,因此擁有最高的F1值。

        為了展示上述消融實(shí)驗(yàn)中的三種方法在所選取的數(shù)據(jù)集的效果,分別在MSRA 和《人民日?qǐng)?bào)》數(shù)據(jù)集上展示了三種方法的最高F1值。同時(shí),為了展示本文所提出的方法在時(shí)間開銷上的成本也相對(duì)較低,在上述兩個(gè)數(shù)據(jù)集上做了時(shí)間開銷實(shí)驗(yàn)。表2和表3展示了在MSRA 和《人民日?qǐng)?bào)》的最高F1值與時(shí)間開銷。從表中可以發(fā)現(xiàn),本文所提出的MFPN 擁有最高的F1值。這主要是由于本文所提出的方法同時(shí)考慮了字和詞級(jí)別的優(yōu)點(diǎn),同時(shí)又過濾掉了二者的冗余信息對(duì)網(wǎng)絡(luò)的影響。

        表2 MSRA數(shù)據(jù)集上3種方法F1 值

        表3 《人民日?qǐng)?bào)》數(shù)據(jù)集上3種方法F1 值

        另外,在《人民日?qǐng)?bào)》數(shù)據(jù)集上的結(jié)果普遍優(yōu)于MSRA,主要是因?yàn)椤度嗣袢請(qǐng)?bào)》沒有采用自動(dòng)分詞工具去分詞,每個(gè)詞都是手工標(biāo)注,分詞很準(zhǔn)確。另一方面,我們還發(fā)現(xiàn)在時(shí)間成本上,本文提出的方法優(yōu)于CFPN,僅比WPFN 效果差一點(diǎn),主要是因?yàn)楸疚牟捎米衷~結(jié)合的方法,故在時(shí)間成本上會(huì)稍微差點(diǎn)。

        3.3 與主流方法的比較

        表5至表7分別展示了本文所提的MFPN 和當(dāng)前主流的中文命名實(shí)體識(shí)別方法的最高F1,以體現(xiàn)本文所提出方法的優(yōu)越性。在MSRA 數(shù)據(jù)集上,對(duì)MFPN、Ensemble-SVM[24]、BiLSTM+CRF+adversarial+self-attention[25]、MIFM[9]、DEM-attention[26]和Bi-LSTMpre2+ext[27]等五種近年來主流的中文命名實(shí)體識(shí)別方法進(jìn)行比較。在《人民日?qǐng)?bào)》數(shù)據(jù)集上對(duì)MFPN、CRF、BLSTM[10]、Emsemble-SVM 和DCW[28]進(jìn)行比較。在Resume數(shù)據(jù)集上,對(duì)MFPN、lattice LSTM[29]、CAN-NER[19]、IDCHSAN[30]和GCRA[8]進(jìn)行比較。在Literature 數(shù)據(jù)集上,對(duì)MFPN、GCRA 和DEM-attention 進(jìn)行比較。

        坐在寶馬車副駕駛位置上的歐陽鋒收到妻子發(fā)來的一條短信:老公,別喝太多,記得早點(diǎn)回來。歐陽鋒盯著手機(jī)屏幕傻傻地笑了笑,回復(fù)了兩個(gè)字:放心!

        如表4所示,相較于本文所選的當(dāng)前主流的中文命名實(shí)體識(shí)別方法,本文提出的MFPN 具有最高的F1。如表5所示,在《人民日?qǐng)?bào)》數(shù)據(jù)集上,本文提出的MFPN 的平均F1值優(yōu)于其他四種方法,達(dá)到了92.93%。如表6所示,本文所提出的MFPN具有最高的F1,這是由于Resume數(shù)據(jù)集中不僅包括人名、地名和機(jī)構(gòu)名等常規(guī)實(shí)體,同時(shí)也包括了學(xué)歷、國籍等其他實(shí)體,MFPN 在獲取語義信息時(shí),不僅考慮到了字和詞的特征,同時(shí)又兼容了二者之間的聯(lián)系,因此更能全面表示句子的語義信息,從而提升其命名實(shí)體識(shí)別的準(zhǔn)確性。如表7所示,MFPN在Literature數(shù)據(jù)集上取得最好的表現(xiàn),其F1值為74.54%。同時(shí)可以發(fā)現(xiàn),幾種方法在該數(shù)據(jù)集上的效果均不如前三個(gè)數(shù)據(jù)集的效果好,這是由于Literature數(shù)據(jù)集由包含多種復(fù)雜修辭手法的中國文學(xué)作品組成,導(dǎo)致其實(shí)體難以識(shí)別。盡管如此,本文提出的MFPN 相對(duì)于其他兩種方法仍取得較高的F1值。

        表4 MSRA數(shù)據(jù)集上最高F1

        表5 《人民日?qǐng)?bào)》數(shù)據(jù)集上最高F1

        表6 Resume數(shù)據(jù)集上最高F1

        表7 Literature數(shù)據(jù)集最高F1

        4 總結(jié)與展望

        本文提出一種基于多級(jí)別特征感知網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別方法,解決了單一字級(jí)別或詞級(jí)別網(wǎng)絡(luò)難以獲得取足夠特征信息的問題。首先提出一種雙通道門控卷積神經(jīng)網(wǎng)絡(luò),通過感知字級(jí)別特征,在減少了未登錄詞數(shù)量的同時(shí),也表示了字形信息。同時(shí),為了獲取詞語的詞義信息,本文在詞級(jí)別的特征中嵌入對(duì)應(yīng)位置信息。為了賦予實(shí)體更大的權(quán)重,本文利用自注意力機(jī)制感知帶有位置信息的詞級(jí)別特征。進(jìn)一步,將上述得到的字級(jí)別和詞級(jí)別兩種信息融合,表示句子的語義信息。由于采用字詞結(jié)合的方法,容易產(chǎn)生冗余信息。因此本文設(shè)計(jì)了一種門控機(jī)制網(wǎng)絡(luò),過濾冗余信息,從而減少冗余信息對(duì)命名實(shí)體識(shí)別的影響。再結(jié)合條件隨機(jī)場(chǎng)學(xué)習(xí)到句子中的約束條件從而識(shí)別子中的實(shí)體。最后在MSRA、《人民日?qǐng)?bào)》、Literature和Resume數(shù)據(jù)集上開展消融實(shí)驗(yàn)。驗(yàn)證了本文所提出的多級(jí)別特征感知網(wǎng)絡(luò)比僅基于字或僅基于詞的部分效果好。同時(shí)與目前的主流方法做對(duì)比,總體上優(yōu)于近幾年的主流命名實(shí)體識(shí)別方法。下一步工作中,我們將嘗試將本文方法運(yùn)用到其他場(chǎng)景的中文數(shù)據(jù)集中,同時(shí)將探索在細(xì)粒度中文命名實(shí)體中的識(shí)別方法,從而為海量數(shù)據(jù)的數(shù)據(jù)挖掘提供支撐。

        猜你喜歡
        特征信息方法
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會(huì)信息
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        久久国产加勒比精品无码| 五月激情狠狠开心五月| 亚洲中文字幕无码一区| 日本视频中文字幕一区在线| 日本一区二区三区专区| 加勒比日韩视频在线观看| 亚洲av日韩av永久无码下载| 欧美mv日韩mv国产网站| 色噜噜狠狠色综合欧洲| 日本精品人妻一区二区| 三个男吃我奶头一边一个视频| 少妇装睡让我滑了进去| 国产成人精品曰本亚洲| 精品黄色一区二区三区| 99re66在线观看精品免费 | 在线精品国产一区二区三区| 国产爆乳无码一区二区在线| 亚洲国产人成自精在线尤物| 极品少妇人妻一区二区三区 | 中文 在线 日韩 亚洲 欧美| 日韩毛片基地一区二区三区| av蜜桃视频在线观看| 亚洲av网站在线观看一页| 国产成人精品优优av| 大陆极品少妇内射aaaaa| 国产午夜激情视频自拍| 按摩女内射少妇一二三区| 亚洲国产精品久久无人区| 国产男女无遮挡猛进猛出| 精品国产AⅤ一区二区三区4区| 青青草在线成人免费视频| 国精产品一区一区三区| 狠狠色综合7777久夜色撩人| 在线亚洲人成电影网站色www| 精品无人区无码乱码大片国产| 美女被黑人巨大入侵的的视频| 欧美亚洲日本国产综合在线美利坚| 国产亚洲日韩一区二区三区| 亚洲精品国产主播一区二区| 国产亚洲超级97免费视频| 国产一女三男3p免费视频|