亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合單詞-字符引導注意力網絡的中文旅游文本命名實體識別

        2021-02-05 03:02:48西爾艾力色提艾山吾買爾王路路吐爾根依布拉音馬喆康買合木提買買提
        計算機工程 2021年2期
        關鍵詞:字符命名注意力

        西爾艾力·色提,艾山·吾買爾,王路路,吐爾根·依布拉音,馬喆康,買合木提·買買提

        (1.新疆大學信息科學與工程學院,烏魯木齊 830046;2.新疆大學新疆多語種信息技術重點實驗室,烏魯木齊 830046;3.新疆大學軟件學院,烏魯木齊 830046)

        0 概述

        命名實體識別(Named Entity Recognition,NER)作為自然語言處理的基本任務之一,受到國內外研究人員的廣泛關注,并且隨著深度學習技術的不斷發(fā)展,其取得了重要的研究成果。例如,COLLOBERT[1]、LAMPLE[2]等人將命名實體識別轉換為序列標注問題,并利用深度學習技術捕獲命名實體的詞和字符信息,實現文本中命名實體的精準識別。通過將深度學習技術與字符信息相結合對文本序列標注數據進行建模,能夠有效提高命名實體識別性能,然而現有中文命名實體識別方法[3-4]多數使用單詞向量特征對命名實體進行表示,忽略了漢字字符特征的表征能力。針對該問題,國內外研究人員也進行了一系列關于字符特征表示的研究。例如,LU[5]、DONG[6]等人利用字符信息和單詞信息提高了命名實體的識別精度,但其沒有考慮單詞與字符以及字符與字符之間的位置關系。本文提出一種單詞-字符引導注意力網絡(Word-Character Guided Attention Network,WCGAN)的旅游文本命名實體識別方法。將不同層次的引導注意力網絡進行集成學習以獲取命名實體的單詞和字符信息,同時捕獲單詞與字符、字符與字符之間的位置信息。

        1 相關工作

        傳統(tǒng)NER方法通常采用機器學習技術或者人工標注特征[7]進行命名實體識別。文獻[8]提出一種基于SVM語料庫檢索模式和重復MWEs的NER識別方法,實驗結果表明該方法優(yōu)于基于規(guī)則的命名實體識別方法。文獻[9]建立了條件隨機場(Conditional Random Field,CRF)命名實體識別系統(tǒng),在捷克語、西班牙語等語料庫上的測試結果表明其具有較好的識別效果。然而,人工參數設計特征對上述方法的性能有較大影響,因此識別穩(wěn)定性相對較差。

        隨著深度學習技術的快速發(fā)展,其在特征學習中表現出強大的自學習能力并在命名實體識別中得到廣泛應用[10-11]。文獻[12]使用字符卷積神經網絡(CharCNN)捕獲了文本中的字符特征,并用字符特征表示命名實體,實現命名實體的準確識別。文獻[13]使用字符序列標注方法對中文文本進行標注,提高了中文命名實體的識別精度。文獻[14]將Max margin神經網絡用于中文社交網絡文本并識別出其中的命名實體。文獻[15]提出一種半監(jiān)督的命名實體識別模型,該模型在中文社交網絡進行跨領域識別并取得較好的識別效果。文獻[16]將雙向LSTM與條件隨機場相結合對文本序列進行標注,實現命名實體的準確識別。文獻[17]提出一種任務感知神經語言模型,對文本序列中的命名實體進行權重賦值,提高了命名實體的識別精度。文獻[18]提出一種用于文本序列標記的半監(jiān)督多任務學習方法,實現文本中命名實體的精確識別。上述方法雖然提高了命名實體的識別精度,但多數是基于單一特征對文本中的命名實體進行表示,忽略了大量的細節(jié)信息,而本文提出的WCGAN方法,從單詞和字符兩個方面對文本序列進行建模實現信息互補,同時強調單詞與字符之間的關聯(lián)性,進一步使用字符信息突出單詞的關鍵性。

        2 基于WCGAN的命名實體識別

        漢字字符是單詞的基本組成單位,其不僅具有獨立的語義信息,而且可以通過漢字字符推斷出單詞的詞義,即單詞和漢字信息對中文命名實體的識別具有重要作用。如圖1所示,本文將多個漢字字符按照一定的位置信息組合形成單詞和命名實體。“山?!庇伞吧健焙汀昂!眱蓚€漢字字符組成,且具有一定的位置關系,而“山?!焙汀伴L城”兩個單詞經過前后位置的組合形成關于地址的命名實體。因此,字符及字符的位置信息有助于進一步突出單詞信息,也可以提高字符與單詞之間的關聯(lián)性。在圖1中,Char-Tag和Word-Tag表示文本中命名實體的標簽,B表示命名實體的初始單元,M表示命名實體的中間單元,E表示命名實體的結尾單元,O表示非命名實體,ComName表示旅游地址。

        圖1 單詞和字符的標簽信息Fig.1 Label informations of words and characters

        2.1 單詞引導注意力網絡模型

        單詞引導注意力網絡(Word Guided Attention Network,WGAN)模型先借助詞嵌入技術[19]將文本中的每個單詞(命名實體和非實體)映射到一個密集的低維向量空間中,再通過引導注意力的雙向長短時記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網絡捕獲文本中命名實體的單詞信息。Bi-LSTM網絡[6,20]能獲取文本的上下文信息以及文本中命名實體的單詞信息,使得單詞與文本之間建立失聯(lián)關系。WGAN模型的具體步驟如下:

        1)在Bi-LSTM網絡中,T時刻隱藏層HT的計算公式如式(1)所示:

        其中,oT表示T時刻輸出門,CT表示T時刻記憶單元的激活狀態(tài)。oT和CT的計算公式如式(2)所示:

        其中,Wo表示輸出門的權重矩陣,bo表示輸出門的偏置值,fT表示T時刻忘記門的輸出,iT表示T時刻記憶門的值表示T時刻臨時記憶單元的狀態(tài)。相關計算公式如式(3)所示:

        其中,Aw表示隨機初始化單詞的上下文向量。對單詞的注意力系數進行加權求和,得到命名實體中詞的注意力表示形式uw,如式(6)所示:

        4)根據WGAN捕獲文本中顯著的命名實體單詞,最終得到命名實體的單詞表示信息。

        2.2 字符引導注意力網絡模型

        在中文文本中字符是單詞的基本組成單位,當文本的語義相差較小時,字符信息顯得尤為重要,且字符之間的排列也會影響命名實體的準確提取。本文設計一種基于字符引導注意力網絡(Character Guided Attention Network,CGAN)的字符信息提取模型。CGAN模型的具體步驟如下:

        1)利用CNN[23]和雙向獨立循環(huán)神經網絡(Bi-IndRNN)[24]提取中文文本中命名實體的字符信息。

        2)采用位置注意力網絡(Pos-Attention)進一步捕獲字符信息,同時獲取命名實體中字符之間的位置信息,在字符與字符之間建立位置關聯(lián),從而提高命名實體的識別效果。

        3)替換CNN中卷積層預定義的1-of-m并對其進行編碼[23],將預定義輸入的字符長度設置為225,對超過預定義長度的字符進行裁剪,空缺的字符用0進行填充,計算公式如式(7)所示:

        4)基于池化層進一步捕獲命名實體的字符信息。池化層的輸出如式(8)所示:

        本文利用CNN提取命名實體中字符的空間信息,為進一步獲取命名實體中字符的時序信息,將池化層輸出的特征向量輸入雙向獨立循環(huán)神經網絡。雙向獨立循環(huán)神經網絡層T時刻的輸出如式(9)所示:

        其中,σ表示激活函數,U表示輸入層到隱藏層的權重矩陣。

        將雙向獨立循環(huán)神經網絡的輸出作為位置注意力機制的輸入[25],進一步捕獲字符在上下文中的位置信息并分配相應的權重值,以提高字符信息的表征能力和命名實體的識別精度,具體計算公式如式(10)所示:

        其中,uc表示命名實體中字符的表示形式,Ws2、Ws1表示權重矩陣。

        通過字符引導注意力網絡模型,本文捕獲了文本中命名實體的字符信息,同時獲取了字符之間的位置信息,并在字符之間建立了關聯(lián)關系。在使用CNN提取字符的空間信息時,本文設計的CharCNN結構與文獻[26]的CharCNN結構有所差異,將原結構的最大池化層和全連接層變換為全局平均池化層和雙向獨立循環(huán)神經網絡層。

        2.3 WCGAN方法

        本文提出的WCGAN方法主要由WGAN和CGAN模型聯(lián)合組成,其能同時捕獲文本命名實體的單詞和字符信息,并使兩者之間形成信息互補,同時使用字符信息增強命名實體的顯著性,進一步強調單詞中字符之間的位置信息。本文首先使用WGAN方法學習文本的單詞特征,獲得文本中命名實體的局部信息;其次采用注意力機制引導Bi-LSTM對嵌入網絡文本進行編碼,并對關鍵信息分配更高的權重比,以降低冗余信息且使其更多關注顯著性單詞特征;然后通過CGAN模型捕獲文本中命名實體的字符信息,使其更好地挖掘出不同命名實體之間的細微差別,進一步捕獲命名實體中字符之間的位置信息,同時強調了字符與單詞之間的關聯(lián)性,并與WGAN模型實現信息互補,以增強命名實體之間的辨識度;最后利用CRF對文本中的命名實體進行識別。WCGAN網絡結構如圖2所示。

        圖2 WCGAN網絡結構Fig.2 Network structure of WCGAN

        WCGAN方法的具體步驟如下:

        1)通過WGAN得到命名實體的詞表示形式uw,利用CGAN得到命名實體中的字符表示形式uc。

        2)將詞和字符信息進行融合,獲得字符增強型的命名實體特征u,計算公式如式(11)所示:

        3)利用CRF獲取命名實體的標簽預測值[27],計算公式如式(12)所示:

        可見,本文提出的WCGAN方法利用字符信息能有效增強命名實體的辨識度。

        3 實驗結果與分析

        為驗證WCGAN方法的有效性,在兩組中文實驗數據集上進行測試驗證并與WGAN和CGAN模型進行比較,同時使用精確率、召回率和F值作為評價指標確保結果的正確性和一致性。

        3.1 實驗數據

        本文使用的數據集為:1)ResumeNER公開數據集[4],該數據集包括國家、教育、人名、組織和職業(yè)5類命名實體,其中,命名實體數量為16 565,訓練集數據量為9 380,驗證集數據量為2 185,測試集數據量為5 000;2)TourismNER自定義數據集,該數據集是筆者從各旅游網站收集的旅游景點、人物、地址3類命名實體,其中,命名實體數量為13 840,訓練集數據量為5 536,驗證集數據量為4 152,測試集數據量為4 152。

        本文對WCGAN方法中相關初始化參數進行設置。WGAN詞嵌入維度為300維。CGAN采用1-of-m編碼策略,擴展單元數量為512,當其少于512個漢字字符時使用0進行填充,當其多于512時只需映射512個字符,該參數設置與CharCNN[26]類似。優(yōu)化函數為Adam,迭代次數為200,Dropout為0.25,學習率為0.02,當迭代20次后將學習率設置為0.001。

        3.2 實驗方法

        為進一步驗證WCGAN方法的優(yōu)越性,將其與目前主流的中文命名實體識別方法進行比較:

        1)CRF[28]:該方法先對文本中的命名實體進行標注,再使用CRF對各類命名實體的標簽進行預測。

        2)Bi-LSTM+CRF[20]:該方法將獲得的外部單詞嵌入CRF擴展的Bi-LSTM中進行編碼,提高了模型運行效率,并增加了命名實體識別的準確度。相關超參數的設置如下:學習率為0.005,優(yōu)化函數為SGD,丟碼率為0.5,隱藏層維度為100,外部詞嵌入維度為100。

        3)Bi-LSTM+CNN+CRF[12]:該方法利用卷積神經網絡提取命名實體的字符信息,并將不同字符之間的信息進行組合,輸入Bi-LSTM中對每個單詞的上下文進行建模,然后使用CRF模型進行解碼,其在無需特征工程的情況下提高了命名實體的識別效果。相關超參數的設置如下:詞嵌入維度為100,優(yōu)化函數為SGD,學習率為0.015,批處理大小為10。

        4)Char-Dense[27]:該方法利用密集連接網絡捕獲命名實體的字符信息,能有效減少訓練時間,并提高字符位置信息利用率及模型魯棒性和有效性。該方法使用Adam作為優(yōu)化函數。

        5)CAN-NER[4]:該方法使用卷積神經網絡捕獲文本中命名實體的字符信息,并利用自注意力機制和GUR模型來刻畫相鄰字符之間的關聯(lián)性和句子的上下文語義信息。

        6)LSTM+CRF[6]:該方法利用不同通道來捕獲中文社交網絡中的命名實體,采用隨機化嵌入詞向量的方式將命名實體嵌入到網絡層中,并將不同的通道參數進行共享,使得該方法能更好地捕獲文本中命名實體的上下文信息。

        3.3 實驗結果

        3.3.1 WGAN中不同識別模型對識別效果的影響

        為驗證WCGAN方法中WGAN和CGAN模型對命名實體識別的影響,以ResumeNER和TourismNER數據集為基準數據集進行實驗測試,結果如表1所示。

        表1 不同識別模型的實驗結果對比Table 1 Comparison of experimental results of different recognition models %

        由表1可以看出:1)WCGAN方法的F值在兩種數據集上均表現最好,分別為93.491%和92.860%,相比WGAN模型分別提高了2.119和1.939個百分點,其主要原因為WCGAN方法使用字符信息增加了關鍵單詞的關注度,并進一步強調單詞中字符與字符之間的關聯(lián)性和位置信息,從而實現了信息互補,相比CGAN模型分別提高了1.238和1.380個百分點,其主要原因為CGAN模型丟失了大量的單詞信息;2)CGAN模型相比WGAN模型F值更高,其主要原因為WGAN模型在捕獲單詞信息時,忽略了命名實體單詞中字符與字符之間的關聯(lián)性以及命名實體之間的細微差別,從而導致WGAN模型的識別效果劣于CGAN模型。

        3.3.2 WGAN中不同命名實體對識別效果的影響

        為驗證WCGAN方法的準確性,對ResumeNER和TourismNER數據集中不同命名實體的識別效果進行實驗測試。不同命名實體的混淆矩陣如圖3所示。從圖3中可以較為直觀地看出不同命名實體在ResumeNER和TourismNER數據集中的分類效果,其中O在圖3(a)和圖3(b)中的F值均為最高,其主要原因為中文文本中非實體占比較大。

        圖3 不同命名實體的分類結果Fig.3 Classification results of different named entities

        3.3.3 WGAN在小樣本數據集上的識別效果

        為驗證WCGAN方法對小樣本數據集中命名實體的識別效果,以ResumeNER基準數據集為基礎,分別使用1%、10%、20%、30%和40%的數據作為訓練數據并迭代20次,剩余數據中測試和驗證數據的數量均等,實驗結果如圖4所示。

        圖4 在小樣本數據集上的識別結果Fig.4 Recognition results on small sample datasets

        由圖4可以看出:1)隨著訓練數據集的增加,F值逐漸升高,WCGAN方法的F值相比CGAN和WGAN模型更高,其主要原因為WCGAN方法對字符和單詞建立關聯(lián)性,且使用不同模型學習相應的特征信息形成信息互補;2)隨著數據集規(guī)模的增加,3種方法的損失值也有所下降,且WCGAN方法的損失值始終處于最低狀態(tài),這表明在相同超參數的情況下,WCGAN方法能更好地學習命名實體的特征。

        3.3.4 命名實體識別方法性能對比

        為驗證WCGAN方法的命名實體識別性能優(yōu)勢,將其與目前主流的中文命名實體識別方法進行對比,實驗結果如表2所示。由表2可以看出:1)與CRF方法相比,LSTM+CRF、Bi-LSTM+CRF和Bi-LSTM+CNN+CRF方法具有更好的識別效果,其主要原因為這些方法使用組合模型更好地捕獲了文本中命名實體的深層抽象信息,并在一定程度上解決了淺層機器學習方法使用人工參與設置特征帶來的誤差問題;2)與Char-Dense方法相比,CAN-NER方法在兩個基準數據集上的F值分別提高了2.640和2.953個百分點,結果表明注意力機制能更好地捕獲文本命名實體的序列信息,并對文中的關鍵信息進行突出,驗證了注意力機制在命名實體識別方面的有效性;3)WCGAN方法在兩種基準數據集均取得了較好的識別效果,其主要原因為WCGAN方法能捕獲命名實體的單詞信息、字符信息以及字符與字符之間的位置信息,并且強調了字符與單詞之間的關聯(lián)性。

        表2 7種命名實體識別方法的性能對比Table 2 Performance comparison of seven NER methods %

        3.3.5 可視化結果

        為驗證WCGAN方法能更好地捕獲命名實體的字符信息以及增強單詞的表征能力,本文以TourismNER基準數據集為實驗數據,同時展示了多種命名實體識別方法的可視化結果,顏色越亮表示字符越重要。由圖5可以看出,WCGAN方法能有效捕獲命名實體的關鍵字符信息,在旅游命名實體“山海長城馳名中外”中“山”、“?!薄?、長”和“城”4個字符就被突出顯示。由此可見,WCGAN方法在捕獲細節(jié)特征方面效果更好。

        圖5 字符信息的可視化結果Fig.5 Visual results of character information

        4 結束語

        本文提出基于單詞-字符引導注意力網絡的中文旅游命名實體識別方法。通過單詞引導注意力網絡和字符引導注意力網絡模型捕獲命名實體的單詞特征和字符信息,同時在單詞和字符之間建立關聯(lián)關系,并利用字符信息增強單詞特征的表征能力,使得字符信息和單詞特征間形成信息互補。在ResumeNER和TourismNER基準數據集上的實驗結果表明,WCGAN方法能有效提高中文命名實體的識別效果。下一步將在無外部嵌入特征的情況下,研究基于圖卷積神經網絡的中文旅游文本命名實體識別方法。

        猜你喜歡
        字符命名注意力
        尋找更強的字符映射管理器
        讓注意力“飛”回來
        命名——助力有機化學的學習
        字符代表幾
        一種USB接口字符液晶控制器設計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        “揚眼”APP:讓注意力“變現”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        好看的日韩精品视频在线| 久久精品国产99久久丝袜| 亚洲国产欧美久久香综合| 一区二区三区四区国产亚洲| 香蕉视频在线观看亚洲| 亚洲av在线观看播放| av色综合久久天堂av色综合在| 欧美v亚洲v日韩v最新在线| 91尤物视频在线观看| 国产一级做a爱视频在线| 不卡一区二区三区国产| 鲁丝片一区二区三区免费| 亚洲中久无码永久在线观看软件 | 国产精品一区av在线| 日日碰狠狠添天天爽五月婷| 无码欧亚熟妇人妻AV在线外遇| 国产一级免费黄片无码AV| 青青草视频在线播放81| 天堂av在线美女免费| 天堂а√在线中文在线新版| 香蕉国产人午夜视频在线观看 | 在线观看国产内射视频| 一本色道加勒比精品一区二区 | 亚洲av无码国产精品色午夜洪| 亚洲中文字幕无码二区在线| 日本视频一区二区这里只有精品| 丰满少妇被猛烈进入高清播放| 丁香五香天堂网| 午夜无码亚| 97精品人妻一区二区三区在线| 黑人巨大精品欧美一区二区 | 边做边流奶水的人妻| 巨臀中文字幕一区二区| 亚洲女同性恋第二区av| 色一情一乱一伦麻豆| 国内精品人妻无码久久久影院导航 | 国产老妇伦国产熟女老妇高清| 强迫人妻hd中文字幕| 精品国产免费一区二区三区| AV无码最在线播放| 国产三级av在线播放|