亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        烏茲別克語命名實(shí)體數(shù)據(jù)集構(gòu)建研究

        2023-12-06 04:01:18艾孜海爾江玉素甫姬東鴻艾孜爾古麗
        中文信息學(xué)報 2023年9期
        關(guān)鍵詞:命名實(shí)體標(biāo)簽

        艾孜海爾江·玉素甫,姬東鴻,李 霏,滕 沖,艾孜爾古麗

        (1. 武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院 空天信息安全與可信計算教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢430072;2. 新疆師范大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)

        0 引言

        命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理中的一項重要任務(wù),其發(fā)展經(jīng)歷了從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機(jī)器學(xué)習(xí)方法,再到目前采用基于深度學(xué)習(xí)的方法,如注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)等。盡管現(xiàn)在已經(jīng)出現(xiàn)了許多命名實(shí)體識別方法,但由于命名實(shí)體本身的隨意性、復(fù)雜性和多變性等特點(diǎn),仍存在許多問題需要解決。其中,缺乏高質(zhì)量數(shù)據(jù)集是當(dāng)前實(shí)體命名識別技術(shù)發(fā)展的一個主要障礙。高質(zhì)量標(biāo)注的數(shù)據(jù)集對于模型的訓(xùn)練和評估具有至關(guān)重要的作用。目前,監(jiān)督學(xué)習(xí)仍然是最有效的模型訓(xùn)練方法,從Word2Vec到BERT等基于深度學(xué)習(xí)的命名實(shí)體識別方法的性能提升,得益于大規(guī)模語料庫的預(yù)訓(xùn)練模型的發(fā)展。然而,數(shù)據(jù)集的缺乏將直接導(dǎo)致模型的訓(xùn)練和部署效果受到限制。數(shù)據(jù)標(biāo)注仍然是一項耗時昂貴的任務(wù),特別是在某些特定領(lǐng)域,需要領(lǐng)域?qū)<疫M(jìn)行數(shù)據(jù)標(biāo)注,這是一個巨大的挑戰(zhàn)。因此,如何快速、準(zhǔn)確、經(jīng)濟(jì)地構(gòu)建高質(zhì)量的數(shù)據(jù)集,是當(dāng)前命名實(shí)體識別技術(shù)需要解決的一個重要問題。

        本文構(gòu)建了一個規(guī)模較大、標(biāo)注質(zhì)量較高的烏語命名實(shí)體數(shù)據(jù)集,數(shù)據(jù)集來源于新聞?wù)Z料。文章詳細(xì)介紹了數(shù)據(jù)集的準(zhǔn)備、標(biāo)注體系、構(gòu)建方法及過程。本文采用了雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)-條件隨機(jī)場(CRF)算法、迭代擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Networks, IDCNN)-CRF算法和雙向門控循環(huán)單元網(wǎng)絡(luò)(Bidirectional Gating Recurrent Unit,BiGRU) -CRF算法對該數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)評估和分析。該數(shù)據(jù)集可為后續(xù)相關(guān)研究提供數(shù)據(jù)基礎(chǔ)和評測依據(jù),為烏語命名實(shí)體識別領(lǐng)域的研究提供了有力的數(shù)據(jù)支撐和有效的評測基礎(chǔ)。

        1 相關(guān)工作

        烏語自然語言處理在國內(nèi)外都處于初始階段。國外學(xué)者Baisa[1]等構(gòu)建了包括烏語在內(nèi)的六種語言的網(wǎng)絡(luò)語料庫。King[2]等在使用弱監(jiān)督方法標(biāo)記混合語言文檔中單詞的語言時構(gòu)建文本語料庫。Li[3]等構(gòu)建了烏茲別克語-英語和土耳其語-英語語素對齊語料庫。Tsai[4]等通過對維吾爾語和烏茲別克語進(jìn)行跨語言遷移實(shí)體命名識別并獲得60.4的F1值。Sharipov[5]等訓(xùn)練了基于 BERT 架構(gòu)的預(yù)訓(xùn)練烏茲別克語語言模型。Salaev[6]等填補(bǔ)了烏茲別克語語義相似性和相關(guān)性數(shù)據(jù)集的空白。Matlatipov[7]等通過烏茲別克斯坦當(dāng)?shù)夭蛷d評論進(jìn)行情緒分析,最終在性能最佳的模型中達(dá)到了91% 的準(zhǔn)確率。Sharipov[8]等為烏茲別克語創(chuàng)建詞法和句法標(biāo)記語料庫。

        國內(nèi)學(xué)者帕提古麗·艾合買提[9]等研究了基于信息處理的烏茲別克語語音變化現(xiàn)象自動還原技術(shù)。阿西穆·托合提[10]等人構(gòu)建烏茲別克語-維吾爾語雙語語料庫。胡創(chuàng)業(yè)[11]等研究了基于翻譯API的HSK漢-烏平行詞庫構(gòu)建方法。吐拉克孜·吐爾遜[12]等研究了烏孜別克語動詞的基本特征。艾孜海爾江[13]等研究了基于多策略的烏孜別克語名詞詞干識別。玉素甫·艾白都拉[14]等研究了面向自然語言處理的現(xiàn)代烏茲別克語名詞詞綴。吾買爾江·買買提明[15]等研究了烏茲別克語詞干提取算法的比較。原偉[16]研究了基于情感詞典和標(biāo)注語料庫的烏茲別克語短文本情感分析。這些研究對該領(lǐng)域的發(fā)展均做出了積極貢獻(xiàn),但目前尚沒有學(xué)者開展專門針對烏語命名實(shí)體識別問題的研究。

        相對而言,維吾爾語實(shí)體命名識別有著較多的成果。維吾爾語命名實(shí)體數(shù)據(jù)集構(gòu)建,學(xué)者艾斯卡爾·肉孜[17]等根據(jù)維吾爾人名特點(diǎn)構(gòu)建人名數(shù)據(jù)集。塔什甫拉提·尼扎木丁[18]等在人名、地名、機(jī)構(gòu)名的一體化識別任務(wù)中所構(gòu)建的數(shù)據(jù)集。阿迪來·艾合買提[19]等在對維吾爾語音樂實(shí)體識別研究的任務(wù)中,構(gòu)建含有音樂實(shí)體的數(shù)據(jù)集。買買提阿依甫[20]等對天山網(wǎng)新聞數(shù)據(jù)進(jìn)行人工標(biāo)注詞性和命名實(shí)體標(biāo)記作為實(shí)驗(yàn)語料庫。王路路[21]等在使用深度神經(jīng)網(wǎng)絡(luò)對維吾爾文命名實(shí)體識別研究的任務(wù)中,使用新疆多語種信息技術(shù)實(shí)驗(yàn)室標(biāo)注的命名實(shí)體數(shù)據(jù)集??紫轾i[22]等使用遷移學(xué)習(xí)對維吾爾語命名實(shí)體識別中構(gòu)建新聞?wù)Z料標(biāo)注數(shù)據(jù)集。

        綜上所述,烏語實(shí)體命名識別在國內(nèi)外是一個未被開發(fā)的領(lǐng)域,而在機(jī)器學(xué)習(xí)方面研究命名實(shí)體識別需要依賴規(guī)范的數(shù)據(jù)資源。因此,建立符合規(guī)范的命名實(shí)體相關(guān)數(shù)據(jù)資源是十分關(guān)鍵的工作,是不可忽視的任務(wù)。針對上述問題,本文主要貢獻(xiàn)為以下三點(diǎn):

        (1) 構(gòu)建了一個包含25 966個標(biāo)注實(shí)體的烏茲別克語新聞實(shí)體命名識別數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了三種類型的命名實(shí)體: 人名、地名和組織機(jī)構(gòu)名,具有很高的質(zhì)量和覆蓋范圍。

        (2) 在該數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)和分析,使用了三種不同的深度學(xué)習(xí)模型: BiLSTM-CRF、BiGRU-CRF和IDCNN-CRF。實(shí)驗(yàn)結(jié)果表明,這些模型均可顯著提高NER任務(wù)的準(zhǔn)確性和F1值,其中BiGRU-CRF模型表現(xiàn)最好。

        (3) 對模型的預(yù)測結(jié)果進(jìn)行了可視化分析,并進(jìn)一步分析了模型在不同類型的命名實(shí)體上的性能。

        實(shí)驗(yàn)結(jié)果表明,模型能準(zhǔn)確地識別大多數(shù)命名實(shí)體,并將它們正確分類為人名、地名或組織機(jī)構(gòu)名。但仍然存在一些問題。其中之一是識別未登錄詞,即在訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過的單詞或詞組,因?yàn)槟P涂赡軣o法正確理解這些詞的含義。此外,模型存在將組織機(jī)構(gòu)名稱錯誤地分類為地名的問題,這也是需要改進(jìn)的問題。

        2 數(shù)據(jù)集構(gòu)建

        2.1 數(shù)據(jù)收集

        目前,尚未見關(guān)于烏語實(shí)體命名識別研究的公開數(shù)據(jù)集,因此,本文從https://dunyo.info/uz新聞媒體平臺收集500篇新聞文章,并對這些文本進(jìn)行了預(yù)處理。預(yù)處理包括去除HTML標(biāo)簽、分詞、去除重復(fù)數(shù)據(jù)等。烏語是一種黏著語言,具有豐富的形態(tài)變化。單詞可以通過添加前綴、后綴、中綴和變音來表示不同的語法和語義信息。因此,單詞本身往往比較長,且可以有很多不同的變體。這使得對烏語的分詞自然語言處理任務(wù)具有一定的挑戰(zhàn)性。烏語因歷史原因,存在西里爾文和拉丁文兩種文字體系共用的情況。本文為了更好地處理烏語語料,對文本中西里爾文的書寫統(tǒng)一轉(zhuǎn)換成了拉丁文,由此得到兩萬條烏語拉丁文文本數(shù)據(jù)集。

        2.2 標(biāo)注流程、數(shù)據(jù)格式與標(biāo)注規(guī)范

        為了保證數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,由一名語言學(xué)專家?guī)ьI(lǐng)三名精通烏語的語言學(xué)專業(yè)碩士生擔(dān)任標(biāo)注員,三名學(xué)生先進(jìn)行一輪試標(biāo)注與討論,在此基礎(chǔ)上總結(jié)出具體的烏語實(shí)體命名數(shù)據(jù)的標(biāo)注規(guī)范,然后依據(jù)標(biāo)注規(guī)范由標(biāo)注員獨(dú)立進(jìn)行標(biāo)注。對于不一致性標(biāo)注,由語言學(xué)專家進(jìn)行統(tǒng)一仲裁。同時我們也進(jìn)行了反復(fù)的自查和審核。

        數(shù)據(jù)格式由于每一個實(shí)體類句子可能由兩個或兩個以上的詞組成,因此在生成實(shí)驗(yàn)數(shù)據(jù)時,本文采用 BIO[23](Begin-in-Out)標(biāo)記模式,通過對每個詞進(jìn)行標(biāo)記,來確定該詞是否為某一類實(shí)體的一部分。每類實(shí)體內(nèi)部又分為開始位置(B-)、非開始位置(I-),非實(shí)體類詞統(tǒng)一標(biāo)記為 O。最終定義的完整的標(biāo)記集 TagSet={O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG},共包含 7 種標(biāo)簽。這些標(biāo)簽用于確定每個詞所屬的實(shí)體類別,以便進(jìn)行命名實(shí)體識別。定義的標(biāo)注集如表1所示。

        表1 烏語命名實(shí)體標(biāo)注集

        標(biāo)注規(guī)范(1) 實(shí)體類型: 烏語實(shí)體類型在人工標(biāo)注語料的過程當(dāng)中,對所有語料本文使用人名、地名和機(jī)構(gòu)名三類實(shí)體標(biāo)記,不是命名實(shí)體的詞語不需要標(biāo)記。實(shí)體樣例如表2所示。

        表2 語料標(biāo)記實(shí)例

        (2) 標(biāo)注單位: 參照其他實(shí)體命名識別數(shù)據(jù)集,以單條語句為單位進(jìn)行標(biāo)注。

        2.3 標(biāo)注結(jié)果

        本文選取了500篇新聞文章,通過以上步驟,最終構(gòu)建了一個包含兩萬條新聞文本、25 966個實(shí)體和274 730個詞匯的烏茲別克語新聞實(shí)體命名識別數(shù)據(jù)集。其中,最長的句子由38個詞組組成,新聞文本中包含的實(shí)體數(shù)量最多為7個詞組,最少為1個詞組。在數(shù)據(jù)集的構(gòu)建過程中,我們對這些實(shí)體詞的長度和詞頻分布進(jìn)行了統(tǒng)計,并將統(tǒng)計結(jié)果詳細(xì)呈現(xiàn)于圖1中。在標(biāo)注過程中,本文采用了統(tǒng)一的標(biāo)注體系,保證了數(shù)據(jù)集的一致性和可比性。為了確保標(biāo)注的一致性,本文從數(shù)據(jù)集中隨機(jī)抽取了1 000條數(shù)據(jù),并由三名標(biāo)注員進(jìn)行一致性實(shí)驗(yàn),標(biāo)注一致性達(dá)到了84.3%。

        圖1 實(shí)體詞頻統(tǒng)計及實(shí)體類型長度表

        3 實(shí)驗(yàn)?zāi)P?/h2>

        烏語是多音節(jié)語言,與其他語言相比,烏語中的地名和機(jī)構(gòu)名數(shù)量龐大,同時音譯地名較多,這些名詞的長度也沒有限制。因此,在處理烏語句子時,將其分成短語或詞組更為符合其語言形態(tài)特征。本文針對烏語的特性,選擇了基于詞組進(jìn)行處理的詞級模型。這種模型可以將句子分成不同的詞組,每個詞組表示一個完整的語言單位,包括名詞、動詞、形容詞和副詞等。同時,這種模型可以考慮烏語的黏著性和形態(tài)豐富性等特點(diǎn),能夠更好地處理復(fù)雜的語法和語義信息。例如,在識別機(jī)構(gòu)名或地名時,考慮到這些名稱常常由多個詞組成,可以通過識別這些詞組來提高準(zhǔn)確率。因此,基于詞組的詞級模型在處理烏語這種黏著性強(qiáng)、形態(tài)豐富的語言方面具有一定的優(yōu)勢,特別是在處理地名、機(jī)構(gòu)名等長詞匯時更具有效性。

        為了進(jìn)一步探索和分析烏語實(shí)體命名識別在本文構(gòu)建數(shù)據(jù)集上的表現(xiàn),本文參考了維吾爾語實(shí)體命名識別研究[21]的方法,最終本文選擇了三組具有代表性神經(jīng)網(wǎng)絡(luò)模型BiLSTM-CRF、BiGRU-CRF和IDCNN-CRF進(jìn)行實(shí)驗(yàn)。

        3.1 BiLSTM-CRF模型

        BiLSTM-CRF[24]是一種序列標(biāo)注模型,結(jié)合了雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)和條件隨機(jī)場(CRF)兩種方法。BiLSTM用于從輸入序列中提取特征并捕捉上下文信息;然后CRF用于對標(biāo)簽序列進(jìn)行全局優(yōu)化,以提高模型的準(zhǔn)確性和魯棒性。該模型的結(jié)構(gòu)如圖2所示。首先將文本序列輸入到嵌入層中,每個單詞通過嵌入層轉(zhuǎn)換為固定維度的向量表示。接著,采用雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)從輸入序列中提取特征。BiLSTM由兩個長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM)層組成,一個從左到右(Forward),一個從右到左(Backward),分別捕捉到輸入序列的前向和后向信息。BiLSTM層輸出的特征序列輸入到條件隨機(jī)場(CRF)中,對標(biāo)簽序列進(jìn)行全局優(yōu)化。 CRF層可以考慮上下文和相鄰標(biāo)簽之間的關(guān)系,使得標(biāo)簽序列的預(yù)測更加準(zhǔn)確和連貫。最終,將CRF層輸出的標(biāo)簽序列作為模型的最終輸出,即對輸入序列中每個單詞進(jìn)行標(biāo)注。

        圖2 BiLSTM-CRF模型圖

        3.2 BiGRU-CRF模型

        BiGRU-CRF[25]是一種序列標(biāo)注模型,結(jié)合了雙向門控循環(huán)單元(BiGRU)和條件隨機(jī)場(CRF)兩種方法。 BiGRU用于從輸入序列中提取特征并捕捉上下文信息,然后用CRF對標(biāo)簽序列進(jìn)行全局優(yōu)化,以提高模型的準(zhǔn)確性和魯棒性。 門循環(huán)單元(Gate Recurrent Unit, GRU)是LSTM的一種變體,其單元結(jié)構(gòu)如圖3所示。

        圖3 GRU單元結(jié)構(gòu)

        與LSTM相比,GRU的結(jié)構(gòu)更加簡單,將遺忘門和輸入門合成為一個單一的更新門,同時將細(xì)胞狀態(tài)和隱藏狀態(tài)結(jié)合起來。BiGRU是在GRU的基礎(chǔ)上進(jìn)行改進(jìn),通過雙向傳遞聯(lián)系上下文語義,提高了模型的特征提取能力和上下文建模能力。

        BiGRU模型的結(jié)構(gòu)如圖4所示。首先將文本序列輸入模型中,單詞通過嵌入層轉(zhuǎn)換為固定維度的向量表示。隨后使用雙向門控循環(huán)單元(BiGRU)從輸入序列中提取特征。BiGRU由兩個GRU層組成,一個從左到右(Forward),一個從右到左(Backward),分別捕捉輸入序列的前向信息和后向信息。將BiGRU層輸出的特征序列輸入到條件隨機(jī)場(CRF)中,對標(biāo)簽序列進(jìn)行全局優(yōu)化。CRF層可以考慮上下文和相鄰標(biāo)簽之間的關(guān)系,使得標(biāo)簽序列的預(yù)測更加準(zhǔn)確和連貫。最后將CRF層輸出的標(biāo)簽序列作為模型的最終輸出,即對輸入序列中的單詞進(jìn)行標(biāo)注。

        圖4 BIGRU模型圖

        3.3 IDCNN-CRF模型

        IDCNN-CRF[26]結(jié)合了迭代擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)(IDCNN)和條件隨機(jī)場(CRF)兩種方法,其主要目的是在不增加模型參數(shù)和保持模型速度的前提下,增大模型的感受野。IDCNN用于從輸入序列中提取特征,然后CRF對標(biāo)簽序列進(jìn)行全局優(yōu)化,以提高模型的準(zhǔn)確性和魯棒性。模型結(jié)構(gòu)如圖5所示,它先將文本序列輸入模型中,每個單詞通過嵌入層轉(zhuǎn)換為固定維度的向量表示。使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)變種IDCNN,從輸入序列中提取特征。這些特征可以是局部的或全局的,可以捕捉到不同層次的信息,如詞匯、句法、語義等。將特征序列輸入到條件隨機(jī)場(CRF)中,對標(biāo)簽序列進(jìn)行全局優(yōu)化。CRF層可以考慮上下文和相鄰標(biāo)簽之間的關(guān)系,使得標(biāo)簽序列的預(yù)測更加準(zhǔn)確和連貫。最終將CRF層輸出的標(biāo)簽序列作為模型的最終輸出,即對輸入序列中的每個單詞進(jìn)行標(biāo)注。

        圖5 IDCNN-CRF模型圖

        4 實(shí)驗(yàn)流程及結(jié)果分析

        4.1 數(shù)據(jù)集與評價指標(biāo)

        目前,針對烏茲別克語命名實(shí)體識別的公開語料庫未見報道,實(shí)驗(yàn)采用本文建立的烏語實(shí)體命名數(shù)據(jù)集(UZNERD),本文建立的數(shù)據(jù)集囊括了500篇新聞文章語料總共兩萬條文本數(shù)據(jù),包含10 910個人名、10 116個地名、4 940個機(jī)構(gòu)名。按照8: 1: 1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。數(shù)據(jù)集的詳細(xì)信息如表3所示。

        表3 烏語實(shí)體命名數(shù)據(jù)集的統(tǒng)計信息

        本次實(shí)驗(yàn)使用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和綜合評價指標(biāo)(F1-Measure,F1)作為實(shí)驗(yàn)結(jié)果的評價指標(biāo)。計算如式(1)~式(3)所示。

        4.2 參數(shù)設(shè)置

        本文的實(shí)驗(yàn)部分旨在評估三種不同的模型在命名實(shí)體識別任務(wù)上的表現(xiàn)。我們選擇了BiLSTM-CRF,IDCNN-CRF和BiGRU-CRF這三種模型進(jìn)行比較。

        為了保證結(jié)果的可靠性,實(shí)驗(yàn)將最大序列長度設(shè)置為100,將訓(xùn)練Epoch設(shè)置為50,Hidden_dim設(shè)置為200,Batch size設(shè)置為32,Dropout率設(shè)置為0.5,學(xué)習(xí)率設(shè)置為0.001,優(yōu)化器使用Adam。IDCNN模型中Nums設(shè)置為2,Filter_nums設(shè)置為64。

        本實(shí)驗(yàn)程序部署于配置為Intel Core (TM) i7-1170F、@2.50GHz 處理器、16 GB RAM、Nvidia GeForce GTX 3090上運(yùn)行。使用Nvidia GeForce GTX 3090的GPU進(jìn)行加速;基礎(chǔ)程序和訓(xùn)練使用Python 3.8.8和Transformers 4.6.1。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        為了評估本文提供的烏語命名實(shí)體識別數(shù)據(jù)集的效果,本文使用了三種不同的模型,分別是BiGRU-CRF、BiLSTM-CRF和IDCNN-CRF。實(shí)驗(yàn)結(jié)果如表4所示??梢钥闯?三種模型在該數(shù)據(jù)集上的性能表現(xiàn)差異不大。其中,BiGRU-CRF模型在該數(shù)據(jù)集上的性能最佳,其F1值達(dá)到了90.30%。這是因?yàn)锽iGRU-CRF模型能更好地捕捉句子中的上下文信息,并且具有更快的訓(xùn)練速度。與此相比,BiLSTM-CRF模型的表現(xiàn)仍然很好,但訓(xùn)練速度稍慢一些。值得注意的是,BiLSTM-CRF模型和BiGRU-CRF模型在準(zhǔn)確率、F1值和召回率等性能指標(biāo)上表現(xiàn)相似,僅存在微小的差距。相比之下,IDCNN-CRF模型在處理該數(shù)據(jù)集時表現(xiàn)不佳,這是因?yàn)樵撃P蜎]有充分捕捉到句子中的上下文信息。

        表4 烏語命名實(shí)體識別數(shù)據(jù)集在不同模型上的表現(xiàn) (單位: %)

        本文使用的模型在三類實(shí)體詞上的實(shí)驗(yàn)結(jié)果如表5所示??梢钥闯?人名識別的性能最好,這可能是因?yàn)槿嗣ǔS兄鞔_的上下文信息,因此與其他非實(shí)體詞的歧義可能性較小。由于一些地名是由人名等其他實(shí)體詞構(gòu)成的,并且存在一詞多義的現(xiàn)象,因此其識別性能略低于人名。機(jī)構(gòu)名的識別準(zhǔn)確率最低,這主要是因?yàn)闄C(jī)構(gòu)名通常由多個其他實(shí)體類詞構(gòu)成,如地名等,其邊界比較難確定。

        表5 各模型不同類別命名實(shí)體識別實(shí)驗(yàn)的F1值對比 (單位: %)

        為了更好地了解模型和數(shù)據(jù)集的優(yōu)缺點(diǎn),錯誤分析是一項非常有用的工具。本文對表現(xiàn)最佳的模型BiGRU-CRF在測試集中抽取了50個錯誤實(shí)例,并進(jìn)行了手動檢查。實(shí)體類型錯誤識別占比最大(60%)。接下來是實(shí)體邊界錯誤識別(40%)。還有其他錯誤原因,例如,缺乏訓(xùn)練樣本等。本文還列出了一些占比較大的錯誤分類的典型示例,以便更好地理解這些錯誤。

        (1)實(shí)體類型錯誤識別: 這種類型的錯誤是因?yàn)槟P陀龅搅宋吹卿浽~。由于沒有經(jīng)過訓(xùn)練,未登錄詞就會被當(dāng)成非實(shí)體或它們的關(guān)系被錯誤地預(yù)測。以bangi markaziy afrika reslublikasi poytaxti mamlakat eng yirik shahri.(班吉是中非共和國的首都,也是該國最大的城市。)為例,模型預(yù)測中bangi(班吉)被預(yù)測成非實(shí)體,而中非共和國被正確預(yù)測。本文查看了本文標(biāo)注的數(shù)據(jù)是標(biāo)注正確的。訓(xùn)練集中較少出現(xiàn)的、比較生僻的地名或未登錄詞,由于模型未能充分訓(xùn)練,從而錯誤地識別該實(shí)體類型。

        (2)實(shí)體邊界錯誤識別: 當(dāng)多個詞匯組成的地名或者組織名在實(shí)體中出現(xiàn)時,多個詞匯組合會對判斷邊界造成困難。以misr raketa hujumi uyushtirilgani davo qilmoq iordaniya xavfsizlik xizmati rasmiy bugun grad rusumi raketa mamlakat aqaba port shahri kocha biri kelib tushgani va besh kishi jarohatlangani malum qildi.(約旦安全部門官方報告稱,今天埃及發(fā)生火箭彈襲擊,其中一枚火箭彈落在港口城市亞喀巴,造成5人受傷。)為例,模型把iordaniya(約旦)標(biāo)記成地名,但在iordaniya xavfsizlik xizmati(約旦安全部門)這類由多個詞匯組合地名和機(jī)構(gòu)名混合出現(xiàn)的機(jī)構(gòu)名中無法正確識別邊界的情況。

        綜合標(biāo)注數(shù)據(jù)集特性和初步實(shí)驗(yàn)結(jié)果等各方面因素可以看出,針對烏語實(shí)體命名識別中的不均衡性、實(shí)體嵌套性、實(shí)體詞組較多、未登錄地名影響等特點(diǎn),需要采用多種策略和方法來提高算法的準(zhǔn)確性。這是未來值得深入研究的工作。相比之下,漢語和英語在實(shí)體命名識別任務(wù)上表現(xiàn)較好的原因主要包括: 數(shù)據(jù)資源的豐富、語言結(jié)構(gòu)的規(guī)則明確以及自然語言處理技術(shù)的成熟。然而,在面對烏語時,這些優(yōu)勢可能會被削弱,因此需要采用不同的策略和方法來提高實(shí)體命名識別的準(zhǔn)確率。

        5 結(jié)論

        本文針對烏語實(shí)體命名識別領(lǐng)域中缺乏高質(zhì)量標(biāo)注語料的問題,構(gòu)建了一個面向?yàn)跽Z的實(shí)體命名數(shù)據(jù)集,用三種基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法驗(yàn)證數(shù)據(jù)集的有效性、可用性,并對識別錯誤的原因進(jìn)行了較深入的分析,該數(shù)據(jù)集可為烏語的命名實(shí)體識別工作提供數(shù)據(jù)支撐。該數(shù)據(jù)集是從網(wǎng)絡(luò)新聞媒體中真實(shí)數(shù)據(jù)采集而來,包含了烏語文本中的三類實(shí)體及實(shí)體詞組等多種特點(diǎn)。該數(shù)據(jù)集為烏語實(shí)體命名識別算法的研究提供了重要的數(shù)據(jù)支持,可以用于模型訓(xùn)練、測試和評估,為該領(lǐng)域的進(jìn)一步研究提供了良好的數(shù)據(jù)支撐。通過實(shí)驗(yàn),證明了該數(shù)據(jù)集的有效性和實(shí)用性,有望為烏語自然語言處理領(lǐng)域的發(fā)展提供重要的參考價值。

        本文尚有幾點(diǎn)不足之處,首先,由于使用 BIO 標(biāo)注方式存在實(shí)體邊界模糊、無法表示實(shí)體結(jié)束、與實(shí)體類型耦合等缺陷和在烏語實(shí)體命名識別中的不均衡性、實(shí)體嵌套性、實(shí)體詞組較多、未登錄地名影響等特點(diǎn),下一階段研究將使用更精確標(biāo)注來提高烏語實(shí)體命名識別數(shù)據(jù)集的標(biāo)注質(zhì)量。其次,由于烏語的語言結(jié)構(gòu)和詞匯特征與其他語言存在差異, 下一階段的算法設(shè)計將重點(diǎn)關(guān)注烏語語言的特點(diǎn),以針對烏語的實(shí)體命名識別進(jìn)行優(yōu)化和改進(jìn)。此外,后續(xù)工作會繼續(xù)嘗試使用深度學(xué)習(xí)模型來進(jìn)行命名實(shí)體識別,以挖掘?yàn)跽Z語言中的更深層次的句法特征和更豐富的語義信息。

        猜你喜歡
        命名實(shí)體標(biāo)簽
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        標(biāo)簽化傷害了誰
        亚洲成av人片一区二区密柚| 国产韩国精品一区二区三区 | 久久精品国产亚洲av日韩精品| 黄色av亚洲在线观看| 精品三级av无码一区| 国产天堂网站麻豆| 人妻少妇喷水意淫诱惑| 亚洲av一区二区三区蜜桃| 人妻少妇中文字幕乱码| 国产呦精品系列在线播放| 蜜桃成人永久免费av大| 国产精品亚洲一区二区麻豆| 777国产偷窥盗摄精品品在线| 亚洲人成网站77777在线观看| 亚洲国产一区久久yourpan| 人妻少妇精品视中文字幕免费| 欧美亚洲国产一区二区三区| 国产精品日韩高清在线蜜芽| 亚洲av影片一区二区三区| 一区二区三区人妻av| 国产成人精品综合在线观看| 国产乱人伦AV在线麻豆A| 国产女主播在线免费看| 亚洲国产精品久久久久久无码| 99偷拍视频精品一区二区| 小13箩利洗澡无码免费视频| 国产高清人肉av在线一区二区| 精品欧洲av无码一区二区14| 在线天堂中文字幕| 国产黄三级三级三级三级一区二区| 精品精品久久宅男的天堂| 亚洲精华国产精华液的福利| 日本女优中文字幕看片| 国产精品亚洲一二三区| 国产精品vⅰdeoxxxx国产| 亚洲综合中文字幕乱码在线| 亚洲最大的av在线观看| 97一期涩涩97片久久久久久久| 吃奶还摸下面动态图gif| 中文字幕一二区中文字幕| 音影先锋中文字幕在线|