亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在線中文命名實(shí)體識(shí)別平臺(tái)研究

        2020-07-20 07:02:18宋汝良杜國(guó)寧
        江蘇科技信息 2020年15期
        關(guān)鍵詞:模型

        宋汝良,杜國(guó)寧

        (上海夢(mèng)創(chuàng)雙楊數(shù)據(jù)科技股份有限公司,上海 200333)

        0 引言

        命名實(shí)體識(shí)別(Named Entity Recognition,NER),又稱實(shí)體識(shí)別、實(shí)體分塊和實(shí)體提取等,是信息提取任務(wù)的一個(gè)子任務(wù)。命名實(shí)體識(shí)別旨在定位文本中具有特殊意義的實(shí)體并分類為預(yù)先定義的類別,如人員、組織、位置等。命名實(shí)體識(shí)別是自然語言處理領(lǐng)域中的基本任務(wù)之一,在信息抽取、信息檢索、機(jī)器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)中具有重要意義。在自然語言處理中,命名實(shí)體識(shí)別可以看作一種在詞法分析中對(duì)未收錄詞的識(shí)別,并且是未收錄詞數(shù)量最多、識(shí)別難度最大、對(duì)分詞效果影響最大的問題。根據(jù)SIGHAN Bakeoff數(shù)據(jù)評(píng)測(cè)結(jié)果[1],未登錄詞造成的分詞精度損失至少比歧義大5倍以上,這證明了命名實(shí)體的重要性。

        1 項(xiàng)目背景

        本項(xiàng)目中,研究員針對(duì)中文命名實(shí)體識(shí)別問題,首先調(diào)研了命名實(shí)體識(shí)別的通用技術(shù)及其發(fā)展,其次使用PyTorch框架構(gòu)建了兩種用于完成命名實(shí)體識(shí)別任務(wù)的模型,搭建了中文命名實(shí)體識(shí)別平臺(tái),最后在人民日?qǐng)?bào)數(shù)據(jù)集中,對(duì)比評(píng)估了不同模型的效果。

        國(guó)外對(duì)于英文命名實(shí)體識(shí)別的研究開始比較早。1991年Rau[2]在第7屆IEEE人工智能應(yīng)用會(huì)議上發(fā)表了“抽取和識(shí)別公司名稱”的有關(guān)研究文章,首次描述了抽取和識(shí)別公司名稱的系統(tǒng),該系統(tǒng)主要采用啟發(fā)式算法和手工編寫規(guī)則的方法。1996年,命名實(shí)體評(píng)測(cè)作為信息抽取的一個(gè)子任務(wù)被引入MUC-6,在其后的MUC-7、MET-2、IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列國(guó)際會(huì)議中,命名實(shí)體識(shí)別都被作為其中的一項(xiàng)指定任務(wù)。

        和英語相比,漢語命名實(shí)體識(shí)別任務(wù)更加復(fù)雜,由于分詞等因素的影響難度較大,其難點(diǎn)主要表現(xiàn)在如下幾個(gè)方面:

        (1)命名實(shí)體類型多樣,數(shù)量眾多,不斷有新的命名實(shí)體涌現(xiàn),如新的人名、地名等,難以建立大而全的姓氏庫、名字庫、地址庫等數(shù)據(jù)庫。

        (2)命名實(shí)體構(gòu)成結(jié)構(gòu)比較復(fù)雜,并且某些類型的命名實(shí)體詞的長(zhǎng)度沒有一定的限制,不同的實(shí)體有不同的結(jié)構(gòu),比如組織名存在大量的嵌套、別名、縮略詞等問題,沒有嚴(yán)格的規(guī)律可以遵循;人名中也存在比較長(zhǎng)的少數(shù)民族人名或翻譯過來的外國(guó)人名,沒有統(tǒng)一的構(gòu)詞規(guī)范。因此,對(duì)這類命名實(shí)體識(shí)別的召回率相對(duì)偏低。

        (3)在不同領(lǐng)域、場(chǎng)景下,命名實(shí)體的外延有差異,存在分類模糊的問題。不同命名實(shí)體之間界限不清晰,人名也經(jīng)常出現(xiàn)在地名和組織名稱中,存在大量的交叉和互相包含現(xiàn)象,而且部分命名實(shí)體常常容易與普通詞混淆,影響識(shí)別效率。在個(gè)體戶等商戶中,組織名稱中也存在大量的人名、地名、數(shù)字的現(xiàn)象,要正確標(biāo)注這些命名實(shí)體類型,常常要涉及上下文語義層面的分析,這些都給命名實(shí)體的識(shí)別帶來困難。

        (4)在不同的文化、領(lǐng)域、背景下,命名實(shí)體的外延有差異。目前對(duì)命名實(shí)體的定界和類型確定還沒有形成共同遵循的、嚴(yán)格的命名規(guī)范。本項(xiàng)目基于上述背景展開。

        2 相關(guān)工作介紹

        目前,研究人員已經(jīng)提出了許多用于命名實(shí)體識(shí)別任務(wù)的方法。命名實(shí)體識(shí)別的早期研究經(jīng)常利用支持向量機(jī)(Support Vector Machine,SVM)[3]、隱馬爾科夫模型(Hidden Markov Model,HMM)[4]和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)方法,這在很大程度上依賴于特征工程。近年來,神經(jīng)網(wǎng)絡(luò)模型已經(jīng)被引入命名實(shí)體識(shí)別任務(wù)中。Huang等[5]的研究利用雙向長(zhǎng)短時(shí)記憶(Bi-directional Long Short-Term Memory Network,BiLSTM)網(wǎng)絡(luò)提取特征并將其饋入CRF解碼器。之后的研究通常將BiLSTM-CRF模型用作基準(zhǔn)模型。Peng等[6]于2016年提出了針對(duì)中文命名實(shí)體識(shí)別的聯(lián)合模型,該模型是通過中文詞語分割(Chinese Word Segmentation,CWS)任務(wù)共同訓(xùn)練的。但是,CWS任務(wù)帶來的某些特征會(huì)降低中文命名實(shí)體識(shí)別任務(wù)的性能。此外,Wang等[7]于2017年提出了針對(duì)中文命名實(shí)體識(shí)別的門控卷積神經(jīng)網(wǎng)絡(luò)(Gated Convolutional Neural Networks,GCNN)模型。

        目前較為成熟的解決方案是應(yīng)用BiLSTM-CRF模型完成命名實(shí)體識(shí)別任務(wù)。BiLSTM模型可以學(xué)到記憶哪些信息和遺忘哪些信息,并且能夠捕捉雙向的語義依賴,具有良好的語義建模能力。條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)是一類統(tǒng)計(jì)建模方法,通常應(yīng)用于模式識(shí)別和機(jī)器學(xué)習(xí)中,并用于結(jié)構(gòu)化預(yù)測(cè)。它能夠在預(yù)測(cè)時(shí)考慮上下文的聯(lián)系,可以在預(yù)測(cè)中實(shí)現(xiàn)順序依賴性。BiLSTM和CRF的優(yōu)點(diǎn)使得它們?cè)诿麑?shí)體識(shí)別任務(wù)中大放異彩。

        BERT模型[8]出現(xiàn)于Google AI語言研究人員發(fā)表的最新論文中。通過在各種NLP任務(wù)中展示最新結(jié)果,在機(jī)器學(xué)習(xí)社區(qū)引起了轟動(dòng)。BERT的主要技術(shù)創(chuàng)新是將注意力模型Transformer的雙向培訓(xùn)應(yīng)用于語言建?!,F(xiàn)在,研究人員可以在BERT模型的基礎(chǔ)上進(jìn)行微調(diào),以獲取針對(duì)特定任務(wù)的模型。

        3 項(xiàng)目成果

        在本次項(xiàng)目中,研究員結(jié)合對(duì)中文命名實(shí)體識(shí)別的探索,選擇了使用Embedding-BiLSTM-CRF這一成熟的架構(gòu)作為基本模型。除此之外,研究員還嘗試將BERT模型與基本模型結(jié)合,通過預(yù)訓(xùn)練BERT模型替換原有的嵌入層,通過微調(diào)對(duì)模型進(jìn)行更新,并將這一模型稱為進(jìn)階模型。

        基礎(chǔ)模型的輸入是一個(gè)序列,序列中的元素對(duì)應(yīng)句子中每個(gè)字id。模型的Embedding層將字的id轉(zhuǎn)為該字對(duì)應(yīng)的向量,BiLSTM層對(duì)該向量進(jìn)行編碼和解碼,輸入CRF層。CRF層對(duì)輸入的序列進(jìn)行路徑計(jì)算,最終獲取每個(gè)字對(duì)應(yīng)的標(biāo)簽id。

        進(jìn)階模型與基礎(chǔ)模型類似,區(qū)別在于使用預(yù)訓(xùn)練的BERT模型替換了Embedding層,模型的輸入為字序列。BERT模型將字序列轉(zhuǎn)為對(duì)應(yīng)的序列向量,之后的過程與基礎(chǔ)模型相同。

        3.1 命名實(shí)體識(shí)別模型

        在本次項(xiàng)目中,研究員結(jié)合對(duì)中文命名實(shí)體識(shí)別的探索,選擇了使用Embedding-BiLSTMCRF這一成熟的架構(gòu)作為基本模型。除此之外,研究員還嘗試將BERT模型與基本模型結(jié)合,通過預(yù)訓(xùn)練BERT模型替換原有的嵌入層,通過微調(diào)對(duì)模型進(jìn)行更新,將這一模型稱為進(jìn)階模型。

        基礎(chǔ)模型的輸入是一個(gè)序列,序列中的元素對(duì)應(yīng)句子中每個(gè)字id。模型的Embedding層將字的id轉(zhuǎn)為該字對(duì)應(yīng)的向量,BiLSTM層對(duì)該向量進(jìn)行編碼和解碼,輸入CRF層。CRF層對(duì)輸入的序列進(jìn)行路徑計(jì)算,最終獲取每個(gè)字對(duì)應(yīng)的標(biāo)簽id。

        進(jìn)階模型與基礎(chǔ)模型類似,區(qū)別在于使用預(yù)訓(xùn)練的BERT模型替換了Embedding層,模型的輸入為字序列。BERT模型將字序列轉(zhuǎn)為對(duì)應(yīng)的序列向量,之后的過程與基礎(chǔ)模型相同。

        3.2 在線中文命名實(shí)體識(shí)別平臺(tái)

        研究員為中文命名實(shí)體識(shí)別任務(wù)開發(fā)了一個(gè)網(wǎng)頁平臺(tái),方便用戶快速?gòu)奈谋局刑崛∪嗣?、地點(diǎn)和組織。該平臺(tái)以Python為后端,前端則以Bootstrap框架開發(fā),應(yīng)用的初始界面如圖1所示。

        在輸入框中輸入一個(gè)句子,點(diǎn)擊“識(shí)別”按鈕,該句子將通過Ajax方式發(fā)送至后端。后端將加載訓(xùn)練好的模型,對(duì)接收到的句子進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果以Json文件形式返回前端。前端接收到返回結(jié)果后,將對(duì)網(wǎng)頁進(jìn)行部分刷新,以展示預(yù)測(cè)結(jié)果。除了單個(gè)句子的預(yù)測(cè),平臺(tái)也支持對(duì)多個(gè)句子同時(shí)預(yù)測(cè),一個(gè)示例如圖2所示。

        4 實(shí)驗(yàn)與結(jié)果

        為了驗(yàn)證命名實(shí)體識(shí)別模型的識(shí)別效果,研究員設(shè)計(jì)并進(jìn)行了實(shí)驗(yàn),使用公開數(shù)據(jù)集對(duì)模型的識(shí)別能力進(jìn)行了驗(yàn)證。

        實(shí)驗(yàn)所采用的數(shù)據(jù)集為人民日?qǐng)?bào)數(shù)據(jù)集,是中文命名實(shí)體識(shí)別任務(wù)最常用的數(shù)據(jù)集之一。數(shù)據(jù)集中包含有LOC(地名)、ORG(機(jī)構(gòu)名)、PER(人名)3種標(biāo)簽,使用BIO標(biāo)注策略對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。

        圖1 在線中文命名實(shí)體識(shí)別平臺(tái)初始界面

        圖2 識(shí)別結(jié)果示例

        為了比較基礎(chǔ)模型和進(jìn)階模型的效果,研究員設(shè)置了多組參數(shù),分別構(gòu)建了兩類模型進(jìn)行訓(xùn)練,并在測(cè)試集中對(duì)模型效果進(jìn)行驗(yàn)證。驗(yàn)證選取的評(píng)估指標(biāo)為查準(zhǔn)率、召回率和f1-score。對(duì)于每個(gè)預(yù)測(cè)結(jié)果,當(dāng)且僅當(dāng)預(yù)測(cè)出的命名實(shí)體的起始坐標(biāo)、終止坐標(biāo)與golden tag都相同時(shí),認(rèn)為該次預(yù)測(cè)是正確的。實(shí)驗(yàn)所采用的評(píng)價(jià)指標(biāo)為查準(zhǔn)率、查全率和F1分?jǐn)?shù),結(jié)果如表1所示。

        表1 模型在人民日?qǐng)?bào)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果

        從實(shí)驗(yàn)結(jié)果可以看出,引入預(yù)訓(xùn)練的BERT模型作為嵌入層后,模型的整體效果被很輕易地大幅提升了。

        5 結(jié)語

        本項(xiàng)目針對(duì)中文命名實(shí)體識(shí)別任務(wù)展開了探索,并選取了目前應(yīng)用最廣泛的Bi-LSTM+CRF模型作為基礎(chǔ)模型,完成了中文命名實(shí)體識(shí)別任務(wù)。此外,本項(xiàng)目還引進(jìn)了BERT模型,對(duì)基礎(chǔ)模型進(jìn)行改進(jìn),即使用預(yù)訓(xùn)練的BERT模型替換基礎(chǔ)模型中的嵌入層。研究員使用人民日?qǐng)?bào)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),訓(xùn)練和評(píng)估了基礎(chǔ)模型和進(jìn)階模型,實(shí)驗(yàn)結(jié)果表明進(jìn)階模型能夠大幅提升模型預(yù)測(cè)效果。另外,本項(xiàng)目還為中文命名實(shí)體識(shí)別任務(wù)開發(fā)了對(duì)應(yīng)的平臺(tái),方便用戶使用訓(xùn)練后的模型對(duì)中文語句進(jìn)行預(yù)測(cè)。

        本項(xiàng)目實(shí)現(xiàn)的進(jìn)階模型具有識(shí)別效果好、訓(xùn)練簡(jiǎn)單、規(guī)模較小等優(yōu)點(diǎn)。此外,使用這一模型完成命名實(shí)體識(shí)別任務(wù)時(shí),并不需要對(duì)語句進(jìn)行額外的數(shù)據(jù)預(yù)處理操作。同時(shí),本項(xiàng)目所構(gòu)建的在線中文命名實(shí)體識(shí)別平臺(tái)為用戶完成中文命名實(shí)體識(shí)別任務(wù)提供了便利。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        风韵犹存丰满熟妇大屁股啪啪| 亚洲av无码片一区二区三区| 国产91 对白在线播放九色| 国产av一区二区三区国产福利| 国产99re在线观看只有精品| 中文字幕精品久久天堂一区| 国产视频在线播放亚洲| 精品国产一区二区三区三| 人妻激情另类乱人伦人妻 | 国产成人综合亚洲看片| 草莓视频成人| 偷拍自拍一区二区三区| 婷婷久久av综合一区二区三区| 国产美女做爰免费视频| 暖暖免费 高清 日本社区在线观看| 久久精品国产成人午夜福利| 国产一区二区三区男人吃奶| 国产丝袜美女一区二区三区 | 国产精品麻豆aⅴ人妻| 久久精品女人天堂AV一个| 国产影片一区二区三区| 区二区三区玖玖玖| 2021国产精品视频| 日韩精品一区二区三区视频| 欧美精品无码一区二区三区| 丰满少妇大力进入av亚洲| 国产成人精品三上悠亚久久| 蜜桃av中文字幕在线观看| 欧美人妻aⅴ中文字幕| 人妻无码中文人妻有码| 国产激情视频在线观看你懂的| 亚洲最近中文字幕在线| 在线视频观看免费视频18| 无码人妻系列不卡免费视频| 一区二区在线观看日本免费| 日本高清视频在线观看一区二区| 日本最新免费二区| 国产婷婷丁香久久综合| 国产精品久久熟女吞精| 亚洲国产精品无码av| 老太脱裤让老头玩ⅹxxxx|