亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)產(chǎn)品質(zhì)檢命名實(shí)體識(shí)別研究

        2022-01-22 07:11:42馮一鉑
        關(guān)鍵詞:注意力實(shí)體標(biāo)簽

        方 紅, 張 瀾, 蘇 銘, 馮一鉑

        (1. 上海第二工業(yè)大學(xué) 文理學(xué)部,上海201209;2. 喀什大學(xué) 應(yīng)用與統(tǒng)計(jì)學(xué)院,新疆喀什844000)

        0 引言

        75%的搜索查詢中就包含一個(gè)命名實(shí)體,研究命名實(shí)體可以優(yōu)化搜索結(jié)果, 為構(gòu)建知識(shí)圖譜奠定基礎(chǔ)。中文命名實(shí)體識(shí)別(CNER)是中文自然語(yǔ)言處理領(lǐng)域的一項(xiàng)重要任務(wù),為自然語(yǔ)言處理很多下游應(yīng)用提供基礎(chǔ), 例如機(jī)器翻譯[1]、自動(dòng)文本摘要[2]等。命名實(shí)體識(shí)別(NER) 的目標(biāo)是從文本中識(shí)別實(shí)體名稱, 并將其類型分為不同的類別[3], 如人名、地理位置、組織等。若給定一句話“XXX 在北京打籃球”, NER 就可以識(shí)別出 “XXX” 為人名,“北京”為地理位置,“籃球”為某個(gè)實(shí)體。本文通過爬取、清洗處理、人工標(biāo)注等方式構(gòu)建產(chǎn)品質(zhì)量檢測(cè)(pruduct quality inspection,PQI)數(shù)據(jù)集,針對(duì)PQI數(shù)據(jù)特點(diǎn), 優(yōu)化NER 模型, 對(duì)該領(lǐng)域的NER 展開研究。

        1 相關(guān)工作

        NER 實(shí)現(xiàn)方式有4 種,第1 種基于規(guī)則和詞典,無(wú)需帶有標(biāo)簽的數(shù)據(jù),僅依賴于手工構(gòu)造的規(guī)則,這種方法在實(shí)際應(yīng)用中,編寫規(guī)則和構(gòu)建知識(shí)庫(kù)容易產(chǎn)生錯(cuò)誤,且移植性較差,因此很快被淘汰; 第2 種為無(wú)監(jiān)督學(xué)習(xí)方法,根據(jù)語(yǔ)義相似性聚類,從聚類中抽取命名實(shí)體, 再用統(tǒng)計(jì)的方法判別實(shí)體類型; 從傳統(tǒng)機(jī)器學(xué)習(xí)發(fā)展衍生了第3 種方法,在基于特征的監(jiān)督學(xué)習(xí)方法中,NER 被轉(zhuǎn)化為一個(gè)多分類任務(wù),結(jié)合監(jiān)督學(xué)習(xí)算法和特征工程, Bikel 等[4]提出了第1 個(gè)基于NER 的隱馬爾科夫模型(hidden markov model,HMM)[5],用于識(shí)別姓名、日期、時(shí)間等,這種方法極大提升了識(shí)別準(zhǔn)確率和簡(jiǎn)潔度,但缺點(diǎn)在于特征的選擇和提取會(huì)對(duì)結(jié)果產(chǎn)生影響,且需要大量的時(shí)間和資源進(jìn)行訓(xùn)練;隨著Word2Vec 的出現(xiàn),基于深度學(xué)習(xí)的方法廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,這種方法可以自動(dòng)學(xué)習(xí)特征,在NER 中相較于傳統(tǒng)機(jī)器學(xué)習(xí)具有更好的性能。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)在學(xué)習(xí)句子組成部分[6]的能力非常強(qiáng)大,后來(lái)很多的NER 方法都基于RNN 改進(jìn),但RNN 在處理長(zhǎng)文本序列時(shí),容易丟失重要信息。Lamplel 等[7]將雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional long short-term memory,BiLSTM)和條件隨機(jī)場(chǎng)(conditional random fields, CRF) 結(jié)合, 構(gòu)成NER 的基本結(jié)構(gòu), 但該方法處理文本的順序固定無(wú)法改變, 識(shí)別結(jié)果和效率仍有可提升的空間, 后來(lái)衍生出的Transformer[8]被證實(shí)比傳統(tǒng)的RNN 具有更好的效果。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)與RNN 不同,它可以以前饋方式處理序列,能有效利用GPU 并行性。注意力機(jī)制在自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用,通過添加注意力機(jī)制, NER 模型可以捕獲輸入中信息量最大的元素,Pandey 等[9]提出了一種雙向注意機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過文檔級(jí)別的注意力機(jī)制,更好地獲取標(biāo)簽之間的關(guān)系。

        CNER 相比英文實(shí)體識(shí)別, 挑戰(zhàn)性更高[10], 主要是由于以下幾點(diǎn): ①中文實(shí)體缺乏英文實(shí)體特有的表現(xiàn)形式, 比如大小寫字母; ②中文實(shí)體依賴于上下文信息,漢字的多重語(yǔ)義在文本中可以作為實(shí)體也可以作為非實(shí)體,例如“時(shí)間是在上海市工作”,其中“時(shí)間” 一詞不能被正確識(shí)別為人名; ③漢字的復(fù)雜性, 也沒有英文的分隔符, 實(shí)體邊界難以確定,例如“張凱平常去河北檢查工作”,算法可以理解為 “張凱平/常/去/河北/檢查/工作”,也可以理解 “張凱/平常/去/河北/檢查/工作”。中文領(lǐng)域的文本數(shù)據(jù)訓(xùn)練有限, 且缺乏完善的詞典, 識(shí)別效果相較于英文,仍有很大提升空間。

        當(dāng)前,針對(duì)PQI 的NER 研究工作較少,語(yǔ)料庫(kù)也存在空白,而研究PQI 的實(shí)體識(shí)別對(duì)后續(xù)的關(guān)系抽取、開發(fā)問答系統(tǒng)有重要意義。PQI 數(shù)據(jù)存在以下特點(diǎn): ①概念和專有名詞多且組成復(fù)雜,例如“橡膠密封圈” “車用機(jī)油” 等; ② 實(shí)體長(zhǎng)度不固定, 有“電腦” 這種短文本實(shí)體, 也有“塑料絕緣防觸電控制電纜” 這種長(zhǎng)文本實(shí)體, 特征較為復(fù)雜。本文提出一種融合注意力機(jī)制的CNN-BiGRU-CRF 模型,識(shí)別已標(biāo)注8 種實(shí)體類型,能夠較全面的提取文本的特征,該模型在公開和定制數(shù)據(jù)集上都有很好的效果。

        2 CNN-BiGRU-CRF 模型

        2.1 模型概述

        本模型實(shí)體識(shí)別基本框架如圖1 所示。將構(gòu)建好的PQI 數(shù)據(jù)進(jìn)行分詞、人工標(biāo)注等處理,將CNN層獲取的特征向量和預(yù)訓(xùn)練獲得的詞向量、詞長(zhǎng)特征向量結(jié)合輸入到BiGRU 層, 在BiGRU 層輸出后分配不同的注意力權(quán)重, 最終通過CRF 輸出預(yù)測(cè)標(biāo)簽序列。

        圖1 CNN-BiGRU-CRF 模型圖Fig.1 CNN-BiGRU-CRF model diagram

        2.2 CNN 層

        CNN 層通常包含卷積層、池化層、全連接層等,一般應(yīng)用于圖像識(shí)別較多。通過CNN 中的濾波器對(duì)句子進(jìn)行卷積操作,提取句子的局部特征。可計(jì)算出濾波器學(xué)習(xí)得到的上下文特征:

        式中:Cmax為最大特征;c1,c2,··· ,cn為各個(gè)特征。

        2.3 BiGRU 層

        門控循環(huán)單元[12](gated recurrent unit,GRU)是一種由長(zhǎng)短期記憶(long short-term memory,LSTM)改進(jìn)而來(lái)的神經(jīng)網(wǎng)絡(luò),簡(jiǎn)化了LSTM 復(fù)雜的門結(jié)構(gòu),也能很好地解決序列中時(shí)間距離較大的依賴問題,在實(shí)現(xiàn)長(zhǎng)C 記憶的同時(shí)運(yùn)算速度更快[13]。GRU 的單元結(jié)構(gòu)如圖2 所示,圖中:

        圖2 GRU 單元結(jié)構(gòu)圖Fig.2 GRU unit structure diagram

        式中:zt為更新門;rt為重置門;σ為 Sigmoid 函數(shù);xt為t時(shí)刻的輸入向量;xr為r時(shí)刻的輸入向量;bz、br為偏移系數(shù);wxz、whx、whr、whh、wxr為權(quán)重系數(shù);ht?1為t ?1 時(shí)刻隱含狀態(tài)輸入;ht為t時(shí)刻隱含狀態(tài)輸入; ?ht為候選隱藏狀態(tài);?為矩陣的Hadamard 積。

        將CNN 獲取的特征向量與預(yù)訓(xùn)練的詞向量、詞長(zhǎng)向量拼接輸入。使用GRU 不僅能通過正向計(jì)算考慮文本的前序信息,還能通過反向計(jì)算提取到文本后續(xù)信息的特征,最終兩個(gè)輸出向量值拼接形成BiGRU 層輸出向量, 從而獲取序列的全部信息,圖3 為BiGRU 模型圖。

        圖3 BiGRU 模型圖Fig.3 BiGRU model diagram

        2.4 Attention 層

        當(dāng)輸出序列較長(zhǎng)時(shí),引入Attention 機(jī)制可以減少關(guān)鍵信息丟失,為了把有限的注意力分配給重要信息使輸出更準(zhǔn)確,將BiGRU 的輸出層與Attention結(jié)合,各特征向量與對(duì)應(yīng)權(quán)重的乘積相加后獲得新的輸出向量。

        對(duì)于i時(shí)刻的模型輸出向量, 利用注意力權(quán)重分布向量對(duì)編碼的源序列的隱藏層輸出進(jìn)行加權(quán)求和計(jì)算,得到針對(duì)當(dāng)前輸出的全局特征:

        式中:aij為注意力權(quán)重;βij、βik為給定向量;va,ωa,ωb為權(quán)重矩陣;Ci?1為上一時(shí)刻注意力機(jī)制的狀態(tài);P=[P1,P2,··· ,Pj]為 BiGRU 神經(jīng)網(wǎng)絡(luò)輸出的向量表示;n為輸入元素的數(shù)目;Ci為利用注意力機(jī)制輸出新的特征向量。

        2.5 CRF 層

        對(duì)于輸入序列x= (x1,x2,··· ,xn), 設(shè)C為p×k大小的Attention 輸出矩陣,p為句子的長(zhǎng)度,k為標(biāo)簽數(shù)量,那么預(yù)測(cè)序列y= (y1,y2,··· ,yn),得到的分?jǐn)?shù)為:

        cmn表示第m個(gè)詞的第n個(gè)標(biāo)簽的分?jǐn)?shù);Amn表示從第m個(gè)標(biāo)簽轉(zhuǎn)移至第n個(gè)標(biāo)簽的分?jǐn)?shù)。YX表示所有可能輸出標(biāo)簽序列的集合, ?y為真實(shí)標(biāo)記預(yù)測(cè),產(chǎn)生的序列y的概率為:

        得到最佳標(biāo)簽序列公式:

        3 數(shù)據(jù)及其處理

        3.1 數(shù)據(jù)說明

        2005 年之前,NER 的數(shù)據(jù)集主要由包含實(shí)體類型的新聞文本構(gòu)成,適用于粗粒度的NER 任務(wù),例如Conll2003、Onenote5.0 等。此后, 文本源上開發(fā)了很多包括維基百科文章、YouTube 評(píng)論和W-NUT中的帖子構(gòu)成的數(shù)據(jù)集,作為公開數(shù)據(jù)集,被學(xué)界廣泛使用。

        對(duì)于目前還未公開的質(zhì)量檢測(cè)監(jiān)督數(shù)據(jù)集,本文通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注3個(gè)步驟, 建立產(chǎn)品質(zhì)量監(jiān)督檢測(cè)實(shí)體識(shí)別語(yǔ)料庫(kù)。PQI 數(shù)據(jù)集源于上海市質(zhì)量監(jiān)督檢測(cè)技術(shù)研究院 (http://www.sqi.com.cn/sq-iweb-new/index.html),經(jīng)過數(shù)據(jù)預(yù)處理后人工標(biāo)注的產(chǎn)品質(zhì)量監(jiān)督檢測(cè)數(shù)據(jù)集包括全國(guó)各地不同產(chǎn)品的質(zhì)量監(jiān)督檢測(cè)報(bào)告,數(shù)據(jù)集規(guī)模如表1 所示, 按照一定比例分為7 386條訓(xùn)練集、1 741 條驗(yàn)證集和1 741 條測(cè)試集,共計(jì)10 868 條語(yǔ)句。

        表1 PQI 數(shù)據(jù)集規(guī)模(單位: 條)Tab.1 Scale of PQI dataset(unit: sentence)

        本數(shù)據(jù)集主要包含8 個(gè)實(shí)體類型,分別為文教體育用品、家用電器及電器附件、電子信息技術(shù)產(chǎn)品、兒童用品、家具及建筑裝飾裝修材料、服裝鞋帽及家用紡織品、交通用具及相關(guān)產(chǎn)品、日用化學(xué)制品及衛(wèi)生用品和其他(非實(shí)體)。表2 為PQI 數(shù)據(jù)集標(biāo)注標(biāo)簽、含義及示例。

        表2 PQI 數(shù)據(jù)集標(biāo)注標(biāo)簽含義及示例Tab.2 PQI dataset annotation label meaning and examples

        3.2 標(biāo)注規(guī)范

        BIOE 標(biāo)記比BIO 標(biāo)記能更清楚地劃分實(shí)體邊界。本文對(duì)數(shù)據(jù)集的標(biāo)注使用BIOE 標(biāo)注模式, 具體標(biāo)注意義如表3 所示, 其中Type 代表不同實(shí)體分類。

        表3 BIOE 標(biāo)記Tab.3 BIOE mark

        本文所用的數(shù)據(jù)格式全部為Conll 格式, 分為數(shù)據(jù)和標(biāo)簽兩列。表4 為部分實(shí)體標(biāo)注的數(shù)據(jù)和標(biāo)簽對(duì)應(yīng)情況。

        表4 部分?jǐn)?shù)據(jù)集標(biāo)注Tab.4 Partial dataset annotation

        4 實(shí)驗(yàn)和結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境

        本文采用Python 編程語(yǔ)言3.6 版本, 實(shí)驗(yàn)和硬件具體參數(shù)如表5 所示。

        表5 實(shí)驗(yàn)和硬件參數(shù)Tab.5 Experiment and hardware parameters

        4.2 實(shí)驗(yàn)參數(shù)設(shè)置

        主要采用網(wǎng)格搜索法來(lái)進(jìn)行參數(shù)調(diào)節(jié),一部分來(lái)自于現(xiàn)有的實(shí)驗(yàn)結(jié)論,另一部分在模型訓(xùn)練中進(jìn)行實(shí)時(shí)調(diào)整,具體的實(shí)驗(yàn)參數(shù)配置如表6 所示。

        表6 參數(shù)設(shè)置Tab.6 Parameter settings

        4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        本文實(shí)驗(yàn)中使用序列標(biāo)注任務(wù)常用的準(zhǔn)確率(precision rate,P)、召回率 (recall rate,R)和F1值作為模型性能的評(píng)價(jià)指標(biāo):

        式中,TP(true positive) 表示被判定為正樣本, 事實(shí)上也是正樣本;FP(false positive)表示被判定為正樣本,但事實(shí)上是負(fù)樣本;FN(false negative)表示被判定為負(fù)樣本,但事實(shí)上是正樣本。

        4.4 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證該模型在公共數(shù)據(jù)集(這里采用簡(jiǎn)歷數(shù)據(jù)集Resume[14]) 和在PQI 數(shù)據(jù)集的識(shí)別性能, 與以下幾個(gè)模型(CRF、BiLSTM、BiLSTMCRF、Lattice、CNN-BiLSTM-CRF) 進(jìn)行對(duì)比, 并比較了各模型對(duì)實(shí)體的識(shí)別性能,詳細(xì)對(duì)比結(jié)果如表7、8 所示。

        表7 Resume 語(yǔ)料對(duì)比結(jié)果Tab.7 Resume corpus comparison results

        由表7 可知, 由于Resume 數(shù)據(jù)集的文本簡(jiǎn)單且結(jié)構(gòu)單一,在各個(gè)模型的實(shí)驗(yàn)表現(xiàn)優(yōu)秀。本文的模型相比于BiLSTM-CRF 在各個(gè)指標(biāo)均有所提升,驗(yàn)證了CNN 和Attention 機(jī)制的有效性。由表8 可知, 針對(duì)PQI 數(shù)據(jù)集的識(shí)別, 單個(gè)CRF 識(shí)別的準(zhǔn)確率為62.5%, 說明傳統(tǒng)的機(jī)器學(xué)習(xí)能夠有效對(duì)此類文本抽象建模, 具有良好的適應(yīng)性。BiLSTM 的準(zhǔn)確率比CRF 提升了2.6%, BiLSTM-CRF 在準(zhǔn)確率上相對(duì)于BiLSTM 提高了5.0%, 在F1值上提高了4.0%, 說明BiLSTM 與CRF 結(jié)合可以捕捉長(zhǎng)距離信息, 并且能夠充分利用相鄰標(biāo)簽的關(guān)系, 輸出最優(yōu)化標(biāo)簽序列。CNN-BiLSTM-CRF 的準(zhǔn)確率比BiLSTM-CRF 提高了3.0%,F1值提高了4.2%,表明CNN 特征抽取可以有效提升識(shí)別效果。本文的模型相較于CNN-BiLSTM-CRF 模型加入了Attention機(jī)制解決了序列過長(zhǎng)的問題,在3 個(gè)指標(biāo)上均有所提升,并且模型所需訓(xùn)練時(shí)間較短,得到最高F1值74.8%。

        表8 PQI 語(yǔ)料對(duì)比結(jié)果Tab.8 PQI corpus comparison results

        5 結(jié) 語(yǔ)

        本文研究了應(yīng)用于PQI 領(lǐng)域的NER。首先通過數(shù)據(jù)挖掘、處理和標(biāo)注, 構(gòu)建了一個(gè)產(chǎn)品質(zhì)量監(jiān)督檢測(cè)語(yǔ)料庫(kù), 填補(bǔ)了在該領(lǐng)域的數(shù)據(jù)集空白。此外提出了一個(gè)融合注意力機(jī)制的CNN-BiGRU-CRF 模型,將文本的詞向量、詞長(zhǎng)向量和CNN 提取的特征向量結(jié)合,充分提取文本的全部特征,獲取整個(gè)序列最優(yōu)標(biāo)注。

        與其他模型相比,該模型能有效識(shí)別8 種實(shí)體,不用添加人工特征,通過少量有標(biāo)注的語(yǔ)料可以學(xué)習(xí)到文本所包含的特征信息,在小規(guī)模質(zhì)檢語(yǔ)料上取得了比現(xiàn)有方法更高的P、R和F1值,驗(yàn)證了該模型的有效性。但由于缺乏完善的詞典庫(kù), 細(xì)粒度的中文NER 有很大的提升空間。

        猜你喜歡
        注意力實(shí)體標(biāo)簽
        讓注意力“飛”回來(lái)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        A Beautiful Way Of Looking At Things
        標(biāo)簽化傷害了誰(shuí)
        无码一区久久久久久久绯色AV| 亚洲毛片在线免费视频| 国产毛片黄片一区二区三区| 色五月丁香五月综合五月| 国产精品爽黄69天堂a| 热久久这里只有| 一本色道久久综合亚洲精品蜜臀| 91国产精品自拍视频| 精品一二三四区中文字幕| 精品国内在视频线2019| 久久久久99精品成人片试看 | 欧美人与禽交zozo| 老熟妇高潮av一区二区三区啪啪| 手机在线免费观看的av| 国产乱子伦精品无码专区 | 日韩在线视精品在亚洲 | 国产亚洲成性色av人片在线观| 成人免费xxxxx在线观看| 日本巨大的奶头在线观看| 久久亚洲国产精品五月天| 最新国产精品国产三级国产av| 日韩精品人妻中文字幕有码在线| 少妇人妻精品一区二区三区| 亚洲av日韩av永久无码色欲| 国产在线高清无码不卡| 国产精女同一区二区三区久| 亚洲综合国产成人丁香五月激情 | 亚洲精品国产一区二区| 亚洲旡码a∨一区二区三区| 亚洲一区区| 亚洲中文字幕一二区精品自拍| 亚洲精品人成中文毛片| 伊人久久大香线蕉亚洲五月天| 综合色久七七综合尤物| 少妇裸淫交视频免费看| 日韩精品视频免费网站| 欧美老熟妇喷水| 在线看亚洲十八禁网站| 国产精品丝袜一区二区三区在线 | 国产在线视频一区二区天美蜜桃| 岳毛多又紧做起爽|