亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        完全自注意力融合多元卷積的中文命名實體識別研究①

        2022-11-22 10:50:30王宗澤張吳波
        關鍵詞:信息模型

        王宗澤, 張吳波

        (湖北汽車工業(yè)學院電子信息系,湖北 十堰 442002)

        0 引 言

        命名實體是從眾多的信息數(shù)據(jù)中選取固定的實體以方便自然語言應用機器識別出某些實體名稱,進而生成具有關鍵詞性的信息結(jié)果,避免信息冗雜影響人們對數(shù)據(jù)信息提取的準確性[1-2]。中文信息數(shù)據(jù)的提取與英語相比,缺少相應的詞性邊界來實現(xiàn)斷句和達意,且市面上常見的翻譯軟件和編碼器難以對中文信息實現(xiàn)較好的提取效果,如傳統(tǒng)卷積神經(jīng)網(wǎng)絡以固定的卷積核對信息進行提取,對詞語的分界、詞性嵌套以及字詞歧義等問題的區(qū)分上還存在一定的不足,其精準性和可靠性難以保證[3-4]。采用完全自注意力融合多元卷積的模型方式可以有效避免傳統(tǒng)模型對中文命名實體識別存在的缺陷,自注意力機制通過比較當前解碼器在對單個字詞占長度序列中的權重,并在解碼器中使得每次生成的詞語具有獨一性,大大提高了解碼器對信息提取的順暢性和突出性[5]。將完全自注意力與多元卷積神經(jīng)網(wǎng)絡進行融合,有助于提高中文命名實體識別的準確性,避免了詞性和用語習慣對不同人群實現(xiàn)信息提取的干擾。

        1 中文命名實體識別下的融合模型構建

        1.1 完全自注意力編碼機制模型的建立

        目前常見的命名實體模型多依托于循環(huán)神經(jīng)網(wǎng)絡和雙向長短期記憶網(wǎng)絡編碼,實現(xiàn)了信息的提取,符合人固定的閱讀順序習慣,但對相同主要主語所指代的不同意思難以進行區(qū)分和辨別,如相同的語句長度中不同主語所對應的動作形式和含義的往往不受句子長短的影響,而與實體動作的發(fā)出對象有關,傳統(tǒng)的編碼器難以提取到相同詞語在不同的信息數(shù)據(jù)中的含義和特征差異[6]。完全自注意力模型通過在對中文命名實體進行信息特征提取的時候,根據(jù)信息傳遞的特征進行選擇性的信息傳遞,而較少受到句子中字詞間距離的影響,直接驅(qū)動硬件,實現(xiàn)運算任務的執(zhí)行,能夠較大程度上提高編碼模型的運算效率和針對性[7]。其運行機制如圖1所示。

        圖1中,編碼器將任務信息輸入,通過對句式中的信息和內(nèi)容進行評分,得到各個字詞在句子中的重要程度權重占比,然后通過評分結(jié)果將機器的“注意力”集中在某些字詞上,并根據(jù)權重值較大的字詞與其相鄰字詞之間的關聯(lián)程度來確定其是在句子中的含義,借以避免陷入因一詞多義的干擾而使得信息的提取出現(xiàn)誤差。自注意力機制跳出了將信息和單詞雜糅成一個具體目標向量的局限,而將編碼的注意力分配到句子中的實詞上,生成查詢、鍵入和值三個向量,并以此為參考依據(jù)得到每個部分特定詞的自注意向量,進而將主要的信息傳遞給解碼器,即完成了對長時序信息的關鍵部分提取[8]。該運行機制中的主要公式及含義如式(1)所示。

        A(P)=softmax(PNc(PNj)T)PNs

        (1)

        式(1)中,A(P)為輸出矩陣,P為輸入值,c,j,s為查詢向量、鍵入向量和數(shù)值向量,Nc,Nj,Ns為對應的查詢向量矩陣,鍵入向量矩陣和數(shù)值向量矩陣,Softmax為函數(shù),T為標簽數(shù)量。輸入數(shù)據(jù)信息中的每個字詞的評分由信息碼和內(nèi)容碼組成,通過對不同字詞之間是否存在前后信息的連貫性可以判斷該主語的意思及其他相同主語意思之間的區(qū)別[9]。

        1.2 編碼機制下融合多元卷積神經(jīng)網(wǎng)絡的模型構建

        利用多元卷積解碼框架可以對中文命名實體信息中的詞性嵌套問題進行識別,同時不以固定的卷積核作為目標向量,而是通過關聯(lián)前后字詞的語法和詞意來實現(xiàn)單獨標簽種類的解碼,實現(xiàn)對提取信息的優(yōu)化準確,即在融合完全自注意力機制下,對中文命名實體任務的提取著重點于關注相鄰詞語之間的關系,并進行建模[10-11]。其運行機制的結(jié)構圖如圖2所示。

        圖2模型結(jié)構圖展示出,通過對輸入映射層的句子信息判斷其字詞占整個句子中的權重評分,并對其在原始位置上進行位置向量的增加,隨后對每個位置向量進行卷積矩陣操作,即可得到精確性較高的輸出數(shù)據(jù)。機制的數(shù)學公式如式(2)所示。

        (2)

        式(2)中,bi為自注意力向量,i為自注意力的個數(shù),Bi為自注意向量拼接成的矩陣,r為過濾器,Concat(Conv[B1,B2,...,Bn]為Bi通過卷積生產(chǎn)得到的矩陣,MLP為多層感機,tanh為非線性化激活函數(shù)。借助多層感知機和函數(shù)對卷積生成的具有識別任務的卷積核進行信息特征的抓取以區(qū)別不同字詞所代表標簽數(shù)的強弱關系,其意義在于避免操作過程的冗余,對前后數(shù)據(jù)信息的關聯(lián)卷積可以保證信息的順暢性,進而更好判斷出標簽種類,發(fā)現(xiàn)隱藏向量與關聯(lián)字詞之間的特征關系,提高信息提取的準確性[12]。式(3)為矩陣運行公式。

        (3)

        式(3)中,o為關聯(lián)的單詞數(shù)量,C.k表示模型的卷積核,n為過濾器的個數(shù),M(s,v)為卷積核經(jīng)過卷積后的結(jié)果,Concate為連接首尾向量的結(jié)果,Di為第i個標簽的矩陣,融合自注意力和多元卷積的模型機制可以實現(xiàn)對信息序列進行標簽化分類和卷積操作,進而實現(xiàn)對信息特征的提取。

        對于中文命名實體中的判斷識別需要運用評價指標對其進行定量分析,包括準確率、召回率和F值,F(xiàn)值的計算公式如式(4)所示。

        (4)

        式(4)中,P,R分別代表準確率和召回率。

        2 混合模型下的中文命名實體識別研究的應用分析

        2.1 融合模型的性能評測及其有效性檢驗

        為了驗證采取的模型對中文命名實體關系提取的有效性,分別將其與卷積神經(jīng)網(wǎng)絡模型(Convolutional Neural Network, CNN)、雙向遞歸神經(jīng)網(wǎng)絡 (Bi-directional recurrent Neural Net-work,BRVV)、雙向長短期記憶神經(jīng)網(wǎng)絡模型(Bi-directional Longshort-term Memory,BiLSTM)進行對比實驗方法,皆采用同樣的詞向量和位置向量作為模型的輸入,以PR曲線(Rrecision-Recall曲線)對不同模型在處理中文命名實體的效果進行分析[13-14]。PR曲線能夠綜合考慮模型的準確率和召回率,可以反映出模型在對中文信息的特征提取時的精準變化[15]。結(jié)果如圖3所示。

        圖3(a)中,混合模型和BLSTM模型的PR曲線相較于BRNN模型和CNN模型更靠近右下角,而從數(shù)值來看的話,BRNN模型、BLSTM模型和CNN模型的準確率分別為86.12%,87.54%和79.14%,混合模型的PR曲線在對數(shù)據(jù)信息的提取上的準確率為93.67%,有效減少了中文詞意中的一詞多義帶來的信息提取困難。圖3(b)對任務的訓練機制是通過辨別中文命名信息的關鍵部分,持續(xù)迭代,直到其能夠?qū)崿F(xiàn)對信息的正確提取。數(shù)據(jù)表明混合模型在訓練樣本達到50次時,其運行的狀態(tài)已經(jīng)趨于平穩(wěn),變化幅度較之其他模型在次數(shù)為50次則波動較小,且混合模型在數(shù)據(jù)集中的F值為84.23。上述結(jié)果表明自注意力機制能夠較好考慮到句子序列中字詞之間的關聯(lián)性,穩(wěn)定性較好,也有效避免了傳統(tǒng)卷積神經(jīng)網(wǎng)絡中固定卷積核對句子序列中信息提取的限制問題。

        表1中,混合模式在進行實詞替換后和偏旁部首干擾后,對數(shù)據(jù)信息提取的準確率和召回來都有所提高,即對主語、賓語進行替換后對其在分詞、斷句和釋意方面的F1 值達到了86.56,89.28和90.36。而偏旁部首的干擾也使得融合模式提取信息時的分詞、斷句的漲幅達到了12.3%,22.4%。偏旁部首的加入能夠擴大對數(shù)據(jù)信息檢索的范圍,對于部分缺少數(shù)據(jù)集的語料庫具有較好的豐富和補充作用,為提取地名、人名等信息的識別準確率和召回率具有一定的優(yōu)勢。在加入位置后的多元卷積與原有的卷積神經(jīng)網(wǎng)絡相比,其準確率和召回率都有所上升,表明其對于每個實詞和虛詞在整個句子中權重值能有較好的評估。

        表1 不同模型對句子信息的提取能力比較

        2.2 融合模型對中文命名實體信息提取的應用分析

        中文命名實體的識別常會受到詞性的嵌入以及自注意力層數(shù)的影響,進而對模型在提取信息的準確率方面造成干擾,其結(jié)果如圖4所示。

        圖4(a)中,隨著自注意力層數(shù)的增加,混合模型對信息的提取精確率都呈現(xiàn)出上漲的趨勢,而在層數(shù)達到第六層時,模型的準確率和召回率都逐漸趨于平穩(wěn)態(tài)勢,表明自注意力編碼的層數(shù)對提取特征信息能力具有較好的積極影響效果。圖4(b)中,鍵入和查詢的向量為192維度時,嵌入字的維度為由64維增加至256維時,模型對信息提取的準確率增幅達到了12.13%,召回率也有明顯的提升。但當鍵入和查詢向量的增加1/2時,其嵌入維度的變化對模型的檢測結(jié)果沒有較為明顯的影響,即對每個字的注意力分值沒有明顯的波動,表明模型在維度為192維時,對信息的提取已經(jīng)具有較好的效果。同時對融合模型下不同測試集下的應用效果進行分析,結(jié)果如表2所示。

        表2 混合模型下不同測試集所對應的F值變化

        由表2可知,數(shù)據(jù)集的變化使得模型在識別任務中F值也隨之變化,加入字詞嵌入和編碼拼接后的模型在F值變化數(shù)據(jù)較快,且在后期的收斂速度更快。拼接模型在數(shù)據(jù)集為13個時,F(xiàn)值達到了85.83,但其抖動程度較為明顯,在模型收斂時具有較大的起伏。字詞嵌入的模型在數(shù)據(jù)集為20個之后基本趨于平穩(wěn),且其F1值始終維持在85.52左右,與未經(jīng)過聯(lián)合學習的模型相似,表明中文分詞的聯(lián)合學習更大可能作用在字編碼階段。

        3 結(jié) 論

        探究融合完全自注意力和多元卷積網(wǎng)絡下的中文命名實體識別模型對信息提取的準確率和結(jié)構化方面具有重要的影響。結(jié)果表明,混合模型的準確率(93.67%)都明顯優(yōu)于BRNN模型(86.12%),kBLSTM模型(87.54%)和CNN模型(79.14%)的準確率,且其在訓練樣本數(shù)量增加后,混合模型的整體運行狀態(tài)較為平穩(wěn),其F值達到了84.23,受實詞替換和偏旁部首干擾的影響較小,在對分詞信息的提取上實現(xiàn)了12.3%的漲幅。相同詞性的不同主語進行替換之后,混合模型對分解語段和掌握語意方面的準確率達到了90.78和91.77。當嵌入字的維度達到了192維時,模型已經(jīng)能夠?qū)π畔⒌奶崛【哂休^好的應用效果,準確率提高了12.13%。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        一個相似模型的應用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        国产人妻精品一区二区三区| 一卡二卡国产av熟女| 99久久婷婷国产亚洲终合精品| 99久久超碰中文字幕伊人| 九九九精品成人免费视频小说| 亚洲男同志网站| 国自产拍偷拍精品啪啪一区二区| 性生交大片免费看淑女出招| 久久久综合九色合综国产| 一区二区三区夜夜久久| 天天干天天日夜夜操| 国产精品无码av一区二区三区 | 亚洲国产精品一区二区| 黄色录像成人播放免费99网| 亚洲韩日av中文字幕| 无套内谢老熟女| 无尽动漫性视频╳╳╳3d| 久久国产精彩视频| 国产精品人成在线765| 中国久久久一级特黄久久久| 2021久久精品国产99国产精品| 国产爆乳无码一区二区在线| 国产av自拍在线观看| 强开小婷嫩苞又嫩又紧视频| 国产在线无码制服丝袜无码| 国模少妇无码一区二区三区| 国产视频一区二区三区观看| 日本高清视频永久网站www| 在线综合网| 国产亚洲精品一区二区在线播放| 2021国产精品视频网站| 亚洲精品国产av成拍色拍| 日本高清在线播放一区二区三区| 国产精品一区二区三区在线观看| 美丽人妻在夫前被黑人| 日本一本久道| 亚洲伊人av综合福利| 亚洲欧美综合精品成人网站| 国产亚洲视频在线观看网址| 午夜人妻中文字幕福利| 日本伊人精品一区二区三区|