亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的中文實體類型邊界識別模型研究

        2023-04-29 00:00:00賀桂嬌?陳慶盛
        信息系統(tǒng)工程 2023年4期

        摘要:如今英文實體類型識別技術(shù)得到快速發(fā)展,但中文文本整體結(jié)構(gòu)較為復雜,經(jīng)常存在多義現(xiàn)象,同一個詞在不同的句、不同的位置有不同的含義,這為中文實體類型識別技術(shù)的研究發(fā)展造成嚴重阻礙。同時,目前常用的實體類型識別模型解碼層主要使用機器學習算法,但算法整體提取精度和維特比算法執(zhí)行效率較低,難以滿足當前需求。基于以上中文實體類型識別難點,基于中文語言特性,提出基于深度學習的中文實體類型邊界識別模型。此模型主要采用基于多元卷積解碼與二分類模型訓練方法,實現(xiàn)所有輸入通過自注意力進行提取,可有效提高模型訓練的針對性,解決中文實體類型邊界識別中詞語歧義等問題。

        關(guān)鍵詞:中文實體類型識別;混合神經(jīng)網(wǎng)絡;聯(lián)合學習;完全自注意力機制

        一、前言

        近年來,隨著計算機硬件、軟件技術(shù)和移動互聯(lián)網(wǎng)的飛速發(fā)展,人們?nèi)粘I钪挟a(chǎn)生的數(shù)據(jù)如文本、圖像、視頻、音頻等呈爆炸式增長。如何對這些數(shù)據(jù)進行分析處理,從中提取有價值的信息,已成為推動經(jīng)濟社會發(fā)展和科技進步的重要因素[1]。自然語言處理技術(shù)在數(shù)據(jù)處理中具有重要地位,是近年來科學研究的一個重要領(lǐng)域[2]。

        本文分析了統(tǒng)計機器對象識別方法和神經(jīng)網(wǎng)絡方法,根據(jù)命名對象識別函數(shù)的特點,設(shè)計了多元卷積選擇方案和二元損失函數(shù)學習方法,對所提出的模型進行了有效的圖形比較分析以及參數(shù)改良優(yōu)化,與當前最優(yōu)化的建模方式進行了比較,探究其優(yōu)勢和劣勢以及存在的問題原因,并與本文中的模型進行驗證。

        二、基于深度學習的中文實體類型邊界識別模型的研究

        (一)中文實體識別

        在文本中,對象識別是從非結(jié)構(gòu)化文本中提取和分類對象。該任務通常會變成一個順序標記問題進行處理。文本以字序列的形式輸入到模型中,得到的結(jié)果是一個基于文本的對象標記過程。傳統(tǒng)的識別方法維護困難,而近年來深度識別方法的快速發(fā)展則避免了這些問題。

        對于中文語境中的自然語言處理操作,它不同于其他語言中的自然語言處理操作。以英語為例,它有明確的分詞界限。在一般描述的情況下,可以通過基于空格和標點符號指定文本來獲得處理的基本單元。對于中文來說,一開始并沒有明確的詞類邊界,所以通常以一個字符為基本單位的向量表示作為輸入信息,但由于簡單的詞向量不能表示多義、語法、形態(tài)等信息,因此識別效果不理想。對于文本分割的效果,現(xiàn)有的文本分割工具不足以解決這些問題,影響了模型的有效性。

        (二)統(tǒng)計機器學習識別方法

        經(jīng)典的統(tǒng)計機器學習步驟是先對原始語料庫上的復雜數(shù)據(jù)進行預處理,然后手動提取重要特征,形成訓練數(shù)據(jù)和測試數(shù)據(jù),最后選擇分類器進行模型訓練和評估[3]。對于機器學習方法,人工設(shè)計和特征構(gòu)建是最重要的步驟,特征的好壞決定了最終的識別結(jié)果[4]。詞提取特征模型組合的特征,分類器隨機選擇空間進行測試。

        (三)神經(jīng)網(wǎng)絡方法

        在神經(jīng)網(wǎng)絡中,輸入信號的方式是透過各個網(wǎng)絡層的隱節(jié)點以輸出的過程作為前向定向傳播,在這個過程中,參數(shù)主要通過梯度反向傳播實現(xiàn)參數(shù)升級。在實際應用中,反向傳播是利用鏈式法則遞歸計算進行表達式梯度的方法,反向傳播從最后一層神經(jīng)元開啟,根據(jù)前向傳播結(jié)果與標簽的誤差來進行參數(shù)的優(yōu)化升級,在此基礎(chǔ)上將所產(chǎn)生的誤差逐層往前傳播并不斷優(yōu)化神經(jīng)元參數(shù)的過程。一般情況下,在進行梯度反向傳播的過程中通常會應用到梯度下降法作為優(yōu)化算法。在算法中,假設(shè)J(θ)為所對應的目標函數(shù),梯度下降法的主要目標是把目標函數(shù)降到最小值J(θ)。在變量過程中,如果所對應的目標函數(shù)處于該變量梯度的相反方向,那么必須優(yōu)化對應的參數(shù)值,而學習率η跟參數(shù)優(yōu)化的幅度密切相關(guān),直接決定了函數(shù)到達(局部)極小值的迭代次數(shù)。換句話說,是到達超平面構(gòu)成的谷底所需要的次數(shù)數(shù)值。

        LSTM模型的網(wǎng)絡結(jié)構(gòu)進行了一定的優(yōu)化升級,不僅引入新的內(nèi)部狀態(tài),而且引入了門控機制。在該模型網(wǎng)絡結(jié)構(gòu)中,新的內(nèi)部狀態(tài)可以記錄到當前時刻t為止的比較全面的信息,此種網(wǎng)絡模型結(jié)構(gòu)的作用主要體現(xiàn)在以下兩方面:一是進行線性的循環(huán)信息傳遞,二是非線性地輸出信息給隱藏層的外部狀態(tài)。在門控機制過程中,LSTM模型引入了三個門進行信息流的有效控制,這三個門主要包含輸入門、遺忘門以及輸出門。其中,遺忘門的作用主要是為了控制上一個時刻的內(nèi)部狀態(tài)需要遺忘的信息量,輸入門的主要作用是控制當前時刻的候選狀態(tài)需要記錄的信息量,而輸出門的主要作用在于控制當前時刻的內(nèi)部狀態(tài)需要輸出的信息量給予外部狀態(tài)。

        神經(jīng)網(wǎng)絡方法的基本原理與機器學習方法的基本原理大致相同。他們都在機構(gòu)的監(jiān)督下訓練和評估模型。最大的不同是神經(jīng)網(wǎng)絡的方法提取了模型需要處理的特征,從而完成了數(shù)據(jù)預處理過程。更簡單地說,檢測器會使用一個簡單的多層感知器。因此,最終的實驗結(jié)果取決于神經(jīng)網(wǎng)絡的設(shè)計,一個好的網(wǎng)絡可以更有效地提取特征。本文主要基于三種典型的神經(jīng)網(wǎng)絡模型LSTM、CNN、Transformer來自動抽取特征,分類器使用多層感知機,并結(jié)合條件隨機場來學習標簽之間的轉(zhuǎn)移概率。

        (四)本文模型框架

        第一層是嵌入層,其中嵌入方法可以替換為訓練之前提出的每一種方法作為最終向量,例如 Word2Vec、ELMo或BERT。

        第二層為完全自注意力機制。我們使用當前位置詞查詢向量和每個關(guān)鍵向量的符號乘積得到句子中每個詞的當前位置得分,然后用softmax對其進行歸一化。

        第三和第四階段是解碼層,由多元卷積變換和softmax函數(shù)組成。它將全自毀系統(tǒng)生成的每個向量通過多元卷積變換連接成一個矩陣和所有向量。將全連接平面中的每個向量組合起來,去掉大小為c的維度,然后使用softmax函數(shù),最高得分稱為該位置的詞或詞對象識別符號 。

        此外,本文提出了一種擴展編碼技術(shù)。這樣做的目的是豐富每個單詞的條目作為一個單獨的單詞,其中單詞的定義作為單詞的一部分并包含單詞邊界信息。我們可以用高斯核函數(shù)來計算每個術(shù)語的效應擴散權(quán)重。在高斯核函數(shù)中,u參數(shù)主要針對當前編碼的單詞與句子中其他單詞之間的絕對位置距離。

        三、基于深度學習的中文實體類型邊界識別模型的構(gòu)建

        (一)多元卷積解碼層

        本文的模型使用卷積運算來確定編碼層。為了描述所謂的對象識別功能,首先將每個濾波器的卷積結(jié)果連接成一個一維向量。上述變換過程可以表示為:

        其中,由于該模型中濾波器的行數(shù)等于輸入矩陣的行數(shù),因此s必須始終為1,v必須滿足0≤t≤k。filter是模板定義的過濾器,是過濾器的數(shù)量。

        卷積層的輸出與多層感知器相同,最終輸出是一個1*t維的特征,其中t是命名特征類的數(shù)量。最后,softmax函數(shù)進行歸一化。公式是:

        d為倒數(shù)第二層的輸出,t為標簽種類數(shù)量。

        多元卷積變換將它與矩陣中的相鄰字符向量連接起來并旋轉(zhuǎn)它。提取項目類中每個過濾器的特征,得到的向量是項目類中當前單詞位置的加權(quán)表示。

        (二)基于二分類與多分類的多任務訓練機制

        在解碼階段,我們根據(jù)數(shù)據(jù)集中符號類型的數(shù)量來定義過濾器的數(shù)量。對于t-group,得到特征向量t。為了轉(zhuǎn)換代碼向量,兩個多任務類的損失函數(shù)必須為每個過濾器使用的損失函數(shù)分配相應的權(quán)重,以提取特征并將它們組合起來。公式如下:

        其中,σ為一個標量的觀測噪聲。

        四、基于深度學習的中文實體類型邊界識別模型的實驗與分析

        (一)實驗配置

        測試過程中,深度網(wǎng)絡模型的學習對計算機配置有一些要求。例如,深度學習需要許多并行計算資源,通常是數(shù)小時甚至數(shù)天。顯卡可以提供比CPU快數(shù)十或數(shù)百倍的速度。在深度學習方面,Windows操作系統(tǒng)的支持并不比Ubuntu系統(tǒng)多。Windows上的訓練模型通常容易出現(xiàn)問題?;诖耍捎玫挠嬎銠C配置如表1所示。

        (二)實驗數(shù)據(jù)集

        本文用于關(guān)系抽取實驗的數(shù)據(jù)是互聯(lián)網(wǎng)上一個開源的人物關(guān)系數(shù)據(jù)集。該數(shù)據(jù)集中有10種人物關(guān)系,共計約10萬條數(shù)據(jù)。 每個數(shù)據(jù)段有3列信息,即人物1和人物2,以及人物關(guān)系。選擇其中50,000個作為訓練集,50,000個作為測試集。

        (三)二分類多損函數(shù)訓練實驗

        本文將在訓練時修改模型上下文,為每個濾波器卷積解碼后的輸出向量添加二類實體標簽。 結(jié)果如圖1所示。

        可以看出,基于二類多損失函數(shù)的訓練方法顯著提高了召回率和召回率。另外,由于每個后處理的有效率都非常小,所以本文的實驗增加了一個滿刻度來擴大樣本。加入二分類所損失函數(shù)訓練后,準確率和召回率分別提升了6.5和3.05。加入128個隱藏神經(jīng)元的全連接層進行維度擴充后F值又提升了3.36。

        (四)實體邊界識別效果實驗

        本文對比了BiLSTM-CRF,BiGRU-CRF和中文命名實體識別等模型,實驗結(jié)果如圖2所示。

        從實驗結(jié)果中,首先可以看出,基于預訓練語言模型BERT的實體邊界識別效果要明顯優(yōu)于雙向循環(huán)神經(jīng)網(wǎng)絡,這一點在EM指標上提現(xiàn)尤為明顯。這是因為基于大量語料預訓練的BERT學習的文本上下文編碼遠豐富于由Skip-gram模型訓練的靜態(tài)詞向量。

        最后,根據(jù)BERT模型和本文模型的實驗結(jié)果可以看出,融合多元卷積解碼層的實體邊界識別任務是有提升效果的。同時,針對本文的研究內(nèi)容,使用二分類與多分類的多任務訓練機制的效果略好,證明了可以通過本文模型達到更好的識別效果。

        五、結(jié)語

        在前人提出的深度網(wǎng)絡方法的基礎(chǔ)上,我們提出了一種基于深度學習的中文命名實體識別模型,取得了一定的效果,但也存在一些局限性和不足。在未來的研究中,如果有完整的語料庫,或者其他相關(guān)領(lǐng)域的良好語料庫,可以做進一步的研究。本文中抽象關(guān)系的實現(xiàn)是通過確定主體之間的關(guān)系來實現(xiàn)的。本文中文命名實體識別中無關(guān)一對多、多對一或多對多的研究。在未來的研究中,建議使用更密集的優(yōu)化方法和模型設(shè)計來解決這個問題。

        參考文獻

        [1]張汝佳,代璐,王邦,等.基于深度學習的中文命名實體識別最新研究進展綜述[J].中文信息學報,2022,36(06):20-35.

        [2]秦放,曾維佳,羅佳偉,等.基于深度學習的多模態(tài)融合圖像識別研究[J].信息技術(shù),2022(04):29-34.

        [3]鄧依依,鄔昌興,魏永豐,等.基于深度學習的命名實體識別綜述[J].中文信息學報,2021,35(09):30-45.

        [4]吳湘寧,賀鵬,鄧中港,等.一種基于注意力機制的小目標檢測深度學習模型[J].計算機工程與科學,2021,43(01):95-104.

        基金項目:廣州軟件學院2021年科研項目(項目編號:ks202112)

        亚洲中文字幕无码一久久区| 亚洲一区二区三区18| 论理视频二区三区四区在线观看| 精品福利一区二区三区免费视频| 亚洲熟少妇在线播放999| 亚洲制服无码一区二区三区| 国产一区亚洲一区二区| 日本av一区二区三区在线| 亚洲日韩av无码| 伊人久久大香线蕉免费视频 | 亚洲精品一区网站在线观看| 日韩女优在线一区二区| 2021国产精品视频网站| 人人爽人人爱| 国产精品久久久久…| 牛仔裤人妻痴汉电车中文字幕| 国产精品亚洲专区无码不卡| 人妻暴雨中被强制侵犯在线| 亚洲专区路线一路线二天美| 99热婷婷一区二区三区| 一边做一边说国语对白| 国产成人vr精品a视频| 99热这里只有精品久久6| 日本少妇熟女一区二区| 精品无码国产自产拍在线观看| 国产人碰人摸人爱视频| 国产美女自拍国语对白| 日韩极品视频免费观看| 日日摸天天摸人人看| 女的把腿张开男的猛戳出浆 | 亚洲av永久一区二区三区| 蜜臀亚洲av无码精品国产午夜.| 国产主播一区二区三区在线观看| 淫妇日韩中文字幕在线| 亚洲一区二区三区少妇| 久精品国产欧美亚洲色aⅴ大片| a级福利毛片| 亚洲长腿丝袜中文字幕| 日本成本人片免费网站| 久青草国产在线观看| 国产青春草在线观看视频|