亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合N-Gram的水產(chǎn)養(yǎng)殖長(zhǎng)文本實(shí)體關(guān)系聯(lián)合抽取

        2025-07-14 00:00:00畢甜甜張思佳孫旭菲王水濤王祎涵安宗詩(shī)
        關(guān)鍵詞:文本模型

        關(guān)鍵詞:水產(chǎn)養(yǎng)殖;長(zhǎng)文本;實(shí)體關(guān)系聯(lián)合抽取;N-Gram算法;多模型融合算法DOI:10. 15938/j. jhust. 2025. 02. 010中圖分類號(hào):TP391.1;S951.2 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1007-2683(2025)02-0091-13

        Abstract:Tosolvetheproblemofmisjudgmentandlossofvalidinformationcausedbyalargeamountof irelevantinformationin aquaculturelongtext,ajointextractionmethodofentityrelationsbasedonN-Gramfusionwasproposed.Firstly,themulti-model fusionalgorithmisused toextract thetextmatrixfeaturemapbasedonBERTiitialization,andthenthecascadingBiLSTMisusedto extractedepfeatures.Afterthat,thefeaturesofthelongtextslcematrixpreprocessedbyfusionN-Gramalgorithmareeracted layerbylayer,andtherelativeandabsolutepositionsofslicematrixaremodeled.Theexperimentalresultsontheself-constructed aquaculturelong textdatasetandSKE publicdataset show significant improvementscompared withthe benchmark model.The experimentalresultsshowthatthismethodcanfullacquireandprocessthesemanticinformation inaquaculturelongtext,and effectively improve the accuracy and integrity of entity relation extraction.

        Keywords:aquaculture;long text;joint extractionof entityrelations;N-Gram algorithm;multi-model fusion algorithm

        0 引言

        隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,各行各業(yè)都在向智慧化方向轉(zhuǎn)型[1-3],水產(chǎn)養(yǎng)殖業(yè)也在向精準(zhǔn)化和集約化的養(yǎng)殖方式轉(zhuǎn)變。借助先進(jìn)的科學(xué)技術(shù),提高水產(chǎn)養(yǎng)殖智慧化建設(shè)水平已成為水產(chǎn)養(yǎng)殖業(yè)高速發(fā)展的重要保障和未來(lái)發(fā)展的趨勢(shì)。構(gòu)建水產(chǎn)養(yǎng)殖知識(shí)圖譜是整合和共享水產(chǎn)養(yǎng)殖領(lǐng)域知識(shí)的有效手段,為水產(chǎn)養(yǎng)殖產(chǎn)業(yè)的可持續(xù)發(fā)展提供支持和保障。其中,關(guān)系抽取是構(gòu)建知識(shí)圖譜的主要任務(wù)之一,其目的是判斷自然語(yǔ)言文本中兩個(gè)實(shí)體之間的潛在語(yǔ)義關(guān)系[4]。水產(chǎn)養(yǎng)殖關(guān)系抽取的目標(biāo)是從水產(chǎn)養(yǎng)殖相關(guān)的文本中自動(dòng)抽取出生物存在的關(guān)系,通過(guò)將這些關(guān)系組織成知識(shí)圖譜的形式,可以更加清晰和準(zhǔn)確地了解水產(chǎn)養(yǎng)殖生態(tài)系統(tǒng)中不同生物和環(huán)境等之間的相互作用,為決策者提供更加全面的參考和指導(dǎo)。因此,關(guān)系抽取技術(shù)在漁業(yè)智慧化養(yǎng)殖中充當(dāng)關(guān)鍵角色,使水產(chǎn)養(yǎng)殖業(yè)向更智能、可持續(xù)的方向發(fā)展。

        實(shí)體關(guān)系抽取方法主要有基于流水線的方法和基于實(shí)體關(guān)系聯(lián)合抽取的方法。然而,基于流水線的三元組抽取方法存在一些問(wèn)題,如實(shí)體和關(guān)系的特征建模相對(duì)獨(dú)立,導(dǎo)致語(yǔ)義關(guān)聯(lián)難以有效利用;以及出現(xiàn)許多錯(cuò)誤的三元組導(dǎo)致識(shí)別準(zhǔn)確率低等。這些問(wèn)題使基于流水線的方法在處理大規(guī)模復(fù)雜文本時(shí)效果受限,尤其在專業(yè)性強(qiáng)的水產(chǎn)養(yǎng)殖長(zhǎng)文本三元組抽取方面難以發(fā)揮好的效果。

        為了解決這些問(wèn)題,基于實(shí)體關(guān)系聯(lián)合抽取的方法應(yīng)運(yùn)而生。這種方法通過(guò)共享參數(shù)和多任務(wù)學(xué)習(xí)等技術(shù),將實(shí)體和關(guān)系的特征建模相互融合,更好地利用它們之間的語(yǔ)義關(guān)聯(lián),提高了實(shí)體和關(guān)系識(shí)別的準(zhǔn)確率和效率。同時(shí),這種方法可以有效解決錯(cuò)誤三元組的問(wèn)題,促進(jìn)了三元組抽取技術(shù)的發(fā)展和應(yīng)用。相比于基于流水線的方法,基于實(shí)體關(guān)系聯(lián)合抽取的方法更加靈活和高效,適用于處理大規(guī)模、復(fù)雜的文本數(shù)據(jù)。因此,基于實(shí)體關(guān)系聯(lián)合抽取的方法是當(dāng)前文本知識(shí)關(guān)系抽取領(lǐng)域的研究熱點(diǎn)和發(fā)展趨勢(shì)。

        當(dāng)前學(xué)術(shù)界提出的實(shí)體關(guān)系聯(lián)合抽取算法已在FB15K[5] 、NELL-995[6等公開(kāi)數(shù)據(jù)集上的全路徑搜索和鏈接預(yù)測(cè)任務(wù)上取得了較高的準(zhǔn)確率。然而,現(xiàn)階段無(wú)開(kāi)源可用的水產(chǎn)養(yǎng)殖文本數(shù)據(jù)集,目前水產(chǎn)養(yǎng)殖知識(shí)主要集中在權(quán)威水產(chǎn)養(yǎng)殖教材中,不同教材對(duì)相同水產(chǎn)養(yǎng)殖技術(shù)關(guān)鍵術(shù)語(yǔ)定義不盡相同,水產(chǎn)知識(shí)往往以長(zhǎng)文本的方式進(jìn)行描述。為有效解決水產(chǎn)知識(shí)數(shù)據(jù)集問(wèn)題,本文基于《海水養(yǎng)殖致富寶典》等權(quán)威教材以具體章節(jié)為基礎(chǔ),通過(guò)抽取水產(chǎn)養(yǎng)殖長(zhǎng)文本中的實(shí)體關(guān)系,構(gòu)建水產(chǎn)養(yǎng)殖數(shù)據(jù)集。在這些長(zhǎng)文本中,常常包含與目標(biāo)主題無(wú)關(guān)的信息,甚至部分文本與其他主題相關(guān),如何準(zhǔn)確識(shí)別實(shí)體以及實(shí)體之間的關(guān)聯(lián)關(guān)系,是當(dāng)前水產(chǎn)領(lǐng)域智慧化養(yǎng)殖最為迫切的研究問(wèn)題。

        本文提出了一種融合 N-Gram[7-8] 的水產(chǎn)養(yǎng)殖長(zhǎng)文本實(shí)體關(guān)系抽取方法(JE-ALN,a jointextractionmethod of entity relationships in aquaculture long textusingN-Gramfusion)。該算法主要包括兩個(gè)部分:首先,采用N-Gram和多模型融合的方法對(duì)水產(chǎn)養(yǎng)殖長(zhǎng)文本進(jìn)行建模。通過(guò)字詞之間的相互語(yǔ)義關(guān)聯(lián)關(guān)系以及聯(lián)合建模實(shí)現(xiàn)了對(duì)實(shí)體語(yǔ)義更加完善的識(shí)別;其次,采用基于加權(quán)多模型融合算法對(duì)實(shí)體建模,通過(guò)貢獻(xiàn)度向量動(dòng)態(tài)建模長(zhǎng)文本的空間特征矩陣和靜態(tài)特征矩陣對(duì)實(shí)體建模的貢獻(xiàn)度。JE-ALN算法為水產(chǎn)養(yǎng)殖領(lǐng)域的長(zhǎng)文本實(shí)體關(guān)系抽取提供了一種有效的解決方案。該算法不僅能夠識(shí)別出長(zhǎng)文本中的實(shí)體,還能夠準(zhǔn)確識(shí)別實(shí)體之間的關(guān)聯(lián)關(guān)系,為水產(chǎn)養(yǎng)殖領(lǐng)域的知識(shí)提取和應(yīng)用提供了有力支持。

        1 相關(guān)工作

        實(shí)體關(guān)系聯(lián)合抽取方法已經(jīng)成為大規(guī)模知識(shí)抽取的主要方法之一。實(shí)體關(guān)系聯(lián)合抽取的目的是從非結(jié)構(gòu)化文本中同時(shí)檢測(cè)實(shí)體和實(shí)體之間的語(yǔ)義關(guān)系。該方法在眾多開(kāi)源數(shù)據(jù)集以及小領(lǐng)域數(shù)據(jù)集上取得了很高的準(zhǔn)確率。實(shí)體關(guān)系聯(lián)合抽取方法可以緩解錯(cuò)誤傳播并有效利用命名實(shí)體識(shí)別和關(guān)系抽取之間的相互關(guān)系[9],因此該方法已被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。

        在實(shí)體關(guān)系抽取任務(wù)中,深度學(xué)習(xí)方法近年來(lái)發(fā)揮著越來(lái)越重要的作用。相較于傳統(tǒng)的方法,深度學(xué)習(xí)方法可以更完整地學(xué)習(xí)特征表示,且更加高效便捷。目前已經(jīng)有相關(guān)的研究成果取得了一定的進(jìn)展。Shen等[10]提出一個(gè)觸發(fā)器感知記憶流框架,通過(guò)多級(jí)記憶流注意力機(jī)制,以增強(qiáng)實(shí)體識(shí)別和關(guān)系抽取之間的雙向交互,但對(duì)于特定實(shí)體關(guān)系抽取還存在不足。Qin等[]提出了關(guān)注圖卷積網(wǎng)絡(luò)A-GCN(Attentive Graph Convolutional Networks),以器的存在。在模型中,N-Gram 內(nèi)和跨N-Gram的上下文中的不同詞對(duì)被加權(quán)并且相應(yīng)地促進(jìn)關(guān)系抽取。在兩個(gè)英語(yǔ)基準(zhǔn)數(shù)據(jù)集上都觀察到了先進(jìn)的性能。Liu 等[12]提出了一種端到端的互斥二進(jìn)制交叉標(biāo)記算法BCT(binary cross tagging),能夠有效的提取重疊三元組,但當(dāng)句子中三元組的數(shù)量增加時(shí),BCT會(huì)錯(cuò)誤地檢測(cè)冗余三元組。隨著膠囊網(wǎng)絡(luò)在自然語(yǔ)言處理任務(wù)中的應(yīng)用,楊超男等[13]提出融合雙向簡(jiǎn)單循環(huán)網(wǎng)絡(luò)與膠囊網(wǎng)絡(luò)的文檔級(jí)實(shí)體關(guān)系抽取模型,利用膠囊網(wǎng)絡(luò)優(yōu)化學(xué)習(xí)實(shí)體關(guān)系在空間、方向等多個(gè)維度上的關(guān)系表示,使得文檔級(jí)實(shí)體關(guān)系抽取的關(guān)系特征更精確。在生物醫(yī)學(xué)領(lǐng)域,秦健等[14]針對(duì)醫(yī)療文本命名實(shí)體識(shí)別缺乏足夠標(biāo)記數(shù)據(jù)的問(wèn)題,提出一種新的命名實(shí)體識(shí)別神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)增強(qiáng)方法。該方法利用漢字的拼音和筆畫(huà)擴(kuò)展BERT(bidirectional encoder representation from trans-formers)詞向量,將命名實(shí)體識(shí)別模型與分詞模型進(jìn)行聯(lián)合訓(xùn)練,采用改進(jìn)的數(shù)據(jù)增強(qiáng)方法處理訓(xùn)練數(shù)據(jù),在訓(xùn)練數(shù)據(jù)減少一半的情況下,識(shí)別率仍能繼續(xù)保持沒(méi)有明顯下降。Zhang 等[15]提出了一種基于注意力機(jī)制的深度殘差網(wǎng)絡(luò)ResNet(residualnetwork)模型來(lái)識(shí)別中文電子病歷中的醫(yī)學(xué)概念關(guān)系。在人工標(biāo)注的中文電子病歷語(yǔ)料上取得了 77.8% 的F1值,可以降低語(yǔ)料噪聲對(duì)參數(shù)學(xué)習(xí)的負(fù)面影響,結(jié)合字符位置注意力機(jī)制可以增強(qiáng)不同類型實(shí)體的識(shí)別特征。常見(jiàn)的關(guān)系抽取模式是先抽取實(shí)體,然后再對(duì)實(shí)體對(duì)進(jìn)行關(guān)系分類預(yù)測(cè),Wei等[16]采用了與之不同的模式:先抽取subject實(shí)體,然后在主體(sub-ject)基礎(chǔ)上同時(shí)抽取關(guān)系及其對(duì)應(yīng)的客體(object)實(shí)體。該模型能夠解決三元組重疊問(wèn)題,但存在關(guān)系冗余和計(jì)算效率低的問(wèn)題,若關(guān)系類別較多,由于許多冗余的關(guān)系則會(huì)導(dǎo)致過(guò)多的計(jì)算,影響計(jì)算效率。Zheng 等[17]針對(duì)上面問(wèn)題進(jìn)行改進(jìn),PRGC(po-tential relation and global correspondence)模型提出一個(gè)新的端到端的框架,將三元組聯(lián)合抽取分解成了三個(gè)子任務(wù):關(guān)系判斷、實(shí)體抽取和 subject-object 對(duì)齊。但存在誤差傳遞和暴露偏差問(wèn)題,影響最終三元組提取的精度。

        在水產(chǎn)領(lǐng)域,楊鶴等[18]提出了一種基于多重注意力與BERT-BiLSTM-CRF相結(jié)合的漁業(yè)實(shí)體關(guān)系抽取算法,基于字詞和句子兩個(gè)層面的注意力深入學(xué)習(xí)注意力矩陣的權(quán)重分配,提高了關(guān)系抽取的準(zhǔn)確率。劉巨升等[9提出基于多核卷積的實(shí)體識(shí)別算法,使用多核卷積對(duì)嵌套實(shí)體建模。首先使用BERT初始化樣本得到特征矩陣,對(duì)嵌套實(shí)體位置進(jìn)行建模,將建模得到的特征圖與原始輸人矩陣進(jìn)行融合,得到最終的特征表示。姜鑫等[20]提出了一種水產(chǎn)動(dòng)物疾病樣本的實(shí)體關(guān)系聯(lián)合抽取方法?;贐ERT + BiLSTM + Attention +CRF 算法以及行業(yè)規(guī)則聯(lián)合抽取三元組構(gòu)建知識(shí)圖譜,選用Neo4j圖數(shù)據(jù)庫(kù)完成對(duì)抽取到的實(shí)體三元組的知識(shí)存儲(chǔ)。該方法在自構(gòu)建水產(chǎn)動(dòng)物疾病數(shù)據(jù)集上抽取性能較好,但還需要提升,以在其他數(shù)據(jù)集上表現(xiàn)出好的效果。以上這些研究為漁業(yè)知識(shí)長(zhǎng)文本實(shí)體關(guān)系抽取任務(wù)的發(fā)展提供了一定的參考價(jià)值,但仍有一些問(wèn)題需要進(jìn)一步解決,

        實(shí)體關(guān)系聯(lián)合抽取的性能仍然受限于所處理領(lǐng)域的數(shù)據(jù)特點(diǎn)和語(yǔ)言表達(dá)方式,針對(duì)多種實(shí)體和關(guān)系類型之間的復(fù)雜聯(lián)系,需要進(jìn)行不同情況的模型設(shè)計(jì)和優(yōu)化。水產(chǎn)養(yǎng)殖領(lǐng)域的長(zhǎng)文本主要關(guān)注水生生物的養(yǎng)殖、水體管理、飼料配方和疾病防治等特定主題。相比之下,通用領(lǐng)域長(zhǎng)文本則涵蓋了各種主題,因此需要根據(jù)不同的主題內(nèi)容選擇合適的方法和技術(shù)。此外,水產(chǎn)養(yǎng)殖領(lǐng)域的長(zhǎng)文本通常具有較高的專業(yè)性和技術(shù)性,數(shù)據(jù)間的關(guān)系通常是基于具體的業(yè)務(wù)場(chǎng)景和技術(shù)要求建立的。例如,水質(zhì)監(jiān)測(cè)與魚(yú)類繁殖之間的關(guān)系是基于對(duì)水生生物生長(zhǎng)環(huán)境的特定要求建立的。而在通用領(lǐng)域長(zhǎng)文本中,關(guān)系可能更加抽象和廣泛,例如人與事物之間的關(guān)系。因此,在進(jìn)行關(guān)系聯(lián)合抽取時(shí),需要根據(jù)具體的情況選擇合適的關(guān)系類型和方法。

        水產(chǎn)養(yǎng)殖的長(zhǎng)文本中出現(xiàn)的部分特征詞實(shí)例如表1所示。

        表1水產(chǎn)養(yǎng)殖文本特征詞實(shí)例Tab.1Glossary of aquaculture texts and other texts
        續(xù)表1

        在水產(chǎn)養(yǎng)殖領(lǐng)域文本中,長(zhǎng)文本語(yǔ)料包含大量無(wú)關(guān)信息,因此如何準(zhǔn)確地識(shí)別出實(shí)體之間的關(guān)聯(lián)關(guān)系是一個(gè)迫切需要解決的問(wèn)題。本文提出的JE-ALN模型通過(guò)多模型融合方法和基于N-Gram的長(zhǎng)文本切片位置建模方法,對(duì)特定領(lǐng)域復(fù)雜長(zhǎng)文本實(shí)體關(guān)系聯(lián)合抽取取得了較好的效果,

        2 DLOU-ALT數(shù)據(jù)集構(gòu)建

        2.1 數(shù)據(jù)預(yù)處理

        本文對(duì)水產(chǎn)養(yǎng)殖技術(shù)教材中的實(shí)體關(guān)系進(jìn)行挖掘,采用機(jī)器學(xué)習(xí)方法識(shí)別水產(chǎn)養(yǎng)殖長(zhǎng)文本中的三元組。為獲取有效權(quán)威的知識(shí)并保證水產(chǎn)知識(shí)的準(zhǔn)確性,本文基于《海水名特優(yōu)魚(yú)類健康養(yǎng)殖實(shí)用技術(shù)》、《海水養(yǎng)殖致富寶典》等書(shū)籍進(jìn)行人工標(biāo)注形成可用半成品數(shù)據(jù)集。教材中的文本往往是結(jié)構(gòu)化或半結(jié)構(gòu)化的片段,需要進(jìn)行文本處理算法以制作實(shí)際可用的知識(shí)圖譜數(shù)據(jù)集。數(shù)據(jù)處理流程如圖1所示。

        預(yù)處理過(guò)程如下:

        1)使用Python腳本將教材分解為若干個(gè)不相交的子集;2)采用多線程的方式,并行處理1)產(chǎn)生的子集,按照段落標(biāo)題切分文本,文本內(nèi)容以“l(fā)t;段落標(biāo)題,段落內(nèi)容 gt; ”格式保存;3)進(jìn)行人工篩選,刪除目錄,大量空行、頁(yè)眉、特殊符號(hào)等,得到相對(duì)干凈的數(shù)據(jù)集;4)將3)得到的樣本進(jìn)行合并,以“##空行”作為樣本(段落)之間的分割符;

        圖1 數(shù)據(jù)預(yù)處理流程Fig.1Data preprocessing flow

        5)將結(jié)構(gòu)化的樣本進(jìn)行分詞,區(qū)分實(shí)體和非實(shí)體,制作成半成品數(shù)據(jù)集。

        6本文得到的半成品數(shù)據(jù)集樣本為三元組形式,格式為“l(fā)t;標(biāo)題\t分詞\t分詞類別 gt; ”。如果該分詞是實(shí)體,則分詞類別指該實(shí)體的實(shí)際類別;如果該分詞不是實(shí)體,則分詞類別為空。

        本文后續(xù)算法對(duì)每條樣本進(jìn)行處理時(shí),可通過(guò)分詞類別確定當(dāng)前分詞是否是實(shí)體,并使用程序?qū)Ω鞣衷~進(jìn)行BIO自動(dòng)化標(biāo)注。從句子中抽取所有頭實(shí)體和尾實(shí)體,面向頭實(shí)體的尾實(shí)體標(biāo)注過(guò)程能夠捕獲頭實(shí)體與尾實(shí)體之間的依賴關(guān)系。然后將所有實(shí)體向量映射到關(guān)系語(yǔ)義空間,聯(lián)合抽取的方法是將頭尾實(shí)體的標(biāo)注聯(lián)合學(xué)習(xí),最后在不同的關(guān)系語(yǔ)義子空間中計(jì)算所有實(shí)體對(duì)以獲得關(guān)系三元組。

        本文數(shù)據(jù)集來(lái)源于具體教材,因此可以通過(guò)段落的標(biāo)題大致確定段落內(nèi)容包含的實(shí)體和關(guān)系類型。水產(chǎn)養(yǎng)殖主要圍繞魚(yú)的繁殖、生長(zhǎng)和營(yíng)養(yǎng)需求,通過(guò)科學(xué)的管理和控制環(huán)境條件,保證魚(yú)類健康快速生長(zhǎng)。基于此,首先對(duì)已標(biāo)注的半成品數(shù)據(jù)集進(jìn)行分析,將相似實(shí)體進(jìn)行合并,并對(duì)實(shí)體間的關(guān)系進(jìn)行分類,最終得到實(shí)體關(guān)系三元組類別。具體分類匯總?cè)绫?所示

        表2DLOU-ALT(Aquaculture Long text)數(shù)據(jù)集實(shí)體關(guān)系類別及三元組數(shù)目Tab.2Category and number of entity relationships inDLOU-ALT(Aquaculture Long text) dataset

        2.2 數(shù)據(jù)標(biāo)注流程

        本文對(duì)DLOU-ALT數(shù)據(jù)集進(jìn)行程序自動(dòng)化標(biāo)注,并結(jié)合人工的方式過(guò)濾不合適的文本。數(shù)據(jù)預(yù)處理過(guò)程大部分工作由程序自動(dòng)完成,但可能存在一些程序無(wú)法識(shí)別的特殊文本或字符,需要通過(guò)人工的方式進(jìn)行剔除。需要注意的是,本文首先使用拼音首字母縮寫(xiě)的方式將所有中文實(shí)體類別轉(zhuǎn)換成英文,以實(shí)現(xiàn)中英文實(shí)體類別的轉(zhuǎn)換,并基于此進(jìn)行BIO實(shí)體標(biāo)注。水產(chǎn)養(yǎng)殖樣本自動(dòng)化標(biāo)注流程如圖2所示。

        處理流程細(xì)化如下:

        1)加載成品數(shù)據(jù)集并逐行讀取樣本;

        2)對(duì)每個(gè)樣本進(jìn)行分詞,并使用預(yù)先設(shè)計(jì)的規(guī)則對(duì)實(shí)體進(jìn)行分詞,該規(guī)則如表3所示。使用B/I-LH/T標(biāo)簽對(duì)實(shí)體進(jìn)行標(biāo)注,使用標(biāo)簽O標(biāo)注非實(shí)體;

        表3數(shù)據(jù)集分詞規(guī)則Tab.3 Dataset word segmentation rules

        3)按原始位置融合B/I-L-H/T和O標(biāo)注,得到完整標(biāo)注;

        4)人工檢查所有的標(biāo)注樣本,重點(diǎn)關(guān)注是否將非B/I-L-H/T標(biāo)注的樣本標(biāo)注,是否存在多余空格,以得到干凈的標(biāo)注數(shù)據(jù)集。其中,B/I-L-H/T表示實(shí)體的標(biāo)注方式,L是實(shí)體類別,H和T表示該實(shí)體是頭部實(shí)體還是尾部實(shí)體。圖3為水產(chǎn)養(yǎng)殖長(zhǎng)文本數(shù)據(jù)標(biāo)注示例。最后,通過(guò)此方法得到可用的標(biāo)注數(shù)據(jù)集。

        圖3 數(shù)據(jù)標(biāo)注示例Fig.3Data annotation example

        2.3 數(shù)據(jù)集質(zhì)量評(píng)價(jià)

        在數(shù)據(jù)采集階段,本數(shù)據(jù)集的數(shù)據(jù)來(lái)自專業(yè)書(shū)籍,數(shù)據(jù)源本身的可信度較高,確保了每條數(shù)據(jù)的采集都有可靠的憑證支持。在數(shù)據(jù)處理階段,采取了一系列的數(shù)據(jù)清洗和文字校正措施,以確保數(shù)據(jù)的準(zhǔn)確性。比對(duì)來(lái)自不同書(shū)籍的數(shù)據(jù)并進(jìn)行互補(bǔ)合并,以保證數(shù)據(jù)采集的全面性和數(shù)據(jù)質(zhì)量的可靠性。經(jīng)過(guò)整理和合并后邀請(qǐng)水產(chǎn)養(yǎng)殖領(lǐng)域的專家對(duì)數(shù)據(jù)集進(jìn)行檢查和核對(duì),并根據(jù)專家意見(jiàn)和建議進(jìn)行了進(jìn)一步修改和完善。通過(guò)這種專業(yè)的審查和反饋機(jī)制,確保數(shù)據(jù)集的準(zhǔn)確性和可靠性,使其更符合專業(yè)要求。

        表4為數(shù)據(jù)統(tǒng)計(jì)信息。其中成功率表示成功匹配包含該實(shí)體的三元組的句子數(shù)占包含該實(shí)體的標(biāo)注句子總數(shù)的百分比;準(zhǔn)確率表示正確標(biāo)注的三元組數(shù)占包含該實(shí)體的三元組數(shù)的百分比。實(shí)驗(yàn)中根據(jù)實(shí)體得到了實(shí)體識(shí)別篩選標(biāo)注語(yǔ)料中的語(yǔ)句,語(yǔ)料庫(kù)的總體回標(biāo)成功率為 82.65% ,總體關(guān)系標(biāo)注準(zhǔn)確率為 88.36% 。

        表4標(biāo)注質(zhì)量評(píng)價(jià)統(tǒng)計(jì)Tab.4Label quality evaluation statistics

        同時(shí)為驗(yàn)證本文所建數(shù)據(jù)集的有效性,在4.3.1DLOU-ALT數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)中利用JE-ALN模型進(jìn)行水產(chǎn)養(yǎng)殖實(shí)體關(guān)系抽取實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)1值為 90.79% 、準(zhǔn)確率為 92.98% 、召回率為 88.7% ,優(yōu)于基線模型實(shí)體關(guān)系抽取效果。

        3 JE-ALN模型

        水產(chǎn)養(yǎng)殖實(shí)體關(guān)系抽取是揭示水產(chǎn)養(yǎng)殖中規(guī)律、發(fā)現(xiàn)新方法和優(yōu)化生產(chǎn)流程的關(guān)鍵。為了解決水產(chǎn)養(yǎng)殖文本中長(zhǎng)文本描述和存在大量無(wú)關(guān)信息的問(wèn)題,提出了融合N-Gram的水產(chǎn)養(yǎng)殖長(zhǎng)文本實(shí)體關(guān)系聯(lián)合抽取方法。該方法采用N-Gram和多模型融合的方法對(duì)長(zhǎng)文本進(jìn)行建模。通過(guò)深人建模長(zhǎng)文本實(shí)體內(nèi)部詞語(yǔ)之間的語(yǔ)義依存關(guān)系來(lái)更加準(zhǔn)確地識(shí)別實(shí)體的語(yǔ)義,并且采用了基于加權(quán)多模型融合算法對(duì)實(shí)體進(jìn)行建模,使向量動(dòng)態(tài)學(xué)習(xí)長(zhǎng)文本的空間特征矩陣和靜態(tài)特征。使用BERT作為輸入層,然后使用膠囊網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)對(duì)BERT層的輸出進(jìn)行進(jìn)一步編碼,經(jīng)過(guò)一系列卷積操作對(duì)特征圖進(jìn)行降維,將其作為級(jí)聯(lián)BiLSTM的輸人。此外,我們還使用了N-Gram模型來(lái)擴(kuò)展模型的上下文理解能力,從而增強(qiáng)對(duì)實(shí)體關(guān)系的抽取能力。實(shí)驗(yàn)結(jié)果表明,該方法在水產(chǎn)養(yǎng)殖實(shí)體關(guān)系抽取任務(wù)中表現(xiàn)出了出色的性能。

        JE-ALN模型基本框架由多模型融合實(shí)體關(guān)系聯(lián)合建模(MER)和基于N-Gram算法預(yù)處理樣本的位置建模(N-GramM)兩部分組成。本文首先介

        紹多模型融合實(shí)體關(guān)系聯(lián)合建模方法,其通過(guò)多種深度學(xué)習(xí)模型對(duì)實(shí)體進(jìn)行分類和關(guān)系建模,綜合各個(gè)模型的輸出結(jié)果來(lái)得到最終的實(shí)體關(guān)系分類;其次介紹融合N-Gram方法預(yù)處理樣本的位置建模,該方法使用N-Gram算法對(duì)文本進(jìn)行預(yù)處理,將不同長(zhǎng)度的子串作為樣本特征,通過(guò)分類模型對(duì)其進(jìn)行分類。最后,將MER和N-GramM結(jié)合起來(lái)得到完整的JE-ALN模型,其框架如圖4所示。

        從圖4可看出,JE-ALN算法使用兩個(gè)平行網(wǎng)絡(luò)分別實(shí)現(xiàn)對(duì)三元組建模和基于N-Gram的長(zhǎng)文本切片建模,然后將兩者進(jìn)行融合,達(dá)到共同建模的目的。

        圖4JE-ALN算法基本框架

        3.1基于多模型實(shí)體關(guān)系抽取模型(MER)

        JE-ALN多模型融合實(shí)體關(guān)系聯(lián)合建模算法如圖5所示。

        圖5多模型實(shí)體關(guān)系抽取建模(MER) Fig. 5Multi-Model Entity-Relation Extraction Modeling(MER)

        圖5中,首先使用開(kāi)源BERT[21]中文模型實(shí)現(xiàn)對(duì)水產(chǎn)養(yǎng)殖短文本進(jìn)行初始化,得到句子的嵌入矩陣S,然后使用殘差網(wǎng)絡(luò)[22]和膠囊網(wǎng)絡(luò)[23]分別對(duì)矩陣S進(jìn)行特征抽取,為簡(jiǎn)化膠囊網(wǎng)絡(luò)的路由過(guò)程,本文將膠囊網(wǎng)絡(luò)的路由深度限制為2。將膠囊網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)提取的特征圖在詞向量維度進(jìn)行融合,再經(jīng)過(guò)若干卷積進(jìn)行降維,最后將其作為級(jí)聯(lián)BiLSTM[24]的輸入。BiLSTM 隱藏層節(jié)點(diǎn)數(shù)逐級(jí)遞減,通過(guò)逐級(jí)學(xué)習(xí)特征圖的深層特征,最終得到原始輸入序列的特征表示,如式(1)所示,整個(gè)過(guò)程實(shí)現(xiàn)了對(duì)水產(chǎn)養(yǎng)殖短文本的高效特征提取。

        式中: δbert,δcapsresbis,α 分別表示BERT模型、膠囊模型、殘差模型、級(jí)聯(lián)BiLSTM模型以及基礎(chǔ)卷積等模型參數(shù)?;谔卣鲌D F ,本文進(jìn)行如下2個(gè)方面的進(jìn)一步學(xué)習(xí):

        首先,將級(jí)聯(lián)BiLSTM的最后一層輸出作為二分類模型的輸入,通過(guò)交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,得到三元組的真假分類

        其次,基于CRF算法[25]和Viterbi算法[26]實(shí)現(xiàn)對(duì)BiLSTM最后一層輸出的實(shí)體標(biāo)簽預(yù)測(cè)。在識(shí)別出水產(chǎn)養(yǎng)殖短文本的實(shí)體后,根據(jù)實(shí)體的標(biāo)注規(guī)則對(duì)實(shí)體標(biāo)簽進(jìn)行劃分,將實(shí)體組合形成三元組。

        三元組的損失來(lái)源于3個(gè)方面:真假分類損失、實(shí)體標(biāo)簽預(yù)測(cè)損失和關(guān)系分類損失。其中,關(guān)系分為6大類,關(guān)系預(yù)測(cè)的損失采用多標(biāo)簽分類損失。使用交叉熵?fù)p失函數(shù)優(yōu)化模型參數(shù)。這3類損失均稱之為三元組損失,其計(jì)算過(guò)程如下:

        式中: Suripletloss 為3類損失的線性求和,各類損失單獨(dú)計(jì)算;B為樣本批次大小, Closs 為 CRF 算法計(jì)算的損失。三元組真假損失為標(biāo)準(zhǔn)二分類;字符序列標(biāo)簽的預(yù)測(cè)序列采用CRF損失計(jì)算。

        3.2 基于N-Gram的樣本切片(N-GramM)

        本文研究的漁業(yè)數(shù)據(jù)集樣本來(lái)源于多個(gè)教材,其中大多數(shù)樣本為長(zhǎng)文本,長(zhǎng)文本特征抽取是實(shí)體識(shí)別的難點(diǎn),如何高效地對(duì)長(zhǎng)文本進(jìn)行建模,以準(zhǔn)確

        的識(shí)別出每個(gè)分詞的實(shí)體標(biāo)簽是本文的研究重點(diǎn)為此,本文采用融合N-Gram算法的切片方式,對(duì)每個(gè)樣本進(jìn)行切片,具體如式(3)所示:

        式中:參數(shù) eindex 是當(dāng)前實(shí)體文本的索引向量; d 為全局分詞索引字典,是長(zhǎng)度為 n 的連續(xù)索引序列,每個(gè)序列的長(zhǎng)度均為 n ,以每個(gè)分詞為起點(diǎn),連續(xù)截取長(zhǎng)度為 n 的分詞序列作為整體賦值給,當(dāng)索引 k 接近文本末尾,導(dǎo)致長(zhǎng)度不夠時(shí),使用 dpad|i 按順序補(bǔ)充缺失的部分,參數(shù)pad 是無(wú)效分詞標(biāo)識(shí),本文中d padliε=0 。通過(guò)上述樣本切片的補(bǔ)全方法可知,每個(gè)blockk 的長(zhǎng)度均為 n 。

        基于式(3)預(yù)處理后樣本樣為轉(zhuǎn)化成矩陣,且滿足式(4)所示。

        式中: NG 為單個(gè)樣本最終構(gòu)建的N-Gram切片序列,多個(gè)樣本切片成的多維矩陣 BNG 的維度為 B×l ×n ,其中 B 表示樣本個(gè)數(shù)。參數(shù) k 的取值范圍與式(3)相同。

        JE-ALN基于N-Gram切片的位置建模算法如圖6所示。首先基于式(4)將每一個(gè)樣本按窗口為N ,步長(zhǎng)為1進(jìn)行滑動(dòng)切割,產(chǎn)生切片矩陣 NG ,矩陣NG 的維度為 l×N ,其中 l 是樣本分詞個(gè)數(shù)。切片矩陣 NG 作為每個(gè)句子的目標(biāo)標(biāo)簽。整個(gè)批次的樣本切片矩陣 BNG 大小為 B×l×N 。

        該模型首先使用BERT中文預(yù)訓(xùn)練模型對(duì)切片矩陣 NG 初始化,得到嵌入矩陣 SNG 。接著,使用殘差網(wǎng)絡(luò)提取 SNG 矩陣特征,使用基礎(chǔ)卷積網(wǎng)絡(luò)降低維度后,再通過(guò)多層堆疊BiLSTM對(duì)切片矩陣NGS進(jìn)行時(shí)序預(yù)測(cè),得到預(yù)測(cè)矩陣(predict)。目標(biāo)矩陣(targets)的維度與式(4)中得到的 BNG 矩陣維度相同,將目標(biāo)矩陣與預(yù)測(cè)矩陣之間進(jìn)行損失求解。圖6中,每個(gè)模塊的輸入和輸出特征矩陣大小如表5所示。

        圖6N-Gram序列建??蚣埽∟-GramM)Fig. 6N-Gram Sequence ModelingFramework (N-GramM)
        表5基于N-Gram的水產(chǎn)養(yǎng)殖文本模型模塊輸入輸出維度Tab.5N-Gram based input and output dimensions ofaquaculture short text model module

        根據(jù)表5,本文對(duì)文本建模著重考慮了分詞之間的絕對(duì)位置和靜態(tài)特征的建模。由于實(shí)體類分詞和非實(shí)體類分詞的交叉存在,對(duì)整個(gè)樣本進(jìn)行建??梢愿鼫?zhǔn)確地把握句子內(nèi)部不同類別分詞之間的局部空間依賴關(guān)系。圖5的輸出為對(duì)切片位置的建模序列,每一個(gè)切片都包含了對(duì)分詞絕對(duì)位置和相對(duì)位置的建模結(jié)果。該序列采用交叉熵?fù)p失作為優(yōu)化

        函數(shù),如式(5)所示:

        JE-ALN算法的總損失為實(shí)體關(guān)系聯(lián)合建模(MER)損失和基于N-Gram算法的位置建模(N-GramM)損失之和,即總損失為

        Lall=Stripletloss+Snloss

        4實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        本文所使用的水產(chǎn)養(yǎng)殖數(shù)據(jù)集樣本數(shù)目低于20萬(wàn)條。為快速訓(xùn)練,提出的JE-ALN算法與其他算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)硬件條件、實(shí)驗(yàn)參數(shù)設(shè)置如表6、表7所示。

        表6實(shí)驗(yàn)硬件條件
        表7對(duì)比實(shí)驗(yàn)參數(shù)設(shè)置

        4.2 實(shí)驗(yàn)結(jié)果與分析

        本文模型性能評(píng)價(jià)指標(biāo)分別是:精度(precision)、召回率(recall)和F1值 (F1[27] 。具體公式表示如下:

        其中:TP為模型預(yù)測(cè)正確的頭尾實(shí)體與關(guān)系為真的組合數(shù)量;FP為模型預(yù)測(cè)錯(cuò)誤的頭尾實(shí)體與關(guān)系為真的組合數(shù)量;FN為模型預(yù)測(cè)正確的頭尾實(shí)體與關(guān)系為假的組合數(shù)量。JE-ALN算法直接調(diào)用Sklearn.metrics封裝好的庫(kù)函數(shù)基于預(yù)測(cè)序列和目標(biāo)序列進(jìn)行準(zhǔn)確率計(jì)算。為驗(yàn)證N-Gram不同的 N 值設(shè)置對(duì)實(shí)體關(guān)系聯(lián)合抽取識(shí)別準(zhǔn)確率的影響,本文設(shè)置 N 值分別為1,2,3,4,5開(kāi)展驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果和準(zhǔn)確率匯總?cè)鐖D7、表8所示。

        圖7JE-ALN模型不同N-Gram取值的實(shí)體關(guān)系抽取準(zhǔn)確率Fig.7Entity relation extraction accuracy of JE-ALN algorithmwithdifferentN-Gramvalues
        表8不同N-Gram取值的實(shí)體關(guān)系抽取準(zhǔn)確率匯總Tab.8Summary of entity relation extraction accuracyfordifferentN-Gramvalues

        從圖7以及表8可看出,本文提出的JE-ALN算法在水產(chǎn)養(yǎng)殖數(shù)據(jù)集上基于不同的N-Gram取值進(jìn)行了實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)結(jié)果表明,當(dāng) N 值為3時(shí),SPrecision?SRecall 和 F1 值上3個(gè)評(píng)估指標(biāo)均高于 N=1 :N=2 ) N=4 和 N=5 的情況。在最終實(shí)驗(yàn)中,本文方法選擇 N=3 ,即JE-ALN:3Gram與其他算法進(jìn)行對(duì)比實(shí)驗(yàn)?;谝陨辖Y(jié)果,可知當(dāng) N=3 時(shí),本文提出的方法能夠相對(duì)取得更好的準(zhǔn)確率,具有更好的實(shí)用性和應(yīng)用價(jià)值。

        使用本文提出的針對(duì)水產(chǎn)養(yǎng)殖長(zhǎng)文本特點(diǎn)的標(biāo)注規(guī)范和聯(lián)合抽取模型后得到的各個(gè)三元組的抽取結(jié)果如表9所示。從表9中可看出,本文算法在面向水產(chǎn)養(yǎng)殖長(zhǎng)文本實(shí)體關(guān)系抽取研究中取得了較好的結(jié)果。

        表9水產(chǎn)養(yǎng)殖長(zhǎng)文本三元組類別抽取結(jié)果Tab.9Aquaculture long text triplet category extraction results

        4.3 對(duì)比實(shí)驗(yàn)

        4.3.1 DLOU-ALT數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

        由于本文模型是基于多模型融合的實(shí)體關(guān)系聯(lián)合抽取模型,并且為實(shí)現(xiàn)對(duì)分詞位置建模,引入了基于N-Gram切片建模方法。為形成有效的對(duì)比結(jié)果,本文 選取BERT-CRF、BERT-BiLSTM-CRF、BERT-MultiBiLSTM-CRF等經(jīng)典的命名實(shí)體識(shí)別模型作為基線模型進(jìn)行對(duì)比實(shí)驗(yàn),Multi-BiLSTM即多層級(jí)聯(lián)BiLSTM,網(wǎng)絡(luò)參數(shù)設(shè)置與本文相同,BERT為谷歌發(fā)布的中文訓(xùn)練模型BERT-Chinese。JE-ALN:3Gram模型與基線模型對(duì)比實(shí)驗(yàn)結(jié)果如表10所示。

        表10JE-ALN與基線模型的對(duì)比實(shí)驗(yàn)結(jié)果Tab.10Comparison experiment results between JE-ALNand baselinemodels

        由表10可見(jiàn),本文算法相對(duì)于基線模型而言,在F1、Precision以及Recall等3個(gè)準(zhǔn)確率指標(biāo)上的結(jié)果均優(yōu)于對(duì)比算法,在 F1 指標(biāo)上,準(zhǔn)確率最大提升了 6.80% ,最小提升了 5.73% ;在 SPrecision 指標(biāo)上,準(zhǔn)確率最大提升了 8% ,最小提升了 4.89% ;在SRecall 指標(biāo)上,準(zhǔn)確率最大提升了 6.47% ,最小提升了 5.38% 。JE-ALN模型在DLOU-ALT數(shù)據(jù)集上取得較好的性能,離不開(kāi)N-Gram切片建模,通過(guò)深入建模長(zhǎng)文本實(shí)體內(nèi)部詞語(yǔ)之間的語(yǔ)義依存關(guān)系來(lái)更好地學(xué)習(xí)句子和關(guān)系之間的上下文信息。并且膠囊網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)融合機(jī)制能夠?qū)崿F(xiàn)靜態(tài)特征和空間特征的互補(bǔ)補(bǔ)全,使模型能捕捉到實(shí)體和關(guān)系的搭配和結(jié)構(gòu),提高模型的理解和表達(dá)能力,增強(qiáng)模型的魯棒性和泛化能力。

        4.3.2 公開(kāi)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

        為更有效的證明本文提出的JE-ALN算法的有效性和魯棒性,基于表8的對(duì)比模型在開(kāi)源數(shù)據(jù)集SKE[28]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。SKE(schema basedknowledgeextraction)是基于百度提供的業(yè)界規(guī)模最大的基于模式的中文信息抽取數(shù)據(jù)集,來(lái)源于2019語(yǔ)言與智能技術(shù)競(jìng)賽中信息抽取任務(wù)的官方指定數(shù)據(jù)集。其中包含了約43萬(wàn)個(gè)三元組數(shù)據(jù),21萬(wàn)個(gè)中文句子,以及定義好的50種關(guān)系類別。數(shù)據(jù)集中的句子來(lái)自百度百科和百度信息流文本,數(shù)據(jù)集分為17萬(wàn)訓(xùn)練集,2萬(wàn)測(cè)試集和2萬(wàn)驗(yàn)證集。SKE數(shù)據(jù)集以subject、object方式進(jìn)行實(shí)體標(biāo)注,其他無(wú)關(guān)字符用0表示。該數(shù)據(jù)集中包含一些較長(zhǎng)的文本示例,能更好地驗(yàn)證本文在實(shí)體關(guān)系聯(lián)合抽取的關(guān)系長(zhǎng)文本問(wèn)題上的抽取性能。基于SKE數(shù)據(jù)集,JE-ALN 模型與基線模型在 SPrecision?SRecall?F1 上的準(zhǔn)確率如表11所示

        表11JE-ALN與基線模型在SKE上的對(duì)比實(shí)驗(yàn)結(jié)果Tab.11 Experimental results comparing JE-ALN withbaselinemodelsonSKE

        由表11可見(jiàn),本文算法相對(duì)于對(duì)比算法而言,在 F1?Sprecision 以及 SRecall 等3個(gè)準(zhǔn)確率指標(biāo)上的結(jié)果均優(yōu)于基線模型,在 F1 指標(biāo)上,準(zhǔn)確率最大提升了12.54% ,最小提升了 4.15% ;在 Sprecision 指標(biāo)上,準(zhǔn)確率最大提升了 10.5% ,最小提升了 2.82% ;在SRecall 指標(biāo)上,準(zhǔn)確率最大提升了 14.72% ,最小提升了 5.59% 。這主要是因?yàn)樗惴ㄔ谀P腿诤系幕A(chǔ)上,充分考慮實(shí)體和關(guān)系之間的依賴關(guān)系并引入了N-Gram模型來(lái)擴(kuò)展模型的上下文理解能力,能較好地學(xué)習(xí)句子之間的語(yǔ)義關(guān)聯(lián),從而增強(qiáng)實(shí)體和關(guān)系之間的依賴關(guān)系,因此,JE-ALN的整體性能優(yōu)于對(duì)比的基線模型,

        綜上所述,本文算法JE-ALN 在領(lǐng)域數(shù)據(jù)集DLOU-ALT以及公共數(shù)據(jù)集SKE上均取得了相對(duì)最好的準(zhǔn)確率,對(duì)比實(shí)驗(yàn)驗(yàn)證了JE-ALN模型的可行性。

        4.4 消融實(shí)驗(yàn)

        選取BERT-ResNet18-CRF、 BERT-CapsNet-CRF、BERT-CapsNet-ResNet-CRF、BERT-ResNet18-Mul-tiBiLSTM-CRF、 BERT-CapsNet-MultiBiLSTM-CRF等5個(gè)模型在DLOU-ALT數(shù)據(jù)集上作為JE-ALN 模型的消融實(shí)驗(yàn)?;贘E-ALN設(shè)置的消融實(shí)驗(yàn)結(jié)果表12所示。

        表12JE-ALN模型的消融實(shí)驗(yàn)結(jié)果Tab.12Results of ablation experiments for theJE-ALNmodel

        從表12可看出,與JE-ALN模型相比,F(xiàn)1值在沒(méi)有融入殘差網(wǎng)絡(luò)和多層級(jí)聯(lián)BiLSTM的模型時(shí),分別降低了 0.93% 和 1.62% ,這表明加入殘差網(wǎng)絡(luò)和多層級(jí)聯(lián)BiLSTM,有助于更好地學(xué)習(xí)長(zhǎng)文本的特征,雖然BERT-ResNet18-MultiBiLSTM-CRF的召回率為最高值,但是JE-ALN在精確率和 F1 值上均取得最高值,所以JE-ALN模型的整體性能更優(yōu)

        4.5基于對(duì)比模型的準(zhǔn)確率變化情況

        為更直觀展示本文模型相對(duì)于對(duì)比模型在各指標(biāo)上的準(zhǔn)確率提升情況,以本文模型JE-ALN:3Gram準(zhǔn)確率為基線,計(jì)算其它模型相對(duì)于JE-ALN:3Gram模型的準(zhǔn)確率變化情況,對(duì)比結(jié)果如表13所示。

        表13基于JE-ALN:3Gram對(duì)比模型準(zhǔn)確率變化情況

        通過(guò)對(duì)本文所使用的DLOU-ALT數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),可以從表13中看出,其他模型相對(duì)于本文模型在 F1 指標(biāo)上最小下降了 0.49% ,最大下降了6.8% ;在 Sprecision 指標(biāo)上最小下降了 1.21% ,最大下降了 8% ;在 SRecall 指標(biāo)上最小下降了 0.28% ,最大下降了 6.47% ;同時(shí),在消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)中,本文模型在 F1 指標(biāo)、 Sprecision 指標(biāo)、 SRecall 指標(biāo)上也取得了一定的優(yōu)勢(shì)。所以本文模型相較于其他模型能夠挖掘更深層次的語(yǔ)義信息和句法信息,從而兼顧到實(shí)體與其他詞之間的聯(lián)系及不同句法結(jié)構(gòu)的重要程度,更充分地提取訓(xùn)練語(yǔ)句的實(shí)體及關(guān)系。綜上所述,當(dāng)前實(shí)驗(yàn)結(jié)果表明本文模型具有一定的準(zhǔn)確率優(yōu)勢(shì)。

        5結(jié)語(yǔ)

        本文提出了一種融合N-Gram的模型,旨在增強(qiáng)水產(chǎn)養(yǎng)殖長(zhǎng)文本實(shí)體關(guān)系抽取的能力。該模型采用了多模型融合實(shí)體關(guān)系聯(lián)合建模和基于N-Gram算法預(yù)處理樣本的位置建模兩部分組成。通過(guò)多模型融合算法提取基于BERT初始化文本矩陣特征圖,然后采用級(jí)聯(lián)BiLSTM進(jìn)一步提取深層次特征,使得該方法具有較強(qiáng)的魯棒性和可擴(kuò)展性,可以應(yīng)對(duì)不同領(lǐng)域和場(chǎng)景下的文本數(shù)據(jù)。使用多模型融合算法逐層提取基于N-Gram算法預(yù)處理的長(zhǎng)文本切片矩陣特征,以實(shí)現(xiàn)對(duì)切片矩陣的相對(duì)位置和絕對(duì)位置進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的模型,

        JE-ALN在DLOU-ALT數(shù)據(jù)集上取得了更好的結(jié)果然而,本文所使用的水產(chǎn)養(yǎng)殖數(shù)據(jù)集樣本數(shù)目較少,需要繼續(xù)擴(kuò)充語(yǔ)料庫(kù)中的數(shù)據(jù)。此外,在構(gòu)建數(shù)據(jù)集時(shí)采用了程序自動(dòng)化和人工篩查相結(jié)合的方式,后續(xù)可以嘗試使用自動(dòng)化或半自動(dòng)化方式來(lái)提高效率。實(shí)驗(yàn)部分N-Gram取值為1\~5,應(yīng)繼續(xù)實(shí)驗(yàn)嘗試更大的N值對(duì)水產(chǎn)養(yǎng)殖長(zhǎng)文本實(shí)體關(guān)系抽取結(jié)果的影響。由于水產(chǎn)養(yǎng)殖技術(shù)實(shí)體關(guān)系不夠全面,還需要通過(guò)完善更多的關(guān)系進(jìn)一步擴(kuò)展水產(chǎn)養(yǎng)殖技術(shù)知識(shí)圖譜。

        參考文獻(xiàn):

        [1]丁梓軒,韓寶睿,濮海建,等.基于空間句法的小城鎮(zhèn) 路網(wǎng)結(jié)構(gòu)與功能分析[J].森林工程,2021,37 (3) :111. DING Zixuan,HAN Baorui,PU Haijian,et al. Analysis ofthe Structure and Function of Road Network in Small Town Based on Space Syntax[J]. Forest Engineering, 2021,37(3) :111.

        [2]劉建華,楊皓楠,何靜,等.基于約束對(duì)抗卷積自編碼 記憶融合網(wǎng)絡(luò)的故障診斷[J].電機(jī)與控制學(xué)報(bào), 2023,27(6) :148. LIU Jianhua,YANG Haonan,HE Jing,et al. Fault Diagnosis Based on Constraint Adversarial Convolution Auto-encoding Memory Fusion Network[J].Electric Machines and Control,2023,27(6) :148.

        [3]趙彪,雷小飛,陳濤,等.面向航空航天難加工材料磨 削過(guò)程的模擬與智能控制[J].金剛石與磨料磨具工 程,2023,43(2) :127. ZHAO Biao,LEI Xiaofei,CHEN Tao,et al, Simulation and Intelligent Control during Grinding Process for Diffcult-to-machine Materials in Aerospace[J].Diamond amp; Abrasives Engineering,2023,43(02) :127.

        [4]姚博文,曾碧卿,蔡劍,等.基于預(yù)訓(xùn)練和多層次信息 的中文人物關(guān)系抽取模型[J].計(jì)算機(jī)應(yīng)用,2021,41 (12) :3637. YAO Bowen,ZENG Biqing,CAI Jian,et al. Chinese Character Relation Extraction Model Based on Pretraining and Multi-level Information[J]. Computer Applications, 2021,41(12) :3637.

        [5]CHEN P,WANG Y, YU X,et al. QLogicE:QuantumLogic Empowered Embedding for Knowledge Graph Completion[J].Knowledge-BasedSystems, 2022, 239 :107963.

        [6]WANG Z,LI L, ZENG D D. Hierarchical Multihop Reasoning on Knowledge Graphs[J]. IEEE Intelligent Systems,2021,37(1) : 71. cigus Mathematics,2023,11(6):1380.

        [8]GHUDE T,CHAUHAN R,DAHAKE K,et al. N-gramModels for Text Generationin Hindi Language[C]//ITM Web of Conferences.EDP Sciences,Les Ulis,F(xiàn)rance, 2022,44:03062.

        [9]張少偉,王鑫,陳子睿,等.有監(jiān)督實(shí)體關(guān)系聯(lián)合抽取 方法研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2022,16 (4) :713. ZHANG Shaowei,WANG Xin,CHEN Zirui,et al.Survey of Supervised Joint Entity Relation ExtractionMethods [J].Frontiers of Computer Scienceand Technology, 2022,16(4) :713.

        [10] SHEN Y, MA X,TANG Y, et al. A Trigger-sense Memory Flow Framework for Joint Entity and Relation Extraction[C]// Proceedings of the Web Conference 2021. New York, 2021: 1704.

        [11]QIN H, TIAN Y,SONG Y. Relation Extraction with Word Graphs from N-grams[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing,2021: 2860.

        [12]LIU X,DU W,WANG X,et al. A Mutually-exclusive Binary Cross Tagging Framework for Joint Extractionof Entities andRelations [J].Plo Sone,2O22,17 (1) :e260426.

        [13]楊超男,彭敦陸.融合BSRU和膠囊網(wǎng)絡(luò)的文檔級(jí)實(shí)體 關(guān)系抽取模型[J].小型微型計(jì)算機(jī)系統(tǒng),2022,43 (5) :964. YANG Chaonan,PENG Dunlu.Document-level Entity Relation Extraction Method Integrating Bidirectional Simple Recurrent Unit and Capsule Network[J]. Chinese Computer Systems, 2022,43(5) :964.

        [14]秦健,侯建新,謝怡寧,等.醫(yī)療文本的小樣本命名實(shí) 體識(shí)別[J].哈爾濱理工大學(xué)學(xué)報(bào),2021,26(4):94. QIN Jian,HOU Jianxin,XIE Yining,et al. Few-shot Named Entity Recognition for Medical Text[J]. Harbin University of Science and Technology,2021,26(4) :94.

        [15]ZHANG Z, ZHOU T, ZHANG Y,et al. Attention-baseddeep Residual Learning Network for Entity Relationextraction in Chinese EMRs[J]. BMC medical informaticsand Decision Making,2019,19 :171.

        [16] WEI Z, SU J,WANG Y,et al. A Novel CascadeBinary Tagging Framework for Relational Triple Extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020:1476.

        [17] ZHENG H,WEN R,CHEN X,et al. PRGC: Potential Relation and Global Correspondence Based Joint Relation

        al Triple Extraction[C]//Proceedings of the 59thAnnual Meeting of the Association for Computational Linguistics

        and the 1lth International Joint Conferenceon Natural LanguageProcessing( Volume1: LongPapers), 2021:6225.

        [18]楊鶴,于紅,孫哲濤,等.基于雙重注意力機(jī)制的漁業(yè) 標(biāo)準(zhǔn)實(shí)體關(guān)系抽?。跩].農(nóng)業(yè)工程學(xué)報(bào),2021,37 (14) :204. YANG He,YU Hong,SUN Zhetao,et al. Fishery Standard Entity Relation Extraction Using Dual Attention Mechanism[J]. The Chinese Society of Agricul Engineering, 2021,37(14) :204.

        [19]劉巨升,于紅,楊惠寧,等.基于多核卷積神經(jīng)網(wǎng)絡(luò) ( BERT+Multi-CNN+CRF? 的水產(chǎn)醫(yī)學(xué)嵌套命名實(shí)體 識(shí)別[J].海洋大學(xué)學(xué)報(bào),2022,37(3):524. LIU Jusheng,YU Hong,YANG Huining,et al. Recognitionof Nested Named Entities in Aquature Medicine Based on Multikernel Convolution(BERT + Multi-CNN + CRF)[J].Dalian OceanUniversity,2022,37(3):524.

        [20]姜鑫.水產(chǎn)動(dòng)物疾病診斷的知識(shí)圖譜構(gòu)建[D].: 海洋大學(xué),2022.

        [21]DEVLINJ,CHANG M W,LEE K,et al. BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding[C]//Processings of the 2019 North American Chapter of the Associationfor Computational Linguistics,2018:4147.

        [22]HEK,ZHANGX,RENS,et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770.

        [23] SABOUR S,F(xiàn)ROSST N,HINTON G E. Dynamic RoutingBetween Capsules[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:3859.

        [24]ZHANG S,ZHENG D,HU X C,et al. Bidirectional Long Short-Term Memory Networks for Relation Classification[C]//Proceedings of the 29th Pacific AsiaconferenceonLanguage, Information and Computation, 2015: 73.

        [25]LAFFERTY J. Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Proceedings of the Eighteenth International Conference on Machine Learning,20O1:282.

        [26]VITERBI A. Error Bounds for Convolutional Codesandan Asymptotically Optimum Decoding Algorithm[J]. IEEE Transactions on Information Theory,1967,13(2) : 260.

        [27]李冬梅,張揚(yáng),李東遠(yuǎn),等.實(shí)體關(guān)系抽取方法研究綜 述[J].計(jì)算機(jī)研究與發(fā)展,2020,57(7):1424. LI Dongmei,ZHANG Yang,LI Dongyuan,et al. Review ofEntity RelationExtraction Methods[J].ComputerResearch and Development,2020,57(7):1424.

        [28]WANG Q,WU W,SHI Y,et al. An Overview of the 2019 Language and Intelligence Challenge[C]//Natural Language Processing and Chinese Computing: 8th CCF International Conference,2019:818.

        (編輯:溫澤宇)

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        人妻少妇看a偷人无码精品| 日韩一区二区三区精品视频| 小妖精又紧又湿高潮h视频69| 人妻丰满熟妇av无码区hd | 亚洲精品国产v片在线观看| 97日日碰日日摸日日澡| 99国产精品欲av麻豆在线观看| 国产精品一区二区av不卡| 北条麻妃国产九九九精品视频| 久久精品国产亚洲av电影| 日韩肥熟妇无码一区二区三区 | 伊人久久精品亚洲午夜| 亚洲成av人在线观看天堂无码| 国产成人户外露出视频在线| 中文字幕亚洲精品高清| 久久精品熟女亚洲av麻| 日日摸天天摸人人看| 亚洲日韩欧美一区二区三区| 羞涩色进入亚洲一区二区av| 无码专区一ⅴa亚洲v天堂| 青青草原精品99久久精品66| 亚洲午夜久久久久中文字幕| 成人爽a毛片免费网站中国| 久久无码人妻丰满熟妇区毛片| 亚洲日本va午夜在线电影| 久久精品中文字幕第一页| 青青草中文字幕在线播放| 国产ww久久久久久久久久| 中文字幕日韩高清| 男女视频网站免费精品播放| 国产av无码专区亚洲av麻豆| 国产成人无码一区二区三区在线| 日本一区二区三区激情视频| 三级国产自拍在线观看| 又色又爽又高潮免费视频国产| 这里只有久久精品| 久久久亚洲精品蜜臀av| 日本道色综合久久影院| a级国产乱理论片在线观看| 国产在线高清无码不卡| 免费av日韩一区二区|