亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCNN-Attention的土壤肥力關系抽取研究

        2022-09-21 03:34:18周樂樂張彩麗劉楠楠
        安徽農業(yè)科學 2022年17期
        關鍵詞:文本模型

        季 豐,周樂樂,張彩麗,任 竹,劉楠楠,陳 磊

        (安徽省農業(yè)科學院農業(yè)經濟與信息研究所,安徽合肥 230001)

        在農業(yè)生產的過程中,準確、迅速地獲取土壤肥力相關數據,進行綜合評估與分析,對精準農業(yè)生產具有重要的意義。隨著時代的進步,計算機技術在農業(yè)生產領域得到了普遍的應用。利用知識圖譜構建土壤肥力知識問答系統(tǒng),能夠有效、快速獲取土壤肥力的相關數據,有助于開展精細化農業(yè)生產。

        關系抽取(Relation Extraction,RE)是知識圖譜構建中的重要環(huán)節(jié),具有關鍵的理論意義和豐富的應用前景,為多種應用提供重要的支持。關系抽取主要負責在命名實體識別的基礎上,抽取實體間的語義關系,組成實體A、關系、實體B的結構形式。一個完整的RE系統(tǒng)包含3部分:實體識別(用于抽取文本中的實體)、實體鏈接(將抽取的實體和已有的知識圖譜關聯(lián))、關系分類(根據上下文對實體關系進行分類)。

        在中文土壤肥力相關的文本中,存在“一個文本中存在多種指標類型”“有些存在關系的實體之間距離較遠,抽取困難”“文本中對同一種指標的描述方式不一樣”等問題,傳統(tǒng)的關系抽取方法效果一般,針對這類問題,筆者提出了一種基于PCNN-Attention的土壤肥力關系抽取方法,能夠較好適用于土壤肥力領域的文本,滿足土壤肥力知識圖譜系統(tǒng)構建的需求。

        1 相關研究

        關系抽取的方法大致有監(jiān)督學習、半監(jiān)督學習及無監(jiān)督學習3類。其中監(jiān)督學習使用的數據集通常經過完全正確的標注,因此只需要對關系進行分類即可。半監(jiān)督學習是通過人工部分標注文本,從而構建模板,通過模板選取實力組成訓練集,這種方法受到模板構建和規(guī)則的影響,會產生噪聲影響結果,從而使數據精確度較低。 無監(jiān)督學習不需要進行人工標注,而是利用語料中的冗余信息進行聚類,通過結果判斷關系,但由于聚類方法對關系的描述不夠準確,無監(jiān)督學習通常無法取得精確的關系抽取效果。

        監(jiān)督學習方面,2013年Liu等提出了使用卷積神經網絡進行關系抽取。與傳統(tǒng)方法相比,提高了準確度。 2014年Zeng等改良此方法,對輸入的詞向量進行預處理,同時加入了實體的詞匯特征,優(yōu)化了關系分類的效果。之后,Zhang等提出使用循環(huán)神經網絡進行關系分類,效果顯著優(yōu)于卷積神經網絡。Zhou 等借助長短期記憶人工神經網絡,并添加注意力機制,提高了分類的準確度。Zhu等嘗試將注意力機制與卷積神經網絡相結合,在英文數據集中取得了不錯的效果。在半監(jiān)督學習方面。2015年Zeng等借助多示例學習方法降低噪聲,并優(yōu)化了遠程自動標注導致的數據錯誤問題。雖然降低了噪聲對于關系分類的干擾,但也遺失了部分數據。Lin等在此基礎上添加注意力機制,在降低噪聲影響的同時,提高了數據的利用率。

        目前英文數據集上的關系抽取研究較為成熟,而因為中文數據集的缺失,中文關系抽取領域研究較薄弱。Wu等結合注意力機制和卷積神經網絡嘗試進行中文關系抽取,在中文文本數據上提升了準確性。丁澤源等利用結合注意力機制的雙向長短期記憶網絡實現(xiàn)關系抽取,在中文生物醫(yī)學領域得到了不錯的結果。姚博文等針對中文人物關系領域的文本中語法結構復雜,文本語義特征不明顯的問題,通過預訓練模型較強的語義表征能力生成詞向量,并將文本句子分層次進行特征提取,在中文人物關系數據集上驗證了較好的準確性。

        從早期基于模式匹配的關系抽取到后來基于機器學習的關系抽取,實體關系抽取得到了廣泛的關注。目前隨著以深度學習為基礎的人工智能潮流席卷全球,自然語言處理也取得了突破進展。深度學習下實體關系抽取有效改善了傳統(tǒng)標注工具的自身缺陷,取得了良好的效果,并成為近些年研究的熱點與關鍵。然而實體關系抽取至今仍面臨許多挑戰(zhàn),如實體語義關系的復雜性、句與句之間實體關系的模糊性、數據規(guī)模不足與模型學習能力的沖突等都制約著實體關系抽取的發(fā)展。

        2 基于PCNN-Attention的關系抽取

        采用PCNN-Attention模型實現(xiàn)關系抽取,模型結構如圖1所示,包括BERT預訓練語言模型、卷積層、分段池化層以及Softmax分類層。

        圖1 模型結構Fig.1 Model structure

        本層的作用是對文本進行向量化,與其他模型有所區(qū)別的是,該研究使用的PCNN模型同時考慮單個實體詞語義信息和每個實體詞與其他詞的相對位置,因此需要分為詞向量化和位置向量化2步,從而將輸入的文本轉化為向量形式,以便于計算機進行處理。

        訓練數據集為中文土壤肥力領域文本,為了便于計算機的處理,利用BERT預訓練語言模型進行詞向量化,訓練得到每個詞對應的向量。

        通過以下方法對句子向量化:首先,將句子拆分為數個單詞,并將2個實體詞作為基準詞,將其在句子中的位置視為0,分別計算其他詞相對于基準詞的位置。例如,“五蓮縣土壤全氮含量為0.82 g/kg”,可以分為“五蓮縣”“土壤”“全氮”“含量” “為”“0.82 g/kg”6個詞,其中“五蓮縣”和“0.82 g/kg”為實體詞,則其他詞關于“五蓮縣”的相對位置為[1,2,3,4,5],關于“0.82 g/kg”的相對位置為[-5,-4,-3,-2,-1]。

        首先將經過BERT預訓練語言模型處理的數據輸入本層進行卷積,本層設計了3個卷積,每個卷積包含100個卷積核,卷積核的大小為1*3,1*5,1*7。

        依據中文土壤肥力領域文本的特征,本層采用了GELU激活函數。設輸入為,公式為式(1)所示:

        (1)

        本層功能是將卷積層輸出結果進行分段,再分別池化。由圖2可知,模型將句子按照實體詞的位置分段,分別為句首~實體1、實體1~實體2、實體2~句末,再分別進行池化。

        圖2 分段池化Fig.2 Segmented pooling

        句子分段完成后,對3部分分別進行填充,按照其中最長的1個分句的長度為基準,分別對另外2部分進行填充,并將填充的位置標注為1,未填充的位置標注為0。

        由于句子被2個實體詞分為3段,每個卷積核的輸出同樣為3份,若設卷積核的數量是,本層的輸出向量是一個長度為3的向量,如式(2)所示:

        (2)

        為了防止模型過擬合,提高魯棒性,模型在分類前經過Dropout層、ReLU層以及線性層處理池化層的輸出,然后對數據進行降維操作,借助線性層將維度降到維,為關系類別。最后采用Softmax進行關系的分類,通過輸入數組中第個節(jié)點的值和節(jié)點的個數,即分類的類別數,得到Softmax函數的輸出值,如式(3)所示:

        (3)

        注意力機制(Attention Mechanism)是深度學習的核心技術之一,該技術參考了人類視覺系統(tǒng)的選擇性注意機制,人類視覺可以快速掃描目標,從而獲取目標中的重點區(qū)域,對其投入更多注意力資源,以獲得更多關注目標的細節(jié),而抑制其他無用信息,提高了視覺信息處理的效率與準確性。借助此機制,在文本數據中可對數據進行權重分配,通過信息的重要性來確定權重,給予重要信息更高的權重分配,導致其對關系抽取產生更大的影響,從而提升關系抽取效果,具體過程如式(4)、(5)、(6):

        =()

        (4)

        (5)

        (6)

        式中,為輸入狀態(tài)序列,是學習函數,受到的影響。通過該公式,可以視為計算的加權平均,從而確定權值,將其視為注意力。最后,通過該注意力權值對序列的隱含向量進行加權,從而計算出關系向量。該向量則為通過注意力機制優(yōu)化的輸出向量。

        3 結果與分析

        通過中國知網精確檢索土壤肥力相關文獻構建實驗數據集,檢索式為SU=(土壤)*(肥力+測土配方+土壤養(yǎng)分+全氮+全磷+全鉀+pH+有效磷+有效氮+有機質+黏粒+砂粒+粉粒)NOT TI=(訂閱+訂購+征文+征稿+稿約+聲明+啟事+通知+須知+通訊+論文索引),選取下載1980年至2021年土壤肥力相關文獻共計1 036篇,并對文獻中土壤肥力水平十大指標(pH、全氮、全磷、全鉀、有效氮、有效磷、有機質、粉粒、黏粒、砂粒)進行標注,從而形成文本數據集。其中訓練集725篇,測試集311篇。

        試驗環(huán)境如下:操作系統(tǒng)為Windows 10;CPU為Intel(R)Xeon(R)Bronze 3106 CPU @1.70 GHz;GPU為NVIDIA GeForce RTX 2080 Ti(11G);Python為3.7.3;TensorFlow為1.14.0;內存為32 G。參數設置如表1所示。

        表1 參數設置Table 1 Parameter setting

        分別采用準確率、召回率以及值3組數據評價模型性能,具體公式如式(7)、(8)、(9):

        (7)

        (8)

        (9)

        式中,為被正確地劃分為正例的樣本數,為被錯誤地劃分為負例的樣本數,被錯誤地劃分為正例的樣本數。

        在上述試驗設置下,通過PCNN-Attention模型對7種關系進行提取,具體結果如表2所示。從結果數據中可以看出,準確率、召回率、值的宏平均值分別達到了85%、78%、80%,加權平均值分別達到了89%、89%、88%,證明該模型能夠有效提取土壤肥力相關的7種關系,能夠滿足土壤肥力知識圖譜系統(tǒng)構建的需求。

        4 結語

        針對中文土壤肥力文本中指標類型較多,語法結構較為復雜,同一指標描述方式不同等問題,提出一種基于PCNN-Attention的土壤肥力關系抽取模型,該模型先結合BERT預訓練語言模型進行文本的向量化,再利用分段卷積神經網絡實現(xiàn)關系抽取,并在此基礎上添加了注意力機制,以提高關系分類的準確性。在中文土壤肥力相關文獻數據集上對模型進行試驗,試驗結果數據顯示,該模型在中文土壤肥力領域,對土壤肥力相關數據指標能夠有效進行關系抽取,具有較為可靠的準確率,能夠滿足土壤肥力知識圖譜系統(tǒng)構建的需求。

        表2 不同指標準確率和召回率的比較Table 2 Comparison of accuracies and recall rates of different indexes %

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        91av小视频| 性无码一区二区三区在线观看 | 国产成人综合一区二区三区| 久久久伊人影院| 国产精品va在线观看一| 一区二区视频网站在线观看| 免费蜜桃视频在线观看| 亚洲丝袜美腿精品视频| 91色老久久偷偷精品蜜臀懂色| 男女主共患难日久生情的古言| 美女扒开屁股让男人桶| 久久久久久亚洲av无码蜜芽| 洗澡被公强奷30分钟视频| 狠狠久久久久综合网| 麻豆成年视频在线观看| 少妇人妻av一区二区三区| 无码a级毛片免费视频内谢5j| 永久亚洲成a人片777777| 少女韩国电视剧在线观看完整| 国产精品99久久久久久猫咪| 亚洲欧美aⅴ在线资源| 人人做人人妻人人精| 亚洲国产成人久久综合一区77| A亚洲VA欧美VA国产综合| 国产一级黄色性生活片| 亚洲精品中文字幕熟女| 亚洲一区二区三区精品| 精品国产乱码久久久久久婷婷| 一本一道久久a久久精品综合| 国产suv精品一区二区| 麻豆久久五月国产综合| 69国产成人综合久久精| 国产女人乱码一区二区三区| 午夜视频在线瓜伦| 无码成人一区二区| 久久尤物AV天堂日日综合| 中文人妻av大区中文不卡| 97女厕偷拍一区二区三区| 欧美老熟妇乱xxxxx| 久久精品亚洲乱码伦伦中文| 一区二区在线亚洲av蜜桃|