亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學習的鋁硅合金文獻的文本識別

        2022-08-25 09:02:36劉英莉李武亮么長慧尹建成
        材料科學與工程學報 2022年4期
        關鍵詞:合金材料語料實體

        劉英莉,李武亮,牛 琛,么長慧,尹建成,沈 韜

        (1.昆明理工大學 云南省計算機技術應用重點實驗室,云南 昆明 650500;2.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;3.昆明理工大學 材料科學與工程學院,云南 昆明 650500)

        1 前 言

        材料作為社會發(fā)展的重要物質基礎,縱觀人類文明發(fā)展史,人類欲將改造自然的能力提升到一個新的水平都離不開材料的發(fā)現(xiàn)和應用。美國于2011年6月24 日提出材料基因組計劃(materials genome initiative,MGI)[1],旨在運用實驗能力、計算能力,數(shù)據技術更快地獲取材料成分-結構-工藝-性能間的關系。如何獲取大量有價值的材料數(shù)據成為現(xiàn)階段的關鍵問題。數(shù)據可以來自計算、文獻數(shù)據、假設、實驗,包括來自失敗的實驗。在過去的幾十年里,人們發(fā)現(xiàn)大量的科學論文中,包含了大量的材料數(shù)據,文獻數(shù)據提取在許多特定領域都取得了一些進展,如化學和生物醫(yī)學[2-3],然而可用于機器學習的數(shù)據規(guī)模很小。因此,在材料基因組計劃中,通過機器學習進行材料性能預測不僅要關注機器學習算法本身的研究,而且必須從材料科學文獻中提取有價值的材料數(shù)據。

        自然語言處理(natural language processing,NLP)的目的是使計算機理解并處理用文本輸入的命令,被各個領域應用于從非結構化文本中提取的有效信息,并將其進一步處理為結構化信息,從而方便領域研究應用。命名實體識別(named entity recognition,NER)作為NLP領域的基礎任務之一,旨在識別文本中包含的可用信息的實體詞匯或短語,例如地理位置,組織名稱,通用領域中的時間、數(shù)字以及特定領域中的專有對象。在材料領域,命名實體識別任務由于其領域實體的特殊性與專業(yè)性,實體識別更加困難。2021年,Liu等[4]將命名實體識別(NER)的文本應用于材料科學文獻的大規(guī)模信息提取,從材料科學文獻中提取鋁硅合金,鋁元素等實體。楊錦鋒等[5]在2016年提出中文電子病歷的命名實體識別和實體關系的標注體系,為后續(xù)研究打下了基礎。文獻中所關注的材料實體識別任務,可以借鑒命名實體識別在生物醫(yī)學等特定領域的成功應用,進一步針對材料文本特征研究適用于材料領域的命名實體識別。

        在材料領域,Al-Si合金由于質量輕、導熱性能好,并且強度、硬度以及耐蝕性能較好,在航空、汽車、冶金等領域[6-9]得到廣泛應用。因此,對鋁硅合金的研究意義重大,本論文收集整理了鋁硅合金數(shù)據集,用于材料命名實體識別。

        監(jiān)督學習需要大量有標記的樣本集,標注數(shù)據是一項耗時耗力的任務。在某些特定領域,例如,材料科學、化學、生物醫(yī)學等,由于數(shù)據采集成本高,標注成本高,難以構建大規(guī)模的標注數(shù)據集,限制了其發(fā)展,而遷移學習的應用[10]能有效解決這一難題。在計算機視覺領域,廣泛應用了遷移學習的思想,例如2020年,Liu等[11]利用遷移學習,實現(xiàn)高光譜圖像的分類。近幾年的研究表明,遷移學習可以擴展到多個領域,包括自然語言處理。2019年,Chen[12]將遷移學習應用于多級生物醫(yī)學事件的觸發(fā)識別,提出的方法提高了識別度。2020年,Heinzinger等[13]基于遷移學習成功地從與各種蛋白質預測任務相關的未標記序列數(shù)據庫中提取信息。

        雖然深度學習在一定程度上減少了模型對標注數(shù)據的依賴,但為了保證由初始模型判斷不確定性的能力,所需的初始標注訓練數(shù)據量仍然較大。隨著預訓練語言模型的發(fā)展,在NLP領域利用遷移學習將語言模型預訓練后運用到特定領域任務中,也可以有效解決龐大的計算資源以及數(shù)據缺乏的問題。目前很多自然語言處理任務使用預訓練語言模型對大量無標注的數(shù)據進行處理,提取到的語言特征對命名實體識別等下游任務模型可以起到很好的輔助作用,這在很大程度上減少了自然語言處理任務對標注語料的依賴。

        2 方 法

        針對材料領域的NER 任務,從頭開始訓練神經網絡不僅需要大量訓練數(shù)據,而且非常耗時。隨著Transformer[14]的提出,許多基于Transformer的預訓練語言模型在眾多NLP 任務中取得了遠超傳統(tǒng)模型的效果。例如,BERT[15]采用基于微調的方法在Transformer編碼基礎上應用于下游任務,在多項NLP任務上取得了很好的效果。使用未標注數(shù)據預訓練語言模型應用于鋁硅合金實體識別數(shù)據集,與深度主動學習相比進一步減少NER 任務對初始標注訓練數(shù)據的需求。本論文采用 BERT 的變體ALBERT[16]與CRF 模型[17],針對NER 任務進行微調,CRF模型可以用于序列標注等問題,由于其出色的標簽約束能力,在各類NER 模型中成為重要的組成部分;并借助主動學習,面向少量標注數(shù)據的合金材料實體識別任務進行實驗研究。

        2.1 數(shù)據收集與處理

        本文中合金材料實體識別任務主要針對{材料名稱、材料元素、材料性能、材料實驗方法、材料元素組成比}五個實體類型,具體內容如下:

        (1)Material:指一種鋁硅合金的材料名稱。

        (2)Element:指組成鋁硅合金的材料元素名稱。

        (3)Method:指進行材料實驗的方法,例如噴射沉積,快速凝固等。

        (4)Property:指鋁硅合金的材料性能,例如微觀組織,物理、化學性能,硬度等。

        (5)Com Percent:指鋁硅合金中各元素的百分比含量。

        本文中合金材料標注語料示例如圖1所示。

        圖1 合金材料命名實體識別手工標注示例Fig.1 An example of manual marking for named entity recognition of alloy materials

        語料內容統(tǒng)計如表1示。

        表1 合金材料語料庫數(shù)據統(tǒng)計表Table 1 Corpus data statistics of alloy materials

        圖1 采用了序列標注,序列標注(Sequence labeling)是NLP中最基礎的任務。序列標注就是使用標簽對句子中的每個單詞進行標注。BIO 標注(Bbegin,I-inside,O-outside)是解決標注問題的最簡單的方法,即將其轉化為原始標注問題。將語料中的標簽統(tǒng)一處理為“BIO”格式。其中,B 表示當前實體單詞或實體短語的首個單詞,I表示當前實體短語的后續(xù)組成的單詞,O 表示非實體。

        2.2 結合遷移學習和主動學習的命名實體識別

        針對合金材料文獻語料,結合主動學習與ALBERT-CRF模型(見第2.2.1節(jié))進行實驗。從合金材料文獻語料庫中隨機選擇的初始訓練集的數(shù)量為500個句子,每輪迭代后隨機選擇的測試集數(shù)量為1000個句子,另外從合金材料語料中選取3000個句子作為擴展集。在訓練過程中,每次從擴展集中選取100個句子進行篩選,擴充到初始訓練集后繼續(xù)對模型進行訓練。在系統(tǒng)整體訓練結束后,使用最后得到的ALBERT-CRF 模型,即可對未知的材料語料進行實體識別。實驗結果取5次實驗的平均值。最終實驗框架結構如圖2所示。

        圖2 結合遷移學習和主動學習的合金材料實體識別框架Fig.2 An alloy material entity recognition framework combiningtransfer learning and active learning

        2.2.1 ALBERT-CRF 實 體 識 別 模 型 BERT 模型本身包含眾多參數(shù),訓練成本較高。模型參數(shù)量導致了模型訓練對算力要求越來越高,模型需要更長時間去訓練,甚至有些情況下參數(shù)量更大的模型表現(xiàn)更差。于是,出現(xiàn)了許多基于BERT 模型的變體,其中ALBERT 的效果尤為突出。ALBERT 對嵌入參數(shù)進行因式分解,在相對較小維度的輸入級嵌入之間劃分嵌入矩陣,而隱藏層嵌入仍采用較高維度,使得參數(shù)量減少約80%。并且,ALBERT 進一步將所有全連接層和各隱藏層之間共享參數(shù),使得模型僅在部分任務上性能有所降低的情況下,進一步減少了整體的參數(shù)量。

        本文提出的ALBERT-CRF 模型框架如圖3 所示。因為命名實體識別是序列標注任務,序列標簽之間具有較強的關聯(lián),與文本分類任務不同,所以本文在將ALBERT 模型應用命名實體識別時,在ALBERT輸出層使用CRF層進行聯(lián)合建模。

        圖3 ALBERT-CRF模型訓練示意圖Fig.3 Schematic diagram of ALBERT-CRF model training

        圖3中ALBERT 的輸入部分由詞向量、句子向量表示與位置向量表示合并組成。對于輸入序列X= (x1,x2,…,x n),設ALBERT 層輸出的初始序列標簽為E,矩陣大小表示序列長度和所有可能標簽個數(shù)的乘積,E iy j表示初始輸出中索引為i的單詞被模型預測為y i標簽的分數(shù)。CRF 層對于預測標簽序列y=(y1,y2,…,y n)的序列真實路徑分數(shù)用Preal=eS(X,y)表示,S(X,y)由標簽轉移分數(shù)Transition和映射分數(shù)Emission相加得到,如式(1)、(2)、(3)所示:

        加入了CRF 的ALBERT-CRF 能夠充分借助ALBERT 預訓練模型和CRF 標簽約束的優(yōu)勢,使得模型可以借助預訓練得到的語義特征在面向少量標注數(shù)據任務時,仍能夠按照CRF添加的約束規(guī)則保證標簽序列的合理性。并且,ALBERT 預訓練得到的詞向量包含更多的上下文特征,在計算句子相似度時比Glove預訓練的靜態(tài)詞向量更加準確。最終如圖3中CRF層選擇所有可能的標簽序列中,將最符合標簽序列關系的一組作為輸出。

        3 實驗結果及分析

        3.1 評價指標

        本文命名實體識別任務的模型評價指標為精確率(Precision)、召回率(Recall)以及F1值。精確率指的是正確分類為正類的樣本數(shù)與全部正類樣本數(shù)之比,Precision又稱為查準率。召回率指的是預測正確的正類與所有正類數(shù)據的比值,Recall又稱為查全率。F1值則是精確率與召回率的加權幾何平均值。精確率、召回率和F1值的計算公式分別見式(6)、(7)、(8)所示。

        式中,T 表示這類樣本中被正確預測的樣本數(shù),S表示被識別為這一類實體的樣本總數(shù),A 為樣本中實際為這類樣本的實例總數(shù)。

        3.2 實驗結果及分析

        ALBERT-CRF 模型在迭代過程中F1值的變化如圖4所示。圖中Base_Value方法對應的直線是將包括擴展集和初始訓練集的全部標注數(shù)據進行訓練,得到滿足應用水平的ALBERT-CRF 模型指標值,作為ALBERT-CRF實體識別實驗及其對比實驗方法的目標值。Active_ALBERT_CRF 方法對應的曲線為采用結合主動學習的方法訓練ALBERT-CRF模型的測試結果,在測試結果中去掉了O 標簽的評估。Uncertainty_Aug對應的曲線為僅基于不確定性選擇樣本選擇的主動學習方法的測試結果。文本數(shù)據增強方法得到的模型測試結果對應圖中Old_Aug曲線。同時,結合主動學習得到的最終CRF模型指標作為對比,如圖中Active_CRF對應的直線所示。

        圖4 結合遷移學習和主動學習的合金材料命名實體識別結果Fig.4 Result of named entity recognition of alloy materials combined with transfer learning and active learning

        從圖4 中可以看出,結合主動學習方法的ALBERT-CRF模型(Active_ALBERT_CRF),在迭代15次時F1值就達到了CRF模型,基于不確定性樣本選擇的方法在迭代22 次時,模型F1 值也超過了CRF模型。證明預訓練語言模型在大量無標注語料中得到的上下文特征可以更快提升模型的泛化能力。

        在 迭代 約20 次 時,ALBERT-CRF 模 型F1 值 達到了ALBERT-CRF模型在擴展集完全標注(3500個句子)上訓練的效果,此時訓練集句子總數(shù)約為2500個句子,相對減少人工標注句子數(shù)約為1000個句子。由此可見,加入了ALBERT-CRF模型后,整體的命名實體識別框架可以利用預訓練語言模型和主動學習的優(yōu)勢,使用更少的標注樣本使模型達到更高的性能。而若僅基于不確定性樣本選擇的方法,ALBERT-CRF模型在迭代約30次時才達到Base_Value的指標值。

        ALBERT-CRF模型在合金材料語料的3500 個句子完全訓練得到的模型F1 值如表2 所示。結合主動學習基于少量訓練集迭代訓練的ALBERT-CRF模型最終F1值如表3所示。表2和表3所示的結果是去除了“O”標簽實體后測試集中各類實體的測試結果。

        表2 合金材料語料完全訓練ALBERT-CRF模型結果Table 2 Results of fully trained ALBERT-CRF model on alloy material corpus

        表3 結合主動學習在少量訓練集上訓練的ALBERT-CRF模型結果Table 3 Results of the ALBERT-CRF model trained on a small number of training sets combined with active learning

        由表2 和表3 對比可知,迭代完成后得到的Active_ALBERT_CRF 模型在合金材料實體識別中的F1值達到了ALBERT-CRF模型的平均水平,甚至略有提升,說明基于主動學習的方法進行樣本選擇后擴充到數(shù)據集的方法,能使得最終訓練集中的樣本質量更高,有助于提升模型的泛化能力。部分實體如ComPercent和Method實體識別,出現(xiàn)了高精確率、低召回率的情況,即模型在這兩類實體識別中有一定的過擬合現(xiàn)象。這是由于這兩類實體在少量的數(shù)據集中實體數(shù)量較少且書寫格式等不統(tǒng)一的情況下,導致模型很難預測出未知文本中屬于這兩類的全部實體。而從表3 結果中可以看到,ComPercent和Method等實體的召回率雖然仍比較低,但是相比表2有所提升,說明高質量的擴充樣本使得模型泛化能力有一定的提升。

        為排除實驗對已知語料的依賴,探究完全未知語料的使用效果,本文從百度學術中收集了完全未標注的鋁硅合金材料相關英文文獻,并從中隨機選取了1000個句子作為擴展集。在ALBERT_CRF模型的基礎上使用新的擴展集繼續(xù)迭代,得到實驗結果如圖5所示。

        圖5 未知語料擴展集擴充結果Fig.5 Expansion result of unknown corpus expansion set

        由圖5可以看出,在使用未知語料繼續(xù)進行迭代實驗的過程中,F1值進一步提升。本文基于主動學習與預訓練的實體抽取方法不僅適用于已有的標注語料,在未知語料場景下同樣有效,繼續(xù)擴充樣本可以使模型性能進一步得到提升。

        4 結 論

        材料基因組倡導發(fā)揮材料大數(shù)據的作用,采用機器學習變革材料研發(fā)途徑。數(shù)據驅動模式是材料基因工程發(fā)展的核心問題,但如何快速獲取大量材料數(shù)據已成為需要解決的關鍵問題。為獲取大量有效的材料數(shù)據,并減少命名實體識別任務對標注語料的依賴,本文采用基于遷移學習的材料文本識別方法獲取材料數(shù)據。手工構建了鋁硅合金材料數(shù)據集,包括5347個句子,2835個實體。

        主要采用了結合ALBERT 預訓練模型進行遷移學習的命名實體識別模型,結合主動學習面向少量標注數(shù)據進行合金材料實體識別,從而準確地提取材料文獻中標注的實體。通過實驗得到以下結論:

        1.該模型對文本的精確率達到了82.90%,F1值達到了76.57%。在降低人工標注成本的同時,提高了模型的實體識別能力。

        2.本文將該模型與主動學習方法相結合,在基于少量標注的初始訓練集條件下,使得F1 值提高了0.61%,快速提升了模型的泛化能力,使模型實體識別性能達到較高水平。此外,探究了未知語料的場景,在迭代40次后,模型的F1值達到80%,證明了對未知材料語料的有效性。

        本研究通過構建的少量鋁硅合金材料數(shù)據集,利用遷移學習進行材料命名實體識別任務,減少了對標注語料的依賴以及人工標注的成本,將遷移學習與主動學習結合進一步提升了模型識別實體的有效性,并證明了對未知材料文獻亦同樣適用。本研究為解決材料數(shù)據源的缺乏,改善材料基因機器學習遭遇小規(guī)模數(shù)據集的困境,提供了如何解困的理論意義和應用價值。

        猜你喜歡
        合金材料語料實體
        成都川硬合金材料有限責任公司
        流體機械(2024年2期)2024-04-07 01:59:38
        寧波三韓合金材料有限公司
        成都川硬合金材料有限責任公司
        流體機械(2022年5期)2022-06-28 02:30:28
        前海自貿區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        兩會進行時:緊扣實體經濟“釘釘子”
        振興實體經濟地方如何“釘釘子”
        基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        人人妻人人澡人人爽人人精品电影 | 亚洲视一区二区三区四区| 伊人久久大香线蕉av色婷婷色| 国产精品久久久久9999无码| 乱码精品一区二区三区| 亚洲va在线va天堂va四虎| 午夜一区二区三区免费观看| www国产亚洲精品| 日本xxxx色视频在线播放| 亚洲精品成AV无在线观看| 久久精品国产亚洲av成人网| av天堂精品久久综合网| 国产麻豆成人精品av| 伊人久久大香线蕉在观看| 亚洲av男人免费久久| 无码熟妇人妻av在线网站 | 天堂a版一区二区av| 激情亚洲一区国产精品| 成人国内精品久久久久一区| 国产精品久久无码不卡黑寡妇| 97自拍视频国产在线观看| 免费国产自拍在线观看| 伊人久久这里只有精品| 午夜精品久久久久久久无码| 亚洲 高清 成人 动漫| 久久精品国产亚洲不av麻豆| 亚洲成人免费久久av| 97丨九色丨国产人妻熟女| 国产欧美日韩一区二区三区在线| 亚洲综合伦理| 青青草视频在线观看绿色| 午夜免费视频| 亚洲精品成人专区在线观看| 青青草伊人视频在线观看| 国产内射一级一片内射视频| 熟妇人妻无乱码中文字幕| 久久久久亚洲AV片无码乐播| 亚洲自拍偷拍一区二区三区 | 国产不卡av一区二区三区| 国内少妇毛片视频| 欧美成人形色生活片|