亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新能源專利文本術(shù)語抽取研究

        2022-05-10 08:45:36陳海濤呂學強游新冬
        小型微型計算機系統(tǒng) 2022年5期
        關(guān)鍵詞:語義新能源文本

        孫 甜,陳海濤,呂學強,游新冬

        1(北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101)

        2(北京信息科技大學 外國語學院,北京 100192)

        1 引 言

        新能源主要是指可再生、可持續(xù)的非傳統(tǒng)清潔環(huán)保能源.新能源產(chǎn)業(yè)主要是指將太陽能、地熱能、風能、海洋能、生物質(zhì)能和核聚變能等非傳統(tǒng)能源產(chǎn)業(yè)化的一種高新技術(shù)產(chǎn)業(yè)[1].基于1995-2019年全球以及中國專利公開的新能源產(chǎn)業(yè)數(shù)據(jù)信息統(tǒng)計,中國新能源專利總申請量為423134件,全球新能源專利總申請量為1734849件,年均申請增長率保持穩(wěn)定,這表明世界各國政府和企業(yè)的大力關(guān)注和支持[2].如何推動中國專利文獻走向世界,更快速更準確地翻譯專利文本成為一個值得關(guān)注的問題.

        當前專利文獻的翻譯方式主要有兩種,一種是經(jīng)由專業(yè)領域人士的翻譯,但高質(zhì)量翻譯是一項高要求且耗時的生產(chǎn)任務,對人類翻譯專家的要求較高,能滿足該要求的合格翻譯人才比較缺乏,況且由于專利文獻具有新穎性、可靠性和權(quán)威性的特點,翻譯人員在翻譯過程中需要利用領域術(shù)語表來把握對領域術(shù)語的準確翻譯,術(shù)語庫的構(gòu)建就顯得尤為重要.另一種翻譯方式是先對專利文本進行機器翻譯,然后再進行譯后編輯,據(jù)統(tǒng)計,市面上翻譯引擎對專利文本的翻譯經(jīng)常存在語義缺失、語義不準確、術(shù)語錯誤等問題,其中術(shù)語錯誤更是占了翻譯錯誤的很大比例[3],這就對機器翻譯技術(shù)提出了更高的要求,如何利用術(shù)語詞表改進機器翻譯的質(zhì)量值得深入研究.無論是人工翻譯還是機器翻譯,都離不開領域術(shù)語庫的構(gòu)建,這些現(xiàn)象都凸顯了領域術(shù)語抽取的重要性.

        專利文獻中的領域術(shù)語為專利文獻分析提供了結(jié)構(gòu)化知識單元,這些領域術(shù)語為查閱人員準確且快捷的掌握專利方向及其核心技術(shù)帶來了很大的方便.從專利文獻中自動抽取術(shù)語,構(gòu)建術(shù)語庫的過程,對于機器翻譯[4]、對話系統(tǒng)[5]、信息檢索[6]等方面發(fā)揮著重要的基礎性作用.隨著科學技術(shù)的不斷發(fā)展、大量新能源領域?qū)@谋镜牟粩嗌暾?,新能源領域術(shù)語的抽取需求也在與日俱增,往日依靠人工方法收集和傳統(tǒng)機器學習算法來抽取領域術(shù)語的方法也往往有其自身的局限性,還有很大的改善空間,利用深度學習實現(xiàn)更高效、更準確的自動抽取領域術(shù)語的方法已經(jīng)成為必然的發(fā)展趨勢.

        針對新能源領域?qū)@谋具M一步提升術(shù)語抽取準確率的任務,本文提出了基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取方法,主要包括以下3個貢獻點:1)構(gòu)建了一個新能源領域?qū)@谋镜恼Z料庫以及領域詞典,包含3002條新能源專利語料以及26873個術(shù)語詞匯.2)提出了基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取研究方法,通過BERT預訓練模型對新能源專利文本進行文本向量化,以更好地捕捉文本的語義,與其他深度學習抽取模型相比,本文提出的方法在準確率、召回率和F1值均有了顯著提升.3)在新能源專利文本語料上的實驗表明,本文提出的方法能有效識別字符較多的新能源專利長序列術(shù)語,對領域詞典的構(gòu)建起到了很大的幫助作用.

        2 相關(guān)研究

        領域術(shù)語的抽取作為一項基礎性的研究,國內(nèi)外也已經(jīng)有許多學者對其抽取方法做了很多工作,研究方法主要包括基于規(guī)則、統(tǒng)計以及規(guī)則與統(tǒng)計兩者相結(jié)合的方法.2010年周浪等人[7]通過分析詞組型術(shù)語的特點及其在語料中的分布特征,使用子串歸并、搭配檢驗和領域相關(guān)度計算技術(shù)3個方法有效提升了低頻術(shù)語和基礎術(shù)語的排序位置,但缺陷在于研究者需具備豐富的語言知識來制定抽取術(shù)語所用的語言規(guī)則,語言學規(guī)則制定難度大,耗時耗力.2014年劉輝等人[8]分析了通訊領域的術(shù)語,并根據(jù)其特點制定規(guī)則進行人工標注,使用基于字符級特征的條件隨機場進行實現(xiàn),分別達到了80.9%、75.6%、78.2%的精確率、召回率和F值.這種方法雖然優(yōu)于將詞和詞性作為特征來進行抽取,但是不利于在大規(guī)模語料上進行,因為規(guī)則制定需要具備領域知識的專家,而且人工標注比較耗時耗力.2015年何宇[9]選取了6種特征,分別是詞、詞長、詞性、依存關(guān)系、詞典位置和停用詞作為特征模板,利用條件隨機場模型有效抽出了新能源汽車領域的術(shù)語,但該方法只提高了短術(shù)語抽取的效果,對長術(shù)語的抽取仍存在缺陷.綜上所述,利用基于統(tǒng)計和規(guī)則的方法雖然取得了一定的效果,但專業(yè)領域的中文術(shù)語實體識別仍舊依賴人工界定的特征和領域?qū)I(yè)知識,術(shù)語的識別精確率和召回率因受到特定領域情境的限制而無法推廣應用.

        神經(jīng)網(wǎng)絡的深度學習方法和基于規(guī)則或統(tǒng)計機器學習的方法相比,有更強的泛化能力,更少依賴人工特征選擇的優(yōu)點.深度神經(jīng)網(wǎng)絡采用基于詞向量的特征表示,把詞向量作為深度神經(jīng)網(wǎng)絡的輸入,自動學習文本上下文深層語義信息,把術(shù)語抽取任務轉(zhuǎn)化為序列標注任務,很大程度上減少了對人工特征和領域知識的依賴.2015年Huang等人[10]構(gòu)建了Bi-LSTM-CRF模型,BiLSTM模型用于獲取輸入文本到深層隱藏特征并輸出,將BiLSTM的輸出作為CRF模型的輸入,實現(xiàn)了對文本信息的序列標注.2017年Gridach[11]首次在生物醫(yī)學領域利用BiLSTM-CRF實現(xiàn)了字符級神經(jīng)網(wǎng)絡的命名實體識別并達到了90.27%的準確率.2018年孫娟娟等人[12]構(gòu)建了Character-LSTM-CRF實體識別模型,并以字向量作為模型的輸入,避免了分詞不準確對命名實體識別效果造成的影響,實現(xiàn)了對漁業(yè)領域命名實體識別的研究.2019年武惠等人[13]提出了一種基于實例的遷移學習算法,將源域的知識遷移到目標域,有效緩解了對人工特征和專家知識的依賴,在小規(guī)模數(shù)據(jù)集上取得了80.0%的F值.2019年張應成等人[14]應用包含詞向量層、BiLSTM網(wǎng)絡層、CRF層結(jié)構(gòu)的BiLSTM-CRF模型,以50000條招標平臺上的招標文件為語料,對招標人、招標編號、招標代理進行了識別,F(xiàn)1值最高達到了87.86%.他的研究也進一步指出,BiLSTM方法優(yōu)于LSTM方法,并且引入CRF算法可以給不同模型帶來程度不等的效果提升.2019年馬建紅等人[15],提出了一種基于attention的雙向長短時記憶網(wǎng)絡與條件隨機場相結(jié)合的領域術(shù)語抽取模型,并使用基于詞典與規(guī)則相結(jié)合的方法對結(jié)果進行校正,準確率可達到86%以上.2020年李靈芳等人[16]利用中文電子病歷提出了BERT-BiLSTM-CRF命名實體識別模型,在準確率、召回率、F1值3個方面都有顯著提升.

        鑒于近年來BERT預訓練語言模型[17]在英文自然語言處理(NLP)任務中的優(yōu)異表現(xiàn),自動挖掘隱含特征可以有效解決發(fā)現(xiàn)新詞的特點,同時減少人工定義特征和對領域知識過度依賴的問題.本文從深度學習的角度出發(fā),提出基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取模型.該模型首先利用BERT中文預訓練向量將新能源專利文本轉(zhuǎn)為字符級嵌入向量訓練出單詞的字符集特征,然后將字符集特征輸送到BiLSTM模型進行訓練,更深層次地挖掘?qū)@谋局行g(shù)語與其它詞匯之間的語義信息,更好地捕捉前后文隱含的信息,最后與CRF層相結(jié)合,解決輸出標簽之間的依賴關(guān)系問題,得到全局最優(yōu)的術(shù)語標記序列.

        3 基于BERT-BiLSTM-CRF的術(shù)語抽取模型

        近年來不依賴人工特征的端到端BiLSTM-CRF模型成為術(shù)語識別的主流模型,隨著自然語言處理在深度神經(jīng)網(wǎng)絡模型研究的不斷深入,不少研究指出,經(jīng)過預訓練的詞嵌入模型能更好理解文本語義信息,應用到專業(yè)術(shù)語識別這一類的命名實體識別任務中能取得不錯的效果,提升后續(xù)實驗任務的準確性.

        3.1 BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型整體框架

        BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型整體結(jié)構(gòu)如圖1所示,首先是BERT預訓練語言模型層,被標注的字符級語料經(jīng)過該層將每個字符轉(zhuǎn)化為低維詞向量.其次是BiLSTM層,將上一層輸出的詞向量序列輸入到這一層進行語義編碼,自動提取句子特征.最后是CRF層,利用這一層解碼輸出概率最大的預測標簽序列,得到每個字符的標注類型,對序列中的實體提取分類,最終實現(xiàn)新能源領域?qū)@g(shù)語的抽取.該模型與其他深度學習術(shù)語抽取模型相比最主要的區(qū)別是利用了Google在大規(guī)模中文語料上習得的BERT預訓練中文向量,因為其更強的上下文長距離語義學習能力,可以更好地解決字向量一詞多義的問題,更深層次挖掘新能源領域?qū)@谋镜奶卣?,為下游任務提供更豐富的語義信息.

        圖1 BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型

        3.2 BERT預訓練語言模型

        從one-hot語言模型的提出,再到Word2Vec[18]、Glove[19],近幾年又有ELMO[20]、GPT[21]到BERT預訓練模型的出現(xiàn),語言模型的發(fā)展對文本語義的表征理解越來越充分.2018年Devlin等人提出的BERT模型綜合了ELMO和GPT兩者的優(yōu)勢,利用Transformer[22]的編碼器作為語言模型的基礎,從前后兩個方向捕獲句子的信息,self-Attention機制獲取單詞與單詞之間的語義權(quán)重,相應生成的字嵌入分布式表示具有更強的語義表征優(yōu)勢.

        Transformer之所以具有較強的特征提取能力,是由于其內(nèi)部的多頭注意力機制.self-attention機制主要是根據(jù)同一個句子中詞與詞之間的關(guān)聯(lián)程度調(diào)整權(quán)重系數(shù)矩陣來獲取詞的表征,也就是說,BERT模型對每個單詞編碼時,都會考慮到句子中其他單詞的語義權(quán)重,因此具有很強的編碼能力.具體操作可以解釋為:首先向量經(jīng)過3個不同的全連接層,得到Q,K,V3個向量,然后Q和KT進行矩陣相乘得到單詞和其他單詞相關(guān)程度的向量QKT.最后將標準化的QKT放入到softmax激活函數(shù)中,得到詞與詞之間的關(guān)聯(lián)度向量,再乘以V得到最終向量,如公式(1)所示:

        (1)

        再通過多頭結(jié)構(gòu)拼接向量結(jié)果:

        MultiHead(Q,K,V)=Concat(head1,…,headh)WO

        (2)

        (3)

        為了使網(wǎng)絡更容易訓練,Transformer還引入了殘差連接和層歸一化:

        (4)

        FFN=max(0,xW1+b1)W2+b2

        (5)

        為了解決注意力機制不提取時序特征這個問題,Transformer在數(shù)據(jù)預處理前加入了位置編碼,并與輸入向量數(shù)據(jù)進行求和,得到句子中每個字的相對位置.

        (6)

        (7)

        最后,BERT將位置嵌入和詞嵌入拼接起來作為模型輸入,如圖2所示.

        圖2 Transformer的編碼器

        3.3 BiLSTM層

        LSTM的全稱是Long Short Term Memory,它是循環(huán)神經(jīng)網(wǎng)絡RNN的一種變體,巧妙地運用了門控概念實現(xiàn)長期記憶,有效解決了RNN訓練時所產(chǎn)生的梯度爆炸或梯度消失的題,非常適合文本類時序特征的數(shù)據(jù),單元結(jié)構(gòu)如圖3所示.

        圖3 LSTM單元結(jié)構(gòu)

        it=σ(Wxixt+Whiht-1+Wcict-1+bi)

        (8)

        ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

        (9)

        ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

        (10)

        ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

        (11)

        ht=ottanh(ct)

        (12)

        改進的LSTM通過門控機制實現(xiàn)長時序類型數(shù)據(jù)的編碼,但是單向的LSTM只能對數(shù)據(jù)從一個方向編碼,即無法編碼從后到前的信息,這就導致句子語義理解不充分.BiLSTM綜合考慮了正向特征提取和逆向特征提取,構(gòu)建了兩個方向相反的隱藏層,通過這種方式,BiLSTM可以更好地捕捉雙向的語義依賴,取得更好的語義表達效果.

        3.4 CRF層

        輸出的預測標簽之間的依賴關(guān)系也是術(shù)語抽取很重要的一個方面.比如以“I-TERM”作為單詞首詞的標簽就是一個非法標簽,因為一個單詞只可能是兩種情況,一種是術(shù)語,標簽是“B-TERM”,一種不是術(shù)語,標簽是“O-TERM”,利用條件隨機場模型[23]則可以規(guī)避這種非法情況的發(fā)生.通過為預測的標簽添加一些約束,通過概率轉(zhuǎn)移矩陣捕捉標簽之間的依賴關(guān)系,排除非法用語的情況,獲得一個最優(yōu)的預測序列,彌補BiLSTM的缺點.

        對于任一給定的輸入序列X=(x1,x2,…,xn),其對應標簽序列Y=(y1,y2,…,yn)的CRF評估分數(shù)函數(shù)可以由公式(13)表示:

        (13)

        公式中的W表示轉(zhuǎn)移分數(shù)矩陣,Wyi-1,yi表示標簽yi-1轉(zhuǎn)移到標簽yi的分數(shù),Pi,yi表示第i個詞xi映射到標簽yi的非歸一化概率.

        預測序列概率p(Y|X)可以通過如下的softmax函數(shù)來進行計算:

        (14)

        兩頭取對數(shù)得到預測序列的似然函數(shù):

        (15)

        (16)

        4 實 驗

        本文利用BERT-BiLSTM-CRF模型抽取面向新能源領域的專利術(shù)語,整體流程如圖4所示,主要包括以下幾個方面,分別是新能源領域?qū)@谋緮?shù)據(jù)集的獲取與處理、新能源領域術(shù)語詞典的構(gòu)建、語料的自動標注及人工校對、模型訓練和結(jié)果評測.

        圖4 實驗整體流程圖

        4.1 新能源語料及術(shù)語庫的構(gòu)建

        本文實驗所采用的新能源領域的專利文本是從SooPAT網(wǎng)站(1)http://www.soopat.com/上下載下來,然后經(jīng)過處理手工構(gòu)建的語料.以“新能源”、“太陽能”、“風能”、“生物質(zhì)能”、“地熱能”、“核能”為關(guān)鍵詞對新能源專利進行搜索,將獲取下來的專利文本按一定規(guī)則進行預處理,以句號為分隔符將摘要和權(quán)利要求書進行切分,并進行標點符號規(guī)范化處理,隨機挑選其中3002條數(shù)據(jù)用作實驗對象,2101條句子用于訓練,601條用于驗證,300條用于測試.

        新能源領域術(shù)語集的構(gòu)建大致可以分為兩類:一類是對現(xiàn)有術(shù)語資源的整理,主要參考了《GB/T 10097-2018地熱能術(shù)語》《GB/T 30366-2013生物質(zhì)術(shù)語》《GB/T 33543.1-2017海洋能術(shù)語第1部分通用》《GB/T 24548-2009燃料電池電動汽車術(shù)語》等標準文件中所包含的術(shù)語詞條以及專業(yè)詞典、相關(guān)論著、權(quán)威網(wǎng)站涉及到的專業(yè)術(shù)語等.另一類是對新能源專利文本里涉及的術(shù)語進行手工識別和整理.篩選的標準參考了標準文件中的樣式,術(shù)語需要具有領域代表性、單義性、準確性和簡明性,根據(jù)實際情況,對新能源領域術(shù)語集進行了修正和更新,術(shù)語樣例展示如表1所示.通過對以上資料進行整理及人工篩選,總共得到新能源領域術(shù)語26873個,其中訓練集中包含6206個術(shù)語,驗證集中包含術(shù)語2122個,測試集中包含術(shù)語1145個,數(shù)據(jù)集統(tǒng)計如表2所示.

        表1 術(shù)語樣例展示

        表2 數(shù)據(jù)集統(tǒng)計信息

        4.2 人工標注及評估標準

        為了減少人工標注的成本,本文采用基于以上手工構(gòu)建的領域術(shù)語表自動標注訓練語料和測試語料中的術(shù)語,先利用jieba庫對新能源語料按自定義詞典進行分詞,然后采用代碼匹配的方式自動標注術(shù)語,如算法1所示.由于新能源領域詞典中的術(shù)語數(shù)量有限,不可能涵蓋文本中的全部術(shù)語,另外術(shù)語實體存在縮寫、嵌套、中英文混合等情況,本文的數(shù)據(jù)在自動標注以后又人工校對了一遍,把與新能源領域不相關(guān)的術(shù)語詞處理掉.采用BIO三元標注的方法,B-TERM表示術(shù)語實體的第一個詞,I-TERM表述術(shù)語實體的非首字,O表示當前字符不是術(shù)語實體.表3是新能源術(shù)語實體的示例標注,每一行是一個字及其對應的標簽,之間用空格分開,句與句之間用空行隔開.

        表3 新能源專利文本標注樣例

        算法1.Bert Char Tagging

        Infile:each line is segmented by terms

        Outfile:BERT-tagged format file

        1.terms ← list of new energy terms

        2.forline in Infiledo

        3. word_list ← Split line with space separator

        4.forword in word_listdo

        5.iflen(word)==1then

        6. Outfile ← word+O-TERM

        7.elseif

        8. Outfile ← word+B-TERM

        9.forw in word[1:len(word)-1]do

        10. Outfile ← word+I-TERM

        11.endfor

        12. Outfile ← word+I-TERM

        13.else

        14.forw in worddo

        15. Outfile ← word+O

        16.endfor

        17.endif

        18. Outfile ← “ ”

        19.endfor

        20.endfor

        本文采取了準確率(P)、召回率(R)和F1值3個指標來驗證所提出模型的有效性,具體計算如公式(17)-公式(19)所示:

        (17)

        (18)

        (19)

        4.3 實驗設計、結(jié)果與分析

        4.3.1 實驗環(huán)境配置

        BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型的運行環(huán)境為64位Ubuntu16.04操作系統(tǒng),具體實驗的訓練環(huán)境如表4所示.

        表4 訓練環(huán)境配置

        4.3.2 實驗參數(shù)配置

        本文實驗采用了Google提供的BERT中文預訓練BERT-base模型,transformer有12層,隱藏層維度為768,12個attention-head,共110M個參數(shù).實驗中BERT模型參數(shù)設置batchsize為32,dropout為0.5,learning_rate為1e-5,BiLSTM中前后隱藏狀態(tài)維度為128,clip為0.5,使用Adam優(yōu)化器最小化模型損失,具體超參數(shù)設定如表5所示.

        表5 參數(shù)設置

        4.3.3 實驗結(jié)果

        為了驗證BERT-BiLSTM-CRF模型對新能源專利術(shù)語抽取結(jié)果的有效性,本文選取了以下兩種模型進行實驗對比.模型1是BiLSTM-CRF模型,該模型是序列標注領域的經(jīng)典模型,采用傳統(tǒng)預訓練好的詞向量,對輸入字符序列進行上下文語義的學習,然后通過CRF模型輸出全局最優(yōu)的標記序列.模型2是基于Glove字嵌入結(jié)合LSTM-CRF模型,先使用Glove預訓練模型完成詞向量訓練,接著BiLSTM-CRF神經(jīng)網(wǎng)絡使用Glove輸出的文本詞嵌入向量繼續(xù)訓練.模型3是本文所研究的基于BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型.實驗對比結(jié)果如表6所示,可以看到模型1達到了84.79%的F1值,模型2比模型1提高了約5個百分點,BERT-BiLSTM-CRF新能源專利術(shù)語抽取模型在準確率、召回率和F1值較其它兩個模型都有較高的提升,F(xiàn)1達到了92.28%.為了更加進一步直觀地對比3個模型在準確率,召回率和F1值的實驗效果,圖5列出了各個對比實驗的的柱狀圖結(jié)果:

        表6 基于深度神經(jīng)網(wǎng)絡的術(shù)語抽取模型實驗結(jié)果

        圖5 3種術(shù)語抽取模型實驗結(jié)果

        4.3.4 實驗分析

        通過圖5和表6的結(jié)果我們可以看出,本文所提出的基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取模型在精確率、召回率和F1值3方面均優(yōu)于其它模型.表7是3種模型對3個不同句子術(shù)語抽取結(jié)果的展示.可以觀察到,模型1僅使用了BiLSTM-CRF模型,雖然得到了84.79%的F1值,能抽取出句子中部分的新能源領域的專利術(shù)語,但是抽取的結(jié)果不夠全面,還有一些字符數(shù)量較長的術(shù)語未識別出來,最終抽取效果還有提高的空間.模型2在實驗1的基礎之上加入了Glove字嵌入向量,實驗的準確率提高了5.44%,召回率提高了5.14%,F(xiàn)1值提高了5.28%.由此可以得出,加入字嵌入的詞向量更好地結(jié)合了上下文,對提高新能源領域?qū)@g(shù)語的抽取起到了一定的作用,但由于Glove模型是基于詞語進行的分詞,可能會存在專業(yè)術(shù)語詞切分不當、術(shù)語之間邊界切分不準確而導致詞向量學習效果不佳的問題,術(shù)語抽取結(jié)果不全.為了解決這個問題,本文所提出的BERT-BiLSTM-CRF新能源領域術(shù)語抽取模型是基于字粒度的,不存在分詞錯誤帶來的影響,因此對文本語義的理解會更加透徹,最終實驗取得了92.28%的F1值.而且在實際新能源專利文本術(shù)語抽取中能夠有效地識別出字符較多的新能源專利長序列術(shù)語,如表7中黑色加粗的字體所示,說明BERT預訓練語言模型生成的字向量能更好地學習到術(shù)語詞與其他詞語之間的關(guān)系,取得比傳統(tǒng)的詞嵌入向量更加準確的術(shù)語實體抽取效果.

        表7 3種術(shù)語抽取模型結(jié)果的樣例說明

        通過在新能源領域?qū)@谋旧系膶嶒烌炞C,本文設計的經(jīng)過預訓練之后的基于BERT-BiLSTM-CRF的新能源專利術(shù)語抽取模型不需要在模型中添加人工特征,僅僅通過利用程序自動標注語料,然后需要少量的人工校對成本,就能夠取得有競爭力的實驗效果,節(jié)省了大量的人力物力.在實際的新能源專利文本的術(shù)語抽取中,尤其是針對字符數(shù)量較多的新能源專利術(shù)語也能有效抽出,因此具有較好的跨領域、跨行業(yè)應用前景

        5 總 結(jié)

        綜上所述,本文針對新能源領域中文術(shù)語的抽取任務,構(gòu)建了一個新能源領域?qū)@谋镜恼Z料庫和術(shù)語詞典,提出了一種基于深度學習的BERT-BiLSTM-CRF新能源專利術(shù)語抽取方法,通過對比實驗結(jié)果可以得出,利用BERT對新能源專利文本進行向量化,能有效提高術(shù)語抽取結(jié)果的準確率,抽取效果優(yōu)于當前主流的深度學習術(shù)語抽取模型,并在新能源領域?qū)@谋拘g(shù)語抽取中得到了實際應用,可以識別出字符較多的新能源專利長序列術(shù)語.本文下一步的工作重點是繼續(xù)擴大領域核心詞典,在現(xiàn)有模型抽取結(jié)果的基礎上制定高效可行的規(guī)則篩選新能源術(shù)語,自動標注并訓練更大規(guī)模的新能源領域?qū)@g(shù)語抽取模型,進一步提高模型的泛化性,從而構(gòu)建更豐富的新能源領域?qū)@g(shù)語詞典.

        猜你喜歡
        語義新能源文本
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        買不買新能源汽車
        “上”與“下”語義的不對稱性及其認知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        “新能源門”的背后
        風能(2015年4期)2015-02-27 10:14:36
        順應新能源發(fā)展趨勢
        風能(2015年4期)2015-02-27 10:14:34
        認知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲国产综合在线亚洲区亚洲av| av无码天堂一区二区三区| 国产伦码精品一区二区| 国产三级韩三级日产三级| 欧美男生射精高潮视频网站| 亚洲av无码潮喷在线观看| 亚洲区日韩精品中文字幕| 国产一区亚洲一区二区| 人妻av有码中文字幕| 国产精品你懂的在线播放| 中文字幕国产91| 国产一级黄片久久免费看| 包皮上有一点一点白色的| 影音先锋女人av鲁色资源网久久| 97视频在线播放| 最新国产成人自拍视频| 国产av在线观看久久| 国产精选污视频在线观看| 2021年最新久久久视精品爱| 亚洲五码av在线观看| 亚洲αv在线精品糸列| 人人玩人人添人人澡| 欧美丝袜激情办公室在线观看| 国产成人精品一区二区不卡| 7777色鬼xxxx欧美色妇| 亚洲爆乳无码专区| 大香蕉久久精品一区二区字幕| 国产在线一区二区三区四区不卡| 亚洲日韩国产一区二区三区在线| 日韩av无码久久一区二区| 精品人妻无码一区二区色欲产成人 | 人体内射精一区二区三区| 国产美女久久久亚洲综合| 日本一级特黄aa大片| 无码av免费一区二区三区试看 | 婷婷中文字幕综合在线| 国产免费人成视频在线播放播| 日本国产一区在线观看| 久久国产色av免费观看| 欧美整片第一页| 一区二区国产视频在线|