李嘉茜 張麗瑋
摘要:目前,專利數(shù)量快速增長(zhǎng),單純依靠人工進(jìn)行專利查閱,很難及時(shí)獲取專利中的創(chuàng)新資源。實(shí)體作為知識(shí)的一種,是目前最能直接體現(xiàn)專利的知識(shí)。實(shí)體識(shí)別除了專利獨(dú)有的技術(shù)詞、功效詞抽取,還有在其他領(lǐng)域通用的命名實(shí)體等信息的提取。并且隨著計(jì)算機(jī)技術(shù)的創(chuàng)新,大量學(xué)者將現(xiàn)代科學(xué)技術(shù)方法投入到專利文本知識(shí)挖掘中。因此,如何從海量專利文本中挖掘有價(jià)值的知識(shí)成為專利領(lǐng)域研究的新契機(jī)。旨在總結(jié)專利文本實(shí)體種類以及其抽取方法,并從研究對(duì)象、技術(shù)過程等角度來闡述現(xiàn)狀,探索專利文本實(shí)體識(shí)別工作的新方向。
關(guān)鍵詞:專利文本;實(shí)體識(shí)別;深度學(xué)習(xí)
一、前言
隨著知識(shí)產(chǎn)權(quán)在企業(yè)人心中地位的上升,人人更加注重知識(shí)產(chǎn)權(quán)保護(hù),所以大量的專利信息充斥著網(wǎng)絡(luò)。據(jù)知識(shí)產(chǎn)權(quán)局的統(tǒng)計(jì),2022年上半年我國(guó)實(shí)用新型專利就達(dá)到了147萬。除了數(shù)量的龐大,專利數(shù)據(jù)也因其更易獲取、專業(yè)權(quán)威而被選中作為知識(shí)庫來源。因此,有關(guān)人員需要花費(fèi)大量時(shí)間閱讀和分析專利文獻(xiàn),獲取專利中蘊(yùn)藏的知識(shí)[1],這與如今快節(jié)奏時(shí)代的高效率目標(biāo)存在矛盾。所以面對(duì)大量的專利文本,如何更高效的獲取專利中的知識(shí)信息是一個(gè)值得關(guān)注的問題。
實(shí)體識(shí)別是知識(shí)抽取的一種,也是關(guān)系抽取,領(lǐng)域詞典構(gòu)建的前提。并且專利文本中的實(shí)體是專利的顯著標(biāo)識(shí),可以快速鎖定研究領(lǐng)域。隨著計(jì)算機(jī)的發(fā)展,實(shí)體識(shí)別技術(shù)也多樣化,目前多數(shù)研究都是使用機(jī)器自主學(xué)習(xí)的方法來提取專利實(shí)體。專利實(shí)體的提取,不僅可以提高閱讀者獲取知識(shí)的效率,還可以在當(dāng)前專業(yè)領(lǐng)域構(gòu)建知識(shí)圖譜。本文將分析、利用現(xiàn)有文章,對(duì)現(xiàn)有論文進(jìn)行梳理與總結(jié),并按照專利實(shí)體研究對(duì)象和技術(shù)實(shí)現(xiàn)方法這兩個(gè)維度進(jìn)行分析。
二、實(shí)體識(shí)別研究對(duì)象
專利類的實(shí)體知識(shí)可以分為通用實(shí)體和專業(yè)實(shí)體。通用實(shí)體是指在專利領(lǐng)域中通用的實(shí)體知識(shí),不具備領(lǐng)域特性。比如董文斌[2]在開放領(lǐng)域的實(shí)體識(shí)別包括公開號(hào)、申請(qǐng)人、分類號(hào)、發(fā)明人等實(shí)體。專業(yè)實(shí)體與之相反,包括:術(shù)語[3]、關(guān)鍵詞[4]、命名實(shí)體。其中術(shù)語是專利中出現(xiàn)最多的詞語,在不同領(lǐng)域的專利文本中,術(shù)語是區(qū)分各個(gè)領(lǐng)域的標(biāo)志。比如孫甜[5]在新能源領(lǐng)域提出的術(shù)語“新能源汽車車門、連接板”。除了術(shù)語實(shí)體,關(guān)鍵詞抽取也常常作為知識(shí)進(jìn)行研究。通過關(guān)鍵詞可以快速獲取文本主題,方便讀者檢索與理解。文獻(xiàn)[7]利用專利文本構(gòu)建領(lǐng)域背景,利用計(jì)算機(jī)去學(xué)習(xí)背景知識(shí),從而做到可以自動(dòng)識(shí)別關(guān)鍵詞的效果。除了上述幾種專業(yè)實(shí)體,命名實(shí)體類也是重點(diǎn)研究對(duì)象。在專利領(lǐng)域中需要考慮所需的處理任務(wù)來分析實(shí)體種類,比如董文斌[2]專利中將實(shí)體分為:零部件名、形狀構(gòu)造和功效詞。本文將上述實(shí)體進(jìn)行分類,如表1所示。
三、實(shí)體識(shí)別關(guān)鍵技術(shù)
但隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)以規(guī)則提取的方法在實(shí)際應(yīng)用中的通用性差,目前只用來輔助主流方法來提高整體的準(zhǔn)確率。因此本文將以基于統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)這兩種技術(shù)進(jìn)行分析。
(一)基于統(tǒng)計(jì)學(xué)習(xí)
除了最早的人工提取規(guī)則方法,更為先進(jìn)的是使用統(tǒng)計(jì)學(xué)方法C-value,該方法主要依靠詞頻特征來選擇專利術(shù)語,但是對(duì)于詞頻低的專利術(shù)語不能做到很好的篩選。俞琰等人[6]在術(shù)語抽取的基礎(chǔ)上,還加入了論文關(guān)鍵詞知識(shí)的特征,將依靠詞頻的C-value方法準(zhǔn)確度提高了26%[7]。還有研究者以文本外部的數(shù)據(jù)作為輔助來自動(dòng)抽取專利文本中的知識(shí)。Yadav[8]利用TextRank算法,學(xué)習(xí)網(wǎng)站的標(biāo)注標(biāo)簽功能,將標(biāo)簽作為外部知識(shí)引入到文本抽取中。此外,比較多的文章是利用維基百科里面的詞條作為獨(dú)立概念,再通過統(tǒng)計(jì)權(quán)重來鏈接各個(gè)知識(shí)概念,利用知識(shí)間的語義抽取關(guān)鍵詞[9]?;诮y(tǒng)計(jì)學(xué)習(xí)的方法通用性強(qiáng),無需標(biāo)注數(shù)據(jù),但是準(zhǔn)確率依賴目標(biāo)語料庫的規(guī)模和質(zhì)量,需要進(jìn)一步改進(jìn)。
(二)基于機(jī)器學(xué)習(xí)
針對(duì)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別技術(shù),本文將按照特征提取、模型訓(xùn)練這兩步進(jìn)行分析。
1.特征抽取
特征抽取是將非結(jié)構(gòu)化文本結(jié)構(gòu)化的重要步驟,在模型訓(xùn)練前都需要對(duì)目標(biāo)文本進(jìn)行特征提取。根據(jù)文本特征的不同,可以結(jié)合詞頻特征、位置特征、詞性特征等。除了按照詞語粒度進(jìn)行提取,針對(duì)于語句等級(jí)的特征提取也是很有必要的。如語句長(zhǎng)度特征和語義特征:馬建紅[10]將語義角色標(biāo)注作為一個(gè)提取有效特征的工具,借助Chinese PropBank(CPB)標(biāo)注方式來對(duì)專利文本進(jìn)行句法分析。上述特征的提取方式都是人工抽取,耗時(shí)也更依賴人工標(biāo)注。而使用詞向量不僅可以表示整個(gè)句子特征,還省去了人工提取特征的步驟。最初的詞向量是基于計(jì)算機(jī)的隨機(jī)抽取,盡管經(jīng)模型訓(xùn)練可以較好地表達(dá)詞義,但是不能與其他任務(wù)通用。因此,谷歌在2018年發(fā)明了BERT預(yù)訓(xùn)練模型[11]。使用預(yù)訓(xùn)練模型自動(dòng)創(chuàng)建特征值,很好的保留了語義之間的關(guān)系,有更好的泛化能力[12]。由于特征是為了更好的將非結(jié)構(gòu)化文本結(jié)構(gòu)化,所以為了更好的表達(dá)專利文本,董文斌[2]提出了特征融合,即將BERT訓(xùn)練后的特征與句子特征、詞語特征等信息按照對(duì)應(yīng)權(quán)重相加,再投入到后續(xù)模型中。使得該方法在在實(shí)體識(shí)別中準(zhǔn)確率提高了8個(gè)百分點(diǎn)[5]。雖然詞向量省去人工標(biāo)注的步驟,但是該特征的提取需要大量數(shù)據(jù)做準(zhǔn)備,對(duì)于領(lǐng)域數(shù)據(jù)量低的文本不友好。
2.模型選擇
在對(duì)非結(jié)構(gòu)化的專利文本進(jìn)行特征提取后,下一步就該應(yīng)用到模型中進(jìn)行訓(xùn)練。下面將模型訓(xùn)練分為統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。
(1)統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型:在機(jī)器學(xué)習(xí)算法中,賴?guó)櫜齕13]使用了CRF模型(conditional random field,條件隨機(jī)場(chǎng))來識(shí)別專利中化合物和生物實(shí)體,組合了三種特征:字符特征、例模式特性、上下文特征。這一模型保留了隱馬爾科夫模型的優(yōu)點(diǎn),也避免了最大熵馬爾科夫模型的基本限制?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的模型跨領(lǐng)域能力弱,目前還不成熟,需要進(jìn)一步優(yōu)化。
(2)深度學(xué)習(xí)模型:在當(dāng)前知識(shí)抽取中,實(shí)體識(shí)別是使用深度學(xué)習(xí)最多的方向。它包括在一個(gè)詞序列中檢測(cè)指向一個(gè)預(yù)定義實(shí)體的詞匯單位,從而確定它所指向的實(shí)體的類型。而深度學(xué)習(xí)方法就是對(duì)目標(biāo)文本中的實(shí)體進(jìn)行分類,并且克服了采用傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法提取知識(shí)的缺點(diǎn)。在模型訓(xùn)練過程中,Lstm[14](長(zhǎng)短期記憶網(wǎng)絡(luò))是研究者常用的神經(jīng)網(wǎng)絡(luò)模型。Bilstm(雙向長(zhǎng)短期記憶網(wǎng)絡(luò))是LSTM的變體,可以從前后兩個(gè)方向進(jìn)行記憶,對(duì)長(zhǎng)句子有更好的表現(xiàn)。Deng[15]在LSTM基準(zhǔn)模型的基礎(chǔ)上,加入了CRF條件隨機(jī)場(chǎng)模型,用于解決實(shí)體標(biāo)注順序的問題,取得了不錯(cuò)的效果。但是原之安等人[16]驗(yàn)證了BiLSTM對(duì)實(shí)體識(shí)別模型的負(fù)向影響:即在同樣的CRF模型基礎(chǔ)上使用Bilstm,會(huì)使得F1值降低。由此可見,面對(duì)不同的專利文本,應(yīng)該使用有針對(duì)性的方法來提高模型效果,而不是簡(jiǎn)單的疊加。除此之外,Transformer模型作為自注意力機(jī)制的升級(jí)版,也對(duì)專利文本的實(shí)體識(shí)別起到積極作用:如王宇暉[17]在專利數(shù)據(jù)集上驗(yàn)證了Transformer模型相比BiLSTM模型準(zhǔn)確率提高了4個(gè)百分點(diǎn)?;谏疃葘W(xué)習(xí)的實(shí)體識(shí)別方法可以無需人工篩選實(shí)體特征,不僅降低了人工成本,還有助于將專利實(shí)體和上下文相結(jié)合。但該方法依賴于復(fù)雜的深度學(xué)習(xí)模型,需要非常大量的標(biāo)注數(shù)據(jù)或標(biāo)注句子以及較長(zhǎng)的訓(xùn)練時(shí)間,且模型的跨領(lǐng)域泛化能力較弱。不過,總體而言,基于深度學(xué)習(xí)的抽取方法仍表現(xiàn)出了不錯(cuò)的性能,該方法將會(huì)成為接下來幾年研究者的熱點(diǎn)研究方向。
綜上,表2 從實(shí)體識(shí)別技術(shù)分類、代表模型/算法、主要優(yōu)缺點(diǎn)及適用情況等宏觀角度對(duì)專利實(shí)體識(shí)別方法進(jìn)行了對(duì)比分析。
四、結(jié)語
在技術(shù)方面,從特征眾多的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,再到特征自動(dòng)抽取的深度學(xué)習(xí)方法,模型的效率、準(zhǔn)確率也在進(jìn)一步提高。但是目前的技術(shù)提升都是在特征提取堆積、模型疊加、規(guī)則糾正這幾方面改進(jìn),學(xué)者很難跳出這個(gè)局限。而尤其針對(duì)專利文本,缺少一種針對(duì)專利文本特點(diǎn)而創(chuàng)新的方法[18]。畢竟專利文本在數(shù)量、格式、內(nèi)容上與其他文本都有很大的不同,這一點(diǎn)也是本人在今后研究者需要探索的。
在應(yīng)用方面,從整個(gè)數(shù)據(jù)信息來的角度看,專利文獻(xiàn)作為眾多科學(xué)技術(shù)文獻(xiàn)類型的一種,擁有眾多的領(lǐng)域分支,盡管實(shí)體識(shí)別在準(zhǔn)確率上進(jìn)一步提升,但是文本標(biāo)注是不可避免的,每一個(gè)專利領(lǐng)域有不同的特點(diǎn),所以在通用領(lǐng)域的應(yīng)用值得進(jìn)一步挖掘。在后續(xù)應(yīng)用中,對(duì)關(guān)系知識(shí)的抽取以及如何將各領(lǐng)域等其他來源的知識(shí)與知識(shí)圖譜融合起來,形成內(nèi)容更為豐富、內(nèi)涵更為深入、時(shí)效性更強(qiáng)的知識(shí)圖譜是值得關(guān)注的一個(gè)研究方向。H
參考文獻(xiàn)
[1]馬建紅,張明月,趙亞男.面向創(chuàng)新設(shè)計(jì)的專利知識(shí)抽取方法[J].計(jì)算機(jī)應(yīng)用,2016,36(02):465-471.
[2]董文斌,戰(zhàn)洪飛,余軍合,等.機(jī)械產(chǎn)品專利知識(shí)的提取和應(yīng)用[J].機(jī)械制造, 2021,59(08):1-8.
[3]俞琰,陳磊,姜金德,等.融合論文關(guān)鍵詞知識(shí)的專利術(shù)語抽取方法[J].圖書情報(bào)工作,2020,64(14):104-111.
[4]俞琰,朱晟忱.融入限定關(guān)系的專利關(guān)鍵詞抽取方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2022,6(10):57-67.
[5]孫甜,陳海濤,呂學(xué)強(qiáng),等.新能源專利文本術(shù)語抽取研究[J].小型微型計(jì)算機(jī)系統(tǒng),2022,43(05):950-956.
[6]張芳叢,秦秋莉,姜勇,等.基于RoBERTa-WWM-BiLSTM-CRF的中文電子病歷命名實(shí)體識(shí)別研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2022,6(Z1):251-262.
[7]何陽宇,晏雷,易綿竹,李宏欣.融合CRF與規(guī)則的老撾語軍事領(lǐng)域命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)工程,2020,46(08):297-304.
[8]Yadav V, Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models[J].2019.
[9]Grineva M P, Grinev M N, Lizorkin D A. Extracting key terms from noisy and multitheme documents[C]// The Web Conference. ACM,2009.
[10]馬建紅,張明月,趙亞男.面向創(chuàng)新設(shè)計(jì)的專利知識(shí)抽取方法[J].計(jì)算機(jī)應(yīng)用,2016,36(02):465-471.
[11]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].2018.
[12]李建,靖富營(yíng),劉軍.基于改進(jìn)BERT算法的專利實(shí)體抽取研究——以石墨烯為例[J].電子科技大學(xué)學(xué)報(bào),2020,49(06):883-890.
[13]賴?guó)櫜?,朱禮軍,徐碩.面向?qū)@幕衔锖蜕飳?shí)體識(shí)別系統(tǒng)[J].情報(bào)工程,2015,1(04):95-103.
[14]Hochreiter, S. Schmidhuber, J.Long Short-Term Memory. Neural computation, 1997,9,1735-1780.
[15]Deng Na, Fu Hao, Chen Xu. Named Entity Recognition of Traditional Chinese Medicine Patents Based on BiLSTM-CRF[J].WIRELESS COMMUNICATIONS & MOBILE COMPUTING,2021.
[16]原之安,彭甫镕,谷波,等.面向標(biāo)注數(shù)據(jù)稀缺專利文獻(xiàn)的科技實(shí)體識(shí)別[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2021,53(04):61-68.
[17]王宇暉,杜軍平,邵鎣俠.基于Transformer與技術(shù)詞信息的知識(shí)產(chǎn)權(quán)實(shí)體識(shí)別方法[J].智能系統(tǒng)學(xué)報(bào),2023,18(01):186-193.
[18]Puccetti Giovanni, Chiarello Filippo, Fantoni Gualtiero . A simple and fast method for Named Entity context extraction from patents[J]. Expert Systems With Applications,2021,184.