亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合權(quán)利要求語義特征的專利價(jià)值早期預(yù)測(cè)研究*

        2024-03-01 00:38:54梁麗芝
        情報(bào)雜志 2024年2期
        關(guān)鍵詞:語義指標(biāo)體系專利

        付 姣 梁麗芝

        (湘潭大學(xué)公共管理學(xué)院 湘潭 411105)

        0 引 言

        技術(shù)創(chuàng)新是驅(qū)動(dòng)經(jīng)濟(jì)發(fā)展的源動(dòng)力。專利作為技術(shù)的主要載體,是支撐一個(gè)行業(yè)、地區(qū)乃至國家自主創(chuàng)新水平和高質(zhì)量發(fā)展的重要戰(zhàn)略性資源[1-2]。相較于專利數(shù)量,專利價(jià)值更能體現(xiàn)技術(shù)創(chuàng)新績效。探索有效的方法實(shí)現(xiàn)專利價(jià)值的精準(zhǔn)識(shí)別是推動(dòng)專利技術(shù)轉(zhuǎn)化為經(jīng)濟(jì)發(fā)展現(xiàn)實(shí)動(dòng)力的重要環(huán)節(jié),也是我國從知識(shí)產(chǎn)權(quán)大國邁向知識(shí)產(chǎn)權(quán)強(qiáng)國進(jìn)程中亟需解決的關(guān)鍵問題。當(dāng)前,國內(nèi)外相關(guān)研究主要聚焦于對(duì)后期專利成果(授權(quán)后進(jìn)入保護(hù)和運(yùn)用階段的專利)的價(jià)值評(píng)估[3-4],鮮少針對(duì)早期專利成果(尚處于初步審查階段的專利)進(jìn)行價(jià)值預(yù)測(cè)。由此可能錯(cuò)失高價(jià)值專利在早期的培育機(jī)會(huì),亦可能使一些問題專利、垃圾專利進(jìn)入實(shí)質(zhì)審查程序,造成公共資源虛耗。因此,開展專利價(jià)值早期預(yù)測(cè)研究具有重要意義。本文提出一種融合權(quán)利要求語義特征的專利價(jià)值早期預(yù)測(cè)方法。該方法的特點(diǎn)在于基于專利權(quán)利要求的引用關(guān)系提取語義特征,融合該語義特征構(gòu)建專利價(jià)值評(píng)估指標(biāo)體系,在此基礎(chǔ)上結(jié)合機(jī)器學(xué)習(xí)分類模型進(jìn)行專利價(jià)值早期預(yù)測(cè)。該方法可實(shí)現(xiàn)高價(jià)值專利的早期挖掘和低價(jià)值專利的早期識(shí)別,有助于提高專利審查效率,為后續(xù)培育和轉(zhuǎn)化提供決策依據(jù),從而促進(jìn)專利高質(zhì)量發(fā)展。

        1 相關(guān)研究

        國內(nèi)外關(guān)于專利價(jià)值評(píng)估和預(yù)測(cè)方法的研究中,比較常見的有三類:第一類是以成本法、市場(chǎng)法、收益法和實(shí)物期權(quán)法為代表的市場(chǎng)基準(zhǔn)方法,第二類是將層次分析、因子分析、主成分分析等與模糊綜合評(píng)價(jià)結(jié)合起來的綜合評(píng)價(jià)法,第三類是新興的機(jī)器學(xué)習(xí)方法。前兩類傳統(tǒng)方法雖各具一定優(yōu)勢(shì),但均存在主觀性較強(qiáng)、科學(xué)性不足等問題[5]。伴隨人工智能技術(shù)發(fā)展而興起的機(jī)器學(xué)習(xí)方法能從海量專利數(shù)據(jù)中實(shí)現(xiàn)專利價(jià)值自動(dòng)分類,兼具可靠性、科學(xué)性強(qiáng)等優(yōu)勢(shì),有效彌補(bǔ)了傳統(tǒng)方法的局限性[6]。該方法因較強(qiáng)的實(shí)踐性開始廣泛應(yīng)用于專利價(jià)值評(píng)估和預(yù)測(cè)研究中[7-8],其基本思路為先構(gòu)建能表征專利價(jià)值的評(píng)估指標(biāo)體系作為模型的輸入特征,在此基礎(chǔ)上選擇合適的機(jī)器學(xué)習(xí)分類模型進(jìn)行評(píng)估或預(yù)測(cè)。

        1.1 專利價(jià)值評(píng)估指標(biāo)體系

        在專利價(jià)值評(píng)估指標(biāo)體系方面,目前尚未形成通用的標(biāo)準(zhǔn),但研究思路基本遵循從單維視角到多維視角的發(fā)展過程[9]。眾多學(xué)者從技術(shù)、法律、市場(chǎng)三個(gè)維度構(gòu)建專利價(jià)值評(píng)估指標(biāo)體系,而在二、三級(jí)指標(biāo)設(shè)定上有所差異[10-11]。也有學(xué)者在此基礎(chǔ)上,綜合其他專利價(jià)值影響因素對(duì)一級(jí)指標(biāo)進(jìn)行完善,構(gòu)建四維甚至更多維的專利價(jià)值評(píng)估指標(biāo)體系。Lee等構(gòu)建由創(chuàng)新性、科學(xué)強(qiáng)度、發(fā)展速度、覆蓋范圍等多維技術(shù)特征組成的指標(biāo)體系來識(shí)別早期階段的新興技術(shù)[12];王子焉等在常用指標(biāo)基礎(chǔ)上構(gòu)建包含網(wǎng)絡(luò)平臺(tái)特性的指標(biāo)體系用于評(píng)估網(wǎng)絡(luò)平臺(tái)專利價(jià)值[13]。然而,上述研究多聚焦于從專利著錄信息中提取相關(guān)特征,此類指標(biāo)不涉及專利文本解析,難以全面準(zhǔn)確地表征專利價(jià)值。部分學(xué)者開始融合專利文本語義特征進(jìn)行價(jià)值評(píng)估。吳潔等構(gòu)建融合專利摘要文本特征的評(píng)估指標(biāo)體系以識(shí)別高質(zhì)量專利[14];孫冉等基于BERT模型提取專利標(biāo)題文本語義特征,構(gòu)建多特征融合的指標(biāo)體系進(jìn)行專利價(jià)值預(yù)測(cè)[15]。

        1.2 專利價(jià)值預(yù)測(cè)模型

        在預(yù)測(cè)模型方面,BP神經(jīng)網(wǎng)絡(luò)[16]、支持向量機(jī)(SVM)[17]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[18]等淺層機(jī)器學(xué)習(xí)模型最先引入專利價(jià)值預(yù)測(cè)領(lǐng)域,應(yīng)用較為廣泛。隨之,Bagging、boosting、Stacking等集成學(xué)習(xí)方法因處理大量復(fù)雜專利數(shù)據(jù)時(shí)性能優(yōu)異而受到關(guān)注。例如,王思培等基于隨機(jī)森林算法預(yù)測(cè)潛在高價(jià)值專利[19]。付振康等建立基于Stacking思想的集成學(xué)習(xí)專利質(zhì)量分類預(yù)測(cè)模型,并通過實(shí)證研究證實(shí)該模型整體上優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型[20]。隨著機(jī)器學(xué)習(xí)方法的不斷成熟,也有一些學(xué)者嘗試將深層學(xué)習(xí)模型應(yīng)用于專利價(jià)值分析中,林弘杰利用專利多項(xiàng)信息設(shè)計(jì)了一種基于深度學(xué)習(xí)的專利價(jià)值評(píng)估模型[21]。Trappey等結(jié)合深度神經(jīng)網(wǎng)絡(luò)評(píng)估物聯(lián)網(wǎng)產(chǎn)業(yè)專利價(jià)值[22]。

        綜合上述機(jī)器學(xué)習(xí)方法在專利價(jià)值評(píng)估和預(yù)測(cè)中的應(yīng)用來看,在評(píng)估指標(biāo)體系構(gòu)建方面,現(xiàn)有研究以提取專利著錄特征為主,盡管部分學(xué)者開始嘗試從專利摘要、標(biāo)題等文本中提取語義特征,但基于專利權(quán)利要求書提取語義特征的研究仍付之闕如。專利申請(qǐng)的目的是保護(hù)權(quán)利人對(duì)其發(fā)明創(chuàng)造的獨(dú)占權(quán),權(quán)利要求書是專利文本的核心內(nèi)容,也是界定專利保護(hù)范圍的唯一法律文件[23-24]。相較于標(biāo)題和摘要,專利權(quán)利要求書是開發(fā)指標(biāo)的更準(zhǔn)確、可靠的關(guān)鍵術(shù)語來源,對(duì)評(píng)估專利價(jià)值至關(guān)重要[25]。在預(yù)測(cè)模型構(gòu)建方面,盡管各類機(jī)器學(xué)習(xí)模型在專利價(jià)值領(lǐng)域得到了較好的應(yīng)用,但是現(xiàn)有研究多聚焦于算法層面的創(chuàng)新,忽視了對(duì)模型可解釋性的探索,難以揭示模型內(nèi)在機(jī)理和決策依據(jù)。因此,本文將基于專利權(quán)利要求書提取語義特征,融合該特征構(gòu)建更能準(zhǔn)確表征專利價(jià)值的評(píng)估指標(biāo)體系。在此基礎(chǔ)上,再嘗試構(gòu)建一種用于專利價(jià)值早期預(yù)測(cè)的可解釋機(jī)器學(xué)習(xí)模型,保證優(yōu)異性能的同時(shí)探究各特征對(duì)專利價(jià)值預(yù)測(cè)的貢獻(xiàn)及其影響機(jī)制。

        2 研究方案

        本文具體思路如下:首先從Incopat數(shù)據(jù)庫獲取所需專利數(shù)據(jù);然后對(duì)專利權(quán)利要求書進(jìn)行解析并提取語義特征,構(gòu)建融合傳統(tǒng)著錄特征和權(quán)利要求語義特征的專利價(jià)值評(píng)估指標(biāo)體系并優(yōu)化;最后基于CatBoost算法構(gòu)建專利價(jià)值早期預(yù)測(cè)模型并結(jié)合SHAP方法進(jìn)行模型解釋。

        2.1 權(quán)利要求語義特征提取

        專利文本語義特征是指借助一定技術(shù)手段將文本型的專利語義信息轉(zhuǎn)化為數(shù)值型的特征[26]。權(quán)利要求書是明確專利保護(hù)范圍的法律依據(jù),Wittfoth通過權(quán)利要求語義分析量化專利保護(hù)范圍,提煉專利價(jià)值評(píng)估指標(biāo)[27]。本文對(duì)權(quán)利要求語義特征的提取主要借鑒Wittfoth的思路,即先對(duì)權(quán)利要求文本進(jìn)行解析以識(shí)別引用關(guān)系,然后基于生成的引用關(guān)系樹計(jì)算權(quán)利要求依賴度,再經(jīng)過標(biāo)準(zhǔn)化處理后量化專利保護(hù)范圍,以此表征權(quán)利要求語義特征用于專利價(jià)值評(píng)估。

        2.1.1權(quán)利要求文本解析

        首先,提取每份專利的權(quán)利要求書,使用圖1中的正則化表達(dá)式處理文本,識(shí)別、分割各條權(quán)利要求,并檢查數(shù)據(jù)的有效性。然后解析各條權(quán)利要求所處的層級(jí),得到權(quán)利要求之間的主從依賴關(guān)系。

        圖1 權(quán)利要求引用關(guān)系識(shí)別的正則表達(dá)式

        專利權(quán)利要求書由若干項(xiàng)權(quán)利要求構(gòu)成。按從屬關(guān)系分為獨(dú)立權(quán)利要求和從屬權(quán)利要求。一項(xiàng)權(quán)利要求如果不涉及任何其他權(quán)利要求,即為獨(dú)立權(quán)利要求;如果涉及對(duì)其他權(quán)利要求的引用,則為從屬權(quán)利要求。根據(jù)引用項(xiàng)數(shù),從屬權(quán)利要求可再細(xì)分為單項(xiàng)從屬權(quán)利要求和多項(xiàng)從屬權(quán)利要求。

        以公開號(hào)為CN102484274A的發(fā)明專利為例[28],圖2為該發(fā)明專利的權(quán)利要求書(只保留了文本的主體結(jié)構(gòu),省略了細(xì)節(jié)內(nèi)容),該發(fā)明專利的權(quán)利要求書中共有8條權(quán)利要求,其中第1條和第8條為獨(dú)立權(quán)利要求,其余為單項(xiàng)從屬權(quán)利要求。在這些單項(xiàng)從屬權(quán)利要求中,第2條、第3條和第6條為第一層從屬權(quán)利要求,均依賴于第1條權(quán)利要求。其余為第二層從屬權(quán)利要求,其中第4條和第5條依賴于第3條權(quán)利要求,第7條依賴于第6條權(quán)利要求。

        圖2 示例專利CN102484274A的權(quán)利要求書

        2.1.2權(quán)利要求引用關(guān)系可視化

        依照權(quán)利要求文本解析的結(jié)果,可構(gòu)建出引用關(guān)系樹。引用關(guān)系樹能夠清晰描述專利中各條權(quán)利要求的引用關(guān)系。構(gòu)建引用關(guān)系樹的方法是先找到首條獨(dú)立權(quán)利要求,即權(quán)利要求1,排列于第一列;然后找到所有引用了權(quán)利要求1的第一級(jí)從屬權(quán)利要求,排列于第二列;再找到引用了第一級(jí)從屬權(quán)利要求的第二級(jí)從屬權(quán)利要求,排列于第三列,依此類推。圖3顯示了示例專利CN102484274A的引用關(guān)系樹。另外,Wittfoth認(rèn)為多項(xiàng)從屬權(quán)利要求通常能夠擴(kuò)大專利的保護(hù)范圍,其貢獻(xiàn)與獨(dú)立權(quán)利要求類似。因此,若專利的權(quán)利要求文本中存在多項(xiàng)從屬權(quán)利要求,則歸為獨(dú)立權(quán)利要求。

        圖3 示例專利CN102484274A的引用關(guān)系樹

        為了根據(jù)權(quán)利要求的引用關(guān)系量化權(quán)利要求語義特征,使用矩陣R進(jìn)一步描述引用關(guān)系,R是一個(gè)m×n的矩陣,其中m為權(quán)利要求的個(gè)數(shù),n為最深的層級(jí)。設(shè)權(quán)利要求的編號(hào)為i,層級(jí)為j,則每條權(quán)利要求的編號(hào)i出現(xiàn)在R的第i行第j列處。式1為示例專利CN102484274A的引用關(guān)系的矩陣描述。

        (1)

        2.1.3權(quán)利要求依賴度計(jì)算

        依賴度是權(quán)利要求之間的相互依賴關(guān)系,能夠衡量權(quán)利要求之間的層級(jí)關(guān)系和依賴程度,依賴度與專利保護(hù)范圍有著密切聯(lián)系。計(jì)算依賴度d的公式如式(2)所示:

        (2)

        其中,j表示層級(jí),當(dāng)j=1時(shí),表示為第一層權(quán)利要求,即獨(dú)立權(quán)利要求或多項(xiàng)從屬權(quán)利要求,當(dāng)j≥2時(shí),表示為第j-1級(jí)從屬權(quán)利要求;cj表示第j層權(quán)利要求的總數(shù),即矩陣R中第j列中非0元素的個(gè)數(shù)。

        另外,考慮兩種極端情況。當(dāng)該專利的每一條權(quán)利要求都為獨(dú)立權(quán)利要求時(shí),即每一條權(quán)利要求都是獨(dú)立而無引用關(guān)系的,依賴度取最小值dmin。

        (3)

        相反地,當(dāng)專利的每前一條權(quán)利要求都被后一條權(quán)利要求引用時(shí),即從第2條權(quán)利要求開始,后續(xù)的每一條都依賴于前一條,直至第n條權(quán)利要求為止。在這樣逐層的引用關(guān)系下,依賴度達(dá)到最大值dmax。

        (4)

        不同的專利可能具有不同的權(quán)利要求數(shù)m和最深層級(jí)n,為了統(tǒng)一量化具有不同權(quán)利要求數(shù)和最深層級(jí)的專利,需要對(duì)依賴度d進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的前提是計(jì)算依賴度對(duì)應(yīng)的角度α,如式(5):

        (5)

        標(biāo)準(zhǔn)化后的依賴度dn即為依賴度對(duì)應(yīng)角度α與最大依賴度對(duì)應(yīng)角度αmax之比,如式(6)所示:

        (6)

        圖4為依賴度標(biāo)準(zhǔn)化示意圖,專利CN102484274A按上述公式計(jì)算得到α=9.130°,介于兩種極端情況αmin=0°和αmax=26.565°之間。示例專利CN102484274A標(biāo)準(zhǔn)化后的依賴度為:

        圖4 專利CN102484274A依賴度標(biāo)準(zhǔn)化示意圖

        2.1.4計(jì)算權(quán)利要求語義特征

        最后,用常數(shù)1減去標(biāo)準(zhǔn)化后的依賴度,得到專利的保護(hù)范圍,即權(quán)利要求語義特征s。

        s=1-dn

        (7)

        示例專利CN102484274A的權(quán)利要求語義特征為:

        sCN102484274A=1-0.344=0.656

        2.2 專利價(jià)值評(píng)估指標(biāo)體系構(gòu)建

        2.2.1指標(biāo)體系初步構(gòu)建

        專利價(jià)值評(píng)估指標(biāo)體系構(gòu)建的核心在于如何從眾多影響因素中提煉出覆蓋全面、科學(xué)實(shí)用的指標(biāo)以準(zhǔn)確表征專利價(jià)值。由于概念界定標(biāo)準(zhǔn)、技術(shù)領(lǐng)域、技術(shù)生命周期等差異,專利價(jià)值影響因素不盡相同,其評(píng)估體系也復(fù)雜多變。本文在前人研究基礎(chǔ)上,結(jié)合專利價(jià)值早期預(yù)測(cè)的特點(diǎn),確立了以下指標(biāo)選取原則:一是全面性,所選指標(biāo)盡可能涵蓋影響專利價(jià)值的各方面因素,如技術(shù)、法律、市場(chǎng)等維度;二是科學(xué)性,所選指標(biāo)應(yīng)能準(zhǔn)確表征專利價(jià)值,不僅包含傳統(tǒng)著錄特征,還須從專利核心文本中提取語義特征;三是可操作性,為了便于實(shí)證研究,所選指標(biāo)應(yīng)具有可獲取性,且是定量化或者能基于一定計(jì)算規(guī)則進(jìn)行定量轉(zhuǎn)化的指標(biāo);四是時(shí)效性,早期預(yù)測(cè)主要針對(duì)初審階段的專利,研究對(duì)象以專利申請(qǐng)文本為主。后期評(píng)估是基于創(chuàng)新能力評(píng)價(jià)、成果轉(zhuǎn)移轉(zhuǎn)化、專利質(zhì)押融資等目的,注重從專利生命周期全過程對(duì)專利價(jià)值進(jìn)行合理度量,研究對(duì)象以授權(quán)專利為主。相較于后期評(píng)估,早期預(yù)測(cè)在專利價(jià)值評(píng)估指標(biāo)選擇上更注重時(shí)效性。因此所選指標(biāo)必須是在專利申請(qǐng)時(shí)便可獲取的指標(biāo)。

        依據(jù)上述四個(gè)原則,本文初步構(gòu)建了融合傳統(tǒng)著錄特征和權(quán)利要求語義特征的專利價(jià)值早期預(yù)測(cè)指標(biāo)體系。其中,傳統(tǒng)著錄特征包含法律、技術(shù)和市場(chǎng)三個(gè)維度下共計(jì)17個(gè)二級(jí)指標(biāo)。權(quán)利要求語義特征則是對(duì)權(quán)利要求文本進(jìn)行解析基礎(chǔ)上依照相關(guān)步驟和計(jì)算規(guī)則量化而成。各指標(biāo)名稱及意義如表 1 所示。

        2.2.2指標(biāo)體系優(yōu)化

        為了保證后續(xù)機(jī)器學(xué)習(xí)模型預(yù)測(cè)的準(zhǔn)確性和良好的泛化性能,在上述指標(biāo)體系基礎(chǔ)上運(yùn)用皮爾遜(Pearson)相關(guān)性分析方法識(shí)別指標(biāo)體系中的相似特征組,以揭示特征之間的潛在關(guān)聯(lián),從而去掉冗余特征,優(yōu)化指標(biāo)體系。皮爾遜相關(guān)系數(shù)能夠反映兩個(gè)特征之間相互關(guān)系的密切程度[29]。其取值范圍為[-1,1],正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),0表示無相關(guān)性,相關(guān)系數(shù)的絕對(duì)值越大,兩個(gè)特征間的相關(guān)關(guān)系越密切。

        利用上述方法構(gòu)建表1指標(biāo)體系中18個(gè)特征的相關(guān)系數(shù)矩陣,并利用相關(guān)系數(shù)熱力圖(見圖5)展示特征之間的相關(guān)性。圖5中顏色越淺表示兩個(gè)特征的相關(guān)系數(shù)較小,特征之間的相關(guān)性弱;顏色越深表示兩個(gè)特征的相關(guān)系數(shù)較大,相關(guān)性強(qiáng)。如圖5所示,本文使用的18個(gè)特征中,特征間的相關(guān)性均較弱,特征間存在的冗余信息較少,說明表1構(gòu)建的指標(biāo)體系作為后續(xù)機(jī)器學(xué)習(xí)模型的輸入特征能很好地提高模型的效率和泛化能力。

        表1 專利價(jià)值早期預(yù)測(cè)指標(biāo)體系初步構(gòu)建

        圖5 相關(guān)系數(shù)熱力圖

        2.3 基于CatBoost算法的專利價(jià)值早期預(yù)測(cè)模型

        梯度提升算法是一種常見的集成學(xué)習(xí)算法,其基本思想是通過不斷地迭代加入弱學(xué)習(xí)器,構(gòu)成一個(gè)強(qiáng)學(xué)習(xí)器。每個(gè)弱學(xué)習(xí)器會(huì)嘗試擬合上一輪留下的殘差,以此提高模型的準(zhǔn)確性和泛化能力。常見的梯度提升算法有XGBoost、LightGBM和CatBoost。

        CatBoost是俄羅斯Yandex公司于2017年開發(fā)的一種新型梯度提升算法,通過有序提升的方式改進(jìn)傳統(tǒng) GBDT算法中的梯度估計(jì),在處理類別特征時(shí)表現(xiàn)出優(yōu)異性能[30]。相較于 Boosting族中的XGBoost和LightGBM,CatBoost在解決梯度偏差和預(yù)測(cè)偏移問題,提高算法準(zhǔn)確率和泛化性方面表現(xiàn)更好[31]。

        (8)

        本文使用CatBoost算法研究專利價(jià)值評(píng)估指標(biāo)體系與專利價(jià)值之間的關(guān)系,主要包含3個(gè)步驟:第1步,數(shù)據(jù)預(yù)處理與特征提取。將專利樣本按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集。根據(jù)構(gòu)建的專利價(jià)值評(píng)估指標(biāo)體系,每份專利被提取出18個(gè)特征,將其作為CatBoost的輸入。第2步,模型訓(xùn)練。CatBoost算法將根據(jù)當(dāng)前模型對(duì)專利價(jià)值的預(yù)測(cè)結(jié)果,計(jì)算損失函數(shù)上的梯度,通過加入新的決策樹,以提高預(yù)測(cè)的準(zhǔn)確性。在迭代過程中,損失函數(shù)值會(huì)被不斷更新、降低,對(duì)專利價(jià)值的預(yù)測(cè)結(jié)果將逐步提高,當(dāng)達(dá)到最大迭代輪數(shù)或檢測(cè)到過擬合時(shí),將停止模型的訓(xùn)練。訓(xùn)練過程采用5折交叉驗(yàn)證的方法,訓(xùn)練集被平均分為5份,每次訓(xùn)練都取出其中一份作為驗(yàn)證集,以觀察模型在未見過的專利數(shù)據(jù)集上的性能。第3步,模型性能測(cè)試。在模型訓(xùn)練完成后,使用測(cè)試集對(duì)模型進(jìn)行性能測(cè)試。使用準(zhǔn)確率、精準(zhǔn)率、召回率和F1值來評(píng)價(jià)模型的性能,并使用ROC曲線和AUC值進(jìn)一步評(píng)估模型的性能。

        2.4 基于SHAP方法的模型解釋

        當(dāng)前,集成學(xué)習(xí)等復(fù)雜機(jī)器學(xué)習(xí)算法雖表現(xiàn)出優(yōu)異性能,但由于缺乏可解釋性常被稱作“黑盒模型”,無法揭示其決策依據(jù)[32]。因此,需要輔以事后解釋方法。SHAP是一種用于解釋復(fù)雜機(jī)器學(xué)習(xí)模型的方法,主要借鑒博弈論中的Shapley value來構(gòu)建一個(gè)可加性解釋模型[33]。Shapley value即樣本中每個(gè)特征對(duì)模型預(yù)測(cè)結(jié)果所產(chǎn)生的貢獻(xiàn),通過貢獻(xiàn)分析可以探究模型各個(gè)輸入特征的重要性及其影響規(guī)律。

        SHAP在解釋單個(gè)樣本x時(shí),解釋模型g的表達(dá)形式為:

        (9)

        其中,M為模型中的特征數(shù)量,φ0是模型對(duì)所有樣本預(yù)測(cè)值的平均值,又稱為base value,φi為第i個(gè)特征的shapley value,φi的計(jì)算公式為:

        (10)

        其中,F為特征的全集,S表示{FXi}的特征子集,不同的S對(duì)應(yīng)不同的特征子集的組合,“‖”表示集合的元素個(gè)數(shù),“!”為階乘符號(hào),f(xS∪{i})和f(xs)表示不同特征組合的情況下Xi入模和不入模的模型輸出。

        3 實(shí)證研究

        3.1 數(shù)據(jù)處理與樣本標(biāo)記

        “雙碳”背景下新能源技術(shù)研發(fā)成為實(shí)現(xiàn)“碳中和”目標(biāo)的關(guān)鍵著力點(diǎn)。氫能作為極具發(fā)展?jié)摿Φ那鍧嵞茉磦涫軐W(xué)屆關(guān)注,全球許多國家和地區(qū)就氫能相關(guān)技術(shù)開展了廣泛研究,專利成果豐富。故本文選取“氫能領(lǐng)域”專利作為研究樣本,利用 Incopat 全球?qū)@麛?shù)據(jù)庫(https://www.incopat.com)對(duì)該領(lǐng)域的專利信息進(jìn)行檢索。因表征高價(jià)值專利的相關(guān)指標(biāo)需要較長時(shí)間沉淀,所以將樣本數(shù)據(jù)的檢索時(shí)間設(shè)置為2012年之前,使用關(guān)鍵詞“hydrogen energy”和“hydrogen production technology”進(jìn)行檢索??紤]到早期預(yù)測(cè)的時(shí)效性要求,選擇專利申請(qǐng)文本并導(dǎo)出,剔除重復(fù)數(shù)據(jù)以及帶有缺失值、異常值的記錄,最終保留6 871條數(shù)據(jù)作為樣本展開實(shí)證研究。

        按照表1構(gòu)建的專利價(jià)值早期預(yù)測(cè)指標(biāo)體系提取相關(guān)特征。其中,17項(xiàng)著錄特征從專利樣本的著錄信息中直接獲取或通過間接換算獲得。權(quán)利要求語義特征則根據(jù)2.1所述方法,對(duì)專利樣本權(quán)利要求書進(jìn)行語義分析基礎(chǔ)上測(cè)算得到。

        為了消除特征之間不同尺度帶來的影響,并加速機(jī)器學(xué)習(xí)模型的訓(xùn)練過程,對(duì)特征進(jìn)行Z-score標(biāo)準(zhǔn)化( CatBoost模型能夠自動(dòng)處理類別特征,在處理離散特征和連續(xù)特征時(shí)具有一定的優(yōu)勢(shì),并且其內(nèi)置的機(jī)制能夠處理數(shù)據(jù)不平衡問題。本文使用CatBoost模型時(shí)將原始數(shù)據(jù)作為輸入。)。Z-score標(biāo)準(zhǔn)化的計(jì)算公式為:

        (11)

        特征經(jīng)過Z-score標(biāo)準(zhǔn)化后,滿足均值為0,方差為1的正態(tài)分布如圖6所示。

        圖6 特征箱線圖

        本研究的目的是探索專利價(jià)值早期預(yù)測(cè)方法,即通過分類模型判斷專利是高價(jià)值、低價(jià)值還是一般價(jià)值的三分類問題。因此,在模型訓(xùn)練中需要對(duì)樣本進(jìn)行分類標(biāo)記。結(jié)合 2021年國家知識(shí)產(chǎn)權(quán)局對(duì)高價(jià)值發(fā)明專利的定義以及白利敏等[34]對(duì)高價(jià)值專利的標(biāo)記方法,本研究將滿足以下條件中任一項(xiàng)的專利樣本標(biāo)記為高價(jià)值專利樣本:①獲中國專利獎(jiǎng)專利;②維持年限10年及以上專利;③侵權(quán)訴訟和被無效的專利;④被許可專利。結(jié)合先驗(yàn)經(jīng)驗(yàn)以及白利敏等對(duì)低價(jià)值專利的標(biāo)記方法,將滿足以下條件中任一項(xiàng)的專利樣本標(biāo)記為低價(jià)值專利樣本:①申請(qǐng)授權(quán)三年后被放棄的專利;②申請(qǐng)過程中視撤專利;③申請(qǐng)公布后因質(zhì)量問題被駁回的專利。最后,除高價(jià)值、低價(jià)值以外的樣本標(biāo)記為一般價(jià)值專利。按照上述規(guī)則最終樣本分類情況如表2所示。

        表2 樣本概況

        為解決樣本不均衡問題,本文采用SMOTE采樣方法,將較少樣本類別進(jìn)行插值來生成新的合成樣本,以增加正樣本的數(shù)量,使得后續(xù)機(jī)器學(xué)習(xí)算法能更好地學(xué)習(xí)數(shù)據(jù)分布,保證預(yù)測(cè)效果。

        3.2 模型效果評(píng)估

        基于前文構(gòu)建的CatBoost模型進(jìn)行專利價(jià)值分類學(xué)習(xí),將數(shù)據(jù)集中的6 871個(gè)樣本按照7:3的比例劃分為訓(xùn)練集和測(cè)試集,并采用5折交叉驗(yàn)證。訓(xùn)練CatBoost模型時(shí)需要確定較多的參數(shù),通過參數(shù)的隨機(jī)搜索得到最優(yōu)參數(shù)組合,如表3所示。

        表3 訓(xùn)練CatBoost參數(shù)

        本文另外應(yīng)用以下常用機(jī)器學(xué)習(xí)模型與CatBoost模型進(jìn)行對(duì)比實(shí)驗(yàn),具體包括LR(邏輯回歸)、DT(決策樹)、SVM(支持向量機(jī))、KNN(K-近鄰算法)和ANN(人工神經(jīng)網(wǎng)絡(luò))五種傳統(tǒng)淺層模型以及RF(隨機(jī)森林)、XGBoost(極端梯度增強(qiáng))和LightGBM(輕量級(jí)梯度提升機(jī))三種集成學(xué)習(xí)模型。在測(cè)試集上,不同模型得到的準(zhǔn)確率如表4所示。對(duì)比不同模型的測(cè)試結(jié)果,發(fā)現(xiàn)集成學(xué)習(xí)方法總體優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型,特別是CatBoost模型的準(zhǔn)確率達(dá)到90.79%,精確率、召回率和F1得分方面也表現(xiàn)出色。

        表4 不同模型的準(zhǔn)確率

        為進(jìn)一步評(píng)估CatBoost模型,采用ROC曲線和AUC作為評(píng)價(jià)指標(biāo)。ROC曲線以FPR假正例率為橫坐標(biāo),以TPR真正例率為縱坐標(biāo)。AUC是ROC曲線下方的面積,當(dāng)曲線越靠近左上角時(shí),ACU數(shù)值越大,表明模型的性能越好。從圖7可觀察到集成學(xué)習(xí)模型的ROC曲線都較為靠近左上角,分類性能較好。計(jì)算得到CatBoost模型的AUC值均達(dá)到0.966,模型的分類性能最優(yōu)。

        圖7 ROC曲線

        3.3 特征貢獻(xiàn)分析

        使用SHAP方法對(duì)特征集在模型預(yù)測(cè)過程中的貢獻(xiàn)情況進(jìn)行全局解釋時(shí),主要是根據(jù) SHAP value 分析模型中各特征對(duì)預(yù)測(cè)值產(chǎn)生的重要性及其影響。每個(gè)特征的 SHAP value 則通過計(jì)算所有樣本的 Shapley value 絕對(duì)值的平均值而得到。如圖8所示,SHAP value越大,表示該特征對(duì)于預(yù)測(cè)結(jié)果的影響越大。從圖中可以觀察到,同族專利數(shù)、專利權(quán)人類型、獨(dú)立權(quán)利要求數(shù)、權(quán)利要求語義特征、首權(quán)字?jǐn)?shù)和同族被引數(shù)對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)度排在前1/3,說明以上6個(gè)特征是影響專利價(jià)值的重要指標(biāo)。

        圖8 特征重要性排序

        SHAP value不僅能夠提供對(duì)所有樣本的全局解釋,也能提供對(duì)部分樣本的局部解釋。本文的研究目的是實(shí)現(xiàn)高價(jià)值專利的早期挖掘和低價(jià)值專利的早期識(shí)別,為了探究各個(gè)特征對(duì)高價(jià)值專利樣本和低價(jià)值專利樣本的作用路徑,繪制SHAP value蜂群圖(圖9),以直觀地了解不同特征對(duì)模型輸出的影響程度。如圖9所示,a和b分別為正樣本(高價(jià)值專利)和負(fù)樣本(低價(jià)值專利)的SHAP value蜂群圖。每條水平線上,每個(gè)數(shù)據(jù)點(diǎn)表示一個(gè)樣本,其水平位置表示該樣本對(duì)應(yīng)特征的SHAP value大小。較高的SHAP value表示在預(yù)測(cè)時(shí)該特征對(duì)模型輸出有較大的正向影響,而較低的SHAP value表示對(duì)模型輸出有較大的負(fù)向影響。同時(shí),數(shù)據(jù)點(diǎn)的顏色代表該樣本對(duì)應(yīng)特征值的大小,數(shù)據(jù)點(diǎn)顏色越深表示特征值越高,數(shù)據(jù)點(diǎn)顏色越淺表示特征值越低。

        (a) 正樣本 (b)負(fù)樣本

        從圖9(a)中可以觀察到,專利權(quán)人類型、同族專利數(shù)、獨(dú)立權(quán)利要求數(shù)、權(quán)利要求語義特征、首權(quán)字?jǐn)?shù)五個(gè)特征對(duì)正樣本影響較為顯著。即當(dāng)專利權(quán)人類型、同族專利數(shù)、獨(dú)立權(quán)利要求數(shù)、首權(quán)字?jǐn)?shù)取值越高,權(quán)利要求語義特征取值越低時(shí),成為高價(jià)值專利的概率越大。從圖9(b)中可以觀察到,對(duì)負(fù)樣本影響較為顯著的前五個(gè)特征與正樣本相似,只是前五個(gè)特征的重要性排序有所區(qū)別。當(dāng)同族專利數(shù)、獨(dú)立權(quán)利要求數(shù)、專利權(quán)人類型、首權(quán)字?jǐn)?shù)取值較低,權(quán)利要求語義特征取值較高時(shí),成為低價(jià)值專利的概率越大。

        值得注意的是,綜合圖8和圖9進(jìn)行分析發(fā)現(xiàn),本文首次引入的權(quán)利要求語義特征對(duì)專利價(jià)值和正負(fù)樣本的影響均非常顯著。權(quán)利要求語義特征取值越低時(shí),說明權(quán)利要求依賴度越高,專利申請(qǐng)人對(duì)該專利的保護(hù)范圍描述得更加明確,此時(shí)專利越有可能是高價(jià)值專利。反之,則越有可能是低價(jià)值專利。

        4 結(jié) 論

        本文提出一種融合權(quán)利要求語義特征的專利價(jià)值早期預(yù)測(cè)方法。首先,對(duì)專利權(quán)利要求文本進(jìn)行解析并提取語義特征。然后構(gòu)建融合權(quán)利要求語義特征的專利價(jià)值評(píng)估指標(biāo)體系并運(yùn)用皮爾遜相關(guān)性分析方法進(jìn)行指標(biāo)優(yōu)化。最后,基于CatBoost算法構(gòu)建專利價(jià)值早期預(yù)測(cè)模型并結(jié)合SHAP方法進(jìn)行模型解釋。研究結(jié)果表明:

        本文構(gòu)建的專利價(jià)值早期預(yù)測(cè)模型相較于傳統(tǒng)模型具有準(zhǔn)確性更高、解釋性更好、適用性更廣的優(yōu)勢(shì)。首先,CatBoost模型的分類準(zhǔn)確率達(dá)到90.79%,精確率、召回率和F1得分方面也表現(xiàn)出色。其次,在CatBoost模型基礎(chǔ)上結(jié)合SHAP方法構(gòu)建的可加性解釋模型,突破了集成學(xué)習(xí)“黑箱模型”的局限性,為模型決策和特征優(yōu)化提供了依據(jù)。再次,該模型適用于從早期海量專利中挖掘高價(jià)值專利和識(shí)別低價(jià)值專利,對(duì)拓展專利價(jià)值評(píng)估研究理論具有重要意義,且該方法在類似應(yīng)用場(chǎng)景下還適用于專利早期預(yù)警以及授權(quán)后專利的價(jià)值評(píng)估,具備可推廣性。

        本文首次引入的權(quán)利要求語義特征對(duì)于預(yù)測(cè)專利價(jià)值貢獻(xiàn)顯著且對(duì)正負(fù)樣本呈現(xiàn)負(fù)向影響。該特征值越低,反映了專利權(quán)力要求依賴度越高,則專利價(jià)值越高。反之,則專利價(jià)值越低。

        融合權(quán)利要求語義特征構(gòu)建的專利價(jià)值早期預(yù)測(cè)指標(biāo)體系能更加準(zhǔn)確全面地表征專利價(jià)值且冗余度低,具有一定的優(yōu)越性。除權(quán)利要求語義特征外,該指標(biāo)體系中同族專利數(shù)、專利權(quán)人類型、獨(dú)立權(quán)利要求數(shù)和首權(quán)字?jǐn)?shù)四個(gè)特征對(duì)專利價(jià)值的貢獻(xiàn)度較高且對(duì)正負(fù)樣本均呈現(xiàn)正向影響。

        本研究仍存在一定的局限性。實(shí)驗(yàn)數(shù)據(jù)來源于氫能領(lǐng)域?qū)@?雖然應(yīng)用本文構(gòu)建的預(yù)測(cè)模型取得了良好效果,但同一技術(shù)領(lǐng)域往往由不同分支領(lǐng)域構(gòu)成,涉及不同技術(shù)主題,技術(shù)之間存在較大差異,其專利價(jià)值的影響因素和實(shí)現(xiàn)方式不盡相同。所以后續(xù)研究應(yīng)考慮技術(shù)細(xì)分視角下的專利價(jià)值探索,從而使專利價(jià)值預(yù)測(cè)更加精準(zhǔn)。

        猜你喜歡
        語義指標(biāo)體系專利
        專利
        語言與語義
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        層次分析法在生態(tài)系統(tǒng)健康評(píng)價(jià)指標(biāo)體系中的應(yīng)用
        供給側(cè)改革指標(biāo)體系初探
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        專利
        測(cè)土配方施肥指標(biāo)體系建立中‘3414
        土地評(píng)價(jià)指標(biāo)體系研究
        91九色最新国产在线观看| 国产亚洲精品福利在线| 亚洲国产精品亚洲高清| 久久本道久久综合伊人| 狠狠的干性视频| 国产山东熟女48嗷嗷叫| 国产精品成人av电影不卡| 91色综合久久熟女系列| 亚洲av无码国产综合专区| 激情久久av一区av二区av三区| 无码免费午夜福利片在线| 中文字幕人乱码中文字幕乱码在线 | 一本加勒比hezyo无码专区| 18禁美女裸身无遮挡免费网站| 亚洲天堂av免费在线看| 亚洲精品中文字幕一二三| 午夜三级a三级三点在线观看| 大地资源在线播放观看mv| 亚州AV成人无码久久精品| 精品老熟女一区二区三区在线| 国产成人a∨激情视频厨房| 97久久超碰国产精品2021| 视频二区 无码中出| 国产免费人成视频在线| 少妇激情一区二区三区视频 | 欧美中文字幕在线| 国产啪啪视频在线观看| 欧美粗大无套gay| 亚洲春色AV无码专区在线播放| 一区二区三区四区免费国产视频| 亚洲中国精品精华液| 久久精品国产亚洲av高清漫画| 亚洲色四在线视频观看| 国产精品三级在线专区1| 免费视频一区二区三区美女| 久久久久国色av免费观看性色 | 国产成人精品三级91在线影院| 综合人妻久久一区二区精品| 日本一区二区视频免费在线看| 中文字幕乱伦视频| 探花国产精品三级在线播放 |