亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)的專利質(zhì)量評價研究

        2021-01-08 06:09:50范明姐黃魯成
        科技進(jìn)步與對策 2020年24期
        關(guān)鍵詞:分類評價質(zhì)量

        李 欣,范明姐,黃魯成

        (北京工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京100124)

        0 引言

        專利集技術(shù)、經(jīng)濟(jì)、法律信息于一體,記載了世界各國的新方法、新技術(shù)[1],代表一國或某一企業(yè)的技術(shù)發(fā)展水平和市場競爭力[2]。專利質(zhì)量是出臺專利維持、轉(zhuǎn)化等經(jīng)濟(jì)決策的重要依據(jù)[3]。從眾多專利中甄選出高質(zhì)量專利,可有效促進(jìn)專利轉(zhuǎn)移轉(zhuǎn)化,同時有利于企業(yè)明確自身發(fā)展現(xiàn)狀、制定研發(fā)戰(zhàn)略、開發(fā)強競爭力產(chǎn)品[4],也有利于國家或企業(yè)準(zhǔn)確識別競爭對手并尋找合作伙伴[1]。在專利大數(shù)據(jù)背景下,提出行之有效的專利質(zhì)量評價方法,高效篩選出高質(zhì)量專利,值得學(xué)者深思。

        專利質(zhì)量評價的前提是明確專利質(zhì)量內(nèi)涵,確定有效的專利質(zhì)量評價標(biāo)準(zhǔn)(谷麗等,2018),構(gòu)建科學(xué)的專利質(zhì)量評價方法。目前,國內(nèi)外學(xué)者對專利質(zhì)量概念尚未達(dá)成共識,多數(shù)學(xué)者從專利創(chuàng)新性、新穎性和實用性,抑或是專利技術(shù)質(zhì)量、經(jīng)濟(jì)質(zhì)量和法律質(zhì)量等維度對專利質(zhì)量及其內(nèi)涵進(jìn)行闡述,認(rèn)為專利質(zhì)量是衡量授權(quán)專利能否滿足可專利性的標(biāo)準(zhǔn),尤其是符合創(chuàng)新性、新穎性和實用性的充分描述[5-10]。本文中的專利質(zhì)量指專利創(chuàng)新性、新穎性、創(chuàng)造性和實用性等程度,以反映專利的技術(shù)經(jīng)濟(jì)質(zhì)量。

        目前學(xué)者在構(gòu)建專利質(zhì)量評價指標(biāo)體系時大都只考慮專利技術(shù)、法律和經(jīng)濟(jì)性指標(biāo),很少有學(xué)者從專利主體實力出發(fā),將專利開發(fā)主體因素納入專利質(zhì)量評價指標(biāo)體系[11-13]。而已有研究表明,專利權(quán)人開發(fā)能力和努力程度對專利質(zhì)量有直接影響[14],專利質(zhì)量在一定程度上取決于發(fā)明人的技術(shù)水平[15];競爭實力強的企業(yè)比較注重自身技術(shù)研發(fā),其專利引用率較高,專利質(zhì)量也較好[16];也有學(xué)者指出專利質(zhì)量包含專利申請人因素、專利審查因素及專利內(nèi)在屬性3個方面指標(biāo)[17]。因此,應(yīng)將專利開發(fā)主體因素納入專利質(zhì)量評價指標(biāo)體系,以實現(xiàn)對專利質(zhì)量的全面性和客觀性評價。

        在專利質(zhì)量評價方法方面,由于一些專利質(zhì)量評價指標(biāo)數(shù)據(jù)難以獲取,學(xué)者大都采用統(tǒng)計分析法和專家主觀判斷法對專利質(zhì)量進(jìn)行評價[12-13],導(dǎo)致專利質(zhì)量評價結(jié)果可信度較差。而機器學(xué)習(xí)方法無需專家參與,算法能夠?qū)W習(xí)不同數(shù)據(jù)的特征,還可將其成功應(yīng)用于新輸入數(shù)據(jù)[3,14]。將機器學(xué)習(xí)方法應(yīng)用于專利質(zhì)量評價,只需要確定專利質(zhì)量評價指標(biāo),運用已有專利質(zhì)量評價指標(biāo)數(shù)據(jù)完成模型構(gòu)建,當(dāng)輸入新專利數(shù)據(jù)時,即可完成對新輸入專利質(zhì)量的準(zhǔn)確評價和分類。而且,已有學(xué)者利用機器學(xué)習(xí)對專利質(zhì)量進(jìn)行評價,并已證明該方法的可行性。張杰等[3]運用AdaBoost算法評價訴訟專利的專利質(zhì)量;Lee等[14]利用人工神經(jīng)網(wǎng)絡(luò)方法對制藥技術(shù)領(lǐng)域?qū)@M(jìn)行分類,并識別了高質(zhì)量專利。

        綜上所述,本文結(jié)合現(xiàn)有專利質(zhì)量評價指標(biāo)體系,將專利開發(fā)主體納入專利質(zhì)量評價指標(biāo)體系,從專利技術(shù)性、法定性、經(jīng)濟(jì)性和主體實力4個維度構(gòu)建專利質(zhì)量評價指標(biāo);利用機器學(xué)習(xí)方法,構(gòu)建基于機器學(xué)習(xí)的專利質(zhì)量評價模型,并以人工智能技術(shù)專利為例進(jìn)行實證研究,以驗證專利質(zhì)量評價指標(biāo)體系和模型的可行性與有效性。

        1 專利質(zhì)量評價指標(biāo)體系構(gòu)建

        本文從專利質(zhì)量內(nèi)涵出發(fā),構(gòu)建基于機器學(xué)習(xí)的專利質(zhì)量評價模型,并遵循以下原則:①指標(biāo)體系應(yīng)涵蓋專利質(zhì)量技術(shù)、經(jīng)濟(jì)、法律和主體四大維度,以全面衡量專利質(zhì)量;②為便于對高質(zhì)量專利進(jìn)行早期評價和識別,指標(biāo)應(yīng)滿足專利一經(jīng)申請即可獲得的要求;③考慮到運用機器學(xué)習(xí)方法對專利質(zhì)量進(jìn)行評價,應(yīng)選取可量化、易獲取指標(biāo)。因此,本文選取包含技術(shù)、經(jīng)濟(jì)、法律和主體四大維度的19個指標(biāo),以對專利質(zhì)量進(jìn)行全面和準(zhǔn)確評價。

        1.1 技術(shù)性指標(biāo)

        技術(shù)性指標(biāo)主要從技術(shù)自身角度出發(fā)衡量專利質(zhì)量。

        (1)技術(shù)原創(chuàng)性。專利原創(chuàng)性是指一條專利的被引專利的技術(shù)覆蓋范圍,專利原創(chuàng)性越高,專利質(zhì)量越好[18]。本文中的技術(shù)原創(chuàng)性是指專利i每條被引專利IPC-子類與其所有被引專利IPC-子類總量之比的平方和與1的差值,計算公式如下:

        (2)專利引證數(shù)。專利引證數(shù)是指目標(biāo)專利引用的專利數(shù)量,用于反映該專利技術(shù)基礎(chǔ)[19]。專利引證數(shù)與專利技術(shù)基礎(chǔ)正相關(guān)[12],其值越高,表明專利質(zhì)量也越好。

        (3)文獻(xiàn)引證數(shù)。文獻(xiàn)引證數(shù)是指專利引用科學(xué)文獻(xiàn)的數(shù)量[20]。一些學(xué)者指出可用非專利文獻(xiàn)數(shù)量衡量專利與科學(xué)知識的接近程度[14];文獻(xiàn)引證數(shù)越多,表明專利與科學(xué)的關(guān)聯(lián)程度越高[12],反映專利質(zhì)量越好。

        (4)技術(shù)生命周期。技術(shù)生命周期是指專利引證中所有專利年齡的中位數(shù)或平均數(shù)[21],反映技術(shù)創(chuàng)新或科技發(fā)展速度,其值越小,表明技術(shù)越新且創(chuàng)新速度越快[4]。技術(shù)生命周期是CHI Research提出的最早的7個專利質(zhì)量評價指標(biāo)之一[11],可見該指標(biāo)的重要性。該指標(biāo)具有較強的產(chǎn)業(yè)依存性,不同產(chǎn)業(yè)間差距較大[1]。本文中的技術(shù)生命周期是指目標(biāo)專利所有引用專利年齡的平均數(shù)。

        (5)技術(shù)覆蓋范圍。技術(shù)覆蓋范圍是指專利的四位IPC子類數(shù)量。研究顯示,專利被引次數(shù)與IPC子類數(shù)量高度正相關(guān)[22]。技術(shù)覆蓋范圍越大,專利被引次數(shù)越高,專利質(zhì)量也越好。吳菲菲等[21]發(fā)現(xiàn),在中英文文獻(xiàn)中頻次排名前10位的專利質(zhì)量指標(biāo)中,技術(shù)覆蓋范圍排名第三,可見該指標(biāo)的重要性。由于IPC子類可能存在信息不全或分類錯誤的現(xiàn)象,本文中的技術(shù)覆蓋范圍指IPC-DWPI子類數(shù)量。

        (6)專利被引次數(shù)。專利被引次數(shù)是指專利公開后被其它專利引用的次數(shù),用于反映專利質(zhì)量[23]。被引次數(shù)越高,表明技術(shù)影響力和重要性越高[24],專利質(zhì)量也越好。本文中的專利被引次數(shù)包括3年內(nèi)被引次數(shù)、5年內(nèi)被引次數(shù)、10年內(nèi)被引次數(shù)。

        1.2 法定性指標(biāo)

        法定性指標(biāo)主要從專利申請流程、申請成本、維護(hù)成本及保護(hù)范圍等角度衡量專利的法定質(zhì)量。

        (1)申請時程。申請時程是指專利授權(quán)年份與專利申請年份的差值[3],反映技術(shù)本身先進(jìn)程度和專利重要程度,申請時程越長,表明技術(shù)先進(jìn)性越強[3,4],專利質(zhì)量越高。本文中的申請時程是指專利公開時間與申請時間的間隔。

        (2)權(quán)利要求數(shù)。權(quán)利要求數(shù)是指一件專利中權(quán)利要求的數(shù)量[3],反映專利保護(hù)范圍,且與專利有用性及其價值正相關(guān)[25-26]。權(quán)利要求數(shù)越多,表明專利質(zhì)量越高[26],越有可能被侵權(quán),屬于法定性指標(biāo)[3]。

        (3)獨立權(quán)利要求數(shù)。獨立權(quán)利要求數(shù)是指一件專利中獨立權(quán)利要求的數(shù)量,反映了專利解決技術(shù)難題的技術(shù)創(chuàng)新性和實用性(谷麗等,2018),是權(quán)利要求數(shù)的補充性指標(biāo),以更加準(zhǔn)確地了解專利保護(hù)范圍。

        1.3 經(jīng)濟(jì)性指標(biāo)

        經(jīng)濟(jì)性指標(biāo)主要從專利保護(hù)范圍和專利實施情況兩個方面衡量專利經(jīng)濟(jì)質(zhì)量。

        (1)專利族大小。專利族大小是指某一發(fā)明在不同國家或地區(qū)發(fā)布的數(shù)量,反映專利保護(hù)地域范圍(谷麗等,2018)。專利同族數(shù)越大,代表專利權(quán)人對該專利投入的成本越高,以完成專利發(fā)布與維護(hù),同時在多國或地區(qū)帶來的經(jīng)濟(jì)效益也越高[12]。已有研究表明,專利同族規(guī)模與專利經(jīng)濟(jì)質(zhì)量顯著正相關(guān)[27]。

        (2)專利轉(zhuǎn)讓次數(shù)。專利轉(zhuǎn)讓是技術(shù)發(fā)明商業(yè)化的重要形式[28]以及專利技術(shù)轉(zhuǎn)移手段[29]。專利轉(zhuǎn)讓反映專利經(jīng)濟(jì)質(zhì)量[30],轉(zhuǎn)讓數(shù)量則反映專利技術(shù)市場需求[29]。專利轉(zhuǎn)讓次數(shù)指專利權(quán)人發(fā)生變更的次數(shù)。轉(zhuǎn)讓次數(shù)越多,表明專利經(jīng)濟(jì)質(zhì)量越好,專利質(zhì)量也就越高。

        1.4 主體性指標(biāo)

        主體性指標(biāo)主要從專利發(fā)明主體角度衡量專利發(fā)明人的技術(shù)實力,進(jìn)而間接判定專利質(zhì)量。

        (1)專利權(quán)人數(shù)。專利權(quán)人數(shù)是指一件專利的專利權(quán)所有人數(shù)量[3],反映專利研發(fā)資源投入程度及技術(shù)實用性[12]。專利權(quán)人數(shù)與專利質(zhì)量顯著正相關(guān)[31],專利權(quán)人數(shù)越多,專利質(zhì)量越高,同時也越有利于專利維護(hù)[3]。可見,專利權(quán)人數(shù)在一定程度上既能反映專利主體性又能反映專利法定性,可綜合反映專利質(zhì)量。

        (2)發(fā)明人數(shù)。發(fā)明人數(shù)是指一件專利發(fā)明人的數(shù)量,用于反映專利合作情況。發(fā)明人數(shù)量越多,不同發(fā)明人貢獻(xiàn)的知識和經(jīng)驗越多,知識基礎(chǔ)越堅實,專利質(zhì)量提升的可能性越大[3,32]。

        (3)科學(xué)關(guān)聯(lián)度??茖W(xué)關(guān)聯(lián)度是指專利引用非專利參考文獻(xiàn)的平均數(shù)量,用以反映該專利與科技前沿的關(guān)聯(lián)度[24],其值越大,表明企業(yè)與科技前沿的聯(lián)系越密切[1]。本文中的科學(xué)關(guān)聯(lián)度是指專利第一發(fā)明人所有專利引用科技文獻(xiàn)的平均數(shù)量,用以反映該發(fā)明人與最新科技的關(guān)聯(lián)程度。

        (4)總體技術(shù)??傮w技術(shù)是指專利權(quán)人發(fā)布的所有專利數(shù),反映專利權(quán)人開發(fā)專利的努力程度[14]。專利權(quán)人的專有技術(shù)越多,專利權(quán)人技術(shù)實力越強,相應(yīng)專利質(zhì)量也就越高。專利權(quán)人包括企業(yè)、高校、個人和研發(fā)機構(gòu)等。本文中的總體技術(shù)是指專利第一發(fā)明人發(fā)明的所有專利數(shù),以衡量該發(fā)明人的總體技術(shù)實力。

        (5)核心技術(shù)。核心技術(shù)是指專利權(quán)人發(fā)布的該領(lǐng)域的專利數(shù),反映專利權(quán)人的核心領(lǐng)域知識[14]。專利權(quán)人的核心技術(shù)實力越強,專利質(zhì)量也越高。本文中的核心技術(shù)是指專利第一發(fā)明人發(fā)明的該領(lǐng)域的專利數(shù),以了解該發(fā)明人在某特定領(lǐng)域的技術(shù)地位。

        (6)總體技術(shù)實力。本文中的總體技術(shù)實力與總體技術(shù)相對應(yīng),是指專利第一發(fā)明人發(fā)布的所有專利的總被引次數(shù)[14]。專利權(quán)人總體技術(shù)實力越強,專利質(zhì)量越高。

        (7)核心技術(shù)實力。本文中的核心技術(shù)實力與核心技術(shù)相對應(yīng),是指專利第一發(fā)明人發(fā)布的該領(lǐng)域?qū)@目偙灰螖?shù)[14]。專利權(quán)人核心技術(shù)實力越強,專利質(zhì)量也就越高。

        (8)他引率。他引率是指某專利被他人引用的次數(shù)在該專利總被引次數(shù)的占比,反映該專利的后續(xù)影響力。研究表明,總被引頻次與他引率指標(biāo)之間存在一定的正相關(guān)關(guān)系[33],他引率越高,該技術(shù)對后續(xù)專利的影響越大,專利質(zhì)量也就越高。

        2 基于機器學(xué)習(xí)的專利質(zhì)量評價模型構(gòu)建

        為全面客觀進(jìn)行專利質(zhì)量評價,本文在構(gòu)建專利質(zhì)量評價指標(biāo)體系的基礎(chǔ)上,提出一種基于機器學(xué)習(xí)的專利質(zhì)量評價方法。該方法的主要思路是:首先,從Derwent Innovation (DI) 數(shù)據(jù)庫中檢索專利質(zhì)量評價相關(guān)數(shù)據(jù),完成數(shù)據(jù)獲取與預(yù)處理;其次,提取專利質(zhì)量評價指標(biāo)及相關(guān)數(shù)據(jù),構(gòu)建適用于機器學(xué)習(xí)模型的專利質(zhì)量評價指標(biāo)體系;再次,通過訓(xùn)練和測試完成機器學(xué)習(xí)分類器構(gòu)建;最后,運用分類器性能指標(biāo)對分類結(jié)果進(jìn)行評價,并根據(jù)分類效果不斷改進(jìn)機器學(xué)習(xí)模型,選出最優(yōu)的專利質(zhì)量評價模型。本文構(gòu)建的基于機器學(xué)習(xí)的專利質(zhì)量評價模型如圖1所示,具體分析步驟如下:

        圖1 基于機器學(xué)習(xí)的專利質(zhì)量評價模型

        2.1 專利數(shù)據(jù)獲取與預(yù)處理

        以研究的技術(shù)領(lǐng)域為例,確定該領(lǐng)域檢索表達(dá)式,在DI數(shù)據(jù)庫檢索并獲取該領(lǐng)域?qū)@?,并以專利質(zhì)量評價指標(biāo)為依據(jù),在專利數(shù)據(jù)庫中下載專利指標(biāo)相關(guān)數(shù)據(jù),對獲取的專利數(shù)據(jù)進(jìn)行預(yù)處理。

        2.2 專利質(zhì)量評價指標(biāo)提取與數(shù)據(jù)處理

        專利質(zhì)量具有不可觀察、無法直接度量以及難以獲取等特點,實際應(yīng)用中可用專利質(zhì)量的代理變量表征專利質(zhì)量[3]。專利被引次數(shù)與專利質(zhì)量之間存在顯著正相關(guān)關(guān)系[22]。研究表明,該指標(biāo)是最有代表性的專利質(zhì)量表征指標(biāo)之一,其一方面反映了該專利的技術(shù)貢獻(xiàn)程度,另一方面表明其余學(xué)者對該專利技術(shù)的贊同程度,與專利質(zhì)量高度相關(guān)[1,4,12-14,19,23-24]。因此,本文選用專利被引次數(shù)表征專利質(zhì)量,并將專利自公開后3年內(nèi)被引次數(shù)、5年內(nèi)被引次數(shù)和10年內(nèi)被引次數(shù)分別衡量專利短期、中期和長期技術(shù)影響力。

        專利轉(zhuǎn)讓是技術(shù)發(fā)明商業(yè)化的重要形式[28]以及專利技術(shù)轉(zhuǎn)移手段[29]。專利轉(zhuǎn)讓反映專利經(jīng)濟(jì)質(zhì)量[30],轉(zhuǎn)讓次數(shù)越多,表明專利質(zhì)量越好[28]。一些學(xué)者利用專利轉(zhuǎn)讓指標(biāo)評價專利質(zhì)量,并對其有效性和可行性進(jìn)行了驗證[3,34]。因此,本文將專利轉(zhuǎn)讓次數(shù)作為表征專利質(zhì)量的另一指標(biāo)。

        本文根據(jù)已構(gòu)建的專利質(zhì)量評價指標(biāo)體系,將專利被引次數(shù)和專利轉(zhuǎn)讓次數(shù)作為基于機器學(xué)習(xí)的專利質(zhì)量評價模型的輸出指標(biāo),用以表征專利質(zhì)量;其余指標(biāo)則作為機器學(xué)習(xí)模型的輸入指標(biāo)。本文構(gòu)建的適用于機器學(xué)習(xí)模型的專利質(zhì)量評價指標(biāo)體系如表1所示,并根據(jù)該指標(biāo)體系與各指標(biāo)計算方法獲得相應(yīng)指標(biāo)數(shù)據(jù)。

        表1 專利質(zhì)量評價指標(biāo)體系

        2.3 分類器構(gòu)建

        本文利用機器學(xué)習(xí)分類算法,根據(jù)專利被引和轉(zhuǎn)讓次數(shù)對專利進(jìn)行分類,以對專利質(zhì)量進(jìn)行準(zhǔn)確的分類評價。考慮到機器學(xué)習(xí)算法與研究問題的相關(guān)性,以及各算法對數(shù)據(jù)量的要求、數(shù)據(jù)敏感性、模型結(jié)果可解釋性、模型準(zhǔn)確性及各算法優(yōu)劣勢等方面,本文選擇已成功運用到制藥技術(shù)領(lǐng)域?qū)@诸怺14]、訴訟專利質(zhì)量評價[3]及農(nóng)作物分類[35]等支持向量機、人工神經(jīng)網(wǎng)絡(luò)、隨機森林及自適應(yīng)增強4種機器學(xué)習(xí)分類方法,以完成專利質(zhì)量評價模型構(gòu)建。

        2.3.1 支持向量機

        支持向量機(Support Vector Machine,SVM)的基本思路是尋找一個最優(yōu)分類超平面,使兩類間相鄰最近樣本點間的邊緣最大化[36]。SVM具有簡單易實現(xiàn)、理論完善、準(zhǔn)確性高、小樣本可行等優(yōu)點,目前已得到廣泛應(yīng)用[37]。本文選用一對一類法(OvO)實現(xiàn)SVM的多分類,對于包含k類的訓(xùn)練樣本,每個分類器僅涉及兩類訓(xùn)練樣本,共需構(gòu)造k(k-1)/2個分類器實現(xiàn)多分類[36]。

        2.3.2 人工神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是基于生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性統(tǒng)計數(shù)據(jù)建模工具,由一組相互關(guān)聯(lián)的神經(jīng)元組成[38-39]。其基本思路是在訓(xùn)練階段,由網(wǎng)絡(luò)輸入節(jié)點接收特征值,信號通過層與層間的激活函數(shù)不斷迭代調(diào)整輸入與輸出間的連接權(quán)重矩陣,輸出節(jié)點產(chǎn)生類別值;測試階段則根據(jù)訓(xùn)練階段的權(quán)重矩陣,得到待分類數(shù)據(jù)的所屬類別[40]。人工神經(jīng)網(wǎng)絡(luò)因在處理大數(shù)據(jù)與構(gòu)建復(fù)雜模型時準(zhǔn)確性高而被廣泛應(yīng)用。本文中的ANN指常見前饋神經(jīng)網(wǎng)絡(luò)中的多層感知機網(wǎng)絡(luò),其主要是對輸入層、隱藏層和輸出層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計。

        2.3.3 隨機森林

        隨機森林(Random Forest,RF)是一種以決策樹為基分類器的集成學(xué)習(xí)算法,運用Bagging抽樣技術(shù), 可避免過擬合, 且能夠在訓(xùn)練過程中對變量重要性進(jìn)行評估, 具有很強的抗噪聲和泛化能力[41],結(jié)果對缺失數(shù)據(jù)較穩(wěn)健。其主要思路為:基于Bagging抽樣技術(shù)構(gòu)建k個決策樹基分類器,并采用等權(quán)投票法應(yīng)用k個決策樹進(jìn)行分類,選擇分類器投票結(jié)果最多的類別作為最后的分類結(jié)果[41]。本文中的隨機森林基分類器是CART決策樹。

        2.3.4 自適應(yīng)增強

        自適應(yīng)增強(Adaptive Boosting,AdaBoost)是目前Boosting算法中最常用的方法[42],其基本思路是選擇包含決策樹、SVM等在內(nèi)的任何一種弱分類器,采用自適應(yīng)樣本訓(xùn)練策略,通過不斷更新權(quán)重訓(xùn)練k個并行的弱分類器,最后通過加權(quán)將弱分類器組合為一個強分類器[43]。自適應(yīng)增強具有泛化能力強、無參數(shù)調(diào)整、可用于大部分分類器等優(yōu)勢。本文中的AdaBoost的弱分類器為單層決策樹,并運用OvO方法實現(xiàn)AdaBoost多分類。

        2.4 專利質(zhì)量分類結(jié)果評價

        為評價不同分類算法的性能,本文選用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1四個指標(biāo)對各分類算法分類結(jié)果進(jìn)行評價[35]。其中,對于某個特定類別,準(zhǔn)確率是指分類正確的專利數(shù)與測試集總專利數(shù)的比率,計算公式如下:

        精確率是指被正確分類的專利數(shù)與實際被分為該類別的專利數(shù)的比率,計算公式如下:

        召回率是指被正確分類的專利量與該類別專利量的比率,計算公式如下:

        在實際應(yīng)用時,需要平衡精度和召回率,通常使用兩者的調(diào)和平均數(shù)作為一個綜合評價指標(biāo),稱為F1,計算公式如下:

        在式(2)~式(5)中,TPi是指被正確分為i類的數(shù)量,TNi是指被正確分類為非i類的數(shù)量,F(xiàn)Pi是指將非i類分為i類的數(shù)量,F(xiàn)Ni是指將i類分為非i類的數(shù)量。

        2.5 最優(yōu)專利質(zhì)量評價模型評選

        模型評選包括各模型內(nèi)部最優(yōu)參數(shù)調(diào)整及模型間性能對比兩部分內(nèi)容。以支持向量機為例,模型內(nèi)部最優(yōu)參數(shù)調(diào)整主要根據(jù)模型準(zhǔn)確率、精確率、召回率及F1值對核函數(shù)等參數(shù)進(jìn)行調(diào)整,從中選取結(jié)果最好的參數(shù)作為最優(yōu)參數(shù),進(jìn)而得到SVM最優(yōu)模型,其它模型不予詳述。模型間性能對比主要是對SVM、ANN、RF及AdaBoost最優(yōu)模型進(jìn)行準(zhǔn)確率、精確率、召回率及F1值的比較,并從中選出最優(yōu)模型作為專利質(zhì)量評價模型。

        3 實證分析

        當(dāng)前,人工智能技術(shù)已成為第四次產(chǎn)業(yè)革命的重要驅(qū)動力及國際競爭的新焦點,世界各國正在加速對其進(jìn)行布局,而有關(guān)人工智能技術(shù)的專利近幾年增長迅猛。因此,面對快速增長的人工智能技術(shù)專利,如何構(gòu)建有效的專利質(zhì)量評價方法,實現(xiàn)對人工智能專利質(zhì)量的準(zhǔn)確評價和分類,識別出高質(zhì)量和核心專利,對我國企業(yè)技術(shù)創(chuàng)新決策及政府專利管理決策具有重要意義。

        3.1 數(shù)據(jù)獲取與預(yù)處理

        本文以“ABD=("Artificial Intelligence*" or "AI*")AND (PY>=(1997) AND PY<=(2007))”為檢索式,在德溫特專利數(shù)據(jù)庫中進(jìn)行人工智能技術(shù)專利檢索,共檢索到2 397條專利數(shù)據(jù)。下載檢索到的專利數(shù)據(jù),并清洗一些噪音數(shù)據(jù),共獲取2 157條人工智能技術(shù)專利,記為數(shù)據(jù)集1。此外,本文還對該領(lǐng)域所有專利(數(shù)據(jù)集2)、數(shù)據(jù)集1引用的專利(數(shù)據(jù)集3)、引用數(shù)據(jù)集1的專利(數(shù)據(jù)集4)、數(shù)據(jù)集1專利第一發(fā)明人發(fā)明的專利(數(shù)據(jù)集5)等進(jìn)行收集、清洗和規(guī)范化存儲,共獲取791 831條數(shù)據(jù)。數(shù)據(jù)獲取情況如表2所示。

        表2 數(shù)據(jù)獲取情況

        3.2 基于機器學(xué)習(xí)的人工智能技術(shù)專利質(zhì)量評價指標(biāo)提取與數(shù)據(jù)處理

        以專利質(zhì)量指標(biāo)體系為依據(jù),從5個數(shù)據(jù)集中提取并計算相應(yīng)指標(biāo)數(shù)據(jù),以獲得與專利質(zhì)量指標(biāo)體系相對應(yīng)的符合機器學(xué)習(xí)模型的專利數(shù)據(jù)。由于基于機器學(xué)習(xí)的專利質(zhì)量評價涉及分類,因此需要對專利3年內(nèi)被引次數(shù)、5年內(nèi)被引次數(shù)、10年內(nèi)被引次數(shù)及專利轉(zhuǎn)讓次數(shù)4個輸出指標(biāo)進(jìn)行類別劃分,并獲取相應(yīng)數(shù)據(jù)??紤]到數(shù)據(jù)可獲取性,本文以3年內(nèi)被引次數(shù)為依據(jù)設(shè)立分類標(biāo)準(zhǔn)。高被引專利是專利質(zhì)量重要的測度手段。本文視專利3年內(nèi)被引次數(shù)的Top2%為高被引專利[44],即專利被引次數(shù)大于15為高被引專利,類別記為C3。考慮到數(shù)據(jù)均衡性,將專利分為4類,分類標(biāo)準(zhǔn)如表3所示。

        表3 數(shù)據(jù)分類標(biāo)準(zhǔn)

        依據(jù)表3中的分類標(biāo)準(zhǔn),對獲得的2 157條人工智能技術(shù)專利按3年被引次數(shù)、5年被引次數(shù)、10年被引次數(shù)及轉(zhuǎn)讓次數(shù)進(jìn)行類別劃分,結(jié)果如表4所示。

        表4 專利分類情況

        在完成專利數(shù)據(jù)分類后,根據(jù)已獲得的專利質(zhì)量評價指標(biāo)數(shù)據(jù),得到一個關(guān)于人工智能技術(shù)專利質(zhì)量評價的2 157×22矩陣,其中第1列為專利號,第2~18列為輸入指標(biāo),后4列為輸出指標(biāo),由于篇幅有限,僅列舉此矩陣前20行數(shù)據(jù),如表5所示。

        表5 人工智能技術(shù)專利質(zhì)量評價指標(biāo)體系數(shù)據(jù)示例

        3.3 基于機器學(xué)習(xí)的人工智能技術(shù)專利質(zhì)量評價模型構(gòu)建

        由表3可知,專利被引次數(shù)和轉(zhuǎn)讓次數(shù)兩個專利質(zhì)量表征指標(biāo)均被分為4類,因此本文采用的4種機器學(xué)習(xí)模型均需構(gòu)建4個模型,并分別記為3年模型、5年模型、10年模型和轉(zhuǎn)讓模型,共需構(gòu)建16個模型。

        3.3.1 基于SVM的專利質(zhì)量評價模型

        本文主要通過Python3.6的Sklearn庫實現(xiàn)基于SVM的專利質(zhì)量評價模型構(gòu)建。首先,采用20折分層抽樣交叉切分法進(jìn)行試驗;其次,對訓(xùn)練和測試數(shù)據(jù)進(jìn)行相同縮放數(shù)據(jù)預(yù)處理;再次,選用線性核和徑向基核函數(shù)進(jìn)行性能對比,并對各核函數(shù)調(diào)參;最后,選擇最優(yōu)參數(shù),完成基于SVM的專利質(zhì)量評價模型構(gòu)建。

        3.3.2 基于ANN的專利質(zhì)量評價模型

        本文主要通過Python3.6的Keras庫實現(xiàn)基于ANN的專利質(zhì)量評價模型構(gòu)建。首先,對數(shù)據(jù)零均值和單位方差進(jìn)行歸一化處理,并運用10折分層抽樣交叉切分法進(jìn)行試驗;其次,確定網(wǎng)絡(luò)結(jié)構(gòu),輸入層為17個輸入變量,輸出層為4類指標(biāo),2個隱藏層;再次,選用ReLU、Softmax為激活函數(shù),選用SGD為模型優(yōu)化器,學(xué)習(xí)率為0.01,衰減系數(shù)為1e-6;最后,觀察模型訓(xùn)練過程的Acc_loss曲線,選擇其中訓(xùn)練和測試結(jié)果達(dá)到平穩(wěn)狀態(tài)的模型為最優(yōu)模型。

        3.3.3 基于RF的專利質(zhì)量評價模型

        本文主要通過Python3.6的Sklearn庫實現(xiàn)基于RF的專利質(zhì)量評價模型構(gòu)建。其中,數(shù)據(jù)集的80%作為訓(xùn)練集,20%為測試集。模型調(diào)試主要是對隨機森林中樹的數(shù)量、最大樹深及特征數(shù)量進(jìn)行調(diào)整。本文用網(wǎng)格搜索尋找模型最優(yōu)參數(shù)。

        3.3.4 基于AdaBoost的專利質(zhì)量評價模型

        本文主要通過Python3.6開發(fā)實現(xiàn)基于AdaBoost的專利質(zhì)量評價模型構(gòu)建。首先,采用20折分層抽樣交叉切分法進(jìn)行試驗;其次,對單層決策樹弱分類器進(jìn)行分類;再次,運用OvO構(gòu)造k(k-1)/2個分類器對弱分類結(jié)果進(jìn)行重新分類;最后,通過投票法匯總各分類器分類結(jié)果,實現(xiàn)AdaBoost多分類。

        3.4 基于機器學(xué)習(xí)的人工智能技術(shù)專利質(zhì)量評價模型評估

        為評選出最優(yōu)的基于機器學(xué)習(xí)的人工智能技術(shù)專利質(zhì)量評價模型,本文選取準(zhǔn)確率、精確率、召回率和F1值對模型進(jìn)行性能對比。SVM、RF、ANN和AdaBoost四種模型測試集整體性能結(jié)果對比如表6所示。

        表6 4種機器學(xué)習(xí)模型測試集性能指標(biāo)對比

        在機器學(xué)習(xí)四分類分析中,唯一一個準(zhǔn)確率大于0.25的類別為分析對象所屬類別,即四分類問題的基準(zhǔn)確率為0.25[42]。從表6中4種模型的整體性能指標(biāo)看,各模型的準(zhǔn)確率、精確率及召回率結(jié)果均大于0.7,因此本文構(gòu)建的16個模型結(jié)果均可接受,其中SVM的3年模型、5年模型、10年模型和轉(zhuǎn)讓模型中有3個模型的性能均優(yōu)于ANN、RF和AdaBoost,僅10年模型性能略低于RF和ANN,因此SVM為4種機器學(xué)習(xí)模型中的最優(yōu)模型,其次是RF和ANN,最后為AdaBoost,其性能有待提高。

        本文利用人工智能領(lǐng)域1997-2007年的歷史專利數(shù)據(jù)構(gòu)建專利質(zhì)量評價模型,且本文所構(gòu)建模型的輸入指標(biāo)一經(jīng)專利公開即可獲取,因此當(dāng)新專利(如2020年公開的專利)數(shù)據(jù)輸入模型時,模型可對輸入專利的質(zhì)量進(jìn)行評價和預(yù)測。因此,該模型不僅為人工智能領(lǐng)域?qū)@|(zhì)量評估提供了可行和有效的方法,也為識別和預(yù)測人工智能領(lǐng)域潛在的高質(zhì)量及核心專利提供了可能,進(jìn)而可為企業(yè)技術(shù)創(chuàng)新決策和政府專利管理決策提供參考。

        4 結(jié)語

        面對海量專利數(shù)據(jù),如何構(gòu)建有效的專利質(zhì)量評價方法,實現(xiàn)對專利質(zhì)量的準(zhǔn)確評價和分類,對于政府和企業(yè)專利管理決策與技術(shù)創(chuàng)新方向選擇至關(guān)重要。針對目前專利質(zhì)量評價研究存在的不足,本文首先提出一種新型專利質(zhì)量評價指標(biāo)體系,將專利開發(fā)主體評價指標(biāo)納入專利質(zhì)量評價指標(biāo)體系中,從專利技術(shù)性、法定性、經(jīng)濟(jì)性和主體實力4個維度構(gòu)建較完善的專利質(zhì)量評價指標(biāo)體系;其次,根據(jù)新型專利質(zhì)量評價指標(biāo)體系,構(gòu)建一種基于機器學(xué)習(xí)的專利質(zhì)量評價方法,通過利用包含高質(zhì)量專利的歷史數(shù)據(jù),完成基于機器學(xué)習(xí)的專利質(zhì)量評價模型構(gòu)建,根據(jù)已有學(xué)習(xí)規(guī)則快速對新輸入專利的質(zhì)量進(jìn)行分類評價,并以人工智能技術(shù)專利為例進(jìn)行實證研究,驗證提出的專利質(zhì)量評價指標(biāo)體系和基于機器學(xué)習(xí)的專利質(zhì)量評價模型的可行性及有效性。

        基于機器學(xué)習(xí)的專利質(zhì)量評價方法具有可量化、準(zhǔn)確性高、易于管理等優(yōu)勢,有利于大規(guī)模專利質(zhì)量分類評價智能化以及專利管理部門構(gòu)建智能專利評價體系,在節(jié)約人力、物力的同時還能提高專利評價的準(zhǔn)確性。因此,該方法有利于政府、企業(yè)專利管理決策和管理實踐發(fā)展。

        猜你喜歡
        分類評價質(zhì)量
        “質(zhì)量”知識鞏固
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        分類算一算
        質(zhì)量守恒定律考什么
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        基于Moodle的學(xué)習(xí)評價
        热热久久超碰精品中文字幕 | 人妻丝袜中文无码av影音先锋专区| 美女把尿囗扒开让男人添 | 精品国产18禁久久久久久久| 日本人妻少妇精品视频专区| 国产精品又湿又黄九九九久久嫩草 | 日本牲交大片免费观看| 国产啪精品视频网站丝袜| 国产福利一区二区三区视频在线看| 日本超级老熟女影音播放| 久久天天躁狠狠躁夜夜躁2014| 波多野结衣aⅴ在线| 视频精品熟女一区二区三区| 中美日韩在线一区黄色大片| 香港三级日本三级a视频| 国产日韩网站| 中国少妇和黑人做爰视频| 国产一区二区三区不卡在线观看 | 北岛玲日韩精品一区二区三区| 老熟妇嗷嗷叫91九色| 成人丝袜激情一区二区| 日本乱人伦在线观看| 日韩激情网| 狼狼色丁香久久女婷婷综合| 麻豆免费观看高清完整视频| 久久久精品人妻一区亚美研究所| 一区二区三区国产97| 精品国产一区二区三区av免费| 国产欧美日韩综合精品一区二区| 亚洲综合性色一区| 成人免费毛片在线播放| 可以免费看亚洲av的网站| 国产亚洲av综合人人澡精品| 亚洲熟女av超清一区二区三区| 成人大片在线观看视频| 国产强被迫伦姧在线观看无码| 久久97精品久久久久久久不卡| 男子把美女裙子脱了摸她内裤| 日本av在线一区二区| 在线亚洲午夜理论av大片| 亚洲AV秘 无码一区二区三|