亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ADASYN-LOF-RF模型的核心專利識別研究

        2023-01-11 13:45:32吳增源
        中國計量大學學報 2022年4期
        關(guān)鍵詞:專利分類樣本

        李 穎,吳增源,陳 亮

        (1.中國計量大學 經(jīng)濟與管理學院,浙江 杭州 310018;2.中國計量大學 光學與電子科技學院,浙江 杭州 310018)

        核心技術(shù),是在某一技術(shù)領(lǐng)域中處于關(guān)鍵地位,對技術(shù)發(fā)展具有突出貢獻、對其他專利或者技術(shù)具有重大影響且具有較強創(chuàng)新性的技術(shù)[1]。專利是技術(shù)進步與產(chǎn)業(yè)發(fā)展的重要載體[2],包含著技術(shù)發(fā)展等關(guān)鍵信息。通過對專利數(shù)據(jù)進行分析、挖掘,可了解本領(lǐng)域的核心技術(shù)前沿和動態(tài),對企業(yè)明確研發(fā)方向、實現(xiàn)技術(shù)突破進而形成核心競爭力至關(guān)重要。近十年,全球?qū)@暾埩?、授?quán)量激增,2021年,全球?qū)@暾埩砍掷m(xù)突破300萬,國際專利數(shù)量同比增長3.5%,但對某領(lǐng)域的發(fā)展起到關(guān)鍵決定性作用的核心專利數(shù)量[3]卻只占極少數(shù)。因此,如何從海量專利數(shù)據(jù)中及時、準確地識別出核心專利,成為理論界和實踐界關(guān)注的熱點問題。

        Zhong等[4]使用社交網(wǎng)絡分析法和文本聚類識別光伏領(lǐng)域的技術(shù)演化路徑與前沿核心技術(shù)。Kwon等[5]利用技術(shù)積累、技術(shù)生命周期、技術(shù)保護范圍等專利指標,識別單一技術(shù)領(lǐng)域內(nèi)的核心技術(shù)。陳祥[6]以技術(shù)發(fā)展規(guī)律為基礎,并基于專利技術(shù)知識擴散視角構(gòu)建核心專利識別模型。但現(xiàn)有研究依然存在以下兩方面的不足:1)核心專利指標體系構(gòu)建不夠完善,識別準確率低;2)對于核心專利與非核心專利數(shù)據(jù)分布上的不平衡,現(xiàn)有模型處理效果欠佳、穩(wěn)定性較差。

        指標選取和識別方法是核心專利識別的兩個關(guān)鍵。指標選取直接影響專利識別效果。羅立國[7]利用多元回歸模型驗證引用專利數(shù)量、IPC分類號數(shù)量、同族專利數(shù)量、同族專利被引用數(shù)指標與核心專利呈顯著正相關(guān)關(guān)系;王曰芬[8]通過行為效果和動機目的兩大維度構(gòu)建指標體系,證實引用專利數(shù)、科學關(guān)聯(lián)度以及權(quán)利要求數(shù)對人工智能領(lǐng)域核心專利識別結(jié)果影響較大;馬瑞敏[9]證實四年被引頻次、同族專利數(shù)、專利寬度、權(quán)利要求數(shù)和科學關(guān)聯(lián)度五個指標構(gòu)建核心專利預測模型的合理性。現(xiàn)有核心專利識別研究中,大部分學者只考慮專利本身的因素,很少有學者將專利發(fā)明人自身實力構(gòu)建到核心專利識別體系中。但最新研究表明專利所處的地位和影響力很大程度上取決于專利發(fā)明人。喬永忠[10]通過專利引證分析證明不同的主體人對專利質(zhì)量水平有顯著影響;筱雪[11]通過波音公司和空客集團的專利分析證實專利發(fā)明人的技術(shù)實力越強,越有可能創(chuàng)造出核心專利。

        核心專利識別方法方面,主要包括專利指標頻次統(tǒng)計法[12]、改進的專家打分法[13]、專利共類分析法[14]等。專利指標頻次統(tǒng)計法簡單易行,但可靠性較差。選擇不同的專利指標直接影響核心專利識別結(jié)果,其中專利被引頻次從技術(shù)影響力上反映出專利技術(shù)的重要性,被引次數(shù)高的專利往往影響力大,因此部分學者使用該指標識別核心專利[15]。改進的專家打分法不需要考慮較多制約因素的影響,在專家熟悉的領(lǐng)域內(nèi)識別準確率較高,但是該方法的指標體系構(gòu)建過程繁瑣,并且每項指標的賦權(quán)過程受主觀因素影響大。專利共類分析法通過構(gòu)建專利IPC分類號的共現(xiàn)網(wǎng)絡,并計算節(jié)點中心度,認為中心度高的節(jié)點對應的是核心IPC,核心IPC所對應的技術(shù)領(lǐng)域的專利是核心專利。隨著人工智能技術(shù)的發(fā)展,機器學習開始運用到核心專利識別研究中,該方法充分考慮核心專利評價指標的多元性,并且可以輕松處理大量專利數(shù)據(jù),適用性較強。但大部分學者直接使用機器學習進行核心專利識別,然而準確率較低,所以在實際的應用中,需要進一步對指標的選取和算法進行改進。從本質(zhì)上看,核心專利識別是一個數(shù)據(jù)不平衡的二分類問題,即非核心專利與核心專利數(shù)量差異較大,直接使用機器學習算法進行識別,難以克服數(shù)據(jù)不平衡導致的分類性能較差問題?,F(xiàn)有對于不平衡數(shù)據(jù)的處理方法主要有兩類:數(shù)據(jù)級處理和算法級處理。數(shù)據(jù)級處理方法主要是重采樣技術(shù),分為欠采樣和過采樣。欠采樣通過隨機地移除多數(shù)類樣本,使樣本分布均勻,但可能會丟失重要的信息,常見的欠采樣算法有剔除最近鄰法(edited nearest neighbor,ENN)[16]、Tomek links[17]等。過采樣技術(shù)通過隨機地復制少數(shù)類樣本使數(shù)據(jù)達到平衡,該技術(shù)的缺點是會使信息變得冗余,模型訓練復雜度增大,容易造成過擬合問題,典型的隨機過采樣方法是合成少數(shù)類過采樣(synthetic minority oversampling,SMOTE)[18]。這兩種采樣方法比較容易操作、具有較好的適應性,但是對數(shù)據(jù)的刪減與擴充并未遵循原始數(shù)據(jù)的分布規(guī)律,可能導致有價值的信息丟失或模型過擬合問題。算法級處理是直接對算法進行改進。單一的分類算法在處理數(shù)據(jù)量大、較為復雜的問題時,效果不理想。為了提升分類性能,學者對分類算法進行改進,主要包括代價敏感學習[19]和集成學習[20]等。常用的集成學習算法[21]是將多個分類器組合起來形成一個強分類器,以提高分類性能。但是單獨使用集成算法容易導致過擬合問題,并且魯棒性不強,算法訓練時間長。因此,部分學者提出使用組合模型來提升分類性能,張陽等[22]將SMOTE過采樣算法分別與多種集成算法進行組合,比較分析模型有效性;周杰英[23]將隨機森林和梯度提升樹進行融合,解決網(wǎng)絡入侵數(shù)據(jù)不平衡的多分類問題;王文博[24]使用SMOTE-XGBoost組合模型對變壓器缺陷進行預測。這些組合方法大多在數(shù)據(jù)級層面僅使用單一的采樣算法,可能導致數(shù)據(jù)存在噪聲樣本,訓練效果不佳。

        基于上述分析,科學合理地構(gòu)建核心專利指標體系,設計適用的優(yōu)化算法對核心專利識別至關(guān)重要。首先,針對核心專利識別準確率低的問題,本文在初選指標體系的基礎上加上專利發(fā)明人的兩個指標:發(fā)明人技術(shù)實力和發(fā)明人技術(shù)影響力。其次,對于不平衡數(shù)據(jù)的處理,現(xiàn)有的算法在模型的穩(wěn)定性和準確性上效果不佳,而本文使用自適應綜合采樣算法(adaptive synthetic sampling, ADASYN)對原始數(shù)據(jù)進行過采樣,平衡數(shù)據(jù)集;并對生成的新樣本使用局部離群因子(local outlier factor, LOF)算法進行降噪處理,可克服簡單的數(shù)據(jù)過采樣帶來的信息冗余和模型過擬合等問題;使用隨機森林(random forest, RF)集成算法進行分類,構(gòu)建組合模型ADASYN-LOF-RF,并與其它模型進行比較,驗證其有效性。

        1 ADASYN-LOF-RF模型構(gòu)建

        1.1 ADASYN-LOF算法

        ADASYN是He等[25]在2008年提出的一種過采樣算法。該算法使用密度分布參數(shù)作為分布標準,根據(jù)不同的少數(shù)類樣本學習的難易程度,對其進行加權(quán)分布,使較難學習的少數(shù)類樣本比較容易學習的少數(shù)類樣本生成更多的合成樣本。ADASYN算法從兩方面改善學習:1)減少數(shù)據(jù)不平衡帶來的偏差;2)自適應地將分類決策邊界向困難的樣本實例轉(zhuǎn)移。LOF是針對離群點的檢測方法。大部分離群點檢測都是借助密度、夾角和距離等來劃分超平面找出異常點,這些方法都是從數(shù)據(jù)點相似度出發(fā)。不同于上述算法,LOF算法是從樣本點周圍的數(shù)據(jù)密度基礎出發(fā)的檢測算法,它給每個樣本點分配一個局部可達密度,通過可達密度的離群因子分析該樣本的離群程度,判斷其是否為離群點。LOF算法簡單直觀,同時考慮數(shù)據(jù)集局部和全局的屬性。ADASYN-LOF算法先對原始數(shù)據(jù)進行采樣,采樣后的數(shù)據(jù)必然存在噪聲樣本,再通過LOF進行降噪處理,最終得到的平衡數(shù)據(jù)集更有助于進行分類處理,具體訓練過程如表1。

        表1 ADASYN-LOF算法訓練步驟

        1.2 ADASYN-LOF-RF模型

        隨機森林是Breiman[26]在2001年提出的分類算法,它以決策樹為基分類器進行集成。從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集訓練決策樹,再按以上步驟生成m棵決策樹組成隨機森林,數(shù)據(jù)分類結(jié)果按照分類樹投票分數(shù)而定。隨機森林算法簡單易實現(xiàn),在實際解決問題的時候展現(xiàn)出強大的性能,其基分類器的多樣性不僅來自樣本擾動,也來自屬性擾動,能夠提升集成分類器的泛化性能。隨機森林算法每次隨機選取樣本和特征,提高模型抗干擾能力,泛化能力也較強,適用性較廣。隨機森林的主要算法步驟如表2。

        表2 RF算法訓練步驟

        但是,單獨的隨機森林算法難以有效處理數(shù)據(jù)不平衡問題,會導致分類性能差?;诖?本文在數(shù)據(jù)級方面使用ADASYN-LOF算法使數(shù)據(jù)達到平衡,進一步提升分類性能,并且與隨機森林構(gòu)成ADASYN-LOF-RF組合模型,可以提高預測結(jié)果的精確性能。該模型先通過ADASYN采樣算法增加少數(shù)類樣本的數(shù)量,使數(shù)據(jù)達到平衡。針對數(shù)據(jù)集中存在的噪聲樣本,使用LOF算法對新增加的合成樣本去噪,提升平衡數(shù)據(jù)集的質(zhì)量,提高其分類性能。最后使用隨機森林算法對最終數(shù)據(jù)集進行分類預測。該模型的主要流程如圖1。

        圖1 ADASYN-LOF-RF算法流程圖

        2 實證研究

        2.1 專利指標體系構(gòu)建

        基于現(xiàn)有研究,本文構(gòu)建核心專利指標體系,包含9個指標,如表3。具體指標含義以及指標與核心專利之間的關(guān)系解釋如下。

        表3 專利指標體系

        同族專利數(shù)指同一專利在不同國家或地區(qū),以及地區(qū)間專利組織多次申請、多次公布或批準的內(nèi)容相同或基本相同的一組專利文獻的數(shù)量。已有研究表明同族專利數(shù)與核心專利顯著正相關(guān)[9]。同族專利被引用數(shù)是指目標專利和其同族專利總的被引用數(shù)量,該項指標體現(xiàn)目標專利在領(lǐng)域內(nèi)的核心程度,同時也體現(xiàn)該專利的技術(shù)影響力。同族專利被引用數(shù)越高,對其它專利技術(shù)的參考價值越大,越有可能是核心專利[7]??茖W關(guān)聯(lián)度指目標專利引用非專利文獻的數(shù)量,馬瑞敏[9]發(fā)現(xiàn)科學關(guān)聯(lián)度指標數(shù)值越大,專利的技術(shù)水平也越高,兩者呈現(xiàn)顯著正相關(guān)。專利引證數(shù)是目標專利引用其它專利的數(shù)量,反映其技術(shù)關(guān)聯(lián)程度。專利引證數(shù)越高,就越有可能是核心專利[8]。技術(shù)覆蓋范圍一般用專利IPC分類號數(shù)量來衡量。Lerner[27]認為IPC分類號數(shù)量越多,專利技術(shù)越為復雜,也就越有可能成為核心專利。權(quán)利要求數(shù)指一項專利要求的權(quán)利保護數(shù)量。專利要求數(shù)越多,專利的技術(shù)特征越多,技術(shù)創(chuàng)新能力越強,專利也就越重要[28]。發(fā)明人數(shù)指目標專利發(fā)明人數(shù)量的總和,它反映企業(yè)對該項專利技術(shù)的重視程度。一般而言,發(fā)明人數(shù)量越多,則技術(shù)研發(fā)成本投入越大,越有可能突破技術(shù)壁壘,成為核心技術(shù)[29]。發(fā)明人技術(shù)實力[30]使用專利發(fā)明人在該領(lǐng)域內(nèi)發(fā)布的專利數(shù)總和進行衡量,該指標反映專利發(fā)明人對該領(lǐng)域知識的了解程度。通常,專利發(fā)明人在該領(lǐng)域內(nèi)發(fā)布的專利數(shù)越多,該發(fā)明人的實力就越強,其發(fā)布的專利也就越有可能成為核心專利。發(fā)明人技術(shù)影響力[30]一般用專利發(fā)明人在某一領(lǐng)域內(nèi)所發(fā)布專利的總被引次數(shù)來衡量。被引次數(shù)越多,技術(shù)影響力越大,越有可能成為核心專利。

        2.2 數(shù)據(jù)描述

        本文使用的光伏專利數(shù)據(jù)來源于智慧芽專利檢索平臺,根據(jù)光伏領(lǐng)域相關(guān)的專利信息并綜合使用專利檢索方法,確定專利檢索策略為:TAC:(photovoltaic* OR PV System* OR solar cell* OR Solar Batter* OR Solar module*),篩選出已授權(quán)的發(fā)明專利,并將搜索時間定為2012—2016年,共檢索到22 077條該領(lǐng)域相關(guān)的專利數(shù)據(jù)。

        2.3 數(shù)據(jù)預處理

        數(shù)據(jù)預處理主要是對各項專利指標數(shù)據(jù)的處理。整理發(fā)現(xiàn)發(fā)明人數(shù)量和IPC分類號數(shù)量均存在缺失值,將缺失值刪除后得到21 802條數(shù)據(jù)。根據(jù)核心專利的定義并參考以往的實踐研究,將總被引次數(shù)排在前百分之十的專利標記為核心專利[10],數(shù)據(jù)不平衡比1∶9。使用Python軟件,選擇imbalanced-learn中的ADASYN進行數(shù)據(jù)采樣處理,擴充后的數(shù)據(jù)集達到39 246條,再使用LOF對數(shù)據(jù)集進行降噪處理,最終得到32 896條數(shù)據(jù)。

        2.4 分類結(jié)果比較

        本研究所采用的數(shù)據(jù)劃分方法是十折交叉驗證法,即將所有的數(shù)據(jù)劃分成十份數(shù)量相等、大小相似的互斥子集,再將所得到的數(shù)據(jù)中九份作為訓練集,一份作為測試集,依次迭代,進行十次訓練和測試。從模型準確性和模型穩(wěn)定性兩個方面,將組合模型與SVM、RF、ADASYN-RF三種分類算法來進行比較。

        2.4.1 評價指標介紹

        實驗所預測的是一個二分類問題,因此采用準確率(accuracy,A)、R召回率(Recall,R)和F1值三個評價指標對模型效果進行評價。對于二分類問題,可以將數(shù)據(jù)集中的真實類別和分類器預測的類別進行組合,劃分成四類,用混淆矩陣來表示(如表4)。

        表4 混淆矩陣

        1)準確率A

        ACC表示的是分類正確的樣本數(shù)占樣本總數(shù)的比例,在本研究中即為分類正確的核心專利占總專利的比例。在數(shù)據(jù)不平衡的分類任務中,它是比較常用的性能度量指標。由表中的二分類混淆矩陣可以將ACC表示為

        (1)

        2)召回率R

        Recall召回率也叫查全率,表示原樣本集中有多少是被預測正確的。在本研究中表示被正確識別出來的核心專利占原樣本核心專利的比例。

        (2)

        3)F1值

        F1值是精確率和召回率的調(diào)和平均數(shù),可以用混淆矩陣將F1得分表示為

        (3)

        2.4.2 模型準確性分析

        本研究使用的是十折交叉驗證法,通過A均值、R均值和F1均值對ADASYN-LOF-RF進行分類性能驗證,并將該模型與SVM、RF、ADASYN-RF對比,進行有效性驗證。通過表5,可以看出每種算法的分類效果。

        表5 模型準確性均值

        ADASYN-LOF-RF和SVM、RF、ADASYN-RF等算法分類性能的對比結(jié)果如表5。結(jié)果表明,RF的各項指標明顯高于SVM,說明集成算法優(yōu)于單一算法。通過ADASYN-RF和RF的對比,可以看到雖然ADASYN-RF的ACC均值略低于RF,但總體性能明顯優(yōu)于RF,說明對數(shù)據(jù)采樣處理是有效的。在采樣基礎上進行LOF降噪處理的ADASYN-LOF-RF模型要比直接使用采樣的ADASYN-RF更有效果,各項指標得到明顯提升。

        通過表5中A均值對比,可以看到ADASYN-LOF-RF的A均值為0.922 8,其它模型的ACC均值較低,說明該模型的區(qū)分能力較強,能夠準確識別出核心專利。對于R這一指標,SVM的R值僅為0.368 6,RF的R值為0.731 7,經(jīng)過采樣后的ADASYN-RF算法達到0.974 4,而ADASYN-LOF-RF的Recall為0.980 4,說明該模型能夠識別出更多的核心專利。SVM的F1均值為0.486 2,RF的F1均值為0.779 7,ADASYN-RF的F1均值為0.918 9,經(jīng)過降噪后的ADASYN-LOF-RF模型的F1均值達到0.931 5,表明該模型整體性能優(yōu)于其它模型。

        綜上所述,ADASYN-LOF-RF模型的A均值、R均值和F1均值均優(yōu)于其它幾個模型,這說明該模型在核心專利識別時具有更高的準確性。

        2.4.3 模型穩(wěn)定性分析

        模型預測結(jié)果的波動程度也是評價模型性能的重要指標。本研究使用十折交叉驗證法,直接通過十次測試結(jié)果計算標準差,標準差越小,說明模型越穩(wěn)定。通過表6可以看到ADASYN-LOF-RF的標準差值最小,說明該模型識別性能最穩(wěn)定。同時我們也可以看出標準差值中SVM>RF>ADASYN-RF>ADASYN-LOF-RF,說明單一算法穩(wěn)定性最差;對數(shù)據(jù)進行采樣處理后的ADASYN-RF模型穩(wěn)定性要優(yōu)于單獨使用集成算法;在采樣基礎上對數(shù)據(jù)進行降噪處理的ADASYN-LOF-RF模型要比ADASYN-RF更穩(wěn)定。

        表6 模型穩(wěn)定性

        綜合以上分析,本文提出的模型不僅在A、R、F1值上都優(yōu)于其它分類模型,具有較高的準確性,并且在模型穩(wěn)定性上,波動程度小,穩(wěn)定性更強。因此,ADASYN-LOF-RF在核心專利的識別中更具有優(yōu)勢。

        2.5 模型可解釋性

        通過隨機森林算法,我們可以直接導出所選取的指標相對于核心專利的重要性程度,如圖2,常見的技術(shù)覆蓋范圍、發(fā)明人數(shù)量、權(quán)利要求數(shù)量等指標與核心專利的關(guān)聯(lián)程度不強,而本研究中新加入的發(fā)明人技術(shù)實力和發(fā)明人技術(shù)影響力這兩個指標排序比較靠前,這也進一步驗證新加入指標的合理性和有效性。

        圖2 指標重要性排序

        3 結(jié)論與展望

        如何從海量專利中識別出核心專利,是企業(yè)開展技術(shù)研發(fā)、提升創(chuàng)新能力的關(guān)鍵環(huán)節(jié)。針對現(xiàn)有研究在指標選取和不平衡數(shù)據(jù)處理方面的不足,本文通過增加專利發(fā)明人指標重構(gòu)指標體系,同時結(jié)合采樣技術(shù)和集成算法,提出組合模型ADASYN-LOF-RF。通過與SVM、RF、ADASYN-RF進行對比,證實ADASYN-LOF-RF在模型準確性和模型穩(wěn)定性上都具有較好的分類性能;并通過指標重要性排序證實新加入的兩個專利發(fā)明人指標的合理性。

        基于本文的模型對比實驗結(jié)果以及實證分析,可以得出以下兩點結(jié)論:第一,使用采樣技術(shù)和集成算法的組合模型能夠提高核心專利識別的準確率,并且穩(wěn)定性較好;第二,在梳理現(xiàn)有相關(guān)文獻的基礎上,本研究構(gòu)建的核心專利識別指標體系是有效的。

        本研究也具有一定的局限性:第一,每種算法都有優(yōu)缺點,為提高核心專利識別的準確率,未來可嘗試對集成算法進行改進,如加入代價敏感學習等。第二,在未來的研究中,有必要考慮引入專利網(wǎng)絡中心度的概念,將其作為機器學習模型的輸出指標,對核心專利進行標記。第三,核心專利的早期識別對企業(yè)實施專利布局具有更高的價值,未來研究需關(guān)注核心專利的早期識別問題。

        猜你喜歡
        專利分類樣本
        專利
        水運工程(2022年7期)2022-07-29 08:37:38
        分類算一算
        用樣本估計總體復習點撥
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        分類討論求坐標
        推動醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        隨機微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        国产成人久久精品一区二区三区| 天堂精品人妻一卡二卡| 国产一区二区黄色网页| 亚洲欧美日韩精品久久| 欧美老妇与禽交| 久久国产精品岛国搬运工| 大香蕉青青草视频在线| 久久久国产乱子伦精品| 久久久久亚洲av无码专区网站| 对白刺激的老熟女露脸| 国产白浆一区二区三区佳柔| 亚洲精品电影院| 久久无码高潮喷水| 麻豆久久久国内精品| 亚洲黄色av一区二区三区| 欧美video性欧美熟妇| 丰满岳乱妇在线观看中字无码| 中文字幕av久久激情亚洲精品| 一区二区三区国产高清视频| 国产午夜精品一区二区三区嫩草 | 国产亚av手机在线观看| 四虎国产精品永久在线无码| 蜜臀av一区二区三区人妻在线| 男男亚洲av无一区二区三区久久| 人人妻人人澡人人爽欧美一区九九| 欧美一级视频精品观看| 国产精品午夜福利天堂| 亚洲 日韩 激情 无码 中出| 国产成人麻豆精品午夜福利在线| 色偷偷女人的天堂亚洲网| 羞羞色院99精品全部免| 男人进去女人爽免费视频| 免费毛片在线视频| 青青草成人免费播放视频| 亚洲无码在线播放| 天天做天天爱天天综合网| 国产精品女同一区二区久| 日本精品女优一区二区三区| 精品久久久中文字幕人妻| 狠狠躁夜夜躁人人爽天天不卡| 刚出嫁新婚少妇很紧很爽|