亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積網(wǎng)絡(luò)的高質(zhì)量專利自動識別方案研究*

        2022-01-28 03:08:12
        情報雜志 2022年1期
        關(guān)鍵詞:標(biāo)簽卷積專利

        吳 潔 桂 亮 劉 鵬

        (江蘇科技大學(xué)經(jīng)濟(jì)管理學(xué)院 鎮(zhèn)江 212003)

        0 引 言

        自創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略實施以來,國家知識產(chǎn)權(quán)局受理的發(fā)明專利申請數(shù)量逐年激增,目前我國發(fā)明專利申請數(shù)量已連續(xù)9年超越美國居于世界首位,僅2020年我國發(fā)明專利申請數(shù)量就已超過150萬件,由此可見,我國創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略促進(jìn)了專利的量變。但是“專利量變”無法消除我國產(chǎn)業(yè)結(jié)構(gòu)核心技術(shù)受制于人現(xiàn)狀,隨著關(guān)鍵技術(shù)“卡脖子”問題頻繁出現(xiàn),注重產(chǎn)業(yè)技術(shù)創(chuàng)新、實現(xiàn)產(chǎn)業(yè)鏈中上游轉(zhuǎn)型,已成為我國各界產(chǎn)業(yè)發(fā)展的當(dāng)務(wù)之急。相應(yīng)地,為更好地適應(yīng)產(chǎn)業(yè)發(fā)展需要、促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展,未來專利發(fā)展戰(zhàn)略須從觸發(fā)“專利量變”向促進(jìn)“專利質(zhì)變”轉(zhuǎn)變。

        從專利量變到專利質(zhì)變的專利戰(zhàn)略轉(zhuǎn)變需求使得政府對專利政策的制定從促進(jìn)數(shù)量增長轉(zhuǎn)移到質(zhì)量提升。2014年12月國務(wù)院轉(zhuǎn)發(fā)知識產(chǎn)權(quán)局等單位《深入實施國家知識產(chǎn)權(quán)戰(zhàn)略行動計劃》,明確提出培育一批核心專利、加強(qiáng)國際知識產(chǎn)權(quán)布局、提高知識產(chǎn)權(quán)創(chuàng)造水平;2015年12月國務(wù)院印發(fā)《關(guān)于新形勢下加快知識產(chǎn)權(quán)強(qiáng)國建設(shè)的若干意見》,要求深化知識產(chǎn)權(quán)戰(zhàn)略實施,提升知識產(chǎn)權(quán)質(zhì)量,加快知識產(chǎn)權(quán)強(qiáng)國建設(shè);2016年年底國務(wù)院再次印發(fā)的《“十三五”國家知識產(chǎn)權(quán)保護(hù)和運用規(guī)劃》指出實施專利質(zhì)量提升工程,提高知識產(chǎn)權(quán)質(zhì)量效益。在政策布局與產(chǎn)業(yè)發(fā)展指導(dǎo)下,明確高質(zhì)量專利在產(chǎn)業(yè)發(fā)展與競爭中核心地位,培育、識別、轉(zhuǎn)化高質(zhì)量專利正成為實現(xiàn)“專利質(zhì)變”發(fā)展戰(zhàn)略的現(xiàn)實途徑。

        高質(zhì)量專利具備較高技術(shù)價值、市場競爭優(yōu)勢以及較強(qiáng)進(jìn)攻和防御戰(zhàn)略價值,是專利管理與運營的基石,能夠客觀度量產(chǎn)業(yè)的創(chuàng)新能力和產(chǎn)出績效,準(zhǔn)確評價產(chǎn)業(yè)在全球創(chuàng)新競爭格局中的位置和水平,對企業(yè)或產(chǎn)業(yè)進(jìn)行專利資產(chǎn)評估、許可轉(zhuǎn)讓、專利戰(zhàn)略布局、投資融資以及專利維權(quán)訴訟尤為重要。已有大量申請專利達(dá)到國家知識產(chǎn)權(quán)局的授權(quán)要求,但其中只有極小比例高質(zhì)量專利對相關(guān)產(chǎn)業(yè)發(fā)展起到關(guān)鍵促進(jìn)作用、蘊含巨大經(jīng)濟(jì)效益與戰(zhàn)略價值,這部分專利對技術(shù)追蹤、促進(jìn)專利轉(zhuǎn)化、尋求建立最佳專利戰(zhàn)略布局的各種產(chǎn)業(yè)十分重要[1]。識別和篩選出這部分高質(zhì)量專利成為開展后續(xù)技術(shù)追蹤、專利轉(zhuǎn)化、產(chǎn)業(yè)轉(zhuǎn)型等專利工作的基礎(chǔ)鋪墊。

        學(xué)者們對高質(zhì)量專利識別問題進(jìn)行了深入研究,通過挖掘表征專利質(zhì)量的專利指標(biāo),構(gòu)建專利質(zhì)量評價指標(biāo)體系完成專利質(zhì)量評估工作[2-3],進(jìn)而篩選或識別出高質(zhì)量專利。從現(xiàn)有研究來看,專利質(zhì)量評價指標(biāo)體系框架下高質(zhì)量專利識別問題大多依靠專家定性分析,依靠人工使用統(tǒng)計學(xué)方法和計量模型定量完成。隨著授權(quán)專利基數(shù)不斷增大,在海量專利中篩選具有較強(qiáng)影響力的高質(zhì)量專利需要的人力成本與時間成本將難以估量,專家主導(dǎo)的專利質(zhì)量評估研究將面臨巨大挑戰(zhàn)。因此,實現(xiàn)專利質(zhì)量識別自動化、探索高質(zhì)量專利自動識別方案具有極高實踐價值。在上述背景下,學(xué)者們應(yīng)用數(shù)據(jù)驅(qū)動理論和機(jī)器學(xué)習(xí)算法提出專利質(zhì)量自動識別方案,主要開展專利質(zhì)量預(yù)測[4-5]、專利價值評估[6-7]、專利質(zhì)量分類[8]等問題研究。本文統(tǒng)稱為高質(zhì)量專利自動識別,涉及專利質(zhì)量標(biāo)簽標(biāo)注、專利特征提取與專利質(zhì)量自動評估模型構(gòu)建。

        從所檢索文獻(xiàn)來看,目前國內(nèi)外研究在專利質(zhì)量標(biāo)簽標(biāo)注階段主要使用單項質(zhì)量評價指標(biāo)、聚類方法[8]或Innography中“專利強(qiáng)度”指標(biāo)[4]確定專利質(zhì)量標(biāo)簽,相較于專家標(biāo)注專利質(zhì)量標(biāo)簽,此類方案存在無法全面綜合確定專利質(zhì)量的局限,利用專家標(biāo)注的少量專利質(zhì)量標(biāo)簽完成專利質(zhì)量自動識別的研究值得探索。此外,國內(nèi)外研究在專利特征提取階段大多關(guān)注于豐富專利數(shù)字特征提升專利質(zhì)量自動評估準(zhǔn)確性,對專利文本特征進(jìn)行提取的研究較為缺乏,利用多項專利數(shù)字特征發(fā)揮機(jī)器學(xué)習(xí)算法處理高維特征數(shù)據(jù)優(yōu)勢的同時提取專利文本中專利質(zhì)量相關(guān)特征的研究亟待深化。

        本文基于數(shù)據(jù)驅(qū)動理論,利用文獻(xiàn)計量學(xué)中共現(xiàn)分析方法,從大數(shù)據(jù)視角識別專利文本中核心詞匯完成專利-核心詞匯共現(xiàn)網(wǎng)絡(luò)構(gòu)建;其次從專利質(zhì)量評價指標(biāo)維度提取專利數(shù)字特征,將專利數(shù)字特征嵌入表征專利文本特征的專利-核心詞匯共現(xiàn)網(wǎng)絡(luò)。并在標(biāo)注少量專利節(jié)點質(zhì)量標(biāo)簽情況下通過圖卷積網(wǎng)絡(luò)進(jìn)行半監(jiān)督學(xué)習(xí),確定專利-核心詞匯共現(xiàn)網(wǎng)絡(luò)中專利節(jié)點的質(zhì)量標(biāo)簽,達(dá)到高質(zhì)量專利自動識別或篩選目的,為專利質(zhì)量自動評估問題提供新解答思路與實現(xiàn)方案,為基于高質(zhì)量專利的技術(shù)追蹤、專利轉(zhuǎn)化、戰(zhàn)略布局工作提供支撐。

        1 相關(guān)研究

        從所檢索文獻(xiàn)來看,專利質(zhì)量評估研究主要分為專利質(zhì)量相關(guān)指標(biāo)挖掘、專利質(zhì)量評價指標(biāo)構(gòu)建、基于機(jī)器學(xué)習(xí)的專利質(zhì)量自動評估。關(guān)于表征專利質(zhì)量的指標(biāo)挖掘方面,蔣仁愛等[9]研究發(fā)現(xiàn)相比于不合作,專利發(fā)明人合作能有效提高專利質(zhì)量,但專利發(fā)明人的國際合作對專利質(zhì)量的提升作用顯著高于國內(nèi)合作,因此專利發(fā)明人數(shù)量指標(biāo)可表征專利質(zhì)量。李睿等[10]指出專利的壽命長短在根本上取決于專利價值的高低。Ferrucci等[11]研究發(fā)現(xiàn)專利發(fā)明人團(tuán)隊中成員國籍情況與專利質(zhì)量相關(guān)聯(lián),專利發(fā)明人國別數(shù)量表征專利質(zhì)量。關(guān)于專利質(zhì)量評價指標(biāo)體系構(gòu)建方面,谷麗等[12]從專利申請質(zhì)量的內(nèi)涵入手,借鑒國內(nèi)外學(xué)者對專利申請質(zhì)量指標(biāo)的研究,系統(tǒng)性構(gòu)建專利申請質(zhì)量評價指標(biāo)體系。張杰等[13]對專利質(zhì)量評價方法作了系統(tǒng)梳理,提出基于訴訟專利數(shù)據(jù)建立的專利質(zhì)量評價模型。

        當(dāng)前專利質(zhì)量自動評估研究主要從專利質(zhì)量標(biāo)簽標(biāo)注階段與專利特征提取階段出發(fā)提出優(yōu)化思路,通過使用不同專利質(zhì)量標(biāo)簽標(biāo)注方案自動評估不同角度下專利質(zhì)量,通過挖掘更多專利數(shù)字特征發(fā)揮機(jī)器學(xué)習(xí)算法處理高維數(shù)據(jù)優(yōu)勢進(jìn)而提高專利質(zhì)量自動識別準(zhǔn)確率。

        在專利質(zhì)量標(biāo)簽標(biāo)注階段,現(xiàn)有研究主要使用單項專利質(zhì)量評價指標(biāo)、聚類算法或?qū)@麢z索平臺中界定專利質(zhì)量的指標(biāo),確定專利質(zhì)量等級,自動評估該專利質(zhì)量標(biāo)簽標(biāo)注方案下的專利質(zhì)量。諸如李欣等使用專利后引次數(shù)標(biāo)注專利質(zhì)量標(biāo)簽[14],自動評估專利的技術(shù)價值;謝祥等使用訴訟與轉(zhuǎn)讓次數(shù)確定專利質(zhì)量標(biāo)簽[15],自動評估專利的經(jīng)濟(jì)價值;Wu等使用SOM聚類算法標(biāo)注專利質(zhì)量[8];王思培等使用Innography專利檢索平臺中“專利強(qiáng)度”指標(biāo)[4]確定專利質(zhì)量。

        在專利特征提取階段,研究人員提取現(xiàn)有專利質(zhì)量評價指標(biāo)體系[16-18]使用的多項專利指標(biāo),諸如專利前引次數(shù)、權(quán)利要求數(shù)量、專利授權(quán)狀態(tài)等。同時引入挖掘到的另一部分評價專利質(zhì)量涉及的其他指標(biāo),將兩類專利指標(biāo)合并后擴(kuò)充專利數(shù)字特征,利用豐富的專利數(shù)字特征,發(fā)揮機(jī)器學(xué)習(xí)算法處理高維特征數(shù)據(jù)的優(yōu)勢,進(jìn)而提升專利質(zhì)量自動評估的準(zhǔn)確性。例如劉夏等引入引證專利授權(quán)個數(shù)、引證專利后引次數(shù)等前引專利包含的指標(biāo)作為補(bǔ)充的專利數(shù)字特征[19],Choi等引入專利所在技術(shù)領(lǐng)域中授權(quán)專利數(shù)量等專利外部技術(shù)環(huán)境指標(biāo)作為挖掘的專利數(shù)字補(bǔ)充特征[20]。

        2 研究方案

        本文構(gòu)建包含詞匯節(jié)點和專利節(jié)點的大型異構(gòu)圖并提取專利質(zhì)量相關(guān)指標(biāo)生成專利數(shù)字特征矩陣,然后提出基于圖卷積網(wǎng)絡(luò)的高質(zhì)量專利自動識別框架,使專利自動評估任務(wù)顯式地轉(zhuǎn)換為節(jié)點分類任務(wù)且很容易適用于圖卷積工作模式。如圖1所示,從專利文檔中提取專利指標(biāo)和專利摘要,構(gòu)造專利數(shù)字特征和專利文本特征,專利數(shù)字特征中P表示專利,專利文本特征中P表示專利、W表示核心詞匯。然后基于輸入的專利數(shù)字特征和專利文本特征訓(xùn)練圖卷積網(wǎng)絡(luò),輸出節(jié)點分類結(jié)果,節(jié)點分類結(jié)果中C代表專利質(zhì)量類別。將專利文本特征異構(gòu)圖中的所有專利節(jié)點的分類結(jié)果篩選出后,得到專利自動評估結(jié)果。

        圖1 模型框架

        2.1圖卷積網(wǎng)絡(luò)概述圖卷積網(wǎng)絡(luò)(Graph Convolutional networks,GCN)[21]是可以處理圖結(jié)構(gòu)數(shù)據(jù)的多層卷積神經(jīng)網(wǎng)絡(luò),已被大量研究[22-24]證明具有以往機(jī)器學(xué)習(xí)算法不具備的分類性能優(yōu)勢。圖卷積網(wǎng)絡(luò)通過學(xué)習(xí)領(lǐng)域節(jié)點特征和圖的拓?fù)浣Y(jié)構(gòu)生成節(jié)點的表征向量,完成圖結(jié)構(gòu)中節(jié)點的半監(jiān)督學(xué)習(xí)任務(wù)。圖卷積網(wǎng)絡(luò)通過以下方式更新節(jié)點嵌入向量(本文以兩次圖卷積為例):構(gòu)建一個圖G=(V, E),圖中V代表節(jié)點,G代表邊。設(shè)置一個包含所有節(jié)點特征向量的矩陣X∈Rn×m,矩陣中每一行Xi∈Rn×m代表節(jié)點i的特征向量。接著圖G的鄰接矩陣A按照圖結(jié)構(gòu)生成,鄰接矩陣的對角元素設(shè)置為1因為圖卷積網(wǎng)絡(luò)中每個節(jié)點都是自循環(huán)節(jié)點。在圖卷積網(wǎng)絡(luò)中,相鄰節(jié)點的特征信息可以被圖卷積網(wǎng)絡(luò)的卷積層捕獲,更遠(yuǎn)距離節(jié)點的特征信息也能被學(xué)習(xí)當(dāng)圖卷積網(wǎng)絡(luò)的卷積層增加后。在第一層圖卷積過程中,節(jié)點特征矩陣按照式(1)更新為T(1)∈Rn×p:

        (1)

        (2)

        式(2)中W1=Rp×q表示第二層圖卷積的超參數(shù)矩陣。當(dāng)卷積層增加到3或者更高時,更高階領(lǐng)域節(jié)點的特征信息可以被圖卷積網(wǎng)絡(luò)學(xué)習(xí),但現(xiàn)有研究表明,卷積層超過2時模型效果提升并不明顯,所以本文選用2層圖卷積網(wǎng)絡(luò)。然后將T(2)輸入softmax分類器。

        Z=softmax(T(2))

        (3)

        圖2圖卷積網(wǎng)絡(luò)

        然后根據(jù)每個節(jié)點的Z值得到節(jié)點標(biāo)簽。圖卷積網(wǎng)絡(luò)工作原理如圖2所示。圖2中,(a)表示專利-詞匯網(wǎng)絡(luò)中專利節(jié)點,GCNlayers表示圖卷積層,(b)表示經(jīng)圖卷積后專利節(jié)點的標(biāo)簽類別。兩次圖卷積之后模型為專利節(jié)點賦予兩類標(biāo)簽,得到專利所屬質(zhì)量類別。

        2.2專利數(shù)字特征提取本文從專利價值、專利保護(hù)范圍、前引(backward citation)專利的價值三個維度選取15項專利質(zhì)量評價指標(biāo),并將這些指標(biāo)作為專利的數(shù)字指標(biāo),如表1所示。本文選取的專利質(zhì)量評價指標(biāo)是專利申請之時可直接提取出來的指標(biāo),并非滯后性指標(biāo)。這表明本文提出的高質(zhì)量專利自動識別方案可在專利提出早期自動識別高質(zhì)量專利,在專利申請早期開始針對性的采取培育措施,拓展深化專利價值。

        表1 專利數(shù)字特征

        a.專利價值。該類別包含5項專利數(shù)字指標(biāo),分別為專利首項權(quán)利包含的字?jǐn)?shù)、專利要求權(quán)利數(shù)量、專利申請人數(shù)量、專利發(fā)明人數(shù)量、專利發(fā)明人國別數(shù)量。專利首項權(quán)利要求包含專利申請人對專利包含的科技價值、商業(yè)價值的自我認(rèn)可,專利首權(quán)包含的字?jǐn)?shù)與專利價值之間具有相關(guān)性,選取首權(quán)字?jǐn)?shù)作為專利數(shù)字特征具有一定合理性。專利包含的權(quán)利要求數(shù)量越多,專利具有的技術(shù)價值越大[25];專利權(quán)利要求數(shù)量很大程度能反應(yīng)專利的質(zhì)量或價值[26];受法律保護(hù)的權(quán)利要求數(shù)量與專利質(zhì)量之間成正比關(guān)系[27];Ferrucci研究專利發(fā)明人中成員國籍情況與專利質(zhì)量的關(guān)系,結(jié)果表明二者具有強(qiáng)相關(guān)性[11];專利發(fā)明人數(shù)量越多的專利具有的價值越大[28],因此上述專利指標(biāo)作為專利數(shù)字特征較為合理。

        b.專利保護(hù)范圍。該類別中包含6項專利數(shù)字指標(biāo),分別為IPC個數(shù)、簡單同族個數(shù)、擴(kuò)展同族個數(shù)、同族國家個數(shù)、優(yōu)先權(quán)專利個數(shù)、優(yōu)先權(quán)專利包含國別個數(shù)。申請專利的IPC個數(shù)可表征專利中包含的技術(shù)范圍[29],IPC個數(shù)與專利質(zhì)量之間存在正相關(guān)關(guān)系[30-31],故其被一些研究用作專利質(zhì)量的代表。專利簡單同族個數(shù)、擴(kuò)展同族個數(shù)作為專利家族規(guī)模的衡量尺度,可反應(yīng)專利申請人對專利被保護(hù)國家或地區(qū)范圍增強(qiáng)的需求。專利被保護(hù)區(qū)域越多,專利蘊含的價值越高,專利家族規(guī)模與專利質(zhì)量、專利價值之間有很強(qiáng)的相關(guān)性[32-33]。專利家族規(guī)模同樣可用專利家族包含的申請地區(qū)或國家表征,故本文選取同族專利國家個數(shù)為專利質(zhì)量相關(guān)指標(biāo)。優(yōu)先權(quán)專利數(shù)量與優(yōu)先權(quán)國別數(shù)量越多,專利家族可發(fā)揮的專利權(quán)利要求越大,專利權(quán)利要求帶來的經(jīng)濟(jì)收益越大。

        c.前引專利的價值。該類別中包含4項專利數(shù)字指標(biāo),分別為前引次數(shù)、引證科技文獻(xiàn)個數(shù)、引證國家個數(shù)、前引專利申請人數(shù)量。專利前引次數(shù)作為專利質(zhì)量衡量指標(biāo)不同研究有不同意見,但仍有大量研究將專利前引次數(shù)作為專利技術(shù)性的代表[34]。申請專利中包含的非科學(xué)知識越多,其包含的有價值技術(shù)越多[35],且專利中包含的科技知識可通過非專利文獻(xiàn)引用次數(shù)表現(xiàn)[36]。專利中非專利文獻(xiàn)引用數(shù)量和專利技術(shù)價值之間存在相關(guān)性[37]。引證外國專利與專利技術(shù)價值有一定關(guān)聯(lián)[38],故本文選用引證國家數(shù)量專利指標(biāo)。引證專利申請人數(shù)量與引證專利價值有相關(guān)性,而引證專利包含的技術(shù)性高低與申請專利的技術(shù)價值相關(guān),故本文選用引證專利申請人數(shù)量指標(biāo)。

        2.3專利-核心詞匯共現(xiàn)網(wǎng)絡(luò)構(gòu)建與節(jié)點特征嵌入本文以專利摘要為專利文本特征來源。提取專利文本特征時,考慮到專利中技術(shù)領(lǐng)域特征詞因不同技術(shù)融合與發(fā)展而不固定、技術(shù)領(lǐng)域特征詞不斷更新等事實,本文未采用識別技術(shù)領(lǐng)域固有特征詞的專利文本特征提取方案。而是將大量專利摘要轉(zhuǎn)換成語料庫,以數(shù)據(jù)驅(qū)動方式識別專利摘要中的“核心詞匯”,以核心詞匯為專利文本特征。同時,部分技術(shù)領(lǐng)域固有特征詞也會成為核心詞匯的一部分。本文構(gòu)建的專利質(zhì)量自動評估模型通過學(xué)習(xí)不同質(zhì)量專利摘要中核心詞匯的分布情況,可以依據(jù)專利摘要中出現(xiàn)的核心詞匯提高專利質(zhì)量自動評估的準(zhǔn)確率。

        核心詞匯識別過程:將專利摘要分詞后進(jìn)行詞頻統(tǒng)計分析,以專利摘要中高頻詞為基本詞匯進(jìn)行共現(xiàn)分析生成高頻詞共現(xiàn)網(wǎng)絡(luò),如圖3所示。圖3中節(jié)點代表高頻詞,邊代表詞匯之間同時出現(xiàn)在專利摘要中的次數(shù)。然后以共現(xiàn)網(wǎng)絡(luò)中度值較大的節(jié)點為核心詞匯。

        圖3 高頻詞共現(xiàn)網(wǎng)絡(luò)(部分)

        通過共現(xiàn)網(wǎng)絡(luò)分析識別專利摘要中核心詞匯后,以核心詞匯為基礎(chǔ)詞匯,生成專利-核心詞匯共現(xiàn)網(wǎng)絡(luò),如圖4(a)所示。專利-核心詞匯共現(xiàn)網(wǎng)絡(luò)中節(jié)點代表專利文檔與專利摘要中包含詞匯,圓形節(jié)點代表專利文檔,橢圓形節(jié)點代表專利摘要中包含的詞匯。詞匯之間的邊代表詞匯在專利摘要中的共現(xiàn)次數(shù),詞匯與專利文檔之間的邊代表詞匯在專利摘要中出現(xiàn)次數(shù)。專利文本特征識別完成后將其與專利數(shù)字特征提取階段識別的專利數(shù)字特征合并,共同作為專利解釋變量。專利數(shù)字特征如圖4(b)所示,將專利數(shù)字特征向量嵌入專利文檔節(jié)點作為專利文檔節(jié)點特征。接著生成與專利數(shù)字特征同維度的隨機(jī)向量嵌入詞匯節(jié)點,作為詞匯節(jié)點特征,完成專利文本特征與專利數(shù)字特征合并過程。至此,網(wǎng)絡(luò)構(gòu)建與節(jié)點嵌入階段完成,為圖卷積模型工作提供原始數(shù)據(jù)。

        (a) (b)

        3 實證檢驗

        3.1數(shù)據(jù)選取本文所用數(shù)據(jù)來自incopat全球?qū)@麛?shù)據(jù)庫,該專利數(shù)據(jù)庫收納全球范圍內(nèi)的專利文本數(shù)據(jù)、專利的法律狀態(tài)及專利數(shù)據(jù)擴(kuò)展信息。選用15項專利質(zhì)量評價指標(biāo)作為專利數(shù)字特征,其中有專利權(quán)利要求、專利家族、引證專利等專利指標(biāo),選用專利摘要數(shù)據(jù)為專利文本特征來源。因表征申請專利質(zhì)量等級的專利維持年限指標(biāo)需較長時間沉淀才能顯示,故本文選取2008年incopat全球?qū)@麛?shù)據(jù)庫中IPC分類號為H04L的“數(shù)字信息傳輸”領(lǐng)域申請專利為樣本數(shù)據(jù),共獲得專利數(shù)據(jù)2 000份,以此數(shù)據(jù)為基礎(chǔ)展開本文研究。

        實現(xiàn)專利質(zhì)量正確評估的前提是正確識別專利質(zhì)量等級,結(jié)合2021年3月底國家知識產(chǎn)權(quán)局對高價值發(fā)明專利的首次定義:戰(zhàn)略性新型產(chǎn)業(yè)的發(fā)明專利、在海外有同族專利權(quán)的發(fā)明專利、維持年限超過10年的發(fā)明專利、實現(xiàn)較高質(zhì)押融資金額的發(fā)明專利、獲得國家科學(xué)技術(shù)獎或中國專利將的發(fā)明專利。本文使用專利質(zhì)量評價指標(biāo)體系中頻繁出現(xiàn)用于表征專利質(zhì)量的專利維持年限確定樣本專利質(zhì)量等級,表2提供了樣本數(shù)據(jù)的專利維持年限的具體分布。

        表2 樣本專利的維持年限分布描述

        本文使用專利維持年限劃分本文所用專利數(shù)據(jù)的質(zhì)量等級,將樣本數(shù)據(jù)分為高質(zhì)量專利與低質(zhì)量專利,2 000份專利樣本劃分質(zhì)量等級后,共有926份高質(zhì)量專利和1 074份低質(zhì)量專利。其中,高質(zhì)量專利與低質(zhì)量專利分別對應(yīng)維持年限大于等于10的專利與維持年限小于10的專利。

        3.2專利數(shù)字特征提取本文以首權(quán)字?jǐn)?shù)、IPC個數(shù)、前引次數(shù)等15項專利質(zhì)量評價指標(biāo)為專利數(shù)字特征,選取數(shù)據(jù)庫中專利數(shù)據(jù)后進(jìn)行預(yù)處理操作,得到專利數(shù)字特征矩陣,部分專利數(shù)字特征矩陣如表3所示。

        表3 專利數(shù)字特征矩陣(部分)

        表4為本文所選樣本專利的數(shù)字特征變量的統(tǒng)計描述,包括總樣本專利、高質(zhì)量專利子樣本,低質(zhì)量專利子樣本的均值、方差,以及T檢驗結(jié)果。從表 4 中的數(shù)據(jù)可以看出,大部分專利數(shù)字特征變量都顯示出顯著的差異,并且維持年限超過10年的高質(zhì)量專利樣本的均值高于維持年限低于10年的低質(zhì)量專利樣本,如IPC個數(shù)、發(fā)明人國別個數(shù)等,充分說明了所選專利數(shù)字特征變量與專利質(zhì)量的高度相關(guān)性。值得注意的是,雖然高質(zhì)量專利子樣本顯示出較高的平均值,但對應(yīng)的方差波動也較大,顯示出高質(zhì)量專利樣本中存在較大的質(zhì)量差異。從 T 檢驗結(jié)果來看,兩組專利樣本的均值基本都呈現(xiàn)出顯著的差異性。

        表4 專利數(shù)字特征統(tǒng)計描述

        3.3專利-核心詞匯網(wǎng)絡(luò)構(gòu)建與節(jié)點特征嵌入專利數(shù)字特征矩陣生成后進(jìn)行專利-核心詞匯網(wǎng)絡(luò)構(gòu)建與節(jié)點特征嵌入過程,提取專利摘要中核心詞匯作為專利文本特征。將專利摘要分詞后進(jìn)行詞頻統(tǒng)計分析,以專利摘要中高頻詞為基本詞匯進(jìn)行共現(xiàn)分析生成高頻詞共現(xiàn)矩陣。用共現(xiàn)矩陣生成高頻詞共現(xiàn)網(wǎng)絡(luò),以共現(xiàn)網(wǎng)絡(luò)中節(jié)點度值排名前2 000個節(jié)點為核心詞匯,部分節(jié)點度值排名如表5所示。

        表5 節(jié)點度值排名(部分)

        專利摘要中核心詞匯識別完成后,以核心詞匯為基礎(chǔ)詞匯對專利摘要進(jìn)行詞匯共現(xiàn)分析,生成專利-核心詞匯網(wǎng)絡(luò)。然后將專利數(shù)字特征與隨機(jī)向量構(gòu)成的特征向量矩陣嵌入專利-核心詞匯網(wǎng)絡(luò)中文檔節(jié)點與詞匯節(jié)點,作為節(jié)點特征。至此,網(wǎng)絡(luò)構(gòu)建與節(jié)點特征嵌入階段完成,為圖卷積網(wǎng)絡(luò)完成高質(zhì)量專利自動識別做好數(shù)據(jù)準(zhǔn)備。

        3.4實證結(jié)果專利-核心詞匯網(wǎng)絡(luò)構(gòu)建與節(jié)點特征嵌入完成后,進(jìn)行高質(zhì)量專利自動識別過程。將構(gòu)建的圖數(shù)據(jù)輸入圖卷積網(wǎng)絡(luò)模型,隱藏所有專利節(jié)點質(zhì)量等級標(biāo)簽,隨機(jī)挑選少量專利節(jié)點分配質(zhì)量等級標(biāo)簽,卷積層設(shè)為2層,然后訓(xùn)練圖卷積網(wǎng)絡(luò)模型,得到所有專利節(jié)點的質(zhì)量等級標(biāo)簽類別。將專利節(jié)點的預(yù)測標(biāo)簽類別與其真實標(biāo)簽類別做對比,得出模型的高質(zhì)量專利識別性能。

        本文另外應(yīng)用支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)三種算法依據(jù)專利數(shù)字特征完成高質(zhì)量專利自動識別任務(wù),并將結(jié)果與本文所提模型的性能進(jìn)行對比。支持向量機(jī)(Support Vector Model,SVM)、隨機(jī)森林(Random forest,RF)和神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是三種傳統(tǒng)的機(jī)器學(xué)習(xí)算法,被廣泛用于完成分類任務(wù)。支持向量機(jī)模型通過尋找兩類數(shù)據(jù)的支持向量建立最優(yōu)分類超平面,解決了二值分類問題。隨機(jī)森林是一種基于樹的機(jī)器學(xué)習(xí)算法,它利用群體決策思維生成多棵決策樹來完成分類任務(wù)。神經(jīng)網(wǎng)絡(luò)是由輸入層神經(jīng)元、隱藏層神經(jīng)元、輸出層神經(jīng)元組成的網(wǎng)格結(jié)構(gòu),在訓(xùn)練階段,輸入層神經(jīng)元接受特征值,通過訓(xùn)練不斷迭代調(diào)整輸入層、隱藏層、輸出層間的連接權(quán)重矩陣,利用輸出層產(chǎn)生類別值來完成分類任務(wù)。上述三種模型基于Python環(huán)境完成,圖卷積網(wǎng)絡(luò)模型基于Pytorch框架中DGL庫實現(xiàn)。對比實驗完成后,用精確率P(式4)、召回率R(式5)、F1(式6)衡量各模型的自動評估性能,精確率指識別為高質(zhì)量專利的樣本數(shù)據(jù)中實際的高質(zhì)量專利數(shù)量占所有識別為高質(zhì)量專利樣本數(shù)的比例、召回率指識別為高質(zhì)量專利的樣本數(shù)據(jù)中實際的高質(zhì)量專利數(shù)量占所有高質(zhì)量專利樣本數(shù)的比例、F1值是精確率和召回率的調(diào)和值。

        (4)

        (5)

        (6)

        式中,tp表示自動評估為高質(zhì)量專利中真實標(biāo)簽為高質(zhì)量專利的專利數(shù)量、tn表示自動評估為低質(zhì)量專利中真實標(biāo)簽為低質(zhì)量專利的專利數(shù)量、fp表示自動評估為高質(zhì)量專利中真實標(biāo)簽為低質(zhì)量專利的專利數(shù)量、fn表示自動評估為低質(zhì)量專利中真實標(biāo)簽為高質(zhì)量專利的專利數(shù)量。

        (a)P(精確度)

        (b)R(召回率)

        (c)F1值

        為了評估模型訓(xùn)練階段專利質(zhì)量標(biāo)簽標(biāo)注比例對高質(zhì)量專利識別結(jié)果的影響,本文使用不同比例訓(xùn)練數(shù)據(jù)測試模型的表現(xiàn)。圖5顯示了訓(xùn)練數(shù)據(jù)集為2%、4%、6%、8%和10%情況下各模型對2 000份樣本數(shù)據(jù)中包含的高質(zhì)量專利識別結(jié)果。從圖5(a)可知,當(dāng)訓(xùn)練數(shù)據(jù)集在2%~10%范圍內(nèi)時,隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的P值均小于60%,圖卷積的P值均大于60%且在訓(xùn)練數(shù)據(jù)集為6%時達(dá)到峰值76.2%。從圖5(b)可知,當(dāng)訓(xùn)練數(shù)據(jù)集在2%~10%范圍內(nèi)時,隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)的R值均小于60%,圖卷積的R值均大于60%且在訓(xùn)練數(shù)據(jù)集為6%時達(dá)到峰值80.2%。F1值調(diào)和了P值與R值,通常能較準(zhǔn)確反映模型性能,故本文對圖5(c)進(jìn)行深入分析。從圖5(c)可知,當(dāng)訓(xùn)練數(shù)據(jù)集從2%增長到10%時,隨機(jī)森林模型的高質(zhì)量專利自動識別精確度從32.2%上升到53.8%;神經(jīng)網(wǎng)絡(luò)模型的精確度從28.3%上升到43.6%;支持向量機(jī)模型的精確度從22.6%上升到41.2%;圖神經(jīng)網(wǎng)絡(luò)模型的精確度從61.1%上升到78.1%后下降到77.1%。同時,隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)模型的精確度隨訓(xùn)練數(shù)據(jù)集的增長而增加,符合傳統(tǒng)機(jī)器學(xué)習(xí)模型依托大量訓(xùn)練數(shù)據(jù)集提高模型性能的常識;圖卷積網(wǎng)絡(luò)在少量訓(xùn)練數(shù)據(jù)集情況下?lián)碛休^好性能且訓(xùn)練集增加后性能未有較大提高,說明圖卷積網(wǎng)絡(luò)模型可以用有限的標(biāo)記文檔實現(xiàn)更高的測試精度。比如,圖卷積網(wǎng)絡(luò)在僅有6%的訓(xùn)練數(shù)據(jù)上的F1值為78.1%,在僅有2%的訓(xùn)練文檔下的測試精度甚至比一些帶有大量訓(xùn)練文檔的基線模型更優(yōu)。整體上,基于本文的專利樣本數(shù)據(jù),標(biāo)注6%專利節(jié)點的圖卷積網(wǎng)絡(luò)模型是最優(yōu)結(jié)果,模型F1值為78.1%。本文第4節(jié)將對進(jìn)一步提高圖卷積網(wǎng)絡(luò)自動評估專利質(zhì)量模型提出具體意見。

        圖卷積模型在擁有少量專利文檔質(zhì)量標(biāo)簽情況下的表現(xiàn)超過現(xiàn)有模型,此結(jié)果表明高質(zhì)量專利自動識別任務(wù)在擁有少量專利質(zhì)量標(biāo)簽情況下即可完成。對于專利質(zhì)量自動評估研究中使用專利指標(biāo)標(biāo)注專利質(zhì)量標(biāo)簽或其他專利質(zhì)量標(biāo)簽標(biāo)注方案無法全面綜合確定專利質(zhì)量問題,圖卷積網(wǎng)絡(luò)可有效解決此問題。圖卷積模型可依據(jù)專家經(jīng)驗人工確定少量專利文檔質(zhì)量標(biāo)簽,然后訓(xùn)練專利文本異構(gòu)圖將少量標(biāo)簽信息傳播到整個圖中,完成專利文檔節(jié)點質(zhì)量標(biāo)簽的預(yù)測,進(jìn)而完成高質(zhì)量專利自動識別任務(wù)。由于采用專家標(biāo)注專利質(zhì)量標(biāo)簽方案,圖卷積模型所識別高質(zhì)量專利相較于以往專利指標(biāo)標(biāo)注專利質(zhì)量方案下識別的高質(zhì)量專利,更具有說服力。

        4 研究結(jié)論與討論

        在專利大數(shù)據(jù)背景下,如何自動評估專利質(zhì)量、篩選高質(zhì)量專利,為開展后續(xù)技術(shù)追蹤、專利轉(zhuǎn)化、戰(zhàn)略布局等專利工作鋪墊,成為當(dāng)前重點研究問題。對此,本文選用專利維持年限指標(biāo)確定專利質(zhì)量,以多項專利質(zhì)量評價指標(biāo)為專利數(shù)字指標(biāo)特征,以專利摘要中的文本信息為專利文本特征,將專利數(shù)字特征嵌入表征專利文本特征的專利-核心詞匯共現(xiàn)網(wǎng)絡(luò)中,構(gòu)建圖卷積網(wǎng)絡(luò)模型自動識別或篩選高質(zhì)量專利。

        本文所提高質(zhì)量專利自動識別方案創(chuàng)新之處在于:

        (1)多維度提取專利特征,拓寬專利質(zhì)量研究中專利特征選擇維度。本文在專利特征提取階段使用專利摘要文本和專利指標(biāo)信息共同作為專利解釋變量。從所檢索文獻(xiàn)可知,現(xiàn)有專利質(zhì)量研究大多使用專利指標(biāo)信息作為專利特征向量,缺乏文本信息維度專利特征提取。本文從專利文本與專利指標(biāo)兩個維度提取專利特征,豐富專利特征表示,對現(xiàn)有研究做出補(bǔ)充。

        (2)少量標(biāo)注專利文檔情況下即可完成專利質(zhì)量識別任務(wù)。 從當(dāng)前文獻(xiàn)來看,現(xiàn)有研究采用機(jī)器學(xué)習(xí)算法訓(xùn)練專利質(zhì)量自動識別模型時,需標(biāo)注大量專利文檔的質(zhì)量標(biāo)簽,專利指標(biāo)標(biāo)注專利質(zhì)量標(biāo)簽或其他專利質(zhì)量標(biāo)注方案具有無法全面識別專利質(zhì)量的局限性,專家標(biāo)注海量專利文檔質(zhì)量缺乏可行性。相較于以往研究使用具有局限性的專利質(zhì)量標(biāo)注方案確定專利質(zhì)量標(biāo)簽,本文所提方案可在專家標(biāo)注少量專利文檔質(zhì)量標(biāo)簽情況下完成專利質(zhì)量識別任務(wù),通過圖卷積算法學(xué)習(xí)專家先驗知識,將少量標(biāo)簽信息傳播到整個專利文本異構(gòu)圖中,完成海量專利質(zhì)量自動識別過程。對于專利質(zhì)量自動識別研究中現(xiàn)有專利質(zhì)量標(biāo)注方案無法同專家標(biāo)注專利質(zhì)量方案一樣精確識別專利質(zhì)量問題,本文所提方案可通過實施專家標(biāo)注少量專利文檔質(zhì)量標(biāo)簽方案有效解決,這是以往研究所提模型無法做到的。

        不過,本文的專利質(zhì)量自動評估方案也存在一定的局限:在專利數(shù)字特征提取階段引入15項專利質(zhì)量評價指標(biāo)時未能引入更多專利質(zhì)量評價指標(biāo),未能充分發(fā)揮機(jī)器學(xué)習(xí)算法相較于傳統(tǒng)專利質(zhì)量識別方案的優(yōu)勢,未來可在該方面進(jìn)行改進(jìn)。進(jìn)一步研究將考慮專利侵權(quán)自動評估方面與技術(shù)發(fā)展趨勢研究方面。

        猜你喜歡
        標(biāo)簽卷積專利
        專利
        水運工程(2022年7期)2022-07-29 08:37:38
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        男女交射视频免费观看网站| 亚洲午夜看片无码| 超薄肉色丝袜一区二区| 国产精品原创av片国产日韩| 在线观看免费的黄片小视频 | 亚洲av福利院在线观看| a级大胆欧美人体大胆666| 亚洲天堂免费视频| 久久国产精品av在线观看| 亚洲精品视频在线一区二区| 国内露脸少妇精品视频| 国产成人免费a在线视频| 亚洲色图少妇熟女偷拍自拍| 国产美女高潮流白浆免费视频| 免费无码一区二区三区蜜桃大| 91精品国产色综合久久不卡蜜| 麻豆三级视频网站在线观看 | 内射口爆少妇麻豆| 两个人看的www高清视频中文| 亚洲AV日韩AV高潮喷潮无码| 放荡成熟人妻中文字幕| 东北女人啪啪对白| 亚洲精品第一国产综合亚av| 久久频这里精品99香蕉| 婷婷久久亚洲中文字幕| 免费观看交性大片| 毛片免费全部无码播放| 精品人妻一区二区蜜臀av| 亚洲高清在线天堂精品| 老师翘臀高潮流白浆| 草莓视频中文字幕人妻系列| av手机免费在线观看高潮| 三年中文在线观看免费大全| 国产精品偷伦视频免费手机播放| 一级a免费高清免在线| 无码人妻丰满熟妇啪啪网不卡 | 少妇高潮惨叫久久久久电影69 | 国产免费a∨片在线软件| 丁香六月婷婷综合| 亚洲码无人客一区二区三区| 欧美性猛交99久久久久99按摩|