亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)容理解與指標(biāo)融合的高價值專利識別*

        2024-04-25 01:50:08張星星汪滿容
        情報雜志 2024年4期
        關(guān)鍵詞:專利分類價值

        唐 恒 張星星 汪滿容

        (1.江蘇大學(xué)知識產(chǎn)權(quán)學(xué)院 鎮(zhèn)江 212013;2.江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013)

        0 引 言

        隨著中國經(jīng)濟(jì)步入高質(zhì)量發(fā)展階段,創(chuàng)新成為關(guān)鍵驅(qū)動力。創(chuàng)新實力的重要體現(xiàn)就是專利,其中高價值專利對高質(zhì)量發(fā)展作用不斷凸顯,它不僅代表著技術(shù)創(chuàng)新的高度,更是推動經(jīng)濟(jì)和社會高質(zhì)量發(fā)展的核心因素。多項研究顯示,專利價值呈現(xiàn)顯著的偏態(tài)分布[1],只有約10%的專利具有較高的價值[2],這些高價值專利承載著重要的創(chuàng)新和技術(shù)突破,對于企業(yè)和社會的發(fā)展具有巨大影響。因此,科學(xué)、客觀和精確地識別這些高價值的專利,是政府及創(chuàng)新主體開展高價值專利培育和布局工作的基礎(chǔ),對推動我國知識產(chǎn)權(quán)高質(zhì)量發(fā)展和知識產(chǎn)權(quán)強國建設(shè)具有重要意義。在當(dāng)前機器學(xué)習(xí)算法支撐下,學(xué)者們已研發(fā)出了一套完善的發(fā)明專利價值自動識別方案進(jìn)行專利價值評估[3-5]。然而,這些方法還存在一定的局限性。大部分方法主要依賴于專利指標(biāo)來識別高價值專利,較少探討專利文本對高價值專利的影響。因此,除研究發(fā)明專利指標(biāo)特征外,還需要進(jìn)一步挖掘和提煉專利文本中與價值相關(guān)的特征。本文結(jié)合數(shù)據(jù)驅(qū)動理論和深度學(xué)習(xí)技術(shù),旨在設(shè)計一種能挖掘?qū)@谋咎卣鞯膬r值評估方法,通過將文本特征與專利指標(biāo)特征融合,從多個維度更準(zhǔn)確地評估專利價值,進(jìn)而增強高價值專利的識別精準(zhǔn)性。

        1 相關(guān)研究

        隨著技術(shù)創(chuàng)新和機器智能的進(jìn)步,使用機器學(xué)習(xí)和人工智能評估專利價值已成趨勢,此類方法不僅能快速準(zhǔn)確評價專利的市場價值與發(fā)展?jié)摿?還能克服主觀性的缺陷。王思培等[14]選擇用于潛在高價值專利預(yù)測的指標(biāo),構(gòu)建了基于隨機森林算法的潛在高價值專利預(yù)測模型。Jie等[15]基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了英文機械專利分類模型。Choi等[16]提出一種利用前饋神經(jīng)網(wǎng)絡(luò)來評估單個專利的商業(yè)潛力的方法。上述研究僅采用機器學(xué)習(xí)對專利指標(biāo)進(jìn)行模型構(gòu)建和評估,忽略了專利文本內(nèi)容對專利價值的影響。Lim等[17]提出了一種基于多項式樸素貝葉斯方法,將專利文檔中的技術(shù)部分和背景部分轉(zhuǎn)換為術(shù)語-文檔矩陣進(jìn)行多標(biāo)簽IPC分類,模型精度達(dá)到了87.2%。Zhu F等[18]提出了一種根據(jù)用戶定義的分類法對專利進(jìn)行分類的方法。根據(jù)本領(lǐng)域?qū)<翌A(yù)設(shè)的標(biāo)簽,對系統(tǒng)芯片上(SoC)專利進(jìn)行分類,將專利標(biāo)題和摘要轉(zhuǎn)換為術(shù)語矩陣,并將其作為分類模型的輸入,證明與專利指標(biāo)(如反向引用)相比,使用文本數(shù)據(jù)可以更好地提高專利分類的性能。此外,將現(xiàn)有的專利指標(biāo)和專利文本數(shù)據(jù)結(jié)合使用,可以更好地提高分類問題的性能。

        文本分類方法同樣適用于專利高價值識別,專利文本包含豐富的信息,反映專利價值相關(guān)的諸多特征,包括技術(shù)創(chuàng)新性、實用性、保護(hù)范圍和法律穩(wěn)定性等,體現(xiàn)在文本中的明確技術(shù)領(lǐng)域、詳細(xì)的技術(shù)方案描述、明確的權(quán)利要求和實施例等方面。在理解專利背景、評估創(chuàng)新性和實用性,及衡量法律保護(hù)力度的基礎(chǔ)上,可以利用文本分類方法有效地對專利進(jìn)行高價值識別。大多數(shù)研究者在使用文本數(shù)據(jù)時,通常會選取專利標(biāo)題、摘要、權(quán)利要求等內(nèi)容作為研究對象,但提取的特征僅基于特定詞語的存在或頻率,缺乏對其語義和上下文意義的深入分析[19]。因此,為確保專利價值評價能夠基于對技術(shù)內(nèi)容的深入理解進(jìn)行,進(jìn)而提高分類預(yù)測的準(zhǔn)確性,有必要獲取表明專利文本上下文意義的特征。

        2 研究設(shè)計與研究方法

        2.1 高價值專利界定

        目前,學(xué)術(shù)界尚無高價值專利的統(tǒng)一定義或權(quán)威說法。學(xué)者們指出高價值專利有狹義與廣義之分,狹義的高價值專利是指具備高經(jīng)濟(jì)價值的專利,廣義的高價值專利除高經(jīng)濟(jì)價值外,還包括高市場價值、戰(zhàn)略價值、技術(shù)價值和法律價值[20-22]。也有學(xué)者認(rèn)為高價值專利特征為有用性和有益性[23],是眾多因素綜合作用的結(jié)果,不僅對企業(yè)和社會有經(jīng)濟(jì)發(fā)展貢獻(xiàn),還能帶來預(yù)期收益和額外回報[24-25]。還有學(xué)者認(rèn)為高價值專利的高價值指的是具備較高的使用價值、交換價值和附加價值,能夠為專利權(quán)人、其他主體、國家乃至社會帶來積極效果[26]。綜上可以發(fā)現(xiàn),關(guān)于高價值專利的研究,大都涉及技術(shù)、法律、市場、戰(zhàn)略和經(jīng)濟(jì)五個價值維度。其中,高經(jīng)濟(jì)價值是顯著特征,高技術(shù)價值和高法律價值是必要條件,實現(xiàn)高市場價值和高戰(zhàn)略價值,方可最終成為高價值專利。本文所述的高價值專利為廣義概念,指具有良好文本質(zhì)量,集較高的技術(shù)創(chuàng)新、穩(wěn)定的法律保障、較大的市場潛力、戰(zhàn)略競爭力及經(jīng)濟(jì)效益于一體的專利,不僅具有技術(shù)的深度與廣度,還具有法律上的堅固地位,可滿足并驅(qū)動市場需求,為持有者確立長期的戰(zhàn)略優(yōu)勢,并帶來顯著的經(jīng)濟(jì)效益。

        2.2 專利指標(biāo)選取

        專利價值具有不確定性、時效性以及模糊性[27],且影響專利價值的因素眾多,故需要科學(xué)選取高價值專利評估指標(biāo),從而準(zhǔn)確、高效識別高價值專利。學(xué)者們基于不同視角構(gòu)建了多種高價值專利評估體系[28-32],例如技術(shù)和市場、技術(shù)和經(jīng)濟(jì)、技術(shù)和法律等二維評估體系,法律、技術(shù)和市場/經(jīng)濟(jì)等三維評估體系,技術(shù)、法律、市場和戰(zhàn)略/競爭/風(fēng)險等四位評估體系以及技術(shù)、法律、市場、戰(zhàn)略、經(jīng)濟(jì)/應(yīng)用等的五維評估體系。為全面反映專利的價值,提取專利的特征,本文根據(jù)高價值內(nèi)涵及前人研究,從五個維度選取了12項計量指標(biāo),指標(biāo)名稱及含義如表1所示。

        表1 高價值專利評估指標(biāo)

        2.3 基于BERT-BiLSTM-XGBoost模型的高價值專利識別

        專利文本的豐富性和復(fù)雜性為專利價值評估帶來挑戰(zhàn)。本文的高價值專利評估模型,如圖1所示,利用深度學(xué)習(xí)理解專利文本的專業(yè)術(shù)語和邏輯結(jié)構(gòu),提取專利價值的關(guān)鍵信息,結(jié)合其他專利指標(biāo)數(shù)據(jù),如引用量和權(quán)項數(shù)等,模型構(gòu)建了一個全面評估專利技術(shù)、商業(yè)和法律價值的體系,有效處理復(fù)雜的專利文本,提供科學(xué)、客觀和精準(zhǔn)的評估工具。具體而言,本研究的模型包含四個主要部分。首先,利用BERT模型對專利文本進(jìn)行預(yù)訓(xùn)練,然后將每段文本送入預(yù)訓(xùn)練后的BERT模型中,實現(xiàn)特征提取。其次,將經(jīng)過表征的文本按照順序(即摘要、權(quán)利要求1、權(quán)利要求2、……、權(quán)利要求k)輸入到基于BiLSTM的文本分類模型中,進(jìn)行進(jìn)一步的特征提取。隨后,將上一步所提取的特征作為專利文本的內(nèi)容理解特征,并與專利指標(biāo)特征進(jìn)行融合。最后,將融合后的特征輸入到XGBoost模型中,實現(xiàn)高價值專利的分類任務(wù)。

        圖1 BERT-BiLSTM-XGBoost的模型結(jié)構(gòu)

        本文整合了BERT、BiLSTM和XGBoost技術(shù),基于各組件在信息處理方面的特性,構(gòu)建了一個多層次的模型,旨在精確地識別高價值專利。BERT具有深度雙向特性,在多種NLP任務(wù)中已展現(xiàn)出優(yōu)異的預(yù)訓(xùn)練和特征捕獲能力,為深入解析專利文本的語義提供了有力支持。BiLSTM在捕獲文本的長序列關(guān)系具有明顯的優(yōu)勢,特別適合處理結(jié)構(gòu)化的專利文檔。XGBoost作為一種高效的梯度增強算法,保證了在融合多種特征后模型能夠達(dá)到最佳的分類效果。通過這三種技術(shù)的結(jié)合,該模型不僅能夠深度解讀文本中的關(guān)鍵信息,還可以充分利用多樣的專利指標(biāo),極大提高了對高價值專利的識別準(zhǔn)確性。專利的文本特征主要反映其技術(shù)內(nèi)容、創(chuàng)新程度和法律保護(hù)范圍,而指標(biāo)特征則展示其在市場上的表現(xiàn)、被引頻次及專利家族等信息,兩種特征互為補充,滿足了本文定義的高價值專利內(nèi)涵,二者的結(jié)合可以實現(xiàn)對專利真實價值和市場地位更為全面的綜合評估。

        2.3.1基于BERT-BiLSTM的文本分類模型

        專利的權(quán)利要求部分詳細(xì)描述了其核心技術(shù)內(nèi)容,確保專利的獨特性和技術(shù)特點得到保護(hù)。本文針對該關(guān)鍵部分,結(jié)合BERT與BiLSTM的特點進(jìn)行深入的文本信息抽取,確保專利文本的深度語義特征得到了精確的抽取,為高價值專利的分類構(gòu)建了堅實的特征基礎(chǔ)。

        公共英語課程作為學(xué)生在校期間的必修課,教學(xué)應(yīng)當(dāng)遵循“實用為主,夠用為度”的原則,以就業(yè)崗位所需為目標(biāo),培養(yǎng)學(xué)生目標(biāo)崗位的綜合能力。既要重基礎(chǔ),也要重需求——強調(diào)職業(yè)需求的牽引作用。例如,在文秘專業(yè)學(xué)生的公共英語教學(xué)上,除了讓學(xué)生掌握基礎(chǔ)英語知識,培養(yǎng)基本英語素養(yǎng),還應(yīng)該在各個學(xué)習(xí)模塊中補充相關(guān)行業(yè)禮儀等知識。

        首先,利用BERT[33]模型,特別是其為中文設(shè)計的BERT-base-Chinese版本,為每一段摘要和權(quán)利要求生成768維的特征向量。這些向量不僅反映了文本的局部信息,還融入了全文的上下文信息,從而提供了語義豐富的基礎(chǔ)。針對文本的邏輯和順序關(guān)系,BiLSTM的引入變得尤為關(guān)鍵。與傳統(tǒng)LSTM的單向信息捕獲不同,BiLSTM從兩個方向上獲取上下文信息。如圖2所示,BERT輸出的特征向量被輸入到BiLSTM中,進(jìn)一步強化了摘要與權(quán)利要求的雙向上下文關(guān)系。這對于揭示權(quán)利要求的邏輯和順序尤為重要。模型的后續(xù)部分包括全連接層Fc1和分類層Fc2。Fc1層旨在降維并平衡文本與專利指標(biāo)特征的數(shù)量差異,以防止模型在處理時過度偏重某一特征。經(jīng)過訓(xùn)練后,全連接層和分類層的特征通過concat拼接,得到綜合文本特征,為下游模型提供了豐富的信息。

        圖2 BiLSTM文本分類模型結(jié)構(gòu)

        2.3.2基于特征融合的高價值專利分類

        為更全面地利用專利文本的語義信息與具體的專利指標(biāo),本文采納了一種綜合的特征融合方法。首先,從BiLSTM模型中得到了一個18維的特征向量,該向量捕獲了專利文本中的高級語義特征。此外,還有一個12維的向量代表從五大維度(技術(shù)、法律、市場、戰(zhàn)略和經(jīng)濟(jì)價值)提煉的專利指標(biāo)。為了在模型中同時考慮這兩種信息,本文選擇直接串聯(lián)這兩組特征,形成一個30維的特征向量。然而,由于這兩組特征來自不同的數(shù)據(jù)源,尺度和分布可能會有所不同。為確保模型能夠平等地考慮每個特征,對整個30維的特征向量進(jìn)行了Z-score歸一化處理,使其均值為0,標(biāo)準(zhǔn)差為1。在完成特征融合和處理后選擇了XGBoost作為分類器,該分類器是一個高效的梯度提升決策樹模型,可以計算出每個特征的重要性分?jǐn)?shù),處理冗余和不重要的特征[34],特別適用于本文的特征融合策略。

        通過這種綜合的特征融合策略,本文模型不僅捕獲了專利文本的細(xì)致語義信息,還確保了五大維度的專利指標(biāo)得到充分考慮。此方法提供了一個均衡且信息豐富的特征空間,進(jìn)一步增強了模型在專利價值分類上的判斷力,為未來相關(guān)領(lǐng)域的研究提供了新的思路和方向。

        3 實驗過程與結(jié)果分析

        3.1 數(shù)據(jù)來源

        本文數(shù)據(jù)庫為壹專利(Patyee)數(shù)據(jù)庫,其依托于奧凱專利大數(shù)據(jù)中心,涵蓋全球159個國家的1.65億多條專利數(shù)據(jù),檢索性能高效,搜索引擎穩(wěn)定,檢索結(jié)果精準(zhǔn)。當(dāng)下我國明確將獲得國家科學(xué)技術(shù)獎或中國專利獎的發(fā)明專利納入高價值發(fā)明專利擁有量統(tǒng)計范圍。故本研究采用獲得中國專利獎(專利類型為發(fā)明授權(quán))作為高價值專利的正樣本,近五屆中國專利獎(專利類型為發(fā)明授權(quán))的獲獎情況如表2所示。

        表2 中國專利獎近五屆獲獎情況(發(fā)明授權(quán))

        通過表2的數(shù)據(jù)可以得知,在所有IPC分類中,電學(xué)(H)領(lǐng)域獲獎個數(shù)最多增幅最大,這表明國家在電學(xué)領(lǐng)域,尤其是基本電氣原件(H01)和電通信技術(shù)(H04)方面,給予了相對更多的支持和重視。基本電氣原件和電通信技術(shù)的創(chuàng)新技術(shù)發(fā)展有助于國家解決“卡脖子”技術(shù)難題,對推動國家自主創(chuàng)新,促進(jìn)國家經(jīng)濟(jì)高質(zhì)量發(fā)展和保障國家安全具有重要意義[35]。本研究專注于研究基本電氣元件和電通信領(lǐng)域的專利,這些專利不僅代表了技術(shù)的前沿,而且在促進(jìn)產(chǎn)業(yè)升級和社會經(jīng)濟(jì)發(fā)展方面具有實際的應(yīng)用價值。實驗選取H01和H04這兩個大類里近五屆中國專利獎的302件專利作為高價值專利正樣本,另外隨機選取相同IPC內(nèi)3000件沒有獲獎的專利作為負(fù)樣本。從壹專利數(shù)據(jù)庫下載需要的專利數(shù)據(jù)作為數(shù)據(jù)集,其中包含專利的摘要、權(quán)利要求書以及各項專利指標(biāo)等信息。在構(gòu)建好包含專利文本和專利指標(biāo)的數(shù)據(jù)集后,將其按照8∶1∶1的比例劃分為訓(xùn)練集,驗證集和測試集來用于模型的訓(xùn)練和測試。

        3.2 模型評價指標(biāo)

        根據(jù)真實標(biāo)簽與預(yù)測標(biāo)簽可以得到如表3所示的混淆矩陣。其中TP表示真正例、FP表示假正例、TN表示真反例、FN表示假反例。

        表3 分類結(jié)果混淆矩陣

        本文根據(jù)數(shù)據(jù)集類別不均衡特性選擇精確度P(Precision)、召回率R(Recall)和F1值(F1-Score)這3個指標(biāo)對實驗?zāi)P瓦M(jìn)行評估。根據(jù)混淆矩陣,各個評價指標(biāo)的計算方式分別為:

        P=TP/(TP+FP)

        (1)

        R=TP/(TP+FN)

        (2)

        F1=(2×P×R)/(P+R)

        (3)

        3.3 文本特征提取對比實驗

        本文所有實驗平臺的處理器為i7-10875H,內(nèi)存為16G,模型搭建框架為PyTorch,GPU為RTX2060S,以Bert-base-Chinese作為BERT預(yù)訓(xùn)練模型。BERT-BiLSTM專利文本特征提取模型包含兩個階段,第一階段為BERT在專利數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,第二階段為使用預(yù)訓(xùn)練的BERT表征文本后送入基于BiLSTM的文本分類模型進(jìn)行專利價值二分類。模型參數(shù)如表4所示。

        表4 特征提取模型參數(shù)設(shè)置

        選擇TextCNN、TextRNN和BERT-CNN[36]與BERT-BiLSTM方法進(jìn)行對比,對比模型訓(xùn)練參數(shù)與本文模型參數(shù)設(shè)置保持一致。為提高實驗結(jié)果的可信度,采用五次重復(fù)實驗,以減少偶然性和誤差,并將五次實驗的結(jié)果取平均值作為最終結(jié)果。實驗結(jié)果如表5所示。

        表5 文本特征提取對比實驗結(jié)果

        TextCNN:對輸入文本進(jìn)行卷積、池化操作,得到卷積特征圖;再對多個卷積核得到的特征圖進(jìn)行池化操作,得到多通道池化特征圖;將池化特征圖通過全連接層映射到分類標(biāo)簽空間,使用Softmax函數(shù)得到最終的分類結(jié)果。

        TextRNN:對輸入文本進(jìn)行循環(huán)神經(jīng)網(wǎng)絡(luò)處理,得到每個時間步的隱狀態(tài);對隱狀態(tài)進(jìn)行池化操作,得到池化特征向量;將池化特征向量通過全連接層映射到分類標(biāo)簽空間,使用softmax函數(shù)得到最終的分類結(jié)果。

        BERT-CNN:使用預(yù)訓(xùn)練的BERT模型對輸入文本進(jìn)行編碼,得到每個詞的BERT向量表示;通過卷積和池化操作提取文本特征;將特征向量通過全連接層映射到分類標(biāo)簽空間,使用Softmax函數(shù)得到最終的分類結(jié)果。

        根據(jù)表5的結(jié)果,TextCNN在本文中的數(shù)據(jù)集上體現(xiàn)優(yōu)于TextRNN,精度提高了7.01%,但兩種模式的精確度、召回率和F1值都相對較低。TextCNN和TextRNN在中文發(fā)明專利高價值分類問題上的體現(xiàn)不盡如人意,這說明中文發(fā)明專利文本與日常文章相比存在顯著差異,其中專有名詞和新造詞語較多,句子相互之間的邏輯性和聯(lián)系更加密切,而且內(nèi)容上對價值的體現(xiàn)也更加抽象。因此,模型提煉文章中詞與詞、句與句相互聯(lián)系特點的能力所需更高。BERT-CNN模型在中文專利文本高價值分類方面表現(xiàn)出色,其準(zhǔn)確率遠(yuǎn)超TextCNN和TextRNN,表明BERT模型即便處理綜合性較強、邏輯性較嚴(yán)密的文字,亦能獲得良好的語義表征效果。使用BiLSTM取代CNN進(jìn)行分類任務(wù)后,本文提出的BERT-BiLSTM的分類精度顯著提高,達(dá)到72.41%,比傳統(tǒng)的BERT-CNN提升了8%以上,而且召回率和F1值也都超過了70%,主要源于BiLSTM是一種時間序列數(shù)據(jù)的網(wǎng)絡(luò)架構(gòu),它的“記憶”功能在提取專利文本上下文信息的中發(fā)揮了重要作用。此外,從表5中也可以看出同時使用摘要和權(quán)利要求書比單獨使用摘要或權(quán)利要求書效果更好,并且權(quán)利要求書中包含更多能反映專利價值的特征。

        3.4 分類器對比實驗

        為驗證本文基于內(nèi)容理解與指標(biāo)融合方法的有效性和優(yōu)越性,選取多層感知機(MLP)、支持向量機(SVM)作為XGBoost的對比模型,通過實驗嘗試獲得這3個機器學(xué)習(xí)模型的最佳參數(shù)。MLP配置包含四個隱藏層,每層由64個神經(jīng)元組成,優(yōu)化策略采用隨機梯度下降,損失函數(shù)選擇交叉熵?fù)p失函數(shù),而迭代次數(shù)則設(shè)定為100次。SVM懲罰系數(shù)定為1,選用徑向基函數(shù)作為核函數(shù),同時設(shè)定gamma值為0.2。對于XGBoost模型,選擇gbtree作為基模型,學(xué)習(xí)率定為0.1,設(shè)定樹的最大深度為6,且n_estimators參數(shù)設(shè)定為100。實驗結(jié)果如圖3所示,圖中N代表僅使用專利指標(biāo)進(jìn)行分類,而未使用BERT-BiLSTM提取文本特征,Y代表使用BERT-BiLSTM提取專利文本特征并融合了專利指標(biāo)特征。

        (a)P(精確度)

        由上述結(jié)果可知,本文提出的BERT-BiLSTM-XGBoost方法精確度達(dá)到了74.19%,召回率達(dá)到了76.66%,F1值達(dá)到了75.4%。在僅使用專利指標(biāo)特征的模型中,XGBoost模型效果最好,準(zhǔn)確率達(dá)到70%。不論何種分類模型,在融合專利文本特征后,精確率,召回率和F1值都得到較大提升。以精確率為例,提升最小的是SVM模型增加了10.14%,提升最大的是XGBoost模型增加了16.13%,平均增加13.82%。本文提出的模型在中文專利高價值分類這一任務(wù)上的表現(xiàn)優(yōu)于其他對比模型,將專利文本內(nèi)容特征和指標(biāo)特征進(jìn)行融合能夠有效提升專利高價值分類精度、召回率和F1值。

        4 結(jié) 語

        本文使用專利文本與指標(biāo),以高價值專利識別為目標(biāo),采用基于特征融合的方法構(gòu)建了高價值專利識別模型。本文模型能夠提取專利的文本特征并與專利指標(biāo)特征進(jìn)行融合,然后通過樹模型自動化地進(jìn)行高價值專利識別。具體而言,該方法先使用BERT-BiLSTM模型學(xué)習(xí)專利的摘要和權(quán)利要求書的內(nèi)容來挖掘出專利文本的上下文、順序特征和邏輯特征,然后與專利指標(biāo)特征進(jìn)行融合,最后使用XGBoost進(jìn)行高價值分類。本文以基本電氣原件和電通信技術(shù)這兩個大類里近五屆中國專利獎的專利作為樣本進(jìn)行實證分析,驗證了模型的有效性和可靠性。研究結(jié)果表明:

        a.本文提出的基于內(nèi)容理解與指標(biāo)融合的高價值專利識別方法,可以很好地對高價值專利進(jìn)行識別。該方法優(yōu)越性主要在于專利的文本特征揭示了專利的技術(shù)細(xì)節(jié)、創(chuàng)新水平以及法律保障的邊界等信息,指標(biāo)特征體現(xiàn)了專利在市場上的表現(xiàn)、被引用的狀況以及專利家族的相關(guān)信息。這兩種特征相輔相成,將其融合能更有效地挖掘出專利的潛在價值和市場競爭力,有效改善了僅依賴指標(biāo)特征而忽視深層次的信息導(dǎo)致評價不準(zhǔn)確的問題。

        b.BERT-BiLSTM結(jié)構(gòu)能夠有效的提取專利的文本特征。在處理專利文本時,BERT 可以提供強大的上下文感知能力,而 BiLSTM 可以幫助捕捉文本中的序列信息。故BERT-BiLSTM 結(jié)構(gòu)可以有效地提取專利的文本特征。此外,在對專利文本特征進(jìn)行提取時,綜合使用摘要和權(quán)利要求書通常會帶來效果更好。摘要反映了專利的核心思想,權(quán)利要求書包含了關(guān)于專利具體內(nèi)容和保護(hù)范圍的深入信息,結(jié)合使用不僅能為專利分析提供更全面視角,還能更準(zhǔn)確地反映專利的真正價值和重要性。

        c.在特征融合分類器方面,本文共構(gòu)建了多層感知機、支持向量機、梯度提升決策樹三種機器學(xué)習(xí)模型,研究發(fā)現(xiàn)梯度提升決策樹模型,在處理文本和指標(biāo)特征的拼接時表現(xiàn)出顯著優(yōu)勢。其樹結(jié)構(gòu)算法能夠適應(yīng)不同數(shù)據(jù)域的異構(gòu)性,尤其對高維文本特征展現(xiàn)出穩(wěn)健性,在高價值專利識別方面具有較好的魯棒性和準(zhǔn)確性。

        本文的貢獻(xiàn)主要為基于專利文本和指標(biāo)的視角,構(gòu)建出了融合文本特征和指標(biāo)特征的高價值專利識別方法,為專利高價值評估探索了新的理論視角,深化了專利文本特征提取的理論基礎(chǔ),為企業(yè)、學(xué)術(shù)界和政府部門在高價值專利篩選與培育中提供了有力的技術(shù)支持。實驗結(jié)果表明該方法能夠有效提升高價值專利分類的準(zhǔn)確性,為進(jìn)一步識別高價值專利奠定了理論和方法基礎(chǔ)。然而,本研究仍存在局限與不足。一方面,文本特征和指標(biāo)特征選用的完備性仍不夠,未來研究中將考慮融合更多的文本信息,挖掘出更多能表明專利價值的指標(biāo),進(jìn)一步提升模型的適用性和分類準(zhǔn)確性。另一方面,本文模型采取了BERT-BiLSTM的深度學(xué)習(xí)模型和XGBoost模型結(jié)合的方案,其算法時間復(fù)雜度和計算復(fù)雜度較高,未來研究可以考慮輕量化網(wǎng)絡(luò)結(jié)構(gòu),對模型進(jìn)行剪枝、量化和知識蒸餾。

        猜你喜歡
        專利分類價值
        專利
        水運工程(2022年7期)2022-07-29 08:37:38
        分類算一算
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        一粒米的價值
        “給”的價值
        專利
        節(jié)能——環(huán)?!獙@?/a>
        軸承(2010年2期)2010-04-04 09:23:11
        中文字幕乱码人妻在线| 99国产精品视频无码免费| 欧美久久中文字幕| 福利视频在线一区二区三区| 国产成人综合久久久久久| 97久久精品亚洲中文字幕无码| 国产日韩久久久精品影院首页| 国产精品成人黄色大片| 亚洲处破女av日韩精品中出| 人妻少妇精品无码专区动漫| 国产精品理人伦国色天香一区二区 | av中文字幕在线资源网| 国产熟女露脸91麻豆| 国产午夜精品综合久久久| 久久久99精品免费视频| 久久久久久好爽爽久久| 国产成人8x视频网站入口| 国产精品高清免费在线| 精品无码一区二区三区爱欲| 国产成人久久精品77777综合| 国产精品福利久久香蕉中文| 全部亚洲国产一区二区| 人妻无码一区二区三区免费| 久久免费网国产AⅤ| 久久国产劲爆内射日本| 国产激情视频免费在线观看| 免费国产黄网站在线观看| 午夜影视啪啪免费体验区入口| 自拍偷区亚洲综合激情| 成人免费无遮挡在线播放| 杨幂AV污网站在线一区二区| 国产麻豆放荡av激情演绎| 国产婷婷色一区二区三区深爱网| 亚洲精品午夜无码电影网| 久久尤物av天堂日日综合| 新久久国产色av免费看| 人妻丰满熟妇av无码区| 国产成人亚洲综合一区| 久久精品伊人久久精品| 日韩av无码一区二区三区不卡| 人妻无码人妻有码中文字幕|