張 彪 吳 紅 高道斌 李劍飛 崔 哲
(山東理工大學(xué)信息管理研究院 淄博 255049)
高校是國家創(chuàng)新體系的重要組成部分,承擔(dān)著突破原創(chuàng)性基礎(chǔ)研究、攻克關(guān)鍵核心技術(shù)、破解創(chuàng)新發(fā)展難題的重任,每年有大量的科技成果產(chǎn)出,且多以專利的形式存在,專利轉(zhuǎn)移是高校技術(shù)創(chuàng)新成果轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力的主要途徑。然而現(xiàn)實(shí)中,高校專利與市場經(jīng)濟(jì)的融合并不理想,2020年專利產(chǎn)業(yè)化率僅為3%[1],遠(yuǎn)低于美國等西方發(fā)達(dá)國家,科研資源浪費(fèi)嚴(yán)重。高校專利只有落在產(chǎn)業(yè)上,才能真正發(fā)揮其價(jià)值。近年來,我國為促進(jìn)高校專利轉(zhuǎn)移,已經(jīng)相繼推出眾多法律政策,如教科技〔2020〕1號文件《提升高等學(xué)校專利質(zhì)量促進(jìn)轉(zhuǎn)化運(yùn)用的若干意見》就明確指出,要樹立高校專利等科技成果只有轉(zhuǎn)移才能實(shí)現(xiàn)創(chuàng)新價(jià)值、不轉(zhuǎn)移是最大損失的理念;《知識產(chǎn)權(quán)強(qiáng)國建設(shè)綱要(2021—2035年)》明確指出,要打通知識產(chǎn)權(quán)創(chuàng)造、運(yùn)用、保護(hù)、管理和服務(wù)全鏈條,加大創(chuàng)新成效轉(zhuǎn)化力度。由于不是所有高校專利都具有轉(zhuǎn)移潛力,所以如何快速而準(zhǔn)確地從高校專利中識別出具有轉(zhuǎn)移潛力的技術(shù)成果,就成為高校合理進(jìn)行專利運(yùn)營、推動(dòng)科技成果與市場對接迫切解決的嚴(yán)峻問題。
目前國內(nèi)外學(xué)者就如何識別可轉(zhuǎn)移專利已經(jīng)進(jìn)行了廣泛研究,取得了豐富成果。雖然成果的稱謂有所差異,如潛在技術(shù)轉(zhuǎn)移專利識別、專利技術(shù)轉(zhuǎn)移價(jià)值評估等,但就其目的而言大同小異,研究內(nèi)容主要分為指標(biāo)評價(jià)方法和專利分析方法[2]。
此類研究多是在選取評估指標(biāo)的基礎(chǔ)上,通過定量分析或機(jī)器學(xué)習(xí)模型進(jìn)行識別。a.定量分析。Marco等[3]提出可以通過專利的獨(dú)立權(quán)利要求數(shù)量及其字?jǐn)?shù)判斷專利價(jià)值,專利權(quán)力范圍越大,其轉(zhuǎn)移的可能性越高。Zhang等[4]采用信息熵對發(fā)明人數(shù)量、IPC數(shù)量等指標(biāo)進(jìn)行加權(quán),并使用協(xié)同過濾技術(shù)排除創(chuàng)造性低的專利,進(jìn)而識別可轉(zhuǎn)移專利。李振亞等[5]選取科技文獻(xiàn)引用數(shù)、專利引證量、訴訟次數(shù)等評估指標(biāo),通過專家討論和AHP等方法對指標(biāo)賦權(quán)、計(jì)算專利綜合價(jià)值,進(jìn)而篩選可轉(zhuǎn)移專利。b.機(jī)器學(xué)習(xí)模型。Kim[6]選取了相似專利數(shù)、簡單同族數(shù)量、權(quán)利人專利歷史被引數(shù)、權(quán)利人專利歷史轉(zhuǎn)讓數(shù)等指標(biāo),使用隨機(jī)森林、邏輯回歸等方法構(gòu)建了可轉(zhuǎn)移專利識別模型。武玉英等[7]分別構(gòu)建了用于專利可轉(zhuǎn)移性評價(jià)的說明書頁數(shù)、申請人數(shù)量等內(nèi)部指標(biāo)和專利權(quán)人類型、專利權(quán)人擁有的IPC個(gè)數(shù)等外部指標(biāo),結(jié)合高階神經(jīng)元將深度神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于可轉(zhuǎn)移專利識別。冉從敬等[8]利用LDA主題模型對專利文本進(jìn)行聚類,將專利主題融入專利評估指標(biāo),利用AdaBoost算法構(gòu)建了高校可轉(zhuǎn)移專利識別模型。上述研究選取的指標(biāo)較為多樣,但數(shù)據(jù)多是源自專利文獻(xiàn)自身,沒有考慮技術(shù)供給方、行業(yè)環(huán)境等其他專利轉(zhuǎn)移影響因素。另外,雖有學(xué)者使用技術(shù)主題代表專利文本語義特征,并基于機(jī)器學(xué)習(xí)構(gòu)建了可轉(zhuǎn)移專利識別模型,但技術(shù)主題的粗粒度降低了語義特征的完整性,更遑論專利文本蘊(yùn)含的深層次語義特征,識別結(jié)果的準(zhǔn)確度仍有待于進(jìn)一步提高。
該類研究主要以引文分析法、社會(huì)網(wǎng)絡(luò)分析法、TRIZ分析法為主[9]。a.引文分析法。Park等[10]基于美國專利商標(biāo)局的韓國航空產(chǎn)業(yè)專利數(shù)據(jù),從知識流動(dòng)和流出的視角出發(fā),使用專利引文對相關(guān)指標(biāo)進(jìn)行量化測度專利轉(zhuǎn)移的可能性。楊冠燦等[11]基于矩陣轉(zhuǎn)化方法對直接引用、間接引用、耦合、共引4種單一專利引用關(guān)系進(jìn)行合并、重組,篩選高價(jià)值專利。b.社會(huì)網(wǎng)絡(luò)分析法。劉雯等[12]基于中國高校專利出售數(shù)據(jù)和合作專利信息,通過社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)、密度、最大連通度等變量探究了高校科研人的社會(huì)網(wǎng)絡(luò)對專利轉(zhuǎn)移的影響。崔斌等[13]基于科研院所的專利數(shù)據(jù)構(gòu)造了合作網(wǎng)絡(luò),分析了校企合作對專利轉(zhuǎn)移的主要影響因素及其作用路徑。c.TRIZ分析法。Park等[14]提出采用TRIZ演化趨勢作為專利價(jià)值評估的標(biāo)準(zhǔn),并分析專利文本中的SAO結(jié)構(gòu)確定可轉(zhuǎn)移專利。詹文青等[15]基于TRIZ方法標(biāo)注專利文獻(xiàn)和技術(shù)需求的技術(shù)問題、技術(shù)功能、技術(shù)效果三種技術(shù)特征詞組,計(jì)算專利文獻(xiàn)和技術(shù)需求的相似性,根據(jù)相似度排序識別潛在的可轉(zhuǎn)移專利。上述研究使用方法較為多樣,但仍存在以下不足:引文分析法側(cè)重對已發(fā)生轉(zhuǎn)移的回顧總結(jié),預(yù)見性不強(qiáng);社會(huì)網(wǎng)絡(luò)分析法多是就高校專利轉(zhuǎn)移的影響因素進(jìn)行研究,無法準(zhǔn)確測度專利的具體轉(zhuǎn)移潛力;TRIZ分析法采用文本挖掘技術(shù),從專利文獻(xiàn)內(nèi)容與市場需求的相似度出發(fā)識別可轉(zhuǎn)移專利,但識別過于理想簡單,未能考慮到專利轉(zhuǎn)移的復(fù)雜性,研究還有待進(jìn)一步完善。
基于此,本研究擬提出一種基于特征融合的高校可轉(zhuǎn)移專利識別方法,旨在通過改進(jìn)機(jī)器學(xué)習(xí)訓(xùn)練的特征質(zhì)量從而提高識別準(zhǔn)確率。為保證專利文本信息的完整性,研究采用Word2vec自然語言處理技術(shù)細(xì)粒度抽取專利文本的內(nèi)部語義特征,并且基于多源數(shù)據(jù)選取外圍評估指標(biāo),將內(nèi)部語義特征和外圍評估指標(biāo)進(jìn)行融合處理,篩除冗余信息,創(chuàng)建內(nèi)容全面、綜合的新特征,在此基礎(chǔ)上構(gòu)建高??赊D(zhuǎn)移專利識別模型,以期更全面、客觀、準(zhǔn)確地識別高??赊D(zhuǎn)移專利。
專利轉(zhuǎn)移作為將發(fā)明引入市場并作用于經(jīng)濟(jì)增長的商業(yè)行為,涉及需求、開發(fā)、推廣等眾多要素。能否成功轉(zhuǎn)移除了技術(shù)內(nèi)容自身(內(nèi)部語義特征),還要受到專利質(zhì)量、高校研發(fā)實(shí)力和社會(huì)信譽(yù)等外圍特征的影響。一方面,《專利法》規(guī)定專利說明書要對技術(shù)方案作出清楚完整的描述,與專利摘要、權(quán)利要求書等文本內(nèi)容相比,專利說明書包括技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容、具體實(shí)施方式等內(nèi)容,具有更豐富的語義信息,通過自然語言處理技術(shù)深層次挖掘得到的語義特征,是判斷專利能否轉(zhuǎn)移的關(guān)鍵內(nèi)部特征。另一方面,高校的研發(fā)實(shí)力及社會(huì)信譽(yù)(如專利產(chǎn)出數(shù)量、科學(xué)文獻(xiàn)數(shù)量、基金數(shù)量)、存在于專利著錄項(xiàng)目中的多維信息、領(lǐng)域企業(yè)數(shù)據(jù)、行業(yè)發(fā)展前景等,都是判斷專利能否轉(zhuǎn)移的重要外圍信息,它們能夠從不同維度、多個(gè)視角對專利的轉(zhuǎn)移潛力進(jìn)行判斷[16],是本研究用于展示外圍特征的重要評估指標(biāo)。將兩者進(jìn)行融合與集成,可以在增加信息量的同時(shí)排除各類信息帶來的不確定性影響,篩除冗余、消除數(shù)據(jù)噪音,生成內(nèi)容全面、綜合的新特征[17],更有利于提高模型訓(xùn)練的特征質(zhì)量,實(shí)現(xiàn)對高校專利轉(zhuǎn)移潛力進(jìn)行全方位科學(xué)判斷。
特征融合的前提是數(shù)據(jù)類型的統(tǒng)一,自然語言處理中的Word2Vec可以將文本型的專利語義信息轉(zhuǎn)化為數(shù)值型的向量來表征語義特征,這為特征融合提供了必要的技術(shù)支持。因此,本研究的設(shè)計(jì)如下:首先,基于Word2Vec進(jìn)行專利文本內(nèi)部語義特征的提??;其次,綜合考慮各類信息從多個(gè)數(shù)據(jù)源獲取外圍評估指標(biāo);然后,借助主成分分析方法將內(nèi)外特征降維融合重組,提取數(shù)據(jù)的主要特征分量,得到凝練的新特征;最后,借助機(jī)器學(xué)習(xí)構(gòu)建可轉(zhuǎn)移專利識別模型驗(yàn)證本方法的有效性。
a.詞語向量化處理。獲取專利文本語義特征,首先需要考慮詞語在計(jì)算機(jī)中的表示。在自然語言處理中,詞語的表示已經(jīng)從最初的離散表示發(fā)展為常見的分布式表示,Word2Vec[18]是常用的單詞分布式表示模型,其思想是將單詞從原先所屬的空間嵌入到一個(gè)新的多維空間中,使得語義上相似的單詞在該空間內(nèi)呈現(xiàn)較近的距離。通過學(xué)習(xí)文本可以把語義信息的處理簡化為多維向量空間中的向量運(yùn)算,相比于One-hot等高維、稀疏的表示法,Word2Vec訓(xùn)練出的詞向量是低維、稠密的,而且利用詞的上下文信息,語義信息更加豐富,解決了向量稀疏和語義聯(lián)系兩個(gè)問題。本研究在實(shí)際操作中使用Li[19]等在Github公開的300維中文預(yù)訓(xùn)練詞向量模型進(jìn)行專利文本的詞語轉(zhuǎn)化,該模型基于中文維基百科語料進(jìn)行訓(xùn)練,能夠滿足專利文本中各種詞匯的向量化表示。
b.語義特征提取。在詞語向量化的基礎(chǔ)上進(jìn)行語義特征的提取,本研究采用Arora等[20]提出的SIF(smooth inverse frequency,平滑倒詞頻)加權(quán)平均詞向量,該方法與平均詞向量、TF-IDF加權(quán)平均詞向量等相比能夠在文本表示上取得更優(yōu)的效果,計(jì)算過程分為兩步:
第1步,通過公式(1)(2)對句子中的所有詞向量進(jìn)行加權(quán)求和取平均得到句向量vs。
(1)
(2)
式中,a是參數(shù),本研究設(shè)置為0.001,p(w)是單詞在文本中出現(xiàn)的頻率,對于詞頻率越小的詞語w,SIF權(quán)值bw越大,即頻率越低的詞語在當(dāng)前文本的重要性越大,n代表文本s中的詞語數(shù)。
第2步,計(jì)算vs向量矩陣的第一個(gè)主成分u,用每個(gè)句向量vs減去其在u上的投影即為最終的專利文本內(nèi)部語義特征。
高校專利能否轉(zhuǎn)移受多種外圍特征的影響,具體可以從專利著錄項(xiàng)目、高校研發(fā)實(shí)力、區(qū)域行業(yè)發(fā)展?fàn)顩r三個(gè)方面得以體現(xiàn)。從專利著錄項(xiàng)目選取的專利文獻(xiàn)特征能夠在一定程度上表征專利質(zhì)量[21],專利質(zhì)量越高,其轉(zhuǎn)移的潛力越大;研發(fā)實(shí)力強(qiáng)的高校其專利質(zhì)量通常會(huì)更高,更容易獲得企業(yè)的青睞;就具體行業(yè)而言,某一區(qū)域的行業(yè)發(fā)展越成熟,意味著該區(qū)域在行業(yè)內(nèi)整體技術(shù)研發(fā)水平越高,區(qū)域內(nèi)與該行業(yè)相關(guān)的高校專利更容易獲得企業(yè)的認(rèn)可。對于專利著錄項(xiàng)目,指標(biāo)選取參考《專利價(jià)值分析指標(biāo)體系操作手冊》及文獻(xiàn)[9],注重指標(biāo)的易獲取性和可量化性,排除被引數(shù)量、存活壽命等時(shí)滯性指標(biāo),數(shù)據(jù)源自智慧芽。對于高校研發(fā)實(shí)力,用高校在領(lǐng)域內(nèi)的基金數(shù)目、基金金額、期刊文獻(xiàn)數(shù)量表征,數(shù)據(jù)源自LetPub國家自然科學(xué)基金數(shù)據(jù)庫和中國知網(wǎng)期刊數(shù)據(jù)庫。對于區(qū)域行業(yè)成熟度,用地區(qū)產(chǎn)業(yè)競爭力指數(shù)和區(qū)域相關(guān)企業(yè)數(shù)量表征高校所在地的產(chǎn)業(yè)競爭力、技術(shù)市場化水平,數(shù)據(jù)來源于行業(yè)報(bào)告和天眼查企業(yè)查詢系統(tǒng)(具體見表1)。
特征融合的目的是將內(nèi)外特征進(jìn)行壓縮、凝練,去除噪音,生成內(nèi)容豐富、質(zhì)量優(yōu)異的新特征,從而提高模型的性能,在進(jìn)行特征融合之前需要先對內(nèi)部語義特征與外圍評估指標(biāo)的數(shù)據(jù)類型進(jìn)行統(tǒng)一。研究采用300維的特征向量表示抽取的內(nèi)部語義特征;使用12維的特征向量表示每項(xiàng)專利的外圍評估指標(biāo),即[X11,X12,X13,X14,X15,X16,X17,X21,X22,X23,X31,X32]。
特征融合的常規(guī)做法是將所有特征向量拼接,但這樣會(huì)使得整個(gè)特征矩陣過于龐大、增加冗余信息對模型性能的干擾,而且不同的特征之間可能會(huì)存在某種相關(guān)性,導(dǎo)致后續(xù)構(gòu)建模型消耗時(shí)間過長且難以獲得最優(yōu)的參數(shù),降低模型性能。主成分分析(Principal Component Analysis,PCA)是一種常用的降維融合方法[22],其目的是以最少的信息丟失將原始高位矩陣的多變量轉(zhuǎn)換為少數(shù)幾個(gè)綜合變量,從而將數(shù)據(jù)投射到一個(gè)低維空間,達(dá)到降低特征空間維度、獲取新特征的效果,實(shí)現(xiàn)提升特征質(zhì)量的目的。本研究的特征融合架構(gòu)如圖1所示,首先將內(nèi)部語義特征與外圍評估指標(biāo)進(jìn)行橫向拼接作為原始特征,然后通過PCA對原始特征進(jìn)行降維融合處理,最終得到凝練、內(nèi)容全面的新特征。
表1 外圍評估指標(biāo)
圖1 特征融合架構(gòu)
設(shè)Xm×n是一個(gè)由m條專利數(shù)據(jù)和n個(gè)特征組成的矩陣,其中n=a+b,a代表內(nèi)部語義特征的維度,b代表外圍評估指標(biāo)的數(shù)量,用PCA對矩陣Xm×n的降維融合計(jì)算過程可用如下步驟表示:
第1步,對矩陣Xm×n進(jìn)行特征歸一化處理得到矩陣Am×n,計(jì)算協(xié)方差矩陣Rn×n;
第2步,求出協(xié)方差矩陣Rn×n的特征向量e1,e2,…,en和對應(yīng)的特征值λ1,λ2,…,λn,將特征值從大到小排序;
第3步,根據(jù)特征值的大小計(jì)算協(xié)方差矩陣第p列的方差貢獻(xiàn)率θp和前p列矩陣的累計(jì)方差貢獻(xiàn)率Τp,計(jì)算方法分別為公式(3)(4);
(3)
(4)
第4步,根據(jù)累計(jì)方差貢獻(xiàn)率Τp的大小確定降維矩陣的維數(shù)r,其中r≤n;
第5步,將前r個(gè)特征值對應(yīng)的特征向量作為投影矩陣Sn×r,最后將需要降維的矩陣Xm×n與Sn×r相乘即可得到降維后的矩陣Zm×r,即由m條專利數(shù)據(jù)和r個(gè)新特征組成的矩陣。
本研究基于機(jī)器學(xué)習(xí)構(gòu)建可轉(zhuǎn)移專利識別模型。機(jī)器學(xué)習(xí)是人工智能的關(guān)鍵技術(shù),通過對當(dāng)前數(shù)據(jù)的特征進(jìn)行學(xué)習(xí),尋找出最優(yōu)的目標(biāo)函數(shù)用以預(yù)測數(shù)據(jù)的類別或趨勢,可以提升解決問題的效率。在眾多機(jī)器學(xué)習(xí)算法中,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)[23]優(yōu)秀的性能受到普遍重視,它是對人腦神經(jīng)網(wǎng)絡(luò)若干基本特性的抽象和模擬,學(xué)習(xí)過程包括信號的正向傳播和誤差的反向傳播兩個(gè)過程,具有較強(qiáng)的容錯(cuò)、非線性映射能力。因此,本研究使用ANN驗(yàn)證所提方法的有效性?;谌斯ど窠?jīng)網(wǎng)絡(luò)構(gòu)建的可轉(zhuǎn)移專利識別模型架構(gòu)如圖2所示,包括輸入層、若干個(gè)隱藏層、輸出層,輸入為特征融合處理后的新特征[Z1,Z2,… ,Zr],輸出層神經(jīng)元個(gè)數(shù)為2,即專利可轉(zhuǎn)移與專利難以轉(zhuǎn)移兩種情況。
圖2 可轉(zhuǎn)移專利識別模型架構(gòu)圖
采用準(zhǔn)確率Accuracy、查準(zhǔn)率Precision、查全率Recall和調(diào)和平均值F1對模型的性能進(jìn)行評估,計(jì)算方法如公式(5)—公式(8)所示。式中M表示測試集中預(yù)測正確的數(shù)目,N表示測試集總數(shù)目,TP表示測試集中實(shí)際發(fā)生轉(zhuǎn)移且被預(yù)測正確的數(shù)目,PN表示測試集中預(yù)測可能發(fā)生轉(zhuǎn)移的數(shù)目,TN表示測試集中實(shí)際發(fā)生轉(zhuǎn)移的數(shù)目。
(5)
(6)
(7)
(8)
本研究以石墨烯領(lǐng)域進(jìn)行實(shí)證分析。以智慧芽數(shù)據(jù)庫中的中國發(fā)明專利和實(shí)用新型專利為專利數(shù)據(jù)源,以“TA:(石墨烯 OR graphene*) AND ANS:(大學(xué) OR 學(xué)院)”為檢索式,檢索時(shí)間為2021年7月13日。剔除存在缺失信息的專利后共得到10 539項(xiàng)專利。以LetPub國家自然科學(xué)基金數(shù)據(jù)庫、中國知網(wǎng)期刊數(shù)據(jù)庫為高校研發(fā)實(shí)力信息源,通過爬蟲手段根據(jù)高校專利權(quán)人信息獲取高校在石墨烯領(lǐng)域的基金、期刊數(shù)據(jù);在天眼查企業(yè)查詢系統(tǒng)按照省份收集區(qū)域的企業(yè)數(shù)據(jù),在中國電子信息產(chǎn)業(yè)發(fā)展研究院和國家新材料資源共享平臺收集到《2020年中國石墨烯產(chǎn)業(yè)發(fā)展競爭力指數(shù)》報(bào)告。
3.2.1數(shù)據(jù)集劃分
對收集到的10 539項(xiàng)高校專利數(shù)據(jù)依據(jù)法律狀態(tài)和法律事件抽取模型構(gòu)建所需要的數(shù)據(jù)集。類別一:發(fā)生過權(quán)力轉(zhuǎn)移或許可的專利1 008項(xiàng),代表可轉(zhuǎn)移專利;類別二:失效且沒發(fā)生過權(quán)力專利或許可的專利2 040項(xiàng),代表難以轉(zhuǎn)移的專利。為避免數(shù)據(jù)類別分布不平衡降低模型效果,對類別二的專利進(jìn)行欠采樣,隨機(jī)去掉部分樣本,得到1 008項(xiàng)。將類別一和類別二的專利合并,按照7:3的比例隨機(jī)劃分模型構(gòu)建的訓(xùn)練集和測試集。
3.2.2特征提取
a.內(nèi)部語義特征抽取。
首先使用Python語言的jieba分詞工具包對專利說明書進(jìn)行分詞、去停用詞等預(yù)處理操作,獲得以詞語為單位的文本信息;然后調(diào)用Gensim庫加載預(yù)訓(xùn)練的詞向量,根據(jù)2.1的方法使用編程語言將每項(xiàng)專利的說明書轉(zhuǎn)化為一個(gè)300維的特征向量用以表征專利內(nèi)部語義特征。
b.外圍評估指標(biāo)計(jì)算。
分別從專利著錄項(xiàng)目、高校研發(fā)實(shí)力、區(qū)域行業(yè)成熟度3個(gè)維度計(jì)算外圍評估指標(biāo)。對于專利著錄項(xiàng)目的相關(guān)指標(biāo),可從專利文獻(xiàn)中直接計(jì)算得到X11~X17;對于高校研發(fā)實(shí)力的相關(guān)指標(biāo),先通過收集到的期刊、基金信息計(jì)算X21~X23,然后依據(jù)專利權(quán)人名稱、基金單位名稱、期刊第一作者單位名稱將X21~X23與各項(xiàng)專利對應(yīng);對于區(qū)域行業(yè)成熟度,先通過行業(yè)報(bào)告、企業(yè)信息計(jì)算X31~X32,然后根據(jù)智慧芽專利數(shù)據(jù)庫提供的專利權(quán)人地址確定專利所屬區(qū)域,將相關(guān)指標(biāo)依據(jù)區(qū)域位置進(jìn)行對應(yīng)。最后統(tǒng)一將每項(xiàng)專利的外圍評估指標(biāo)轉(zhuǎn)化為12維的特征向量。
3.2.3特征融合
將內(nèi)部語義特征和外圍評估指標(biāo)橫向拼接后得到特征矩陣。在使用PCA算法進(jìn)行降維融合之前需要進(jìn)行KMO檢驗(yàn)和Bartlett球形檢驗(yàn),將訓(xùn)練集和測試集的數(shù)據(jù)分別導(dǎo)入到SPSS中,檢驗(yàn)結(jié)果如表2所示。
表2 KMO檢驗(yàn)和Bartlett球形檢驗(yàn)結(jié)果
根據(jù)檢驗(yàn)結(jié)果,訓(xùn)練集和測試集的KMO檢驗(yàn)系數(shù)都大于0.9,且Bartlett球形檢驗(yàn)顯著性都小于0.05,非常適合做主成分分析。使用Python語言調(diào)用PCA算法對特征矩陣進(jìn)行融合重組,計(jì)算累計(jì)方差貢獻(xiàn)率與特征數(shù)的關(guān)系,結(jié)果如圖3所示。
圖3 累計(jì)方差貢獻(xiàn)率-特征數(shù)目關(guān)系圖
使用Scikit-learn機(jī)器學(xué)習(xí)庫,基于人工神經(jīng)網(wǎng)絡(luò)(ANN)構(gòu)建可轉(zhuǎn)移專利識別模型,在具體構(gòu)建過程中,由于訓(xùn)練集數(shù)據(jù)樣本較少,因此采用五折交叉驗(yàn)證進(jìn)行模型訓(xùn)練,即將訓(xùn)練集分成5份,輪流將其中4份作為訓(xùn)練數(shù)據(jù),1份作為驗(yàn)證數(shù)據(jù),進(jìn)行試驗(yàn),最后求5次實(shí)驗(yàn)的平均準(zhǔn)確率評估模型的性能。為驗(yàn)證融合后獲得的新特征以及由其構(gòu)建的模型的有效性,研究將其與特征1和特征2進(jìn)行對比,其中特征1是借鑒文獻(xiàn)[8]、以技術(shù)主題代表專利文本的語義信息,即在外圍評估指標(biāo)的基礎(chǔ)上加上專利技術(shù)主題類別,并進(jìn)行歸一化,特征2為歸一化的外圍評估指標(biāo)。同時(shí),使用現(xiàn)有研究常用的邏輯回歸(LR)、高斯樸素貝葉斯(GaussianNB)、支持向量機(jī)(SVM)3種機(jī)器學(xué)習(xí)算法與ANN的性能進(jìn)行對比,驗(yàn)證ANN在本研究中的性能優(yōu)異性。
基于新特征構(gòu)建模型,首先需要確定降維融合最適合模型的特征數(shù),本研究在參數(shù)未調(diào)優(yōu)的情況下計(jì)算累計(jì)方差貢獻(xiàn)率對機(jī)器學(xué)習(xí)算法準(zhǔn)確率的影響,選取使得測試集準(zhǔn)確率最高的特征數(shù),經(jīng)計(jì)算得,基于ANN、LR、GaussianNB、SVM建模的最優(yōu)特征數(shù)分別為99、99、52、52,結(jié)合圖3可以看出,以上特征數(shù)分別能反映原始數(shù)據(jù)95%、95%、90%、90%的信息,在此基礎(chǔ)上進(jìn)行模型的參數(shù)調(diào)優(yōu)?;谔卣?構(gòu)建模型,首先需要采用LDA主題模型確定各項(xiàng)專利所屬的主題類別,為避免因使用的專利文本差異帶來的實(shí)驗(yàn)誤差,此處與新特征保持一致,使用專利說明書進(jìn)行主題建模,主題數(shù)目的確定參考圖4的困惑度變化曲線,可以看到當(dāng)主題數(shù)目為21時(shí)曲線趨于平緩,因此最終主題數(shù)目定為21。
圖5 困惑度—主題數(shù)目變化
將新特征、特征1、特征2分別作為機(jī)器學(xué)習(xí)算法的輸入構(gòu)建模型,各模型的最優(yōu)參數(shù)如表3所示。
表3 機(jī)器學(xué)習(xí)算法相關(guān)參數(shù)設(shè)置
以Accuracy值作為評估指標(biāo),對比使用新特征與使用特征1、特征2的模型性能,結(jié)果如圖5所示。新特征與特征1相比,ANN算法提升3.96%、LR算法提升3.465%、GaussinaNB算法提升2.228%、SVM算法提升3.713%,這說明本研究對專利文本語義特征的挖掘比現(xiàn)有的主題方法粒度更細(xì),新特征能夠包含更多的語義信息;新特征與特征2相比,ANN算法提升9.158%、LR算法提升4.455%、GaussinaNB算法提升0.743%、SVM算法提升5.445%,這說明使用新特征會(huì)比常規(guī)僅使用外圍評估指標(biāo)構(gòu)建的模型分類性能更強(qiáng),專利文本中的語義特征對識別可轉(zhuǎn)移專利具有不可忽視的重要作用。綜上,本方法能夠有效改進(jìn)機(jī)器學(xué)習(xí)訓(xùn)練的特征質(zhì)量,具有很好的可行性和科學(xué)性。
圖5 特征融合對分類算法性能的影響
使用Precision、Recall、F1對使用新特征的模型進(jìn)行評估,結(jié)果如表4所示??梢钥闯?,基于人工神經(jīng)網(wǎng)絡(luò)構(gòu)建的高??赊D(zhuǎn)移專利識別模型查準(zhǔn)率、查全率、調(diào)和平均值全部為73.430%,相比于其他模型都能夠取得最優(yōu)的效果,能夠證明人工神經(jīng)網(wǎng)絡(luò)算法在本研究的有效性。
表4 各模型評估結(jié)果 %
高校在國家的創(chuàng)新驅(qū)動(dòng)發(fā)展中發(fā)揮著重要的技術(shù)供給作用,準(zhǔn)確識別高??赊D(zhuǎn)移專利,對于促進(jìn)高??蒲信c市場對接具有積極意義。本研究為改進(jìn)機(jī)器學(xué)習(xí)訓(xùn)練的特征質(zhì)量,提高識別結(jié)果的準(zhǔn)確率,提出一種基于特征融合的高校可轉(zhuǎn)移專利識別方法。實(shí)證結(jié)果表明,本研究將專利內(nèi)部語義特征與外圍評估指標(biāo)融合,生成內(nèi)容更為全面、綜合的新特征,能有效改進(jìn)機(jī)器學(xué)習(xí)訓(xùn)練的特征質(zhì)量,可以從更深、更廣、更全面、綜合的角度挖掘?qū)@D(zhuǎn)移潛力,能夠精準(zhǔn)、快速定位高校專利中具有轉(zhuǎn)移潛力的技術(shù)成果,提高了高校可轉(zhuǎn)移專利識別結(jié)果的準(zhǔn)確性和科學(xué)性,為高??赊D(zhuǎn)移專利識別提供了新的研究思路。