包清臨, 柴華奇, 趙嵩正, 王吉林
(西北工業(yè)大學(xué) 管理學(xué)院, 西安 710129)
技術(shù)機(jī)會(huì)是開展技術(shù)創(chuàng)新活動(dòng)的前提和條件[1-2].挖掘并搶占技術(shù)機(jī)會(huì),為創(chuàng)新活動(dòng)的展開贏得先機(jī)[3-5].近年來,以專利驅(qū)動(dòng)挖掘技術(shù)機(jī)會(huì)受到學(xué)術(shù)界的廣泛關(guān)注.專利記載了核心技術(shù)信息,包含了前沿技術(shù)創(chuàng)意,充分利用專利,可以大大縮短技術(shù)機(jī)會(huì)挖掘時(shí)間,節(jié)省40%的研發(fā)費(fèi)用[6-7].
根據(jù)技術(shù)機(jī)會(huì)相關(guān)研究中專利樣本量的大小,可以把現(xiàn)有專利輔助挖掘技術(shù)機(jī)會(huì)的研究分為兩類.一類研究是以少量的專利樣本為出發(fā)點(diǎn),結(jié)合技術(shù)的應(yīng)用前景挖掘技術(shù)機(jī)會(huì).江屏等[8]在確立研發(fā)目標(biāo)后,以封隔器領(lǐng)域的673件專利為樣本,根據(jù)TRIZ理論為技術(shù)機(jī)會(huì)構(gòu)建待規(guī)避專利技術(shù)的原理解模型,使其規(guī)避可能存在的專利風(fēng)險(xiǎn).Wang等[9]認(rèn)為科學(xué)論文和專利記錄了科學(xué)發(fā)現(xiàn)和技術(shù)發(fā)展中核心的知識(shí),通過二者可以發(fā)現(xiàn)并挖掘潛在的技術(shù)機(jī)會(huì),因此采用文本挖掘和聚類算法對(duì)微藻類生物燃料領(lǐng)域的技術(shù)機(jī)會(huì)進(jìn)行了探索.Jia等[10]選擇目標(biāo)類專利,采用類比設(shè)計(jì)方法,對(duì)技術(shù)機(jī)會(huì)進(jìn)行發(fā)掘,尋找創(chuàng)新設(shè)計(jì)理念.此類研究能較好地實(shí)現(xiàn)特定目標(biāo),但由于專利樣本量較小,計(jì)算結(jié)果與設(shè)計(jì)目標(biāo)容易背離,技術(shù)機(jī)會(huì)挖掘結(jié)果應(yīng)用性低.另一類研究以海量專利樣本為出發(fā)點(diǎn),通過數(shù)據(jù)挖掘技術(shù),結(jié)合統(tǒng)計(jì)方法對(duì)專利文本的結(jié)構(gòu)化信息進(jìn)行處理.Cheng[11]以大量專利為樣本,采用文本挖掘技術(shù),構(gòu)建專利技術(shù)功效矩陣(PTFM),通過對(duì)PTFM中技術(shù)呈現(xiàn)出的密集區(qū)及真空區(qū)的分析,得到技術(shù)機(jī)會(huì)挖掘結(jié)果.Jin等[12]從專利信息出發(fā),通過市場和產(chǎn)品兩個(gè)維度,搭建PTFM并繪制專利技術(shù)功效圖,以識(shí)別太陽能照明領(lǐng)域的創(chuàng)新技術(shù).Joung等[13]通過專利文本挖掘,提取了技術(shù)關(guān)鍵詞和功效關(guān)鍵詞,從而構(gòu)建PTFM,對(duì)生物傳感器中電子轉(zhuǎn)移領(lǐng)域的新興技術(shù)進(jìn)行了識(shí)別.相較于前一類研究,非目標(biāo)類研究對(duì)專利的人工分類干涉較少,通過更廣的專利覆蓋,確定出更加前沿的技術(shù)方向,但是該類研究較少涉及了創(chuàng)新目標(biāo),得出的技術(shù)機(jī)會(huì)的應(yīng)用性較低.
由此可以看出,少量專利樣本或缺乏創(chuàng)新目標(biāo)下的研究,缺乏對(duì)技術(shù)前景的評(píng)估,由此形成的技術(shù)機(jī)會(huì)必然對(duì)其應(yīng)用性產(chǎn)生影響,從而降低技術(shù)機(jī)會(huì)挖掘結(jié)果的可行性.因此,本文以提升結(jié)果的應(yīng)用性為目標(biāo),在技術(shù)機(jī)會(huì)挖掘過程中加入對(duì)技術(shù)應(yīng)用前景的評(píng)估,采用機(jī)器學(xué)習(xí)算法,以海量專利數(shù)據(jù)為樣本,結(jié)合文本挖掘、MapReduce計(jì)算框架和熵權(quán)-TOPSIS法,使用Python編程語言,構(gòu)建三維的專利預(yù)測模型.并在鈦領(lǐng)域內(nèi)應(yīng)用該模型,為其挖掘潛在的技術(shù)機(jī)會(huì).
文本挖掘亦稱文本數(shù)據(jù)挖掘,指使用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語言處理等技術(shù),結(jié)合分類、聚類、偏差檢測、關(guān)系分析等方法,解決文本集合或語料庫信息過載的問題,以發(fā)現(xiàn)其中隱含的信息或模式的過程,一般來說,文本挖掘包括信息檢索、信息抽取、信息挖掘以及信息解釋4個(gè)步驟,其中信息挖掘最為關(guān)鍵,主要包括文本預(yù)處理、文本聚類或文本關(guān)聯(lián)、特征提取以及結(jié)果可視化[14].
最開始研究抽取關(guān)鍵詞的模型是空間向量模型(VSM),但由于該模型方式不能對(duì)語意實(shí)現(xiàn)完全描述[15],便逐步涌現(xiàn)出了通過給定潛在變量,經(jīng)過建模主題實(shí)現(xiàn)關(guān)鍵詞共現(xiàn)的主題模型.在主題模型中,概率潛在語義分析 (PLSA)算法較為主流.PLSA算法是在1999年由Hofmam提出的,能夠解決潛在語義分析(LSA)算法在文本挖掘過程中對(duì)大樣本處理不足的問題,同時(shí),相較于奇異值矩陣分解(SVD)降維方法,PLSA算法能更清晰地推斷文檔與詞語間的關(guān)系模型.現(xiàn)有研究顯示,相較于LSA算法,PLSA算法能顯著提升關(guān)鍵詞抽取的效率和精確度,減少人工抽取的誤差,適于在大樣本環(huán)境中運(yùn)行.它通過建立文檔、主題與詞語三者之間的映射關(guān)系,基于雙模態(tài)和共現(xiàn)準(zhǔn)確抽取關(guān)鍵詞[16-17].
PLSA算法通過計(jì)算 “文檔-主題”和“詞語-主題”的概率矩陣,對(duì)共現(xiàn)概率進(jìn)行排序,表現(xiàn)基于共同的觀察數(shù)據(jù)的隱藏變量關(guān)系,經(jīng)過相似度計(jì)算和聚類分析,達(dá)到篩選關(guān)鍵詞的目的.因此可以說PLSA算法是構(gòu)建概率主題模型的最佳選擇.PLSA算法主要基于以下假設(shè)[18]:①在同一潛在主題集合T={t1,t2,…,ts}下,文檔集合D={d1,d2,…,dn}和詞語集合W={w1,w2,…,wm}之間是獨(dú)立的;②詞語wi(i=1,2,…,m)和潛在主題tk(k=1,2,…,s)之間也是獨(dú)立的.
由此,選定任一文檔dj(j=1,2,…,n)的概率為P(dj),在PLSA算法中,該文檔所屬任一潛在主題tk的概率服從多項(xiàng)分布,表示為P(tk|dj);進(jìn)一步在該潛在主題下,任一文檔dj生成詞語wi的概率也服從多項(xiàng)分布,表示為
(1)
式中:tk為潛在主題集合T中的任一潛在主題;dj為文檔集合D中任一文檔;wi為詞語集合W中任一詞語;P(dj)為選中文檔dj的概率;P(wi|tk)為在確定潛在主題tk下選中詞語wi的條件概率;P(tk|dj)為在確定文檔dj后選中潛在主題tk的條件概率;P(tk)為選中同一潛在主題tk的概率;P(dj|tk)為在確定潛在主題tk下選中詞語wi的條件概率.由于P(tk|dj)和P(wi|tk)符合多項(xiàng)分布,所以可以通過最大期望(EM)算法優(yōu)化目標(biāo)函數(shù),通過循環(huán)迭代得到式(1)的最大似然解,有效解決數(shù)據(jù)過擬合問題.EM算法下的計(jì)算分為E步和M步.E步為期望步驟;M步為最大化步驟.根據(jù)E步和M步的計(jì)算規(guī)則,所得如下.
E步:計(jì)算給定觀測對(duì)(dj,wi)時(shí)選中潛在主題tk的概率.
P(tk|dj,wi)=
(2)
M步:在確定P(tk|dj,wi)的條件下計(jì)算P(wi|tk)和P(tk|dj)的概率.
(3)
(4)
式中:P(ts)為潛在主題取得最大值ts時(shí)的概率;P(dj|ts)為在概率主題取得最大值ts時(shí)選中文檔dj的條件概率;P(wi|ts)為在概率主題取得最大值ts時(shí)選中詞語wi的條件概率;P(tk)為任選某一潛在主題tk的概率;P(dj|tk)為任選某一潛在主題tk時(shí)選中文檔dj的條件概率;P(wi|tk)為任選某一潛在主題tk時(shí)選中詞語wi的條件概率;m(dj,wi)為詞語wi與文檔dj的共現(xiàn)概率;P(tk|dj,wi)為在給定觀測對(duì)(dj,wi)時(shí)選中任一潛在主題tk的條件概率;P(ts|dj,wi)為在給定觀測對(duì)(dj,wi)時(shí)選中潛在主題最大取值ts時(shí)的條件概率;m(dn,wm)為文檔取得最大值dn與詞語取得最大值wm共現(xiàn)概率;P(tk|dn,wm)為在文檔取得最大值dn和詞語取得最大值wm后選中任一潛在主題tk的條件概率;m(dn,wi)為文檔取得最大值dn與任一詞語wi的共現(xiàn)概率;P(tk|dn,wi)為文檔取得最大值dn并任選詞語wi后選中任一潛在主題tk的條件概率.用隨機(jī)數(shù)初始化之后,交替執(zhí)行E步和M步進(jìn)行迭代計(jì)算.PLSA算法以專利文本挖掘來實(shí)現(xiàn)對(duì)技術(shù)機(jī)會(huì)的挖掘,首先基于自然語言處理(NLP)對(duì)專利摘要文本進(jìn)行預(yù)處理,包括對(duì)專利文本的詞性標(biāo)注;然后根據(jù)詞性的不同,抽取專利摘要中的技術(shù)關(guān)鍵詞和功效關(guān)鍵詞;最后通過“專利摘要文本-詞語”概率矩陣對(duì)技術(shù)關(guān)鍵詞和功效關(guān)鍵詞的詞頻進(jìn)行統(tǒng)計(jì).
PLSA算法的實(shí)現(xiàn),需要把“文檔-主題”和“詞語-主題”二維矩陣映射到分布式處理框架中.Hadoop是較為常見的大數(shù)據(jù)分布式處理平臺(tái),它包括分布式文件系統(tǒng)(HDFS)和MapReduce計(jì)算框架.MapReduce計(jì)算框架通過主節(jié)點(diǎn)的Job Tracker來調(diào)度和分發(fā)所有任務(wù),無需人工干預(yù),能較好地實(shí)現(xiàn)計(jì)算目的.
MapReduce計(jì)算框架主要包含Map階段和Reduce階段.Map階段主要負(fù)責(zé)對(duì)數(shù)據(jù)的分析處理,最終轉(zhuǎn)化為〈key,value〉數(shù)據(jù)對(duì);Reduce階段主要獲取〈key*,value*〉數(shù)據(jù)對(duì),通過對(duì)其進(jìn)行統(tǒng)計(jì)處理,得到相應(yīng)結(jié)果.
在傳統(tǒng)技術(shù)機(jī)會(huì)挖掘的模型中,PTFM較為普遍.PTFM以技術(shù)維為x軸,功效維為y軸,形成二維平面坐標(biāo)[19].技術(shù)維與功效維的交點(diǎn)為專利單元項(xiàng),它的大小與對(duì)應(yīng)具有相應(yīng)技術(shù)關(guān)鍵詞和功效關(guān)鍵詞的專利數(shù)量一致.在PTFM中,單元項(xiàng)越大,表示專利組合數(shù)量越多,該區(qū)域?qū)@季衷矫芗?;單元?xiàng)越小,表示專利組合數(shù)量越少,該區(qū)域的專利布局越空白[20-21].不少學(xué)者以PTFM為依據(jù),對(duì)技術(shù)機(jī)會(huì)進(jìn)行挖掘與決策[22-24].
然而,僅運(yùn)用PTFM作為分析工具,是不能實(shí)現(xiàn)對(duì)技術(shù)機(jī)會(huì)的完全預(yù)測.這是因?yàn)榧夹g(shù)關(guān)鍵詞和功效關(guān)鍵詞僅是對(duì)技術(shù)特征及功能特征的描述,并不能對(duì)技術(shù)的運(yùn)用前景和價(jià)值進(jìn)行預(yù)測.因此,需要對(duì)PTFM進(jìn)行改進(jìn),使其更加適應(yīng)創(chuàng)新主體對(duì)前沿技術(shù)識(shí)別的需要.
最早提出專利價(jià)值的是Pakes等[25],他們指出專利價(jià)值是用于衡量專利技術(shù)存續(xù)期的重要指標(biāo).Reitzig[26]認(rèn)為專利價(jià)值與受專利保護(hù)的技術(shù)產(chǎn)品的市場指數(shù)呈正比.Bakker[27]指出專利價(jià)值與創(chuàng)新主體的技術(shù)計(jì)劃有關(guān),是技術(shù)戰(zhàn)略的反映.Bessen等[28]提到專利價(jià)值是專利帶給專利權(quán)人的市場收益.Hiller等[29]認(rèn)為專利價(jià)值是企業(yè)專利投資、轉(zhuǎn)讓、許可使用、質(zhì)押等資產(chǎn)運(yùn)營行為的重要價(jià)值參考.由此可知,本文認(rèn)為專利價(jià)值體現(xiàn)為專利帶給專利權(quán)人的收益,該收益與技術(shù)機(jī)會(huì)的應(yīng)用前景直接相關(guān).因此可以采用專利價(jià)值指標(biāo),對(duì)技術(shù)的應(yīng)用前景進(jìn)行評(píng)估.
綜合以上分析,在算法選擇上,本文認(rèn)為PLSA算法能更加突出地解決大樣本下專利文本的詞性標(biāo)注和關(guān)鍵詞抽取問題,相較于其他方法更加高效,同時(shí)通過文檔-詞語間的概率轉(zhuǎn)換關(guān)系,能最大程度確保關(guān)鍵詞抽取的精確度;在框架選擇上,本文選擇MapReduce計(jì)算框架完成關(guān)鍵詞抽取,因此能不受人工干預(yù)完成實(shí)驗(yàn)內(nèi)容;在模型選擇上,本文將改進(jìn)PTFM,構(gòu)建以技術(shù)應(yīng)用前景為指引的技術(shù)機(jī)會(huì)挖掘模型.
在PTFM的基礎(chǔ)上,創(chuàng)新性的添加第三維——價(jià)值維.即價(jià)值維與技術(shù)維和功效維一起共同構(gòu)成三維的專利預(yù)測模型.專利預(yù)測模型是基于專利的、以價(jià)值為導(dǎo)向的、提供技術(shù)機(jī)會(huì)前景預(yù)測的技術(shù)應(yīng)用模型.專利預(yù)測模型的構(gòu)建流程如圖1所示.
圖1 專利預(yù)測模型構(gòu)建流程Fig.1 Construction process of patent prediction model
實(shí)驗(yàn)環(huán)境由3臺(tái)計(jì)算機(jī)搭建,在Java 8.1環(huán)境中使用Python語言,采用PLSA算法,基于MapReduce計(jì)算框架對(duì)專利文本進(jìn)行挖掘.
專利預(yù)測模型的x軸是技術(shù)維,其坐標(biāo)上為技術(shù)關(guān)鍵詞,技術(shù)關(guān)鍵詞是領(lǐng)域內(nèi)高頻技術(shù)方案和技術(shù)特征的展示,代表確定領(lǐng)域密集技術(shù)方向,為未來技術(shù)發(fā)展提供預(yù)見依據(jù).專利預(yù)測模型的y軸是功效維,其坐標(biāo)上功效關(guān)鍵詞,功效關(guān)鍵詞是領(lǐng)域內(nèi)專利技術(shù)解決方案的展示,代表確定領(lǐng)域的技術(shù)功能,為未來技術(shù)應(yīng)用功能的創(chuàng)新提供預(yù)見依據(jù).技術(shù)維和功效維的構(gòu)建步驟如下:
步驟1專利源數(shù)據(jù)獲取.德溫特專利索引數(shù)據(jù)庫(DII)中的專利已是二次加工的數(shù)據(jù),具有格式規(guī)范、噪音小的特點(diǎn)[30].因此選擇DII中的專利摘要文本為源數(shù)據(jù).
步驟2基于自然語言處理工具(NLTK)的文本預(yù)處理.專利摘要文本為自然語言,在計(jì)算機(jī)直接處理前,需通過預(yù)處理,對(duì)文檔進(jìn)行分詞,除去停用詞,標(biāo)注詞性,并確定線索詞.① 詞性標(biāo)注.技術(shù)關(guān)鍵詞和功效關(guān)鍵詞一般為獨(dú)立名詞或名詞與名詞的組合,因此可以通過詞性標(biāo)注來提高關(guān)鍵詞抽取的有效性.本文選擇對(duì)專利摘要文本中“USE”和“ADVANTAGE”兩部分的文本進(jìn)行詞性標(biāo)注,技術(shù)關(guān)鍵詞為名詞, 功效關(guān)鍵詞為形容詞.② 確定功效關(guān)鍵詞的線索詞.本文使用同義詞典中的特定動(dòng)詞對(duì)功效關(guān)鍵詞定位, 這些特定動(dòng)詞就是確定功效關(guān)鍵詞的線索詞,使用線索詞,可以顯著提高專利功效關(guān)鍵詞挖掘的速度和正確率.功效關(guān)鍵詞的線索詞如表1所示.
表1 確定功效關(guān)鍵詞的線索詞Tab.1 Clue words for determination of function keywords
步驟3在MapReduce計(jì)算框架之中,基于 PLSA 算法,抽取并計(jì)算技術(shù)關(guān)鍵詞的詞頻,同時(shí)將結(jié)果輸出;抽取并統(tǒng)計(jì)功效關(guān)鍵詞的詞頻,同時(shí)將結(jié)果輸出.
本文采用專利價(jià)值來表示對(duì)技術(shù)應(yīng)用前景的評(píng)估.在評(píng)估專利價(jià)值方法選擇上,熵權(quán)-TOPSIS法具有樣本容量大、不受參考序列選擇的干擾,信息失真小、運(yùn)算靈活及應(yīng)用領(lǐng)域廣等優(yōu)點(diǎn)[31],因此選擇該方法對(duì)專利價(jià)值進(jìn)行評(píng)估.
2.3.1基于DMC的應(yīng)用主題域確定 德溫特手工代碼(DMC)是DII數(shù)據(jù)庫中的專業(yè)人員按照嚴(yán)格標(biāo)引準(zhǔn)則分配給每例專利的分類代碼,本文使用DMC作為應(yīng)用主題域.由于專利被引次數(shù)和引用關(guān)系的相關(guān)研究是目前預(yù)測技術(shù)前景趨勢的重要指標(biāo)[32-34],本文選擇確定領(lǐng)域內(nèi)前1000例高被引專利,統(tǒng)計(jì)其DMC,并篩選出頻率最高的25個(gè)DMC,把DMC轉(zhuǎn)化為所屬應(yīng)用主題域.
2.3.2專利價(jià)值評(píng)價(jià)指標(biāo)體系構(gòu)建 基于前人研究,本文從專利技術(shù)價(jià)值、專利市場價(jià)值和專利權(quán)利價(jià)值三個(gè)方面來構(gòu)建專利價(jià)值評(píng)價(jià)指標(biāo)體系[35-36].該指標(biāo)體系共有3個(gè)一級(jí)指標(biāo)、9個(gè)二級(jí)指標(biāo),具體指標(biāo)項(xiàng)、指標(biāo)含義及作用方向如表2所示.
表2 專利價(jià)值評(píng)價(jià)指標(biāo)體系Tab.2 Evaluation index system of patent value
2.3.3指標(biāo)打分及數(shù)據(jù)采集 聘請(qǐng)熟悉某領(lǐng)域的學(xué)者、管理人員和專利知識(shí)產(chǎn)權(quán)法律工作者進(jìn)行打分,采用10分制對(duì)每個(gè)二級(jí)指標(biāo)進(jìn)行打分,其中10分為最高,1分為最低.
2.3.4熵權(quán)法下權(quán)重的計(jì)算 熵權(quán)法是一種有效確定各評(píng)價(jià)指標(biāo)權(quán)重的方法.設(shè)有m個(gè)應(yīng)用主題域,n個(gè)評(píng)價(jià)指標(biāo),則對(duì)應(yīng)的評(píng)價(jià)指標(biāo)決策矩陣可表示為
(5)
(6)
對(duì)Dij進(jìn)行歸一化處理,即
(7)
計(jì)算第j個(gè)指標(biāo)的熵值可表示為
(8)
因此第j個(gè)指標(biāo)的權(quán)重系數(shù)可表示為
(9)
2.3.5基于TOPSIS法的專利價(jià)值評(píng)估 TOPSIS法是由Hwang等[37]于1981年首次提出的,該方法的核心是逼近理想解的排序,基本思路是衡量被評(píng)價(jià)指標(biāo)現(xiàn)實(shí)狀態(tài)與理想狀態(tài)的歐氏距離,從而對(duì)其實(shí)現(xiàn)評(píng)估.TOPSIS法已被廣泛應(yīng)用于對(duì)有限方案進(jìn)行多目標(biāo)評(píng)價(jià)決策領(lǐng)域[38-40].
以式(9)為基礎(chǔ)構(gòu)建標(biāo)準(zhǔn)化權(quán)重矩陣:
(10)
(11)
(12)
計(jì)算每個(gè)應(yīng)用主題域的各指標(biāo)值與正理想解間的歐式距離為
(13)
計(jì)算每個(gè)應(yīng)用主題域的各指標(biāo)值與負(fù)理想解間的歐式距離為
(14)
則各應(yīng)用主題域與正負(fù)理想解的相對(duì)接近程度為
(15)
2.3.6專利價(jià)值等級(jí)的劃分標(biāo)準(zhǔn) 按相對(duì)接近度的大小將專利價(jià)值進(jìn)行10分制轉(zhuǎn)換,把最高的相對(duì)接近度定為10,對(duì)專利價(jià)值得分tj依次折算并取整:
(16)
在確定應(yīng)用主題域得分后,將該得分按照專利價(jià)值劃分標(biāo)準(zhǔn)進(jìn)行劃分,可以得到專利價(jià)值所屬區(qū)域.專利價(jià)值的劃分標(biāo)準(zhǔn)、等級(jí)評(píng)定及所屬區(qū)域如表3所示.
表3 專利價(jià)值等級(jí)劃分Tab.3 Delimitation of patent value grades
專利預(yù)測模型中的單元項(xiàng)指處于相應(yīng)技術(shù)關(guān)鍵詞、功效關(guān)鍵詞和DMC交叉點(diǎn)上的專利組合.單元項(xiàng)填充,就是對(duì)具有相應(yīng)技術(shù)關(guān)鍵詞、功效關(guān)鍵詞和DMC坐標(biāo)點(diǎn)上的專利組合數(shù)量進(jìn)行的聚類統(tǒng)計(jì).PTFM中單元項(xiàng)填充一般由技術(shù)關(guān)鍵詞和功效關(guān)鍵詞的共現(xiàn)矩陣確定,因此本文在沿用共現(xiàn)矩陣進(jìn)行專利聚類的基礎(chǔ)上,通過先遴選共現(xiàn)矩陣再以DMC篩選的方式,填充專利預(yù)測模型中的單元項(xiàng).基于MapReduce計(jì)算框架的單元項(xiàng)填充流程如圖2所示.
圖2 基于MapReduce計(jì)算框架的單元項(xiàng)填充流程Fig.2 Element item filling process based on MapReduce computing framework
綜合以上分析,得到專利預(yù)測模型的技術(shù)維、功效維和價(jià)值維,分別按照x軸、y軸和z軸的順序置于三維坐標(biāo)系中,同時(shí)結(jié)合專利預(yù)測模型的單元項(xiàng),通過Origin 2019b軟件,可視化為三維的專利預(yù)測模型.
步驟1繪制專利預(yù)測地圖.專利組合是具有同一技術(shù)關(guān)鍵詞和同一功效關(guān)鍵詞的專利所組成的集合,某區(qū)域內(nèi)專利組合越多,說明專利組合越密集.以專利組合的密集程度為專利預(yù)測地圖的x軸,以專利價(jià)值程度為專利預(yù)測地圖的y軸,繪制專利預(yù)測地圖.
步驟2挖掘優(yōu)先級(jí)的技術(shù)機(jī)會(huì).價(jià)值原則下的優(yōu)先級(jí)技術(shù)機(jī)會(huì)挖掘標(biāo)準(zhǔn)為:在同一專利價(jià)值等級(jí)區(qū)域內(nèi)比較各專利價(jià)值得分下的專利組合總數(shù),專利組合總數(shù)最少的專利組合所代表的技術(shù)方向即為優(yōu)先級(jí)技術(shù)機(jī)會(huì).在一級(jí)、二級(jí)、三級(jí)專利價(jià)值區(qū)域中,分別選擇專利組合總數(shù)最少的專利組合所代表的方向?yàn)閮?yōu)先級(jí)的技術(shù)機(jī)會(huì).
步驟3挖掘次級(jí)的技術(shù)機(jī)會(huì).在價(jià)值原則下的次級(jí)挖掘標(biāo)準(zhǔn)如下:比較不同的專利價(jià)值等級(jí)區(qū)域中專利組合的總數(shù),專利價(jià)值比較高的專利組合即為次級(jí)的技術(shù)機(jī)會(huì).也就是說,對(duì)一級(jí)和二級(jí)專利價(jià)值區(qū)域、二級(jí)和三級(jí)專利價(jià)值區(qū)域內(nèi)的專利組合分別進(jìn)行兩兩比較,選擇專利組合總數(shù)相近但是專利價(jià)值更高的專利組合所代表的方向?yàn)榇渭?jí)技術(shù)機(jī)會(huì).
步驟4對(duì)已挖掘出的技術(shù)機(jī)會(huì)排序并描述.遵循價(jià)值原則的技術(shù)機(jī)會(huì)研發(fā)順序,即根據(jù)專利價(jià)值的高低,首先對(duì)優(yōu)先級(jí)的技術(shù)機(jī)會(huì)進(jìn)行研發(fā)創(chuàng)新,再對(duì)次級(jí)的技術(shù)機(jī)會(huì)進(jìn)行研發(fā)創(chuàng)新,最后對(duì)所有的技術(shù)機(jī)會(huì)進(jìn)行描述.
鈦及鈦合金因其優(yōu)良的超導(dǎo)性、形狀記憶性和生物相容性而被廣泛地應(yīng)用于航空、航天、航海、兵器、石油、化工、冶金、電力、醫(yī)療、制藥、建筑、海洋工程、體育休閑等領(lǐng)域.它既是航空航天、艦船兵器、海洋工程等軍工高技術(shù)領(lǐng)域不可或缺的關(guān)鍵性結(jié)構(gòu)材料,也是現(xiàn)代醫(yī)療、制藥、建筑、體育休閑等民用領(lǐng)域至關(guān)重要的拓展性新興材料.目前,鈦的應(yīng)用量和鈦工業(yè)的發(fā)展水平已經(jīng)成為衡量國家實(shí)力的重要標(biāo)志之一.
3.2.1專利源數(shù)據(jù)獲取 專利有效期為20年,為更加全面展示鈦領(lǐng)域的專利技術(shù)創(chuàng)新點(diǎn)和發(fā)展方向,本文在DII數(shù)據(jù)庫按以下檢索策略進(jìn)行檢索,如表4所示.
表4 構(gòu)建技術(shù)維和功效維的專利檢索策略
3.2.2使用NLTK的源數(shù)據(jù)預(yù)處理 使用NLTK對(duì)專利摘要文本進(jìn)行源數(shù)據(jù)預(yù)處理,并進(jìn)行清洗.為使技術(shù)關(guān)鍵詞和功效關(guān)鍵詞抽取的更加準(zhǔn)確,本文使用NLTK對(duì)鈦領(lǐng)域?qū)@谋具M(jìn)行分隔以及詞性標(biāo)注.
3.2.3基于MapReduce的技術(shù)關(guān)鍵詞和功效關(guān)鍵詞抽取及詞頻統(tǒng)計(jì) 基于MapReduce計(jì)算框架對(duì)鈦領(lǐng)域?qū)@A(yù)測模型的技術(shù)關(guān)鍵詞及詞頻進(jìn)行抽取和計(jì)算.把技術(shù)關(guān)鍵詞抽取結(jié)果以 .xlsx 格式輸出,得到鈦領(lǐng)域?qū)@夹g(shù)關(guān)鍵詞.為集中體現(xiàn)鈦領(lǐng)域?qū)@季?,也為使專利預(yù)測模型更直觀可見,本文統(tǒng)計(jì)出現(xiàn)頻率前25高的技術(shù)關(guān)鍵詞,如表5所示.
表5 技術(shù)關(guān)鍵詞的抽取及詞頻統(tǒng)計(jì)Tab.5 Extraction and word frequency statistics of technology keywords
同樣基于MapReduce計(jì)算框架對(duì)鈦領(lǐng)域?qū)@墓πшP(guān)鍵詞及詞頻進(jìn)行抽取和統(tǒng)計(jì).把抽取結(jié)果按 .xlsx 格式輸出,得到基于MapReduce計(jì)算框架的鈦領(lǐng)域功效關(guān)鍵詞的詞頻計(jì)算結(jié)果,本文統(tǒng)計(jì)前25個(gè)功效關(guān)鍵詞,如表6所示.
表6 功效關(guān)鍵詞的抽取及詞頻統(tǒng)計(jì)
3.3.1專利源數(shù)據(jù)獲取 為最大范圍地評(píng)價(jià)專利價(jià)值,本文進(jìn)行源數(shù)據(jù)獲取時(shí)選定檢索期限為20年,使用的專利檢索策略與表4相同,在數(shù)據(jù)下載時(shí),按“被引頻次”降序排列,下載 1 000 項(xiàng)最高被引專利.
3.3.2基于DMC的應(yīng)用主題域確定 提取檢索結(jié)果,統(tǒng)計(jì)前25個(gè)高頻DMC,并將DMC轉(zhuǎn)化為應(yīng)用主題域[41],如表7所示.
表7 前25個(gè)高頻DMC對(duì)應(yīng)的應(yīng)用主題域Tab.7 Subject areas from top 25 high frequency DMC
3.3.3指標(biāo)打分及數(shù)據(jù)采集 清華大學(xué)機(jī)械工程學(xué)院、西安交通大學(xué)材料科學(xué)與工程學(xué)院、西北工業(yè)大學(xué)管理學(xué)院、西北工業(yè)大學(xué)材料學(xué)院、西安理工大學(xué)材料科學(xué)與工程學(xué)院的專家學(xué)者,寶雞工業(yè)技術(shù)創(chuàng)新有限公司、寶鈦集團(tuán)、西北有色金屬研究院中層以上技術(shù)經(jīng)理、產(chǎn)品經(jīng)理、市場經(jīng)理以及涉鈦知識(shí)產(chǎn)權(quán)律師為二級(jí)指標(biāo)打分.針對(duì)鈦領(lǐng)域應(yīng)用主題域?qū)@麅r(jià)值情況,采用線下與線上相結(jié)合的發(fā)放問卷的方式,一共發(fā)放600份調(diào)查問卷,回收491份,有效問卷473份,問卷回收有效率達(dá)78.83%.
3.3.4二級(jí)指標(biāo)權(quán)重的計(jì)算 根據(jù)2.3.2節(jié)中構(gòu)建出的專利價(jià)值指標(biāo)體系,以及式(8)和(9),計(jì)算可得各二級(jí)指標(biāo)的熵值和權(quán)重,計(jì)算結(jié)果如表8所示.
表8 二級(jí)指標(biāo)的熵值和權(quán)重Tab.8 Entropy and weights of secondary targets
3.3.5專利價(jià)值評(píng)估 根據(jù)式(15)計(jì)算各應(yīng)用主題域的相對(duì)接近度Ei,同時(shí)對(duì)相對(duì)接近度進(jìn)行10分制轉(zhuǎn)換并取整,得到各應(yīng)用主題域?qū)@麅r(jià)值的得分ti,并對(duì)其排序,如表9所示.
表9 應(yīng)用主題域的相對(duì)接近度和專利價(jià)值得分
3.3.6專利價(jià)值等級(jí)確定 根據(jù)表3可以得到鈦領(lǐng)域應(yīng)用主題域的專利價(jià)值等級(jí),劃分結(jié)果如表10所示.
表10 鈦領(lǐng)域應(yīng)用主題域的專利價(jià)值等級(jí)劃分
3.4.1專利源數(shù)據(jù)獲取 鈦領(lǐng)域的專利預(yù)測模型中單元項(xiàng)填充的專利檢索策略與表4相同.
3.4.2基于MapReduce計(jì)算框架的單元項(xiàng)填充 根據(jù)單元項(xiàng)填充流程,本文以技術(shù)關(guān)鍵詞和功效關(guān)鍵詞生成技術(shù)功效共現(xiàn)矩陣,采用MapReduce計(jì)算框架對(duì)技術(shù)功效共現(xiàn)矩陣進(jìn)行降維處理,輸出包含相應(yīng)技術(shù)特征詞和功效特征詞的專利文檔,并統(tǒng)計(jì)專利文檔的個(gè)數(shù).此后,采用MapReduce計(jì)算框架,以25個(gè)DMC為基準(zhǔn)對(duì)已篩選出的專利文檔再次篩選,得到的專利文檔即為目標(biāo)文檔,其個(gè)數(shù)即為專利預(yù)測模型的單元項(xiàng).
根據(jù)已確定出鈦領(lǐng)域的技術(shù)維、功效維、價(jià)值維以及單元項(xiàng)填充結(jié)果,以技術(shù)維為x軸,功效維為y軸,價(jià)值維為z軸,結(jié)合單元項(xiàng)填充結(jié)果建立空間直角坐標(biāo)系搭建專利預(yù)測模型,并通過Origin 2019b軟件實(shí)現(xiàn)可視化.由于在x軸和y軸上使用全文字標(biāo)注會(huì)導(dǎo)致三維專利預(yù)測模型不夠清晰,所以本文使用代號(hào)表示相應(yīng)坐標(biāo)文字,代號(hào)與坐標(biāo)文字的一一對(duì)應(yīng)關(guān)系如表5和6所示.鈦領(lǐng)域的專利預(yù)測模型如圖3所示.
圖3 鈦領(lǐng)域的專利預(yù)測模型Fig.3 Patent prediction model for titanium field
根據(jù)技術(shù)機(jī)會(huì)的挖掘步驟,結(jié)合圖3,可對(duì)鈦領(lǐng)域的技術(shù)機(jī)會(huì)進(jìn)行挖掘.
根據(jù)圖3,繪制鈦領(lǐng)域內(nèi)的專利預(yù)測地圖,如圖4所示.
圖4 鈦領(lǐng)域的專利預(yù)測地圖Fig.4 Patent prediction map for titanium field
4.2.1優(yōu)先級(jí)的技術(shù)機(jī)會(huì)挖掘
(1) 一級(jí)專利價(jià)值等級(jí)區(qū)域中的技術(shù)機(jī)會(huì).該區(qū)域中專利組合有896個(gè),專利價(jià)值為10分的專利組合有433個(gè),專利價(jià)值為8分的專利組合有164個(gè),專利價(jià)值為7分的專利組合有299個(gè).因此,在一級(jí)專利價(jià)值等級(jí)區(qū)域中,按照基于專利預(yù)測模型的技術(shù)機(jī)會(huì)挖掘步驟2,標(biāo)準(zhǔn)①進(jìn)行挖掘,選擇專利價(jià)值得分8分中的專利組合為技術(shù)機(jī)會(huì).
(2) 二級(jí)專利價(jià)值等級(jí)區(qū)域中的技術(shù)機(jī)會(huì).該區(qū)域中專利組合有 2 451 個(gè),專利價(jià)值為6分的專利組合有194個(gè),專利價(jià)值為5分的專利組合有892個(gè),專利價(jià)值為4分的專利組合有 1 365 個(gè).因此,在二級(jí)專利價(jià)值等級(jí)區(qū)域中,按照基于專利預(yù)測模型的技術(shù)機(jī)會(huì)挖掘步驟2,選擇專利價(jià)值得分為6分的專利組合為技術(shù)機(jī)會(huì).
(3) 三級(jí)專利價(jià)值等級(jí)區(qū)域中的技術(shù)機(jī)會(huì).該區(qū)域中專利組合有 1 057 個(gè),專利價(jià)值為3分的專利組合有157個(gè),專利價(jià)值為2分的專利組合有370個(gè),專利價(jià)值為1分的專利組合有530個(gè).因此,在三級(jí)專利價(jià)值等級(jí)區(qū)域中,按照基于專利預(yù)測模型的技術(shù)機(jī)會(huì)挖掘步驟2,選擇專利價(jià)值得分為3分的專利組合為技術(shù)機(jī)會(huì).
綜上,優(yōu)先級(jí)的技術(shù)機(jī)會(huì)為得分是8分、6分以及3分的專利組合.
4.2.2次級(jí)的技術(shù)機(jī)會(huì)挖掘 比較不同專利價(jià)值得分區(qū)域,專利價(jià)值數(shù)量相近的專利組合為7分和2分的組合,以及10分和1分的組合.按照基于專利預(yù)測模型的技術(shù)機(jī)會(huì)挖掘步驟3,認(rèn)為次級(jí)的技術(shù)機(jī)會(huì)為得分是7分和10分的專利組合.
4.2.3技術(shù)機(jī)會(huì)排序并描述 按照優(yōu)先級(jí)和次級(jí)的技術(shù)機(jī)會(huì)的順序,對(duì)鈦領(lǐng)域內(nèi)的技術(shù)機(jī)會(huì)進(jìn)行描述,如表11所示.
由表11可知,根據(jù)專利預(yù)測模型,在鈦領(lǐng)域中共有5個(gè)技術(shù)機(jī)會(huì),根據(jù)其優(yōu)先級(jí)別給予研發(fā)順序的建議.其中①、②、③為優(yōu)先級(jí)的技術(shù)機(jī)會(huì),④和⑤為次級(jí)的技術(shù)機(jī)會(huì).
表11 專利預(yù)測模型下鈦領(lǐng)域的技術(shù)機(jī)會(huì)Tab.11 Technology opportunities in titanium field under patent prediction model
事實(shí)上,把技術(shù)機(jī)會(huì)按照優(yōu)先級(jí)和次級(jí)的順序進(jìn)行了排列,可以更好地為資源有限型創(chuàng)新主體提供導(dǎo)航式的研發(fā)建議.這主要是因?yàn)閯?chuàng)新主體大多受制于資金、人員等資源,對(duì)領(lǐng)域內(nèi)的技術(shù)機(jī)會(huì)進(jìn)行全覆蓋式的研發(fā)顯然不現(xiàn)實(shí).因此幫助創(chuàng)新主體在力所能及的范圍內(nèi)選擇適合的技術(shù)機(jī)會(huì),展開導(dǎo)航式的技術(shù)研發(fā),有助于提升其技術(shù)創(chuàng)新效率,提高技術(shù)創(chuàng)新成功率.同時(shí)由于技術(shù)機(jī)會(huì)是基于已有專利展開的,所以還能有效降低專利侵權(quán)的風(fēng)險(xiǎn),保障創(chuàng)新型鈦領(lǐng)域自主知識(shí)產(chǎn)權(quán)主體的基本權(quán)益.
本文以采用PLSA算法,基于MapReduce計(jì)算框架,以海量專利為樣本,構(gòu)建三維的專利預(yù)測模型以實(shí)現(xiàn)對(duì)技術(shù)機(jī)會(huì)的挖掘,并以鈦領(lǐng)域?yàn)槔M(jìn)行了應(yīng)用.該模型不僅能通過專利發(fā)現(xiàn)技術(shù)研發(fā)的熱點(diǎn)和空白點(diǎn),同時(shí)突出了專利價(jià)值對(duì)技術(shù)前景的引導(dǎo)功能,使研發(fā)主體能更加清晰地掌握具有應(yīng)用前景的技術(shù),明確技術(shù)研發(fā)的目標(biāo),更迅速地定位技術(shù)研發(fā)過程中的重點(diǎn)和難點(diǎn),幫助其提高技術(shù)研發(fā)的效率,有效節(jié)約了資源成本和時(shí)間成本,深化技術(shù)機(jī)會(huì)的內(nèi)涵,輔助決策者制定更加明確的技術(shù)研發(fā)戰(zhàn)略.
本文也存在一定的局限性.在樣本選取上,未來還可以考慮其他形式的專利,如國防專利,以滿足國防技術(shù)創(chuàng)新需要.此外,在對(duì)專利預(yù)測模型的應(yīng)用上,未來還可以考慮雙專利預(yù)測模型,即通過比較分析方法,比較先進(jìn)主體和落后主體在同一領(lǐng)域內(nèi)的專利預(yù)測模型,通過尋找二者的差異,為落后主體挖掘潛在的技術(shù)機(jī)會(huì).