亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于失效(有效)專利文本聚類的技術(shù)主題演變研究

        2020-01-08 02:09:02蔡裕謙
        研究與發(fā)展管理 2019年6期
        關(guān)鍵詞:專利聚類詞語(yǔ)

        馬 力,杭 捷,蔡裕謙

        (1.大連理工大學(xué) 商學(xué)院,盤錦 124200;2.清華大學(xué) 理學(xué)院,北京 100084)

        專利集合了技術(shù)、經(jīng)濟(jì)、商業(yè)情報(bào)等重要信息,具有可靠、及時(shí)、內(nèi)容詳實(shí)等特點(diǎn),是獲取技術(shù)信息的有效途徑[1]。近年來,隨著國(guó)際競(jìng)爭(zhēng)日益激烈,專利數(shù)量爆炸式增長(zhǎng),在“萬(wàn)眾創(chuàng)新、大眾創(chuàng)業(yè)”的大環(huán)境下,我國(guó)繼2015年蟬聯(lián)專利申請(qǐng)量世界第一后,2016年專利申請(qǐng)?jiān)隽空既蚩傇隽康?8%,再創(chuàng)新高[2]。在專利申請(qǐng)和授權(quán)量迅猛增加的同時(shí),也應(yīng)注意到有大量專利進(jìn)入公知公用領(lǐng)域,這些失效專利具有二次研究開發(fā)、分析專利價(jià)值、判定技術(shù)開發(fā)軌跡和方向等重要功能,對(duì)創(chuàng)新創(chuàng)業(yè)決策具有不可忽視的利用價(jià)值[3]。但因失效專利數(shù)量龐大且雜質(zhì)較多,針對(duì)其利用的研究并不多。隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)挖掘方法被廣泛運(yùn)用到專利分析中,使從海量的失效專利中挖掘有價(jià)值的信息成為可能。

        目前,關(guān)于技術(shù)主題研究的文獻(xiàn)多從優(yōu)化聚類算法角度出發(fā),實(shí)現(xiàn)技術(shù)主題獲取的精準(zhǔn)化。部分成果選擇時(shí)間角度進(jìn)行研究切入,針對(duì)各技術(shù)主題隨時(shí)間演進(jìn)的發(fā)展趨勢(shì)進(jìn)行研究。這些研究存在一定的缺陷,即未充分考慮專利的科技含量及法律狀態(tài)。就科技含量而言,相比于其他類型的專利,授權(quán)發(fā)明專利最能反映技術(shù)發(fā)展水平。根據(jù)法律狀態(tài),可將授權(quán)發(fā)明專利分為失效的授權(quán)發(fā)明專利和有效的授權(quán)發(fā)明專利,失效授權(quán)發(fā)明專利的失效原因包括:更先進(jìn)技術(shù)的專利產(chǎn)生、原專利的技術(shù)特征已被淘汰、專利權(quán)人無(wú)法支付專利年費(fèi)、專利不符合當(dāng)時(shí)技術(shù)發(fā)展需要等。對(duì)失效授權(quán)發(fā)明專利信息進(jìn)行剖析,可以避免重復(fù)研究,明確技術(shù)發(fā)展方向,節(jié)約研發(fā)經(jīng)費(fèi),提高科研效率[4-5]。

        不同于以往研究,本文聚焦于授權(quán)發(fā)明專利,并且將失效授權(quán)發(fā)明專利(下文簡(jiǎn)稱為失效專利)納入重要的研究維度,在優(yōu)化中文文本聚類基礎(chǔ)上,提供一種觀察技術(shù)主題變化的新角度,即對(duì)失效專利、有效專利及失效/有效專利分別進(jìn)行中文文本聚類,并運(yùn)用?;鶊D(Sankey diagram)對(duì)3個(gè)聚類結(jié)果之間的關(guān)系進(jìn)行可視化分析,確定各專利類、專利流的技術(shù)主題,通過專利流的走向了解技術(shù)主題的變化情況,對(duì)比分析主題的新生、消亡及發(fā)展?fàn)顩r。此外,本文基于LED封裝產(chǎn)業(yè)專利數(shù)據(jù)對(duì)新研究方法的正確性進(jìn)行驗(yàn)證。

        1 研究綜述

        1.1 基于文本挖掘的專利技術(shù)主題分析方法

        專利數(shù)量的增加推進(jìn)了專利文本挖掘研究,逐步出現(xiàn)適用于技術(shù)主題分析的多種方法,包括術(shù)語(yǔ)詞頻統(tǒng)計(jì)、共詞分析、文本聚類分析等[6]。①術(shù)語(yǔ)詞頻統(tǒng)計(jì)是最早、最簡(jiǎn)單的分析方法,利用術(shù)語(yǔ)抽取技術(shù),從專利文本(如專利標(biāo)題、摘要、權(quán)利等)中獲得技術(shù)術(shù)語(yǔ)來反映技術(shù)主題,并據(jù)此展開研究,目前主要包括兩方面研究:依據(jù)高頻詞分布情況確定技術(shù)研究熱點(diǎn)和加入時(shí)間序列對(duì)技術(shù)主題的演化進(jìn)行分析。②共詞分析較術(shù)語(yǔ)詞頻統(tǒng)計(jì)而言,同時(shí)考慮了詞語(yǔ)之間的聯(lián)系,根據(jù)詞語(yǔ)關(guān)聯(lián)度的高低進(jìn)行分析。共詞分析可劃分為共詞網(wǎng)絡(luò)分析、共詞聚類分析和戰(zhàn)略圖分析3種。欒春娟[7]通過對(duì)專利關(guān)鍵詞共現(xiàn)的研究,構(gòu)建了全球太陽(yáng)能技術(shù)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)關(guān)鍵技術(shù)主題的識(shí)別。韓紅旗等[8]根據(jù)戰(zhàn)略圖對(duì)燃料電池進(jìn)行實(shí)證分析。③文本聚類分析則將每個(gè)文檔中各個(gè)詞語(yǔ)出現(xiàn)的頻率轉(zhuǎn)換為該文檔的特征向量,利用特征向量間的距離來量化不同文檔間的相似程度。2個(gè)文檔中詞語(yǔ)出現(xiàn)的頻率越相似,則其相似度就越高。按照相似程度的高低將文檔分為不同技術(shù)主題的團(tuán)簇進(jìn)行分析。用專利文本聚類方法對(duì)技術(shù)主題進(jìn)行研究,一般分為兩階段:首先是對(duì)專利文本進(jìn)行聚類,形成不同技術(shù)主題的團(tuán)簇;其次,各團(tuán)簇生成主題詞來代表該團(tuán)簇的技術(shù)主題[6]。層次聚類[9]、k-means聚類[10]等文本聚類算法常用于專利文本聚類之中。另外,常用的主題詞生成方法是選取團(tuán)簇中的高頻技術(shù)術(shù)語(yǔ)代表該團(tuán)簇技術(shù)主題[11]。

        其中,術(shù)語(yǔ)詞頻統(tǒng)計(jì)只能反映單個(gè)技術(shù)主題的變化情況,不能得到不同技術(shù)主題間的關(guān)系;共詞分析雖能了解不同技術(shù)主題間的關(guān)聯(lián),但其針對(duì)的是不同文章均出現(xiàn)的高支持度詞語(yǔ),對(duì)于僅在少數(shù)文章中出現(xiàn)的詞語(yǔ)并不敏感,所以新技術(shù)主題不易被識(shí)別。相較而言,專利文本聚類依托文檔相似性,克服了以上局限,是一種有效的技術(shù)主題分析方法,且適合于本文提出的產(chǎn)業(yè)技術(shù)主題演變新方法。

        1.2 專利視角下的產(chǎn)業(yè)技術(shù)主題發(fā)展研究

        建立技術(shù)主題信息之間的聯(lián)系,可以了解產(chǎn)業(yè)技術(shù)主題發(fā)展情況。目前,常見的技術(shù)主題發(fā)展研究均納入時(shí)間維度。通過觀察主題詞詞頻在時(shí)間上的變化可明確技術(shù)主題的發(fā)展情況、預(yù)測(cè)未來發(fā)展趨勢(shì),但不能獲得各技術(shù)主題之間的關(guān)聯(lián)情況[12]。KIM等[13]基于專利文本聚類結(jié)合專利申請(qǐng)時(shí)間,通過構(gòu)建關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò),明確了技術(shù)主題發(fā)展過程;CHEN等[14]根據(jù)不同的時(shí)間窗口,將專利文獻(xiàn)集進(jìn)行切割、聚類,獲得技術(shù)主題演變過程;王亮等[1]利用不同時(shí)間點(diǎn)的有效專利聚類作為聯(lián)系,繪制了專利隨時(shí)間演化的河流圖。這些研究不僅能看到技術(shù)主題隨時(shí)間的變化情況,還能得到各技術(shù)主題間的關(guān)聯(lián),在這點(diǎn)上是優(yōu)于基于術(shù)語(yǔ)詞頻統(tǒng)計(jì)的技術(shù)主題研究。但上述研究均不能得到致使技術(shù)主題發(fā)生變化的原因。這是由于以往研究忽視了專利的一個(gè)重要特性即其法律狀態(tài)。技術(shù)主題的改變通常伴隨著專利的產(chǎn)生與失效,從專利的法律狀態(tài)著手,提取失效專利與有效專利的關(guān)系,可進(jìn)一步觀察技術(shù)主題改變的原因。因此,本文從專利的法律狀態(tài)出發(fā),對(duì)產(chǎn)業(yè)技術(shù)主題的演化進(jìn)行分析,以期獲取更深層次的信息。

        1.3 考慮專利法律狀態(tài)的研究

        在專利研究領(lǐng)域,不同目的的研究會(huì)選擇不同種類的專利進(jìn)行研究,申請(qǐng)專利、授權(quán)專利是出現(xiàn)較多的專利種類。也有部分專家會(huì)從專利的法律狀態(tài)切入,其中根據(jù)有效專利或(和)失效專利開展的研究總體數(shù)量較少。在有效專利研究方面,張米爾等[15]進(jìn)行了專利叢林的測(cè)度以及演進(jìn)情況分析;楊建安[16]、陳振英等[17]對(duì)高校專利存在的管理、制度等問題進(jìn)行研究。對(duì)有效專利數(shù)量、狀態(tài)的研究,可明確產(chǎn)業(yè)或地區(qū)創(chuàng)新能力的強(qiáng)弱以及存在的不足,發(fā)現(xiàn)影響有效專利數(shù)量的因素,提出相應(yīng)建議[18-19]。

        在失效專利研究方面,國(guó)內(nèi)外學(xué)者的研究?jī)?nèi)容有所差異。國(guó)外學(xué)者比國(guó)內(nèi)學(xué)者更多、更早進(jìn)入專利相關(guān)領(lǐng)域的研究,因而對(duì)失效專利研究也更為深入,主要可概括為以下方面:①以即將失效的專利為研究對(duì)象,對(duì)其后續(xù)影響及應(yīng)對(duì)策略進(jìn)行研究[20];②以失效專利為研究對(duì)象,挖掘此類專利的內(nèi)在價(jià)值,為技術(shù)的創(chuàng)新和轉(zhuǎn)移、提高市場(chǎng)競(jìng)爭(zhēng)力服務(wù)[21];③對(duì)無(wú)效專利制度的研究[22]。國(guó)內(nèi)失效專利利用率較低,且多從概念、定義角度出發(fā)進(jìn)行闡述,或根據(jù)實(shí)例總結(jié)失效專利價(jià)值,而對(duì)失效專利利用方法的研究甚少。這可能與對(duì)失效專利的重視程度、挖掘價(jià)值的難度和成本等有關(guān)。

        近年來,隨著失效專利數(shù)量的增加、數(shù)據(jù)挖掘技術(shù)的普及以及知識(shí)產(chǎn)權(quán)的重要性被不斷強(qiáng)調(diào),不少學(xué)者加入挖掘失效專利信息的行列[23-25]。韓曉彤等[26]將失效專利列為研究對(duì)象,同時(shí)利用專利申請(qǐng)數(shù)據(jù),構(gòu)建可用于識(shí)別競(jìng)爭(zhēng)對(duì)手研發(fā)方向的有效方法,幫助企業(yè)尋找技術(shù)機(jī)會(huì),是少有的從專利法律狀態(tài)出發(fā)對(duì)失效專利價(jià)值充分利用的研究,也是少有的建立起不同種類專利之間關(guān)系的研究。

        本文將搭建起失效專利和有效專利之間的關(guān)系,從一個(gè)全新的角度了解產(chǎn)業(yè)技術(shù)主題演變情況及演變?cè)?,即通過失效專利、有效專利分別聚類,明確產(chǎn)業(yè)當(dāng)前的技術(shù)熱點(diǎn)及失效專利涉及的技術(shù)主題,同時(shí),將“失效/有效專利”作為失效專利、有效專利兩者聯(lián)系的紐帶,對(duì)比專利類及相關(guān)專利流各主題間的關(guān)系,提取微觀層面專利技術(shù)變化的深層信息。

        2 研究方法及步驟

        2.1 中文專利文本聚類過程

        專利文本聚類的過程主要包括初始專利數(shù)據(jù)庫(kù)的獲得、文本預(yù)處理、文檔建模及優(yōu)化、聚類并對(duì)結(jié)果進(jìn)行評(píng)價(jià)或描述,如圖1所示。

        圖1 專利文本聚類過程圖Fig.1 Clustering process diagram of patent text

        2.1.1 初始專利數(shù)據(jù)庫(kù)的獲得 ①檢索并篩選專利:根據(jù)需求確定檢索詞和檢索范圍(專利摘要、專利名稱、專利權(quán)利等),選擇合適的專利數(shù)據(jù)庫(kù)(歐洲、美國(guó)、日本、中國(guó)等)進(jìn)行檢索得到相關(guān)專利。②提取、下載專利數(shù)據(jù):根據(jù)研究?jī)?nèi)容選擇條目(申請(qǐng)時(shí)間、專利權(quán)人、IPC等)進(jìn)行下載,得到相應(yīng)專利文檔。③清洗專利數(shù)據(jù),剔除與研究主題不符的專利。

        2.1.2 文本預(yù)處理 這是決定聚類效果好壞的關(guān)鍵步驟,也是工作量最大的步驟,主要包括以下內(nèi)容。①用中文分詞軟件對(duì)專利的名稱或摘要進(jìn)行分詞處理(本文采用中科院張華平博士開發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng),又名ICTCLAS2013①資料來源:http://ictclas.nlpir.org/。)。②對(duì)各個(gè)詞語(yǔ)的詞性進(jìn)行標(biāo)注,保留名詞、動(dòng)詞、動(dòng)名詞等具有實(shí)際意義的詞語(yǔ)。③過濾一些和技術(shù)主題無(wú)關(guān)聯(lián)的詞語(yǔ),如發(fā)明、方法、步驟、程序等,同時(shí)將每個(gè)專利都含有的主題詞刪去(包括LED、發(fā)光二極管、封裝、半導(dǎo)體、發(fā)光等詞);計(jì)算余下詞語(yǔ)的支持度,選擇保留支持度大于n的詞語(yǔ),其中n需要根據(jù)實(shí)際聚類專利情況反復(fù)嘗試確定,保留的詞語(yǔ)大約為原來的1%。

        2.1.3 文檔建模 文檔建模的步驟包括文本特征的選擇、表示及相似度矩陣的構(gòu)造。本文則統(tǒng)計(jì)各詞語(yǔ)在不同專利摘要中出現(xiàn)的頻率,利用向量空間模型(VSM)來實(shí)現(xiàn)文本特征表示,并通過計(jì)算詞頻—逆文本頻率指數(shù)(term frequency-inverse document freauency,TF-IDF)實(shí)現(xiàn)相似度矩陣的構(gòu)造,TF-IDF的計(jì)算公代表詞頻(termfrequency),即文檔d中單詞i的權(quán)重,值越大,權(quán)重越高,其中,tfi(d)表示文檔d中出現(xiàn)單詞i的次數(shù),max TF(t)表示所有文檔中出現(xiàn)單詞i代表反文檔頻數(shù)(inversedocument frequency),表示單詞i的全局權(quán)重,即越多的文檔中包含某一單詞,該單詞的重要性越低,其中,N表示文檔數(shù)量,DF(t)表示含有單詞i的文檔數(shù)量。

        2.1.4 聚類、評(píng)價(jià)或描述結(jié)果 本文選用層次聚類分析方法,利用Python編寫代碼實(shí)現(xiàn)。相較于其他聚類方法,層次聚類算法無(wú)須預(yù)先確定聚類數(shù)量,可以觀察類之間的層次關(guān)系,自行選擇、更改聚類數(shù)量,并且該算法效率很高。之后對(duì)聚類結(jié)果進(jìn)行分析和描述,可以確定各類研究主題,本文是通過“分詞、長(zhǎng)尾詞、統(tǒng)計(jì)支持度及詞頻”的方式確定各類研究主題,為后續(xù)的討論分析服務(wù)。長(zhǎng)尾詞這一步驟,一方面是為了克服分詞系統(tǒng)和專業(yè)詞匯之間的矛盾,即有些專業(yè)詞匯不能通過中文分詞軟件得到,例如量子阱、數(shù)碼管等,另一方面是為了得到更為細(xì)化的主題,如比LED更細(xì)化的白光LED、LED芯片等。綜合考慮支持度和詞頻是為了避免某些詞語(yǔ)在單個(gè)專利中的極高出現(xiàn)頻次對(duì)主題詞選擇的影響[27]。

        2.2 基于失效/有效專利聚類的產(chǎn)業(yè)技術(shù)主題研究過程

        在發(fā)明、實(shí)用新型及外觀設(shè)計(jì)3類專利中,發(fā)明專利審查最為嚴(yán)格,最能反映核心技術(shù)水平和發(fā)展趨勢(shì),所以將發(fā)明授權(quán)專利作為數(shù)據(jù)來源分析產(chǎn)業(yè)技術(shù)主題的變化最為合理。根據(jù)專利法的規(guī)定,失效專利包括屆滿專利、專利權(quán)人放棄的專利(未滿期專利)、未在中國(guó)提出申請(qǐng)的國(guó)外專利、知識(shí)產(chǎn)權(quán)局認(rèn)定的失效專利以及專利權(quán)被撤銷的專利。其中,專利權(quán)人放棄的專利是本文研究的失效專利主體,其失效原因主要包括:①該項(xiàng)技術(shù)先進(jìn),甚至具有超前性,未來市場(chǎng)前景廣闊,但當(dāng)前尚不具備實(shí)施條件;②高昂的年費(fèi)讓一些專利權(quán)人決定放棄該專利;③技術(shù)迭代更新,專利權(quán)人擁有了更加領(lǐng)先的技術(shù)而放棄了原來的技術(shù)[3]。但從專利文獻(xiàn)中并不能直接得到專利權(quán)人放棄該專利的潛在原因,所以需要通過數(shù)據(jù)挖掘分析的手段對(duì)該專利的研究?jī)r(jià)值和意義做出判斷。

        具體流程如圖2所示。①整理文檔根據(jù)壽命、失效原因等判定專利是否為研究對(duì)象,即未繳納年費(fèi)的失效專利和有效專利,將其根據(jù)失效專利、有效專利、失效/有效專利進(jìn)行分類。②確定相同聚類用詞對(duì)失效/有效專利的專利標(biāo)題進(jìn)行分詞,再通過詞語(yǔ)的詞性判斷是否為停用詞、與技術(shù)無(wú)關(guān)詞、共同主題詞等,得到初級(jí)詞庫(kù)。之后針對(duì)失效/有效專利摘要,就初級(jí)詞庫(kù)進(jìn)行支持度統(tǒng)計(jì)、排序,篩選前1%的詞語(yǔ)得到聚類詞庫(kù)。因?yàn)閷@麡?biāo)題最能直接反映專利內(nèi)容,且沒有多余的修飾詞,分詞結(jié)果更為理想,能得到代表該產(chǎn)業(yè)技術(shù)領(lǐng)域的主要詞匯,所以初級(jí)詞庫(kù)根據(jù)標(biāo)題得到。通過失效/有效專利得到的詞庫(kù)是之后聚類的基礎(chǔ),以相同的詞語(yǔ)聚類才具有比較的意義。③聚類。在相同的聚類用詞的基礎(chǔ)上,分別對(duì)失效專利、有效專利、失效/有效專利的摘要進(jìn)行聚類,得到聚類結(jié)果。④提取主題詞。根據(jù)不同的聚類結(jié)果將專利整理、分類,通過“分詞、長(zhǎng)尾詞、統(tǒng)計(jì)支持度及詞頻”的方式確定研究主題。首先,對(duì)各類摘要進(jìn)行分詞處理得到一級(jí)詞,對(duì)一級(jí)詞兩兩組合得到二級(jí)詞語(yǔ),二級(jí)詞語(yǔ)之間再次組合或與一級(jí)詞組合得到三級(jí)詞,以此類推,得到屬于該類的所有長(zhǎng)尾詞。其次,由分詞得到的一級(jí)詞和經(jīng)過組合得到的長(zhǎng)尾詞共同構(gòu)成初級(jí)詞庫(kù)。再次,過濾掉不具實(shí)際意義的詞匯,得到一個(gè)全新的詞庫(kù)。最后,計(jì)算該類中含有不同詞語(yǔ)的專利個(gè)數(shù),即詞語(yǔ)支持度,保留支持度≥50%的詞語(yǔ),當(dāng)滿足支持度要求的詞語(yǔ)數(shù)量小于m時(shí),將詞頻靠前的其他詞語(yǔ)進(jìn)行保留,從而實(shí)現(xiàn)保留的詞語(yǔ)數(shù)量≥m。支持度≥50%,說明該詞語(yǔ)在此類50%以上的專利中出現(xiàn),具有一定的概括性,可以作為確定該類主題的一個(gè)可靠依據(jù)。m則根據(jù)類的大小、研究主題的廣泛和狹窄確定,是一個(gè)需要反復(fù)實(shí)踐的過程。之后,對(duì)比保留下來的m個(gè)相關(guān)詞匯,確定該類主題和能代表該類研究?jī)?nèi)容的主題詞。技術(shù)主題詞的提取過程為:一級(jí)詞→長(zhǎng)尾詞→初級(jí)詞庫(kù)→主題詞。⑤聚類結(jié)果可視化?;谑?有效專利的產(chǎn)業(yè)技術(shù)主題發(fā)展研究需要建立起失效和有效專利之間的聯(lián)系,而本文通過各自聚類、綜合聚類來實(shí)現(xiàn)連接,每個(gè)專利均會(huì)出現(xiàn)在兩個(gè)聚類結(jié)果當(dāng)中,如果不將其進(jìn)行可視化,就不能明確看到各類之間的關(guān)系以及各技術(shù)主題的變化情況。本文采用桑基圖(又稱?;芰科胶鈭D)來可視化聚類結(jié)果,把失效專利、失效/有效專利、有效專利分別作為3個(gè)節(jié)點(diǎn),而專利在2個(gè)節(jié)點(diǎn)間的數(shù)量則是流動(dòng)前后保持不變的能量。?;鶊D中專利流的粗細(xì)代表專利數(shù)量,專利流越粗,相關(guān)專利越多。通過?;鶊D能看到專利的合流、分流,進(jìn)行主題詞分析亦能看到研究主題的變化以及專利空白點(diǎn)等內(nèi)容。圖3是?;鶊D在本文中的呈現(xiàn)范例。

        圖2 基于失效/有效專利聚類的產(chǎn)業(yè)技術(shù)主題研究過程Fig.2 Process of industrial technology subject research based on not in force/effectivepatent clustering

        圖3 桑基圖范例Fig.3 Exampleof Sankey diagram

        2.3 聚類結(jié)果分析

        通過?;鶊D一般可以得到9種最基本的關(guān)系,如圖4所示,其中,圖4(a)~圖4(c)是最簡(jiǎn)單的3種關(guān)系,其余6種可根據(jù)專利類的變化劃分為合并或分解關(guān)系。為了使示意圖更清晰明了,圖中失效專利類記為“失效X”,有效專利類記為“有效X”,失效/有效專利的共同聚類結(jié)果記為“totX”。

        1)一一對(duì)應(yīng)的關(guān)系,即對(duì)失效/有效聚類,失效專利中的某一類和有效專利中的某一類共同歸屬于同一tot類。如圖4(a)中失效專利A類與有效專利B類同時(shí)屬于totC類,則A類中的失效專利和B類中的有效專利具有很高的相似性,涉及的技術(shù)主題基本一致。

        2)全失效專利聚類,即沒有有效專利與這些失效專利涉及相同的研究主題,如圖4(b)。也就是說,該主題已經(jīng)是被淘汰的技術(shù)主題,研究意義和價(jià)值較低。

        3)全有效專利聚類,即沒有失效專利與這些有效專利研究相同的技術(shù)主題,如圖4(c)。也就是說,該技術(shù)主題相對(duì)較新且具有活力,存在一定的研究意義和價(jià)值。

        4)失效專利類合并,即失效/有效聚類將多個(gè)失效專利類和一個(gè)有效專利類聚在一類之中,圖4(d)所示的是最簡(jiǎn)單的一種情況,屬于二對(duì)一的情況。因?yàn)橛行類專利的加入,失效A類專利和失效B類專利建立起了聯(lián)系,同屬于totD類,有效專利C類研究的技術(shù)主題同時(shí)涉及失效專利A類、B類的技術(shù)主題,則說明失效專利A類和失效專利B類的交叉領(lǐng)域具有研究?jī)r(jià)值,即有效專利C類所屬領(lǐng)域。

        5)有效專利類合并,即失效/有效聚類將多個(gè)有效專利類和一個(gè)失效專利類聚在一類之中,圖4(e)所示的是最簡(jiǎn)單的一種情況,即一對(duì)二的情況。有效專利A類和有效專利B類本來是獨(dú)立的2個(gè)類,因?yàn)槭@鸆類的加入建立起聯(lián)系,說明失效專利C類是有效專利A類和B類的交叉研究領(lǐng)域。有效專利A類和有效專利B類是從失效專利C類發(fā)展而來的2個(gè)較獨(dú)立的技術(shù)方向。

        圖4 失效/有效專利聚類結(jié)果示意圖Fig.4 Not in force/effective patent clustering results

        6)失效、有效專利類同時(shí)合并。多個(gè)失效專利類和多個(gè)有效專利類聚集到一個(gè)失效/有效專利類當(dāng)中,其中最簡(jiǎn)單的一種就是二對(duì)二的情況,如圖4(f)所示。失效專利A、B類之間,以及有效專利C、D類之間是存在一定距離的,通過失效/有效專利聚類,這4個(gè)專利類聚集在一起,說明它們隸屬于一個(gè)技術(shù)領(lǐng)域,且有效專利C類和D類均是在失效專利A類和B類的交叉領(lǐng)域發(fā)展起來的2個(gè)技術(shù)方向。

        7)有效專利類分解。原本獨(dú)立的一類有效專利在加入失效專利共同聚類后被分解成多類,說明被分解的有效專利類在考慮失效專利前已經(jīng)存在較大距離。而有效專利類最簡(jiǎn)單的分解情況是將其分解成2類,即和有效專利類相關(guān)的2個(gè)不同的方向或主題。如圖4(g)所示,有效專利C類分別與失效專利A、B聚類得到totD類和totE類,說明有效專利C類由于失效專利A、B類的加入,分解為有效專利C1和C2。C1和C2是有效專利C類的2個(gè)方向或主題,且分別和失效專利A、B類相近。

        8)失效專利類分解。原本獨(dú)立的一類失效專利在和有效專利共同聚類后被分解成多類,說明該失效專利類之間存在較大的距離,而失效專利類最簡(jiǎn)單的分解情況是將其分解成2類,如圖4(h)所示。與有效專利分解類似,失效專利C類分別與有效專利A、B聚類得到totD類和totE類,說明失效專利C類由于有效專利A、B類的加入,分解為失效專利C1和C2。C1和C2是失效專利C類的2個(gè)方向或主題,且分別和有效專利A、B類相近。

        9)失效、有效專利類同時(shí)分解。通過失效/有效專利聚類,原來獨(dú)立的失效專利類和有效專利類同時(shí)被分解成多個(gè)類,若失效專利類和有效專利類分解后所屬的類有相同部分,則該領(lǐng)域中涵蓋的有效和失效專利相似度極高,且存在著技術(shù)主題演化規(guī)律。其中,最簡(jiǎn)單的情況就是失效專利類和有效專利類同時(shí)分解成相同的兩類,如圖4(i)所示。B1、B2是失效專利B類的2個(gè)分支,技術(shù)主題屬于失效專利B類主題;A1、A2技術(shù)主題和有效專利A類主題相同。由于加入有效專利A1,失效專利C類和B1聚為一類,說明A1涉及的技術(shù)領(lǐng)域是失效專利C類和B1的交叉技術(shù)領(lǐng)域;有效專利D類、A2和失效專利B2聚為一類,說明有效專利D類、A2是由失效專利B2發(fā)展而來的2個(gè)技術(shù)方向。

        以上是較為理想且簡(jiǎn)化的結(jié)果,實(shí)際情況更為復(fù)雜,而聚類效果的好壞將對(duì)分析結(jié)果產(chǎn)生直接影響。文本聚類是無(wú)監(jiān)督學(xué)習(xí)的過程,沒有嚴(yán)格的標(biāo)準(zhǔn)衡量聚類結(jié)果的好壞,只能通過反復(fù)的調(diào)試、修改聚類層級(jí)來盡可能達(dá)到想要的結(jié)果。而專利摘要不夠具體、中文詞匯的一詞多義等也會(huì)對(duì)聚類的效果及后續(xù)分析產(chǎn)生較大影響。

        2.4 方法的創(chuàng)新性及其適用情形

        目前,基于專利分析進(jìn)行產(chǎn)業(yè)技術(shù)主題研究的相關(guān)文獻(xiàn)大多未充分考慮專利的法律狀態(tài),或?qū)⑹@⒂行@謩e作為研究對(duì)象展開研究。僅針對(duì)失效專利展開研究,無(wú)法把握產(chǎn)業(yè)發(fā)展的大方向,所以對(duì)于產(chǎn)業(yè)技術(shù)主題變化研究的借鑒意義不足。僅關(guān)注有效專利或未區(qū)別專利法律狀態(tài)進(jìn)行的研究,忽視了主題變化過程中失效專利技術(shù)主題所蘊(yùn)含的信息。本文提出的新方法既能得到產(chǎn)業(yè)技術(shù)主題的變化信息,亦可獲得技術(shù)主題演變的微觀原因,實(shí)現(xiàn)了對(duì)專利法律狀態(tài)信息的充分利用。

        本文提出的方法是基于文本聚類實(shí)現(xiàn)的,因而,運(yùn)用該方法進(jìn)行技術(shù)主題的變化研究時(shí),前提是研究領(lǐng)域存在足夠的失效、有效發(fā)明授權(quán)專利,這就意味著該領(lǐng)域是發(fā)展較為成熟、專利產(chǎn)出較多、更替較快的科技領(lǐng)域。在此基礎(chǔ)上,專家學(xué)者可以根據(jù)不同的研究目的選擇不同的專利數(shù)據(jù)進(jìn)行分析。例如:為確定某時(shí)間段內(nèi)技術(shù)主題的變化情況,可對(duì)某段時(shí)間內(nèi)的失效、有效專利進(jìn)行主題挖掘;為明確某主題下的細(xì)分主題變化情況,從更微觀的層面分析主題演變的原因,可對(duì)細(xì)分主題所屬領(lǐng)域的相關(guān)失效、有效專利進(jìn)行研究,為企業(yè)研發(fā)決策提供參考。為充分說明本文提出的新方法,下文將對(duì)1985—2015年的LED封裝技術(shù)領(lǐng)域?qū)@M(jìn)行技術(shù)主題挖掘。LED封裝產(chǎn)業(yè)發(fā)展歷史悠久,具有充足的失效及有效專利數(shù)量,且技術(shù)主題具有多樣性,通過本文提出的創(chuàng)新方法可以挖掘得到不同技術(shù)主題間的相互關(guān)聯(lián),獲得主題演變的原因。

        3 LED封裝產(chǎn)業(yè)技術(shù)主題研究

        3.1 數(shù)據(jù)來源及簡(jiǎn)單描述

        LED封裝技術(shù)專利檢索方案如下:2017年10月29日于IncoPat科技創(chuàng)新情報(bào)平臺(tái)(http://www.incopat.com/)檢索,數(shù)據(jù)庫(kù)范圍限定為中國(guó)發(fā)明授權(quán)專利(不包括香港、臺(tái)灣地區(qū)),時(shí)間范圍為1985—2015年(按申請(qǐng)日期),檢索主題詞為“LED”“發(fā)光二極管”“半導(dǎo)體發(fā)光”,而非“燈”“有機(jī)”“顯示屏”“模板”“控制器”“發(fā)光棒”“廣告”“手電”[28]。

        因?yàn)榘l(fā)明專利一般從申請(qǐng)日到公布進(jìn)入實(shí)質(zhì)審查日需要18個(gè)月的時(shí)間,所以2016—2017年的數(shù)據(jù)是不完整的,搜索的時(shí)間范圍確定為1985—2015年。對(duì)搜索得到的專利信息進(jìn)行篩選,刪去和LED封裝技術(shù)無(wú)關(guān)的專利,得到符合要求的專利8 791項(xiàng)。其中,屆滿失效(到達(dá)專利年限失效)的專利數(shù)量為3項(xiàng),原專利權(quán)人分別為美國(guó)的馬西莫有限公司、日本的株式會(huì)社東芝和株式會(huì)社日立;宣告無(wú)效的專利為2項(xiàng);因?qū)@麢?quán)人放棄而失效的專利為1 404項(xiàng);有效專利數(shù)量為7 382項(xiàng)。按照專利申請(qǐng)年份對(duì)之后獲得授權(quán)的發(fā)明專利(包括專利權(quán)人放棄的失效專利、屆滿失效專利及有效專利)進(jìn)行統(tǒng)計(jì),可以得到LED封裝技術(shù)的發(fā)展趨勢(shì),如圖5所示,2012年申請(qǐng)的發(fā)明專利被授權(quán)的數(shù)量最多,說明這是LED封裝產(chǎn)業(yè)發(fā)展最快的時(shí)期,LED封裝技術(shù)研發(fā)參與者大幅增加,加大了對(duì)該產(chǎn)業(yè)的投入。

        前已述及,在產(chǎn)業(yè)發(fā)展進(jìn)程中,多種原因會(huì)導(dǎo)致授權(quán)后的專利變成失效專利,LED封裝技術(shù)產(chǎn)業(yè)的失效專利壽命統(tǒng)計(jì)如圖6所示。由圖6可知,失效專利的壽命主要集中在48、60、72個(gè)月,即3~5年,這和專利年費(fèi)的梯度增長(zhǎng)、專利質(zhì)量相對(duì)較低有關(guān)。

        圖5 1988—2014年LED封裝技術(shù)相關(guān)發(fā)明專利各年授權(quán)數(shù)量Fig.5 Annual number of authorized patentsrelated to LEDpackagingtechnology in 1988—2014

        圖6 LED封裝技術(shù)發(fā)明專利壽命統(tǒng)計(jì)Fig.6 Invention patent lifestatisticsof LEDpackagingtechnology

        3.2 技術(shù)熱點(diǎn)分析

        通過VOSviewer分別可視化失效專利和有效專利中專業(yè)詞語(yǔ)間的關(guān)聯(lián)分析結(jié)果,并對(duì)關(guān)聯(lián)性較強(qiáng)的詞語(yǔ)聚類,結(jié)果如圖7、圖8所示。

        圖7 未滿期失效專利聚類Fig.7 Clustering of unexpired not in force patent

        圖8 有效專利聚類Fig.8 Clusteringof effectivepatent

        通過觀察聚類結(jié)果可知,LED封裝技術(shù)專利主要涉及照明裝置、熒光粉、封裝結(jié)構(gòu)、電路板等領(lǐng)域。對(duì)比2種聚類可以發(fā)現(xiàn),部分技術(shù)熱點(diǎn)是在改變的,例如:未滿期失效專利中存在散熱基板、半導(dǎo)體發(fā)光組件等詞語(yǔ),但在有效專利聚類中并未看到,說明這些領(lǐng)域有效專利數(shù)量較少,不再是當(dāng)今技術(shù)熱點(diǎn);一些未出現(xiàn)在失效專利聚類中的詞語(yǔ),如磷光、磷酸等,卻出現(xiàn)在有效專利聚類中,說明該技術(shù)方向是較新的。這些變化通過單獨(dú)對(duì)比失效、有效聚類分析很難得到確切的結(jié)果,通過失效/有效聚類建立起失效專利與有效專利的聯(lián)系更能說明問題。

        3.3 LED封裝產(chǎn)業(yè)(部分)技術(shù)主題發(fā)展情況

        根據(jù)2.2節(jié)描述的產(chǎn)業(yè)技術(shù)主題發(fā)展研究過程,運(yùn)用中文專利文本聚類方法,實(shí)現(xiàn)對(duì)有效專利、失效專利以及失效/有效專利的分別聚類,選擇相同聚類層級(jí),并用?;鶊D對(duì)3個(gè)聚類結(jié)果間的關(guān)系進(jìn)行可視化,截取其中關(guān)于“熒光粉”的失效專利1相關(guān)部分對(duì)2.2節(jié)中提到的9種情況進(jìn)行說明(見圖9)。本文只針對(duì)圖中失效專利1類涉及的專利類(失效1,失效8,tot20,tot19,tot33,tot18,有效25,有效44,有效28,有效24)進(jìn)行討論,簡(jiǎn)化起見,只研究?;鶊D上主要的專利流。

        圖9 LED封裝發(fā)明專利(失效/有效)局部關(guān)系圖Fig.9 Local relation diagramof LEDpatent inventions(not in force/effective patent)

        為方便理解,給出這幾類專利的關(guān)系結(jié)構(gòu)圖,如圖10所示。圖中失效專利1類由于有效專利(25、44、28、24)的加入,分解為4條明顯的專利流(1-1、1-2、1-3、1-4),說明在失效/有效聚類時(shí),隸屬于失效專利1類的專利分別與不同的有效專利類產(chǎn)生關(guān)聯(lián),可分為4個(gè)研究領(lǐng)域。而與失效專利1類關(guān)聯(lián)的有效專利中,僅有效專利25類的一個(gè)分支(25-1)將失效專利1類的分支(1-1)與失效專利8類的分支(8-4)建立聯(lián)系,即為失效、有效專利同時(shí)分解的一種復(fù)雜情況。結(jié)合本文2.3節(jié)的分析結(jié)果,可知各專利類涉及領(lǐng)域之間的關(guān)系。而失效專利8類的分支可以分為(8-1)至(8-5)這5個(gè)主要部分,除了分支(8-4)與失效專利1類建立聯(lián)系外,其余4個(gè)分支與失效專利1類相關(guān)性較低,限于篇幅,本文不對(duì)其進(jìn)行討論。

        圖10 失效專利1類專利流向Fig.10 Theflowof type1 of not in forcepatents

        通過獲取各專利類以及連接失效專利和tot、tot和有效專利之間專利流的主題詞,比較與分析后得到技術(shù)主題的演變情況,如表1所示。白光LED的光效、光強(qiáng)、壽命、色溫等性能受熒光粉與封裝結(jié)構(gòu)、工藝的影響。上述失效專利1類相關(guān)的領(lǐng)域主要涉及的技術(shù)主題詞有熒光粉、白光LED、發(fā)光(熒光)材料,所以失效專利1類研究的是白光LED熒光粉技術(shù)領(lǐng)域。失效專利1類因?yàn)榧尤胗行@?5、44、28、24類被分解成4個(gè)專利流,即白光LED熒光粉技術(shù)領(lǐng)域的4個(gè)主要研究方向。通過本文提供的方法,對(duì)比失效專利1類相關(guān)專利流提供的信息,可知“藍(lán)光LED芯片激發(fā)熒光粉產(chǎn)生白光”技術(shù)領(lǐng)域越來越受重視,且紅光研究領(lǐng)域的衰退與此有關(guān);樹脂、基質(zhì)在白光LED封裝上的應(yīng)用和白光的產(chǎn)生是白光LED領(lǐng)域2個(gè)熱門的研究方向;氮氧化物等熒光材料是發(fā)展的趨勢(shì);紅色熒光粉領(lǐng)域技術(shù)在不斷改進(jìn)完善。這些信息無(wú)法從圖7和圖8中獲得,須基于文本聚類通過tot建立失效專利和有效專利的橋梁,比較專利流前后信息得到。通過查閱相關(guān)產(chǎn)業(yè)文獻(xiàn)[29-30]發(fā)現(xiàn),本文得出的結(jié)論與當(dāng)時(shí)該技術(shù)領(lǐng)域發(fā)展?fàn)顩r及未來發(fā)展趨勢(shì)相符,說明本文提出的研究方法是科學(xué)的。

        表1 失效專利1類相關(guān)主題變化情況分析Tab.1 Analysis of in related theme changes in of not in force patents

        4 結(jié)論與展望

        與以往的產(chǎn)業(yè)技術(shù)主題研究不同,本文將失效專利納入考察維度,提出了一種觀察技術(shù)主題微觀變化過程的新方法。若僅將有效專利作為研究對(duì)象進(jìn)行產(chǎn)業(yè)研究,不考慮專利的法律狀態(tài),可以得到技術(shù)主題的變化情況,但不能明確導(dǎo)致變化產(chǎn)生的微觀原因。另一方面,若僅針對(duì)失效專利進(jìn)行技術(shù)主題分析,只能片面了解某產(chǎn)業(yè)中失效專利多屬于哪一領(lǐng)域,包含哪些技術(shù)主題。而將專利分為失效、有效、失效/有效專利分別進(jìn)行聚類,建立未滿期失效專利和有效專利之間的聯(lián)系,并利用?;鶊D直觀地了解各個(gè)主題之間的關(guān)系,不失為一種更為有效的技術(shù)主題研究方法。通過專利流的合并與分解,能更清晰地了解技術(shù)主題的淘汰、保留及發(fā)展情況;對(duì)比專利流信息,可以明確該主題涉及的技術(shù)特征的變化情況。

        本文提出的研究方法主要具有3方面的重要意義:①加入失效專利分析維度,可以幫助企業(yè)把握產(chǎn)業(yè)技術(shù)主題的發(fā)展大方向,為企業(yè)專利戰(zhàn)略的制訂提供依據(jù);②通過對(duì)比“失效—tot”“tot”“tot—有效”各主題間的關(guān)系,可以分析得到更深層的技術(shù)變化信息,為企業(yè)研發(fā)決策服務(wù);③通過建立有效專利和失效專利之間的聯(lián)系來挖掘?qū)@畔⑹且环N全新的研究視角,企業(yè)可以據(jù)此對(duì)專利權(quán)人、技術(shù)功效方案等轉(zhuǎn)變進(jìn)行研究。應(yīng)用該方法須注意的事項(xiàng)為:對(duì)于領(lǐng)域技術(shù)涉及較廣、涵蓋技術(shù)主題較多且技術(shù)主題間關(guān)系復(fù)雜的情況,須仔細(xì)根據(jù)文中提及的9種情況加以判斷;同時(shí),本方法的另一個(gè)局限是,研究對(duì)象須包含足夠數(shù)量的失效專利,對(duì)處于萌芽期、成長(zhǎng)期的產(chǎn)業(yè)可能不太適用。

        猜你喜歡
        專利聚類詞語(yǔ)
        容易混淆的詞語(yǔ)
        專利
        找詞語(yǔ)
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        基于DBSACN聚類算法的XML文檔聚類
        詞語(yǔ)欣賞
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一枚詞語(yǔ)一門靜
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        午夜爽爽爽男女污污污网站| 日本最新在线一区二区| 亚洲av一二三四五区在线| 久久天天躁夜夜躁狠狠85麻豆 | 日本免费看片一区二区三区| 中文字幕人妻伦伦| 国内精品无码一区二区三区| 久久精品无码一区二区三区不卡 | 2019最新中文字幕在线观看| 婷婷成人基地| 国产成人精品无码一区二区老年人| 国产黄色一区二区三区av| 欧洲女人与公拘交酡视频| 国产肉丝袜在线观看| 精品久久杨幂国产杨幂| 国产精品美女主播一区二区| 亚洲色欲久久久综合网东京热| 欧美亚洲日韩国产人成在线播放| 精品一区二区三区在线视频观看 | 少妇无码av无码去区钱| 日韩中文字幕一区在线| 蜜桃av精品一区二区三区| 国产美女露脸口爆吞精| 国产高清在线91福利| 国内精品国产三级国产| 大地资源在线观看官网第三页| 无码不卡高清毛片免费 | 亚洲福利二区三区四区| 国产色xx群视频射精| 另类免费视频在线视频二区| 日韩精品国产一区二区| 在线观看一级黄片天堂| 国产亚洲精品久久久久婷婷瑜伽 | АⅤ天堂中文在线网| 二区三区日本高清视频| 免费毛片a线观看| 精品 无码 国产观看| 久久国产精品精品国产色| 无码人妻精品一区二区三区夜夜嗨| 少妇被粗大的猛进69视频| 日本高清中文一区二区三区|