孫笑明,馬 鈺,王雅蘭,馮 濤,郭 欣,2
(1.西安建筑科技大學 管理學院,陜西 西安 710055;2.西北大學 法學院,陜西 西安 710055)
2020年3月20日,中共中央國務院發(fā)布了《關于構建更加完善的要素市場化資源配置機制體制的意見》,并將大數據列為我國第五大生產要素。其中,專利大數據通過各國專利行政部門公共數據服務平臺已累計發(fā)布文本6 500萬件以上,龐大的數據庫幾乎囊括了全球90%~95%的技術情報,是促進經濟高質量發(fā)展的戰(zhàn)略性資源。專利大數據以公開易獲取、更新速度快、結構化程度高、客觀質量好等優(yōu)勢為研究者所青睞,為高校和科研機構科學研究工作提供了良好的數據基礎。
然而,目前基于專利數據的研究,尤其是創(chuàng)新管理研究雖然積累了一定的研究成果,但豐富而龐大的數據和信息資源并沒有得到充分利用,數據與數據之間形成了一個個價值孤島,未對專利數據應用步驟、效度以及供給和分析平臺等進行系統總結和整理,影響研究結論及專利數據的應用價值。鑒于此,本文通過梳理專利數據基本信息、應用價值及其在創(chuàng)新管理研究中的應用,總結專利數據獲取、利用方式和提升效度措施,并匯總國內外現有專利數據分析平臺,從基于專利數據的網絡分析、創(chuàng)新指標挖掘與無形資產評估以及專利數據在案例研究中的應用3個視角提出未來研究方向,有助于豐富創(chuàng)新管理研究。
專利是創(chuàng)新成果的主要載體,專利所包含的技術、經濟、法律等信息主要通過結構化專利文獻著錄項的形式加以呈現。其中,技術信息包括某技術領域新發(fā)明創(chuàng)造、技術發(fā)展歷史、技術關鍵解決方案等內容;經濟信息包括發(fā)明創(chuàng)造擁有的同族專利數量、各國在不同技術領域發(fā)明創(chuàng)造活躍和衰退程度、正在開辟的技術市場、某項產品銷售國家和地區(qū)以及權利人建立生產基地的國家等內容;法律信息包括專利申請是否已經授權、法律保護范圍、受地域保護程度等內容。
目前,各國知識產權管理部門開發(fā)管理的開放式平臺是獲取專利數據的主要途徑,如國家知識產權局專利數據庫、美國專利商標局數據庫(USPTO)、歐洲專利局(EPO),但這些專利數據共享平臺均以方便企業(yè)查詢和申請專利為主要用途。國內外多家商業(yè)平臺對世界上重要的專利數據庫進行了整合和匯總,提供了便利式批量下載服務,且各具優(yōu)勢,具體情況見表1。其中,美國專利商標局數據庫提供了1790年至今的所有授權專利數據,該數據庫專利質量高、覆蓋范圍廣,一般被選作初始樣本數據。中國國家知識產權局則收錄了1985年以來中國的所有專利信息,是研究中國企業(yè)創(chuàng)新特征和創(chuàng)新績效的首選數據。
表1 專利數據庫平臺基本情況Tab.1 List of basic information for patent database platform
專利數據為創(chuàng)新管理研究提供了堅實的數據基礎,并提高了研究起點和研究水平。專利數據技術內容權威可靠,能夠全面反映企業(yè)創(chuàng)新成果。研究者結合創(chuàng)新主體的具體特征,可大幅縮短數據資料搜集時間,節(jié)省研究成本。同時,通過與其它數據(財務數據、績效數據和組織架構數據)相結合,還可以促成和拓展更廣泛意義上的創(chuàng)新管理研究。研究人員可利用專利數據信息進行企業(yè)人才戰(zhàn)略制定[1]、行業(yè)情報分析[2]及組織內外部多層次創(chuàng)新合作網絡構建[3],還可以構建創(chuàng)新管理研究評價指標體系,提出假設模型并進行有效驗證?;趯@髷祿膭?chuàng)新管理研究日益為研究人員所青睞[4]。某些國外學者對專利大數據分析進行了初步討論[5],且已經超過簡單的情報分析,如技術發(fā)展趨勢、技術分布、核心專利、發(fā)明人、經濟價值、市場合作伙伴、專利新穎性、創(chuàng)造性、專利侵權分析等。
(1)專利數據行業(yè)選擇。根據研究目的,專利數據行業(yè)選擇需要綜合考慮行業(yè)特征、專利申請數量、行業(yè)發(fā)展歷史、企業(yè)經營信息披露等,選取樣本量充足、時間跨度長、知識產權保護強度大的行業(yè)數據。同時,根據具體問題有所側重。歐美專利數據公開時間較早,專利有效性和數據質量高,且專利引用公開信息相對完整。學者使用歐美數據時多選取電子信息產業(yè)[6-7]、半導體產業(yè)、化學產業(yè)[7]、生物科技行業(yè)[8]、醫(yī)藥行業(yè)[9]或其代表性企業(yè)發(fā)明授權專利,一般不考慮申請專利或失敗專利,但這正是一些學者詬病專利數據使用的理由之一。相關學者認為,專利數據未能包含企業(yè)創(chuàng)新過程中的所有研發(fā)活動,因此由專利授權數據所反映的合作關系、研發(fā)經驗等信息并不完整。雖然很多學者已經對此觀點進行了理性反駁,但研究者仍有必要在結果穩(wěn)健性檢驗及研究局限中聲明其不足,以示嚴謹及對指導企業(yè)創(chuàng)新實踐的價值態(tài)度。此外,由于歐美等發(fā)達國家所處發(fā)展階段不同,很多行業(yè)已經到了非常成熟穩(wěn)定的階段,因此國外專利數據對專利時效性的要求不像國內那么高,而是更加看重研究目的。例如,如果是研究創(chuàng)新并購問題,那么選取1975-1985年美國生物行業(yè)醫(yī)藥專利數據比較合適,因為這一階段是該行業(yè)并購的重要時期,而且還可以使研究兩側數據觀測值盡量避免人為刪截(以專利引用次數作為創(chuàng)新績效衡量指標,要留出足夠長的累計時間)。
中國學者選取樣本數據時需充分考慮本土企業(yè)實際情況,立足于本土數據,解決本土問題。目前,國內學者多選取通信行業(yè)、電子信息行業(yè)、家電行業(yè)和機動車行業(yè)專利數據,原因如下:第一,通信技術融合了互聯網、物聯網、人工智能和大數據等新興技術,技術更新速度快,技術迭代特征明顯,對預研有較為清晰的判斷,前后商用區(qū)間易于區(qū)分;另外,我國通信行業(yè)代表性強,預研成效顯著,從3G到5G已經實現從初始應用、跟隨到領跑的完美升級。第二,家電行業(yè)、電子信息行業(yè)和機動車行業(yè)在我國起步較早、技術發(fā)展相對成熟、創(chuàng)新能力較強,可以對研發(fā)者職業(yè)生涯、企業(yè)內部創(chuàng)新網絡動態(tài)變化情況進行充分考察;另外,該類行業(yè)創(chuàng)新成果位于前25名的代表性企業(yè)目前均已成為國際有影響力的高新技術企業(yè),創(chuàng)新能力優(yōu)勢明顯,創(chuàng)新特征更具代表性,如電子信息行業(yè)海爾、海信和格力等,機動車行業(yè)三一重工、奇瑞汽車和吉利汽車等。第三,采用上市公司的優(yōu)勢在于可以從CSMAR數據庫中獲取更多關鍵研發(fā)者信息,如企業(yè)內部人員簡歷等。上述3個行業(yè)研發(fā)人員通常在學術期刊網絡發(fā)表相關論文較多,可以通過論文推斷其研發(fā)成果價值,從而保證多層面交叉論證的可行性。本土企業(yè)經營環(huán)境最大的特點之一是動態(tài)性,因此基于中國專利數據進行研究通常對數據時效性要求較高。一般專利申請到授權存在一定年限,數據樣本至少要更新到投稿評審前3~5年。由于中國專利數據引用信息不完備(一般只有授權發(fā)明專利,缺乏實用新型專利),通常也不會將專利引用信息作為創(chuàng)新績效衡量指標(多采用多個指標的加權求總,如獨立聲明個數、申請到授權時長及續(xù)費年限等)。國內醫(yī)藥行業(yè)專利數據使用程度偏低,主要原因在于我國醫(yī)藥行業(yè)企業(yè)創(chuàng)新發(fā)展水平不高,普通和原研藥專利數量較小,且創(chuàng)新連續(xù)性差,可用于實證研究的樣本可行性不高,大多只能進行描述性統計分析或案例分析。
(2)專利數據時間窗口設置。利用專利數據進行研究一般選取跨度合適、固定的時間窗口,通常要與提出的理論模型相匹配。現有研究一般使用專利申請日期作為創(chuàng)新活動的初始點,數據窗口設定時間大致為2~10年,使用頻率最高的時間窗口為3~5年(研發(fā)人員創(chuàng)造力活躍期通常為3~5年[10],且專利引用從授權之日起3~5年內達到巔峰,故以3~5年為時間窗口更有利于準確捕獲專利引用信息;若有存檔信息明確了專利合作時間,則直接按照其中的起止時間規(guī)定網絡形成與解散時間)。通常選擇一個數據窗口作為主分析窗口,并將前后兩個數據窗口作為敏感性分析窗口,以證明數據窗口選擇的合理性。根據以往文獻中基于數據窗口生成的網絡關系抽象法[11],可通過固定時間長度劃分樣本數據或以研發(fā)者特點及研究需要確定數據窗口時間,并綜合考慮研發(fā)人員創(chuàng)造力活躍期及最大化數據觀測值。
數據清洗是指對數據進行加工以促進其質量提升。通常,原始專利數據可能會產生許多噪聲和干擾因素,如國家之間的專利制度差異、專利分類差異、著錄項目變更等,因此需要對專利數據進行清洗。梳理以往研究,專利數據清洗工作主要包括以下幾個方面:
(1)發(fā)明家姓名消歧問題。發(fā)明人姓名信息體現在情報分析、戰(zhàn)略制定和合作創(chuàng)新等方面。消歧算法原理是賦予分類號、發(fā)明人地址信息等發(fā)明人專利屬性以適當權重,根據設置的閾值判斷相似度之間的關系,以此對發(fā)明人進行區(qū)分。大多數消歧算法僅適用于英文姓名,缺少一種可同時適用于中英文姓名的消歧算法。
針對國內專利發(fā)明人姓名信息,可將中文轉換為拼音后進行數據清洗。劉斌等(2016)提出一種基于四角數和拼音提取以及分類數和伙伴相似度的發(fā)明人名稱歧義消除算法;孫笑明等[11]針對國內發(fā)明人姓名消歧問題,將消歧過程中產生的發(fā)明人姓名歧義劃分為確定性歧義和非確定性歧義,并使用算法消除確定性歧義,以面向共識的收斂性參數方式彌補機器算法的不足,提高了發(fā)明人姓名消歧的準確性。
(2)組織機構。對于申請人來說,組織機構涉及公司重組、并購,需要按照公司進行統一清洗。在對專利數據進行清洗之前,由于組織機構存在合并重組等商業(yè)行為,導致組織機構命名不規(guī)范的現象較為普遍。因此,需對專利數據清洗進行規(guī)范化處理,否則將導致統計分析結果產生偏差。近年來,Talend、Open Refine、Data Cleaner等專利數據清洗開源工具得到廣泛應用。其中,Open Refine是數據清洗、探索、轉化的有效工具,該軟件利用關鍵詞碰撞和鄰近取樣兩種方法解決機構名稱不規(guī)范問題。利用該軟件,研究人員可以對機構名稱進行聚類,并根據聚類處理結果對數據進行清洗;另外,該軟件還可以對個別機構進行特殊處理,如重命名以得到最終的數據清洗結果。以處理5G通訊技術專利數據為例,可從一系列專利權人中拆分出多個項目進行聚類分析,并依據分析結果對項目重新歸類,從而得到新的單元格值,再對機構名稱逐個歸并以完成最終的數據清洗。
(3)流動研發(fā)者。研發(fā)者流動是指發(fā)明人在不同企業(yè)組織中任職,這種不確定性會導致發(fā)明人網絡關系及企業(yè)內部整體網絡關系構建產生偏差,進而影響指標計算。對發(fā)明人流動關系的判斷主要通過追蹤發(fā)明人連續(xù)擁有專利情況實現,通常發(fā)明人流動特征形成時間包括3種情況:其一,與發(fā)明人在新企業(yè)組織中申請第一個專利的時間相近;其二,與發(fā)明人在原企業(yè)組織中最后一個專利申請時間相近;其三,發(fā)明人在新企業(yè)組織中的專利申請時間晚于原企業(yè)組織專利申請時間,流動時間可取前兩者的中間時間點。另外,還需要考慮以下因素:①知識分類號相近或相同;②可能伴有同時存在的流動合作者;③考慮一些離職因素,如并購后研發(fā)者離職率較高,那么在確定流動研發(fā)者時需要先了解樣本企業(yè)在聚焦時段內經歷的較大的組織層次活動,如并購、企業(yè)內部高層結構震蕩等。
關于發(fā)明人流動特征還需深入考慮以下幾點:首先,通過發(fā)明人擁有的專利申請人變化情況追蹤其流動,以發(fā)明人可以被唯一識別為前提條件;其次,需意識對原始數據清洗的重要性,因為專利申請人變化可能由組織易名、母子公司、收并購等原因引發(fā);再次,發(fā)明人流動特征還受發(fā)明人姓名輸入方式的影響,從而容易低估或高估發(fā)明人流動次數。
(4)分類號版本。由于不同國家分類標準不同,通常會造成分類號版本不一,如國際分類標準、歐洲分類標準、美國分類標準的分類原則及方法不同。即便同一國家專利系統由于技術進步等原因,也會導致分類號不斷合并和分離,這些信息會在分類號著錄項中以括號注釋的形式標出,通常以年份作為更新標記。學者在使用分類號對變量進行計算及樣本搜索時需要充分了解專利特征,并明晰其所帶來的影響。
(5)專利法律狀態(tài)。專利法律狀態(tài)數據清洗過程包括兩個階段:基本處理和序列處理。分階段處理通過迅速發(fā)現法律狀態(tài)下的時序關系問題來保證法律狀態(tài)信息的有效性。在專利法律狀態(tài)信息基本處理階段,一方面需要依據常見的問題解決方案對法律狀態(tài)初始數據進行糾正;另一方面,也要為序列處理奠定基礎,并對個體及狀態(tài)序列同時進行歸并。在專利法律狀態(tài)信息序列處理階段,首先是將基本處理階段獲取的數據作為新數據源,其次是發(fā)現問題序列,最后是對具體問題進行具體分析。
(6)一般問題。①數據缺失是指專利數據中常出現的空值。K最近鄰算法、貝葉斯網絡是常用的缺失值清除方法。其中,K最近鄰算法適用于樣本量較大的自動分類,而樣本量較小時更容易使用該算法生成數據。貝葉斯網絡主要適用于有條件地依賴多個控制因素的決策,通常用于表達和分析概率性事件和不確定性事件;②數據重復。用于相似重復記錄的清除算法包括字段相似性檢測算法和相似重復記錄檢測算法(SNM最近鄰分類算法)。字段相似性檢測算法是通過檢測兩個數據字段之間的相似度清除其中一個數據。SNM最近鄰排序算法是先根據屬性要求對數據表中的字段進行排序,然后指定一個固定大小的N窗口在數據集上移動,比較每個數據集的最后一條記錄;③低質量專利。隨著專利數量的不斷增多,低質量專利大量涌現,并對科技評價工作產生了負面影響。為此,需要使用一定的方法識別和刪除低質量專利。
近些年,隨著社會網絡和復雜網絡研究的不斷深入和拓展,以合作網絡、知識網絡和引用網絡為代表的創(chuàng)新網絡管理研究已成為領域內顯學,是研究人員思考、分析創(chuàng)新管理問題的重要依據。
2.3.1 合作網絡
在競爭環(huán)境下,創(chuàng)新主體不再是孤立地開展技術創(chuàng)新活動,建立合作關系可以獲得不同知識資源,實現優(yōu)勢互補和知識共享。因此,合作創(chuàng)新成為一種重要的創(chuàng)新模式,是否擁有創(chuàng)新合作網絡影響研發(fā)者創(chuàng)造性搜索和創(chuàng)新產出[6,12]。目前,學者普遍采用專利授權中的發(fā)明人合作刻畫研發(fā)者創(chuàng)新合作網絡[13],采用專利授權中的申請人合作刻畫企業(yè)組織間創(chuàng)新合作網絡。但Fleming等[14]指出,失敗專利也是由合作產生的,構建不同層次創(chuàng)新合作網絡時應將其考慮在內。在合作網絡中,節(jié)點指發(fā)明人或申請人(企業(yè)組織);關系是指由兩個發(fā)明人或申請人參與的共同專利。
相比于當前階段觀察點位置的專利合作網絡, 以往通過專利合作構建的網絡通常被認為是一種非正式網絡[9]。然而,與正式網絡相比,非正式網絡對研發(fā)者下一階段創(chuàng)新具有重要價值,失去這些網絡資源就意味著失去重要的社會資本,研發(fā)者將面臨缺乏多方面支持的不利局面。從系統角度看,基于專利的組織內部非正式創(chuàng)新合作網絡研究主要集中在以下幾個方面:
(1)關聯關系維度。Crescenzi等[15]分析了研發(fā)者的多重關系屬性特征,如地理鄰近性、認知差異、文化相似性等。
(2)結構嵌入維度。Agrawal等[16]指出,新聘用研發(fā)者僅限于在新入職企業(yè)所形成的自我中心網進行傳播;Graf(2011)分析了研發(fā)者合作網絡與電子信息技術和半導體行業(yè)關鍵技術之間的涌現關系。
(3)位置嵌入。Singh等[12]通過對核心和外圍網絡位置進行考察發(fā)現,組織內部研發(fā)者合作網絡的小世界網絡特征并不會使處于核心和外圍位置的研發(fā)者受益,處于網絡外圍位置的研發(fā)者容易受外圍地位和相似性雙重機制的不利影響。如果要改變這種局面,外圍研發(fā)者需要采用不同的搜索策略,如跨越不同的社會邊界。
(4)綜合考慮多個維度。Nerkar & Paruchuri[10]研究了占據企業(yè)自我中心網絡結構洞中心位置的研發(fā)者對企業(yè)技術創(chuàng)新路徑選擇及動態(tài)創(chuàng)新能力的影響;Rost[17]以自我中心網為基礎,定義了一種“弱結構”(“強關系+多結構洞”的稀疏網絡特征),并討論了其對個體創(chuàng)造力的影響。
需要注意的是,專利作為一種職務發(fā)明,發(fā)明人之間的合作關系復雜多樣,既可能源于發(fā)明人自組織,也可能是受組織領導的安排,抑或是兩者的共同作用。因此,研究人員在進行實證研究時應將這一非自主因素考慮在內。
2.3.2 知識網絡
本文所描述的知識網絡刻畫的是知識元素之間的連接關系。學者將知識網絡視為一種特殊的社會網絡,指出知識網絡以知識元素為節(jié)點。學者研究知識元素時通常選取知識元素知識庫,如個體或組織知識庫的數量特征、知識深度和知識寬度等,這些均會不同程度地影響創(chuàng)新成果。因此,研究者在構建實證模型時需加以考慮。但由于知識創(chuàng)新多源于知識元素的組合和再組合,因此對知識元素網絡展開分析更具有說服力。Yayavaram & Ahuja[18]認為企業(yè)知識庫是由知識要素間耦合關系所形成的知識網絡,記錄了知識要素在創(chuàng)新過程中的組合和隸屬關系,可作為知識流動和搜索渠道,為未來潛在知識要素組合或重組提供指導[18]。Wang等(2018)首次將組織內個體協作網絡和知識網絡整合到一個研究框架中,發(fā)現這兩個網絡通過不同機制影響個體探索性創(chuàng)新??傊絹碓蕉嗟膶W者認識到知識網絡是揭示創(chuàng)新規(guī)律的有效手段,但現有研究僅涉及網絡可分解性[18]、連通性、鄰近性[19]、直接和間接連接等方面,要深刻揭示組織創(chuàng)新規(guī)律,還需對指標加以拓展。
2.3.3 引用網絡
專利引用網絡描述的是施引專利與被引專利之間的引用關系。專利引用是技術持續(xù)發(fā)展的基礎,為技術知識流動提供了顯性證據。在引用網絡中,專利是節(jié)點,施引專利與被引專利之間的關系是紐帶。專利引用網絡一般包括兩種:一種是基于直接引用關系[20]而構建的網絡,如專利文獻、專利權人、機構等;另一種是基于間接引用關系而構建的網絡,如共被引網絡[21]和耦合網絡[22]等。
國內外關于專利引用網絡的研究主要集中在情報學和實證模型兩個方面,其中前者主要側重于技術路徑識別、技術評價、技術創(chuàng)新過程3個方面:①技術路徑識別。主要聚焦領域內的技術演化過程,識別技術主路徑、基礎技術、共性技術、核心技術和關鍵技術瓶頸等,也可用來識別競爭對手[2]。其中,識別技術發(fā)展脈絡主要采用主路徑分析法,可以發(fā)現關鍵專利和重要發(fā)明人。主路徑識別算法包括SPC 算法[23]、SPNP 算法[24]、NETP 算法[25]和FCNP 算法[26]等;②技術評價。專利引用是測度研發(fā)者個體、企業(yè)、行業(yè)間和國際知識流動的典型指標,是技術創(chuàng)新評價的重要方法和工具;③技術創(chuàng)新過程。在直接引用方面,學者主要采用專利引用關系反映聚焦專利的技術和科學基礎,研究技術之間的疊加及繼承關系。同時,也有學者認為基于文本語義相似度的專利引用關系更加重要,能夠揭示企業(yè)內部知識轉移、知識共享、知識整合與不同層次主體創(chuàng)新績效之間的關系。
2.3.4 網絡特征結構指標
合作網絡、知識網絡和引用網絡可用來衡量網絡中各節(jié)點的影響力、重要性以及節(jié)點之間的關系。本文以合作網絡為例,總結國內外主要合作網絡分析指標,從整體網絡和個體網絡兩大視角以及網絡屬性、節(jié)點屬性、關系屬性3個層面分析合作網絡。其中,知識網絡和引用網絡可參考合作網絡結構分析指標。此外,合作網絡會隨著發(fā)明人合作關系的改變而調整,知識網絡、引用網絡也有靜態(tài)和動態(tài)之分,所以要根據實際情況靈活選擇指標,具體如表2、表3所示。
表2 整體網絡結構分析指標Tab.2 Index of whole network analysis
表3 個體網絡結構分析指標Tab.3 Index of ego network analysis
在創(chuàng)新管理研究中,學者除采取基于專利數據的網絡指標外,還需要考慮基本創(chuàng)新指標。本文從研發(fā)能力評價和技術價值評價兩個方面總結國內外主要的專利數據基本創(chuàng)新測度指標,旨在為相關學者提供有價值的參考,詳細指標與計算公式如表4和5所示。
表4 研發(fā)能力測度指標Tab.4 Index of R&D capability measurement
表5 技術價值測度指標Tab.5 Index of technical value measurement
通常,學者用專利數量和質量測度創(chuàng)新績效。專利質量一般可用以下指標或其綜合加權衡量:專利類型、專利申請到授權的時間間隔、專利權利要求個數、專利維持時間[27]、專利被引次數、專利家族強度和深度,這樣做的目的是增加專利數據使用效度,但需要注意以下幾點:
(1)專利類型選擇要視研究內容而定。若研究問題主要針對尚未大規(guī)模市場化的新興研究領域(突破式技術創(chuàng)新),那么在構建樣本時應該主要選擇發(fā)明專利。
(2)諸多關于創(chuàng)新新穎性的論文在考察該指標時多基于替代性變量,但實際上最直接的測量方式應著眼于權利聲明。由于文本的非結構化特征,計算指標時相對復雜且沒有文獻作為參考,通常只關注獨立聲明和非獨立聲明個數,因此應該加大文本分析力度。
(3)對不同時期的專利被引次數不能直接進行比較,且被引頻次和被引周期并非均勻分布,用年平均值會低估最古老或最新專利的應用價值,這就需要借用Hall等(2001)提出的準結構化被引頻次調整算法。另外,也要注意專利同族引用,即在同一平臺下相同專利申請?zhí)栆么螖祽撘怨甲钤绲膶@枮闇书_始計數。而且,實用新型專利不提供專利引用信息,中國發(fā)明專利引用信息數據庫2013年以后才建成。
(4)在將引用信息作為績效指標時應考慮所分析的技術內容是否為主要技術領域。一個熱門技術領域和一個冷門技術領域的引用情況存在較大差距,如果選取不當,則會對研究結果造成較大的負面影響。
在創(chuàng)新管理研究中,學者需選擇合適的模型對專利樣本數據進行分析。
(1)管理研究的終極目標是考校組織績效,因此大量研究將創(chuàng)新績效設為因變量,而創(chuàng)新績效通常用個體、企業(yè)授權或申請的專利數衡量,這就需要使用泊松回歸和負二項回歸兩種計量模型。由于泊松回歸模型使用條件較為嚴苛,即樣本均值等于方差,這點通常極難滿足,因此學者多使用負二項回歸模型進行分析,而將泊松回歸模型作為穩(wěn)健性檢驗。當使用的樣本數據具有面板特征時,通常又可依據Hausman檢驗結果將兩類模型進一步劃分為固定效應模型和隨機效應模型。
(2)可依據授權專利或申請專利數量將因變量劃分為多種類型,如研發(fā)者、研發(fā)者是否進入企業(yè)預研階段、團隊創(chuàng)造力高低以及企業(yè)是否合作等,此時因變量均為分類變量,分類變量又可劃分為有序變量和無序變量兩類。有序變量是指各類別變量之間的差異程度(創(chuàng)新水平低、中和高),無序變量又可細分為二分類變量和多分類變量,針對這些情況需靈活選擇Logit、Ologit、Mlogit等模型。另外,還有一類發(fā)生頻率較低的稀有事件采用稀有事件Relogit回歸模型,以避免低估事件發(fā)生的概率。通常,這些不同分類模型也可以互為穩(wěn)健性檢驗,當所處理的專利數據樣本量為十萬或百萬級別以上時,所使用的統計模型必須慎重。因為一般模型隱含的假設條件已經不能滿足數據量要求,這時需要進行修正,或參考當前一些使用頻率較高的大數據統計分析模型。
(3)利用專利數據進行分析存在時間刪截問題,此時要選擇事件史分析模型,如Cox模型。該模型的優(yōu)勢在于能夠充分利用刪截信息,且能給出非常精確的估計值。當因變量不再滿足連續(xù)變化的條件并在某個點被截斷導致離散值出現時,可選用Tobit模型。例如,由關鍵研發(fā)者引發(fā)的整體網絡中介中心勢變化幅度介于0~1之間,并且有部分數值為0,無法滿足最小二乘法變量連續(xù)假設的要求,或者在以專利權利聲明個數作為因變量時,由于權利聲明個數通常不會超過30,也可使用Tobit模型。
(4)當利用專利數據分析關聯技術生命周期和技術軌道特征時,需要以縱向歷史事件分析法為基礎進行曲線擬合或分段回歸模型檢驗。例如,在研究突破性技術創(chuàng)新問題時,需要擬合產業(yè)突破性技術軌道演化軌跡,選用Quadratic 和Cubic曲線擬合法更為合適。
(5)利用專利數據分析創(chuàng)新管理問題時還存在網絡自相關問題、同源數據問題、內生性問題。網絡自相關指觀察值之間相互依賴。為解決該問題,通常采用Jensen & Hallen(2001)的處理方法,使用基于選擇的抽樣技術,并使用WESML(weighted exogenous sample maximum likelihood)方法對樣本進行估計。另外,僅利用專利數據構建樣本固然可以節(jié)省成本,但也存在同源數據問題。因此,還要吸收其它類型數據,如行業(yè)數據、企業(yè)基本信息等,或采用實地訪談的形式獲取專利數據,以保證樣本數據來源的多樣性。對于模型可能產生的內生性問題,常見的解決方法包括工具變量、固定效應模型、傾向值匹配(簡稱PSM)、實驗和準實驗等,遇到此類問題時可根據研究情景抽取某些著錄項信息,如將專利代理機構作為工具變量進行內生性檢驗[13]。
目前,國內外存在較多專利數據指標計算與分析平臺,這些平臺高度簡化了專利數據處理難度,為研究者進行創(chuàng)新管理問題研究提供了便利,主要平臺特征如表6所示。
表6 專利大數據分析平臺(目前均為商用)Tab.6 Patent big data analysis platform (currently all commercial)
基于專利的社會網絡分析雖然為揭示創(chuàng)新合作機制提供了良好的實證條件,但在以下幾個方面還需要加大研究力度:
(1)對于專利合作網絡分析,學者可進一步研究多類型(研發(fā)合作與標準制定合作;訴訟關系和合作關系)、多時段(當前和以往)、多層次(個體、群體和整體)和多主體(企業(yè)、發(fā)明家)網絡變化及其交互影響,并探討其整合過程。目前,國內外基于專利數據的合作網絡研究主要將網絡關系強度、網絡位置和網絡結構特征等因素量化,并論證其對創(chuàng)新績效的影響,但基于專利數據分析多種網絡變化及其整合效應的研究很少[28]。
(2)對于知識網絡,學者應更多關注網絡嵌入性產生、強化、改變及消失所產生的影響,分析合作網絡、知識網絡的對應關系和同步性。雖然越來越多的學者認識到知識網絡是揭示創(chuàng)新規(guī)律的有效手段,但現有研究僅涉及知識網絡易分解性[18]、連通性、鄰近性[19]和復雜性,缺乏從網絡嵌入關系、結構及位置維度進行的系統分析。另外,雖然已有學者明確指出知識網絡與合作網絡存在本質區(qū)別,但通常僅比較兩種網絡嵌入性作用機制差異,缺少從網絡多元化視角揭示知識網絡嵌入性與合作網絡嵌入性耦合機制對創(chuàng)新績效影響的研究[30]。
(3)基于專利層次,研究者可根據專利引用網絡分析專利之間的技術聯系,探索預研、技術追趕和開放式創(chuàng)新等不同情境下知識搜索和擴散的路徑,同時結合合作網絡研究研發(fā)者之間顯性知識和隱性知識流動特征與趨勢,利用多元數據(技術市場中的技術轉讓需求及開放式創(chuàng)新項目發(fā)布信息)對技術進行預測,從而分析相關領域的技術熱點,幫助企業(yè)抓住技術機會。目前,專利引用信息主要被視為衡量創(chuàng)新績效的一個指標,很少涉及知識流動問題[16]。
技術價值不僅是成果轉化的重要依據,更是客觀評估科技創(chuàng)新績效的重要標準。對技術水平作出科學評價,有助于國家、企業(yè)、高校及科研機構制定合理創(chuàng)新政策,進而促進技術成果轉化。隨著我國企業(yè)技術追趕步伐的不斷加大和跨國并購戰(zhàn)略的持續(xù)推進,專利價值評估越發(fā)重要。
(1)目前,在以專利數據為基礎的研究中,創(chuàng)新指標大多是對專利文獻基本著錄項的簡單量化,以反映專利的外在統計特征,但鮮有學者從專利內在屬性上(專利自身知識結構特征、發(fā)明創(chuàng)造思維邏輯及權利聲明相互依存關系)挖掘創(chuàng)新水平衡量指標,并對技術發(fā)展進行科學預判。
(2)關于研發(fā)能力和技術價值,還缺乏科學合理的評價指標體系,如何將各類指標按不同的評價目的進行重新組合尚不明晰,核心和外圍專利識別、高價值專利評估、科技成果轉化、企業(yè)并購、研發(fā)過程中的人力資本價值評估及組合專利價值評估等問題亟待解決。未來應考慮指標組合適用性和指標匹配問題,制定科學合理的評價指標體系,從多角度驗證指標體系的可行性,從而增強評價體系的實用性。
根據上述研究,本文提出如下建議:
(1)由于具備客觀性、連續(xù)性及豐富性等優(yōu)勢,在案例研究中,學者可將專利數據作為深度分析與解讀創(chuàng)新管理問題、現象及規(guī)律的一個有效工具。專利數據在描述性統計分析、回歸分析等方面有著與生俱來的應用張力,是目前對純粹問卷調研數據的一個補充,也是學術界對于多源數據要求的最佳實踐方式之一。
(2)專利數據在案例研究中可作為宏微觀層次背景資料,指導不同層次學者開展工作。因為微觀層次創(chuàng)新管理研究更多集中于深刻的點,而宏觀層面創(chuàng)新管理研究更關注整體性的面,兩者結合可以形成一種立體效應,使研究結論更加穩(wěn)健。因此,研究者可利用專利數據分析解決創(chuàng)新管理問題。例如,在研究區(qū)域層面案例時,可對區(qū)域專利統計特征和區(qū)域創(chuàng)新網絡特征進行整體描述性分析,同時根據分析結果,聚焦某一特征對微觀層面研發(fā)者或企業(yè)個體進行分析,進而洞悉宏觀結果的微觀基礎。反之,研究者也可以根據微觀層面分析結果,對宏觀層面涌現出來的不同現象進行分類,進而拓展更高水平的研究視野。
作為科研數據的“富礦”,專利數據日益顯示出龐大的信息承載能力和價值挖掘優(yōu)勢,計算機技術和互聯網發(fā)展為專利數據分析與應用提供了先進的技術工具和方法。因此,學者以專利數據為基礎的創(chuàng)新管理研究具備前所未有的新思路和大視野。首先,本文立足于實踐層面,對專利數據信息和應用進行梳理,闡釋了以往學者如何處理專利數據并利用專利數據研究創(chuàng)新管理問題,專利數據應用相關內容有助于深刻認識專利數據指標與創(chuàng)新管理對象之間的關系,從而深入地理解其作用機制和分析方法;其次,本文還匯總了目前專利數據供應和分析平臺,并比較了各自的優(yōu)勢和應用場景,為研究者更好地使用專利數據提供了參考;最后,在總結以往研究的基礎上,從社會網絡分析、創(chuàng)新數據指標挖掘、無形資產評估及案例研究應用3個方面探討專利數據未來應用方向,為后續(xù)研究奠定了基礎。