劉玉林 菅利榮
(1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院 南京 211106;2.安徽商貿(mào)職業(yè)技術(shù)學(xué)院電子商務(wù)學(xué)院 蕪湖 241002)
近年來,企業(yè)經(jīng)營(yíng)管理者為了獲得市場(chǎng)競(jìng)爭(zhēng)的至高點(diǎn),圍繞技術(shù)資源展開了激烈的競(jìng)爭(zhēng),并且這種競(jìng)爭(zhēng)已經(jīng)從單一的技術(shù)競(jìng)爭(zhēng)轉(zhuǎn)向技術(shù)集群的競(jìng)爭(zhēng)。因?yàn)閷?duì)屬性相同的技術(shù)集聚而成的技術(shù)集群進(jìn)行研究,能夠識(shí)別新技術(shù),發(fā)現(xiàn)技術(shù)發(fā)展規(guī)律,提前感知市場(chǎng)技術(shù)的變化,使企業(yè)在技術(shù)研發(fā)和技術(shù)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)。
當(dāng)然,當(dāng)前技術(shù)集群的研究已經(jīng)取得了一些成績(jī),例如Sherwats等提出技術(shù)集群具有在一定空間和時(shí)間聚集的特性[1],Bressio從宏觀因素和微觀因素結(jié)合角度提出技術(shù)集群是經(jīng)濟(jì)動(dòng)態(tài)發(fā)展的源泉[2],劉慧研究了產(chǎn)業(yè)集群與技術(shù)集群相互作用的條件和機(jī)制,提出了產(chǎn)業(yè)集群與技術(shù)集群四種相互作用方式[3],Jiang He等調(diào)查了美國(guó)15個(gè)大都市的高性能集群行業(yè),通過考察這些高科技集群的構(gòu)成試圖發(fā)現(xiàn)技術(shù)集群的類型和發(fā)展趨勢(shì)等[4]。
與此同時(shí),在技術(shù)集群研究中,通過專利分析來進(jìn)行技術(shù)集群的研究受到越來越廣泛的關(guān)注。原因在于:專利是集技術(shù)情報(bào)、經(jīng)濟(jì)情報(bào)、商業(yè)情報(bào)于一體的知識(shí)載體,具有及時(shí)、可靠、內(nèi)容詳盡等顯著的特點(diǎn)[5-6],專利文獻(xiàn)作為科技創(chuàng)新成果的重要載體和表現(xiàn)形式,內(nèi)容新穎,蘊(yùn)含了更前沿的科技信息,是企業(yè)經(jīng)營(yíng)、科學(xué)研究和技術(shù)發(fā)展的重要技術(shù)競(jìng)爭(zhēng)情報(bào)源之一[7-8]。文獻(xiàn)[7,9-11]研究顯示95%的發(fā)明創(chuàng)造被記錄在專利文獻(xiàn)中,80%的發(fā)明創(chuàng)造僅在專利文獻(xiàn)中記載,專利文獻(xiàn)、專利信息和專利數(shù)據(jù)作為反映科技發(fā)展,特別是技術(shù)發(fā)展軌跡的重要情報(bào)源,其價(jià)值日益突顯,成為技術(shù)創(chuàng)新活動(dòng)中最寶貴的知識(shí)源泉和戰(zhàn)略資源。
通過專利開展技術(shù)集群研究引起了廣泛的興趣,部分學(xué)者在技術(shù)集群含義、分類等方面進(jìn)行了積極的探索,例如張?jiān)峦ㄟ^系統(tǒng)聚類算法實(shí)現(xiàn)專利文獻(xiàn)的聚類并提出了技術(shù)集群分類的方法,描述技術(shù)集群生命周期發(fā)展曲線,分析技術(shù)集群所處的發(fā)展階段[2]。但將專利分析、文本挖掘與復(fù)雜網(wǎng)絡(luò)結(jié)合構(gòu)建動(dòng)態(tài)專利有向網(wǎng)絡(luò),進(jìn)而開展技術(shù)集群演化分析的研究非常缺乏。
因此,本文以專利分析視角,基于文本挖掘和復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建動(dòng)態(tài)專利有向網(wǎng)絡(luò),在巨片提取和網(wǎng)絡(luò)拓?fù)涮匦苑治龅幕A(chǔ)上,開展核心技術(shù)集群演化分析,包括對(duì)核心技術(shù)集群的主題和演化歷程分析等。
圖1給出了基于動(dòng)態(tài)專利有向網(wǎng)絡(luò)的核心技術(shù)集群演化分析流程,包括:從數(shù)據(jù)庫(kù)中檢索到目標(biāo)專利;對(duì)目標(biāo)專利進(jìn)行文本挖掘,進(jìn)而計(jì)算專利文本相似度;構(gòu)建動(dòng)態(tài)專利有向網(wǎng)絡(luò),提取網(wǎng)絡(luò)巨片和分析網(wǎng)絡(luò)拓?fù)渲笜?biāo);最后,開展技術(shù)演化分析。其中采用的核心方法有基于TF-IDF的屬性-功能詞組提取、動(dòng)態(tài)專利有向網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)巨片的提取等。
圖1 基于動(dòng)態(tài)專利有向網(wǎng)絡(luò)的核心技術(shù)集群演化分析流程
1.1基于TF-IDF的屬性-功能詞組提取Noh等認(rèn)為專利分析結(jié)果將取決于所選擇的專利文本特征,如果它不能很好地代表整個(gè)文檔的特征,后續(xù)分析的可靠性和準(zhǔn)確性可能會(huì)受到影響[12]。專利文獻(xiàn)通常包含通用詞和術(shù)語兩類詞語,通用詞常具有主題無關(guān)性,而術(shù)語則表達(dá)某個(gè)專業(yè)知識(shí),具有較高的類別相關(guān)性[13]。Yoon等認(rèn)為屬性和功能作為專利文本中重要的術(shù)語表達(dá)內(nèi)容,可以通過對(duì)專利文本的語法分析來提取,同時(shí)進(jìn)一步發(fā)現(xiàn)屬性和功能描述了專利的唯一性[14]。Dewulf在調(diào)查美國(guó)專利商標(biāo)局(USPTO)約16 000項(xiàng)專利后總結(jié)發(fā)現(xiàn):屬性與形容詞有關(guān),而功能主要與動(dòng)詞有關(guān),屬性表示系統(tǒng)的特定特性,而功能表示系統(tǒng)的適當(dāng)操作[15]。Yoon等進(jìn)一步研究認(rèn)為應(yīng)該采用二元關(guān)系的形式來表示屬性和功能,即屬性用形容詞+名詞形式表示,功能用動(dòng)詞+名詞形式[14]?;诖?,本文采用屬性和功能的二元關(guān)系詞組(即形容詞+名詞、動(dòng)詞+名詞)作為專利文本的特征。
專利文本中特征詞并非同等重要,專利文本相似度測(cè)量應(yīng)該考慮不同特征詞的貢獻(xiàn)。在計(jì)算特征詞的權(quán)重時(shí),胡學(xué)鋼建議采用TF-IDF方法計(jì)算[16],俞琰等發(fā)現(xiàn)TF-IDF權(quán)值法是專利文本中計(jì)算特征權(quán)重應(yīng)用最廣的方法[13]。TF-IDF值的計(jì)算公式如式(1)所示。
Value (TF-IDF) = TF * IDF=
(1)
其中nij為在專利文本中某屬性-功能詞組出現(xiàn)的頻率,∑nij表示在專利文本中某屬性-功能詞組出現(xiàn)的總頻率,D為專利文檔總數(shù),{d∈D:ti∈dj}表示含有該屬性-功能詞組的文檔數(shù),1+{d∈D:ti∈dj}使分母不為0。
1.2動(dòng)態(tài)專利有向網(wǎng)絡(luò)在專利網(wǎng)絡(luò)中,專利是節(jié)點(diǎn),當(dāng)兩個(gè)專利文本相似度超過一定閾值時(shí)即可建立連接關(guān)系。如圖2所示,t0、t1、t2為先后順序的時(shí)間點(diǎn),在專利網(wǎng)絡(luò)中考慮時(shí)間維度,t0時(shí)刻節(jié)點(diǎn)i與t1時(shí)刻節(jié)點(diǎn)j建立的連接是從早期時(shí)間點(diǎn)指向后期時(shí)間點(diǎn)的有向連接,此時(shí)該專利網(wǎng)絡(luò)為動(dòng)態(tài)專利有向網(wǎng)絡(luò)。需要注意的是,在本文中,將時(shí)間分辨率定義為天,不在同一天申請(qǐng)的專利節(jié)點(diǎn)均可以建立有向連接,在同一天申請(qǐng)的專利節(jié)點(diǎn)不建立有向連接。
圖2 動(dòng)態(tài)專利有向網(wǎng)絡(luò)示意圖
1.3網(wǎng)絡(luò)巨片網(wǎng)絡(luò)巨片是網(wǎng)絡(luò)中最大的連通片。事實(shí)上,網(wǎng)絡(luò)的連通性是一個(gè)非常脆弱的性質(zhì),很多網(wǎng)絡(luò)中的節(jié)點(diǎn)并不是彼此連通,通常情況下網(wǎng)絡(luò)會(huì)有一個(gè)最大的連通片,即網(wǎng)絡(luò)巨片,該巨片具有一定數(shù)目的節(jié)點(diǎn)和連接,并表現(xiàn)出一定的特性。在本文研究中,選取屬性-功能詞組作為專利文本特征,屬性-功能詞組作為專利中的術(shù)語,實(shí)質(zhì)上是技術(shù)因子的有力代表。屬性-功能詞組衡量專利文本相似性本質(zhì)上代表技術(shù)因子相似性。因此,電商數(shù)據(jù)處理技術(shù)動(dòng)態(tài)專利有向網(wǎng)絡(luò)中的連通片可定義為技術(shù)集群。同時(shí),巨片是網(wǎng)絡(luò)中最大的連通片,故巨片是核心技術(shù)集群的有力代表,通過巨片挖掘能夠深入分析核心技術(shù)集群的主題及其演化特征。
網(wǎng)絡(luò)巨片的檢索采用廣義優(yōu)先搜索模型,并通過Python編程實(shí)現(xiàn),包括:
step1:首先從網(wǎng)絡(luò)中隨機(jī)選擇節(jié)點(diǎn)1,并建立列表A,將節(jié)點(diǎn)1歸屬于列表A;
step2:在剩下的網(wǎng)絡(luò)節(jié)點(diǎn)中隨機(jī)選擇節(jié)點(diǎn)2,并判斷節(jié)點(diǎn)2與當(dāng)前列表A中的所有節(jié)點(diǎn)是否有連接關(guān)系,存在連接關(guān)系時(shí)將節(jié)點(diǎn)2歸屬于列表A,反之新建列表B,將節(jié)點(diǎn)2歸屬于列表B;
step3:按照step2在剩下的網(wǎng)絡(luò)節(jié)點(diǎn)中隨機(jī)選擇節(jié)點(diǎn)i,判斷節(jié)點(diǎn)i與現(xiàn)有列表j中所有節(jié)點(diǎn)是否存在連接關(guān)系,存在連接關(guān)系時(shí)節(jié)點(diǎn)i歸屬于列表j,否則繼續(xù)新建列表m,將節(jié)點(diǎn)i歸屬于列表m。如果節(jié)點(diǎn)i同屬2個(gè)及其以上的列表,則將這些列表中節(jié)點(diǎn)歸并為一個(gè)列表;
step4:重復(fù)step3,直到網(wǎng)絡(luò)中的節(jié)點(diǎn)都?xì)w屬于不同的列表;
step5:計(jì)算所有列表中的節(jié)點(diǎn)數(shù)量,排序后顯示出節(jié)點(diǎn)數(shù)規(guī)模最大的列表,該列表中節(jié)點(diǎn)及其連接關(guān)系所形成的子網(wǎng)絡(luò)即為該網(wǎng)絡(luò)的巨片;
step6:通過step1-5搜索不同時(shí)間段的網(wǎng)絡(luò)巨片。
本文選擇美國(guó)電商數(shù)據(jù)處理技術(shù)作為實(shí)證案例,原因在于:a.電子商務(wù)已經(jīng)成為我國(guó)戰(zhàn)略性新興產(chǎn)業(yè)的重要組成部分,電商數(shù)據(jù)處理技術(shù)已經(jīng)被利益相關(guān)者視為一項(xiàng)重要的新興技術(shù),對(duì)電商數(shù)據(jù)處理技術(shù)的創(chuàng)新與發(fā)展已經(jīng)成為國(guó)家競(jìng)爭(zhēng)力、行業(yè)發(fā)展和民生所需的關(guān)鍵戰(zhàn)略?!峨娮由虅?wù)“十三五”發(fā)展規(guī)劃》進(jìn)一步說明:“面向電子商務(wù)創(chuàng)新發(fā)展重點(diǎn)方向,要加強(qiáng)電子商務(wù)基礎(chǔ)理論研究,加強(qiáng)大數(shù)據(jù)等方面的技術(shù)應(yīng)用與創(chuàng)新等”。b.在對(duì)電商數(shù)據(jù)處理技術(shù)的研究和創(chuàng)新中,中美兩國(guó)均有獨(dú)特的優(yōu)勢(shì)。美國(guó)率先提出電商概念并實(shí)踐,隨后亞馬遜、PayPal等一批有代表性的公司或經(jīng)營(yíng)方式涌現(xiàn)出來。當(dāng)然,中國(guó)也是后起之秀,包括阿里巴巴、京東、支付寶等代表性的公司或經(jīng)營(yíng)方式也“從無到有,從弱到強(qiáng)”,在世界范圍內(nèi)形成了影響力。因此,對(duì)美國(guó)電商數(shù)據(jù)處理技術(shù)方面的創(chuàng)新和知識(shí)管理分析,對(duì)中國(guó)電商數(shù)據(jù)處理技術(shù)的研發(fā)與投資決策有很好的參考意義。
2.1數(shù)據(jù)源以德溫特專利數(shù)據(jù)庫(kù)(Derwent Innovation)作為目標(biāo)專利采集數(shù)據(jù)庫(kù),采用Niemann等提出的“關(guān)鍵詞+IPC分類號(hào)”的檢索方式[18],檢索式為{TIE=(ELECTRONIC ADJ COMMERCE) OR TIE=(E- ADJ COMMERCE) OR ABE=(ELECTRONIC ADJ COMMERCE) OR ABE=(E- ADJ COMMERCE) },IPC大類選項(xiàng)設(shè)置為G06(計(jì)算、推算、計(jì)數(shù)類),在檢索結(jié)果中篩選申請(qǐng)國(guó)為美國(guó)(US),時(shí)間跨度為1994年4月至2019年12月,采集時(shí)間為2020年3月21日。針對(duì)采集結(jié)果,進(jìn)行數(shù)據(jù)清洗,包括數(shù)據(jù)去重、缺失值處理和人工校對(duì)等,最終得到分析用美國(guó)電商數(shù)據(jù)處理專利2 840條。當(dāng)然,需要聲明的是:美國(guó)電商數(shù)據(jù)處理專利是指在美國(guó)境內(nèi)申請(qǐng)并經(jīng)美國(guó)政府部門授權(quán)的電商數(shù)據(jù)處理專業(yè)領(lǐng)域?qū)@?/p>
2.2動(dòng)態(tài)專利有向網(wǎng)絡(luò)的構(gòu)建通過Python對(duì)專利摘要文本進(jìn)行基于TF-IDF的屬性-功能詞組提取,選擇摘要作為專利文本的原因在于:專利文本通常由標(biāo)題、摘要、權(quán)利要求和描述等部分構(gòu)成,原則上專利文本部分都可以提取專利的關(guān)鍵特征,然而文獻(xiàn)[10,22-23]研究表明摘要應(yīng)該作為專利文本中最重要的部分,摘要字段涵蓋專利的新穎性、詳細(xì)說明、優(yōu)點(diǎn)等,比較準(zhǔn)確的描述專利信息,從摘要中提取關(guān)鍵信息對(duì)分析是有價(jià)值的。
在基于TF-IDF的屬性-功能詞組提取時(shí),調(diào)用了斯坦福大學(xué)(Stanford)的英文依存句法分析(Stanford Dependency Parser)程序包,對(duì)摘要的名詞(nn)、形容詞(j)和動(dòng)詞(v)等依存關(guān)系進(jìn)行進(jìn)一步分析[17]。屬性-功能詞組提取結(jié)果也經(jīng)過2位電商技術(shù)專家的人工復(fù)核,最終形成能夠代表專利文本特征的屬性-功能詞組,具體見表1所示。
表1 經(jīng)過自然語言和技術(shù)專家處理的部分屬性-功能詞組
在屬性-功能詞組提取基礎(chǔ)上,在Python中基于余弦相似度計(jì)算專利文本相似度,形成專利文本相似度矩陣,見表2。將專利文本相似度閾值設(shè)定為0.6,將閾值化的專利文本相似度矩陣導(dǎo)入Gephi中,啟用時(shí)間線,并在Photoshop軟件中添加年份,從而獲得動(dòng)態(tài)專利有向網(wǎng)絡(luò),見圖3。需要說明的是,相似度閾值0.6的設(shè)定是在嘗試不同閾值后,根據(jù)網(wǎng)絡(luò)呈現(xiàn)的拓?fù)湫再|(zhì)和研究需要確定。
表2 專利文本兩兩相似度值
圖3 時(shí)間維度下中美電商數(shù)據(jù)處理技術(shù)專利網(wǎng)絡(luò)
在圖3中,所有的專利節(jié)點(diǎn)按照年份進(jìn)行了網(wǎng)格化,在Gephi中啟用時(shí)間線后,可以展示和統(tǒng)計(jì)不同時(shí)間點(diǎn)的動(dòng)態(tài)專利有向網(wǎng)絡(luò)指標(biāo)數(shù)值。
2.3核心技術(shù)集群演化分析
2.3.1 網(wǎng)絡(luò)巨片提取與拓?fù)涮匦苑治?通過網(wǎng)絡(luò)巨片的Python提取程序,對(duì)美國(guó)電商數(shù)據(jù)處理技術(shù)動(dòng)態(tài)專利有向網(wǎng)絡(luò)進(jìn)行巨片提取,并對(duì)巨片節(jié)點(diǎn)數(shù)、邊數(shù)和網(wǎng)絡(luò)密度統(tǒng)計(jì),結(jié)果如表3所示。
表3顯示,1994-1995年并無網(wǎng)絡(luò)巨片產(chǎn)生,尚未發(fā)生技術(shù)聯(lián)系和融合。1996年出現(xiàn)了第一對(duì)節(jié)點(diǎn)連接,這一節(jié)點(diǎn)連接并不能稱之為連通片,但這一連接是網(wǎng)絡(luò)巨片的雛形,因此本文也將其視為巨片。1997年及其之后,巨片邊數(shù)有升有降,說明有代表多個(gè)不同技術(shù)集群主題的巨片在更替,這種更替現(xiàn)象說明電商數(shù)據(jù)處理技術(shù)的研究熱點(diǎn)在變化。在表2中,巨片的網(wǎng)絡(luò)密度有高有低,對(duì)此合理的解釋在于:技術(shù)包括核心技術(shù)因子和輔助技術(shù)因子[19]。張奔[20]和王永杰等[19]的研究表明,一般技術(shù)都是從核心技術(shù)因子的發(fā)展開始,呈現(xiàn)順軌式技術(shù)發(fā)展形式,巨片中專利節(jié)點(diǎn)的文本相似度高,容易形成連接,此時(shí)巨片表現(xiàn)為高網(wǎng)絡(luò)密度。當(dāng)技術(shù)發(fā)展到一定階段,輔助技術(shù)因子成為該技術(shù)“木桶”當(dāng)中“最短的那塊木板”[19],技術(shù)需求形成的新創(chuàng)新源推動(dòng)輔助技術(shù)發(fā)展,呈現(xiàn)出衍生式、滲透式或復(fù)合脫軌式技術(shù)發(fā)展形式,輔助技術(shù)專利節(jié)點(diǎn)文本相似度較低,巨片呈現(xiàn)出低網(wǎng)絡(luò)密度。
表3 美國(guó)電商數(shù)據(jù)處理技術(shù)動(dòng)態(tài)專利有向網(wǎng)絡(luò)巨片拓?fù)湫再|(zhì)數(shù)據(jù)
2.3.2 巨片與核心技術(shù)集群主題分析 巨片是核心技術(shù)集群的有力代表,每一個(gè)巨片可視為一個(gè)技術(shù)集群,因此將巨片GN1-GN5所代表的核心技術(shù)集群命名為E-cluster 1-5,如表3所示。核心技術(shù)集群E-cluster 1-5的技術(shù)主題可以通過體現(xiàn)技術(shù)因子的屬性-功能詞組分析,具體分析如下:
a.E-cluster 1-數(shù)據(jù)設(shè)備技術(shù)。如圖4所示,巨片GN1由三個(gè)節(jié)點(diǎn)US1、US17和US29組成,均以“electronic+module”和“Process +Device”為關(guān)鍵屬性,但節(jié)點(diǎn)US1與US17更突出關(guān)鍵屬性“store +device”,即存貯設(shè)備技術(shù)因子,節(jié)點(diǎn)US1和US29更突出關(guān)鍵功能“use+device”,即設(shè)備使用技術(shù)因子。因此將技術(shù)集群E-cluster 1的主題定義為數(shù)據(jù)設(shè)備技術(shù)。
圖4 巨片GN1-5網(wǎng)絡(luò)最終形態(tài)
b.E-cluster 2-數(shù)據(jù)信息技術(shù)。巨片GN2由四個(gè)節(jié)點(diǎn)US11、US21、US22、和US90兩兩連接形成,網(wǎng)絡(luò)密度為1,因此E-cluster 2是一個(gè)體現(xiàn)核心技術(shù)高度相似的技術(shù)集群。同時(shí)節(jié)點(diǎn)均有共同關(guān)鍵屬性“electronic+information,以及關(guān)鍵功能 “use+information”“form +information”“store+information”“sent+information”,說明技術(shù)集群E-cluster 2的核心技術(shù)因子為數(shù)據(jù)信息的形成、獲取與使用。因此將技術(shù)集群E-cluster 2的技術(shù)主題定義為數(shù)據(jù)信息技術(shù)。
c.E-cluster 3-數(shù)據(jù)系統(tǒng)技術(shù)。巨片GN3初期網(wǎng)絡(luò)密度為0.91,在不斷吸收節(jié)點(diǎn)后,網(wǎng)絡(luò)密度不減反增,說明技術(shù)集群E-cluster 3一直都在核心技術(shù)因子上進(jìn)行創(chuàng)新。此時(shí)節(jié)點(diǎn)主要體現(xiàn) “electronic+system”和“interactive+system”、relating+system”關(guān)鍵屬性,以及“sent”與“system、network 、payment”等關(guān)聯(lián)后的關(guān)鍵功能,說明技術(shù)集群E-cluster 3在于探索電子銷售交互系統(tǒng)數(shù)據(jù)發(fā)送、數(shù)據(jù)網(wǎng)絡(luò)與支付等研發(fā)主題,因此將技術(shù)集群E-cluster 3的技術(shù)主題定義為數(shù)據(jù)系統(tǒng)技術(shù)。
d.E-cluster 4-數(shù)據(jù)應(yīng)用技術(shù)。巨片GN4的網(wǎng)絡(luò)密度數(shù)值一直低于0.2,根據(jù)學(xué)者He等研究表明,巨片GN4形成的技術(shù)集群E-cluster 4已經(jīng)開始輔助技術(shù)的開發(fā),尤其輔助技術(shù)因子多,造成文本相似度低,很多專利節(jié)點(diǎn)未能建立連接關(guān)系,從而使巨片的網(wǎng)絡(luò)密度處于較低水平。其中節(jié)點(diǎn)的關(guān)鍵屬性包括“financial+system ”“financial+transaction”等,同時(shí)涵蓋“use+site”“use+online”“form+card”等關(guān)鍵功能,體現(xiàn)技術(shù)集群E-cluster 4強(qiáng)調(diào)在金融系統(tǒng)和金融交易中電商數(shù)據(jù)的處理與使用,因此將技術(shù)集群E-cluster 4的技術(shù)主題定義為數(shù)據(jù)應(yīng)用技術(shù)。
e.E-cluster 5-數(shù)據(jù)融合技術(shù)。巨片GN5的網(wǎng)絡(luò)密度比巨片GN4數(shù)值更低,但其含有的節(jié)點(diǎn)規(guī)模為482,遠(yuǎn)大于巨片GN1-GN4,較低的網(wǎng)絡(luò)密度和較高的節(jié)點(diǎn)規(guī)模使技術(shù)集群E-cluster 5在輔助技術(shù)方面開發(fā)的更深入。為了挖掘技術(shù)集群E-cluster 5的主題,對(duì)巨片GN5采用K-殼分解,當(dāng)kmax值到達(dá)11時(shí),巨片GN5網(wǎng)絡(luò)僅有2個(gè)社團(tuán),見圖4。令人驚奇的是社團(tuán)1和2均由12個(gè)節(jié)點(diǎn)和33條有向邊組成,網(wǎng)絡(luò)密度均為0.5。社團(tuán)1節(jié)點(diǎn)的關(guān)鍵屬性為“electronic+product”“electronic+system”,關(guān)鍵功能為“associate+product”“store+data”和“associate+data”等,社團(tuán)2節(jié)點(diǎn)的關(guān)鍵屬性為“e-commerce+ data”“e-commerce+system”,關(guān)鍵功能為“use+system”“receive+data”。綜上,社團(tuán)1體現(xiàn)出數(shù)據(jù)與產(chǎn)品交互的融合特點(diǎn),社團(tuán)2反映出系統(tǒng)與數(shù)據(jù)融合的特點(diǎn),因此,將技術(shù)集群E-cluster 5的技術(shù)主題定義為數(shù)據(jù)融合技術(shù)(見圖5)。
圖5 巨片GN5 Kmax圖(Kmax=11)
2.3.3 核心技術(shù)集群演化分析 通過上述分析,美國(guó)電商數(shù)據(jù)處理技術(shù)核心技術(shù)集群的演化呈現(xiàn)下列特點(diǎn):
a.美國(guó)電商數(shù)據(jù)處理技術(shù)演化進(jìn)程。美國(guó)電商數(shù)據(jù)處理技術(shù)發(fā)展歷經(jīng)5個(gè)重要時(shí)期,包括1996-1997年數(shù)據(jù)設(shè)備技術(shù)研發(fā)時(shí)期、1998年數(shù)據(jù)信息技術(shù)研發(fā)時(shí)期、1999-2002年數(shù)據(jù)系統(tǒng)技術(shù)研發(fā)時(shí)期、2003-2007年數(shù)據(jù)應(yīng)用技術(shù)研發(fā)時(shí)期和2008-2019年數(shù)據(jù)融合技術(shù)研發(fā)時(shí)期。5個(gè)發(fā)展時(shí)期反映出數(shù)據(jù)技術(shù)發(fā)展的一般規(guī)律,即以數(shù)據(jù)設(shè)備研發(fā)為先,以數(shù)據(jù)信息和系統(tǒng)技術(shù)為突破口,以數(shù)據(jù)應(yīng)用為目標(biāo),以數(shù)據(jù)融合為趨勢(shì)。
b.美國(guó)電商數(shù)據(jù)處理技術(shù)演化生命周期。技術(shù)集群的發(fā)展往往表現(xiàn)出“產(chǎn)生-發(fā)展-成熟-衰退”的生命周期軌跡,在網(wǎng)絡(luò)巨片上表現(xiàn)為“連通片生成、連通片壯大、巨片出現(xiàn)、新的巨片出現(xiàn)”歷程。當(dāng)然,原有的巨片在成熟時(shí),某一巨片的雛形連通片已經(jīng)在產(chǎn)生和發(fā)展中。圖6為巨片GN1-5的生命周期時(shí)間進(jìn)程,在圖6中,深色實(shí)心進(jìn)度條是巨片的出現(xiàn)和持續(xù)年份,白色空心進(jìn)度條是對(duì)應(yīng)巨片雛形連通片出現(xiàn)和持續(xù)時(shí)間。
圖6 網(wǎng)絡(luò)巨片時(shí)間進(jìn)度
在圖6中,從時(shí)間進(jìn)度銜接看,深色實(shí)心進(jìn)度條在時(shí)間進(jìn)程中銜接有序,代表了網(wǎng)絡(luò)中的巨片呈現(xiàn)更替演化模式,巨片之間并未出現(xiàn)重疊交錯(cuò)情況,當(dāng)然也未出現(xiàn)“起死回生”的再現(xiàn)現(xiàn)象。因此,美國(guó)電商數(shù)據(jù)處理技術(shù)集群之間很好的實(shí)現(xiàn)技術(shù)更新替換機(jī)制。從時(shí)間持續(xù)時(shí)間看,5個(gè)巨片表現(xiàn)出“冰火兩重天”的持續(xù)時(shí)間現(xiàn)象,既有“曇花一現(xiàn)”的巨片GN2,也有“經(jīng)久不衰”的巨片GN5,說明美國(guó)電商數(shù)據(jù)處理技術(shù)集群發(fā)展存在多樣性,其中技術(shù)集群E-cluster2的突然出現(xiàn),猶如“斷崖式”的技術(shù)革新,將技術(shù)發(fā)展E-cluster1和E-cluster3隔開,表現(xiàn)出技術(shù)變革的短期性和偶然性,技術(shù)集群E-cluster5持續(xù)了12年,又表現(xiàn)出技術(shù)變革的長(zhǎng)期性和必然性。
在圖6中,巨片GN2和GN4均有白色空心進(jìn)度條,其代表的技術(shù)集群E-cluster2和E-cluster4生命周期為典型的“產(chǎn)生-發(fā)展-成熟-衰退” 歷程。巨片GN1和巨片GN3只有深色進(jìn)度條,其代表的技術(shù)集群生命周期只有部分生命周期歷程,尤其是E-cluster3僅僅存在一個(gè)年度,表現(xiàn)為“產(chǎn)生即衰退”的非典型生命周期歷程。對(duì)于巨片GN5而言,無論是白色空心進(jìn)度條,還是深色實(shí)心進(jìn)度條,都有較大的時(shí)間跨度,其中白色空心進(jìn)度條跨度9年,深色實(shí)心進(jìn)度條跨度12年,技術(shù)集群E-cluster5從“產(chǎn)生-發(fā)展-成熟”已歷時(shí)21年,且目前沒有衰退的跡象。
在圖6中,巨片GN2、GN4和GN5因?yàn)榘咨招倪M(jìn)度的存在,與其他巨片GN1、GN3等形成時(shí)間交叉。其中1997年時(shí)巨片GN2白色空心進(jìn)度條與GN1深色實(shí)心進(jìn)度條交叉重疊,代表了1997年是數(shù)據(jù)設(shè)備技術(shù)衰退和數(shù)據(jù)信息技術(shù)新生的轉(zhuǎn)變期。2000年時(shí)巨片GN5白色空心進(jìn)度條和GN2深色實(shí)心進(jìn)度條首次發(fā)生交叉重疊,此時(shí)正值巨片GN3中間時(shí)期,代表了技術(shù)集群E-cluster5數(shù)據(jù)融合技術(shù)在技術(shù)集群E-cluster3數(shù)據(jù)系統(tǒng)技術(shù)時(shí)期已經(jīng)開始孕育,并歷經(jīng)技術(shù)集群E-cluster4數(shù)據(jù)應(yīng)用技術(shù)時(shí)期,才逐步形成和完善。2001-2002年是巨片GN4雛形連通片的出現(xiàn)期、巨片GN5雛形連通片的中期和巨片GN3的結(jié)束期,說明技術(shù)集群E-cluster3、4和5有很好并發(fā)輔助效果,而2001-2002年也是美國(guó)電商數(shù)據(jù)處理技術(shù)發(fā)展時(shí)間點(diǎn)上的特殊時(shí)期,在該時(shí)期中數(shù)據(jù)系統(tǒng)技術(shù)成熟鼎盛中孕育了數(shù)據(jù)應(yīng)用技術(shù)的產(chǎn)生,并再次促進(jìn)了數(shù)據(jù)融合技術(shù)的發(fā)展。
c.美國(guó)電商數(shù)據(jù)處理技術(shù)演化類型。形成技術(shù)集群的巨片網(wǎng)絡(luò)密度的變化如圖7所示,網(wǎng)絡(luò)密度呈現(xiàn)三個(gè)層次:屬于[0.8,1]的高網(wǎng)絡(luò)密度區(qū),屬于[0.4,0.8)的中網(wǎng)絡(luò)密度區(qū),屬于[0,0.4)的低網(wǎng)絡(luò)密度區(qū)。值得注意的是,閾值0.4和0.8的設(shè)定應(yīng)進(jìn)行實(shí)驗(yàn)測(cè)定,但在本文中,高中低三個(gè)網(wǎng)絡(luò)密度區(qū)有很明顯的區(qū)域劃分,因此使用0.4和0.8作為閾值劃分網(wǎng)絡(luò)密度區(qū)不影響巨片和技術(shù)集群性質(zhì)的分析。在高網(wǎng)絡(luò)密度區(qū),巨片網(wǎng)絡(luò)基本上為全局耦合網(wǎng)絡(luò),其中節(jié)點(diǎn)兩兩連接,體現(xiàn)為技術(shù)集群中技術(shù)研發(fā)緊密相連,即任何兩個(gè)專利之間都存在技術(shù)因子關(guān)聯(lián),此時(shí)技術(shù)研發(fā)可視為核心技術(shù)的關(guān)聯(lián)研發(fā),由此可見,技術(shù)集群2和技術(shù)集群3表現(xiàn)為數(shù)據(jù)信息和數(shù)據(jù)系統(tǒng)的核心技術(shù)研發(fā)。在中網(wǎng)絡(luò)密度區(qū),巨片網(wǎng)絡(luò)呈現(xiàn)出“樹”型結(jié)構(gòu),即網(wǎng)絡(luò)中有主干節(jié)點(diǎn),也有支葉節(jié)點(diǎn),主干節(jié)點(diǎn)是核心技術(shù)的研發(fā),其中度高的節(jié)點(diǎn)及其之間的連接表現(xiàn)為“樹干”,度低的節(jié)點(diǎn)與度高節(jié)點(diǎn)的連接表現(xiàn)為“支葉”,而支葉節(jié)點(diǎn)可視為對(duì)核心技術(shù)有輔助功能的技術(shù)研發(fā),即輔助技術(shù)研發(fā)。當(dāng)然在中網(wǎng)絡(luò)密度區(qū)巨片網(wǎng)絡(luò)中主干節(jié)點(diǎn)居多數(shù),核心技術(shù)的研發(fā)占主導(dǎo)地位。由此可見,技術(shù)集群E-cluster1前期表現(xiàn)為數(shù)據(jù)設(shè)備的核心技術(shù)研發(fā),但很快就進(jìn)入了數(shù)據(jù)設(shè)備輔助技術(shù)研發(fā),E-cluster1是5個(gè)技術(shù)集群中唯一發(fā)生網(wǎng)絡(luò)密度區(qū)轉(zhuǎn)變的技術(shù)集群。在低網(wǎng)絡(luò)密度區(qū),巨片網(wǎng)絡(luò)呈現(xiàn)出“雪花”型結(jié)構(gòu),“雪花”中度高的節(jié)點(diǎn)較少,度低的節(jié)點(diǎn)較多,可視為輔助技術(shù)的研發(fā)占據(jù)主流,由此可見,技術(shù)集群4始終表現(xiàn)為數(shù)據(jù)應(yīng)用的輔助技術(shù)研發(fā),技術(shù)集群5為數(shù)據(jù)融合的輔助技術(shù)研發(fā)。
圖7 巨片網(wǎng)絡(luò)密度變化與技術(shù)集群示意
本文通過構(gòu)建動(dòng)態(tài)專利有向網(wǎng)絡(luò),并基于Python程序提取巨片,通過對(duì)巨片拓?fù)湫再|(zhì)統(tǒng)計(jì),從而開展核心技術(shù)集群主題和演化歷程分析等。
以美國(guó)電商數(shù)據(jù)處理技術(shù)為例,通過動(dòng)態(tài)專利有向網(wǎng)絡(luò),開展核心技術(shù)集群分析發(fā)現(xiàn):a.美國(guó)電商數(shù)據(jù)處理技術(shù)包括數(shù)據(jù)設(shè)備技術(shù)、數(shù)據(jù)信息技術(shù)、數(shù)據(jù)系統(tǒng)技術(shù)、數(shù)據(jù)應(yīng)用技術(shù)和數(shù)據(jù)融合技術(shù)等五個(gè)核心技術(shù)集群;b.美國(guó)電商數(shù)據(jù)處理技術(shù)集群E-cluster1-5均為每個(gè)時(shí)期的新生技術(shù),且技術(shù)集群之間體現(xiàn)出技術(shù)更新替換機(jī)制;c.技術(shù)集群2和技術(shù)集群3表現(xiàn)為對(duì)數(shù)據(jù)信息和數(shù)據(jù)系統(tǒng)的核心技術(shù)研發(fā),技術(shù)集群4表現(xiàn)為數(shù)據(jù)應(yīng)用的輔助技術(shù)研發(fā),技術(shù)集群5為數(shù)據(jù)融合的輔助技術(shù)研發(fā)。E-cluster1是既有核心技術(shù)的研發(fā),也有輔助技術(shù)的拓展。
當(dāng)然,本文的研究還存在以下不足:a.技術(shù)集群的演化趨勢(shì)預(yù)測(cè)未進(jìn)行研究;b.對(duì)高中低網(wǎng)絡(luò)密度區(qū)劃分的閾值未開展深入的實(shí)驗(yàn)檢驗(yàn)。但總體而言,本文通過文本挖掘和復(fù)雜網(wǎng)絡(luò)技術(shù),構(gòu)建動(dòng)態(tài)專利有向網(wǎng)絡(luò),是一種新的開展核心技術(shù)集群分析的有效方法。最后,希望本文的研究能引起更多的學(xué)者關(guān)注,加強(qiáng)對(duì)核心技術(shù)集群的識(shí)別和演化分析探究。