張 洋,林宇航,侯劍華
(中山大學(xué)信息管理學(xué)院,廣州 510006)
在全球化加劇的大背景下,人口流動愈加頻繁,一些傳染性極強(qiáng)的病毒迅速蔓延。在與病毒的抗?fàn)幹?,人類及時地破譯病毒核酸序列、升級檢測技術(shù)成為取勝的關(guān)鍵。情報分析方法為學(xué)者們提供了一種強(qiáng)有力的技術(shù)數(shù)據(jù)解析與運(yùn)用的工具。借助當(dāng)前已有的病毒核酸檢測技術(shù)數(shù)據(jù),預(yù)測未來技術(shù)升級的前沿趨勢,對于調(diào)整產(chǎn)業(yè)結(jié)構(gòu)和提高產(chǎn)業(yè)創(chuàng)新能力具有十分重要的意義。
隨著科學(xué)論文和專利數(shù)據(jù)庫的不斷完善和發(fā)展,基于文本的技術(shù)挖掘方法逐漸成為開展技術(shù)預(yù)測的主流手段。一方面,已有研究多是以論文或者專利文本為數(shù)據(jù)源,通過專利的IPC(International Patent Classification)引證關(guān)系或論文的關(guān)鍵詞共現(xiàn)關(guān)系挖掘未來技術(shù)前沿趨勢,將論文和專利文本融合作為數(shù)據(jù)源開展技術(shù)預(yù)測的研究較少。另一方面,在確定預(yù)測基礎(chǔ)數(shù)據(jù)的時候,如果時間范圍選定過廣,預(yù)測基礎(chǔ)過于寬泛,難以保證準(zhǔn)度;如果時間選定過窄,可能出現(xiàn)網(wǎng)絡(luò)稀疏,漏掉關(guān)鍵節(jié)點(diǎn)等問題。目前,人們?nèi)狈σ惶紫到y(tǒng)的基礎(chǔ)數(shù)據(jù)選定標(biāo)準(zhǔn)。以往研究在選取訓(xùn)練集時,往往忽視技術(shù)內(nèi)部的客觀演化規(guī)律,導(dǎo)致預(yù)測效果具有較大的隨機(jī)性。因此,本文遵循技術(shù)演化的規(guī)律,從數(shù)據(jù)來源、詞共現(xiàn)關(guān)系、技術(shù)生命周期等方面對鏈路預(yù)測模型進(jìn)行優(yōu)化,以更準(zhǔn)確識別技術(shù)前沿趨勢,具體研究包括:①使用融合數(shù)據(jù)作為技術(shù)演化趨勢分析的依據(jù),提取專利與科學(xué)論文的主題詞,共同構(gòu)建主題詞共現(xiàn)加權(quán)網(wǎng)絡(luò)。使用加權(quán)指標(biāo)的鏈路預(yù)測算法識別新技術(shù)演化趨勢,證明融合數(shù)據(jù)源具備更好的預(yù)測效果。②根據(jù)技術(shù)生命周期理論,提出一種在有限的數(shù)據(jù)條件下,快速定位最優(yōu)預(yù)測基礎(chǔ)數(shù)據(jù)的方法,有效提升預(yù)測模型的效率。
1959年,Lenz最早提出了技術(shù)預(yù)測這一概念[1]。技術(shù)預(yù)測是指在具體的框架內(nèi),分析技術(shù)發(fā)展的條件和潛力。由于專家評議的主觀性和高昂的社會成本[2],現(xiàn)階段的技術(shù)預(yù)測中,專家咨詢更多地作為一種輔助和補(bǔ)充手段[3]。而以定量分析為基礎(chǔ)的技術(shù)預(yù)測方法,憑借其高效和客觀,得到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛使用和傳播。
目前,以單一數(shù)據(jù)源作為技術(shù)預(yù)測的基礎(chǔ)數(shù)據(jù)是主流方法,如基于專利的社會網(wǎng)絡(luò)分析法[4]、基于文獻(xiàn)計(jì)量方法[5]等。當(dāng)數(shù)據(jù)量不夠豐富時,以單一數(shù)據(jù)所構(gòu)建的預(yù)測網(wǎng)絡(luò)難免遺漏個別關(guān)鍵節(jié)點(diǎn)或關(guān)系,給預(yù)測效果帶來不利影響。
隨著單一數(shù)據(jù)效果顯現(xiàn)出來的不足,有研究者嘗試采用多源異構(gòu)數(shù)據(jù)作為預(yù)測基礎(chǔ)。例如,融合專利與論文兩種數(shù)據(jù)來源[6],結(jié)合相似度計(jì)算識別技術(shù)演化趨勢;融合社交媒體數(shù)據(jù)與專利數(shù)據(jù)[7]擬合新興技術(shù)出現(xiàn)的趨勢。以上研究考慮到了多源數(shù)據(jù)對預(yù)測模型的貢獻(xiàn),解決了數(shù)據(jù)融合同構(gòu)化的問題,但是忽略了技術(shù)演化的時序性差異。
在為預(yù)測模型(特別是鏈路預(yù)測模型)選擇訓(xùn)練集時,主流的數(shù)據(jù)選取方式多為全網(wǎng)絡(luò)數(shù)據(jù)[8]、十字交叉驗(yàn)證[9]或隨機(jī)百分比劃分[10]。前期研究[11-12]認(rèn)為以3~5年作為一個網(wǎng)絡(luò)的時間跨度進(jìn)行預(yù)測較為合適,但是并未結(jié)合技術(shù)演化規(guī)律,為數(shù)據(jù)集選定提供依據(jù)。
目前,技術(shù)預(yù)測的方法可以分為定性與定量兩大類。在定量方法中,主流方法有兩種:基于知識單元重組的預(yù)測方法、基于鏈路預(yù)測和機(jī)器學(xué)習(xí)的方法。
2.2.1 基于知識單元重組的預(yù)測方法
1986年,Swanson[13]提出將兩個完全獨(dú)立的知識單元放在一起,則很有可能產(chǎn)生新的知識組合。技術(shù)融合是原本不相交的兩個領(lǐng)域出現(xiàn)界限上的模糊[14],同時也是尋找技術(shù)的突破點(diǎn),通過跨領(lǐng)域的知識重組實(shí)現(xiàn)技術(shù)的升級、替換過程[15]。因此,預(yù)測技術(shù)的融合在一定程度上可以等同于預(yù)測新技術(shù)的產(chǎn)生。
基于引用和耦合分析是表征技術(shù)知識融合的重要方式。文獻(xiàn)的引用可以抽象為知識流動的過程[16]。文獻(xiàn)耦合通過測算不同文獻(xiàn)之間的相關(guān)性,表征知識融合路徑[17]。此外,專利引證與共類同樣反映了技術(shù)知識的重組[18-19]。除引用與耦合關(guān)系之外,專利轉(zhuǎn)讓[20]、產(chǎn)學(xué)研合作[21]等也是技術(shù)知識流動的表征方式。
2.2.2 基于鏈路預(yù)測和機(jī)器學(xué)習(xí)的方法
鏈路預(yù)測是根據(jù)節(jié)點(diǎn)的屬性和網(wǎng)絡(luò)結(jié)構(gòu)的特征,預(yù)測未知的邊和未來可能產(chǎn)生的邊[22-23]。近年來,該方法被眾多學(xué)者運(yùn)用于新興技術(shù)的預(yù)測。例如,翟東升等[24]以專利IPC引用網(wǎng)絡(luò)結(jié)合鏈路預(yù)測指標(biāo)預(yù)測未來技術(shù)機(jī)會;黃璐等[25]運(yùn)用鏈路預(yù)測對專利的手工代碼和加權(quán)詞項(xiàng)進(jìn)行共類分析,以此來預(yù)測不同技術(shù)的融合趨勢。
自動化文本處理是數(shù)據(jù)驅(qū)動環(huán)境下高效、準(zhǔn)確預(yù)測的重要前提[26]。而自動化文本處理所涉及的自動分區(qū)、科技信息提取、情感分析等手段均要借助機(jī)器學(xué)習(xí)才能高效完成。目前,已有研究通過使用K-means算法[27]、圖神經(jīng)網(wǎng)絡(luò)[28]等取得了較好的預(yù)測效果。
從技術(shù)預(yù)測使用的數(shù)據(jù)源來看,基于單一數(shù)據(jù)是目前的主流方法。從相關(guān)方法研究來看,可以大致分為基于知識單元重組、基于鏈路預(yù)測算法和機(jī)器學(xué)習(xí)等。
使用鏈路預(yù)測方法時,出于增加網(wǎng)絡(luò)密度的考慮,多數(shù)研究將收集到的所有數(shù)據(jù)用于構(gòu)建訓(xùn)練網(wǎng)絡(luò)。這種方法較為穩(wěn)妥且簡單,但是當(dāng)數(shù)據(jù)量較小時,會受到一定的局限,且?guī)в兄饔^色彩。leavein-and-out方法、十字交叉驗(yàn)證等方法的好處在于能夠充分利用現(xiàn)有數(shù)據(jù),但是忽視了時間動態(tài)因素。而隨機(jī)百分比抽取這一方法,具備了一定的盲目性。罕有研究通過多角度的檢驗(yàn)和論證,探索一套高效的數(shù)據(jù)劃分和選定標(biāo)準(zhǔn),以保證預(yù)測效果,并且揭示數(shù)據(jù)劃分對預(yù)測效果的影響。
當(dāng)前的研究成果存在三點(diǎn)不足:一是相關(guān)研究多數(shù)通過計(jì)算主題詞相似度,進(jìn)而以聚類算法來預(yù)測技術(shù)趨勢;二是以單一數(shù)據(jù)源作為主流預(yù)測依據(jù)容易造成重要節(jié)點(diǎn)的遺漏,影響預(yù)測效果;三是構(gòu)造基礎(chǔ)數(shù)據(jù)時缺乏科學(xué)選取的依據(jù),多數(shù)研究并未考量所得到的預(yù)測效果是否達(dá)到最佳。
針對現(xiàn)有研究的預(yù)測數(shù)據(jù)源單一,未將技術(shù)演化因素納入考慮范疇等不足,本文基于數(shù)據(jù)源選取和構(gòu)建,以病毒核酸檢測技術(shù)為例,提出了一種技術(shù)預(yù)測改進(jìn)模型。首先,深入分析已有的病毒核酸檢測技術(shù)特征;其次,借鑒Swanson[13]的知識流動思想,以技術(shù)主題字段的共現(xiàn)關(guān)系定義新技術(shù)的產(chǎn)生;再次,引入專利文本和科技文獻(xiàn),共同作為預(yù)測數(shù)據(jù)的來源;最后,結(jié)合技術(shù)生命周期理論,為模型的訓(xùn)練網(wǎng)絡(luò)提供選擇依據(jù),通過以上優(yōu)化手段提升鏈路預(yù)測的效果。將新模型與單一數(shù)據(jù)網(wǎng)絡(luò)、不同生命階段網(wǎng)絡(luò)的效果進(jìn)行比較,以此來檢驗(yàn)改進(jìn)的模型效果。本文設(shè)計(jì)的模型分析框架如圖1所示。
圖1 基于融合數(shù)據(jù)和技術(shù)生命周期的技術(shù)預(yù)測模型分析框架
最早的病毒核酸檢測技術(shù)是20世紀(jì)80年代初的核酸分子雜交法。隨后,科學(xué)家發(fā)現(xiàn)一些工具酶具有特異性的序列識別能力,以及高效的生物催化活性[29]。在此之后,許多新發(fā)明的分子檢測技術(shù)都是在使用工具酶放大信號的基礎(chǔ)之上實(shí)現(xiàn)的,例如,1985年首次被發(fā)明的聚合酶鏈?zhǔn)椒磻?yīng)(poly‐merase chain reaction,PCR)和20世紀(jì)90年代初的連接酶鏈擴(kuò)增技術(shù)(ligase chain reaction,LCR)。其中,PCR是核酸檢測的“金標(biāo)準(zhǔn)”,已經(jīng)相當(dāng)成熟[30]。2010年以后,較先進(jìn)的核酸檢測技術(shù)包括生物芯片、基因測序等。
在發(fā)展和演化的過程中,該技術(shù)的某些主題字段是一脈相承的,如熒光標(biāo)記、聚合酶、擴(kuò)增技術(shù)等。這些字段頻繁地出現(xiàn)在專利和科技論文中,新技術(shù)往往帶有上一代技術(shù)的痕跡。只有出現(xiàn)某些顛覆性技術(shù)時,才可能消除某些老一代的技術(shù)主題字段,例如,第四代基因測序技術(shù)實(shí)現(xiàn)了單分子測序,徹底擺脫了核酸擴(kuò)增環(huán)節(jié)。由此可見,時序性對核酸檢測技術(shù)發(fā)展產(chǎn)生一定的影響,同一時期的技術(shù)主題字段往往聯(lián)系緊密。因此,在預(yù)測時,技術(shù)生命周期應(yīng)當(dāng)作為一個重要的數(shù)據(jù)因素,不可簡單地忽視。
專利和科學(xué)論文都是技術(shù)的重要載體,二者之間存在許多契合的字段。同時,二者間也存在不同的字段。同一時期字段所關(guān)聯(lián)的技術(shù)較為貼近,因此二者能夠形成有效互補(bǔ),增加原有網(wǎng)絡(luò)稠度,避免因使用單一數(shù)據(jù)源造成字段遺漏。本文將兩種數(shù)據(jù)源進(jìn)行技術(shù)主題字段提取之后,融合形成字段共現(xiàn)矩陣,測試訓(xùn)練結(jié)果,與單純的文獻(xiàn)或?qū)@仃嚨挠?xùn)練結(jié)果進(jìn)行橫向比較,檢驗(yàn)融合數(shù)據(jù)的預(yù)測提升效果。
在以往的鏈路預(yù)測研究中,部分忽略了網(wǎng)絡(luò)連邊的權(quán)重問題。事實(shí)上,連邊權(quán)重也是網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的重要組成因素,對節(jié)點(diǎn)間二次連接,以及周邊節(jié)點(diǎn)關(guān)系有較大的影響。Zhao等[31]研究驗(yàn)證了在復(fù)雜網(wǎng)絡(luò)中,節(jié)點(diǎn)間發(fā)生連接的概率與節(jié)點(diǎn)所涉及關(guān)聯(lián)邊的權(quán)重存在線性關(guān)系。翟東升等[24]對多個鏈路預(yù)測指標(biāo)進(jìn)行加權(quán)計(jì)算,驗(yàn)證了兼顧權(quán)重方法的科學(xué)性和合理性。考慮到已有技術(shù)融合的次數(shù)在促成未來的新技術(shù)誕生上存在一定的影響作用,本文使用加權(quán)鏈路預(yù)測指標(biāo),將比無權(quán)指標(biāo)更加具有說服力。
使用AUC(area under curve)檢驗(yàn)指標(biāo)的預(yù)測性能,對未知邊和不存在邊進(jìn)行隨機(jī)重復(fù)抽樣。每次抽取時,當(dāng)測試集邊得分高于訓(xùn)練集邊時,分子加1;測試集邊等于訓(xùn)練集邊時,分子加0.5,以此類推。分母n為總的抽取次數(shù)。AUC的計(jì)算公式為
時序性演化是技術(shù)的一個重要特征,技術(shù)生命周期可表征不同階段的發(fā)展規(guī)律。S型曲線不同階段的斜率能夠較準(zhǔn)確地貼合技術(shù)萌芽期、生長期、成熟期和衰退期的發(fā)展速率變化。Logistics曲線是S曲線中的一種,其公式[32]為
其中,l為飽和點(diǎn)的值;α代表斜率;e為自然常數(shù);β代表各個不同時期的轉(zhuǎn)折點(diǎn)。
本文將使用Logistics曲線來擬定技術(shù)生命發(fā)展的歷程,探究不同階段對鏈路預(yù)測模型效果的影響,為選取最優(yōu)訓(xùn)練數(shù)據(jù)提供參考。不論是專利指標(biāo)分析法還是S曲線法,都是將各階段專利的數(shù)量作為唯一的參照指標(biāo)。由于專利和論文對技術(shù)的演化均具有重要貢獻(xiàn),同時具備反映技術(shù)生命階段的意義,本文使用融合矩陣網(wǎng)絡(luò)中每年新增的共詞對數(shù)量代替專利新增數(shù)量,作為生命周期擬定指標(biāo)。
在識別技術(shù)生命周期的基礎(chǔ)上,為了利用生命周期改進(jìn)預(yù)測模型,本文須結(jié)合技術(shù)自身的客觀演化規(guī)律,確定同一階段與跨階段技術(shù)的關(guān)聯(lián)特征。
不同的技術(shù)小類間存在內(nèi)生聯(lián)系[33],而技術(shù)的網(wǎng)絡(luò)具備小世界性[34],表現(xiàn)為大部分節(jié)點(diǎn)間并不直接相連,但是通過少數(shù)的幾步路徑就可以到達(dá)。相鄰時間段內(nèi)出現(xiàn)的技術(shù)主題字段不是跳躍發(fā)展的,而是隨著新舊技術(shù)更迭,高頻字段經(jīng)歷一個逐漸淡化的過程,逐漸被其他字段取代。技術(shù)隨著時間推移,相關(guān)主題字段呈現(xiàn)一定的過渡演變,相鄰時期或同一時期發(fā)生大幅度躍遷的可能性較低。相比之下,不同時期的技術(shù)主題字段間則差距較大。
本文通過一個簡單的拓?fù)浣Y(jié)構(gòu),來擬定不同生命階段的訓(xùn)練網(wǎng)絡(luò)對模型效果的影響,如圖2所示。假設(shè)初始網(wǎng)絡(luò)由A、B、C、D點(diǎn)和其間的一些連接構(gòu)成(圖2a)。對初始網(wǎng)絡(luò)進(jìn)行訓(xùn)練集與測試集劃分(圖2b)。實(shí)線邊為實(shí)際存在的邊,即訓(xùn)練集。在虛線邊中,AB邊為測試集,CD邊為不存在邊。根據(jù)鏈路預(yù)測算法,本文基于該拓?fù)浣Y(jié)構(gòu),計(jì)算測試集AB邊的得分,將其與CD邊的得分進(jìn)行比較。若AB邊得分高于CD邊的概率越大,則說明預(yù)測模型效果越好。以加權(quán)的共同鄰居指標(biāo)(weight‐ed common neighbor)為例:
其中,SXY為X、Y兩點(diǎn)間出現(xiàn)連邊的概率得分;節(jié)點(diǎn)Z表示X與Y的共同鄰居;WXZ表示節(jié)點(diǎn)X與Z連邊的權(quán)重;WYZ表示節(jié)點(diǎn)Y與Z連邊的權(quán)重。在圖2b中,AB邊有共同鄰居C、D,且分別與C、D點(diǎn)均存在一條連接,故SAB=(1+1)/2+(1+1)/2=2。同理,SCD=2。在這種情況下,根據(jù)AUC評價算法,預(yù)測的準(zhǔn)確率為50%。
假如使用與預(yù)測目標(biāo)不同生命階段的數(shù)據(jù)來補(bǔ)充訓(xùn)練網(wǎng)絡(luò)(圖2c),因與測試邊AB較為疏遠(yuǎn),可以假設(shè)補(bǔ)充的點(diǎn)為P。那么P點(diǎn)與AB直接發(fā)生關(guān)系的可能性較小。相反地,其存在增加了CD邊的權(quán)重。在該網(wǎng)絡(luò)中,SAB=2,因?yàn)镻點(diǎn)加入,SCD=3>SAB。使用極限思想,當(dāng)所有補(bǔ)充的點(diǎn)特征都與P點(diǎn)相似時,則該網(wǎng)絡(luò)的AUC=0。這種情況下預(yù)測效果將大打折扣。
假如使用與預(yù)測目標(biāo)同一生命階段的數(shù)據(jù)來補(bǔ)充訓(xùn)練網(wǎng)絡(luò)(圖2d),因同一時期內(nèi)技術(shù)更迭出現(xiàn)大幅度躍遷的可能性較低,可以假設(shè)補(bǔ)充的點(diǎn)為P,那么P點(diǎn)有較大的可能會與AB直接發(fā)生關(guān)系,結(jié)果增加了AB邊的權(quán)重。在該網(wǎng)絡(luò)中,SAB=3,SCD=2 經(jīng)過圖2a~圖2d擬定,可以推斷,當(dāng)使用全網(wǎng)絡(luò)數(shù)據(jù)集(即囊括所有不同生命階段的數(shù)據(jù))訓(xùn)練時,補(bǔ)充進(jìn)來的節(jié)點(diǎn)既可能出現(xiàn)在圖2c的P點(diǎn)位置,也有可能出現(xiàn)在圖2d的P點(diǎn)位置。當(dāng)全網(wǎng)絡(luò)中,技術(shù)的主題字段大部分與預(yù)測目標(biāo)節(jié)點(diǎn)較為貼近時,此時技術(shù)主題躍遷較小,更有利于增加目標(biāo)節(jié)點(diǎn)的連邊得分;而當(dāng)多數(shù)技術(shù)主題字段與目標(biāo)節(jié)點(diǎn)較疏遠(yuǎn)時,此時預(yù)測目標(biāo)與總體網(wǎng)絡(luò)存在較大的躍遷,結(jié)果稀釋了目標(biāo)節(jié)點(diǎn)的連邊得分。由于涉及具體技術(shù)在不同層面的延伸,技術(shù)小類的數(shù)量不一,方向也各異,全網(wǎng)絡(luò)中技術(shù)節(jié)點(diǎn)的分布難以預(yù)料,總的訓(xùn)練網(wǎng)效果存在較高的不確定性。因此,為了保證訓(xùn)練效果,同時減少檢驗(yàn)數(shù)據(jù)的實(shí)驗(yàn)成本,在有限的數(shù)據(jù)條件下,選取與預(yù)測目標(biāo)同一生命周期階段的基礎(chǔ)數(shù)據(jù)是最優(yōu)選擇。 圖2 不同生命階段的訓(xùn)練網(wǎng)絡(luò)對模型效果的影響 經(jīng)過上述步驟,本文建立起了一個新的鏈路預(yù)測改進(jìn)模型。該模型融合專利與論文數(shù)據(jù),并參考技術(shù)生命周期的不同階段以選取訓(xùn)練網(wǎng)絡(luò),優(yōu)先以同一生命階段的訓(xùn)練網(wǎng)絡(luò)作為預(yù)測基礎(chǔ)。下面以病毒核酸檢測技術(shù)2001—2019年數(shù)據(jù)為樣本,對此模型進(jìn)行實(shí)證檢驗(yàn)。使用鏈路預(yù)測對病毒核酸檢測進(jìn)行技術(shù)預(yù)測時,網(wǎng)絡(luò)中不同節(jié)點(diǎn)代表不同的技術(shù)主題字段,連邊則表示不同技術(shù)主題間發(fā)生共現(xiàn),產(chǎn)生了知識融合,意味著新技術(shù)的萌生。 在Incopat網(wǎng)站上,以檢索式“病毒AND核酸檢測”進(jìn)行檢索,檢索日期為2020年1月30日,設(shè)置專利公開年份為2001-2019,得到28259條專利數(shù)據(jù)。在Web of Science網(wǎng)站上檢索病毒核酸檢測技術(shù)相關(guān)文獻(xiàn),檢索式為TS=((virus OR viral)AND nu‐cleic acid AND(detection OR test OR assay)),檢索年份設(shè)置為2001-2019,共得到6678條文獻(xiàn)數(shù)據(jù)。 提取所有文本的標(biāo)題,創(chuàng)建3個數(shù)據(jù)集,分別為論文標(biāo)題數(shù)據(jù)集、專利標(biāo)題數(shù)據(jù)集、論文與專利標(biāo)題融合數(shù)據(jù)集(以下分別簡稱為數(shù)據(jù)集A、數(shù)據(jù)集B、數(shù)據(jù)集C)。為了盡可能地排除預(yù)測過程中的偶然性,使結(jié)果更加客觀,將三個數(shù)據(jù)集各分為4個階段:2001—2005年數(shù)據(jù)、2006—2010年數(shù)據(jù)、2011—2015年數(shù)據(jù)、2016—2019年數(shù)據(jù)(下文分別簡稱為階段1、階段2、階段3、階段4),最后得到一個3×4的總數(shù)據(jù)集合。利用BibExcel軟件提取所有標(biāo)題數(shù)據(jù)中的技術(shù)主題字段,設(shè)置字頻閾值為10以上,剔除無關(guān)字段和冗余字段,構(gòu)建技術(shù)主題字段共詞矩陣。在此過程中,共產(chǎn)生12個共詞矩陣,如表1所示。 在數(shù)據(jù)集A中,分別以階段1、階段2、階段3的矩陣網(wǎng)絡(luò)作為訓(xùn)練集,以階段4作為測試集檢驗(yàn)訓(xùn)練效果。為了降低實(shí)驗(yàn)誤差,需要對多個指標(biāo)的預(yù)測效果進(jìn)行橫向?qū)Ρ?。同時,考慮到已有節(jié)點(diǎn)連接的次數(shù)同時是拓?fù)浣Y(jié)構(gòu)的一部分,直接關(guān)系到相關(guān)節(jié)點(diǎn)的中介度和中心性,對新連接的產(chǎn)生具有較大的潛在影響,對每個指標(biāo)進(jìn)行加權(quán)處理,能夠更好地反映實(shí)際情況。本文參照翟東升等[24]對鏈路預(yù)測指標(biāo)的加權(quán)方法,使用含權(quán)共同鄰居、Jaccard系數(shù)、含權(quán)Adamic-Adar(AA)指標(biāo)、含權(quán)resource allocation(RA)指標(biāo)計(jì)算連邊得分。最后,以AUC表征的百分比來衡量模型的效果。 同樣地,在數(shù)據(jù)集B、數(shù)據(jù)集C中進(jìn)行類似的訓(xùn)練和測試。最后,分別得出三個數(shù)據(jù)集中,不同階段、不同指標(biāo)的預(yù)測效果,如圖3所示。 為了檢驗(yàn)融合數(shù)據(jù)是否比單一數(shù)據(jù)更有優(yōu)勢,本文橫向?qū)Ρ華、B、C三個數(shù)據(jù)集中,同一指標(biāo)且相同階段的預(yù)測效果。由圖3可見,在Jaccard系數(shù)(圖3b)與含權(quán)AA指標(biāo)(圖3c)的階段3,數(shù)據(jù)集B效果優(yōu)于其他。除Jaccard與含權(quán)AA的階段3以外,在橫向?qū)Ρ戎校蓴?shù)據(jù)集C得出的訓(xùn)練效果AUC值均為最高。這說明了融合專利與論文技術(shù)主題字段的共詞網(wǎng)絡(luò)相較于單一數(shù)據(jù)網(wǎng)絡(luò),鏈路預(yù)測性能得到一定程度的提升。 表1 數(shù)據(jù)集各階段的技術(shù)主題字段共詞矩陣大小 圖3 不同數(shù)據(jù)集預(yù)測效果對比 將每年專利與論文融合網(wǎng)絡(luò)中,新增技術(shù)主題字段的共詞對數(shù)抽取出來,繪制成折線圖,如圖4所示。 由圖4可見,在2008年之前,每年新增共詞對數(shù)量在1000~3500內(nèi)波動,但是總體上每年新增數(shù)量有所上升。說明在2001—2008年,技術(shù)生長速度有所加快;而2008年之后,每年新增詞對數(shù)量呈現(xiàn)出下滑的趨勢,說明技術(shù)生長的速度在逐漸放緩。 本文使用Logistics曲線來擬合病毒核酸檢測技術(shù)發(fā)展的不同階段。把累計(jì)專利公開數(shù)量替換成專利與論文融合矩陣中累計(jì)技術(shù)主題字段共詞對數(shù)量,將2001—2019年的病毒核酸檢測技術(shù)融合數(shù)據(jù)輸入Loglet Lab 4軟件,經(jīng)過多次調(diào)整參數(shù)進(jìn)行擬合,結(jié)果得到如圖5所示的S曲線。 擬合結(jié)果顯示,技術(shù)生命周期各階段的轉(zhuǎn)折點(diǎn)時間t10、t50、t90分別為1998年、2007年和2025年。即1998年以前,為病毒核酸檢測技術(shù)的萌芽期;1998—2007年為技術(shù)生長期;2007—2025年為技術(shù)的成熟期預(yù)測;預(yù)測2025年以后將進(jìn)入技術(shù)的衰退期。 圖4 歷年新增與累計(jì)共詞對數(shù)量趨勢 圖5 技術(shù)生命周期擬合曲線 為了驗(yàn)證不同技術(shù)生命周期階段的訓(xùn)練網(wǎng)絡(luò)對結(jié)果的影響,本文對數(shù)據(jù)集時間段重新劃分,分別是2001—2007年(即成長期訓(xùn)練集)、2008—2015年(即成熟期訓(xùn)練集)、2001—2015年(即全網(wǎng)絡(luò)訓(xùn)練集),對這三個網(wǎng)絡(luò)進(jìn)行訓(xùn)練,同樣使用2016—2019年作為測試集來檢測訓(xùn)練效果。 利用BibExcel軟件提取所有標(biāo)題數(shù)據(jù)中的技術(shù)主題字段,設(shè)置字頻閾值為10以上,剔除無關(guān)字段和冗余字段,構(gòu)建出每個階段的技術(shù)主題字段共詞矩陣。 根據(jù)第4.3節(jié)的分析,2008—2015年的訓(xùn)練集與測試集數(shù)據(jù)同屬于技術(shù)成熟期內(nèi);而2001—2007年的訓(xùn)練集則在相鄰的成長期內(nèi);2001—2015年的訓(xùn)練網(wǎng)絡(luò)則同時囊括了成長期與成熟期。訓(xùn)練得出的指標(biāo)效果如圖6所示。 圖6 不同生命階段的訓(xùn)練集預(yù)測效果對比 在數(shù)據(jù)集A、B、C當(dāng)中分別進(jìn)行縱向?qū)Ρ龋疾觳煌A段的網(wǎng)絡(luò)預(yù)測效果。在數(shù)據(jù)集B(專利技術(shù)主題字段)中,全網(wǎng)絡(luò)訓(xùn)練集的效果最佳。根據(jù)第3.4節(jié)的分析,推測是因?yàn)閷τ趯@麃碚f,全網(wǎng)絡(luò)時段的技術(shù)主題字段分布與預(yù)測目標(biāo)較為貼近,意味著在長時間內(nèi),技術(shù)主題較為集中,未產(chǎn)生較大的躍遷,這使得全網(wǎng)絡(luò)有更佳的預(yù)測表現(xiàn)。而在數(shù)據(jù)集A(論文技術(shù)主題字段)和數(shù)據(jù)集C(融合技術(shù)主題字段)當(dāng)中,以成熟期數(shù)據(jù)(橙色柱體)作為訓(xùn)練網(wǎng)絡(luò)的所有參數(shù),幾乎均取得了最優(yōu)效果。由此可見,全網(wǎng)絡(luò)的預(yù)測效果存在較大的不確定性,未必是最好的。這說明在選取訓(xùn)練網(wǎng)絡(luò)時,優(yōu)先考慮與預(yù)測目標(biāo)同一生命階段的數(shù)據(jù),能夠較大限度地保證預(yù)測效果。 本文提出了一種使用融合多源數(shù)據(jù)來改進(jìn)技術(shù)預(yù)測效果的方法,針對病毒核酸檢測技術(shù)的特征,結(jié)合技術(shù)演化規(guī)律,并檢驗(yàn)了提出的新模型效果。研究發(fā)現(xiàn),相較于原有模型,新模型在預(yù)測效果上得到了有效提升。 研究結(jié)論主要包括:①融合多源數(shù)據(jù)的訓(xùn)練網(wǎng)絡(luò)比單一數(shù)據(jù)有更好的預(yù)測效果。多源數(shù)據(jù)間互為補(bǔ)充,克服技術(shù)主題字段完整性不足的問題,更加客觀真實(shí)地刻畫實(shí)際技術(shù)的發(fā)展?fàn)顩r,有助于提升預(yù)測性能。②技術(shù)生命周期與預(yù)測模型的效果關(guān)系密切。由于技術(shù)的內(nèi)生演化,不同階段的網(wǎng)絡(luò)較為疏遠(yuǎn),因而跨階段的網(wǎng)絡(luò)稀釋了預(yù)測目標(biāo)的得分,影響了預(yù)測的效果。實(shí)驗(yàn)發(fā)現(xiàn),在使用同一生命階段數(shù)據(jù)進(jìn)行預(yù)測時,大部分效果優(yōu)于不同階段和全網(wǎng)絡(luò)數(shù)據(jù),能夠較大程度地保證模型的預(yù)測效果。選定正確高效的數(shù)據(jù)集,不僅能夠提升模型性能,而且能夠減少運(yùn)算負(fù)荷,達(dá)到事半功倍的效果。針對以往研究選取基礎(chǔ)數(shù)據(jù)的隨機(jī)性缺陷,本文提供了一種快速定位高效基礎(chǔ)數(shù)據(jù)的方法,在保障預(yù)測效果的同時有助于減少實(shí)驗(yàn)成本。 隨著科學(xué)大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,更加客觀有效的技術(shù)預(yù)測模型將不斷地被改進(jìn)。本文的局限性在于實(shí)驗(yàn)部分僅比較了病毒核酸檢測技術(shù)成長期與成熟期兩個階段。在涵蓋完整的技術(shù)生命周期數(shù)據(jù)下,將提出的模型拓展至其他技術(shù)領(lǐng)域,還有待進(jìn)一步研究。未來,整合包括專利與論文在內(nèi)(如圖書、標(biāo)準(zhǔn)、行業(yè)報告等)的多源異構(gòu)數(shù)據(jù),對技術(shù)前沿進(jìn)行預(yù)測的方法將逐漸取代單一數(shù)據(jù)源方法。此外,結(jié)合機(jī)器學(xué)習(xí)對大規(guī)模文本的高效處理能力,將有更多的算法被開發(fā)出來。將文獻(xiàn)計(jì)量、專利分析、鏈路預(yù)測以及機(jī)器學(xué)習(xí)等多種方法綜合起來,通過對比效果衡量出最佳標(biāo)準(zhǔn),將成為技術(shù)預(yù)測的未來方向。4 實(shí)證分析
4.1 數(shù)據(jù)來源與處理
4.2 加權(quán)指標(biāo)下融合數(shù)據(jù)矩陣預(yù)測效果
4.3 技術(shù)生命周期分析
4.4 不同生命階段的預(yù)測效果
5 研究結(jié)論與討論