苗 紅 李 男 吳菲菲 沈 蕾
(北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100124)
醫(yī)學(xué)影像與人工智能的結(jié)合是最具發(fā)展前景的領(lǐng)域[1]。伴隨新一代人工智能發(fā)展上升為國(guó)家戰(zhàn)略,人工智能在醫(yī)療領(lǐng)域的應(yīng)用備受青睞[2]。在醫(yī)學(xué)影像領(lǐng)域,人工智能技術(shù)的介入結(jié)合大數(shù)據(jù)挖掘,使得醫(yī)學(xué)影像大數(shù)據(jù)在人工智能的篩選、梳理和提取后,可能轉(zhuǎn)換成有效的臨床決策[3]。人工智能在醫(yī)學(xué)影像分析中的研究將有望切實(shí)提升醫(yī)師工作效率和工作質(zhì)量[4],也是實(shí)現(xiàn)面向人民健康創(chuàng)新的重要技術(shù)支撐。
技術(shù)融合作為產(chǎn)業(yè)發(fā)展一個(gè)新的及決定性因素引發(fā)了廣泛關(guān)注及研究[5]。技術(shù)融合是技術(shù)創(chuàng)新的主要來源。同時(shí)也是新興產(chǎn)業(yè)形成與發(fā)展的源泉[6]。技術(shù)融合對(duì)實(shí)際產(chǎn)業(yè)結(jié)構(gòu)變革重組產(chǎn)生顯著的影響力[7]。識(shí)別技術(shù)融合的動(dòng)態(tài)趨勢(shì)對(duì)加強(qiáng)技術(shù)創(chuàng)新、引導(dǎo)產(chǎn)業(yè)的發(fā)展具有重要的現(xiàn)實(shí)意義。醫(yī)學(xué)影像人工智能是以深度學(xué)習(xí)等為代表的新一代人工智能技術(shù)應(yīng)用在醫(yī)學(xué)影像領(lǐng)域的產(chǎn)物,該領(lǐng)域?qū)?huì)是長(zhǎng)期的熱點(diǎn)。因此對(duì)醫(yī)學(xué)影像人工智能領(lǐng)域進(jìn)行技術(shù)融合預(yù)測(cè)將推動(dòng)應(yīng)用人工智能的醫(yī)學(xué)影像領(lǐng)域技術(shù)進(jìn)步及發(fā)展,進(jìn)而降低成本提高影像診斷水平,為患者創(chuàng)造更大的價(jià)值。
目前對(duì)該領(lǐng)域的技術(shù)預(yù)測(cè)主要是基于專家的主觀判斷,運(yùn)用客觀方法的技術(shù)融合預(yù)測(cè)研究尚處在初步探索階段。而且,新興的基于機(jī)器學(xué)習(xí)的技術(shù)融合預(yù)測(cè)方法僅是根據(jù)傳統(tǒng)研究技術(shù)融合的方法簡(jiǎn)單地羅列指標(biāo),對(duì)指標(biāo)內(nèi)涵及其與技術(shù)融合的關(guān)系認(rèn)知模糊,缺乏對(duì)指標(biāo)與技術(shù)融合的內(nèi)在機(jī)理的關(guān)聯(lián)性分析,導(dǎo)致模型的指標(biāo)體系整體的邏輯性不強(qiáng)。因此本文基于技術(shù)融合的內(nèi)在機(jī)理,提出相似性指標(biāo)和技術(shù)特性指標(biāo),構(gòu)建新的指標(biāo)體系,因此重構(gòu)基于機(jī)器學(xué)習(xí)的技術(shù)融合預(yù)測(cè)模型,并對(duì)醫(yī)學(xué)影像人工智能領(lǐng)域進(jìn)行技術(shù)融合預(yù)測(cè)。
醫(yī)學(xué)影像 是指為了醫(yī)療或醫(yī)學(xué)研究, 對(duì)人體或人體某部分, 以非侵入方式取得內(nèi)部組織影像的技術(shù)與處理過程[8]。目前, 醫(yī)院存儲(chǔ)的信息超過90%是影像信息, 影像信息已經(jīng)形成了巨大的數(shù)據(jù)積累。人工智能應(yīng)用于醫(yī)學(xué)影像日常工作中, 可以減少放射科醫(yī)生的重復(fù)簡(jiǎn)單工作并降低人為錯(cuò)誤, 提高醫(yī)生的工作效率, 提高診斷準(zhǔn)確率[3]?;卺t(yī)學(xué)影像大數(shù)據(jù)的人工智能技術(shù)與應(yīng)用就成為醫(yī)療機(jī)構(gòu)、科研、產(chǎn)業(yè)和政府共同關(guān)注的焦點(diǎn)[9]。分析發(fā)現(xiàn)醫(yī)學(xué)影像人工智能領(lǐng)域的研究主要可以概括為以下兩個(gè)方面:
一是基于專家主觀判斷法的醫(yī)學(xué)影像人工智能領(lǐng)域現(xiàn)狀和前景分析。Alexander等人[10]強(qiáng)調(diào)人工智能在醫(yī)學(xué)成像領(lǐng)域臨床應(yīng)用的進(jìn)展,支持它的投資,以及未廣泛采用的障礙,并就市場(chǎng)如何發(fā)展提出了看法,認(rèn)為人工智能將對(duì)醫(yī)學(xué)成像市場(chǎng)產(chǎn)生重大影響,從而影響放射科醫(yī)生的工作方式,幫助他們加快掃描時(shí)間,做出更準(zhǔn)確的診斷,減輕工作量。Castiglioni Isabella等人[11]簡(jiǎn)要介紹了選擇ML和DL來實(shí)現(xiàn)醫(yī)學(xué)成像人工智能應(yīng)用的優(yōu)缺點(diǎn)。Yi Xiao等[12]概述了醫(yī)學(xué)成像AI技術(shù)的臨床需求,AI技術(shù)轉(zhuǎn)型的關(guān)鍵點(diǎn)以及產(chǎn)學(xué)研合作的現(xiàn)狀。并指出面臨缺乏行業(yè)標(biāo)準(zhǔn),數(shù)據(jù)脫敏標(biāo)準(zhǔn),評(píng)估系統(tǒng)以及實(shí)現(xiàn)AI產(chǎn)品在醫(yī)學(xué)成像中的應(yīng)用價(jià)值的相應(yīng)法規(guī)和政策的挑戰(zhàn)。俞益洲等[4]從4種常見計(jì)算機(jī)視覺任務(wù)(圖像分類、目標(biāo)檢測(cè)、物體分割和圖像生成)出發(fā),回顧AI技術(shù)在醫(yī)學(xué)影像分析中的應(yīng)用及其發(fā)展。盧光明和張志強(qiáng)[13]從人工智能醫(yī)學(xué)影像的意義目標(biāo)、研發(fā)流程等方面進(jìn)行闡述,并對(duì)其未來進(jìn)行展望。
二是基于問卷調(diào)查和文獻(xiàn)計(jì)量方法進(jìn)行現(xiàn)狀相關(guān)研究。B.O.Botwe等人[14]評(píng)估了非洲放射治療師對(duì)將AI集成到醫(yī)學(xué)影像中的觀點(diǎn),調(diào)查結(jié)果表明對(duì)將AI集成到醫(yī)學(xué)影像中具有積極的看法。但是,對(duì)于將AI集成到醫(yī)學(xué)成像中的工作安全性的擔(dān)憂日益凸顯。陳娟等人[15]基于科技論文分析主要國(guó)家在推動(dòng)將人工智能技術(shù)用于醫(yī)學(xué)影像學(xué)的基礎(chǔ)研究態(tài)勢(shì)。
技術(shù)融合可以定義為至少兩個(gè)不相干的技術(shù)領(lǐng)域之間的邊界模糊[16]。技術(shù)融合是不同技術(shù)領(lǐng)域合作的現(xiàn)象,可以帶來新的產(chǎn)品或者服務(wù)。技術(shù)融合是推動(dòng)技術(shù)和產(chǎn)業(yè)創(chuàng)新的重要驅(qū)動(dòng)力,可以引導(dǎo)新興產(chǎn)業(yè)的形成。通過進(jìn)行技術(shù)融合預(yù)測(cè),可以及時(shí)了解技術(shù)和產(chǎn)業(yè)的發(fā)展動(dòng)向,并做出科學(xué)的規(guī)劃和決策。
技術(shù)融合預(yù)測(cè)方法主要包括專利網(wǎng)絡(luò)分析法、指標(biāo)分析法、文本挖掘法、機(jī)器學(xué)習(xí)等。專利網(wǎng)絡(luò)分析分為專利共類網(wǎng)絡(luò)分析和專利引用網(wǎng)絡(luò)分析,在識(shí)別技術(shù)融合的各種方法中,專利的專利分類號(hào)和引文信息被用來理解技術(shù)之間的相互作用,并通過專利分類號(hào)和引用信息建立專利網(wǎng)絡(luò),其中鏈路預(yù)測(cè)常用于專利網(wǎng)路分析當(dāng)中。Inchae Park等[17]基于生物技術(shù) (BT) 和信息技術(shù) (IT) 的專利引用關(guān)系構(gòu)建技術(shù)知識(shí)流網(wǎng)絡(luò),通過鏈路預(yù)測(cè)構(gòu)建潛在技術(shù)知識(shí)流動(dòng)網(wǎng)絡(luò),綜合分析進(jìn)行技術(shù)融合趨勢(shì)預(yù)測(cè)以及技術(shù)機(jī)會(huì)發(fā)現(xiàn)。Jeeeun Kim 等[18]基于生物技術(shù)和信息技術(shù)專利構(gòu)建專利引用網(wǎng)絡(luò),采用神經(jīng)網(wǎng)絡(luò)技術(shù)來預(yù)測(cè)技術(shù)融合趨勢(shì)。Won SangLee等[19]通過1955—2011 年期間美日韓三方專利構(gòu)建專利IPC共現(xiàn)網(wǎng)絡(luò),應(yīng)用鏈路預(yù)測(cè)預(yù)測(cè)技術(shù)融合趨勢(shì)。SidaFeng等[20]構(gòu)建專利IPC共現(xiàn)網(wǎng)絡(luò),通過網(wǎng)絡(luò)索引的變化以及鏈路預(yù)測(cè)進(jìn)行電動(dòng)汽車領(lǐng)域技術(shù)融合預(yù)測(cè)。
指標(biāo)分析法主要是基于專利共類等信息通過結(jié)構(gòu)洞、中心性等社會(huì)網(wǎng)絡(luò)相關(guān)指標(biāo),增長(zhǎng)率、突發(fā)性、Sigma等文獻(xiàn)計(jì)量指標(biāo)進(jìn)行技術(shù)融合預(yù)測(cè)。吳曉燕等[21]以合成生物學(xué)專利為例進(jìn)行實(shí)證研究,基于專利共類信息,結(jié)合共現(xiàn)頻次、度中心性、突發(fā)指數(shù)進(jìn)行技術(shù)融合趨勢(shì)預(yù)測(cè)。呂一博等[22]將物聯(lián)網(wǎng)與人工智能這 兩 個(gè)熱點(diǎn)領(lǐng)域作為技術(shù)融合的分析對(duì)象,基于專利共類信息,結(jié)合文獻(xiàn)計(jì)量 4 個(gè)指標(biāo)識(shí)別出這 兩 個(gè)領(lǐng)域產(chǎn)生技術(shù)融合后的技術(shù)現(xiàn)狀以及未來技術(shù)的發(fā)展趨勢(shì)。
文本挖掘法主要是對(duì)專利文本進(jìn)行挖掘,在語義環(huán)境下進(jìn)行技術(shù)融合預(yù)測(cè)識(shí)別。Wang Zhinan 等[23]采用指標(biāo)識(shí)別新興的術(shù)語,使用 PCA 對(duì)術(shù)語進(jìn)行聚類,將融合專利的新興主題與非融合專利中的主題進(jìn)行了比較,識(shí)別3D 打印領(lǐng)域技術(shù)融合的新興主題。苗紅等[24]利用 SAO與 TRT結(jié)構(gòu)中的目的關(guān)系挖掘技術(shù)解決方案與功能信息,通過聚類實(shí)現(xiàn)面向功能的融合技術(shù)解決方法獲取,進(jìn)而進(jìn)行技術(shù)融合趨勢(shì)預(yù)測(cè)。Bomi Song 等[25]從LDA提取的各個(gè)安全領(lǐng)域中與安全技術(shù)相關(guān)的關(guān)鍵字用于構(gòu)建融合網(wǎng)絡(luò)。根據(jù)融合網(wǎng)絡(luò)中關(guān)鍵詞之間的聯(lián)動(dòng)強(qiáng)度,提取促進(jìn)融合的安全技術(shù)的主要關(guān)鍵詞進(jìn)而進(jìn)行技術(shù)融合預(yù)測(cè)。
機(jī)器學(xué)習(xí)可以通過計(jì)算機(jī)在海量數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的規(guī)律和模式,從中挖掘出潛在信息,廣泛用于解決分類、回歸、聚類等問題[26]。機(jī)器學(xué)習(xí)法可以有效降低某一傳統(tǒng)方法的局限性對(duì)技術(shù)融合預(yù)測(cè)的影響:專利引用網(wǎng)絡(luò)的引用信息具有滯后性,不適合新興領(lǐng)域;專利共類網(wǎng)絡(luò)中鏈路預(yù)測(cè)方法所涉及的技術(shù)融合信息不全面,指標(biāo)分析法及文本挖掘法也存在相同問題。Tae SanKim等[27]運(yùn)用機(jī)器學(xué)習(xí)模型,根據(jù)研究技術(shù)融合的鏈路預(yù)測(cè)法、文獻(xiàn)計(jì)量法、文本分析法匯總25個(gè)指標(biāo),基于較全面的綜合指標(biāo)體系構(gòu)建IPC向量進(jìn)行技術(shù)融合預(yù)測(cè)。
現(xiàn)有研究仍存在以下不足:一是現(xiàn)有對(duì)醫(yī)學(xué)影像人工智能領(lǐng)域的預(yù)測(cè)研究還處于初期階段,主要是定性地對(duì)其領(lǐng)域的應(yīng)用、發(fā)展、挑戰(zhàn)以及前景進(jìn)行簡(jiǎn)要概括和闡述,缺少對(duì)該領(lǐng)域客觀的技術(shù)預(yù)測(cè)研究。二是醫(yī)學(xué)影像人工智能領(lǐng)域是人工智能和醫(yī)學(xué)領(lǐng)域的垂直融合,從技術(shù)融合的角度對(duì)其進(jìn)行技術(shù)融合的預(yù)測(cè),判斷領(lǐng)域前景,不僅符合其發(fā)展的科學(xué)性而且對(duì)引導(dǎo)其發(fā)展有著積極意義,但是目前對(duì)該領(lǐng)域的技術(shù)融合預(yù)測(cè)相關(guān)研究尚未開展。 三是Tae SanKim 和 So Young Sohn提出的基于機(jī)器學(xué)習(xí)的技術(shù)融合預(yù)測(cè)模型中,構(gòu)建的指標(biāo)體系包括14個(gè)鏈路預(yù)測(cè)、7個(gè)文獻(xiàn)計(jì)量指標(biāo)、4個(gè)語義分析指標(biāo);該指標(biāo)體系是由研究技術(shù)融合的鏈路預(yù)測(cè)法、文獻(xiàn)計(jì)量法、文本分析方法所涉及指標(biāo)平移組合而得,因其缺乏對(duì)指標(biāo)內(nèi)涵及其與技術(shù)融合關(guān)系的深入分析,指標(biāo)體系整體的邏輯性有待加強(qiáng)。
本文首先從技術(shù)融合內(nèi)在機(jī)理出發(fā)提出了相似性指標(biāo)和技術(shù)特性指標(biāo):一方面,相似性是技術(shù)融合的重要特征,技術(shù)之間相似性越高,技術(shù)融合可能性越大,相似性指標(biāo)主要包括基于網(wǎng)絡(luò)結(jié)構(gòu)的相似性及基于節(jié)點(diǎn)屬性的相似性;另一方面,技術(shù)特性是技術(shù)融合分析對(duì)象的根本特征,是技術(shù)融合分析的重要基礎(chǔ),技術(shù)特性指標(biāo)主要包括規(guī)模性、復(fù)雜性、市場(chǎng)性、協(xié)作性指標(biāo)。其次根據(jù)指標(biāo)體系構(gòu)建IPC對(duì)特征向量,運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行醫(yī)學(xué)影像人工智能領(lǐng)域技術(shù)融合預(yù)測(cè),為醫(yī)學(xué)影像人工智能領(lǐng)域提供決策支持。
本文將IPC對(duì)融合來代表技術(shù)融合,整個(gè)研究分為三部分:首先,將相似性指標(biāo)、技術(shù)特性指標(biāo)作為IPC對(duì)的特征,并構(gòu)建IPC對(duì)特征向量。其次,根據(jù)IPC對(duì)的特征向量和技術(shù)融合結(jié)果構(gòu)建訓(xùn)練集和測(cè)試集。通過機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí),得到技術(shù)融合預(yù)測(cè)模型。最后,通過測(cè)試集評(píng)估模型,選取泛化性能最優(yōu)模型用來預(yù)測(cè)新的技術(shù)融合(如圖1所示)。
圖1 技術(shù)路線圖
整個(gè)過程將分為以下幾個(gè)步驟:
第一步,將時(shí)間分為3個(gè)連續(xù)的時(shí)間段:時(shí)間段1、時(shí)間段2、時(shí)間段3。提取每個(gè)時(shí)間段的專利所有的IPC數(shù)量,并構(gòu)建可能的IPC對(duì)。
第二步,通過指標(biāo)構(gòu)建每個(gè)時(shí)間段IPC對(duì)的特征向量。
第三步,選取某一時(shí)間段(例如時(shí)間段1)IPC對(duì)特征向量和這些IPC對(duì)在下一時(shí)間段(時(shí)間段2)的技術(shù)融合結(jié)果作為訓(xùn)練集。
第四步,再選取某一時(shí)間段(例如時(shí)間段2)IPC對(duì)特征向量和這些IPC對(duì)在下一時(shí)間段(時(shí)間段3)的技術(shù)融合結(jié)果作為測(cè)試集。
第五步,運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,通過調(diào)參數(shù),獲得學(xué)習(xí)效果較好的機(jī)器學(xué)習(xí)模型。用測(cè)試集對(duì)所得機(jī)器學(xué)習(xí)模型進(jìn)行評(píng)估。
第六步,通過評(píng)估選取泛化性能最優(yōu)的機(jī)器學(xué)習(xí)模型,并通過對(duì)最后的時(shí)間段(例如時(shí)間段3)IPC對(duì)特征向量進(jìn)行預(yù)測(cè),得到IPC對(duì)下一個(gè)時(shí)間段的技術(shù)融合結(jié)果,進(jìn)而得到最終的技術(shù)融合預(yù)測(cè)結(jié)果。
2.2.1技術(shù)融合特征向量構(gòu)建
本文以IPC對(duì)融合來表示技術(shù)融合,特征向量的構(gòu)建對(duì)象是IPC對(duì),因此需要選取反映IPC對(duì)融合的屬性,進(jìn)而構(gòu)建特征向量。
a.選用IPC共現(xiàn)(4位IPC)來表征技術(shù)融合。通過專利共類分析、專利引用分析可以進(jìn)行技術(shù)融合預(yù)測(cè),由于引用信息存在時(shí)滯性[28],故本文選用專利共類分析。每項(xiàng)專利都有至少一個(gè)由專利專家分配的分類代碼,以證明該專利包含了該學(xué)科的知識(shí)[29]。國(guó)際專利分類(IPC)代碼由專利局審查員根據(jù)發(fā)明的技術(shù)特征分配給申請(qǐng)專利的,一個(gè)專利文檔可以相關(guān)聯(lián)一個(gè)或者多個(gè)IPC分類代碼[30],因此本文選用IPC共現(xiàn)表征技術(shù)融合。
b.基于相似性及技術(shù)特性的特征向量構(gòu)建。一方面,相似性特征是技術(shù)融合的重要特征,技術(shù)之間的相似性越高,技術(shù)融合可能性越大。相似性主要從基于網(wǎng)絡(luò)結(jié)構(gòu)的相似性和基于節(jié)點(diǎn)屬性的相似性兩個(gè)角度進(jìn)行分析?;诰W(wǎng)絡(luò)結(jié)構(gòu)的相似性是通過鏈路預(yù)測(cè)進(jìn)行度量,該方法是一種根據(jù)節(jié)點(diǎn)相似性來預(yù)測(cè)某些節(jié)點(diǎn)之間的鏈接的方法,兩個(gè)節(jié)點(diǎn)之間相似性越大,它們之間存在鏈接的可能性就越大,常用于專利共類網(wǎng)絡(luò)中進(jìn)行技術(shù)融合預(yù)測(cè);鑒于專利之間語義相似度高是技術(shù)融合的先兆[31],基于節(jié)點(diǎn)屬性的相似性是通過語義相似性進(jìn)行度量。技術(shù)特性是技術(shù)融合分析對(duì)象的根本特征,是技術(shù)融合分析的重要基礎(chǔ),技術(shù)特性可提煉為規(guī)模性、復(fù)雜性、市場(chǎng)性、協(xié)作性等方面。專利是技術(shù)的載體,技術(shù)特性分析主要源于專利本身包含各種重要技術(shù)信息[32],例如標(biāo)題、摘要、發(fā)明人、專利權(quán)人、申請(qǐng)國(guó)家等信息。
①相似性指標(biāo)。相似性指標(biāo)是在專利IPC共分類網(wǎng)絡(luò)中,從節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)屬性角度,通過分析IPC的相似性分析技術(shù)融合的指標(biāo)。包括衡量基于網(wǎng)絡(luò)結(jié)構(gòu)的節(jié)點(diǎn)相似性的RA指標(biāo)以及衡量基于節(jié)點(diǎn)屬性的節(jié)點(diǎn)相似性的標(biāo)題相似性指標(biāo)和摘要相似性指標(biāo),如表1所示。
表1 相似性指標(biāo)及含義
資源分配指標(biāo)(RA指標(biāo))根據(jù)節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行節(jié)點(diǎn)之間的相似性度量。鏈路預(yù)測(cè)方法是一種基于現(xiàn)有的網(wǎng)絡(luò)估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)潛在鏈接的方法[33]。通過專利共類信息可以形成專利共類網(wǎng)絡(luò),鏈路預(yù)測(cè)常用于專利共類網(wǎng)絡(luò)中。鏈路預(yù)測(cè)方法主要分為基于相似度的鏈路預(yù)測(cè),基于最大似然估計(jì)的鏈路預(yù)測(cè),概率模型[34]。其中基于相似性的鏈路預(yù)測(cè)又分為基于局部信息的相似性指標(biāo),基于路徑的相似性指標(biāo),基于隨機(jī)游走的相似性指標(biāo)。其中基于局部信息的相似性指標(biāo)是指通過節(jié)點(diǎn)結(jié)構(gòu)信息計(jì)算得到的相似性指標(biāo),主要包括共同鄰居指標(biāo)(CN指標(biāo))、Salton指標(biāo)、Jaccard指標(biāo)、優(yōu)先鏈接指標(biāo)(PA指標(biāo))、RA指標(biāo)等。許多實(shí)證研究表明,基于相似度的方法優(yōu)于最大可能性和概率方法,尤其是在對(duì)網(wǎng)絡(luò)結(jié)構(gòu)缺乏理論理解的情況下[34]。在各種類型的算法中,RA指標(biāo)在估計(jì)包括知識(shí)網(wǎng)絡(luò)在內(nèi)的許多類型網(wǎng)絡(luò)中的潛在鏈接時(shí)表現(xiàn)出良好的性能[20]。RA指標(biāo)是基于兩節(jié)點(diǎn)共同鄰居的度信息,考慮網(wǎng)絡(luò)中沒有直接相連的兩個(gè)節(jié)點(diǎn)x和y,從x可以傳遞一些資源到y(tǒng),而在此過程中,它們的共同鄰居就成為傳遞的媒介。假設(shè)每個(gè)媒介都有一個(gè)單位的資源并且將平均分配傳給它的鄰居,則y可以接收到的資源數(shù)就定義為節(jié)點(diǎn)x和y的相似度[35]。通過IPC共現(xiàn)信息構(gòu)成網(wǎng)絡(luò),本文選用RA指標(biāo)來計(jì)算IPC對(duì)之間的相似性。
基于標(biāo)題相似性和摘要相似性是根據(jù)節(jié)點(diǎn)的屬性信息對(duì)節(jié)點(diǎn)進(jìn)行相似性度量。不同技術(shù)領(lǐng)域?qū)@g的語義相似性隨著時(shí)間的增長(zhǎng)可以被視為技術(shù)融合的標(biāo)志[31]。在專利IPC共現(xiàn)類網(wǎng)絡(luò)中,對(duì)IPC節(jié)點(diǎn)的語義相似性度量來進(jìn)行技術(shù)融合的分析。專利文本主要包括標(biāo)題和摘要,因此可以用標(biāo)題相似性和摘要相似性指標(biāo)來表示IPC對(duì)文本的相似。2014年,谷歌的Quoc Le等[36]提出了文本向量化的深度學(xué)習(xí)算法Doc2Vec, 將向量特征的計(jì)算從詞語層面擴(kuò)展到句子 (段落) 層面。通過Doc2Vec可以計(jì)算IPC專利文本的向量,進(jìn)而可以計(jì)算IPC對(duì)之間文本的相似性。
②技術(shù)特性指標(biāo)。技術(shù)特性包括規(guī)模性、復(fù)雜性、市場(chǎng)性、協(xié)作性。規(guī)模性是指IPC領(lǐng)域的專利數(shù)量的規(guī)模,以申請(qǐng)專利存量衡量技術(shù)領(lǐng)域的規(guī)模。研究表明在擁有更多專利的技術(shù)領(lǐng)域,發(fā)生融合的可能性更大[30]。技術(shù)的復(fù)雜性往往會(huì)引發(fā)與其他創(chuàng)新技術(shù)的融合[32],其用IPC領(lǐng)域?qū)@陌l(fā)明人數(shù)量衡量[30]。此外,技術(shù)市場(chǎng)性也對(duì)技術(shù)融合產(chǎn)生潛在影響,新融合技術(shù)的誕生更可能發(fā)生在專利保護(hù)的地理范圍較窄的情況下[31]。最后,用專利權(quán)人數(shù)量代表技術(shù)協(xié)作性,產(chǎn)生技術(shù)融合領(lǐng)域的特點(diǎn)是專利專利權(quán)人數(shù)量相對(duì)較高,也就是更具協(xié)作性的技術(shù)更有可能被其他技術(shù)所使用[27]。本研究通過技術(shù)規(guī)模性、復(fù)雜性、市場(chǎng)性、協(xié)作性來構(gòu)建特征向量。每個(gè)指標(biāo)的測(cè)算方法,如表2所示。由于上述每個(gè)技術(shù)特性指標(biāo)是針對(duì)單個(gè)IPC的,因此需要取平均值作為IPC對(duì)的特征信息。
表2 技術(shù)特性指標(biāo)
2.2.2機(jī)器學(xué)習(xí)模型選擇
首先,初步選用支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)決策樹(DT)、隨機(jī)森林(RF)這些應(yīng)用頻率高的算法進(jìn)行訓(xùn)練學(xué)習(xí)。機(jī)器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、決策樹、隨機(jī)森林都屬于監(jiān)督學(xué)習(xí)算法。支持向量機(jī)(Support Vector Machine, SVM)是一種被廣泛使用的機(jī)器學(xué)習(xí)分類與回歸算法,由Vapnik在20世紀(jì)的最后10年提出[38]。人工神經(jīng)網(wǎng)絡(luò)是一種反映變量之間非線性關(guān)系的機(jī)器學(xué)習(xí)技術(shù)[39],是模擬生物神經(jīng)網(wǎng)絡(luò),由神經(jīng)元組成的計(jì)算模型。決策樹分類是一種從無次序、無規(guī)則的訓(xùn)練樣本集中推理出決策樹表示形式的分類規(guī)則的方法[40]。Breiman 等人提出了早期的決策樹(DT)分類算法—CART 算法,Quinlan引入信息增益、信息增益率提出ID3算法和C4.5算法[26]。隨機(jī)森林(RF)算法是關(guān)注決策樹的集成學(xué)習(xí),由Breiman于2001年提出[41]。隨機(jī)森林(RF)是一種組合分類器,它是利用有放回抽樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)抽取的樣本進(jìn)行決策樹建模,然后組合多棵決策樹的預(yù)測(cè),通過投票得出最終預(yù)測(cè)結(jié)果,具有很高的預(yù)測(cè)準(zhǔn)確率[42]。因此本文先選用支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)決策樹(DT)、隨機(jī)森林(RF)進(jìn)行訓(xùn)練得到模型。
其次,通過評(píng)估指標(biāo)再進(jìn)行機(jī)器學(xué)習(xí)模型的篩選,選取泛化性能最優(yōu)模型。評(píng)估指標(biāo)主要是由準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall),F(xiàn)1組成,評(píng)估指標(biāo)主要是為了評(píng)估模型的泛化性能[43]。對(duì)于二分類問題,將真實(shí)的結(jié)果和機(jī)器學(xué)習(xí)方法預(yù)測(cè)的結(jié)果對(duì)比,可以分為4類,分別是真正例(True positive)、假正例(False positive)、假反例(False negative)、真反例(True negative)。準(zhǔn)確率、精確率、召回率、F1正是基于此進(jìn)行定義的,其中F1指標(biāo)是精確率和召回率的綜合指標(biāo)。
另外,對(duì)技術(shù)融合預(yù)測(cè)的機(jī)器學(xué)習(xí)模型選擇時(shí),鑒于側(cè)重其IPC對(duì)融合的預(yù)測(cè),主要通過精確率和召回率來進(jìn)行評(píng)估。但精確率和召回率是一對(duì)矛盾的指標(biāo),當(dāng)精確率過高時(shí),召回率就會(huì)偏低。召回率過高時(shí),精確率就會(huì)偏低。因此要綜合分析兩者的均衡性。最后,運(yùn)用最終選擇的模型進(jìn)行技術(shù)融合的預(yù)測(cè)。
本文基于Derwent數(shù)據(jù)庫(kù),檢索醫(yī)學(xué)影像人工智能領(lǐng)域的專利,選取時(shí)間為2012-2020年,查詢時(shí)間為2021年3月25日,數(shù)據(jù)清洗后得到1 213個(gè)專利(族)。對(duì)數(shù)據(jù)進(jìn)行時(shí)間劃分,將2012-2020年分為2012-2014、2015-2017、2018-2020三個(gè)時(shí)間段。
通過相似性指標(biāo)和技術(shù)特性指標(biāo)分別得到每個(gè)時(shí)間段IPC的數(shù)據(jù)以及IPC對(duì)的特征向量。因?yàn)?012-2014年專利數(shù)據(jù)量較少,因此本文將2015-2017年IPC對(duì)的特征向量和后一時(shí)間段2018-2020年技術(shù)領(lǐng)域IPC對(duì)融合情況作為訓(xùn)練集,將2012-2014年的IPC對(duì)特征向量和后一時(shí)間段2015-2017年技術(shù)領(lǐng)域IPC對(duì)融合情況作為測(cè)試集。
通過提取IPC對(duì)相似性信息和技術(shù)特性信息,構(gòu)建IPC對(duì)特征向量,并獲得訓(xùn)練集。將訓(xùn)練集通過機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。機(jī)器學(xué)習(xí)算法的模型效果會(huì)因其參數(shù)的設(shè)定有不同的性能。通過反復(fù)訓(xùn)練得到的各種算法最佳效果的參數(shù)設(shè)定。
本文列出了所有機(jī)器學(xué)習(xí)算法通過學(xué)習(xí)得到的模型在測(cè)試集上的評(píng)估指標(biāo)結(jié)果,如表3所示。在召回率都不是很低的情況下,各模型在精確率指標(biāo)上都大于0.75,證實(shí)了本文所構(gòu)建基于機(jī)器學(xué)習(xí)技術(shù)融合預(yù)測(cè)模型的有效性和可行性。
表3 機(jī)器學(xué)習(xí)評(píng)估指標(biāo)結(jié)果
根據(jù)模型評(píng)估指標(biāo)結(jié)果來看,隨機(jī)森林的精確率和召回率分別為0.85和0.77,在4種模型中均為最高,其泛化性能最優(yōu),故采用其作為技術(shù)融合的機(jī)器學(xué)習(xí)模型。
根據(jù)上文選取隨機(jī)森林算法得到的模型對(duì)2018-2020時(shí)間段的所有可能的IPC對(duì)進(jìn)行預(yù)測(cè),得到2021-2023年的IPC對(duì)融合結(jié)果。本文將2012-2014、2015-2017、2018-2020技術(shù)融合情況以及2021-2023年預(yù)測(cè)的技術(shù)融合情況,通過圖2表示出來。
圖2 各個(gè)時(shí)間段的技術(shù)融合情況
從4個(gè)時(shí)間段的技術(shù)融合情況來看,如圖2所示,A61B、G06T、G06K、G06F、G16H、G06N在4個(gè)時(shí)間段中都出現(xiàn)且中心度較高,與之融合的技術(shù)較多,是該領(lǐng)域技術(shù)融合的重要技術(shù)。將4個(gè)時(shí)間段都出現(xiàn)的融合IPC對(duì)提取出來,如圖3所示,可以看出H04N、G01R、G01N、A61F、G06Q雖然與之融合的技術(shù)較少,但也是該領(lǐng)域技術(shù)融合的重要技術(shù)。以上重要技術(shù)可分為以下幾類:醫(yī)學(xué)影像技術(shù)類,主要包括A61B 、A61F、 G01N、G01R;數(shù)據(jù)技術(shù)類,主要包括G06F、G06K 、G06Q;基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)技術(shù)類,主要包括G06N;圖像技術(shù)類,主要包括G06T、H04N;信息通信的技術(shù)類,主要包括G16H。
圖3 4個(gè)時(shí)間段均出現(xiàn)的技術(shù)融合
現(xiàn)有融合的主題主要是醫(yī)學(xué)影像方面的診斷鑒定技術(shù)和數(shù)字化信息化技術(shù)的融合,測(cè)試或分析材料、測(cè)量磁變量技術(shù)和數(shù)據(jù)表示或識(shí)別技術(shù)的融合,以及數(shù)字化信息化技術(shù)之間的相互融合。醫(yī)學(xué)影像方面的技術(shù)與數(shù)據(jù)、圖像、信息通信方面的技術(shù)都進(jìn)行融合,尤其是A61B和 A61F、G06F、G06K、G06Q、G06T、G16H、H04N進(jìn)行融合,可以看出與診斷鑒定融合的技術(shù)較多,主要是相關(guān)醫(yī)用品,數(shù)據(jù)方面技術(shù),醫(yī)療或健康數(shù)據(jù)的信息和通信技術(shù),圖像通信或圖像數(shù)據(jù)處理技術(shù),正如十四五規(guī)劃中數(shù)字化應(yīng)用場(chǎng)景提到要推進(jìn)醫(yī)學(xué)影像輔助判讀、臨床輔助診斷等應(yīng)用。此外還有測(cè)試或分析材料、測(cè)量磁變量技術(shù)和數(shù)據(jù)表示或識(shí)別技術(shù)的融合;數(shù)據(jù)方面的技術(shù)除了內(nèi)部技術(shù)融合外也與圖像、信息通信方面的技術(shù)、基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)技術(shù)進(jìn)行融合;基于特定計(jì)算的計(jì)算機(jī)系統(tǒng)技術(shù)與圖像數(shù)據(jù)處理技術(shù)進(jìn)行融合以及圖像方面技術(shù)之間的融合。
技術(shù)融合預(yù)測(cè)主題分析。將2021—2023年預(yù)測(cè)的新融合提取出來,如圖4所示。新融合中除了A61F,上述提到的其他重要技術(shù)都存在。另外還出現(xiàn)了14個(gè)要關(guān)注的技術(shù),其中G16B、H04L、G10L、G01S、A61K可能會(huì)繼續(xù)保持增長(zhǎng),需要特別關(guān)注。新融合的技術(shù),主要可以分為包含A61B、A61G、A61K、B29C、B33Y、G01N、G01R、G01S的醫(yī)學(xué)影像方面所涉技術(shù)。包含G06F、G06K、G06Q關(guān)于數(shù)據(jù)方面的技術(shù),包含G06N的基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)技術(shù),包含G06T、H04N圖像方面的技術(shù);包含G05B的控制或調(diào)解系統(tǒng)技術(shù),包含G09G、 G08B控制、報(bào)警裝置方面的技術(shù);包含G09B教育方面的技術(shù);包含 G10L、H04R語音擴(kuò)音方面的技術(shù);包含G16B、G16H、H04L、HO4W信息通信方面的技術(shù)。新融合的主題如下:
圖4 2021—2023年新融合預(yù)測(cè)
①醫(yī)學(xué)影像方面的技術(shù)與數(shù)字化信息化技術(shù)進(jìn)行融合,此外其中診斷鑒定和醫(yī)用配置品將與語音擴(kuò)音方面技術(shù)進(jìn)行融合。
醫(yī)學(xué)影像方面的技術(shù)診斷鑒定功能與語音、信息通信、控制裝置技術(shù)進(jìn)行融合即A61B將與G09G、H04W、H04R進(jìn)行融合,A61G(專門適用于病人專用運(yùn)輸工具手術(shù)臺(tái)或手術(shù)椅子)與數(shù)據(jù)方面、計(jì)算機(jī)系統(tǒng)、圖像、信息通信方面的技術(shù),即G06F、G06K、G06N、G06Q、G06T、G16H重要技術(shù)進(jìn)行融合;A61K(醫(yī)用配置品)與數(shù)據(jù)、語音、信息傳輸通信方面的技術(shù)即G06F、G06Q、H04L、G10L進(jìn)行融合;B29C和B33Y與數(shù)據(jù)、計(jì)算機(jī)系統(tǒng)、信息傳輸通信方面技術(shù)即G06F、G06K、G06N、G16H重要技術(shù)進(jìn)行融合,可以看出醫(yī)學(xué)影像中涉及相關(guān)材料、工具、醫(yī)用配置品主要將與數(shù)字化信息化技術(shù)進(jìn)行融合,此外,A61K也將與語音技術(shù)進(jìn)行融合。
醫(yī)學(xué)影像技術(shù)G01N將與無線電波聲波反射或再輻射的定位或存在檢測(cè)技術(shù)以及信息傳輸通信、圖像方面的技術(shù)進(jìn)行融合即G01S、G16B、H04L、H04N進(jìn)行融合。G01R將與無線電波聲波反射或再輻射的定位或存在檢測(cè)技術(shù)以及控制、數(shù)據(jù)、報(bào)警裝置、信息通信方面的技術(shù)即G01S、G05B、G06Q、G08B、G16B、H04L、H04N。G01S將與數(shù)據(jù)、信息通信方面的技術(shù)即G06Q、 G16B、 H04L進(jìn)行融合。醫(yī)學(xué)影像中涉及的測(cè)量檢測(cè)技術(shù)也將與數(shù)字化信息化技術(shù)進(jìn)行融合。
②G09B教育或者醫(yī)學(xué)演示模型將與G06K數(shù)據(jù)表示識(shí)別進(jìn)行融合,醫(yī)學(xué)影像人工智能領(lǐng)域一個(gè)重要的問題就是圖像的標(biāo)注處理問題,以及相關(guān)產(chǎn)品的使用問題,因此需要對(duì)相關(guān)的醫(yī)療工作人員進(jìn)行教育培訓(xùn)。
③數(shù)字化信息化技術(shù)之間的融合,其中最需要關(guān)注的是信息通信方面的技術(shù)。此外語音擴(kuò)音方面的技術(shù)也是將來發(fā)展的重點(diǎn)。
一般的控制或者調(diào)節(jié)系統(tǒng)和控制、報(bào)警裝置方面技術(shù)將與數(shù)據(jù)方面技術(shù)、信息通信方面技術(shù)、基于特定計(jì)算的計(jì)算機(jī)系統(tǒng)技術(shù)進(jìn)行融合。一般的控制或者調(diào)節(jié)系統(tǒng)即G05B將與G06F、G06K、G06N、G06Q、G16H進(jìn)行融合??刂啤?bào)警裝置即G08B將與G06F、G06K、G06N、G06Q、G16H、H04L進(jìn)行融合,G09G將與G06K 、G16H進(jìn)行融合。
數(shù)據(jù)方面和圖像方面的技術(shù)將與語音擴(kuò)音、信息通信方面的技術(shù)進(jìn)行融合。數(shù)據(jù)方面的技術(shù)G06F將與HO4R進(jìn)行融合,G06K將與H04R、H04W進(jìn)行融合,G06Q將與G10L、G16B、H04R進(jìn)行融合;圖像方面的技術(shù)即G06T將與G10L、H04R、H04W進(jìn)行融合,H04N將與G16B 將進(jìn)行融合。
信息通信方面的技術(shù)除了內(nèi)部技術(shù)融合之外將與語音擴(kuò)音方面技術(shù),即G16B將與G10L、H04L進(jìn)行融合,G16H將與H04R、H04W進(jìn)行融合?;谔囟ㄓ?jì)算模型的計(jì)算機(jī)系統(tǒng)技術(shù)將與擴(kuò)音技術(shù)進(jìn)行融合,即G06N將與H04R進(jìn)行融合。
綜上分析,醫(yī)學(xué)影像涉及的技術(shù),A61B、G01R、G01N是具有持續(xù)性的重要發(fā)展方向,A61K、G01S、B29C、B33Y可能是未來發(fā)展的方向。數(shù)字化信息化技術(shù)G01N、G06T、G06K、G06F、G16H、G06N、H04N、G06Q是具有持續(xù)性的重要發(fā)展的方向,G05B、 G08B、 G09G、G16B、G10H、H04L、HO4W可能是未來發(fā)展的方向。醫(yī)學(xué)影像涉及的技術(shù)與數(shù)字化信息化技術(shù)進(jìn)行融合、數(shù)字化信息化技術(shù)之間的融合是當(dāng)前及未來的發(fā)展主題。此外,該領(lǐng)域技術(shù)與語音擴(kuò)音方面的技術(shù)G10L、H04R,信息通信方面技術(shù)G16H、G16B、H04L進(jìn)行融合以及教育相關(guān)的技術(shù)G09B與數(shù)據(jù)方面的技術(shù)G06K的融合可能是未來發(fā)展的趨勢(shì)。
技術(shù)融合可以推動(dòng)技術(shù)創(chuàng)新,對(duì)產(chǎn)業(yè)改革具有潛在影響。技術(shù)融合預(yù)測(cè)是把握技術(shù)發(fā)展趨勢(shì)和方向的關(guān)鍵問題。本研究依據(jù)技術(shù)融合的內(nèi)在機(jī)理提出相似性和技術(shù)特性指標(biāo),重構(gòu)基于機(jī)器學(xué)習(xí)的技術(shù)融合預(yù)測(cè)框架,避免之前框架指標(biāo)體系整體邏輯性不強(qiáng)的局限性。對(duì)技術(shù)融合預(yù)測(cè)及技術(shù)研發(fā)策略具有潛在的推動(dòng)。
面向人民生命健康是國(guó)家堅(jiān)持“四個(gè)面向”戰(zhàn)略方向之一,而醫(yī)學(xué)影像人工智能領(lǐng)域正是人工智能服務(wù)于生命健康在醫(yī)學(xué)領(lǐng)域的垂直融合?;跈C(jī)器學(xué)習(xí)的技術(shù)融合預(yù)測(cè)框架應(yīng)用在醫(yī)學(xué)影像人工智能領(lǐng)域,發(fā)現(xiàn)醫(yī)學(xué)影像所涉技術(shù)與數(shù)字化信息化技術(shù)的融合、數(shù)字化信息化技術(shù)之間的融合是當(dāng)前未來的發(fā)展主題。此外,該領(lǐng)域技術(shù)與語音擴(kuò)音方面的技術(shù)G10L、H04R,信息通信方面技術(shù)G16H、G16B、H04L的融合以及教育相關(guān)的技術(shù)G09B與數(shù)據(jù)方面的技術(shù)G06K的融合可能是未來發(fā)展的趨勢(shì)。
本研究基于專利現(xiàn)有的IPC進(jìn)行分析,無法對(duì)尚未出現(xiàn)的IPC進(jìn)行分析,使技術(shù)融合預(yù)測(cè)的結(jié)果存在一定的局限性;由于醫(yī)學(xué)影像人工智能領(lǐng)域尚處于起步階段,對(duì)該領(lǐng)域的技術(shù)理解有待進(jìn)一步深入,未來應(yīng)加強(qiáng)多源信息的實(shí)證研究。