任佳妮 張 薇 楊 陽 龔 娟 錢 虹
(陜西省科學(xué)技術(shù)情報(bào)研究院 西安 710054)
新興技術(shù)作為技術(shù)創(chuàng)新的重要部分,其識別、跟蹤、預(yù)測和管理一直受到廣泛的關(guān)注?!叭斯ぶ悄?醫(yī)療”作為現(xiàn)代社會最為關(guān)注的話題,兩者的結(jié)合是人工智能與行業(yè)深度融合的重要體現(xiàn)。目前,人工智能被廣泛試點(diǎn)應(yīng)用于醫(yī)學(xué)影像、疾病輔助診斷及治療、新藥研發(fā)、便攜式機(jī)器人、康復(fù)輔助機(jī)器人以及生物醫(yī)學(xué)研究等[1]。其中,以機(jī)器人科技為代表的智能產(chǎn)業(yè)蓬勃興起,醫(yī)療機(jī)器人作為全球機(jī)器人的新興發(fā)展方向,掀起了一股群雄逐鹿的新浪潮。
因此,識別“人工智能+醫(yī)療”新興技術(shù),尤其是醫(yī)療機(jī)器人的新興技術(shù),不僅能夠幫助醫(yī)生在流行病(如“新型冠狀病毒肺炎”)疫情中對患者進(jìn)行無接觸式診療及其他一系列的輔助治療,有效緩解醫(yī)療資源緊張,降低醫(yī)務(wù)人員感染風(fēng)險(xiǎn),推動醫(yī)療產(chǎn)業(yè)信息化發(fā)展;同時(shí),還有助于跟蹤技術(shù)最新發(fā)展動態(tài), 具有較高的理論借鑒價(jià)值及實(shí)踐指導(dǎo)意義。
論文與專利是基礎(chǔ)研究成果和技術(shù)創(chuàng)新成果的兩種不同的表現(xiàn)形式[2]。二者在結(jié)構(gòu)和文字表達(dá)上雖屬于異構(gòu)文獻(xiàn),但如從內(nèi)容上將二者有效整合,形成新的文獻(xiàn)信息,并合并采用定量預(yù)見方法(如文獻(xiàn)計(jì)量、專利分析法、趨勢外推法等),那么,此類分析結(jié)果不僅在全面性和準(zhǔn)確性上比單一文獻(xiàn)源分析更有優(yōu)勢,同時(shí)還能提高技術(shù)預(yù)見的信度和效度。
近年來,很多學(xué)者均利用論文和專利數(shù)據(jù)進(jìn)行新興技術(shù)主題識別的研究。Sheikh NJ等基于文獻(xiàn)計(jì)量學(xué)和專利分析技術(shù),建立基于Fisher-Pry模型的技術(shù)成熟度模型,對生物傳感器在護(hù)理和醫(yī)療物聯(lián)網(wǎng)應(yīng)用中的新興點(diǎn)進(jìn)行了技術(shù)預(yù)見[3]。宋欣娜等以專利數(shù)據(jù)為基礎(chǔ),采用文獻(xiàn)計(jì)量學(xué)和文本挖掘方法對納米載藥系統(tǒng)領(lǐng)域進(jìn)行了新興技術(shù)識別[4]。邱悅文以低熱度專利與論文為研究對象,運(yùn)用LDA模型識別新興技術(shù),并以無人駕駛技術(shù)為例做有效性驗(yàn)證[4]。周源等基于論文和專利,運(yùn)用LDA模型識別機(jī)器人領(lǐng)域的新興技術(shù)[5]。以上新興技術(shù)(主題)識別研究主要圍繞熱點(diǎn)論文、專利高頻關(guān)鍵詞或語義關(guān)鍵詞進(jìn)行分析?;诟哳l關(guān)鍵詞識別新興技術(shù),由于高頻關(guān)鍵詞不能深入反映技術(shù)主體之間的關(guān)聯(lián)關(guān)系,同時(shí)可能會忽視某個(gè)領(lǐng)域中突現(xiàn)的動態(tài)概念和潛在研究問題,就會存在分析不全面情況。基于語義關(guān)鍵詞識別新興技術(shù),雖然比基于高頻關(guān)鍵詞的識別更加具體和細(xì)化,但由于是無監(jiān)督式機(jī)器學(xué)習(xí),在數(shù)據(jù)處理過程中可能存在無法獲取具有顯著特征的主題,導(dǎo)致最終識別結(jié)果可控性較低。
基于以上研究,本文擬將科技論文和專利數(shù)據(jù)相結(jié)合,基于高頻關(guān)鍵詞和語義關(guān)鍵詞雙重分析,輔以專家決策,開展新興技術(shù)識別研究。并以“醫(yī)療機(jī)器人技術(shù)”進(jìn)行實(shí)證研究,來確定方法的可行性。這樣不僅能夠理順未來情景變化導(dǎo)致的技術(shù)路徑變化甚至躍遷,還能對不確定環(huán)境下的新興技術(shù)做到真正的識別[5]。對基礎(chǔ)研究、應(yīng)用研究與專家智慧的深度結(jié)合具有很強(qiáng)的現(xiàn)實(shí)意義。
2.1基于高頻關(guān)鍵詞的技術(shù)主題識別基于Web of Science論文數(shù)據(jù)和Derwent Innovation專利數(shù)據(jù),利用Derwent Data Analyzerr(DDA)、Uncinet等軟件工具,通過高頻關(guān)鍵詞共詞聚類分析,對比科技論文和專利的研究主題,識別技術(shù)主題。
2.2基于語義關(guān)鍵詞的熱點(diǎn)主題識別將所有論文專利的摘要作為一個(gè)樣本,基于論文專利摘要特征提取法(TF-IDF),將文本特征進(jìn)行向量化處理;采用Topic Model的主題建模算法(LDA)和專家咨詢法,提取其語義關(guān)鍵詞及其相關(guān)的高頻詞組;重復(fù)LDA建模過程,直到專家小組判斷已生成的聚類主題得到收斂時(shí),建模過程結(jié)束。最后,通過專家咨詢法,對已提取的語義關(guān)鍵詞識別熱點(diǎn)主題,并將每個(gè)主題中的高頻關(guān)鍵詞組(最多選擇3個(gè))作為該主題的二級方向。
2.3關(guān)鍵核心技術(shù)識別采用德爾菲調(diào)查法將已識別的技術(shù)領(lǐng)域熱點(diǎn)主題(技術(shù)主題)以問卷形式發(fā)送給專家,由專家對每項(xiàng)關(guān)鍵核心技術(shù)及其二級方向進(jìn)行“認(rèn)同”或“不認(rèn)同”的判斷,從而得到最終技術(shù)領(lǐng)域關(guān)鍵核心技術(shù)。
2.4新興技術(shù)識別對比同一個(gè)技術(shù)領(lǐng)域的論文和專利引用率(引用率=引用量/發(fā)表篇數(shù))高低,可判斷基礎(chǔ)研究和技術(shù)應(yīng)用二者的領(lǐng)先水平。若論文引用率較高,則說明理論研究正處于上升階段,原始創(chuàng)新性較強(qiáng),反之理論研究創(chuàng)新性較低;若專利引用率較低,則說明該技術(shù)領(lǐng)域新穎性較強(qiáng),反之則說明技術(shù)突破性較低。計(jì)算已識別的關(guān)鍵核心技術(shù)年度論文和專利引用率,對比年度變化趨勢,識別可能的新興模式,再結(jié)合專家意見,判定該領(lǐng)域的新興技術(shù)是否正確。
3.1數(shù)據(jù)采集及清洗本文分別選擇Web of Science(WOS)和Derwent Innovation(DI)專利數(shù)據(jù)庫作為數(shù)據(jù)源,構(gòu)建以“醫(yī)療機(jī)器人”為主題的檢索式,具體為TAB/TI=(medical* or medicine or surgery or simulation or recovery or medical service or health service or assist or capsule or nano-targeting or nurs* or diagnosis) and (robot * or manipulat *) not TAB/TI = industrial*,檢索年限為2011-2020年(按申請年檢索)。
其中,論文數(shù)據(jù)選取article文獻(xiàn),再結(jié)合WOS學(xué)科的Robotics、Surgery、Nursing、Computer Science、Mechanics等學(xué)科分類進(jìn)行數(shù)據(jù)精煉,最終論文檢索結(jié)果為14 852篇。專利數(shù)據(jù)首先進(jìn)行同族合并,再結(jié)合德溫特手工代碼P33、P41、P42、P43、P61以及P62等,輔以IPC分類號A61、B25以及G05等,最終檢索到13 373篇。
3.2基于高頻關(guān)鍵詞的技術(shù)主題識別
3.2.1 論文主題識別 醫(yī)療機(jī)器人論文高頻主題詞共詞聚類分析結(jié)果主要包含3個(gè)研究熱點(diǎn)主題[6]:主題1#—主要采用醫(yī)療機(jī)器人輔助外科手術(shù),包括前列腺切除術(shù)、膽囊切除術(shù)、腎切除術(shù)、子宮切除術(shù)以及膀胱切除術(shù)等;主題2#—屬于新一代醫(yī)療機(jī)器人的細(xì)分類,具體有穿戴式機(jī)器人、蛇形機(jī)器人以及康復(fù)機(jī)器人等;主題3#—醫(yī)療機(jī)器人動力學(xué)研究,包括路徑規(guī)劃、軌跡追蹤、運(yùn)動建模以及導(dǎo)航等。
3.2.2 專利主題識別 基于專利文獻(xiàn)的高頻關(guān)鍵詞進(jìn)行可視化聚類分析,繪制醫(yī)療機(jī)器人專利地圖,呈現(xiàn)出3個(gè)醫(yī)療機(jī)器人的技術(shù)研發(fā)熱點(diǎn)主題[2]。主題1#—醫(yī)療機(jī)器人技術(shù)應(yīng)用研究,主要內(nèi)容包括肢外骨骼機(jī)器人、輔助康復(fù)機(jī)器人、醫(yī)用導(dǎo)向機(jī)器人、自動煎藥機(jī)器人等;主題2#—醫(yī)用機(jī)器人基礎(chǔ)理論研究,其主要內(nèi)容為X光、醫(yī)療成像系統(tǒng)、環(huán)境不穩(wěn)定下的手術(shù)操作系統(tǒng)、位置方法調(diào)整等;主題3#—醫(yī)療機(jī)器人的動力學(xué)研究,主要內(nèi)容包括機(jī)械臂、運(yùn)動輔助、動力控制、手術(shù)控制系統(tǒng)等。
3.2.3 技術(shù)主題識別 通過對論文和專利研究主題的對比分析,可以發(fā)現(xiàn)二者僅有一個(gè)對應(yīng)的主題:即論文主題3#與專利主題3#對應(yīng),均為醫(yī)療機(jī)器人動力學(xué)研究,不過兩者的具體側(cè)重點(diǎn)略有不同。這也說明,醫(yī)療機(jī)器人動力學(xué)下一階段的發(fā)展重點(diǎn)可能是運(yùn)動機(jī)制、力反饋以及操作驅(qū)動等。同時(shí),也存在4個(gè)技術(shù)機(jī)會。
1)第一類技術(shù)機(jī)會:包括:a. 醫(yī)療機(jī)器人輔助外科手術(shù),含前列腺切除術(shù)、膽囊切除術(shù)、腎切除術(shù)、子宮切除術(shù)以及膀胱切除術(shù)等(論文主題1#);b.新一代醫(yī)療機(jī)器人(穿戴式機(jī)器人、蛇形機(jī)器人以及康復(fù)機(jī)器人等)研究(論文主題2#)。
2)第二類技術(shù)機(jī)會:包括:a. 醫(yī)療機(jī)器人基礎(chǔ)技術(shù)研究,包括X射線、超聲波影像融合、軌跡模型以及云端通訊等(專利主題1#);b. 醫(yī)療機(jī)器人在輔助步行、關(guān)節(jié)置換以及康復(fù)訓(xùn)練等中的應(yīng)用(專利主題2#)。
3.3基于語義關(guān)鍵詞的熱點(diǎn)主題識別
3.3.1 特征提取與分類 醫(yī)療機(jī)器人領(lǐng)域的基礎(chǔ)技術(shù)類別劃分通過德爾菲調(diào)查法、文獻(xiàn)分析法,并結(jié)合專家小組意見[5、7-10],最終確定6大類,28小類,如表1所示。
表1 醫(yī)療機(jī)器人領(lǐng)域基礎(chǔ)技術(shù)類別
3.3.2 基于LDA的語義主題提取 將上述28個(gè)類別中的所有論文專利的摘要作為一個(gè)樣本,基于LDA 主題模型算法進(jìn)行語義主題提取。將之前處理好的“標(biāo)題最佳自然語言處理詞組”作為測試集,設(shè)置四折交叉驗(yàn)證,α=0.005,β=0.1,為了保證K值的科學(xué)性,我們讓K的取值范圍為1~30,設(shè)置最大循環(huán)次數(shù)為300次,得到困惑度隨K的變化趨勢圖(見圖1)。
圖1 LDA主題模型困惑度K值變化趨勢
由圖1所示,當(dāng)K=4,7,9時(shí),困惑度平均值相對較低,為了更準(zhǔn)確區(qū)分論文和專利的研究方向,我們選擇K=9,即當(dāng)topic聚類數(shù)量選取等于9,最符合醫(yī)療機(jī)器人領(lǐng)域研究實(shí)際情況;然后在每個(gè)topic下提取100個(gè)關(guān)鍵詞,由專家結(jié)合關(guān)鍵詞對topic進(jìn)行命名,并劃分成為一個(gè)類別,該類別即為醫(yī)療機(jī)器人的熱點(diǎn)主題的一級方向[9-10]。部分結(jié)果如表2所示。
表2 基于LDA算法識別的醫(yī)療機(jī)器人熱點(diǎn)主題提取結(jié)果
3.3.3 熱點(diǎn)主題識別 熱點(diǎn)主題的一級方向確定后,再在每個(gè)主題下選擇10個(gè)主題詞作為其關(guān)鍵詞;然后,在對應(yīng)一級方向的論文專利數(shù)據(jù)中檢索并提取詞頻大于5的詞組(包含主題詞的詞組);最后,由專家小組選擇出不少于3個(gè)高頻詞組作為該主題的二級方向。表3為最終確定的醫(yī)療機(jī)器人熱點(diǎn)主題清單。
表3 基于LDA算法識別的醫(yī)療機(jī)器人熱點(diǎn)主題
3.4關(guān)鍵核心技術(shù)識別將本文識別出醫(yī)療機(jī)器人的5個(gè)技術(shù)主題和9個(gè)熱點(diǎn)主題,以問卷形式發(fā)送給專家,由專家對每項(xiàng)關(guān)鍵核心技術(shù)及其二級方向進(jìn)行“認(rèn)同”或“不認(rèn)同”的判斷,從而得到最終7項(xiàng)醫(yī)療機(jī)器人關(guān)鍵技術(shù)及其二級方向(見表4)。
表4 醫(yī)療機(jī)器人關(guān)鍵核心技術(shù)
3.5新興技術(shù)識別計(jì)算上述已識別的醫(yī)療機(jī)器人7項(xiàng)關(guān)鍵核心技術(shù)的論文和專利引用率,分析其年度變化趨勢(見圖2),可識別出該領(lǐng)域三類新興模式[5]:
圖2 醫(yī)療機(jī)器人關(guān)鍵技術(shù)論文專利引用率年度趨勢
a.業(yè)態(tài)創(chuàng)新模式。即論文引用率始終高于專利引用率,說明基礎(chǔ)研究積累充分,技術(shù)突破性強(qiáng),具有較強(qiáng)的新穎性,屬于潛在的全新技術(shù)驅(qū)動的新興模式。如關(guān)鍵核心技術(shù)1#、2#、3#、4#、5#、6#等均表現(xiàn)為業(yè)態(tài)創(chuàng)新模式。
b.協(xié)同創(chuàng)新模式。即論文引用率與專利引用率漲跌交替,說明基礎(chǔ)研究與技術(shù)開發(fā)相互促進(jìn),是潛在的多種已有技術(shù)聚合而成的新興模式。如關(guān)鍵核心技術(shù)7#——基于人工智能的機(jī)器人學(xué)習(xí)模型;自21世紀(jì)以來,機(jī)器人輔助醫(yī)療技術(shù)就是國際醫(yī)療機(jī)器人領(lǐng)域研究熱點(diǎn)前沿之一,該技術(shù)與現(xiàn)有人工智能、云計(jì)算等技術(shù)相結(jié)合,日益不斷完善。
c.非新興創(chuàng)新模式。即論文引用率峰值始終低于專利引用率峰值,說明盡管技術(shù)開發(fā)與應(yīng)用在日益進(jìn)步,但科學(xué)研究基礎(chǔ)薄弱,技術(shù)新穎性不足,可能通過后續(xù)的研究和開發(fā)提升或推動該技術(shù)的發(fā)展,屬于漸進(jìn)式技術(shù),而非新興技術(shù)。該類模式在醫(yī)療機(jī)器人領(lǐng)域并未出現(xiàn)。
最終,通過專家小組討論,認(rèn)為識別出的新興模式基本正確。因此,醫(yī)療機(jī)器人新興技術(shù)最終確定為7項(xiàng)。其中護(hù)理機(jī)器人技術(shù)、醫(yī)療機(jī)器人輔助外科手術(shù)、康復(fù)機(jī)器人技術(shù)等屬于業(yè)態(tài)創(chuàng)新模式;基于人工智能的機(jī)器人學(xué)習(xí)模型屬于協(xié)同創(chuàng)新模式。
3.6有效性分析從結(jié)果上看,本文基于2011-2020年醫(yī)療機(jī)器人技術(shù)領(lǐng)域的論文和專利數(shù)據(jù),識別了 7項(xiàng)新興技術(shù)主題21個(gè)新興技術(shù)主題二級方向。從最終識別的主題結(jié)果中可看出“智能生物材料”“深度學(xué)習(xí)”“不確定問題”等新興熱點(diǎn)突現(xiàn)詞并沒有出現(xiàn)在基于高頻關(guān)鍵詞的技術(shù)主題識別結(jié)果中,具有一定的合理性;將子宮、前列腺、膽囊以及膀胱等切除術(shù)統(tǒng)一歸納形成“醫(yī)療機(jī)器人輔助外科手術(shù)”也補(bǔ)充了基于語義關(guān)鍵詞的主題識別不能獲取“具有顯著特征的主題”的短板。在專家小組全程參與下,醫(yī)療機(jī)器人新興技術(shù)主題和二級方向相互支持,能夠更好地解讀其技術(shù)未來發(fā)展方向,克服了由傳統(tǒng)的德爾菲調(diào)查法的主觀偏誤性和專家依賴性帶來的知識固化。最后的結(jié)果表明,基于高頻關(guān)鍵詞和語義關(guān)鍵詞雙重分析提升了識別的精準(zhǔn)度,驗(yàn)證了方法的有效性。
3.7新興技術(shù)主題解讀醫(yī)療機(jī)器人是一個(gè)具有交叉特性的領(lǐng)域,作為新興科技代表,正在成為各國競相投入和角逐的新戰(zhàn)略高地[11]。外科手術(shù)和康復(fù)是醫(yī)療機(jī)器人最為典型的應(yīng)用場景,由于需要與醫(yī)患緊密配合,且作用于人體,醫(yī)療機(jī)器人需要具備較強(qiáng)的感知和認(rèn)知能力;5G通信技術(shù)、虛擬現(xiàn)實(shí)、力反饋技術(shù)等大力發(fā)展,為醫(yī)療機(jī)器人遠(yuǎn)程操作提供了更好的支撐[11]。2020年,國際頂級學(xué)術(shù)期刊《Nature》將醫(yī)療機(jī)器人結(jié)構(gòu)的靈活性、人機(jī)交互技術(shù)的高效性以及遠(yuǎn)程操作技術(shù)列為未來產(chǎn)業(yè)發(fā)展重點(diǎn)[11]。上海交通大學(xué)醫(yī)療機(jī)器人研究院院長楊廣中認(rèn)為:推動中國機(jī)器人研究發(fā)展的主要因素包括醫(yī)學(xué)影像、人工智能以及新的機(jī)器人制造材料[13]。加州斯坦福人工智能機(jī)器人實(shí)驗(yàn)室李耀博士稱醫(yī)療機(jī)器人在護(hù)理、身體康復(fù)以及輔助外科手術(shù)應(yīng)用擁有特別優(yōu)先權(quán)[14]。由此可見,業(yè)界的分析與本研究識別的醫(yī)療機(jī)器人新興技術(shù)基本保持一致,說明基于高頻關(guān)鍵詞和語義關(guān)鍵詞雙重分析的新興技術(shù)識別方法的有效性。
為避免單純基于高頻關(guān)鍵詞忽視突現(xiàn)的動態(tài)概念和潛在研究問題,或單純基于語義關(guān)鍵詞可能無法獲取具有顯著特征主題的問題,本文提出一種基于高頻關(guān)鍵詞和語義關(guān)鍵詞雙重分析與專家小組決策相結(jié)合的方法,識別“人工智能+醫(yī)療”領(lǐng)域的關(guān)鍵核心技術(shù);再通過引入論文專利引用率,識別關(guān)鍵核心技術(shù)可能的新興模式,結(jié)合專家意見,判定該領(lǐng)域的新興技術(shù)。作為實(shí)證研究,醫(yī)療機(jī)器人新興技術(shù)的識別證明了該識別方法的可行性和有效性。
據(jù)國際機(jī)器人聯(lián)盟(IFR)統(tǒng)計(jì)數(shù)據(jù),預(yù)計(jì)到2025年,我國智能醫(yī)療機(jī)器人市場規(guī)模將突破百億元[15]。面對這一片“藍(lán)?!保绕涫?G時(shí)代的到來,無疑是給“人工智能+醫(yī)療”打了一劑強(qiáng)心針,醫(yī)療機(jī)器人商業(yè)化、市場化的步伐將不斷加快,隨之而來的將是一場新的醫(yī)療技術(shù)革命!本文在對醫(yī)療機(jī)器人技術(shù)領(lǐng)域的論文和專利等進(jìn)行數(shù)據(jù)挖掘的同時(shí),還識別出多項(xiàng)醫(yī)療機(jī)器人領(lǐng)域未來技術(shù)機(jī)會和熱點(diǎn)主題,能夠?yàn)槲覈t(yī)療機(jī)器人企業(yè)技術(shù)研發(fā)及政府產(chǎn)業(yè)政策的制定提供借鑒。我們應(yīng)抓住這一大好機(jī)遇,加強(qiáng)產(chǎn)業(yè)規(guī)劃部署,補(bǔ)齊關(guān)鍵技術(shù)短板,最終掀開我國“人工智能+醫(yī)療”的新篇章!