徐璐璐 楊嘉樂 康樂樂
(1.南通大學圖書館,江蘇 南通 226019;2.南京大學信息管理學院,江蘇 南京 210023; 3.江蘇省數(shù)據(jù)工程與知識服務重點實驗室,江蘇 南京 210023; 4.南通大學信息科學技術學院,江蘇 南通 226019)
醫(yī)學信息是面向基礎和臨床醫(yī)學為基礎,融合計算機技術智能化應用為代表的一門新興交叉學科。其中的智能化釋義:事物在網(wǎng)絡、大數(shù)據(jù)、物聯(lián)網(wǎng)等人工智能技術支持下,具有能動滿足人各種需求的屬性,推進現(xiàn)代人類文明深度和廣度不斷發(fā)展的拓展趨勢。人工智能(Artificial Intelligence)是研究、開發(fā)用于模擬、延伸和擴展人類智能的理論、方法、技術及應用系統(tǒng)的一門新興技術科學,也已成為推動國家持續(xù)發(fā)展的主要動力,各國(地區(qū))紛紛啟動人工智能戰(zhàn)略規(guī)劃,旨在提升國家層面技術創(chuàng)新能力,擴大本國(地區(qū))與其他國家(地區(qū))之間的差異。。
1956年,達特茅斯大學一次會議上,學者們正式提出“人工智能”一詞,邁出研究機器如何模擬人類智能活動新課題的第一步。隨后,人工智能不斷滲透教育、醫(yī)療等各個領域,不斷刷新人們的想象。自21世紀,人工智能的5個標志性事件相繼發(fā)生:2004年,美國國防部高等研究計劃署舉辦DARPA機器人挑戰(zhàn)賽;2008年,IBM提出“智慧地球”的概念;2012年,深度學習在圖像和語音方面產(chǎn)生重大突破,人工智能真正具備走出實驗室步入市場的能力;2016年,Google DeepMind開發(fā)人工智能程序“AlphaGo”與圍棋冠軍對決戰(zhàn)勝,引起全世界對人工智能的聚焦目光;2020年,生物界“AlphaGo”精準預測蛋白質(zhì)結構,解決生物學50年來重大挑戰(zhàn),成為顯著推動醫(yī)學信息領域的重大進步[1-6]。
在此時代潮流下,人工智能一步一步地融入了醫(yī)學信息的各個層面。歐美成為醫(yī)學信息智能化業(yè)界研發(fā)應用領跑者,NIH投資320億美元進行醫(yī)學信息智能化改造;英國10年投入60億英鎊,建設5個區(qū)域、300多家醫(yī)院和診所的國家信息化工程[7-8];立足國內(nèi),宏觀政策層面,2016年國家連續(xù)出臺《“健康中國2030”規(guī)劃綱要》《“十三五”全國人口健康信息化發(fā)展規(guī)劃》《關于促進“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的指導意見》等[9]。
值得注意的是,醫(yī)學信息也隨著人工智能高技術、高門檻、高附加值的顯著特征發(fā)生了深刻變革。這些變革主要體現(xiàn)在:一方面,人工智能與醫(yī)學信息相關產(chǎn)業(yè)、政府和社會相互協(xié)同并交互升級,創(chuàng)造出新興的醫(yī)學生態(tài)系統(tǒng),服務于更為復雜的基因組、細胞學等基礎科研和疾病的診斷、治療及并發(fā)癥等臨床醫(yī)療的現(xiàn)實場景之中;另一方面,由于精準醫(yī)學范式引領和需求不斷擴大,醫(yī)學信息越發(fā)依賴于人工智能的各類優(yōu)化算法和模型,不斷改變醫(yī)生的工作模式,提高醫(yī)學領域的準確性和效率,創(chuàng)新醫(yī)療服務高品質(zhì)發(fā)展,助力醫(yī)學信息領域各個環(huán)節(jié)。
綜上所述,人工智能在醫(yī)學信息領域多年來一直扮演著極其重要的角色。21世紀以來,人工智能如何分階段地步入醫(yī)學信息領域,主題漂移內(nèi)容和呈現(xiàn)有何特征和區(qū)別,人工智能在醫(yī)學信息領域的演化脈絡又如何對于人工智能在醫(yī)學信息領域的未來有何展望呢。本研究以2000—2019年20年間的醫(yī)學信息發(fā)展為背景,以人工智能標志性事件為階段,觀察醫(yī)學信息領域中人工智能技術的整體布局,通過3種深度學習的方法對醫(yī)學信息領域中人工智能技術進行命名實體識別,并對其進行詞頻對比統(tǒng)計并深度分析,實現(xiàn)人工智能技術命名實體識別的較優(yōu)效果。從而深入厘清人工智能技術在醫(yī)學信息領域的主題漂移特征和規(guī)律、重要發(fā)展趨勢及演化軌跡,并提出3點未來可行性建議以做參考,更可為人工智能技術在其他領域?qū)嶓w識別及其如何發(fā)展變遷提供有價值、有意義的科學探討和研究借鑒。
進入20世紀,煥發(fā)活力的人工智能作為一種高效的技術工具,從獲取處理基礎的基因數(shù)據(jù),到調(diào)控識別各類蛋白質(zhì)等網(wǎng)絡通路,再到面對復雜臨床疾病、文本圖像識別及藥物篩選等,不斷將先進文明的科幻與現(xiàn)實場景加速融合,勢在必行地推動人類進入新時代,為醫(yī)學信息相關領域的重大突破做出了巨大貢獻。2004年,國際人類基因組測序組織(IHGSC)在《Nature》上發(fā)表一文描述人工智能如何利用強大潛能,建立一個新系統(tǒng)處理大量數(shù)據(jù)和臨床相關解釋,從最初的核心項目200個全人類基因組測序(WHGS)項目,擴展到了750個WHG,幫助人類基因組計劃走出困境[10]。隨后,Pr?ulj N等和Fortney K等利用人工智能在醫(yī)學信息領域進行更豐富、更可行的操作,他們將數(shù)據(jù)信息與各類網(wǎng)絡(蛋白質(zhì)相互作用網(wǎng)絡、轉(zhuǎn)錄調(diào)控網(wǎng)絡、microRNA基因網(wǎng)絡、代謝和信號通路)整合在一起,識別數(shù)據(jù)孤島之間的關系,使用圖論算法或知識工具進一步分析和深入了解這些數(shù)據(jù)與網(wǎng)絡結構,進而表征這些蛋白質(zhì)、轉(zhuǎn)錄因子和microRNA的功能,最大限度地提高對轉(zhuǎn)化研究的影響,實現(xiàn)更準確和可解釋的建模,增加對復雜疾病的理解,最終支持P4(精準、個性化、參與式、預防性)醫(yī)學[11-12]。2011年,IBM研究人員利用名為沃森(Watson)的開放智能問答系統(tǒng)來參加比賽,達到了一個具有象征意義的里程碑,即可以梳理電子病歷和醫(yī)學文獻(如期刊),為人類疾病做出臨床決策,并最終戰(zhàn)勝了排名最高的兩名人類選手,獲得了勝利[13]。2013年,Abràmoff M D等利用Messidor數(shù)據(jù)庫對患者識別眼底虹膜等結構,通過人工智能的計算機檢測程序診斷糖尿病視網(wǎng)膜病變(RDR)相關信息,其準確性與專家閱讀器的診斷準確性相當[14]。隨著模式識別工具數(shù)量和數(shù)據(jù)集大小的增加,人工智能在醫(yī)學圖像相關領域的分析呈指數(shù)級增長,2016年,Gillies R J等通過分析復雜系統(tǒng)內(nèi)生理參數(shù)、實驗室和影像數(shù)據(jù),將圖像轉(zhuǎn)換為可挖掘的數(shù)據(jù),并隨后對這些數(shù)據(jù)進行分析以提供決策支持,推動智能在線問診及預測疾病等,支撐各類醫(yī)學信息及相關研究得以正常運行[15]。2020年,Stokes J M等在《Cell》發(fā)文中基于深度神經(jīng)網(wǎng)絡模型引導的人工智能建模先進方法,從龐大的化學文庫中預測新的候選抗生素,從而開始有機會影響藥物發(fā)現(xiàn)的全新范式,擴展對于抗生素庫的效用[16]。
基于上述文獻回顧可見,人工智能所驅(qū)動的相關技術正迅速演化為適用于醫(yī)學信息領域中精準和高效的解決方案,越來越多地引起學術界的重點關注和聚焦。但是,人工智能在醫(yī)學信息領域的學術研究仍主要集中于國外文獻,且針對某個具體領域逐一地進行探討,國內(nèi)文獻也相對較少。特別是,鮮有研究能夠較為全面地追溯人工智能在醫(yī)學信息領域的主題漂移,系統(tǒng)探討其不同的主題特征,并通過時間維度來展示這些人工智能方法在醫(yī)學信息的發(fā)展脈絡。因此,很有必要重點聚焦與人類生存和發(fā)展密切相關的醫(yī)學信息領域,著力關注人工智能作為一種“賦能”強大引力,如何不斷碰撞、融合、騰飛發(fā)展甚至重構醫(yī)學信息的外延和內(nèi)涵,促使醫(yī)學信息在臨床和科研工作中愈加發(fā)揮不可估量作用。
針對所提出的研究問題,本文首先采集了醫(yī)學信息學相關的學術論文。使用論文而非專利的主要原因是,論文更具有前沿性,往往引領著技術發(fā)展。通過分析學術論文,更能夠把握人工智能技術的發(fā)展趨勢;其次,通過對論文數(shù)據(jù)利用VosViwer進行分析,判斷該領域人工智能技術發(fā)展的時間脈絡;最后,使用命名實體相關方法進行主題漂移研究,從細粒度上分析醫(yī)學信息學領域具體人工智能技術的發(fā)展和應用。
首先,本文依據(jù)2020年4月30日科睿唯安Journal Citation Reports(JCR)分區(qū)中Medical Informetrics類目,確定26本Medical Informetrics英文期刊并獲取2000—2019年全部文獻題錄信息。然后,借助上述2000年、2004年、2008年、2012年、2016年人工智能標志性事件,按照5個時間段全部題錄數(shù)據(jù),進行數(shù)據(jù)清洗,利用VosViewer可視化觀察人工智能技術在醫(yī)學信息領域的分布,接著對其進行BIO文本標注,再通過BERT對文本數(shù)據(jù)預處理,再由CRF、Bi LSTM-CRF和基于Attention的Bi LSTM-CRF 3種深度學習的命名實體方法[17-22],經(jīng)五折交叉實驗對訓練集和測試集來訓練并識別醫(yī)學信息領域人工智能技術相關詞匯,從而最終對人工智能技術在醫(yī)學信息領域如何應用和發(fā)展,探討和挖掘相應的主題漂移和演化脈絡。整體研究思路和框架流程如圖1所示。
圖1 研究思路和框架流程
本文采用Guitub人工智能等合計782個關鍵詞構建本研究的標注詞典,詞典對數(shù)據(jù)集進行自動BIO標注,標記序列(“B:開始”,“I:內(nèi)部”,“O:外部”的縮寫)是一種對給定句子中的單元做序列標注的方式,即從給定句子中抽取連續(xù)字/詞塊構成有意義短語,提取類似于命名實體識別經(jīng)典問題。并且,設計Python程序,利用標注詞典對數(shù)據(jù)集進行自動標注,其中80%訓練,20%驗證,以人工方式對標注語料進行審核,按照該語料標注方法,構建醫(yī)學信息領域涉及人工智能技術與方法語料庫。
基于上述剔除英文字母、亂碼句段、特殊字符、統(tǒng)一標點符號等,得到人工智能技術相關內(nèi)容有效文本集含40 124條句子,26 052 241個字符,后本文進行3種深度學習的命名實體識別實驗,對有效文本集進行BIO文本標注,后通過BERT對文本數(shù)據(jù)進行預處理,最后由3種CRF、Bi LSTM-CRF和基于Attention的Bi LSTM-CRF 3種命名實體識別醫(yī)學信息領域人工智能技術相關詞匯,核心步驟和框架流程如圖2所示。
圖2 醫(yī)學信息領域人工智能技術命名實體核心步驟和流程
2.2.1 BERT預訓練
任何模型的訓練和預測都需要有一個明確的輸入,利用語言模型將文本表示為可以被計算機識別的輸入是進行命名實體識別重要一步。2018年,提出BERT(Bidirectional Encoder Representation from Transformers),作為Word2Vec替代者,通過雙向Transformer的Encoder,捕捉更長距離的依賴,含有詞的向量(Token Embeddings)、語句分塊張量(Segmentation Embeddings)、位置編碼張量(Position Embeddings),將上述3個向量直接做加和形成最終的Embedding向量,在NLP測試中創(chuàng)造了當時的最佳成績[23-24],如圖3所示。
圖3 基于BERT的文本向量化表示的示意圖
2.2.2 Bi LSTM
模塊長短時記憶網(wǎng)絡(LSTM)是一種特殊的循環(huán)網(wǎng)絡(RNN)模型,克服傳統(tǒng)RNN模型由于序列過長而產(chǎn)生的梯度彌散問題[25-26],通過特殊設計的門結構使得模型可有選擇地保存上下文信息,具有適合命名實體識別的特點,其網(wǎng)絡的主要結構可以形式化地表示為:
it=σ(wixxt+wihht-1+bi)
(1)
ft=σ(wfxxt+wfhht-1+bf)
ot=σ(woxxt+wohht-1+bo)
ht=ot?g(ct)
其中w代表各個權重矩陣,wix是輸入門到輸出的權重矩陣,b代表偏置向量,bi是輸入門的偏置向量,σ是Sigmoid函數(shù),i、f、o、c分別代表輸入門、忘記s門、輸出門以及Cell狀態(tài)更新向量,?代表點乘,g、h分別為Cell的輸入、輸出激活函數(shù),通常為tanh。
由于單向LSTM模型無法同時處理上下文信息,Graves A等提出Bi LSTM(Bidirectional Long-Short Term Memory,雙向長短期記憶網(wǎng)絡),對于每一個時刻而言都對應著前向與后向的信息,對每個句子分別采用順序(從第一個詞開始,從左往右遞歸)和逆序(從最后一個詞開始,從右向左遞歸)計算得到兩套不同隱層的表示,然后通過向量拼接得到最終的隱層表示[27-28],其中輸出ht表示t時刻的輸出,具體結構如圖4所示。
圖4 LSTM和Bi LSTM神經(jīng)網(wǎng)絡的結構圖
2.2.3 線性CRF模塊
命名實體識別任務中,Bi LSTM善于處理長距離的文本信息,但無法處理相鄰標簽之間的依賴關系。CRF能通過鄰近標簽的關系獲得一個最優(yōu)的預測序列,可以彌補Bi LSTM的缺點[29],故本文進一步將CRF融合到Bi LSTM模塊中,對Bi LSTM輸出進行處理,獲得全局最優(yōu)的標記序列。對于任一個序列X,在此假定P是Bi LSTM的輸出得分矩陣,P的大小為n*k,其中n為詞的個數(shù),k為標簽個數(shù),Pij表示第i個詞的第j個標簽的分數(shù)。對預測序列Y(y1,y2,…,yn)而言,得到它的分數(shù)函數(shù)為:
(2)
式中,矩陣A是轉(zhuǎn)移矩陣,例如:Aij表示由標簽i轉(zhuǎn)移到j的概率,y0、yn則是預測句子起始和結束的標記,A是一個大小為k+2的方陣。所以在原序列X的條件下產(chǎn)生標記序列y的概率為:
(3)
(4)
其中,YX表示所有可能的標記集合,包括不符合BIO標記規(guī)則的標記序列。通過式(4)得到有效合理的輸出序列。預測時,由式(5)輸出整體概率最大的一組序列:
(5)
2.2.4 Attention機制
2014年,Bahdanau D等在論文中第一次提出把Attention機制應用到神經(jīng)網(wǎng)絡機器翻譯上[30],其通過模仿人類注意力而提出一種解決問題的辦法,從大量信息中快速篩選出高價值信息,保留LSTM的中間結果,用新的模型對其進行學習,并將其與輸出進行關聯(lián),從而達到信息篩選的目的。在Bi LSTM層之后添加Attention層,用矩陣T來計算當前目標字與輸入文本中所有字的相似性。注意力權重系數(shù)tj(矩陣T的第t行第j列)表示第t個目標輸出與第j個輸入的相似性,tj值越大,表示在生成第t個輸出的時候受第j個輸入的影響也就越大,計算如下:
(6)
(7)
stj被定義為括號中的兩種形式,分別表示為歐式距離,為b-a的值,當xt和xj越相似的時候,余弦距離的值會越大,相反,歐式距離值會越小。
(8)
用一個全局變量ut表示解碼階段的第t時間序列,hj為Bi LSTM層的輸出編碼的權重之和,如下:
zt=tanh(wu[ut;ht])
(9)
將全局變量ut與Bi LSTM層的輸出ht合并成一個向量[ut;ht],再將其喂給一個tanh函數(shù)作為Attention層的輸出。
在Attention層之后用一個tanh層預測神經(jīng)網(wǎng)絡輸出的標簽得分:
在超聲的引導下,甲狀腺結節(jié)粗針穿刺活檢能夠準確的診斷出結節(jié)的良性與惡性,且因粗針穿刺組織取樣足,檢測成功率高,對甲狀腺CNB的診斷精準性高,并發(fā)癥的發(fā)生率低,值得大力推廣。與細針穿刺相比,粗針活檢取出的組織充足,在病理分析的難度上明顯低于細針的細胞學分析,更易于在基層醫(yī)院開展。
et=tanh(wezt)
(10)
總之,自底向上:①長度為N的輸入序列將獲得的3種不同的向量表示,分別為:Token Embeddings表示詞的向量;Segment Embeddings表示輔助BERT區(qū)別句子對中的兩個句子的向量;Position Embeddings讓BERT學習到輸入的順序?qū)傩?;②利用Bi LSTM獲取每個詞長距離的上下文特征;③CRF層考慮單詞標簽之間的制約關系,加入標簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標注序列;④最后引入Attention模型對Bi-LSTM層輸入與輸出之間的相關性進行重要度計算,根據(jù)重要度獲取文本整體特征,有助于取得更好的性能指標。
本文依據(jù)上述科睿唯安JCR分區(qū)中Medical Informetrics類目中確定26本相應英文期刊并獲取2000—2019年全部文獻題錄信息,將21世紀以來的20年數(shù)據(jù)劃分5個時間段(2000年、2004年、2008年、2012年、2016年人工智能標志性事件),并利用VosViewer軟件提取共現(xiàn)關鍵詞清晰可見:2000—2003年model、models、meta-analysis、longitudinal data等;2004—2007 年model、models、logistic regression、longitudinal data等;2008—2011年model、models、algorithm、clustering等;2012—2015年model、models、regression、networks等;2016—2019年 model、models、machine learning、automatic detection等。20年來,醫(yī)學信息領域人工智能技術的發(fā)展大致圍繞模型、算法與聚類分析(model、algorithm、clustering),臨床前期研究(meta-analysis),臨床實驗和數(shù)據(jù)管理(clinical trail、longitudinal data、networks),機器學習和自動化技術(machine learning、automatic detection),大規(guī)模流行病預測(prediction)等方面,可視化結果顯示人工智能技術明顯簇擁于虛線區(qū)域并在醫(yī)學信息領域持續(xù)占據(jù)重要地位,具體如圖5所示。
圖5 2000—2019年5個時間段醫(yī)學信息領域關鍵詞的總體分布占比
本文中醫(yī)學信息人工智能技術語料處理利用Python程序存儲Google云端硬盤,采用計算平臺為Google Colaboratory,提供免費云端Jupyter Notebook環(huán)境,支持Python 3.8運行,使用GPU便于硬件加速,實驗平臺參數(shù)Tesla K80,NVIDA驅(qū)動版本418.67,CUDA版本10.10,顯存11.00GB。字符向量化由Google BERT訓練得到,通過多輪測試,語言模型及序列標注模型參數(shù)設置暫定為表1所示。編寫Python程序調(diào)用Kashgari開源框架中的BERT-Base Uncased_L-12_H-768_A-1模型進行Bi LSTM、Bi LSTM—CRF和基于Attention機制Bi LSTM—CRF的3種實驗方法。
表1 3種深度學習模型的參數(shù)
3.3.1 3種命名實體結果對比
在這項研究中,對于所抽取出來醫(yī)學信息人工智能技術的實體知識,本文主要采用準確率(Precision,P)、召回率(Recall,R)、F1值(F-Measure)這3個指標進行判定Bi LSTM、Bi LSTM-CRF和基于Attetion機制Bi LSTM-CRF 3種模型性能。使用F1值評分來評估模型的性能,同時考慮精度和召回率。將實驗語料按照4∶1比例劃分出訓練集和測試集。采用五折交叉驗證的方法,每次實驗隨機選擇其中4份進行訓練,余下1份進行測試,對5次實驗的結果求平均值,結果如表2所示,具體計算公式如下:
表2 醫(yī)學信息領域人工智能技術的3種命名實體實驗結果
(11)
(12)
(13)
從表2可以看出,本研究在不使用任何人工特征的情況下,基于BERT模型為輸入的深度學習模型在醫(yī)學信息領域中人工智能的實體識別任務上,避免傳統(tǒng)機器學習方法導致系統(tǒng)成本提升、泛化能力下降的不良后果,獲得了比使用大量豐富特征和領域知識的淺層機器學習方法相對理想的性能結果。特別是,后兩種深度學習模型相對更為優(yōu)化,得益于雙向長短時記憶網(wǎng)絡擁有兩個相反方向的并行層特征,能夠同時考慮上下文信息。第二種模型Bi LSTM-CRF的準確率均值提高到89.04%,召回率均值提高到75.60%,F(xiàn)1值均值提高到81.61%;第三種模型Bi LSTM-CRF-Attention的性能整體上更優(yōu),準確率提高到89.08%,召回率提高到88.13%,F(xiàn)1值提高到88.40%。
尤其是第三種模型,不再僅以簡單詞向量,使用BERT語言模型通過3部分Embedding求和組成來對文本進行特征訓練取得更好輸入,利用Bi LSTM提取上下文信息,避免喪失連接到遠處信息的能力,同時結合CRF模型提取全局最優(yōu)序列,繼而通過Attention機制,提煉那些比較重要的單詞,賦予權重以提高他們的重要性,處理文本分類的相關問題具有較好的效果,該方法可以聚焦到最重要的詞,從而捕獲到句子中最重要的語義信息。在一定程度上,說明集成了鏈式CRF模型后,能夠充分利用相鄰標簽之間的關系特征,考慮上下文的關系,并利用Attention機制本質(zhì)加權求和,從而比較穩(wěn)定地提高了整個序列化標注的性能,最終識別醫(yī)學信息領域人工智能技術相關命名實體,從而為進一步準確地分析醫(yī)學信息領域中人工智能技術的主題漂移不同特征和發(fā)展脈絡提供重大幫助。
3.3.2 主題漂移的結果分析
基于命名實體識別結果,本文把20年來在醫(yī)學信息領域的人工智能相關技術進行詞頻統(tǒng)計,用于探索與尋找在5個時間階段中人工智能在醫(yī)學信息領域的主題漂移特征規(guī)律和演化軌跡。
1)人工智能的主題漂移軌跡主流相對穩(wěn)固——高、中頻關鍵詞
通過詞頻統(tǒng)計發(fā)現(xiàn),高頻次(1~5)排名前3位的一直集中是回歸(Regression)、分布(Distribution)和計算程式(Algorithm),即醫(yī)學信息領域涉及的人工智能方面的主要技術較為穩(wěn)定,改變并不明顯。中頻詞(6~10)選取有特征性,如:精確(Precision)、干預(Inference)、假定(Hypothesis)、聚類(Clustering)、零散值(Odd)、ROC曲線、準確性(Exact)等,總體也相對集中穩(wěn)定,且變化不大,代表性舉例結果如表3所示。
表3 具有代表性意義醫(yī)學信息領域人工智能技術的高、中、低頻詞
由此可見,自21世紀以來的20年,人工智能在醫(yī)學信息領域歷經(jīng)多年的碰撞和磨合,高頻詞較為集中地圍繞在運用各種簡單回歸(Regression)等模型,同時中頻詞也相對穩(wěn)定地使用聚類、假設等算法。同時,這些持續(xù)占比較重的高、中頻詞,正是相對比較傳統(tǒng)型的人工智能技術,20年來一直持久并深入地應用于醫(yī)學信息領域的各個方面,相對固定且變化并不明顯。也就是說,人工智能的主題漂移軌跡主流呈現(xiàn)出尚缺乏帶動性、爆發(fā)性的超級應用融入基礎和臨床醫(yī)療領域,整體技術和研究流程依舊保持成熟穩(wěn)固的風格,進入比較理性和務實的主題狀態(tài)。
2)人工智能的主題漂移軌跡分支確有變化——低頻關鍵詞
基于上述高、中頻詞的觀察和分析可見,醫(yī)學信息領域人工智能的主題漂移軌跡主流集中于基礎性相關技術,整體進入相對理性和務實狀態(tài)。進一步基于5個時間段進行命名實體識別訓練,并對醫(yī)學信息領域人工智能技術低頻詞進行詞頻統(tǒng)計(11~15),卻呈現(xiàn)不同的結果:2000—2003年離群值(Outlier)、機器學習之則化(Regularization)、多元線性回歸模型(MLR)、向量子空間(Subspace);2004—2007年多元線性回歸模型(MLR)、深度神經(jīng)網(wǎng)絡(DNN)、學習向量量化(LVQ);2008—2011年深度神經(jīng)網(wǎng)絡(DNN)、隨時間反向傳播(BPTT)、BERT模型及微調(diào)(Fine-tuning);2012—2015年最大期望(Expectation-Maximization)算法、標準化(Normalization)算法;2016—2019年最大似然法(Log-likelihood)、邊緣化算法(Marginalization)、條件隨機場模型(CRF),詳見表3結果。
由此可見,低頻詞變化從多元線性回歸模型,到深度神經(jīng)網(wǎng)絡、學習向量量化,再到各種標準化算法、邊緣化算法、BERT模型等,人工智能技術在醫(yī)學信息領域明顯表現(xiàn)出由機器學習過度較為復雜深度學習的主題漂移分支特征。由于人工智能中具有難度的深度學習等相關技術尚未能高頻、全面使用,故對于其在醫(yī)學信息領域可能產(chǎn)生突破性的成果依然存有大量空間且尚需努力。因此,本文繼續(xù)對于低頻詞的典型性事例從主題、對象、方法、技術、目的和效果歸納如表4所示。
表4 人工智能技術在醫(yī)學信息領域低頻詞的典型性事例
表4(續(xù))
3)主題漂移部分呈現(xiàn)直覺→支持→策略→后推理→前推理發(fā)展趨勢
通過上述人工智能技術的低頻詞典型性舉例的變化,清晰可見其由淺入深地融入醫(yī)學信息相關領域之主題漂移的部分發(fā)展趨勢:①從選取動物進行實驗,早期運用回歸模型處理簡單事實的經(jīng)驗知識,生成簡單的規(guī)則,得出某種醫(yī)學結論;②逐漸發(fā)展為面對多個及特殊問題,通過對病患至少兩種以上的數(shù)據(jù)進行分析,為醫(yī)生給出相對準確的診斷建議;③充分利用數(shù)據(jù),利用各種回歸模型,對誤差進行分析,處理復雜問題,讓醫(yī)生再結合自己的專業(yè)進行判斷,使診斷更快、更精準;④基于已經(jīng)掌握的數(shù)據(jù)和事實,運用標準化算法不斷地將各類信息進行多次加工整理,前推理地形成相應的醫(yī)學知識,進行分類、分析關聯(lián)關系,實時輔助醫(yī)生醫(yī)療決策;⑤在數(shù)字健康時代,當事實于結果并無確定關系,利用文本數(shù)據(jù)、各種數(shù)據(jù)庫等多元性的數(shù)據(jù),為醫(yī)學知識注入卷積神經(jīng)網(wǎng)絡,借助人工智能里邊緣性的多源算法,為醫(yī)生提供可信度較高的后推理,進行各種健康管理,提高生活質(zhì)量,延伸至精準醫(yī)療。
情報學領域經(jīng)典理論是由事實(Facts)→數(shù)據(jù)(Data)→信息(Information)→知識(Knowledge)→智能(Intelligence)5個鏈環(huán)構成的信息鏈,即它是以信息為中心環(huán)節(jié),描述信息運動的一種邏輯構造。而上述醫(yī)學信息領域中人工智能技術低頻詞的發(fā)展規(guī)律部分呈現(xiàn),直覺(經(jīng)驗發(fā)掘)→支持(深入理解)→策略(強化分析)→后推理(支撐決策)→前推理(提前預測),清晰可見其主題漂移的演化脈絡,這與情報學領域經(jīng)典理論“信息鏈”的完整邏輯鏈不謀而合[31]。也就是說,人工智能相關技術通過直覺感受可感事實信息→自動理解數(shù)據(jù)并接收認知信息→系統(tǒng)化、有邏輯地、有策略地分析既可感又可知信息→基于各種客觀信息的升華后做出決策→智能掌握分析海量數(shù)據(jù)并傳遞信息提前預測,逐步發(fā)揮不可替代的重要作用,覆蓋診前、中、后全流程,極大促進醫(yī)學信息及相關領域的成熟,步步助力精準醫(yī)學的飛躍頂端,如圖6所示。
圖6 人工智能技術在醫(yī)學信息領域中主題漂移的部分發(fā)展趨勢
綜上所述,基于5個人工智能在醫(yī)學信息領域具有不同主題漂移特征和演化趨勢。一是,高、中和低頻詞基本集中于較為傳統(tǒng)型的人工智能技術,低頻詞分階段涉及不同類型的深度學習等較為復雜性人工智能技術;二是,高頻詞變化小,最為穩(wěn)固,中頻詞整體相對穩(wěn)固,低頻詞隨著不同階段確有一定程度改變;三是,人工智能在醫(yī)學信息領域中主題漂移的演化脈絡呈現(xiàn)總體相對穩(wěn)固尚未能發(fā)生顛覆性的變革,但部分呈現(xiàn)直覺(經(jīng)驗發(fā)掘)→支持(深入理解)→策略(強化分析)→后推理(支撐決策)→前推理(提前預測)的發(fā)展趨勢。
由此可見,目前醫(yī)學信息領域中人工智能尚處于弱人工智能時代,尚未完全具備溝通、引領、創(chuàng)新及突破的承載功能。未來,期望通過人工智能技術來挖掘醫(yī)學信息領域強大內(nèi)在功能和多樣異質(zhì)特征,以最新研究技術和方法推動其進步與發(fā)展,有望將醫(yī)學傳統(tǒng)疾病檢測、診斷和治療轉(zhuǎn)變拓展為以數(shù)據(jù)為導向、面向技術的學科引領與創(chuàng)新,取得與人類智能相媲美的成就。因此,根據(jù)上述人工智能在醫(yī)學信息領域主題漂移主流和分支不同特征和演化脈絡,現(xiàn)有3點展望和建議,以供參考和驗證。
在技術層面上,全面系統(tǒng)地學習人工智能各類方法,將傳統(tǒng)型的技術更好地發(fā)揮和應用于醫(yī)學信息領域。AlphaGo最主要研發(fā)人員David Silver博士曾經(jīng)表示:強化學習+深度學習=人工智能。基于學習充分理解人工智能現(xiàn)狀優(yōu)勢和潛在局限,將狹義人工智能通過“學習如何學習”,把人工智能傳統(tǒng)型的技術優(yōu)化為更具有廣泛價值及通用人工智能,繼而對其進行有效選擇,通過單個項目到多任務地實戰(zhàn)演練和掌握處理復雜性和多樣性的醫(yī)學數(shù)據(jù)。一步步深刻理解人工智能全方位的特殊性質(zhì),不斷強化學習和自我對弈來提升人工智能的傳統(tǒng)技術,更好理解其優(yōu)、缺點,才能構建豐富的醫(yī)學領域知識庫,合理利用、分類選擇、預測結果,獲取更公平、更少偏見的決策。也只有這樣,才能從根本上利用人工智能中傳統(tǒng)型技術更好地處理醫(yī)學信息領域復雜問題和任務。產(chǎn)生令人印象深刻的翻天覆地的變化及突破,從而打開通向卓越醫(yī)療保健的有效途徑。
在應用層面上,不斷開發(fā)具有復雜性的人工智能技術,將其更精準地應用于醫(yī)學信息領域。由于醫(yī)學信息數(shù)據(jù)可分為大量結構化數(shù)據(jù)(例如,國際疾病分類代碼、實驗室結果和藥物),非結構化數(shù)據(jù)(醫(yī)師筆記、大多數(shù)記錄的數(shù)據(jù)),以及各類數(shù)據(jù)的產(chǎn)生真實世界證據(jù)(關于醫(yī)療產(chǎn)品的使用、潛在益處或風險的臨床證據(jù))。對于結構化數(shù)據(jù)完全可用現(xiàn)有科學技術進行全面處理,但對于非結構化數(shù)據(jù)和各類數(shù)據(jù)產(chǎn)生的證據(jù)則需要進行更為復雜的處理,人類光靠自己是做不到的。因此,不斷開發(fā)具有難度和深度的人工智能技術,搜集大量外部數(shù)據(jù)信息,進行患者檢查、數(shù)字格式保存、收集和分析病歷、藥物治療、處理各類大型數(shù)據(jù)集等,并將其轉(zhuǎn)換為可分析的格式,確保一定程度的準確性和可靠性,通過不帶有個人情緒和環(huán)境影響的人工智能技術,引出各類數(shù)據(jù)和證據(jù)更為深刻的內(nèi)在含義,大量減少漏診與誤診的幾率,分門別類地精準執(zhí)行醫(yī)學任務。人工智能技術不斷提升和拓展,給予醫(yī)學信息領域強大賦能,提取具有異質(zhì)癥狀的疾病本質(zhì),獲得更高質(zhì)量決策應用和監(jiān)督管理,有助于對基礎研究和臨床診斷提供優(yōu)質(zhì)解決方案。
基于實踐驅(qū)動和理論方法并行為特征的雙向?qū)用?,人工智能技術的不斷深入和互動于醫(yī)學信息領域。一方面,利用人工智能技術的精細化、多樣化手段進行患者檢查,創(chuàng)新針對性、個性化的療法,嘗試獨特用藥及外科手術治療,幫助復雜醫(yī)療案件做出相對高效的優(yōu)化決策和精準治療;一方面,人工智能賦予醫(yī)療行業(yè)更可靠的技術,借助人工智能技術預約、跟蹤、檢測、調(diào)查在線患者,對健康預測提供便利和支持,普及到每家每戶,讓人們足不出戶做到日常預防監(jiān)測,這樣不僅能夠提升醫(yī)療人員的工作效率,也從源頭上節(jié)約了醫(yī)療成本;另一方面,隨著人工智能擴散到醫(yī)學信息各個領域,務必利用其強大的先發(fā)優(yōu)勢預測解決數(shù)據(jù)隱私、數(shù)據(jù)安全、數(shù)據(jù)保護等潛在危險及社會影響,可持續(xù)性地對人民群眾身心安全起到強有力的保障作用。
自21世紀以來,醫(yī)學信息領域不斷壯大、發(fā)展和挑戰(zhàn),人工智能技術不斷更新、嵌入及融合。基于醫(yī)學信息領域的人工智能技術現(xiàn)有整體相對穩(wěn)固,但尚缺乏顛覆性變革的現(xiàn)狀,部分呈現(xiàn)直覺(經(jīng)驗發(fā)掘)→支持(深入理解)→策略(強化分析)→后推理(支撐決策)→前推理(提前預測)的發(fā)展趨勢。未來期待通過上述技術、應用及并行層面的3點展望,以人工智能強力崛起高技術、高門檻、高附加值的顯著特征,呈現(xiàn)從單一簡單到復雜多樣地整理分析現(xiàn)實生活中的醫(yī)學信息,優(yōu)化臨床策略和精準治療,協(xié)調(diào)醫(yī)學信息整體規(guī)劃,開發(fā)提供健康預測,制定相關國家政策法規(guī)等,邁向具有革命性影響且意義深遠的美好未來。