曾凡槊
近年來,深度學(xué)習(xí)技術(shù)已成為人工智能最熱門的研究領(lǐng)域之一,其在自然語言處理、語音識別、圖像處理等領(lǐng)域都取得了突破性進(jìn)展。本文首先簡要介紹了深度學(xué)習(xí)技術(shù)的概念,發(fā)展歷史,之后舉例說明了深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)、教育、安防行業(yè)的應(yīng)用,最后分析了當(dāng)前深度學(xué)習(xí)技術(shù)面臨的挑戰(zhàn)以及未來的發(fā)展前景。
2016年,谷歌研發(fā)團(tuán)隊(duì)DeepMind設(shè)計的AlphaGo與韓國圍棋世界冠軍李世石進(jìn)行了圍棋人機(jī)大戰(zhàn),最終以4比1的總比分獲勝,震驚了世界。AlphaGo是一款圍棋人工智能程序,之所以擁有如此高超的圍棋水平,很大程度上得益于其應(yīng)用的深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)是人工智能的一個研究方向,近年來由于計算機(jī)算力的提高以及算法的進(jìn)步,其在許多領(lǐng)域如計算機(jī)視覺,語音識別,自然語言處理等已經(jīng)顯現(xiàn)出巨大的能量,取得了許多突破性的進(jìn)展[1]。
深度學(xué)習(xí)的概念最初由加拿大多倫多大學(xué)的Hinton教授和他的學(xué)生在2006年提出。深度學(xué)習(xí)通過建立一個與人腦類似的神經(jīng)網(wǎng)絡(luò)來分析、處理數(shù)據(jù),主要借助人腦的多層抽象機(jī)制,來實(shí)現(xiàn)對大規(guī)模數(shù)據(jù)的建模[2]。深度學(xué)習(xí)同支撐向量機(jī),Boosting,最大熵方法等淺層學(xué)習(xí)方法不同,其可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)對復(fù)雜函數(shù)逼近(如對多維數(shù)據(jù)的分布進(jìn)行表示),從而為解決復(fù)雜問題提供了可能。
深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)的一種變體。人工神經(jīng)網(wǎng)絡(luò)是利用計算機(jī)技術(shù)對大腦的抽象、簡化和模擬,神經(jīng)網(wǎng)絡(luò)一般是由多個人工神經(jīng)元相互連接組成的。神經(jīng)網(wǎng)絡(luò)廣泛使用的一種連接方式包括三層,分別為: 輸入層、隱藏層和輸出層。其中,輸入層的各神經(jīng)元用于接收輸入信號,并傳輸?shù)诫[藏層的各神經(jīng)元,之后隱藏層中的神經(jīng)元通過激活函數(shù)處理后繼續(xù)將信號傳輸?shù)捷敵鰧痈魃窠?jīng)元。人工神經(jīng)網(wǎng)絡(luò)中的輸入以及各層神經(jīng)元的個數(shù)不固定,隱藏層也可以有多層,在通常情況下隱藏層有5層、6層、甚至10多層,這些都需要根據(jù)所要解決問題的復(fù)雜性而定。
計算機(jī)硬件技術(shù)的發(fā)展為多層神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)提供了基礎(chǔ),研究者可以通過較高配置的計算機(jī)來建立更多層的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)復(fù)雜的網(wǎng)絡(luò)模型,此時,利用多層神經(jīng)網(wǎng)絡(luò)進(jìn)行“深度學(xué)習(xí)”才有了真正意義。
目前,在醫(yī)學(xué)領(lǐng)域特別是醫(yī)學(xué)影像分析方面,深度學(xué)習(xí)技術(shù)已被廣泛使用[3]。糖尿病性視網(wǎng)膜病變?nèi)绻患痈深A(yù),繼續(xù)加重可能會導(dǎo)致失明,全世界范圍內(nèi)有超過4億的糖尿病患者存在該病風(fēng)險,假如能在發(fā)病早期進(jìn)行確診,采取相應(yīng)的治療方式將有很大的幾率治愈。谷歌公司的研究團(tuán)隊(duì)采用深度學(xué)習(xí)技術(shù)建立了一個自動識別模型,模型在超過10萬張視網(wǎng)膜眼底圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練,圖像數(shù)據(jù)都是經(jīng)過眼科專家逐一標(biāo)注的,保證了訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,之后研究者對模型進(jìn)行了驗(yàn)證,最終機(jī)器的識別效能與人類專家相當(dāng)。未來,當(dāng)該技術(shù)更加成熟達(dá)到臨床應(yīng)用條件后,能夠在保證識別準(zhǔn)確性的同時減少患者的等待時間,患者可以在疾病的早期就能就醫(yī),防止疾病的進(jìn)一步發(fā)展。
皮膚癌是一種惡性腫瘤,由于其存在于皮膚表面,容易被患者忽視。皮膚癌的篩查主要依賴臨床醫(yī)生的視覺判斷同時結(jié)合臨床表現(xiàn),若還不能明確診斷,則需進(jìn)行皮膚鏡分析、活檢和病理學(xué)分析。通過皮膚鏡進(jìn)行皮膚癌篩查依賴醫(yī)生豐富的臨床經(jīng)驗(yàn),由于其復(fù)雜的臨床表型,即使是經(jīng)驗(yàn)豐富的醫(yī)生也不能100%確認(rèn),常常需要借助病理分析,而病理分析耗時且費(fèi)用昂貴,不能滿足篩查的需要。 2017年初,斯坦福大學(xué)研究團(tuán)隊(duì)利用深度學(xué)習(xí)技術(shù)結(jié)合遷移學(xué)習(xí)技術(shù),通過對近13萬張皮膚表面圖片的訓(xùn)練,得到了一個可以對超過2000種疾病進(jìn)行識別的智能模型。隨后,研究者將此模型和多位皮膚科醫(yī)生進(jìn)行了識別準(zhǔn)確率的競賽,人工智能系統(tǒng)在較量中均表現(xiàn)出與人類專家不相上下的水平,準(zhǔn)確率接近70%,比人類專家高出近4%。
當(dāng)前,基于深度學(xué)習(xí)技術(shù)的醫(yī)學(xué)影像處理技術(shù)在某些領(lǐng)域達(dá)到甚至超過了人類專家的水平,在不久的將來,隨著技術(shù)的進(jìn)一步發(fā)展,越來越多的醫(yī)院將會開始使用人工智能技術(shù),輔助臨床醫(yī)生,提高疾病診斷的準(zhǔn)確率和效率。
訊飛聯(lián)合實(shí)驗(yàn)室是致力于語言認(rèn)知計算領(lǐng)域的技術(shù)創(chuàng)新,已在類人答題、語音轉(zhuǎn)寫、作文評閱等方面進(jìn)行了深入研究,其中,對作文進(jìn)行批閱的機(jī)器智能閱卷系統(tǒng)是其中一項(xiàng)重要的研發(fā)成果,已經(jīng)開始部分試用[4]。
作為考試中的主觀題,利用機(jī)器對作文進(jìn)行批閱困難重重。20世紀(jì)60年代以來、國外許多專家和學(xué)者就致力于這方面的研究,比如托??荚囎魑臏y評系統(tǒng)Erater系統(tǒng)。Erater系統(tǒng)是一種在線測評英語寫作能力的計算機(jī)系統(tǒng),學(xué)生在線向該系統(tǒng)提交其撰寫的作文后,3秒之內(nèi)系統(tǒng)即可作出評測,向用戶反饋其文章存在的問題,并給出評分結(jié)果。然而這類系統(tǒng)大部分針對的都是非母語作文,作文中的錯誤大多是一些基礎(chǔ)性拼寫錯誤,或者是初級語法錯誤,通過規(guī)則可以比較容易地讓機(jī)器識別從而實(shí)現(xiàn)批閱。而對于母語作文,情況就復(fù)雜得多,需要從文采、篇章銜接、立意等更高層次做出評判。這種智能閱卷系統(tǒng)能減少教師的重復(fù)勞動,可以減少教師的工作壓力。教師可以有更多的精力來做創(chuàng)造性的工作,例如與學(xué)生進(jìn)行思想交流,啟發(fā)學(xué)生智慧等。
人臉識別技術(shù)在過去幾年進(jìn)展非常大,特別是結(jié)合了深度學(xué)習(xí)技術(shù)的人臉識別算法,相比幾年前,在同一測試集上新的算法的錯誤率下降十分明顯[5]。人臉識別在安防產(chǎn)業(yè)的應(yīng)用十分廣泛,如對視頻圖像進(jìn)行分析、門禁等。安防領(lǐng)域應(yīng)用人臉識別模型時,尤其要注意光照、角度、表情問題,系統(tǒng)的魯棒性、可靠性要求較高。
目前道路上部署的絕大多數(shù)攝像機(jī)裝置采集的圖像分辨率較低,且為了提高采集范圍,視角設(shè)置的較廣,距離行人較遠(yuǎn),不能滿足人臉識別算法的基本要求,采集的人臉圖像常常比較模糊,只能從圖像中分辨出人的外形。盡管采集的圖像比較模糊,但如果能利用算法提取人物的身高、衣著等信息也十分有價值。例如,公安機(jī)關(guān)常常需要從視頻信息中確定嫌疑人的逃跑路線,如果算法能夠自動追蹤可疑人物的話將大大提高公安機(jī)關(guān)的辦案效率。
雖然深度學(xué)習(xí)模型具有強(qiáng)大的表示能力,但是這種表示是隱式的,且依賴大量的模型參數(shù);另一方面,深度學(xué)習(xí)是一個“黑箱”模型,可解釋性差,模型的好壞常常依賴參數(shù)的選擇與優(yōu)化,而參數(shù)優(yōu)化很大程度上是經(jīng)驗(yàn)的[1]。
深度學(xué)習(xí)的理論源于對大腦結(jié)構(gòu)的模擬,而現(xiàn)如今人類對大腦的理解也存在局限性,因此以此為基礎(chǔ)的深度學(xué)習(xí)其理論的正確性與否還未可知,盡管目前其在很多任務(wù)的表現(xiàn)十分亮眼,研究者也設(shè)計了許多深度學(xué)習(xí)模型,但其理論問題一直被反對者詬病。
在工程應(yīng)用時,如何解決海量數(shù)據(jù)訓(xùn)練所需的算力是每個深度學(xué)習(xí)應(yīng)用首先要解決的問題。目前深度模型的訓(xùn)練較長,根據(jù)模型的大小從幾天到幾個月的都有,而隨著互聯(lián)網(wǎng)技術(shù)不斷普及,數(shù)據(jù)樣本將不斷增加,訓(xùn)練時間將會是制約互聯(lián)網(wǎng)公司發(fā)布產(chǎn)品的瓶頸。未來,需要進(jìn)一步完善技術(shù)、發(fā)展適合深度模型的專用芯片等硬件設(shè)備,提高模型的訓(xùn)練效率。
雖然深度學(xué)習(xí)模型在許多任務(wù)上取得了突破性進(jìn)展,但還存在理論和工程方面的問題。深度學(xué)習(xí)模型往往依賴大規(guī)模的數(shù)據(jù)集,當(dāng)數(shù)據(jù)十分敏感時,數(shù)據(jù)的安全問題也十分突出,例如深度學(xué)習(xí)在處理醫(yī)療數(shù)據(jù)時,病人的隱私包含需要重點(diǎn)考慮。
深度學(xué)習(xí)技術(shù)發(fā)展是人工智能領(lǐng)域的一大進(jìn)步,未來隨著技術(shù)的不斷成熟,將會為人們的生活帶來更多智能化的體驗(yàn)。