Tom+Macaulay+楊勇
到2035年,人工智能(AI)將為英國經(jīng)濟增長貢獻6540億英鎊,但隨著它成為主流,對其進行描述的術(shù)語卻越來越混亂。
人工智能的流行語——機器學(xué)習(xí)和深度學(xué)習(xí),常?;Q使用,盡管每個術(shù)語都有不同的含義。
斯坦福大學(xué)計算機科學(xué)家John McCarthy因提出“人工智能”這一術(shù)語而受人尊敬。他在1956年召開的一次專題會議上將其定義為:“制造智能機器的科學(xué)和工程,特別是智能計算機程序?!?/p>
“智能”一詞的模糊性使人工智能涵蓋了一系列應(yīng)用,但大多數(shù)研究人員同意它一般是指能夠復(fù)制人類的思維。
機器學(xué)習(xí)是人工智能的一個子集,它賦予計算機一定的獨立思考能力。這之所以能夠?qū)崿F(xiàn),是因為給它大量的數(shù)據(jù),由算法處理這些數(shù)據(jù),然后從中學(xué)習(xí),以便作出預(yù)測和決定,這個過程并沒有專門的編程。機器能夠高效地從現(xiàn)有例子中進行學(xué)習(xí),以解決新問題。
而深度學(xué)習(xí)是一種受人類大腦神經(jīng)元之間的聯(lián)系而啟發(fā)出來的機器學(xué)習(xí)方式。研究人員對這種生物連接進行了人工模擬,稱之為人工神經(jīng)網(wǎng)絡(luò)(通常稱為神經(jīng)網(wǎng)絡(luò))。
實際中的深度學(xué)習(xí)
在人類神經(jīng)網(wǎng)絡(luò)中,數(shù)十億個相互連接的神經(jīng)元通過發(fā)送電信號來通信,發(fā)展成為思維和行動。在人工神經(jīng)網(wǎng)絡(luò)中,節(jié)點扮演神經(jīng)元的角色,并通過組合分析,在有組織的結(jié)構(gòu)中進行協(xié)作,解決問題。
例如,深度學(xué)習(xí)軟件可以用來理解由重疊的東西組成的復(fù)雜照片,譬如一個裝滿了衣服的洗衣籃。
節(jié)點被安排在不同的層中,每一節(jié)點查看圖片的每個元素,并對具體的元素進行計算,以便完全理解它。這些計算得出的信號被傳遞給其他節(jié)點。
然后,對層中的所有信號進行組合評估,最終預(yù)測圖片中到底是什么。
深度學(xué)習(xí)相對于其他機器學(xué)習(xí)技術(shù)的優(yōu)勢在于,其他技術(shù)需要分析一系列預(yù)定義的特征,把分析結(jié)果作為預(yù)測的基礎(chǔ),而深度學(xué)習(xí)自己可以識別每一個特征。
例如,如果一個系統(tǒng)想在一張照片中識別出人臉,就不需要先把個人特征(例如鼻子和眼球)輸入到該系統(tǒng)中。相反,可以把一幅完整的圖像輸入給它,它能夠掃描,理解不同的特征,然后對圖像內(nèi)容進行獨立的預(yù)測。
深度學(xué)習(xí)可以用來預(yù)測地震和控制自動駕駛汽車等。它可以對黑白視頻進行著色處理,翻譯手機拍攝的文本,模仿人的聲音,創(chuàng)作音樂,編寫計算機代碼,在棋盤游戲中擊敗人類,例如,谷歌的DeepMind去年擊敗韓國圍棋冠軍李世石而一戰(zhàn)成名。
它還有其他無數(shù)潛在的應(yīng)用,從安全系統(tǒng)到情感分析,直至優(yōu)化制造,等等。深度學(xué)習(xí)尤其擅長理解圖像和音頻,并且可以自動完成許多常見的專業(yè)任務(wù),例如分析X射線或者掃描法律文件等。
深度學(xué)習(xí)的歷史
軟件公司Cloudera的數(shù)據(jù)科學(xué)主任Sean Owen說:“深度學(xué)習(xí)并不是一種新概念。它是另一種概念的重生,現(xiàn)在人們終于使這一概念發(fā)揮作用了?!?/p>
深度學(xué)習(xí)的起源可以追溯到20世紀50年代,開始時是試圖模仿生物大腦中神經(jīng)元的互聯(lián),這被稱之為“感知”。機器學(xué)習(xí)算法是由美國心理學(xué)家Frank Rosenblatt在1957年開發(fā)的,受到了美國海軍研究辦公室的資助。
他的發(fā)明被《紐約時報》戲劇性地描述為“一臺電子計算機的雛形,海軍希望它能行走、說話、看、寫、復(fù)制自己,并能意識到它自己的存在?!?/p>
由于技術(shù)過于復(fù)雜,它很快就不再被人青睞了,但1986年一篇題為“反向傳播錯誤的學(xué)習(xí)表征”論文的發(fā)表,為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)提供了更為有效的方法。
在90年代,人們關(guān)注的焦點轉(zhuǎn)移到了一種叫做“支持向量機”的機器學(xué)習(xí),它提供了相對簡單的高性能算法。
只是在過去十年,研究人員才真正學(xué)會利用云計算強大的計算能力,發(fā)揮規(guī)模優(yōu)勢使深度學(xué)習(xí)開始工作。
2011年,深度學(xué)習(xí)先驅(qū)Andrew Ng創(chuàng)立了“谷歌大腦”。這名斯坦福大學(xué)教授已經(jīng)幫助開發(fā)了自主直升機和多用途家庭機器人,而真正使他成為人工智能象征的是谷歌龐大的神經(jīng)網(wǎng)絡(luò)研究項目。
他的創(chuàng)作登上了《紐約時報》的頭條——一組16,000個模擬人腦的計算機處理器掃描了YouTube視頻中的1千萬張圖像,目的是找到其中的貓,并獨立地發(fā)現(xiàn)了哪些東西是“貓”。
“谷歌大腦”開發(fā)的神經(jīng)網(wǎng)絡(luò)后來被再次使用Android手機將其用在語音識別軟件中——盡管沒有那么的大張旗鼓。
“谷歌大腦”使得主流媒體非常關(guān)注深度學(xué)習(xí),證明人類大腦可以為機器學(xué)習(xí)提供模型,而當(dāng)時許多工程師都喜歡把簡單的自動化偽裝成智能。
谷歌的前高級工程師Owen說:“深度學(xué)習(xí)之所以能夠加速發(fā)展并不是因為這些研究突破,而是因為軟件可以讓您做這些事情。
例如,大約兩年前谷歌發(fā)布了名為TensorFlow的深度學(xué)習(xí)包,諸如此類的事情真正推動了深度學(xué)習(xí)在主流應(yīng)用上的跨越式發(fā)展。
這正是過去五年來爆炸式發(fā)展的原因。是把這些想法轉(zhuǎn)換成自由軟件?!?/p>
深度學(xué)習(xí)往往需要特殊的硬件,但這也變得更加可行了。更具挑戰(zhàn)性的是使用各種工具和技術(shù)所需要的知識和經(jīng)驗。
深度學(xué)習(xí)在很大程度上仍然是未知領(lǐng)域,即使是經(jīng)驗豐富的機器學(xué)習(xí)科學(xué)家涉足這一領(lǐng)域后,也必須在工作中學(xué)習(xí)。這導(dǎo)致了世界上最大的科技公司之間爆發(fā)了人才大戰(zhàn)。
深度學(xué)習(xí)的局限
各種各樣的媒體紛紛報道人工智能,而最近關(guān)于DeepMind Health訪問了NHS患者記錄的爭議也引起了人們對隱私問題的關(guān)注。深度學(xué)習(xí)帶來了特殊的挑戰(zhàn),因為它的模型越來越復(fù)雜,結(jié)果變得越來越難以解釋。
“它們是非常復(fù)雜的模型,有大量的數(shù)字,并且不清楚其含義,所以很難理解為什么一個結(jié)果會與某一輸入相關(guān)聯(lián)。
如果我們想要清楚地知道這些,以便發(fā)現(xiàn)模型的邏輯不是我們想要的,那這就可能成為一個問題。我認為問題在于這些工具可能會讓我們很容易找出數(shù)據(jù)中隱藏的傾向性,通過建立預(yù)測模型來進一步強化這些偏見,據(jù)此提出未來的行動?!眅ndprint
麻省理工學(xué)院的一個研究小組可能已經(jīng)找到了解決辦法。通過分析網(wǎng)絡(luò)中不同神經(jīng)元的活動,他們可以理解某一個神經(jīng)元負責(zé)做出哪些決定。這一發(fā)現(xiàn)可以提供一種方法來找出算法偏差,并解釋來自深度學(xué)習(xí)算法的具體操作。
雖然深度學(xué)習(xí)是嘗試從統(tǒng)計上模擬神經(jīng)元怎樣工作的,而Owen要強調(diào)的是,它仍然不能重現(xiàn)與人腦相同的思維和學(xué)習(xí)。
“我的確提醒過人們,我們怎樣才能讓機器思考。這需要各種強大的技術(shù)的交融,但更多的是統(tǒng)計模型,在理解人腦方面并沒有真正的根本性突破。”
深度學(xué)習(xí)的發(fā)展也不會使其他機器學(xué)習(xí)算法過時。深度學(xué)習(xí)需要大量的數(shù)據(jù)集和強大的計算能力才能有效地發(fā)揮作用,在很多情況下,足以支持向量機等簡單的算法。
深度學(xué)習(xí)的未來
深度學(xué)習(xí)既可以使用普通的有監(jiān)督學(xué)習(xí)技術(shù),也可以使用更復(fù)雜和更前沿的無監(jiān)督學(xué)習(xí)技術(shù)。
在有監(jiān)督學(xué)習(xí)中,同時提供輸入和輸出變量,并進行分類。當(dāng)增加更多的輸入數(shù)據(jù)時,算法只需按照既定過程來生成新結(jié)果。這用在很多當(dāng)前的應(yīng)用程序中,例如進行Amazon推薦。
在無監(jiān)督學(xué)習(xí)中,輸出數(shù)據(jù)是未知的,因此系統(tǒng)不能根據(jù)某個實例而得出自己的結(jié)論。它只能使用輸入數(shù)據(jù)來解決問題。它通過從數(shù)據(jù)中提取信息來發(fā)現(xiàn)相關(guān)性,理解底層結(jié)構(gòu),以便得出自己的結(jié)論。這類似于在課堂上以自學(xué)方式替代教師教學(xué),這種模型被應(yīng)用于有監(jiān)督學(xué)習(xí)中。
無監(jiān)督學(xué)習(xí)的一個例子是,一個系統(tǒng)能獨立地對圖片中的動物進行分類,而并沒有告訴它這些動物是什么。它將通過一個描述過程來完成這一工作,這涉及到根據(jù)差異和相似性把數(shù)據(jù)分類。因此,它根據(jù)在像素中找到的顯著特征和相關(guān)性,把狗和貓區(qū)分開來。
深度學(xué)習(xí)可以把智能手機照片轉(zhuǎn)換成模仿大師風(fēng)格和繪畫技巧的圖畫,這種技術(shù)使得俄羅斯移動應(yīng)用程序Prisma成為俄羅斯最受歡迎的應(yīng)用程序。
如此強大的技術(shù)也可能會產(chǎn)生不太好的后果。例如,它可以用來生成看起來非常逼真的假視頻。
去年,來自斯坦福大學(xué)和德國埃朗根紐倫堡大學(xué)的研究人員公布了名為Face2Face的一個項目,表明有可能操縱媒體,制造假信息。
該項目采用深度學(xué)習(xí)算法和商業(yè)網(wǎng)絡(luò)攝像頭實時重現(xiàn)在YouTube視頻中說話的人的面部表情。讓政治家說真話真的很難。
企業(yè)中的深度學(xué)習(xí)
對于企業(yè)來說,如果能看到深度學(xué)習(xí)帶來的商業(yè)利益,就不會再擔(dān)心深度學(xué)習(xí)了。很多企業(yè)已經(jīng)在眾多的應(yīng)用中研究深度學(xué)習(xí),例如在線旅行社Expedia。
當(dāng)預(yù)訂網(wǎng)站的顧客查看酒店列表時,他們首先注意的是房間照片。首先展示最吸引人的照片會提高酒店被選中的概率,但該公司總共擁有295,000多家酒店的1千多萬張照片。人工處理這些照片將是一個沒完沒了的任務(wù)。
相反,數(shù)據(jù)科學(xué)團隊使用深度學(xué)習(xí)來自動對照片進行排序。采用了由亞馬遜開發(fā)的一款名為“Human Turk”的眾包產(chǎn)品,從10萬張酒店照片中找出排名前10的照片。對每張照片進行兩次評定,并按旅行者的類型分類。
然后在這一數(shù)據(jù)集上訓(xùn)練模型,使其能夠獨立的對照片進行分類。Expedia估計,它能夠在一天內(nèi)評定一千萬張照片。
科技公司正在試驗各種各樣的深度學(xué)習(xí)應(yīng)用程序。特斯拉使用它來幫助其自主車輛學(xué)會識別道路上的危險因素,DeepMind通過分析眼睛的數(shù)字掃描圖像來檢測威脅視力的疾病,臉書提供給用戶的內(nèi)容是專門針對用戶興趣而定制的。
數(shù)字優(yōu)先的企業(yè)仍然是深度學(xué)習(xí)的領(lǐng)先者,而這項技術(shù)變得越來越成熟,越來越便宜,也更容易使用。深度學(xué)習(xí)將給各行各業(yè)的企業(yè)帶來變革。endprint