Jeff Dean
谷歌大腦負責人Jeff Dean近日撰文回顧了2017年的工作,內(nèi)容包括基礎研究工作,機器學習的開源軟件、數(shù)據(jù)集和新硬件。本文重點介紹機器學習在醫(yī)療、機器人等不同科學領域的應用與創(chuàng)造性,以及對谷歌自身工作帶來的影響。
谷歌大腦團隊(Google Brain team)致力于通過科研和系統(tǒng)工程來提升人工智能的先進水平,這也是整個谷歌團隊AI工作的一部分。2017年,我們盤點了2016年的工作,從那時起,我們在機械智能化的長期研究方面不斷取得進展,并與Google和Alphabet的許多團隊展開合作,利用研究成果改善人們的生活。這篇文章將重點介紹我們在2017年的工作,包括我們的一些基礎研究工作,以及開源軟件、數(shù)據(jù)集和機器學習新硬件方面的新成果。后續(xù),我們將對某些特殊領域(對于這些領域而言,機器學習可能會對其產(chǎn)生重大影響,如醫(yī)療保健、機器人和一些基礎科學領域)展開深入研究,并介紹我們開展的創(chuàng)造性、公平性、包容性的工作,以幫助大家更好地了解我們。
核心研究
我們團隊關注的重點在于科研,并以此來提高我們的理解能力以及解決機器學習領域新問題的能力。以下是我們2017年研究的幾大主題。
AutoML
自動化機器學習的目標是推動技術發(fā)展,從而讓計算機能夠自動解決機器學習方面的新問題,而不需要人類機器學習專家來解決每個新問題。如果我們想擁有真正的智能系統(tǒng),那么這將是我們需要具備的一項基本技術能力。我們提出了利用強化學習(reinforcement learning)和進化算法(evolutionary algorithms)來設計神經(jīng)網(wǎng)絡結構的新方法,并將這項工作推廣到了ImageNet圖像分類和檢測領域的最新成果,展示了如何自動學習新的優(yōu)化算法(optimization algorithms)和有效的激活函數(shù)(activation functions)。我們正與谷歌Cloud AI團隊(Google Cloud AI team)展開積極合作,將此項技術提供給Google客戶,同時不斷向多個方面推進這項研究。
語言理解與生成
另一項主要工作是開發(fā)新技術,以此來提高我們計算機系統(tǒng)理解和生成人類語音的能力,其中包括我們與谷歌語音團隊(Google Speech team)的合作,為端到端的語音識別技術進行了一系列改進,從而將谷歌語音識別系統(tǒng)產(chǎn)生的相對詞錯率降低了16%。這項研究的一個益處是,它需要將許多不同的研究思路整合到一起。
我們還與谷歌的機器感知團隊( Machine Perception team)的研究同事合作,開發(fā)了一種新的文本到語音(text-to-speech)生成方法(Tacotron 2),極大地提高了生成語音的質(zhì)量。該模型的平均意見得分(MOS)為4.53,相比之下,專業(yè)錄音的MOS值為4.58(你或許在有聲讀物中看到過),過去最好的計算機生成語音系統(tǒng)(computer-generated speech system)的MOS值為4.34。你可以在這里試聽:https://google.github.io/tacotron/publications/tacotron2/index.html
機器學習的新算法和新方法
我們不斷開發(fā)機器學習的新算法和新方法,包括Hinton提出的capsules的工作(在執(zhí)行視覺任務時,明確尋找激活特征中的一致性,作為評估許多不同噪聲假設的方法)、稀疏門控專家混合層(sparsely-gated mixtures of experts)(這使得超大模型仍然具有高計算效率)、超網(wǎng)絡(hypernetworks)(用一個模型的權值生成另一個模型的權值)、新的multi-modal模型(在同一個模型上執(zhí)行音頻、視覺和文本輸入的多個學習任務)、基于attention的機制(作為卷積模型和遞歸模型的替代)、symbolic和non-symbolic學習優(yōu)化方法、通過離散變量進行反向傳播的技術以及新型強化學習算法改進的研究。
計算機系統(tǒng)的機器學習
在計算機系統(tǒng)中,利用機器學習取代傳統(tǒng)的啟發(fā)方法,也是我們非常感興趣的。我們展示了如何使用強化學習來做出布局決策(placement decision),以便將計算圖形映射到一組比人類專家更優(yōu)秀的計算機設備上。與谷歌科研(Google Research)的其他同事一樣,我們在“學習索引結構的案例”一文中證明了神經(jīng)網(wǎng)絡比傳統(tǒng)數(shù)據(jù)結構如B-tress、哈希表和布隆過濾器(Bloom filter)速度更快、規(guī)模更小。我們相信,正如在NIPS的Machine Learning for Systems and Systems for Machine Learning研討會上所述,對于在核心計算機系統(tǒng)中使用機器學習而言,我們還停留在表面。
隱私與安全
機器學習及其與安全和隱私的交叉領域,仍然是我們主要研究的重點。在一篇獲得ICLR 2017最佳論文獎的論文中,我們展示了機器學習技術可以以一種提供不同隱私保證的方式應用。我們還在持續(xù)研究對抗樣本的性質(zhì),包括在物理世界中展示對抗樣本,以及如何在訓練過程中大規(guī)模利用對抗樣本,進而使模型相對于對抗樣本而言具有更強的魯棒性。
了解機器學習系統(tǒng)
雖然我們在深度學習領域取得了許多令人印象深刻的成果,但重要的是弄清楚它的工作原理,以及它在何種狀態(tài)下會停止工作。在另一篇獲得ICLR 2017最佳論文獎的論文中,我們發(fā)現(xiàn),目前的機器學習理論框架無法解釋深度學習方法中,那些令人印象深刻的成果。我們還發(fā)現(xiàn),通過最優(yōu)方法尋找最小的“平坦度”(flatness),并不像最初預想的那樣,與良好的泛化緊密相關。為了更好地理解在深層構架下,訓練是如何進行的,我們發(fā)表了一系列分析隨機矩陣的論文,因為這是大多數(shù)訓練方法的出發(fā)點。了解深度學習的另一個重要方法是更好地衡量它們的表現(xiàn)。在最近的一項研究中,我們證明了良好的實驗設計以及嚴謹統(tǒng)計的重要性,比較了許多GAN方法,發(fā)現(xiàn)許多流行的生成模型增強并沒有提高性能。我們希望這項研究,能夠在其他研究人員進行相關實驗時,提供一個可靠范例。
我們正在研發(fā)能夠更好地解釋機器學習系統(tǒng)的方法。并且在2017年3月,我們與OpenAI、DeepMind、YC Research合作,宣布推出Distill,這是一本致力于幫助人類更好地理解機器學習的在線開放性科學期刊。其清楚地闡釋了機器學習的概念,提供了優(yōu)秀的交互式可視化工具,并獲得了良好反響。在刊物發(fā)行的第一年,Distill發(fā)表了許多有啟發(fā)性的文章,旨在了解各種機器學習技術的內(nèi)部工作原理,我們期待在2018年可以取得更多進展。
用于機器學習研究的開放式數(shù)據(jù)集
像MNIST、CIFAR-10、mageNet、SVHN和WMT這樣的開放數(shù)據(jù)集,極大地推動了機器學習領域的發(fā)展。作為一個集體,我們團隊與谷歌科研(Google Research)在過去一年左右的時間里,一直通過提供更大的標記數(shù)據(jù)集,積極地為開放式機器學習提供開放、有趣的新數(shù)據(jù)集,包括:
·YouTube-8M: 使用4716個不同類別注釋的700萬個YouTube視頻;
·YouTube-Bounding Boxes: 來自21萬個YouTube視頻的500萬個bounding boxes;
·Speech Commands數(shù)據(jù)集:包含數(shù)千個說話者說的短指令詞;
·AudioSet:200萬個10秒的YouTube視頻剪輯,標記有527個不同的聲音事件;
·Atomic Visual Actions(AVA):57000個視頻剪輯中的21萬個動作標簽;
·Open Images:使用6000個類別標記的900萬個創(chuàng)作共用許可的圖像;
·Open Images with Boundign Boxes:600個類別的120萬個bounding boxes。
TensorFlow和開源軟件
縱觀我們團隊的歷史,我們已經(jīng)開發(fā)了一些工具,幫助我們進行機器學習研究,并在谷歌的許多產(chǎn)品中部署了機器學習系統(tǒng)。2015年11月,我們開放了第二代機器學習框架TensorFlow,希望機器學習社區(qū)能夠從機器學習軟件工具的投資中獲益。2017年2月,我們發(fā)布了TensorFlow 1.0,2017年11月,我們發(fā)布了v1.4版本,增加了以下重要功能:用于交互式命令式編程的Eager execution,用于TensorFlow程序的優(yōu)化編譯器XLA,以及用于移動設備和嵌入式設備的輕量級解決方案TensorFlow Lite。預編譯的TensorFlow二進制文件現(xiàn)在已經(jīng)在180多個國家被下載超過1000萬次,GitHub上的源代碼現(xiàn)在已經(jīng)有超過1200個貢獻者。
2017年2月,我們舉辦了首屆TensorFlow開發(fā)者峰會,超過450多人參加了在美國加州山景城的活動,超過6500人觀看了直播,包括在全球超過35多個國家和地區(qū)舉辦了超過85場的本地觀看活動。所有的會談都被記錄下來,主題包括TensorFlow的新功能、使用TensorFlow的技巧和低層TensorFlow抽象的細節(jié)。我們將于2018年3月30日在美國舊金山灣區(qū)舉辦第二屆TensorFlow開發(fā)者峰會。
2017年11月,TensorFlow為開放源代碼項目兩周年舉辦了慶?;顒印?能夠看到一個充滿活力的TensorFlow開發(fā)者和用戶群體的出現(xiàn),無疑是對我們最好的回報。TensorFlow是GitHub上排名第一的機器學習平臺,也是GitHub上五大軟件庫之一,被許多不同規(guī)模的公司和機構所使用,Git Hub上有超過24500個與Tensor Flowl相關的獨立軟件庫?,F(xiàn)在,許多研究論文都與開放源代碼的TensorFlow實現(xiàn)一起出版,以配合研究結果,使社區(qū)能夠更容易地理解每篇論文描述的使用方法,并重現(xiàn)或擴展工作。
TensorFlow也受益于其他Google研究團隊的相關開源工作,其中,包括TensorFlow中生成對抗模型的輕量級庫TF-GAN、TensorFlow Lattice、一組基于網(wǎng)格模型的估計器,以及TensorFlow Object Detection API。TensorFlow模型庫隨著模型的增多而持續(xù)擴張。
除了TensorFlow之外,我們還發(fā)布了deeplearn.js,這是一個在瀏覽器中快速實現(xiàn)深度學習的API開源硬件(無需下載或安裝任何東西)。deeplearn.js的主頁有許多很好的例子,包括Teachable Machine和Performance RNN。我們將在2018年繼續(xù)努力,以便將TensorFlow模型直接部署到deeplearn.js環(huán)境中。
TPUs
大約五年前,我們認識到,深度學習將極大地改變我們所需的硬件類型。深度學習的計算量非常大,但是它們有兩個特殊的性質(zhì):它們主要由密集的線性代數(shù)運算(矩陣倍數(shù),向量運算等)組成,它們對精度的降低具有非常好的包容性。我們意識到可以利用這兩個屬性,來構建能夠非常有效地運行神經(jīng)網(wǎng)絡計算的專用硬件。我們向谷歌平臺(Google Platforms)團隊提供了設計輸入,他們設計并生產(chǎn)了第一代Tensor Processing Unit(TPU): 一種幫助深度學習模型進行加速推理的單芯片ASIC(推理使用已訓練的神經(jīng)網(wǎng)絡,并且訓練方式不同)。第一代TPU已經(jīng)在我們的數(shù)據(jù)中心部署了三年,它被用于為谷歌搜索(Google Search)、谷歌翻譯(Google Translate)、谷歌圖片(Google Photos),李世石、柯潔與Alphago的比賽,以及許多其他研究和產(chǎn)品用途。2017年6月,我們在ISCA 2017上發(fā)表了一篇論文,證實第一代TPU比與其同時期的GPU或CPU同類產(chǎn)品,處理速度快15-30倍,性能/功耗節(jié)優(yōu)化30–80倍。
推論是很重要的,但是加速訓練過程是一個更重要的問題,也是一個更困難的問題。研究人員越快地嘗試新想法,我們就能取得更多的突破。2017年5月我們在Google I / O上宣布的第二代TPU,是一個旨在加速訓練和推理過程的一體化系統(tǒng)(定制ASIC芯片、電路板和互連),我們展示了一個設備配置:TPU Pod。我們宣布這些第二代設備將在谷歌云平臺(Google Cloud Platform)上作為Cloud TPUs提供。我們還公布了TensorFlow研究云計劃(TFRC),該計劃旨在為頂級機器學習研究人員提供方案,這些人致力于與世界分享他們的工作,以便免費訪問1000個Cloud TPUs集群。在2017年12月,我們展示了一項研究,證實可以在22分鐘內(nèi),從TPU Pod上訓練一個ResNet-50 ImageNet模型,而在一個典型的工作站上,這需要幾天或更長時間,在相同時間里,TPU Pod上訓練的模型準確度要高。我們認為以這種方式縮短研發(fā)周期,將極大地提高谷歌的機器學習團隊和所有使用Could TPUs的組織的工作效率。
谷歌大腦AI應用研究
過去一年,谷歌大腦在多個特定領域深入研究,例如如何將機器學習等技術應用于醫(yī)療、機器人、創(chuàng)意、公平等多個領域。這在某種程度上,也代表了2017年人工智能具體應用的最高水平研究。
醫(yī)療
我們認為,機器學習技術在醫(yī)療行業(yè)的應用潛力巨大。我們正在解決各種各樣的問題,包括協(xié)助病理學家檢測癌癥,理解各種對話來為醫(yī)生和病人提供幫助,使用機器學習解決基因組學中的各種問題,其中包括一個名叫DeepVariant的開源工具,用深度神經(jīng)網(wǎng)絡來從DNA測序數(shù)據(jù)中快速精確識別堿基變異位點。
我們還致力于盡早發(fā)現(xiàn)糖尿病視網(wǎng)膜病變(DR)和黃斑水腫,并于2016年12月在《美國醫(yī)學協(xié)會雜志》(JAMA)上發(fā)表論文。
2017年,我們將這個項目從研究階段過渡到實際的臨床影響階段。我們與Verily(Alphabet旗下的一家生命科學公司)合作,通過嚴格的流程來引導這項工作,我們還一起將這項技術整合到尼康的Optos系列眼科相機中。
此外,我們在印度努力部署這套系統(tǒng),因為印度的眼科醫(yī)生缺口多達12.7萬人,因此,幾乎一半的患者確診時間過晚,并因為這種疾病而導致視力下降。作為試點的一部分,我們啟動了這個系統(tǒng),幫助Aravind Eye Hospitals眼科醫(yī)院的學生更好地診斷糖尿病x性眼疾病。
我們還與合作伙伴共同了解影響糖尿病性眼睛護理的人類因素,從患者和醫(yī)療服務提供者的人種學研究,到研究眼科醫(yī)生如何與人工智能系統(tǒng)之間的互動方式。
我們也與領先的醫(yī)療組織和醫(yī)療中心的研究人員(包括美國斯坦福大學、美國加州大學舊金山分校和美國芝加哥大學),共同演示機器學習利用匿名病歷來預測醫(yī)療結果所能達到的具體效果(例如,考慮到病人的現(xiàn)狀,我們相信可以用針對其他數(shù)百萬病人的病程進行的研究來預測這個病人的未來,以此幫助醫(yī)療專業(yè)人士做出更好的決策)。
機器人
我們在機器人領域的長期目標是設計各種學習算法,讓機器人在混亂的現(xiàn)實環(huán)境中運行,并通過學習快速獲得新的技能和能力。而不是讓它們身處精心控制的環(huán)境中,處理當今機器人所從事的那些為數(shù)不多的手工編程任務。
我們研究的一個重點是開發(fā)物理機器人的技術,利用他們自己的經(jīng)驗和其他機器人的經(jīng)驗來建立新的技能和能力,分享經(jīng)驗,共同學習。我們還在探索如何將基于計算機的機器人任務模擬與物理機器人的經(jīng)驗結合起來,從而更快地學習新任務。
雖然模擬器的物理效果并不完全與現(xiàn)實世界相匹配,但我們觀察到,對于機器人來說,模擬的經(jīng)驗加上少量的真實世界經(jīng)驗,比大量的實際經(jīng)驗更能帶來好的結果。
除了真實世界的機器人經(jīng)驗和模擬的機器人環(huán)境,我們還開發(fā)了機器人學習算法,可以學習通過觀察人類的演示進行學習。我們相信,這種模仿學習模式是一種非常有前途的方法,可以讓機器人快速掌握新的能力,不需要明確編程或明確規(guī)定一個活動的具體目標。
2017年11月我們組織召開了第一屆Conference on Robot Learning (CoRL),大會匯集了在機器學習和機器人技術的交叉領域工作的研究人員。
基礎科學
我們也很看好機器學習技術解決重要科學問題的長期潛力。去年,我們利用神經(jīng)網(wǎng)絡預測了量子化學中的分子性質(zhì)。
通過分析天文數(shù)據(jù)發(fā)現(xiàn)了新的系外行星。
對地震的余震進行預測,并利用深度學習來指導自動證明系統(tǒng)。
創(chuàng)意
如何利用機器學習技術去協(xié)助創(chuàng)意活動,這也是我們很感興趣的領域。2017年,我們開發(fā)了一個人工智能鋼琴二重奏工具,幫助YouTube音樂人Andrew Huang制作了新的音樂,并展示了如何教機器畫畫。
我們還演示了如何控制運行在瀏覽器中的深度生成模型,制作新的音樂。這項工作贏得了NIPS 2017的“最佳演示獎”,這也是谷歌大腦團隊Magenta項目的成員連續(xù)第二年贏得這個獎項。
在NIPS 2016上,來自Magenta項目的互動音樂即興創(chuàng)作也贏得了“最佳演示獎”。
People + AI研究項目(PAIR)
機器學習的進步為人類與計算機的交互帶來了全新的可能。與此同時,同樣重要的是讓全社會從我們開發(fā)的技術中受益。我們將這方面的機遇和挑戰(zhàn)視為高優(yōu)先級工作,并與谷歌內(nèi)部的許多團隊合作,成立了PAIR項目(https://ai.google/pair)。
PAIR的目標是研究和設計人類與人工智能系統(tǒng)互動最高效的方式。我們發(fā)起了公共研討會,將多個領域,包括計算機科學、設計,甚至藝術等領域的學術專家和實踐者聚集在一起。PAIR關注多方面課題,其中一些我們已有所提及:嘗試解釋機器學習系統(tǒng),幫助研究者理解機器學習,以及通過deeplearn.js擴大開發(fā)者社區(qū)。關于我們以人為中心的機器學習工程方法,另一個案例是Facets的推出。這款工具實現(xiàn)訓練數(shù)據(jù)集的可視化,幫助人們理解訓練數(shù)據(jù)集。
機器學習的公平性和包容性
隨著機器學習在技術領域發(fā)揮越來越大的作用,對包容性和公平性的考量也變得更重要。谷歌大腦團隊和PAIR正努力推動這些領域的進展。
我們發(fā)表的論文涉及:如何通過因果推理來避免機器學習系統(tǒng)的偏見,在開放數(shù)據(jù)集中地理多樣性的重要性,以及對開放數(shù)據(jù)集進行分析,理解多元化和文化差異。我們也一直與跨行業(yè)項目Partnership on AI密切合作,確保公平性和包容性成為所有機器學習實踐者的目標。
我們的文化
我們團隊文化的一個重要方面在于,賦能研究員和工程師,幫助他們解決他們認為最重要的基本研究問題。2017年9月,我們公布了開展研究的一般方法。
在我們的研究工作中,教育和指導年輕研究員貫穿始終。2016年,我們團隊吸納了100多名實習生,2017年我們研究論文的約25%共同作者是實習生。
2016年,我們啟動了“谷歌大腦入駐”項目,給有志于學習機器學習研究的人們提供指導。在項目啟動第一年(2016年6月到2017年5月),27名入駐者加入我們團隊。我們在項目進行到一半時,以及結束后公布了進展,列出了入駐者的研究成果。項目第一年的許多入駐者都是全職研究員和研究工程師,他們大部分人沒有參加過伯克利、卡耐基·梅隆、斯坦福、紐約大學和多倫多大學等頂級機器學習研究機構的博士研究。
2017年7月,我們迎來了第二批入駐者,他們將與我們一同工作至2018年7月。他們已經(jīng)完成了一些令人興奮的研究,成果在許多研究場合發(fā)表。
現(xiàn)在,我們正在擴大項目范圍,引入谷歌內(nèi)部的許多其他研究團隊,并將項目更名為“Google AI Residency program”項目。(可以通過鏈接g.co/airesidency/apply了解2018年的項目情況)。
2017年,我們所做的工作遠遠超出我們在文中介紹的內(nèi)容。我們致力于在頂級研究場合發(fā)表我們的成果。2017年,我們團隊發(fā)表了140篇論文,包括在ICLR、ICML和NIPS上發(fā)表的超過60篇論文。如果想要進一步了解我們的工作,你可以仔細閱讀我們的研究論文。