編譯 思羽
杰夫·迪恩(Jeff Dean)是谷歌公司的人工智能項目負責人,他與《美國科學家》(American Scientist)主編費內拉·桑德斯(Fenella Saunders)對談,討論了當前人工智能研究所面臨的若干重大進展和擔憂,以及這種局面會如何影響人類社會。
機器學習領域已經(jīng)取得許多進展,你認為其發(fā)展方向在哪?
我們已經(jīng)在深度學習方面取得重要進展。深度學習本質上是人工神經(jīng)網(wǎng)絡的重塑。人工神經(jīng)網(wǎng)絡已經(jīng)出現(xiàn)三四十年,作為從相關的輸入和輸出信息中進行抽象學習的方式。但現(xiàn)在證明,深度學習可用于計算機視覺、語音識別、語言理解和語言翻譯領域中的各種問題。
現(xiàn)在,依靠機器學習,我們突然之間能攻克設計和工程領域的許多重大挑戰(zhàn)。諸如“我們如何讓人們的醫(yī)療保健更好?”或者“我們如何發(fā)展或重建都市的基礎設施?”的問題是機器學習能夠解答的。例如,在重新思考應當如何設計城市時,自動駕駛車輛將會是重要的考慮因素,因為自動駕駛車輛與我們現(xiàn)在駕駛的車輛截然不同。
機器學習建立在這樣模型上,即向計算機展示許多實例,直到計算機明白其中的關聯(lián)?,F(xiàn)在還有其他學習機制嗎?
各種最為成功的機器學習都是這種形式的:收集你感興趣的輸入和輸出信息,形成大型數(shù)據(jù)集。數(shù)據(jù)集也許是許多圖片,每張圖片上標示著“這是卡車”“這是鴿子”“這是一種猴子”。通過暴露在許多這樣的實例下,系統(tǒng)就能學會歸納一張全新的圖片?,F(xiàn)在它可以說“哎,那張圖片也是卡車”。這個過程被稱為監(jiān)督式機器學習。
然而,其他類型的機器學習方法也在取得重大進展。在一項被稱為強化學習的技術中,你可以實施一組行動,每一步你試圖預測:什么行動最合理。在行動過程中,你開始明白你采取的那組行動是好還是壞。
如何使數(shù)據(jù)集和算法不易受到無意識偏差(unconscious bias)的影響?
機器學習算法中的偏差是個大問題,我們需要意識到這個問題。關于我們如何讓這些系統(tǒng)以自動方式減少偏差的問題是非?;钴S的研究領域。問題之一是:有時候訓練使用的數(shù)據(jù)本身具有偏差。
或你已經(jīng)收集到一組數(shù)據(jù)集,但它不匹配你訓練模型的數(shù)據(jù)分布。比如說,假如你以北美婚禮的照片來訓練模型,然后開始試圖識別印度婚禮,數(shù)據(jù)集的分布和你可能看到的圖像是迥然不同的。所以,對于你關注的問題,收集到具有正確分布性質的數(shù)據(jù)集是機器學習的重要技巧。
還有一項技術是讓你能從算法層面調整機器學習模型,達到所需的結果。譬如說,當所有其他條件相同時,你希望這兩組實例擁有獲得某種結果的相同概率。這樣就能采用在訓練時具有偏差的模型,從算法層面調整它的結果,使得它的偏差變小。
在機器學習的時代,你對隱私有什么見解?
當民眾利用許多新式在線服務時,他們生成了如何使用那些服務的許多數(shù)據(jù)。商業(yè)公司常常利用這些數(shù)據(jù)來改善服務,比如通過理解“人們觀看這類視頻時,也許對那類視頻也感興趣”的現(xiàn)象改善服務。或者,當用戶誤輸入這個單詞、接著又糾正單詞時,我們也許能學習到一種拼寫糾正機制。
我相信,對于是否收集那些數(shù)據(jù),民眾應該有控制權;假如用戶同意收集數(shù)據(jù),他們也應該有刪除數(shù)據(jù)的能力。而且數(shù)據(jù)的刪除應該及時生效,像人們更新他們的機器學習系統(tǒng)一樣快捷。
機器學習有沒有方法幫助人類突破樊籠?
我認為:在算法上存在這樣的機遇,即促進用戶接觸事物的多樣性。這肯定是我們在產(chǎn)品層面上思考的東西,我們想讓用戶接觸到一些讓他們思維激蕩的信息,而不是接觸完全符合他們當前思維的東西。
盡管機器現(xiàn)在可以自我訓練,但機器學習程序仍然是人類創(chuàng)造的。你是否強調團隊成員背景和文化的多樣性,借此確保團隊能誕生更強健的研究?
是的,絕對是這樣。計算機科學和機器學習正在全球范圍創(chuàng)造出有趣的新產(chǎn)品與應用,它們在影響幾十億人。于是,你會希望那些服務由使用它們的廣泛人群所創(chuàng)造。對我來說,重要的是我們要在全球范圍尋找有才華的人,他們有各種各樣的背景,幫助創(chuàng)造出新的機器學習算法、新的研究手段、新的產(chǎn)品。
我希望,研究人員和背景的多樣性能有助于機器學習和計算領域。