目前,人工智能面臨的挑戰(zhàn)有:一、人工智能很難定義問題;二、不能完全自動化地收集數(shù)據(jù);三、好的應(yīng)用模型還不能和業(yè)務(wù)邏輯完美結(jié)合。
—微眾銀行首席人工智能官楊強
首先,我們把人類學習和機器學習進行對比。人的大腦由很多個神經(jīng)元組成,我們的神經(jīng)元組成我們的機制。不同的神經(jīng)元之間可能有連接,連接管道的粗細代表我們學習的強度。
人類學習新知識的時候,經(jīng)常會接觸一些新的概念,大腦會加強對新概念、新知識的記憶。我們可以把這個理念賦予計算機,形成我們熟知的計算機神經(jīng)網(wǎng)絡(luò),也是我們今天深度學習得以成功的一個最基本的單元。一個神經(jīng)網(wǎng)絡(luò)有輸入,也有輸出,輸入和輸出之間的學習過程,會把兩個神經(jīng)元之間的連接加強或者減弱,形成一個網(wǎng)絡(luò)。
人工智能的成功不僅取決于算法的成功,更取決于硬件方面的突破,以及大數(shù)據(jù)技術(shù)的發(fā)展。
人工智能算法的設(shè)計需要很多模型的支持,包括神經(jīng)元和神經(jīng)元之間的連接、深度學習網(wǎng)絡(luò)等。那么由誰來搭建這樣一個網(wǎng)絡(luò)?這就需要人工智能工程師。
我們知道,人工智能領(lǐng)域的人才少、培養(yǎng)時間長、投入成本高。我們很自然會提出這樣的問題,我們有沒有可能用AI設(shè)計AI?這可以解決很多企業(yè)、行業(yè)所面臨的AI人才嚴重不足的問題。要解決這樣的問題,我們不妨看看人工智能解決此類問題的流程。
首先,我們要定義問題。我們把一個問題從現(xiàn)實場景,如金融、制作,變成人工智能的目標,我們把它稱之為目標函數(shù)。同時,我們要定義問題解決時的約束條件,我們把這些約束條件變成數(shù)學公式,把行業(yè)中遇到的問題變成一個數(shù)學問題,這個過程就像藝術(shù)一樣。但是這個過程很難自動化,很難用人工智能的方式進行改造。
其次,我們要收集數(shù)據(jù)。收集數(shù)據(jù)看上去很簡單,但實際上需要很多人的力量。數(shù)據(jù)不一定在本地存儲,很多數(shù)據(jù)需要通過人與人的溝通來獲得,或者通過兩個不同機構(gòu)之間的戰(zhàn)略聯(lián)系來獲得。并且因為監(jiān)管的緣故,數(shù)據(jù)不能很簡單地從一個地方傳到另一個地方。所以,收集數(shù)據(jù)是不能實現(xiàn)完全自動化的。
假設(shè)我們有了足夠的數(shù)據(jù),我們還要在數(shù)據(jù)里抽取足夠多的特征,形成可以訓(xùn)練模型的數(shù)據(jù),再進行模型的訓(xùn)練和評估。特征的提煉工程、模型訓(xùn)練和模型評估,這三部分是可以實現(xiàn)自動化的。
最后,我們要凝聚力量來形成好的模型應(yīng)用。因為這個應(yīng)用要和業(yè)務(wù)的邏輯相結(jié)合,業(yè)務(wù)邏輯本身存儲在很多人的大腦里,現(xiàn)在還不能用一個數(shù)學公式來表示。
現(xiàn)在有一個新的人工智能方向—AutoML,主要思想是把數(shù)據(jù)處理、特征處理、模型選擇和模型優(yōu)化全部自動化。不僅如此,它還需要把網(wǎng)絡(luò)架構(gòu)部分自動化,比如這些網(wǎng)絡(luò)是如何連接的,他們連接的頻度,對內(nèi)和對外應(yīng)該怎么設(shè)計才能使數(shù)學公式得到最佳的優(yōu)化。
在只有小數(shù)據(jù)的情況下,如何享受到人工智能的紅利?在企業(yè),數(shù)據(jù)分散在不同的部門,不同的企業(yè)有不同的分散數(shù)據(jù)。比如在醫(yī)療上,如果利用人工智能,我們會發(fā)現(xiàn)不同的醫(yī)院有不同的圖像數(shù)據(jù),現(xiàn)在還沒有比較好的辦法把這些分散的數(shù)據(jù)聚集在一起形成大數(shù)據(jù)。針對這個問題,人工智能技術(shù)設(shè)計者自然會設(shè)想一些新的算法?,F(xiàn)在有一個算法可以很好地解決小數(shù)據(jù)的問題—遷移學習,所謂遷移學習就是用類比的方法把一個已經(jīng)建立好的模型和一個有大數(shù)據(jù)的領(lǐng)域的知識遷移到只有小數(shù)據(jù)的領(lǐng)域。我們發(fā)現(xiàn)在成熟領(lǐng)域數(shù)據(jù)足夠大的前提下,我們可以非常好地實現(xiàn)遷移學習。
我們的最終目的是獲得一個好的模型,我們把這個模型類比成一只被飼養(yǎng)的羊,數(shù)據(jù)就像草一樣,要想讓羊吃到草,我們就要收集在不同的地方的草,就像我們到不同企業(yè)收集數(shù)據(jù)一樣。但是現(xiàn)在我們不能把數(shù)據(jù)就像草一樣堆集起來,我們就可以用另一種辦法,讓這只羊在草堆里走來走去,使得羊在草不挪地兒的情況下同樣可以長大,這種做法就是聯(lián)邦學習(Federated Learning)。
在云端的用戶群中,每個手機其實都是一個用戶,這些用戶之間有很大的重疊性,因為每個手機收集的數(shù)據(jù)是差不多的,我們要利用橫向?qū)W習建立剛才說的聯(lián)邦學習模型,收集不同的用戶特征,兼顧用戶群的重疊性,利用這些重疊的用戶不同的特征建立一個更好的模型。當用戶和特征沒有重疊,我們也有辦法,我們將遷移學習和聯(lián)邦學習結(jié)合起來,稱之為聯(lián)邦遷移學習。
最后,我要向大家介紹微眾銀行的AI。微眾是一家互聯(lián)網(wǎng)銀行,7×24小時在線上運營?,F(xiàn)在它的用戶群數(shù)量在1.5億以上,主要面向數(shù)百萬的小微企業(yè)服務(wù)。
我們的AI部門現(xiàn)在的發(fā)力方向包括人臉識別、反欺詐、AI+廣告營銷、AI+新型數(shù)據(jù),以及用聯(lián)邦學習做風險控制模型等。
聯(lián)邦學習的例子有很多,比如與供應(yīng)鏈的結(jié)合、和新零售的結(jié)合等。同時我們發(fā)布了世界上第一個聯(lián)邦學習的開源軟件,并被Linux基金會承認接受。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)