李生 蘇功臣
算法、數(shù)據(jù)、算力三方面相關(guān)技術(shù)不斷進(jìn)展,最終促成了最近一次人工智能大發(fā)展。人工智能的四個(gè)方面,計(jì)算、感知、認(rèn)知、決策,“我中有你、你中有我”,連續(xù)向前。從宏觀上看,現(xiàn)在人工智能正在從感知走向認(rèn)知,通過深度學(xué)習(xí)的算法,感知智能已經(jīng)有了很大突破,但是對(duì)于認(rèn)知智能,它還剛剛開始或者說還在路上。
人工智能從1956年達(dá)特茅斯會(huì)議之后經(jīng)歷了三起兩落。2016年AlphaGo人機(jī)大戰(zhàn)轟動(dòng)世界,迎來了人工智能第三次高潮。這一輪高潮的興起得益于基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,使得在感知智能上取得突破,并在產(chǎn)業(yè)界的多種場(chǎng)景下廣泛應(yīng)用。但是,當(dāng)前的人工智能還稱不上真正的人工智能。未來必須加強(qiáng)基礎(chǔ)理論研究,以求在認(rèn)知智能方面取得技術(shù)突破,開辟一條人工智能發(fā)展新路徑。
一、人工智能的“三叉戟”
這輪人工智能高潮的到來,主要依賴三個(gè)方面的進(jìn)步:算法、數(shù)據(jù)、算力。在這三個(gè)方面中,算法是工具,數(shù)據(jù)是原材料,以及把原材料送到算法工具里面加工所需的動(dòng)力能源——算力。
目前作為工具的算法,采用了基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)。這種深度學(xué)習(xí)結(jié)構(gòu)受人的大腦工作機(jī)理和結(jié)構(gòu)的啟發(fā),方法上是對(duì)數(shù)據(jù)進(jìn)行概率統(tǒng)計(jì)分析。
大數(shù)據(jù)的出現(xiàn)使得深度學(xué)習(xí)算法的準(zhǔn)確率大幅提升。大數(shù)據(jù)是由于計(jì)算機(jī)特別是互聯(lián)網(wǎng)的興起之后,包括各種企業(yè)事業(yè)各種數(shù)據(jù)、社會(huì)科學(xué)人際交往的信息,被記錄保存起來,用于社會(huì)計(jì)算。但是,用于人工智能對(duì)大數(shù)據(jù)也有較高要求。首先數(shù)據(jù)是經(jīng)過標(biāo)注的大數(shù)據(jù),比如有一張圖片標(biāo)注這是個(gè)貓,另外圖片標(biāo)注是個(gè)狗,等等。其次數(shù)據(jù)標(biāo)注的質(zhì)量要高,質(zhì)量不高、標(biāo)注不準(zhǔn)確,就容易造成最后結(jié)論偏差。再次是標(biāo)準(zhǔn)的數(shù)據(jù)分布的面要廣泛、合理。比如一個(gè)動(dòng)物標(biāo)注的顏色過多了,但是對(duì)其它方面比如眼睛、耳朵什么的標(biāo)注少了,就容易產(chǎn)生偏差。最后要求標(biāo)注的數(shù)據(jù)量要大,經(jīng)常是幾千萬上億的數(shù)據(jù)量。
數(shù)據(jù)在算法加工過程當(dāng)中需要強(qiáng)大的計(jì)算能力和存儲(chǔ)空間,也就是需要強(qiáng)大的算力。早先計(jì)算機(jī)主要的功能是計(jì)算和存儲(chǔ),CPU芯片主要為計(jì)算服務(wù)?,F(xiàn)在進(jìn)入人工智能階段之后,它涉及的計(jì)算量大,而且主要是矩陣運(yùn)算,而CPU在線性的加減乘除運(yùn)算表現(xiàn)出色,但微分積分、矩陣運(yùn)算就相對(duì)比較困難了。所以現(xiàn)在是借用了游戲當(dāng)中的處理矩陣運(yùn)算的GPU器件進(jìn)行運(yùn)算。另外,云計(jì)算的出現(xiàn),也提高了計(jì)算能力。它實(shí)際上是一種虛擬計(jì)算,是把多臺(tái)計(jì)算機(jī)聯(lián)網(wǎng)之后,分配任務(wù),進(jìn)行分布式運(yùn)算,完成之后匯總再由一臺(tái)計(jì)算機(jī)呈現(xiàn)結(jié)果。
二、人工智能四階段
算法、數(shù)據(jù)、算力三方面相關(guān)技術(shù)不斷進(jìn)展,最終促成了最近一次人工智能大發(fā)展。往前回溯,人工智能的起源在于人的智能。那么,什么是人的智能?
我們知道,人類是人、機(jī)、物三元世界的核心。人類的生活、生存要依賴物(物質(zhì)、環(huán)境等),欲提高生活生存的質(zhì)量需要機(jī)(工具、蒸汽機(jī)、電動(dòng)機(jī)、計(jì)算機(jī)、互聯(lián)網(wǎng)、人工智能等)的輔助。從歷史上看,工業(yè)社會(huì)減輕了人的體力勞動(dòng);未來高度智能化的社會(huì)必將減輕和拓展人的腦力勞動(dòng)。人類所具有的智能,來源于知識(shí),而知識(shí)在于學(xué)習(xí)。智能則是學(xué)習(xí)和求解問題的能力。這是推動(dòng)人類進(jìn)步和社會(huì)發(fā)展的強(qiáng)大動(dòng)力,也是人具有的區(qū)別于其他動(dòng)物的能力。
簡(jiǎn)單說,人工智能就是模仿或者模擬人類智能的能力,是用計(jì)算機(jī)來模仿人類學(xué)習(xí)和求解問題的能力。“看”和“聽”對(duì)人類認(rèn)識(shí)世界具有決定性作用,但是看到的和聽到的并不一定都是真實(shí)的——這里存在知覺偏差的問題。所以我們強(qiáng)調(diào)要透過現(xiàn)象看本質(zhì),也就是說存在著“感知—現(xiàn)象”“認(rèn)知—本質(zhì)”兩對(duì)相應(yīng)的概念。認(rèn)知的核心是反饋,是一個(gè)“抽象迭代——思維推理”的過程,所以才有“學(xué)而不思則罔”“不是收到籃子里的都是菜”的說法。
因此,人工智能仿照人的智能從根本上來說有兩項(xiàng)大任務(wù),一項(xiàng)是模式識(shí)別,采用統(tǒng)計(jì)方法得到感知,從經(jīng)驗(yàn)當(dāng)中學(xué)習(xí);一項(xiàng)是語義理解,用邏輯推理或知識(shí)推理的方法以求解決“認(rèn)知”的問題。
具體說來,人工智能包含四個(gè)方面,計(jì)算、感知、認(rèn)知、決策。計(jì)算機(jī)于1946年問世,當(dāng)時(shí)的主要功能是數(shù)值計(jì)算,當(dāng)然也就具備計(jì)算智能。到1956年,在達(dá)特茅斯會(huì)議上提出讓計(jì)算機(jī)來模擬人的智能,才正式出現(xiàn)了“人工智能”的概念。人憑借著五官感覺外部事物,感覺、感知周圍環(huán)境,那么機(jī)器就通過傳感器來模仿人的感覺器官,來感知世界和外部環(huán)境,所產(chǎn)生的信息經(jīng)過機(jī)器的中樞進(jìn)行加工,實(shí)際上是對(duì)感知階段感知到世界和外部的信息進(jìn)行深層次的加工和處理,這就是機(jī)器智能的認(rèn)知階段,然后再產(chǎn)生決策。這其中最重要的是感知和認(rèn)知。
人工智能這幾個(gè)方面有什么區(qū)別和聯(lián)系?計(jì)算智能的實(shí)現(xiàn),首先需要問題的數(shù)據(jù)化,才能有計(jì)算智能可以處理的“原材料”。另外,問題的解決還需要一定的方法、策略和步驟,這個(gè)步驟就是程序,即用計(jì)算機(jī)語言編程。這些程序告訴機(jī)器,解決和處理問題的過程,先做哪個(gè),后做哪個(gè)。但是在計(jì)算智能階段,這個(gè)程序需要人工編寫,涉及到的工作量很大。發(fā)展到感知智能之后,解決了由人來編程工作量大的問題,程序的編制由機(jī)器自己自動(dòng)完成了。程序自動(dòng)化從發(fā)展來看也是經(jīng)歷了從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的階段。數(shù)據(jù)特征在機(jī)器學(xué)習(xí)階段是靠人工提取的,而發(fā)展到現(xiàn)在用深度學(xué)習(xí)的方法,數(shù)據(jù)特征實(shí)現(xiàn)了由機(jī)器自動(dòng)提取。
需要強(qiáng)調(diào)的是,人工智能發(fā)展的這四個(gè)階段并不是截然分開的,而是既有階段性又有連續(xù)性。在發(fā)展感知智能的過程中,就在為認(rèn)知智能做相應(yīng)的工作。當(dāng)初馮·諾伊曼和圖靈同時(shí)發(fā)明了計(jì)算機(jī)的體系結(jié)構(gòu),計(jì)算機(jī)問世,主要解決的是計(jì)算智能的問題。但是圖靈在那個(gè)時(shí)代,已經(jīng)為人工智能做起了儲(chǔ)備,已經(jīng)提出著名的“圖靈測(cè)試”問題,預(yù)測(cè)了下一個(gè)階段的實(shí)踐,推動(dòng)了第二個(gè)階段的發(fā)展。感知智能、認(rèn)知智能有階段性,但是階段也是“我中有你、你中有我”,之間存在著連續(xù)性。
三、深度學(xué)習(xí)的崛起
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種。機(jī)器學(xué)習(xí)是先用數(shù)據(jù)訓(xùn)練(學(xué)習(xí))模型,獲得規(guī)律(知識(shí)),再用訓(xùn)練好的模型去預(yù)測(cè)未知數(shù)據(jù)。運(yùn)用數(shù)據(jù)訓(xùn)練好了的算法,叫模型,無須人工預(yù)先編程。在學(xué)習(xí)的過程中,算法、數(shù)據(jù)、算力三個(gè)要素,核心是算法。
現(xiàn)在感知智能階段采用了深度學(xué)習(xí)的算法。這種算法的設(shè)想在上個(gè)世紀(jì)五六十年代就已經(jīng)有了,但設(shè)想還不完善,另外還沒有數(shù)據(jù)的支撐和算力的支持。直到2006年,Hinton,這位被譽(yù)為深度學(xué)習(xí)之父的大師,提出了反向傳播(BP)算法,解決了訓(xùn)練誤差的問題,深度學(xué)習(xí)才開始嶄露頭角。2012年,在BP算法基礎(chǔ)上發(fā)展起來的CNN算法,在世界圖像識(shí)別大賽上,與世界各地的學(xué)者推出的各色算法、模型一較高低,成績(jī)突出,其準(zhǔn)確率高出第二名10%左右,準(zhǔn)確率達(dá)到85%,一舉拔得頭籌。這種新算法于是被世界各國(guó)的學(xué)者青睞。時(shí)隔四年,2016年,計(jì)算機(jī)AlphaGo和韓國(guó)圍棋大師人機(jī)大戰(zhàn),取得了4勝1負(fù)的成績(jī),引起人們廣泛關(guān)注和高度重視,直接助推第三次人工智能高潮的到來。
深度學(xué)習(xí)的多層人工神經(jīng)網(wǎng)絡(luò)是由一個(gè)輸入層一個(gè)輸出層及若干個(gè)隱含層所組成,每層中的人工神經(jīng)元與相鄰層中的神經(jīng)元相連接。隱含層一步一步對(duì)數(shù)據(jù)進(jìn)行逐層深加工。腦科學(xué)研究表明,人類大腦大約由850億個(gè)神經(jīng)元組成,每個(gè)神經(jīng)元約有1000個(gè)突觸與其相連。當(dāng)神經(jīng)元受到刺激而興奮時(shí),就會(huì)向與其相連接的神經(jīng)元傳遞脈沖,從而改變這些神經(jīng)元中的電位,超過某一“閾值”的話,該神經(jīng)元就會(huì)被“激活”,即也隨之“興奮”,興奮起來的神經(jīng)元又會(huì)向與其連接的神經(jīng)元傳遞神經(jīng)脈沖。大腦皮層的神經(jīng)元通過突觸相連,分層分區(qū)形成神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的結(jié)構(gòu)是受腦啟發(fā)的多層人工神經(jīng)網(wǎng)絡(luò),信息處理過程是分層的,具有非線性處理、自動(dòng)提取特征的特點(diǎn),高層特征是底層特征的組合,從底層到高層特征的表示越來越抽象,越來越能表現(xiàn)語義或意圖。 深度學(xué)習(xí)算法尤其是與大數(shù)據(jù)結(jié)合之后,把其他人工智能技術(shù)遠(yuǎn)遠(yuǎn)拋在了后面,成為引領(lǐng)人工智能發(fā)展的核心技術(shù)。
深度學(xué)習(xí)在感知上已經(jīng)有重大突破,特別在識(shí)別上,現(xiàn)在刷臉隨處可見,語音識(shí)別在同聲傳譯上取得很大成就,在自然語言處理(NLP)也取得了進(jìn)步。在NLP上,用深度學(xué)習(xí)的辦法,把一個(gè)句子或者一個(gè)短語、詞組投影到一個(gè)向量空間當(dāng)中的詞(句子)嵌入法來識(shí)別。2017年谷歌公司推出一款軟件BERT,其思路就是把算法編制過程所涉及到的通用部分,單獨(dú)拿出來,預(yù)先做好,做成一個(gè)網(wǎng)上開放的公用平臺(tái)。其他開發(fā)者下載這個(gè)通用平臺(tái),通過預(yù)留的接口再和自己專用的部分進(jìn)行微調(diào),完成自己開發(fā)任務(wù)。這種“預(yù)訓(xùn)練+微調(diào)”范式就是利用了深度學(xué)習(xí)的辦法而取得的重大突破。
四、當(dāng)前深度學(xué)習(xí)的局限性
隨著研究和應(yīng)用的不斷深入,人們也發(fā)現(xiàn)目前感知智能采用的深度學(xué)習(xí)算法有其局限性。人具有意識(shí),有情感,能夠進(jìn)行思維,能夠推理。與之相比,目前人工智能沒有意識(shí),沒有情感,不會(huì)思維,不會(huì)推理。人類的學(xué)習(xí)在于,能從僅有的少數(shù)幾個(gè)例子中,快速掌握新的知識(shí)(小樣本學(xué)習(xí)),并利用先前已有的知識(shí)進(jìn)行歸納推理(歸納與演繹方法結(jié)合),提高對(duì)問題的理解和認(rèn)知能力。這種推理和知識(shí)也是滾雪球的,有個(gè)積累的過程。機(jī)器就沒有這種功能,所以深度學(xué)習(xí)有其局限性。
局限性主要體現(xiàn)在四個(gè)方面。一個(gè)是“貪婪”,也即要求標(biāo)注的數(shù)據(jù)越多越好,但標(biāo)注成本太大也太難。第二個(gè)是“脆弱”,就是抗干擾能力低,容易被虛假數(shù)據(jù)欺騙,比如一個(gè)面包烤箱,如果前面給放上一塊香蕉皮,這個(gè)烤箱就不能準(zhǔn)確識(shí)別出來,可能識(shí)別是一個(gè)面包機(jī)。所以從這點(diǎn)說,深度學(xué)習(xí)的辦法是從眾的,運(yùn)用概率統(tǒng)計(jì)的方法,講的是少數(shù)服從大多數(shù),但是真理往往掌握在少數(shù)人手里,少的也可能是正確的。所以這種算法的“脆弱”有的時(shí)候?qū)е乱话賯€(gè)謬誤就可能變成真理。第三個(gè)局限性是它不透明,暗箱操作,出錯(cuò)了,但不知錯(cuò)在哪兒,沒法回溯去找。第四個(gè)就是它不具備思考和知識(shí)推理能力,所以“淺薄”,只知道“什么”,不知道“為什么”,知其然不知其所以然。這就是目前人工智能主流的深度學(xué)習(xí)算法有其不足、有局限性的地方。
針對(duì)這些存在的局限,今后人工智能發(fā)展的方向是從感知走向認(rèn)知,從識(shí)別走向理解。
五、從計(jì)算機(jī)視覺(CV)到自然語言處理(NLP)
人類對(duì)世界的認(rèn)識(shí)可分成感性認(rèn)識(shí)和理性認(rèn)識(shí)兩種。感性認(rèn)識(shí)只能看到事物的表象,理性認(rèn)識(shí)才能察覺到事物的本質(zhì)。感性認(rèn)識(shí)是認(rèn)識(shí)的基礎(chǔ),是認(rèn)識(shí)的初級(jí)階段,理性認(rèn)識(shí)是認(rèn)識(shí)的高級(jí)階段。只有理性認(rèn)識(shí)才能透過現(xiàn)象看到本質(zhì),更深刻、更全面、更可靠地反映事物的本來面目,引導(dǎo)人們按規(guī)律辦事,有效改造世界。
人工智能是對(duì)人類智能的模擬,感知智能對(duì)應(yīng)著感性認(rèn)識(shí)(識(shí)別),認(rèn)知智能則對(duì)應(yīng)著理性認(rèn)識(shí)(理解)。
計(jì)算機(jī)的感知智能,目前通過深度學(xué)習(xí)方法,具備了圖像識(shí)別、物體識(shí)別或語音識(shí)別的能力,能“看”出有這么個(gè)形狀、這個(gè)樣子,從邊框到形狀,能將人說的話識(shí)別成文本,完成這些任務(wù)機(jī)器都可以靠從數(shù)據(jù)(經(jīng)驗(yàn))中學(xué)習(xí),搜索(比對(duì)),獲取知識(shí)(還是處于感知階段)不需要真正的理解(認(rèn)知)。由于目前的人工智能還不具備真正的理解能力,對(duì)識(shí)別出的結(jié)果到底是什么,可以發(fā)揮什么作用不清楚。由感知到認(rèn)知,需要解決的重點(diǎn)和難點(diǎn)在于語義的理解,或者叫做意圖的理解,這主要涉及到自然語言處理。
人的語言具有歧義性(一詞多義)和多樣性(一義多詞),比如說一個(gè)“打”字就可以表達(dá)多個(gè)意思,打醬油、打乒乓球、打架、打黑等;一個(gè)詞組也存在多意性的問題,比如“打傘”既可以是打開雨傘,也可以是打擊黑惡勢(shì)力的保護(hù)傘;同一句話也有不同的意思,比如說“中國(guó)這個(gè)球隊(duì)誰也打不過”,既可以理解是世界無敵,誰也贏不了這支球隊(duì),也有可能是自身很弱,遇誰輸誰。同時(shí),語義理解高度依賴知識(shí),除上下文之外,還有語言知識(shí)(語法結(jié)構(gòu))、專業(yè)知識(shí)、背景知識(shí)、常識(shí)性知識(shí)和先驗(yàn)知識(shí)等。此外,語言存在著高度的開放性(新詞不斷涌現(xiàn))和高度的靈活性(隨意組合)。因此,Hinton說:“深度學(xué)習(xí)下一個(gè)大的進(jìn)展應(yīng)該是讓神經(jīng)網(wǎng)絡(luò)真正理解文檔的內(nèi)容”。比爾·蓋茨說:“語言理解是人工智能領(lǐng)域皇冠上的明珠”。
現(xiàn)在人工智能正在從感知走向認(rèn)知,通過深度學(xué)習(xí)的算法,感知智能已經(jīng)有了很大突破,但是對(duì)于認(rèn)知智能,它還剛剛開始或者說還在路上。
六、人工智能的未來
人工智能進(jìn)一步的發(fā)展必須逾越人類大腦思維能力鴻溝,解決不了推理問題,機(jī)器就難以實(shí)現(xiàn)真正的認(rèn)知。不具有完全推理的人工智能還不是真正的人工智能。人工智能的未來應(yīng)該是逐漸逼近人類智能,可能會(huì)有人腦思維和電腦思維兩種途徑。要從二者的差異入手,找出人工智能未來發(fā)展的出路。因此,深度學(xué)習(xí)未必是人工智能發(fā)展的唯一。要突破當(dāng)前的人工智能只歸類、不了解其中內(nèi)涵的局限性,既要統(tǒng)計(jì),也要推理。
人工智能未來要實(shí)現(xiàn)可持續(xù)發(fā)展,需要“兩個(gè)加強(qiáng)、三個(gè)結(jié)合”,具體來說,一是加強(qiáng)基礎(chǔ)理論研究,其中包括對(duì)腦科學(xué)和認(rèn)知科學(xué)的研究,對(duì)微積分、線性代數(shù)概率統(tǒng)計(jì)邏輯推理等方面的數(shù)學(xué)研究,對(duì)算法、結(jié)構(gòu)等在內(nèi)的計(jì)算機(jī)科學(xué)研究。二是加強(qiáng)基礎(chǔ)設(shè)施建設(shè),包括芯片、傳感器、公共通用的算法、平臺(tái),等等。三個(gè)結(jié)合指的是軟件算法與硬件芯片結(jié)合,知識(shí)推理與數(shù)據(jù)統(tǒng)計(jì)結(jié)合,機(jī)器計(jì)算與人類認(rèn)知結(jié)合。
因此,技術(shù)理論上要學(xué)科交叉,用腦科學(xué)帶動(dòng)數(shù)學(xué)和計(jì)算機(jī)科學(xué),核心在算法。只有在基礎(chǔ)理論研究上取得根本性突破,打造專用芯片,使硬件與算法結(jié)合;突破知識(shí)推理,統(tǒng)計(jì)與推理結(jié)合,人工智能才能避免走進(jìn)死胡同。
總之,機(jī)器永遠(yuǎn)是人類的助手和工具。面對(duì)它,掌握它,用好它,人機(jī)融合才是發(fā)展的出路。
(蘇功臣為哈爾濱工業(yè)大學(xué)離退休工作處處長(zhǎng))
責(zé)任編輯:王卓