邵文澤 劉媛媛 許艷麗 陳龍 陳杰
摘要:在新一輪人工智能大潮中,機器學習擔當著人工智能核心算法引擎的作用。文章介紹了適于中高年級本科生吸收消化的三大主流機器學習思想及其代表性方法,旨在為學生后續(xù)進行擴展性和創(chuàng)新性的機器學習方法學習與研究打下良好基礎(chǔ)。
關(guān)鍵詞:連接主義;統(tǒng)計學習;符號學習;人工智能
中圖分類號:G642.0? ? ?文獻標志碼:A? ? ?文章編號:1674-9324(2020)10-0312-02
在當下算法、計算、場景驅(qū)動的新一輪人工智能大潮中,機器學習這門學科已當仁不讓地成為人工智能算法驅(qū)動力的核心引擎。人工智能歷經(jīng)60年的坎坷發(fā)展歷史,很大程度上也正是機器學習所經(jīng)歷的風雨洗禮。為此,本文梳理介紹了適于中高年級本科生吸收消化的三大主流機器學習思想及其代表性方法,從而為學生進行擴展性和創(chuàng)新性的機器學習方法學習與研究打下良好基礎(chǔ)。
一、符號機器學習
在20世紀80年代,“樣本集學習”的第一大主流就是符號機器學習,代表性工作包括決策樹學習和基于邏輯的學習。決策樹是一種樹型結(jié)構(gòu),其中每個內(nèi)部節(jié)結(jié)點表示在一個屬性上的測試,每一個分支代表一個測試輸出,每個葉結(jié)點代表一種類別。決策樹學習算法主要由三部分構(gòu)成:一是特征選擇;二是決策樹生成;三是決策樹剪枝。根據(jù)不同的目標函數(shù),決策樹生成代表性方法主要包括以下三種算法:Quinlan的ID3(1979,1986)、Breiman等人的CART(1984)以及Quinlan的C4.5(1993)。主要區(qū)別在于選擇的目標函數(shù)不同。簡單地說,決策樹學習具有以下優(yōu)點:一是決策樹易于理解和解釋;二是可同時處理標稱型和數(shù)值型數(shù)據(jù);三是比較適合處理有缺失屬性的樣本;四是能處理不相關(guān)的特征;五是測試階段效率較高。而決策樹學習的缺點也有幾點:一是容易過擬合,基于集成學習的隨機森林正是減少這種過擬合的一劑良藥;二是容易忽略屬性的相互關(guān)聯(lián);三是對于各個類別樣本數(shù)量不一致的數(shù)據(jù)?;谶壿嫷膶W習以規(guī)則學習(rule learning)為基礎(chǔ),代表性工作是歸納邏輯程序設(shè)計(Inductive Logic Programming)。ILP在一階規(guī)則學習中引入了函數(shù)和邏輯表達式嵌套。一方面,機器學習系統(tǒng)具備了更為強大的表達能力;另一方面,ILP可看作用機器學習技術(shù)解決基于背景知識的邏輯程序歸納。因此,ILP不僅可以利用領(lǐng)域知識輔助學習,還可通過學習對領(lǐng)域知識進行精華和增強。然而,由于ILP的表示能力太強,直接導致學習過程面臨的假設(shè)空間太大、復(fù)雜度極高,因此在20世紀90年代中期后這方面的研究相對陷入低潮。
二、統(tǒng)計機器學習
統(tǒng)計學習在20世紀90年代中期逐漸成為機器學習研究的主流,代表性方法是1995年Cortes和Vapnik提出的SVM。事實上,Vapnik在20世紀60年代就已提出“支持向量”的概念,SVM只是從這個統(tǒng)計理論派生的自然結(jié)果。根據(jù)統(tǒng)計學中的大數(shù)定律,對于一個學習模型f,當樣本點的個數(shù)趨于無窮大時,經(jīng)驗風險將依概率收斂于期望風險。對于線性可分問題,如劃分兩個不相交的凸閉集,統(tǒng)計機器學習的算法設(shè)計就轉(zhuǎn)化為有效地計算兩個閉凸集之間的最大邊緣間隔問題(樣本集的結(jié)構(gòu)),即SVM的算法思想之源。對于線性不可分問題,進一步根據(jù)泛函分析中的Mercer定理,SVM把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題。然而,由于大多數(shù)情況下樣本集在統(tǒng)計上不能滿足一致性假設(shè)(同分布),基于集成的多分類機器學習成為SVM的一種有效補充。其核心思想是,集成多個弱分類器,則其分類能力可以成為一個強分類器。之后,Kearns和Valliant提出了強PAC學習和弱PAC學習的概念。1998年,Schapire等人從邊緣出發(fā)證明了關(guān)于Boosting方法的泛化不等式,其中存在一個類似于前文統(tǒng)計機器學習理論的邊緣變量。1997年Freund和Schapire提出的AdaBoost才具有現(xiàn)實價值。此外,集成學習的另一類重要方法是Bagging。隨機森林(random forest)就是Bagging的一個擴展變體,它是在以決策樹為基學習器構(gòu)建Bagging集成的基礎(chǔ)上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。但Bagging的工作機理和理論性質(zhì)與Boosting有著明顯區(qū)別。例如,從偏差-方差分解的角度看,Boosting主要關(guān)注降低偏差,而Bagging主要關(guān)注降低方差。自然地,也有Multi Boosting等方法嘗試將二者的優(yōu)點加以結(jié)合。
三、連接機器學習
以Perceptron為源頭的連接機器學習在經(jīng)歷兩次興起和低谷后,終于在2006年以深度學習之名再次興起。深度學習之所以被稱為“深度”,是相對支持向量機SVM、提升方法Boosting、最大熵方法等“淺層學習”方法而言的。深度學習模型和傳統(tǒng)淺層學習模型的區(qū)別為:(1)深度學習模型結(jié)構(gòu)含有更多的層次,包含隱層節(jié)點的層數(shù)通常在5層以上,有時甚至包含多達10層甚至100層以上的隱藏節(jié)點。(2)明確強調(diào)了特征學習對于深度模型的重要性,通過逐層特征提取,將數(shù)據(jù)樣本在原空間變換到一個新特征空間來表示初始數(shù)據(jù),使得分類或預(yù)測更容易實現(xiàn)。2011年微軟通過采用深度學習技術(shù),大大降低了語音識別的錯誤率。2012年時任谷歌核心人工智能專家的吳恩達聯(lián)手Jeff Dean一起完成了谷歌大腦系統(tǒng);微軟的首席工程師Rick Rashid展示了一個基于深度學習的自動同聲傳譯系統(tǒng),得到好評。2013年,中國百度公司宣布成立百度研究院,成立深度學習研究所。2017年,AlphaGo在中國烏鎮(zhèn)圍棋峰會上,與排名世界第一的柯潔對戰(zhàn),以3∶0的比分大獲全勝。目前,深度學習方法根據(jù)其具體使用的方法結(jié)構(gòu)不同,分為生成式模型、判別式模型和混合式模型三種。隨著深度學習研究的熱潮持續(xù)高漲,各種開源的深度學習框架也開始涌現(xiàn)出來,其中包括最常用的Torch、Keras、Theano、PyTorch、Tensorflow等。與其他機器學習方法相比,深度學習往往不需要特征工程,也更容易適應(yīng)不同的領(lǐng)域和應(yīng)用;但其明顯的缺點是,在實際問題中,為了實現(xiàn)高性能,往往需要依賴大量標注數(shù)據(jù)??傮w來說,目前深度學習領(lǐng)域還缺乏嚴格的理論基礎(chǔ),工程實踐超前,理論進展嚴重滯后,還存在非常廣闊的學術(shù)研究和工程實踐空間。
四、總結(jié)
本文梳理了適于中高年級本科生吸收消化的三大主流機器學習思想及其代表性方法,期望為學生進行擴展性和創(chuàng)新性的機器學習方法學習與研究打下良好基礎(chǔ)。注意到,機器學習領(lǐng)域還有三種經(jīng)典技術(shù)路線本文沒做具體介紹,包括貝葉斯機器學習、進化機器學習以及強化機器學習。在教學時間充足或?qū)W生學有余力的情況下,我們也會以補充材料的形式向?qū)W生做相關(guān)推介??梢钥隙ǖ氖?,當學生在大學提前進入課題組做具體的科研創(chuàng)新項目時,我們會進一步向他們系統(tǒng)介紹關(guān)于符號、統(tǒng)計、連接、貝葉斯、進化以及強化機器學習的相關(guān)知識、前沿研究與實踐經(jīng)驗。尤其在機器學習方法本身的創(chuàng)新性方面,我們將著重引導學生進行符號學習、連接學習、貝葉斯學習的大融合發(fā)展。這是因為,我們深信真正的人工智能一定是聯(lián)合人類自身的推理能力(顯性或隱性)和數(shù)據(jù)驅(qū)動的機器學習能力才將得以實現(xiàn)。
參考文獻:
[1]周志華.機器學習[M].北京:清華大學出版社,2016.
[2]王玨,石純一.機器學習研究[J].廣西師范大學學報(自然科學版),2003,21(2):1-15.
[3]中國電子技術(shù)標準化研究院.人工智能標準化白皮書[R].2018.
[4]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327-336.
[5]孫正雅,陶卿.統(tǒng)計機器學習綜述:損失函數(shù)與優(yōu)化求解[J].中國計算機學會通訊,2009,5(8):7-14.
[6]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.
On the Three Main Lines of Machine Learning Knowledge Imparting and Scientific Research Literacy Cultivation for Middle and Senior Grade Undergraduates
SHAO Wen-ze,LIU Yuan-yuan,XU Yan-li,CHEN Long,CHEN Jie
(College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing,Jiangsu 210003,China)
Abstract:In the new wave of artificial intelligence,machine learning acts as the engine of the core of artificial intelligence.This paper introduces three main machine learning ideas and representative methods suitable for the absorption and digestion of middle-class undergraduates,and aims to lay a good foundation for the follow-up of the students and the learning and research of the innovative machine learning methods.
Key words:connectionism;statistical learning;symbolic learning;artificial intelligence