冉智勇 胡包鋼
“辨識”概念起源于統(tǒng)計學,并在控制科學中得到了巨大的發(fā)展.根據(jù)文獻[1?2]記載,上世紀20年代,一些經(jīng)濟學家在統(tǒng)計推斷模型中首次提出了“辨識”概念及其相關(guān)問題.從1934年到1975年,一批經(jīng)濟學家對此做出了里程碑式的理論化奠基工作;這其中包括多個諾貝爾經(jīng)濟學獎得主,如1969年荷蘭經(jīng)濟學家Jan Tinbergen與挪威經(jīng)濟學家Ragnar A.K.Frisch,1975年美國經(jīng)濟學家Tjalling Koopmans,1989年挪威經(jīng)濟學家Trygve M.Haavelmo,以及2007年美國經(jīng)濟學家Leonid Hurwicz.在此期間,以“辨識”為標題的論文有Koopmans于1949年針對經(jīng)濟模型發(fā)表的文獻[3];而文獻[4]認為Haavelmo是辨識問題中給出通用與準確數(shù)學公式化的首位研究者,并明確指出它與估計問題的不同(“Haavelmo was the fi rst to give a general and precise mathematical formulation of the identi fi cation problem,and to distinguish it clearly from the estimation problem”).
在此之后,控制學界發(fā)展了基于控制理論的“辨識”研究.開創(chuàng)性工作有Zadeh于1956年針對黑箱系統(tǒng)建模問題[5]以及1962年針對“電阻–電感–電容”網(wǎng)絡系統(tǒng)[6]提出的辨識問題.根據(jù)文獻[4]評述,Zadeh與Kalman提出的辨識問題更強調(diào)(黑箱)模型的選擇與估計 (“For Zadeh or Kalman,identi fi cation is the selection and estimation of a model”),或者更側(cè)重“從樣本到總體(From sample to population)”.這不同于當時已有經(jīng)濟模型中辨識問題更強調(diào)“可辨識性(Identi fi ability)”,即更側(cè)重“從總體到結(jié)構(gòu)(From population to structure)”.在發(fā)展出狀態(tài)空間表示方法之后,控制學科為辨識理論體系產(chǎn)生出了許多獨有的學術(shù)貢獻和系統(tǒng)性研究工作[7?12].
從辨識研究的發(fā)展史可以看出,“辨識”是數(shù)學模型與控制系統(tǒng)中最核心和最基礎(chǔ)的研究內(nèi)容之一.雖然學界認為線性系統(tǒng)和模型辨識研究已經(jīng)成熟 (“System identi fi cation for linear systems and models is a well-established and mature topic)”,然而,Ljung指出辨識非線性模型是“更加豐富且嚴苛的領(lǐng)域”(“Identifying nonlinear models is a much more rich and demanding problem area”)[13].辨識概念及其研究主題不僅持續(xù)擴展其應用領(lǐng)域,而且已經(jīng)滋潤了其他學科的迅速發(fā)展.本文正是在統(tǒng)計機器學習研究背景下進行關(guān)鍵問題討論[14?15],這不同于經(jīng)典統(tǒng)計模型和控制模型[16?17].對于這樣十分活躍且為當下最為“顯學”的研究領(lǐng)域進行辨識主題的全面綜述無疑是很大的挑戰(zhàn),因此,我們把范圍限定為統(tǒng)計機器學習模型中的參數(shù)可辨識性.參數(shù)可辨識性是關(guān)于模型參數(shù)能否被唯一確定的性質(zhì),也是系統(tǒng)辨識理論研究中不可或缺的子問題.
機器學習研究本質(zhì)涉及到多種數(shù)學空間的學習.如果考察各個空間的關(guān)聯(lián)(圖1),可以把機器學習模型視為一個參數(shù)學習機;這也說明可辨識性是機器學習理論研究中的核心內(nèi)容之一.然而,目前它并沒有得到學術(shù)界的廣泛重視和深入系統(tǒng)性研究.本文從新視角定義的模型類別開始討論該專題,研究其中的兩個關(guān)鍵問題,特別強調(diào)對未來發(fā)展軌跡提出新的見解.
圖1 機器學習中各個空間關(guān)系示意圖[14]Fig.1 The relationship between various spaces in machine learning[14]
我們主要討論統(tǒng)計機器學習中有關(guān)參數(shù)可辨識性的關(guān)鍵問題.所以,我們把機器學習模型置于統(tǒng)計框架下.按照Amari等信息幾何的觀點[18],可以把參數(shù)化的統(tǒng)計分布族看作具有幾何結(jié)構(gòu)的統(tǒng)計流形,每一個具體的統(tǒng)計分布被視為統(tǒng)計流形上的一個點.因此,可辨識性問題考慮的是:對于給定的參數(shù)統(tǒng)計模型,是否存在不同的參數(shù)值,它們對應的統(tǒng)計分布是相同的.
在機器學習文獻中,與局部不可辨識等價的一個概念是奇異性(Singularity),如果一個統(tǒng)計模型的Fisher信息矩陣不是處處嚴格正定的,我們稱此模型為奇異學習機[19].奇異學習機在機器學習理論和應用中具有重要的地位[20?23].如果一個學習機具有層次結(jié)構(gòu)[24?26]、隱變量[27?28]、狀態(tài)變量[29?31]、討厭參數(shù)[32]、語法規(guī)則[23]、耦合的子模型[15,33]等,那么這個學習機通常是奇異的.基于奇異學習機在機器學習領(lǐng)域普遍存在,Watanabe指出:幾乎所有的學習機都是奇異的(Almost all learning machines are singular)[22].奇異學習機包括多層感知器、徑向基函數(shù)、高斯混合模型、玻爾茲曼機、Bayes網(wǎng)絡等.
在機器學習領(lǐng)域,相對于各種各樣具體的學習算法而言,與可辨識性有關(guān)的研究則顯得相對缺乏.長期以來,此問題并沒有得到廣泛的關(guān)注.直到近幾年,隨著日本學者Amari、Watanabe與Fukumizu等關(guān)于奇異學習理論的完善,越來越多的學者開始關(guān)注這一理論;這一點可以從近年來機器學習主流期刊和國際會議的文章數(shù)量看出來.這些理論成果主要得益于兩個方面:1)Amari的信息幾何理論[18];2)Watanabe基于代數(shù)幾何(Algebraic geometry)和代數(shù)分析的奇異學習理論[23].
針對機器學習領(lǐng)域中的可辨識性研究,本文以機器學習和神經(jīng)計算為應用背景,主要討論參數(shù)可辨識性研究在統(tǒng)計機器學習中的兩大關(guān)鍵問題,簡述其研究進展和研究難點,并提出若干瓶頸問題.第一個問題主要討論與可辨識性準則相關(guān)的幾個問題,其中包括判斷學習機器奇異的準則(因為模型奇異和模型局部不可辨識是等價的[34]),也包括判斷參數(shù)全局可辨識的準則(這對模型的可解釋性和透明度有重要意義).第二個問題主要討論奇異性對機器學習各個方面的影響;這種影響包括機器學習理論、參數(shù)估計、模型選擇、學習算法、學習過程動態(tài)分析、Bayesian推斷等.
對于可辨識性理論的研究,目前學界有不同的研究視角和問題側(cè)重.研究視角的差異源于數(shù)學模型類型的不同,或者由此限定的側(cè)重范圍,比如基于非線性性質(zhì)、靜動態(tài)性質(zhì)、統(tǒng)計性質(zhì)、數(shù)據(jù)類型、應用領(lǐng)域范圍等方式的傳統(tǒng)劃分.在本文中,我們試圖根據(jù)統(tǒng)計機器學習推理原理和極具發(fā)展前景的新模型(見圖2)視角進行考察.目前,多數(shù)機器學習模型應用“歸納(Induction)”推理原理(圖3);這包括當下流行的深度學習模型.由于該類模型依賴大量訓練數(shù)據(jù)和很少的先驗知識,所以稱為數(shù)據(jù)驅(qū)動模型.當完全沒有先驗知識時,模型參數(shù)可以任意給定并且不對應真實物理系統(tǒng)的物理意義,因此又稱“非參模型(Nonparametric model)”或“黑箱模型”.因此,使用者無法直接理解并解釋黑箱模型的物理內(nèi)涵和刺激–響應行為.與此對應的另一類模型是基于“演繹(Deduction)”推理原理的知識驅(qū)動模型;它通常根據(jù)第一性原理(First principle)或?qū)嶋H系統(tǒng)機理知識而構(gòu)造,其中模型參數(shù)個數(shù)不僅固定,而且具有明確的物理意義.
圖2 基于知識與數(shù)據(jù)共同驅(qū)動的機器學習模型(其中,兩個子模型通過耦合算子互相聯(lián)結(jié)[14?15])Fig.2 Knowledge-and data-driven machine learning model(within which two submodels are connected by a coupling operation[14?15])
本文討論的模型對象是“基于知識與數(shù)據(jù)共同驅(qū)動的模型”.圖2以簡化的方式示意了該類模型的結(jié)構(gòu)原理,并用如下函數(shù)形式表示:
其中,x與y分別是模型的輸入和輸出變量,f是整體(Complete)模型函數(shù),而fk與fd分別對應知識驅(qū)動(Knowledge-driven,KD)與數(shù)據(jù)驅(qū)動(Datadriven,DD)子模型函數(shù),它們相應的參數(shù)變量是θk和θd.由于θk對應物理意義的參數(shù),我們將其稱為物理參數(shù)變量.符號“⊕”記為“耦合算子(Coupling operator)”,它表示兩個子模型之間相互作用的運算.數(shù)據(jù)驅(qū)動子模型可以是機器學習中的決策樹、神經(jīng)元網(wǎng)絡或支持向量機等.對于式(1),如果模型函數(shù)f中包括時間變量t,則模型是動態(tài)系統(tǒng).
參數(shù)可辨識性研究在知識與數(shù)據(jù)共同驅(qū)動機器學習模型中具有重要的理論意義.知識驅(qū)動(子)模型參數(shù)變量θk的可辨識性不僅是模型具有可解釋性的必要前提,也是參數(shù)獲得正確估計的重要條件.數(shù)據(jù)驅(qū)動(子)模型參數(shù)變量θd的可辨識性對機器學習諸多方面有著重要的影響(我們將在第4節(jié)詳細討論).本文在此模型中開展參數(shù)可辨識性研究主要基于以下三個方面的原因.
圖3 根據(jù)先驗領(lǐng)域知識、推理方法、模型類型,模型參數(shù),模型透明度等劃分的模型方法[15]Fig.3 The modeling approaches that are based on prior domain knowledge,inference methodology,model type,model parameter and model transparency[15]
1)新模型提供了更加統(tǒng)一而廣義的建模框架,因為傳統(tǒng)的知識驅(qū)動或數(shù)據(jù)驅(qū)動模型將成為其特例.模糊系統(tǒng)與概率圖模型等由單一結(jié)構(gòu)化知識表達的模型也可以理解為是新模型中的某一種.新模型可以包容非結(jié)構(gòu)化的先驗知識、任意類型的動態(tài)模型等.
2)不同于傳統(tǒng)模型,新模型中耦合方式及DD子模型選擇為參數(shù)可辨識性提供了新的、特有的研究空間.調(diào)整耦合方式或DD子模型可以改變整體模型中參數(shù)可辨識性的實際狀況,這也為某些具有物理意義的不可辨識參數(shù)轉(zhuǎn)變?yōu)榭杀孀R參數(shù)提供了可能性[15].
3)未來的機器學習模型或類人智能模型必然需要同時最大化利用知識與數(shù)據(jù).人類有效結(jié)合“歸納”與“演繹”推理體系而實現(xiàn)的智能范式為新模型提供了參照依據(jù).未來類人智能機器在利用已有知識與數(shù)據(jù)方面均會超過人類平均水平(圖4),這也預示大數(shù)據(jù)(Big data)下成功發(fā)展的深度學習模型必將依賴利用大知識(Big knowledge)而產(chǎn)生突破性發(fā)展.
本節(jié)主要討論與可辨識性準則相關(guān)的幾個問題:可辨識性的判定,參數(shù)冗余的判定和重參數(shù)化方法.
在此情況下,我們假設(shè)可容許的參數(shù)空間是某個歐氏空間.早在1971年,Rothenberg[34]就推導了參數(shù)統(tǒng)計模型局部可辨識的充分必要條件,正是該文獻證明了模型局部不可辨識和模型奇異是等價的.特別地,文獻[34]還得到了結(jié)論:對于指數(shù)分布族,此條件也是模型全局可辨識的充分必要條件.從信息論(Information theory)[35]的觀點來看,不可辨識的原因在于缺乏足夠的“信息”把一個參數(shù)點和另外一個參數(shù)點區(qū)分開,因此可以利用信息論的相關(guān)工具來研究可辨識性.在文獻[36]中,Bowden利用信息論中的Kullback-Leibler(KL)散度,將可辨識性問題等價地轉(zhuǎn)化為求解非線性方程根的個數(shù)問題.文獻[37]等利用KL散度,把無約束參數(shù)模型的可辨識性問題等價地轉(zhuǎn)化為一個無約束最優(yōu)化(Unconstrained optimization)問題[38],用最優(yōu)化理論的觀點研究了可辨識性問題.進而,文獻[39]利用辨識函數(shù)(Identifying function)的方法研究了可辨識性問題.通常,這些方法的復雜度都很高(比如,需要顯式地求解Fisher信息矩陣或者KL散度),或者所得結(jié)果只能用于具體的模型(比如,文獻[40]用復分析的方法研究了多元高斯分布的可辨識性問題),或者對模型施加了某些限定(比如,文獻[39]假定模型辨識函數(shù)的維數(shù)是有限的).所以,對于任意的參數(shù)統(tǒng)計模型,缺乏一個簡便高效的解決辦法.
圖4 現(xiàn)有智能模型與未來類人機器在知識與數(shù)據(jù)利用中的相對關(guān)系示意圖Fig.4 The relationship between current intelligent models and the future human-like machines which is based on the use of knowledge and data
如果無約束參數(shù)模型不可辨識,我們可以改變建模方式使得模型參數(shù)變得可辨識.通常有兩種方式實現(xiàn)這一目的:第一種方式是在模型中加入先驗知識[41?42],使得模型在受限的參數(shù)空間中可辨識.第二種方式是對參數(shù)引入先驗分布,把參數(shù)學習置于Bayes統(tǒng)計框架[43?44].在一些特殊情形下,這兩種方式具有等價性[43?44].
在第一種方式中,目前學界研究最普遍的情形是:假設(shè)模型參數(shù)滿足一族等式約束,從而把可容許參數(shù)空間限制在其低維流形.文獻[34]研究了參數(shù)受限統(tǒng)計模型的可辨識性問題.文獻[39]利用KL散度,把參數(shù)受限模型的可辨識性問題等價于一個約束最優(yōu)化(Constrained optimization)問題,用最優(yōu)化理論的觀點研究了可辨識性問題.
參數(shù)約束研究中的難點是不再局限于“剛性(即嚴格滿足)”約束條件,而是尋求廣義約束.以包容各種“柔性(松弛滿足)”約束條件,如語義(Semantic)約束、概率約束、非精確約束等.關(guān)于此類問題的可辨識性準則,學界至今還缺乏系統(tǒng)性研究.
學界關(guān)于可辨識性準則研究的另一難點是全局可辨識問題.目前只有很少的幾個結(jié)論,主要是關(guān)于線性模型,前饋型神經(jīng)網(wǎng)絡等簡單模型或者具有特殊結(jié)構(gòu)的模型.兩個常用的方法是:估計量方法[45?46]和特征量(Characteristic)方法[34].但是,如何尋找(或構(gòu)造)滿足條件的估計量或者特征量,統(tǒng)計學界也沒有得到一個通用的方法.根據(jù)文獻[37],我們可以利用KL散度,把全局可辨識性問題等價地轉(zhuǎn)化為全局最優(yōu)化問題.然而,除了凸優(yōu)化(Convex optimization)[47]問題之外,在非線性最優(yōu)化理論中還沒有關(guān)于全局最小值(即唯一極小值)的有效而普適的理論(很多理論結(jié)果都需要各種約束規(guī)范[38],或者結(jié)果不具有實用性).
模型不可辨識的最主要原因之一是參數(shù)冗余(Parameter redundancy).如果模型能用更少的參數(shù)β=g(θ)等價地表達,則稱模型是參數(shù)冗余的[48?50].否則,稱模型是滿秩的.從幾何上看,如果模型是參數(shù)冗余的,那么對任何訓練數(shù)據(jù)集而言,似然函數(shù)具有完全平坦的嶺線[50](這個結(jié)論也可以從Amari研究奇異模型學習動態(tài)軌跡的實驗中得到驗證[51]).
對模型參數(shù)冗余的研究是參數(shù)可辨識性問題研究的重點之一.在文獻[50]中,Catchpole等證明了:在指數(shù)分布族中,模型局部不可辨識和模型參數(shù)冗余是完全等價的.但是,對于一般的參數(shù)模型,二者是否等價仍然沒有得到證明.文獻[52]首次推導了Bayesian分類器和代價敏感學習中代價矩陣的獨立參數(shù)定理.該定理不僅為代價敏感學習中參數(shù)冗余提出新的理論見解(即代價矩陣中最大獨立參數(shù)個數(shù)),也為以泛函形式表達的機器學習目標函數(shù)中獨立參數(shù)個數(shù)推導提供了范例.在參數(shù)冗余研究中,主要的瓶頸問題如下:
1)參數(shù)冗余的判定準則.參數(shù)冗余的判定最終可以歸結(jié)為求辨識函數(shù)導矩陣(Derivative matrix)的符號秩(Symbolic rank)問題[39].由于導矩陣的每個元素都是參數(shù)的函數(shù),從而導矩陣是一個泛函矩陣.但是,如何在模型中提取辨識函數(shù),則需要具體情況具體分析.目前,只能對若干常用模型(比如線性模型、指數(shù)族、滑動平均模型等)提取其辨識函數(shù)[53].如果模型通過非線性狀態(tài)–空間方程或者更復雜的微分方程(尤其是偏微分方程)表示,學界沒有求解模型辨識函數(shù)的通用方法.而在生物、醫(yī)學或工程領(lǐng)域,模型的輸入輸出關(guān)系常常不是以參數(shù)統(tǒng)計分布的形式顯式地給出,而是以泛函形式、時間序列、微分方程、積分方程、差分方程或者混合形式隱式地給出,這都大大增加了研究的復雜度.
2)機器證明.參數(shù)冗余研究中的一個重要內(nèi)容是機器證明的應用.當冗余判定定理存在時,人們希望應用計算機來自動推斷模型是否參數(shù)冗余,而非人工推斷.目前主要的方法有解析計算法、符號計算法和數(shù)值計算法三大類.解析計算法和數(shù)值計算法自身的缺點使得符號計算法成為最主要的方法.
在計算導矩陣符號秩的時候,通常需要利用符號計算軟件(比如Maple、Mathematica、Maxima)求解.從理論上說,只要辨識函數(shù)是有限維的,我們都可以寫出其導矩陣.但是,在模型的參數(shù)結(jié)構(gòu)比較復雜或參數(shù)數(shù)量非常多的情況下,由于計算機計算能力和內(nèi)存的限制,計算導矩陣符號秩的任務往往很難實現(xiàn).比如在文獻[54]中,作者研究了一個線性分室(Compartmental)模型,該模型僅僅只有11個參數(shù),但計算機不能求出其導矩陣的秩.這就說明,導矩陣符號秩計算的復雜度依賴于模型的非線性程度(包括模型關(guān)于輸入、輸出變量的非線性程度,以及模型關(guān)于參數(shù)的非線性程度),參數(shù)維數(shù)等.根據(jù)文獻,到目前為止,唯一可以“全自動”判斷模型參數(shù)冗余的符號計算方法只有基于微分代數(shù)的 DAISY(Differential algebra for identi fi ability of SYstems)軟件[55],但是該方法只能解多項式或者有理型,不能適用于任意非線性模型.所以,對于復雜的參數(shù)模型,如何發(fā)展高效、自動的計算方法也是可辨識性研究中需要解決的問題.當符號計算無法勝任時,數(shù)值計算可能是必須的.
3)重參數(shù)化(Reparametrization).如果模型已經(jīng)被判定為參數(shù)冗余的,我們可以對模型進行重參數(shù)化(即:把原參數(shù)θ的函數(shù)r(θ)作為模型新的參數(shù),從而把模型表示為r(θ)的函數(shù))[39,56].通過重參數(shù)化,我們可以減少模型“內(nèi)在參數(shù)”的個數(shù),得到模型最精簡的參數(shù)表示.重參數(shù)化的過程可以通過求解一個和導矩陣相關(guān)的一階線性偏微分方程組實現(xiàn)[39].
重參數(shù)化可以理解為參數(shù)空間更新問題,這也是未來機器學習中必不可少的智能進化方面的研究內(nèi)容.從已有的文獻數(shù)量來看,關(guān)于重參數(shù)化的研究相對比較缺乏,主要集中在一些相對簡單的模型[57].目前,更多的研究停留在判定模型是否可以辨識或模型是否冗余的層面,而沒有進一步很好地解決參數(shù)約束或重參數(shù)化問題.
4)各種可辨識性概念之間的聯(lián)系.在可辨識性研究中,由于理論自身和實際應用的推動,各種新的觀點、概念和模型層出不窮,其中很重要的一點是理清各種已有概念之間的聯(lián)系.雖然已有大量文獻(比如文獻[11,58?59])對此問題做了深入的研究,但是,仍然有很多問題沒有得到圓滿的解決.在文獻[50]中,Catchpole研究了參數(shù)冗余和非δ-辨識的關(guān)系,即:如果模型是參數(shù)冗余的,則模型一定是非δ-可辨識的.如果更深入地研究滿秩(非冗余)模型,我們可以把滿秩模型劃分為本性滿秩(Essentially full rank)和條件滿秩(Conditionally full rank)兩類,即:如果模型導矩陣在整個參數(shù)空間處處滿秩,我們稱此模型為本性滿秩的;否則,稱為條件滿秩的.在文獻[50]中,Catchpole等證明了一個重要事實,即:如果一個模型是本性滿秩的,則此模型是δ-可辨識的.Catchpole進而提出猜想:如果模型是本性滿秩的,則該模型一定是全局可辨識的.此猜想還是一個公開問題.
在經(jīng)典統(tǒng)計理論中,可辨識性是一個基本假設(shè),很多重要統(tǒng)計性質(zhì)的推導都依賴于此假設(shè).比如,極大似然估計和Bayes后驗分布的漸近正態(tài)性,Cram′er-Rao不等式等[51].可辨識性研究和機器學習領(lǐng)域的很多主題也有密切的聯(lián)系,比如概率主成分分析[27]、隱因子模型[28]、變分Bayesian矩陣分解[60]、低秩矩陣完備化[61]等.然而,在機器學習領(lǐng)域,幾乎所有的學習機都是奇異的.這種奇異性將對機器學習的很多方面產(chǎn)生深刻的影響,比如參數(shù)學習、模型選擇、學習算法、學習動態(tài)分析、Bayes推斷等.因此,我們需要一種全新的統(tǒng)計理論來研究這類奇異學習機.直到現(xiàn)在,仍然還有很多艱深的理論問題沒有得到完全地解決.在本節(jié)中,我們主要討論奇異性對機器學習各個方面的影響.
根據(jù)Amari信息幾何的觀點,通過模型的一階近似,正則(Regular,即非奇異)統(tǒng)計模型參數(shù)空間的局部結(jié)構(gòu)可以用其統(tǒng)計流形的切空間表示,高階近似可以根據(jù)信息幾何中的仿射連接(Affine connection)和相關(guān)的e-曲線和m-曲線得到[18].但是,奇異模型的統(tǒng)計流形在奇異點處沒有切空間,而只能通過切錐表示.Dacunha等[62]以統(tǒng)一的方式研究了奇異統(tǒng)計模型的局部結(jié)構(gòu),在奇異模型中,所有觀測等價的參數(shù)以錐(Cone)的形式嵌入到正則流形中.關(guān)于此問題的文獻甚至可以追溯到1976年Brockett關(guān)于線性系統(tǒng)的研究[63].
在機器學習領(lǐng)域,學界對此也有大量研究,比如,Amari等[51]通過研究層次神經(jīng)網(wǎng)絡,發(fā)現(xiàn)該模型的參數(shù)等價類并不是孤立集合,而是形成一個連續(xù)統(tǒng)(Continuum).這些結(jié)果從理論上揭示了奇異模型參數(shù)空間的幾何結(jié)構(gòu),也表明此類模型的參數(shù)空間比正則模型更加困難.文獻[56]研究了奇異統(tǒng)計模型參數(shù)空間的幾何結(jié)構(gòu).總之,奇異模型的代數(shù)結(jié)構(gòu)和幾何結(jié)構(gòu)需要更系統(tǒng)深入的理論研究.
奇異性對參數(shù)估計的影響體現(xiàn)在以下幾個方面.
1)極大似然估計.根據(jù)Vapnik的觀點,在傳統(tǒng)統(tǒng)計理論的框架中,函數(shù)估計都是基于極大似然方法的,極大似然方法是傳統(tǒng)體系下的一個歸納引擎[64?65].比如參數(shù)估計的極大似然法,模式識別的判別分析法和回歸估計的最小二乘法都可以納入這個框架.從另一角度看,根據(jù)Amari的信息幾何理論,在正則統(tǒng)計理論中,分布族的Fisher信息矩陣處處正定,從而在參數(shù)流形(神經(jīng)網(wǎng)絡文獻里被稱為神經(jīng)流形(Neuromanifold))上確定了一個Riemann度量,我們可以根據(jù)這個度量所確定的拓撲結(jié)構(gòu),研究參數(shù)空間的各種幾何性質(zhì).
如果一個參數(shù)分布族非奇異,則Fisher信息矩陣處處正定,并且被廣泛地用來度量樣本包含的總體信息.比如,似然函數(shù)可以用參數(shù)的二次型逼近,極大似然估計是漸近有效估計量(Asymptotically efficient estimator),以速度o(1/n)漸近收斂到正態(tài)隨機變量(n為樣本數(shù)量),著名的Cram′er-Rao不等式成立等[51].
但是,在奇異統(tǒng)計模型中,Fisher信息矩陣并非處處正定,從而導致一系列截然不同的性質(zhì).比如,極大似然估計不再收斂到正態(tài)變量,著名的Cram′er-Rao不等式不再成立.再比如,在正則模型中,極大似然估計通過極大化似然函數(shù)得出;然而,在奇異模型中,求解極大似然估計需要隨機場理論.總之,這些奇異性使得參數(shù)空間的幾何結(jié)構(gòu)更加復雜,從而需要一種全新的理論來處理這個問題.
2)大樣本性質(zhì).通常情況下,我們很難推導出有限樣本條件下估計量精確的概率分布.然而,借助于經(jīng)典統(tǒng)計的標準工具(比如大數(shù)定律和中心極限定律),我們可以得到估計量的大樣本性質(zhì).其中,很關(guān)鍵的性質(zhì)是一致性(Consistency).在正則模型中,一致性表明估計量幾乎必然(Almost surely,a.s.)收斂到最優(yōu)參數(shù).然而,在奇異模型中,一致性表明估計量a.s.收斂到一個參數(shù)集合(該集合中的參數(shù)都能使誤差函數(shù)達到極小)[66].這意味著,在奇異模型中,誤差函數(shù)可以在參數(shù)空間的某些曲線上取恒定不變的值.這個結(jié)論和Amari的觀察[51]同樣也是吻合的.
大樣本性質(zhì)中另一個重要的問題是極限分布(Limiting distribution).在正則模型中,估計量的極限分布是高斯分布.然而,在奇異模型中,估計量的極限分布屬于極限混合高斯分布族(Limiting mixed Gaussian family)[66].另外,在假設(shè)檢驗問題中,奇異模型也體現(xiàn)了和正則模型完全不一樣的性質(zhì)[51].所以,對奇異統(tǒng)計模型而言,經(jīng)典數(shù)理統(tǒng)計領(lǐng)域幾乎所有的結(jié)果都需要重新認識.
模型選擇是機器學習中的一個重要問題.在模型選擇方面,目前沒有一般的方法可以推薦,通常根據(jù)可辨識性、靈活性、吝嗇性等原則進行統(tǒng)籌兼顧.經(jīng)常使用的模型選擇準則是Akaike information criterion(AIC),Bayesian information criterion(BIC),Minimum description length(MDL)等.Hagiwara等[67]最先注意到,在神經(jīng)網(wǎng)絡建模時,如果使用AIC作為模型選擇標準,其結(jié)果并不理想.后來,Hagiwara注意到這是由于神經(jīng)網(wǎng)絡模型的奇異性導致的.從而,文獻[68]提出了網(wǎng)絡信息準則(Network information criterion,NIC),由于NIC考慮到了奇異性的影響,其理論和數(shù)值實驗的結(jié)果都明顯好于AIC.只是NIC的基本思想類似Vapnik的結(jié)構(gòu)風險極小化歸納原則[64?65],需要構(gòu)造一個嵌套的函數(shù)集合,從而實現(xiàn)起來很困難.
從奇異統(tǒng)計的角度來看,因為AIC旨在極小化模型的泛化誤差[69],而在奇異模型中,泛化誤差較正則模型具有更復雜的性質(zhì).在奇異模型中,BIC、MDL的缺陷和AIC類似.另外,在Bayes模型比較方面,模型的奇異性也是一個必須要考慮的因素[44].所以,如何在奇異模型中設(shè)計好的模型選擇標準,是機器學習領(lǐng)域的一個重要而困難的問題.
隨著學習模型中參數(shù)維數(shù)和非線性程度的急劇增加,學習過程中的計算資源開銷也越來越大.為了加快參數(shù)的學習過程,與奇異性有關(guān)的學習算法問題也成了一個熱點.學界很早就注意到,多層感知器網(wǎng)絡中的后向傳播(Back propagation,BP)算法收斂速度非常慢.為了加快BP算法的收斂速度,很多學者相繼提出了大量的方法,典型的方法有Duda等提出自適應步長和動量方法等[70],但是這些方法本質(zhì)上都是基于梯度下降的一階算法,所以無法從根本上克服平臺現(xiàn)象(Plateau phenomenon).各種二階方法,比如牛頓法、共軛梯度法和擬牛頓法雖然利用了參數(shù)空間的曲率信息,但這些算法計算開銷極大,只具備局部收斂性,而且絕大部分算法只適合批量方式,不適合大規(guī)模數(shù)據(jù)或在線學習的場景.Amari注意到導致此平臺現(xiàn)象(或慢流形)的主要原因是模型的奇異性.為克服慢收斂現(xiàn)象,Amari提出自然梯度下降(Natural gradient descent)算法[71],該算法考慮到了參數(shù)空間的流形結(jié)構(gòu),從而獲得了更快的收斂速度.文獻[73]研究了自然梯度下降算法的計算復雜性問題.文獻[73?74]研究了自然梯度下降算法的統(tǒng)計物理機理.然而,由于自然梯度下降算法(包括其自適應形式[71])本身的復雜度也很高,所以,在奇異模型中,期待有更高效(至少二階收斂速度)的算法出現(xiàn).
學習過程的動態(tài)軌跡分析對研究模型的奇異性有重要的意義.在奇異模型中,由于參數(shù)不可辨識,使得所有觀測等價的參數(shù)具有同樣的誤差函數(shù),從而誤差曲面在很多地方是平坦的(圖5),正是這個原因使得學習過程非常緩慢,并導致兩個嚴重后果:1)學習過程非常緩慢,通常學習軌跡會在平坦的低維流形上逗留很長時間,隨著訓練數(shù)據(jù)中的隨機噪聲影響,才可能繼續(xù)下降[71].2)最終結(jié)果陷入局部極小值.
圖5 在奇異點附近,參數(shù)的學習軌跡在誤差曲面上有完全平坦的嶺線[51]Fig.5 Learning trajectory of parameters near the singularities has completely fl at ridge in error surface[51]
從理論分析的角度看,在奇異模型中,批(Batch)學習方式會平滑掉訓練數(shù)據(jù)中的隨機噪聲,使得學習過程容易陷入平坦的低維流形和局部極小點,而Online學習方式會使學習過程的動態(tài)軌跡更容易從平坦區(qū)域中逃離.因此,Online學習方式更適合奇異模型.為了揭示參數(shù)空間的學習軌跡,文獻[71,75?76]分別研究了多層感知器網(wǎng)絡、徑向基函數(shù)網(wǎng)絡和高斯混合模型中參數(shù)學習的動態(tài)過程,并分析了參數(shù)空間中學習過程的動態(tài)向量場.然而,對一般奇異模型中參數(shù)學習過程的動態(tài)軌跡分析,則沒有一個普適的結(jié)果.
迄今為止,關(guān)于泛化誤差的計算仍然是基于Cram′er-Rao范例的.而在奇異統(tǒng)計模型中,泛化誤差的計算需要新的方法(需要奇異模型中對數(shù)似然比的特殊性質(zhì)).人們很早就認識到在高斯混合模型中,對數(shù)似然比呈現(xiàn)奇異的性質(zhì)[77],這主要是因為奇異統(tǒng)計模型對數(shù)似然比的性質(zhì)與正則情況截然不同.在神經(jīng)網(wǎng)絡領(lǐng)域,Fukumizu[78]首先通過一個簡單的線性模型揭示了多層感知器的泛化誤差和一般正則模型的泛化誤差明顯不同,進而利用高斯隨機場理論得到多層感知器模型的對數(shù)似然比的漸近性質(zhì)和泛化誤差的準確結(jié)果.
目前,學界所得到的結(jié)果非常有限[23,79],多數(shù)都是針對特殊模型來研究.至于一般奇異模型的通用結(jié)果,還需要學界更加深入地研究.
對于參數(shù)的學習,如果我們不使用極大似然方法,而改用Bayes學習方法,那么,由于Bayes方法引入了先驗知識,在很多場合會使過擬合問題得到大大的緩解,顯示卓越的泛化性能.但是在奇異學習機中,我們將不可避免地遇到理論上的困難.Watanabe最先注意到在奇異統(tǒng)計模型中使用Bayes推理的理論問題[23],比如,如果我們使用的先驗知識是“無信息先驗(Non-informative prior)”,則光滑的先驗密度在由奇異點構(gòu)成的等價類上是無窮大,這使得模型的后驗分布將對奇異點有所偏好,這又違背了“無信息先驗”的原則,這顯然不合常理.另外,在奇異模型中,Bayes后驗分布也不再漸近地收斂于正態(tài)分布.
Watanabe最先研究了奇異性對Bayes推斷的影響.通過利用Hironaka奇異性分解定理和Sato公式,Watanabe將代數(shù)幾何和代數(shù)分析的工具引入奇異機器學習理論,以此來研究各種層次奇異學習機中Bayes預測分布的漸近性能,并得出了一系列結(jié)果,部分結(jié)果總結(jié)在其專著[23]和網(wǎng)站http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/singstat-intro.html.其主要理論結(jié)果可以總結(jié)為4個方面:對數(shù)似然比函數(shù)的標準型、隨機復雜度的收斂問題、Bayes估計中的兩個方程以及訓練誤差和泛化誤差的對稱關(guān)系[23].關(guān)于奇異性對學習理論各個方面的影響,應該成為機器學習中的重要基礎(chǔ)知識,并有待理論研究上的突破.
本文試圖說明參數(shù)可辨識性研究是統(tǒng)計機器學習中的基礎(chǔ)理論內(nèi)容,并給出其中的兩個關(guān)鍵問題.文獻[80]主要討論了統(tǒng)計框架下兩個關(guān)鍵問題的技術(shù)解決,本文則側(cè)重研究框架的選擇,并將可辨識性問題納入此框架下進行討論,期望加深對深度學習以及人工智能在方法論發(fā)展前景下的問題認知.同時,我們也試圖說明參數(shù)可辨識性研究的大背景是人類對生物智能與機器智能的深刻認知與理解.由于生物智能本質(zhì)是非透明的,我們必須借助機器智能仿真揭示生物智能的內(nèi)在機理.這也表明機器智能不是簡單地復制生物智能功能,而是可以超越現(xiàn)有生物智能的知識與眾多功能.目前深度學習網(wǎng)絡在若干大數(shù)據(jù)應用中取得了卓越成功,包括超出人類平均水平的模式識別精度[81].但是,當下深度學習網(wǎng)絡仍然屬于黑箱模型范疇,并缺乏理論解釋的支撐.在文獻[82]中,作者指出:無論是基于“工具論(追求效率或預測)”或“認知論(追求解釋或理解)”為導向的研究,以人工神經(jīng)元網(wǎng)絡為代表的數(shù)據(jù)驅(qū)動模型必然要走向包容“增加模型透明度(或可理解性)”的學習目標.回到本文圖2中示意的機器學習模型,在給定的參數(shù)集里,哪些參數(shù)是可辨識的,哪些參數(shù)是不可辨識的?對于不同的奇異機器學習模型,它們各自的參數(shù)空間幾何結(jié)構(gòu)有何不同?這些問題都會指向參數(shù)可辨識性的研究內(nèi)容.這些研究會帶來對模型自身物理意義的解釋,以及對輸入輸出響應關(guān)系的解釋,它是導致我們對學習機器持續(xù)完善以及對人工智能深刻認知的必然路徑.
因此,本文側(cè)重于從參數(shù)可辨識性研究角度為機器學習理論和實踐帶來新的研究視角,希望能夠引起不同學科領(lǐng)域中研究者的進一步思考和質(zhì)疑.我們認為今后對各個層面問題給出完整而嚴謹?shù)臄?shù)學表達定義是必不可少的內(nèi)容和挑戰(zhàn),更大的挑戰(zhàn)是如何將控制科學中的重要概念結(jié)合到其他學科領(lǐng)域研究中.比如,在金融、經(jīng)濟、教育、社會發(fā)展中,某些自變量的設(shè)定(如存貸款基準利率)或公共政策的調(diào)整(如發(fā)展指標)可以借鑒控制科學中提出的“調(diào)節(jié)”、“反饋”、“可控性”、“可觀性”以及“平行管理與控制[83]”的概念而開展研究.對于這些典型的復雜巨系統(tǒng)[84?87]問題(它們的演變機理在本質(zhì)上同樣不透明,并與智能及非智能人類行為相關(guān)),知識與數(shù)據(jù)共同驅(qū)動的建模思想及其參數(shù)可辨識性研究會對深度學習、人工智能以及其他學科發(fā)展產(chǎn)生獨到的貢獻.
1 Matzkin R L.Nonparametric identi fi cation.Handbook of Econometrics.New York:Elsevier Science Ltd,2007.
2 Dufour J M,Hsiao C.Identi fi cation.The New Palgrave Dictionary of Economics.London:Palgrave Macmillan Ltd.,2008.
3 Koopmans T C.Identi fi cation problems in economic model construction.Econometrica,1949,17(2):125?144
4 Aldrich J J.Haavelmo's identi fi cation theory.Econometric Theory,1994,10:198?219
5 Zadeh L A.On the identi fi cation problem.IRE Transactions on Circuit Theory,1956,3(4):277?281
6 Zadeh L A.From circuit theory to system theory.Proceedings of the Institute of Radio Engineers,1962,50(5):856?865
7 Ljung L.System Identi fi cation:Theory for the User(Second Edition).Upper Saddle River,NJ:Prentice-Hall,1999.
8 Chen H F,Guo L.Identi fi cation and Stochastic Adaptive Control.Boston,MA:Birkhauser,1991.
9 Walter E,Pronzato L.Identi fi cation of Parameter Models from Experimental Data.London:Springer-Verlag,1997.
10 Zhou Tong.Introduction to Control-oriented System Identi fi cation.Beijing:Tinghua University Press,2002.(周彤.面向控制的系統(tǒng)辨識導論.北京:清華大學出版社,2002.)
11 Miao H Y,Xia X H,Perelson A S,Wu H L.On identi fi ability of nonlinear ODE models and applications in viral dynamics.SIAM Review,2011,53(1):3?39
12 Wang Le-Yi,Zhao Wen-Xiao.System identi fi cation:new paradigms,challenges,and opportunities.Acta Automatica Sinica,2013,39(7):933?942(王樂一,趙文虓.系統(tǒng)辨識:新的模式、挑戰(zhàn)及機遇.自動化學報,2013,39(7):933?942)
13 Ljung L.Perspectives on system identi fi cation.Annual Reviews in Control,2010,34(1):1?12
14 Ran Z Y,Hu B G.Determining structural identi fi ability of parameter learning machines.Neurocomputing,2014,127:88?97
15 Hu B G,Qu H B,Wang Y,Yang S H.A generalizedconstraint neural network model: associating partially known relationships for nonlinear regressions.Information Sciences,2009,179(12):1929?1943
16 Koopmans T C,Reiersol O.The identi fi cation of structural characteristics.Annuals of Mathematical Statistics,1950,21(2):165?181
17 Bellman R,Astr¨om K J.On structural identi fi ability.In:Proceedings of the Mathematical Biosciences.Amsterdam:Elsevier,1970,7:329?339
18 Amari S I,Nagaoka H.Methods of Information Geometry.New York:AMS and Oxford University Press,2000.
19 Watanabe S.Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory.Journal of Machine Learning Research,2010,11:3571?3594
20 Watanabe S.Algebraic geometrical methods for hierarchical learning machines.Neural Networks,2001,14(8):1049?1060
21 Watanabe S.Algebraic geometry of singular learning machines and symmetry of generalization and training errors.Neurocomputing,2005,67:198?213
22 Watanabe S.Almost all learning machines are singular.In:Proceedings of the 2007 IEEE Symposium on Foundations of Computational Intelligence.Piscataway,USA:IEEE,2007.
23 Watanabe S.Algebraic Geometry and Statistical Learning Theory.Cambridge:Cambridge University Press,2009.
24 Chen A M,Lu H,Hecht-Nielsen R.On the geometry of feedforward neural network error surfaces.Neural Computation,1993,5(6):910?927
25 Kurkov′a V,Kainen P C.Functionally equivalent feedforward neural networks.Neural Computation,1994,6(3):543?558
26 Sussmann H J.Uniqueness of the weights for minimal feedforward nets with a given input-output map.Neural Networks,1992,5(4):589?593
27 Bishop C M.Pattern Recognition and Machine Learning.Berlin:Springer,2006
28 Henao R,Winther O.Sparse linear identi fi able multivariate modeling.Journal of Machine Learning Research,2011,12:863?905
29 Walter E,Lecourtier Y.Unidenti fi able compartment models:what to do?Mathematical Biosciences,1981,56(1?2):1?25
30 Wu H L,Zhu H H,Miao H Y,Perelson A S.Parameter identi fi ability and estimation of HIV/AIDS dynamic models.Bulletin of Mathematical Biology,2008,70(3):785?799
31 Xia X,Moog C H.Identi fi ability of nonlinear systems with application to HIV/AIDS models.IEEE Transactions on Automatic Control,2003,48(2):330?336
32 Fortunati S,Gini F,Greco M S,Farina A,Graziano A,Giompapa S.On the identi fi ability problem in the presence of random nuisance parameters.Signal Processing,2012,92(10):2545?2551
33 Yang S H,Hu B G,Courn`ede P H.Structural identi fi ability of generalized-constraint neural network models for nonlinear regression.Neurocomputing,2008,72(1?3):392?400
34 Rothenberg T J.Identi fi cation in parametric models.Econometrica,1971,39(3):577?591
35 Cover T M,Thomas J A.Elements of Information Theory(Second Edition).Chichester:Wiley-Blackwell,1991.
36 Bowden R J.The theory of parametric identi fi cation.Econometrica,1973,41:1069?1074
37 Ran Z Y,Hu B G.Determining parameter identi fi ability from the optimization theory framework:a Kullback-Leibler divergence approach.Neurocomputing,2014,142:307?317
38 Luenberger D G,Ye Y Y.Linear and nonlinear programming.International Series in Operations Research&Management Science(Second Edition).New Jersey:Addison-Wesley,1984
39 Ran Z Y,Hu B G.An identifying function approach for determining parameter structure of statistical learning machines.Neurocomputing,2015,162:209?217
40 Hochwald B,Nehorai A.On identi fi ability and informationregularity in parameterized normal distributions.Circuits Systems Signal Processing,1997,16(1):83?89
41 Stoica P,Ng B C.On the Cram′er-Rao bound under parametric constraint.IEEE Signal Processing Letters,1998,5(7):177?179
42 Yao Y W,Giannakis G.On regularity and identi fi ability of blind source separation under constant modulus constraints.IEEE Transactions on Signal Processing,2005,53(4):1272?1281
43 Murphy K P.Machine Learning:A Probabilistic Perspective.Cambridge:MIT Press,2012.
44 Bishop C M.Pattern Recognition and Machine Learning.Berlin:Springer,2006.
45 Paulino C D M,de Bragan?ca Pereira C A.On identi fi ability of parametric statistical models.Journal of the Italian Statistical Society,1994,3(1):125?151
46 Ernesto S M,Fernando Q.Consistency and identi fi ability,revisited.Brazilian Journal of Probability and Statistics,2002,16(1):99?106
47 Boyd S,Vandenberghe L.Convex Optimization.Cambridge:Cambridge University Press,2004.
48 Catchpole E A,Morgan B J T,Freeman S N.Estimation in parameter redundant models.Biometrika,1998,85(2):462?468
49 Catchpole E A,Morgan B J T.De fi ciency of parameterredundant models.Biometrika,2001,88(2):593?598
50 Catchpole E A,Morgan B J T.Detecting parameter redundancy.Biometrika,1997,84(1):187?196
51 Amari S I,Park H,Ozeki T.Singularities affect dynamics of learning in neuromanifolds.Neural Computation,2006,18(5):1007?1065
52 Hu B G.What are the differences between Bayesian classifi ers and mutual information classi fi ers.IEEE Transactions on Neural Networks and Learning Systems,2014,25(2):249?264
53 Ran Z Y,Hu B G.An identifying function approach for determining structural identi fi ability of parameter learning machines.In:Proceedings of International Joint Conference on Neural Networks.Beijing:IEEE,2014.
54 Jiang H H,Pollack K H,Brownie C,Hightower J E,Hoeing J E,Hearn W S.Age-dependent tag return models for estimating fi shing mortality,natural mortality and selectivity.Journal of Agricultural,Biological,and Environmental Statistics,2007,12(2):177?194
55 Saccomani M P,Audoly S,Bellu G,D'Angi`o L.Examples of testing global identi fi ability of biological and biomedical models with the DAISY software.Computers in Biology and Medicine,2010,40(4):402?407
56 Dasgupta A,Self S G,Gupta S D.Unidenti fi able parametric probability models and reparameterization.Journal of Statistical Planning and Inference,2007,137(11):3380?3393
57 Evans N D,Chappell M J.Extensions to a procedure for generating locally identi fi able reparameterisations of unidenti fi able systems.Mathematical Biosciences,2000,168(2):137?159
58 Little M P,Heidenreich W F,Li G Q.Parameter identi fiability and redundancy in a general class of stochastic carcinogenesis models.PLoS ONE,2009,4:e8520
59 Little M P,Heidenreich M F,Li G.Parameter identi fi ability and redundancy:theoretical considerations.PLoS ONE,2010,5:e8915
60 Nakajima S,Sugiyama M.Implicit regularization in variational Bayesian matrix factorization.In:Proceedings of the International Conference on Machine Learning.Piscataway,USA:IEEE,2010.
61 Kiraly F,Tomioka R.A combinatorial algebraic approach for the identi fi ability of low-rank matrix completion.In:Proceedings of the 29th International Conference on Machine Learning.Edinburgh,Scotland:ACM,2012.755?762
62 Dacunha-Castelle D,Gassiat′E.Testing in locally conic models,and application to mixture models.Probability and Statistics,1997,1:285?317
63 Brockett R W.Some geometric questions in the theory of linear systems.In:Proceedings of the IEEE Conference on Decision and Control including the 14th Symposium on Adaptive Processes.New York:IEEE,1975.71?76
64 Vapnik V N.The Natural of Statistical Learning Theory.New York:Springer,1995.
65 Vapnik V N.Statistical Learning Theory.New York:John Wiley and Sons,1998.
66 White H.Learning in arti fi cial neural networks:a statistical perspective.Neural Computation,1989,1(4):425?464
67 Hagiwara K.On the problem in model selection of neural network regression in overrealizable scenario.Neural Computation,2002,14(8):1979?2002
68 Murata N,Yoshizawa S,Amari S I.Network information criterion-determining the number of hidden units for an arti fi cial network model.IEEE Transactions on Neural Networks,1994,5(6):865?872
69 Akaike H.A new look at the statistical model identi fi cation.IEEE Transactions on Automatic Control,1974,19(6):716?723
70 Duda R O,Hart P E,Stork D G.Pattern Classi fi cation.New York:Wiley,2001.
71 Amari S I.Natural gradient works efficiently in learning.Neural Computation,1998,10(2):251?276
72 Yang H H,Amari S I.Complexity issues in natural gradient descent method for training multi-layer perceptrons.Neural Computation,1998,10(8):2137?2157
73 Rattray M,Saad D.Analysis of natural gradient descent for multilayer neural networks.Physical Review E,1999,59(4):4523?4532
74 Rattray M,Saad D,Amari S I.Natural gradient descent for online learning.Physical Review Letters,2000,81(24):5461?5464
75 Cousseau F,Ozeki T,Amari S I.Dynamics of learning in multilayer perceptrons near singularities.IEEE Transactions on Neural Networks,2008,19(8):1313?1328
76 Wei H K,Zhang J,Cousseau F,Ozeki T,Amari S I.Dynamics of learning near singularities in layered networks.Neural Computation,1989,20(3):813?843
77 Weyl H.On the volume of tubes.American Journal of Mathematics,1939,61(2):461?472
78 Fukumizu K.Generalization error of linear neural networks in unidenti fi able cases.In:Proceedings of the 10th International Conference on Algorithmic Learning Theory.Berlin:Springer-Verlag,1999.51?62
79 Liu X,Shao Y Z.Asymptotics for likelihood ratio tests under loss of identi fi ability.Annals of Statics,2003,31(3):807?832
80 Ran Z Y,Hu B G.Parameter identi fi ability in statistical machine learning:a review.Neural Computation,2017,29(5):1151?1203
81 He K M,Zhang X Y,Ren S Q,Sun J.Delving deep into rectifi ers:surpassing human-level performance on imageNet classi fi cation.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.1026?1034
82 Hu Bao-Gang,Wang Yong,Yang Shuang-Hong,Qu Han-Bing.How to add transparency to arti fi cial neural networks.Pattern Recognition and Arti fi cial Intelligence,2007,20(1):72?84(胡包鋼,王泳,楊雙紅,曲寒冰.如何增加人工神經(jīng)元網(wǎng)絡的透明度.模式識別與人工智能,2007,20(1):72?84)
83 Wang Fei-Yue,Liu De-Rong,Xiong Gang,Cheng Chang-Jian,Zhao Dong-Bin.Parallel control theory of complex systems and applications.Complex Systems and Complexity Science,2012,9(3):1?12(王飛躍,劉德榮,熊剛,程長建,趙冬斌.復雜系統(tǒng)的平行控制理論及應用.復雜系統(tǒng)與復雜性科學,2012,9(3):1?12)
84 Ma Shi-Jun,Wang Ru-Song.The Social-economic-natural Complex Ecosystem.Acta Ecologica Sinica,1984,4(1):1?9(馬世駿,王如松.社會–經(jīng)濟–自然復合生態(tài)系統(tǒng).生態(tài)學報,1984,4(1):1?9)
85 Qian Xue-Sen,Yu Jing-Yuan,Dai Ru-Wei.A new discipline of science–the study of open complex giant system and its methodology.Chinese Journal of Nature,1990,13(1):3?10(錢學森,于景元,戴汝為.一個科學新領(lǐng)域–開放的復雜巨系統(tǒng)及其方法論.自然雜志,1990,13(1):3?10)
86 Dai Ru-Wei,Cao Long-Bing.Internet–a open complex giant system.Scientia Sinica,2003,33(4):289?296(戴汝為,操龍兵.Internet–一個開放的復雜巨系統(tǒng).中國科學,2003,33(4):289?296)
87 Wan Bai-Wu.Rethinking macroeconomic modeling in the viewpoint of Cybernetics:review and trend of modeling for predicting the next economic crisis.Control Theory and Applications,2015,32(9):1132?1142(萬百五.控制論視角下對宏觀經(jīng)濟建模的再思考:為能預測經(jīng)濟危機,對建模的審視及趨勢評述.控制理論與應用,2015,32(9):1132?1142)