亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向自然語(yǔ)言處理的深度學(xué)習(xí)研究

        2016-11-10 05:21:00奚雪峰周國(guó)棟
        自動(dòng)化學(xué)報(bào) 2016年10期
        關(guān)鍵詞:深度特征模型

        奚雪峰 周國(guó)棟

        面向自然語(yǔ)言處理的深度學(xué)習(xí)研究

        奚雪峰1,2,3周國(guó)棟1

        近年來(lái),深度學(xué)習(xí)在圖像和語(yǔ)音處理領(lǐng)域已經(jīng)取得顯著進(jìn)展,但是在同屬人類認(rèn)知范疇的自然語(yǔ)言處理任務(wù)中,研究還未取得重大突破.本文首先從深度學(xué)習(xí)的應(yīng)用動(dòng)機(jī)、首要任務(wù)及基本框架等角度介紹了深度學(xué)習(xí)的基本概念;其次,圍繞數(shù)據(jù)表示和學(xué)習(xí)模型兩方面,重點(diǎn)分析討論了當(dāng)前面向自然語(yǔ)言處理的深度學(xué)習(xí)研究進(jìn)展及其應(yīng)用策略;并進(jìn)一步介紹了已有的深度學(xué)習(xí)平臺(tái)和工具;最后,對(duì)深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的發(fā)展趨勢(shì)和有待深入研究的難點(diǎn)進(jìn)行了展望.

        自然語(yǔ)言處理,深度學(xué)習(xí),表示學(xué)習(xí),特征學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)

        引用格式奚雪峰,周國(guó)棟.面向自然語(yǔ)言處理的深度學(xué)習(xí)研究.自動(dòng)化學(xué)報(bào),2016,42(10):1445-1465

        深度學(xué)習(xí)(Deep learning)通過(guò)建立深層神經(jīng)網(wǎng)絡(luò),模擬人腦的機(jī)制進(jìn)行解釋并分析學(xué)習(xí)圖像、語(yǔ)音及文本等數(shù)據(jù),是目前機(jī)器學(xué)習(xí)研究中的一個(gè)熱點(diǎn)領(lǐng)域.傳統(tǒng)機(jī)器學(xué)習(xí)工作的有效性,很大程度上依賴于人工設(shè)計(jì)的數(shù)據(jù)表示和輸入特征的有效性;機(jī)器學(xué)習(xí)方法在這個(gè)過(guò)程中的作用僅僅是優(yōu)化學(xué)習(xí)權(quán)重以便最終輸出最優(yōu)的學(xué)習(xí)結(jié)果.與傳統(tǒng)機(jī)器學(xué)習(xí)方法不同的是,深度學(xué)習(xí)試圖自動(dòng)完成數(shù)據(jù)表示和特征提取工作;并且深度學(xué)習(xí)更強(qiáng)調(diào),通過(guò)學(xué)習(xí)過(guò)程提取出不同水平、不同維度的有效表示,以便提高不同抽象層次上對(duì)數(shù)據(jù)的解釋能力.從認(rèn)知科學(xué)角度來(lái)看,這個(gè)思路與人類學(xué)習(xí)機(jī)理非常吻合.

        在面對(duì)大量感知數(shù)據(jù)的處理過(guò)程中,人腦對(duì)其中的重要信息有著特殊的敏感性.例如即使是四歲孩童,放學(xué)時(shí)間站在校門口觀望大量的接送家長(zhǎng),總是比較容易快速準(zhǔn)確地發(fā)現(xiàn)家人熟悉的身影,欣喜地?fù)溥M(jìn)家人的懷抱.因此,在人工智能研究領(lǐng)域中,對(duì)于如何模仿人腦開(kāi)展高效的復(fù)雜數(shù)據(jù)處理,引發(fā)了研究者的極大興趣.其中,從仿生學(xué)角度開(kāi)展的人腦生理結(jié)構(gòu)研究,以及從人腦應(yīng)用角度開(kāi)展的功能研究,是兩個(gè)典型的研究方向.前者體現(xiàn)研究對(duì)象的結(jié)構(gòu)特征,后者體現(xiàn)研究對(duì)象的功能特征.兩類研究又是互相滲透,相互支撐.例如,在對(duì)哺乳類動(dòng)物開(kāi)展的解剖研究中發(fā)現(xiàn),大腦皮質(zhì)存在著層次化的系列區(qū)域;在此基礎(chǔ)上,神經(jīng)科學(xué)研究人員又通過(guò)測(cè)試視覺(jué)信號(hào)輸入人腦視網(wǎng)膜后經(jīng)大腦前額皮質(zhì)層到達(dá)運(yùn)動(dòng)神經(jīng)的時(shí)間,推斷發(fā)現(xiàn)大腦皮質(zhì)層的主要功能在于將視覺(jué)信號(hào)通過(guò)復(fù)雜的多層網(wǎng)絡(luò)模型后加以提取觀測(cè)信息,而并未直接對(duì)視覺(jué)信號(hào)進(jìn)行特征處理.這就說(shuō)明,人腦在識(shí)別物體過(guò)程中,并未直接通過(guò)視網(wǎng)膜投影的外部世界進(jìn)行感知,而是需要依靠經(jīng)過(guò)某種聚集和分解處理后的信息才能識(shí)別得到物體.這一過(guò)程中,視皮層的功能主要是開(kāi)展對(duì)視覺(jué)信號(hào)的特征提取和計(jì)算,而非簡(jiǎn)單重現(xiàn)視網(wǎng)膜圖像.這種具有明確層次結(jié)構(gòu)的人類視覺(jué)感知系統(tǒng)在大大降低了視覺(jué)感知處理數(shù)據(jù)量的同時(shí),還能夠保留被感知物體關(guān)鍵的結(jié)構(gòu)信息.大腦這種分層次結(jié)構(gòu)啟發(fā)了研究人員開(kāi)展多層次神經(jīng)網(wǎng)絡(luò)的研究.最早出現(xiàn)的多層網(wǎng)絡(luò)訓(xùn)練算法是采用初始值隨機(jī)選定及梯度下降優(yōu)化策略的BP(Back-propagation)神經(jīng)網(wǎng)絡(luò).但是這種多層結(jié)構(gòu)的主要缺陷在于輸入與輸出間存在的非線性映射導(dǎo)致能量函數(shù)或網(wǎng)絡(luò)誤差函數(shù)空間含有多個(gè)局部極小點(diǎn),同時(shí)采用的又是使能量或誤差單一減小的搜索方向,容易導(dǎo)致局部收斂最小而非全局最優(yōu).相關(guān)實(shí)驗(yàn)及理論[1-2]發(fā)現(xiàn),局部收斂最優(yōu)的情況會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而變得越來(lái)越嚴(yán)重,似乎表明BP算法在向多層深度結(jié)構(gòu)方向發(fā)展上并無(wú)優(yōu)勢(shì)可言,這在一定程度上影響了深度學(xué)習(xí)的發(fā)展.

        淺層學(xué)習(xí)結(jié)構(gòu)的共同特點(diǎn)是僅含一種將單個(gè)原始輸入信號(hào)映射到特定問(wèn)題空間的簡(jiǎn)單特征結(jié)構(gòu),基本上可以認(rèn)為這類模型帶有一層或沒(méi)有隱層節(jié)點(diǎn).常見(jiàn)的此類結(jié)構(gòu)有條件隨機(jī)場(chǎng)(Conditional random field,CRF)、隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(jī)(Support vector machine,SVM)、多層感知器(Multilayer perceptron,MLP)及最大熵模型(Maximum entropy,ME)等.這些模型大多應(yīng)用在傳統(tǒng)信號(hào)處理技術(shù)及機(jī)器學(xué)習(xí)研究中,存在著對(duì)復(fù)雜函數(shù)表示能力有限、對(duì)復(fù)雜問(wèn)題泛化處理能力不足的局限性[3].

        這種情況直到2006年才出現(xiàn)轉(zhuǎn)機(jī).Hinton等利用深度可信網(wǎng)絡(luò)(Deep belief network,DBN)結(jié)構(gòu)[4],對(duì)組成DBN的每一層受限玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)結(jié)構(gòu)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練,并將其用于MNIST1MNIST是一個(gè)包含手寫數(shù)字圖片的數(shù)據(jù)集http://yann.lecun.com/exdb/mnist/手寫數(shù)字識(shí)別任務(wù)中,取得了錯(cuò)誤率僅為1.2%的最好成績(jī)[5].不久之后,Bengio等也提出了一種基于自動(dòng)編碼器(Auto-encoders)的相關(guān)算法,同樣取得了較好結(jié)果[6-7].這些算法盡管形式不同,但他們都遵循相同的原理:即在每一層局部使用無(wú)監(jiān)督的訓(xùn)練算法,以引導(dǎo)完成特征中間表示層的訓(xùn)練目標(biāo).此后,其他一些非RBM或非Auto-encoders結(jié)構(gòu)的深度學(xué)習(xí)算法也陸續(xù)提出[8-9].自2006年以來(lái),這些深度學(xué)習(xí)方法不僅在分類任務(wù)上取得顯著結(jié)果[6,10-15],而且在時(shí)序預(yù)測(cè)[16-17]、高維降秩[18-19]、紋理建模[20-21]、運(yùn)動(dòng)建模[22-23]、對(duì)象分割[24-25]、信息抽?。?6-27]及自然語(yǔ)言處理領(lǐng)域[28-30]都有不俗表現(xiàn).此外,盡管上述深度模型中,普遍采用Auto-encoders、RBM和DBN結(jié)構(gòu),能夠以無(wú)監(jiān)督的方式從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到良好的結(jié)果,但在面對(duì)特定任務(wù)領(lǐng)域時(shí),有監(jiān)督反饋算法用來(lái)初始化深度結(jié)構(gòu)的方式也有成功應(yīng)用.

        盡管當(dāng)前深度學(xué)習(xí)還未有完備的理論體系支撐,但并不妨礙在圖像識(shí)別和語(yǔ)音識(shí)別等應(yīng)用領(lǐng)域率先結(jié)出累累碩果.2012年,一種稱為“深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)”的機(jī)器學(xué)習(xí)模型在圖像識(shí)別領(lǐng)域的ImageNet評(píng)測(cè)上被采用,把識(shí)別錯(cuò)誤率從26%降到15%,是圖像識(shí)別領(lǐng)域近年來(lái)的最好結(jié)果.而在此之前的2011年,同樣類似的DNN技術(shù)在語(yǔ)音識(shí)別領(lǐng)域也取得驚人效果,降低語(yǔ)音識(shí)別錯(cuò)誤率達(dá)20%~30%,從而大大推進(jìn)了應(yīng)用技術(shù)產(chǎn)品的開(kāi)發(fā).比如基于DNN技術(shù)的微軟全自動(dòng)同聲傳譯系統(tǒng),在2012年11月中國(guó)天津的一次公開(kāi)活動(dòng)中流暢地實(shí)現(xiàn)了自動(dòng)語(yǔ)音識(shí)別、英文到中文的機(jī)器翻譯以及合成中文語(yǔ)音輸出的整個(gè)過(guò)程,效果震驚全場(chǎng).

        盡管深度學(xué)習(xí)已經(jīng)在上述圖像和語(yǔ)音處理領(lǐng)域取得顯著進(jìn)展,但是在同屬人類認(rèn)知范疇的自然語(yǔ)言處理任務(wù)中,應(yīng)用還未有重大突破.本文重點(diǎn)分析了當(dāng)前面向自然語(yǔ)言處理的深度學(xué)習(xí)研究進(jìn)展,并探討了深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的可能發(fā)展空間,以圖拋磚引玉.下文第1節(jié)描述深度學(xué)習(xí)的基本概念;第2節(jié)圍繞數(shù)據(jù)表示和學(xué)習(xí)模型兩方面,重點(diǎn)分析討論了當(dāng)前深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀、應(yīng)用策略及其平臺(tái)工具;第3節(jié)對(duì)有待深入研究的難點(diǎn)和發(fā)展趨勢(shì)進(jìn)行展望,最后是結(jié)束語(yǔ).

        1 深度學(xué)習(xí)概述

        1.1深度結(jié)構(gòu)

        與傳統(tǒng)淺層學(xué)習(xí)的不同之處在于,首先,深度學(xué)習(xí)要求模型結(jié)構(gòu)必須具有足夠的深度(Depth),通常要求具有3層以上的隱層節(jié)點(diǎn),有的甚至可能達(dá)到10多層.這種多層非線性映射結(jié)構(gòu),有助于完成復(fù)雜函數(shù)逼近.其次,深度學(xué)習(xí)特別強(qiáng)調(diào)特征學(xué)習(xí)的重要性.通過(guò)非監(jiān)督預(yù)訓(xùn)練算法,將輸入原始樣本在原空間的特征,逐層變化,映射到一個(gè)新的特征空間,進(jìn)而有可能使用新特征更加容易實(shí)現(xiàn)分類或預(yù)測(cè).此外,生成性預(yù)訓(xùn)練方法也避免了因?yàn)榫W(wǎng)絡(luò)函數(shù)表達(dá)能力過(guò)強(qiáng)而可能出現(xiàn)的過(guò)擬合(Overfitting)問(wèn)題.

        深度學(xué)習(xí)中深度的概念,實(shí)際上來(lái)源于流圖(Flow graph)的屬性表示.如圖1(a)所示,流圖可用于表示一個(gè)輸入輸出過(guò)程中所涉及的計(jì)算.圖中節(jié)點(diǎn)表示基本計(jì)算方法.原始輸入經(jīng)過(guò)節(jié)點(diǎn)計(jì)算后生成的結(jié)果,作為下一個(gè)節(jié)點(diǎn)的輸入,逐步計(jì)算傳遞.

        定義1(流圖深度).從一個(gè)輸入到一個(gè)輸出的最長(zhǎng)路徑長(zhǎng)度,即為流圖的深度.

        圖1(a)所示流圖表示計(jì)算函數(shù):f(x)=x×sin(x×a+a/b),該結(jié)構(gòu)具有深度4.圖1(b)所示多層人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)表示計(jì)算函數(shù)該結(jié)構(gòu)具有深度3.對(duì)于輸出層而言,傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)的深度一般定義為隱層數(shù)加1,如圖1(c)的結(jié)構(gòu)具有深度2.深度神經(jīng)網(wǎng)絡(luò)則可能有更高深度(大于或等于3)的結(jié)構(gòu).

        圖1 深度的概念示例圖Fig.1 Concept example of depth

        我們可以將深度結(jié)構(gòu)看作一種因子分解.大部分隨機(jī)選擇的函數(shù),通常都很難采用網(wǎng)絡(luò)結(jié)構(gòu)有效表示;但是相對(duì)而言,深度結(jié)構(gòu)表示的有效性要高于淺層結(jié)構(gòu).研究人員猜測(cè),這些可被深度結(jié)構(gòu)但不能被淺層結(jié)構(gòu)高效表示的函數(shù)中,可能存在某種結(jié)構(gòu)使得其能夠被深層結(jié)構(gòu)很好地泛化表示.

        1.2應(yīng)用動(dòng)機(jī)

        采用特征來(lái)表示待處理問(wèn)題中的對(duì)象,是所有應(yīng)用任務(wù)的首要工作.比如在處理文本分類時(shí),經(jīng)常用詞集合特征來(lái)表示文檔,之后采用不同的分類算法來(lái)實(shí)現(xiàn)分類.類似的,在圖像處理任務(wù)中,最為普遍的就是把圖像用像素集合特征加以表示.選取不同的特征對(duì)任務(wù)的最終結(jié)果影響較大.因此,在解決實(shí)際問(wèn)題時(shí),如何選取合適的特征非常重要.

        對(duì)于很多訓(xùn)練任務(wù)來(lái)說(shuō),特征具有天然的層次結(jié)構(gòu).在語(yǔ)音、圖像、文本處理任務(wù)中,處理對(duì)象的層次結(jié)構(gòu)如表1所示.

        表1 語(yǔ)音、圖像、文本領(lǐng)域的特征層次結(jié)構(gòu)[32]Table 1 Feature hierarchy of speech,image and text[32]

        以圖像識(shí)別為例.最初的原始輸入是圖像的像素,之后眾多相鄰像素可以組成線條,多個(gè)線條組成紋理,并進(jìn)一步形成圖案;局部圖案又構(gòu)成了整個(gè)物體.不難發(fā)現(xiàn),原始輸入和淺層特征之間的聯(lián)系較容易找到.那么,在此基礎(chǔ)上,能否通過(guò)中間層特征,逐步獲取原始輸入與高層特征的聯(lián)系呢?Olshausen等的實(shí)驗(yàn)通過(guò)有效的特征提取,將像素抽象成更高級(jí)的特征,證實(shí)了這一設(shè)想的可能性[31].類似的結(jié)果也適用于語(yǔ)音特征.

        傳統(tǒng)機(jī)器學(xué)習(xí)方法過(guò)分依賴人工選取特征或表示,不具備從數(shù)據(jù)中自動(dòng)抽取和組織信息的能力.盡管人工選擇能夠利用人類智慧和先驗(yàn)知識(shí)彌補(bǔ)這一缺陷,但要達(dá)到能夠深入理解問(wèn)題的程度,并挖掘合適的特征規(guī)則,研究人員所需花費(fèi)的時(shí)間代價(jià)也頗為昂貴.這從某種程度上限制了機(jī)器學(xué)習(xí)向更聰明的人工智能方向邁進(jìn)的步伐.因此,擺脫人工特征選擇的局限性,試圖從大量可觀測(cè)到的淺層感官數(shù)據(jù)中識(shí)別或解釋關(guān)鍵特征,便成為深度學(xué)習(xí)的主要思想,這也是深度學(xué)習(xí)稱為無(wú)監(jiān)督特征學(xué)習(xí)的原因.某種意義上,凡是能夠?qū)崿F(xiàn)自動(dòng)學(xué)習(xí)特征的方法,都可以歸為深度學(xué)習(xí).

        為什么深度學(xué)習(xí)方法可以實(shí)現(xiàn)自動(dòng)學(xué)習(xí)特征呢?Hinton等[3-4]從不同角度探討了可能的原因.

        首先,如果表示的深度不夠,就可能無(wú)法有效表示特征對(duì)象.通常情況下,一個(gè)給定目標(biāo)精度的函數(shù)采用深度為2的網(wǎng)絡(luò)結(jié)構(gòu)就可以了,如使用邏輯門.但伴隨而來(lái)的問(wèn)題是需要大量計(jì)算節(jié)點(diǎn).Hastad從理論上證實(shí)了存在這樣一類函數(shù)族[33],即使用深度為d的結(jié)構(gòu)和O(n)個(gè)節(jié)點(diǎn)可以有效表示的函數(shù)族,當(dāng)深度降低為d-1時(shí),節(jié)點(diǎn)數(shù)呈現(xiàn)O(2n)指數(shù)級(jí)增長(zhǎng),這意味著增加表示深度的方式可以更加節(jié)約計(jì)算成本.

        其次,深度學(xué)習(xí)的分層概念符合人類認(rèn)知學(xué)習(xí)過(guò)程.從認(rèn)知科學(xué)角度來(lái)看,人類的認(rèn)知學(xué)習(xí)過(guò)程是分層進(jìn)行的,分層結(jié)構(gòu)是認(rèn)知學(xué)習(xí)的基本要求.例如工程師在解決復(fù)雜問(wèn)題的過(guò)程中,必定會(huì)將任務(wù)加以分解,形成多個(gè)較小的子任務(wù)來(lái)處理,子任務(wù)和總?cè)蝿?wù)也處于不同的認(rèn)知抽象層面.

        最后,神經(jīng)生物學(xué)的研究表明,人腦中也存在某種分層結(jié)構(gòu),這進(jìn)一步從仿生學(xué)角度為深度學(xué)習(xí)的有效性提供了佐證.神經(jīng)生物學(xué)家Serre等對(duì)人類大腦的研究表明[34]:大腦皮質(zhì)存在著層次化的系列區(qū)域;每個(gè)區(qū)域都包含一個(gè)不同抽象層次的輸入及到另一個(gè)區(qū)域的信號(hào)流向.

        1.3首要任務(wù)

        深度學(xué)習(xí)的首要任務(wù)是盡可能采用一種簡(jiǎn)單的算法來(lái)實(shí)現(xiàn)所求解問(wèn)題的分層特征表示.經(jīng)過(guò)特征的逐層變換,使得原始樣本特征可以映射變換到另一個(gè)新特征空間,進(jìn)而可以更加容易地利用特征完成分類或預(yù)測(cè)任務(wù).因此,特別強(qiáng)調(diào)特征學(xué)習(xí)(Feature learning)或表示學(xué)習(xí)(Representation learning)的重要性,這一點(diǎn)與傳統(tǒng)機(jī)器學(xué)習(xí)方法是一致的,所不同的是,深度學(xué)習(xí)實(shí)現(xiàn)特征自動(dòng)提取,而傳統(tǒng)機(jī)器學(xué)習(xí)更依賴于人工分析特征.

        深度學(xué)習(xí)通過(guò)學(xué)習(xí)數(shù)據(jù)的某種變換形式,當(dāng)構(gòu)建分類器或預(yù)測(cè)器時(shí),更容易抽取有效信息.以概率模型為例,能夠抓取到所觀察輸入數(shù)據(jù)潛在解釋因素后驗(yàn)分布的那個(gè)表示,往往是一種好的表示形式.在以深度學(xué)習(xí)方法為主的特征學(xué)習(xí)研究中,還有許多問(wèn)題有待進(jìn)一步探索解決.比如說(shuō),一個(gè)特征表示優(yōu)于另一個(gè)表示的主要因素是什么?給定一個(gè)表示對(duì)象,我們?nèi)绾螌W(xué)習(xí)好的特征表示?···諸如此類基本問(wèn)題,都有待研究解決.

        1.4基本框架

        上節(jié)已經(jīng)提到,深度學(xué)習(xí)的首要任務(wù)其實(shí)是特征學(xué)習(xí).如圖2所示,深度學(xué)習(xí)模型本質(zhì)上是一種基于原始特征(或者說(shuō)是未經(jīng)過(guò)人類思維分析的數(shù)據(jù))輸入,通過(guò)多層非線性處理,來(lái)學(xué)習(xí)復(fù)雜特征表示的方法.如果結(jié)合特定的領(lǐng)域任務(wù),則深度學(xué)習(xí)可以通過(guò)自動(dòng)學(xué)習(xí)的特征表示來(lái)構(gòu)建新型分類器或生成工具,以實(shí)現(xiàn)面向領(lǐng)域的分類或其他任務(wù).

        圖2 深度學(xué)習(xí)基本模型Fig.2 Basic model of deep learning

        具體而言,圖3表示了深度學(xué)習(xí)的基本框架[35],算法流程如下所示.

        圖3 深度學(xué)習(xí)基本框架Fig.3 Basic framework of deep learning

        步驟1.隨機(jī)初始化構(gòu)建一個(gè)學(xué)習(xí)網(wǎng)絡(luò);設(shè)置訓(xùn)練網(wǎng)絡(luò)層數(shù)n;

        步驟2.初始化無(wú)標(biāo)注數(shù)據(jù)作為網(wǎng)絡(luò)訓(xùn)練輸入集;初始化訓(xùn)練網(wǎng)絡(luò)層i=1;

        步驟3.基于輸入集,采用無(wú)監(jiān)督學(xué)習(xí)算法預(yù)訓(xùn)練當(dāng)前層的學(xué)習(xí)網(wǎng)絡(luò);

        步驟4.每層的網(wǎng)絡(luò)訓(xùn)練結(jié)果作為下一層的輸入,再次構(gòu)建輸入集;

        步驟5.如果i小于網(wǎng)絡(luò)層數(shù)n,則網(wǎng)絡(luò)訓(xùn)練層i=i+1,算法跳轉(zhuǎn)到步驟3;否則,跳轉(zhuǎn)到步驟6;

        步驟6.采用有監(jiān)督學(xué)習(xí)方法來(lái)調(diào)整所有層的網(wǎng)絡(luò)參數(shù),使誤差達(dá)到要求;

        步驟7.完成分類器(如神經(jīng)網(wǎng)絡(luò)分類器)構(gòu)建;或者完成深度生成模型(如深度玻爾茲曼機(jī))構(gòu)建.

        上述基本框架中的步驟2~4是深度學(xué)習(xí)的關(guān)鍵,也稱為“逐層預(yù)訓(xùn)練(Layer-wise pretraining)”[5].如圖4所示.

        圖4 逐層預(yù)訓(xùn)練模型Fig.4 Layer-wise pre-training model

        逐層訓(xùn)練中的關(guān)鍵部分是自動(dòng)編碼器(Autoencoder)的構(gòu)建.在深度學(xué)習(xí)模型中,自動(dòng)編碼器可以是一種盡可能重現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò).

        1.4.1無(wú)監(jiān)督構(gòu)建自動(dòng)編碼器

        當(dāng)原始輸入確定后,首先訓(xùn)練模型的第一層,如圖4中最左側(cè)的黑色框圖Encoder_A,表示編碼器,是整個(gè)模型的“認(rèn)知機(jī)構(gòu)”,其將原始輸入編碼后形成第一層初級(jí)特征.為了驗(yàn)證編碼后的特征確實(shí)是原始輸入的一種等價(jià)抽象表示,沒(méi)有丟失太多信息,我們引入一個(gè)對(duì)應(yīng)的解碼器,如圖4中最左側(cè)的灰色框圖Decoder_A,它是這個(gè)模型的“生成機(jī)構(gòu)”.為了使“認(rèn)知”和“生成”達(dá)成一致,我們需要將編碼后的特征經(jīng)過(guò)解碼器再生成,目的是要與初始的原始輸入做比較驗(yàn)證.驗(yàn)證得到的結(jié)果誤差定義為代價(jià)函數(shù),用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)編碼器和解碼器.當(dāng)訓(xùn)練達(dá)到收斂目標(biāo)后,確定了具體各類參數(shù)的神經(jīng)網(wǎng)絡(luò)編碼器就是我們需要的第一層模型(而解碼器可以不需要),即可以得到原始數(shù)據(jù)的第一層抽象表示.固定第一層神經(jīng)網(wǎng)絡(luò)編碼器的參數(shù),并將第一層抽象輸出作為輸入,再次重復(fù)操作,陸續(xù)可以訓(xùn)練出第二層模型、第三層模型;以此類推,直至訓(xùn)練得到滿足要求的最高層模型.

        1.4.2有監(jiān)督訓(xùn)練分類器

        通過(guò)上述訓(xùn)練后得到的自動(dòng)編碼器,原始輸入信號(hào)得到了不同的表達(dá)特征,這些特征可以最大程度上代表原始輸入信號(hào).但是,這個(gè)自動(dòng)編碼器還不能用來(lái)實(shí)現(xiàn)分類功能.為了實(shí)現(xiàn)分類,我們需要在自動(dòng)編碼器最高層的編碼層添加分類器(Classifier),結(jié)合標(biāo)簽(Label)樣本,基于標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的有監(jiān)督訓(xùn)練方法調(diào)整參數(shù).

        參數(shù)調(diào)整方法分為兩類:一是僅僅調(diào)整最高層的分類器的參數(shù);二是通過(guò)標(biāo)簽樣本,調(diào)整所有自動(dòng)編碼器的參數(shù),也即實(shí)現(xiàn)對(duì)多層模型參數(shù)的精細(xì)調(diào)整.

        深度學(xué)習(xí)所構(gòu)建的深層模型具有較多局部最優(yōu)解.逐層初始化方法的目的就是最終將深層模型調(diào)整到較為接近全局最優(yōu)解的位置,從而獲得最佳效果.表2從不同角度比較了深層模型和淺層模型的特點(diǎn).淺層模型的一個(gè)主要局限性就是需要依賴人工經(jīng)驗(yàn)來(lái)抽取作為模型輸入的樣本特征,模型本身僅作為分類或預(yù)測(cè)工具.因此在淺層模型實(shí)現(xiàn)的系統(tǒng)中,起決定性作用的往往不是模型的優(yōu)劣,而是所選取的特征的優(yōu)劣.這也促使研究人員將研究精力重點(diǎn)投入到特征的開(kāi)發(fā)和篩選中,不僅對(duì)任務(wù)問(wèn)題領(lǐng)域需要深刻的理解,還需要花費(fèi)大量時(shí)間反復(fù)實(shí)驗(yàn)摸索.事實(shí)上,逐層初始化深層模型也可以看作是特征學(xué)習(xí)的過(guò)程,通過(guò)隱藏層對(duì)原始輸入的一步一步抽象表示,來(lái)學(xué)習(xí)原始輸入的數(shù)據(jù)結(jié)構(gòu),找到更有效的特征,最終提高分類問(wèn)題的準(zhǔn)確性.在獲得有效特征之后,模型整體訓(xùn)練也可以水到渠成.

        表2 淺層和深層模型比對(duì)分析[32]Table 2 Comparison and analysis of shallow model and deep model[32]

        2 面向自然語(yǔ)言處理的深度學(xué)習(xí)研究及應(yīng)用

        深度學(xué)習(xí)在圖像和語(yǔ)音領(lǐng)域取得了突出成果,但是在自然語(yǔ)言處理上還未取得重大突破.與語(yǔ)音和圖像不同,語(yǔ)言是一種經(jīng)過(guò)人類大腦產(chǎn)生并加工處理的符號(hào)系統(tǒng),似乎模仿人腦結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)應(yīng)該在自然語(yǔ)言處理領(lǐng)域擁有更多優(yōu)勢(shì),但實(shí)際情況并非如此.同時(shí),近幾十年來(lái),在基于統(tǒng)計(jì)的模型成為自然語(yǔ)言處理主流方法之后,屬于統(tǒng)計(jì)方法典型代表的人工神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域依然沒(méi)有得到足夠重視.當(dāng)然,這一切在2006年Hinton等提出深度學(xué)習(xí)[5]以后,情況發(fā)生了變化,當(dāng)前結(jié)合深度學(xué)習(xí)模型開(kāi)展自然語(yǔ)言處理相關(guān)應(yīng)用已經(jīng)取得了一定成果,并成為研究熱點(diǎn)之一.

        語(yǔ)言模型是最早采用神經(jīng)網(wǎng)絡(luò)開(kāi)展研究的自然語(yǔ)言處理問(wèn)題.2003年,Bengio等提出詞向量(Word embedding或Word representation)方法,可以將詞映射轉(zhuǎn)換到一個(gè)獨(dú)立的向量空間;進(jìn)一步結(jié)合非線性神經(jīng)網(wǎng)絡(luò)提出了n-gram模型[36];受此啟發(fā),Collobert等基于詞向量方法及多層一維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN),實(shí)現(xiàn)了一個(gè)同時(shí)處理詞性標(biāo)注、語(yǔ)塊切分、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注四個(gè)典型自然語(yǔ)言處理任務(wù)的SENNA(Semantic/syntactic extraction using a neural network architecture)系統(tǒng)[28],取得了與當(dāng)時(shí)業(yè)界最好性能相當(dāng)接近的效果.尤其難能可貴的是,相比傳統(tǒng)算法,僅用3500多行C語(yǔ)言代碼實(shí)現(xiàn)的SENNA系統(tǒng),運(yùn)行速度更快,所需內(nèi)存空間更小.

        對(duì)Bengio等提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的進(jìn)一步研究,Mikolov等發(fā)現(xiàn),通過(guò)添加隱藏層的多次遞歸,可以提高語(yǔ)言模型性能[37];將其應(yīng)用于語(yǔ)音識(shí)別任務(wù)的結(jié)果令人吃驚,在提高后續(xù)詞預(yù)測(cè)的準(zhǔn)確率及總體降低詞的識(shí)別錯(cuò)誤率方面都超越了當(dāng)時(shí)最好的基準(zhǔn)系統(tǒng).類似的模型也被Schwenk等用在統(tǒng)計(jì)機(jī)器翻譯任務(wù)上[38],其性能采用BLEU(Bilingual evaluation understudy)評(píng)分機(jī)制評(píng)判,提高了將近2個(gè)百分點(diǎn).遞歸自動(dòng)編碼器(Recursive auto-encoders)模型[39]在句段檢測(cè)(Sentence paraphrase detection)任務(wù)中大大提高了F1值.此外,基于深度模型的特征學(xué)習(xí)還在詞義消歧[40]、情感分析[41-42]等自然語(yǔ)言處理任務(wù)中均超越了當(dāng)時(shí)最優(yōu)系統(tǒng),取得不俗表現(xiàn).

        2.1深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域應(yīng)用的可行性分析

        由上述應(yīng)用可見(jiàn),自然語(yǔ)言處理領(lǐng)域中的深度學(xué)習(xí)技術(shù)已經(jīng)表現(xiàn)出較強(qiáng)的生命力,成為當(dāng)前研究熱點(diǎn)之一.綜合分析來(lái)看,能夠在自然語(yǔ)言處理領(lǐng)域中應(yīng)用深度學(xué)習(xí)技術(shù)并取得良好效果,我們認(rèn)為主要有以下幾點(diǎn)原因.

        半個(gè)多世紀(jì)以來(lái),齊齊哈爾地區(qū)的工業(yè)為共和國(guó)的經(jīng)濟(jì)、國(guó)防和工業(yè)現(xiàn)代化建設(shè)做出了不可磨滅的貢獻(xiàn)。這里的工廠曾經(jīng)為我國(guó)第一門大炮、第一顆人造衛(wèi)星、第一臺(tái)核反應(yīng)推、第一艘核潛艇……在工業(yè)戰(zhàn)線上涌現(xiàn)的全國(guó)勞動(dòng)模范馬恒昌先后13次受到毛主席接見(jiàn)。但是,由于種種原因,在以往報(bào)道中沒(méi)有充分挖掘這些典型的人物與事件。而在相距150公里之外的大慶市就把鐵人王進(jìn)喜的形象搬進(jìn)社區(qū)、學(xué)校、廣場(chǎng)、公交車……在整個(gè)大慶市的每個(gè)角落都能受到“鐵人”精神的鼓舞。

        2.1.1特征表示學(xué)習(xí)的需要

        自然語(yǔ)言處理任務(wù)中首先要解決的問(wèn)題是處理對(duì)象的表示形式.為了表示對(duì)象,通常必須抽取一些特征,如文本的處理中,常常用詞集合來(lái)表示一個(gè)文檔.傳統(tǒng)依賴手工的方式抽取特征,費(fèi)時(shí)費(fèi)力;不僅獲取過(guò)程比較隨意,且完備性較差;同時(shí),根據(jù)處理任務(wù)或領(lǐng)域的不同,特征提取工作要重復(fù)進(jìn)行,無(wú)法實(shí)現(xiàn)表示共享.能否使得機(jī)器也能像人類一樣,實(shí)現(xiàn)自動(dòng)獲取特征表示并進(jìn)行推理學(xué)習(xí)?深度學(xué)習(xí)就試圖來(lái)解決這個(gè)問(wèn)題.深度學(xué)習(xí)中的特征提取,即指可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)獲取特征.

        2.1.2無(wú)監(jiān)督特征和權(quán)重學(xué)習(xí)的需要

        目前大多數(shù)效果較好的自然語(yǔ)言處理任務(wù)和機(jī)器學(xué)習(xí)方法都依賴于標(biāo)注數(shù)據(jù).在這種情況下,基于標(biāo)注語(yǔ)料庫(kù)及有監(jiān)督學(xué)習(xí)方式成為了主流手段.但是,就實(shí)際應(yīng)用而言,自然語(yǔ)言中大量存在的是未標(biāo)注數(shù)據(jù).從這些未標(biāo)注數(shù)據(jù)中挖掘信息,就必須要考慮(自動(dòng))無(wú)監(jiān)督方法.深度神經(jīng)網(wǎng)絡(luò)采用無(wú)監(jiān)督方式完成預(yù)訓(xùn)練過(guò)程,恰恰提供了合適的訓(xùn)練模型.

        2.1.3學(xué)習(xí)多層分類表示的需求

        仿生學(xué)的研究表明,完成人類學(xué)習(xí)的大腦結(jié)構(gòu)表現(xiàn)為一種多層(深層)不同的皮質(zhì)層;不同皮質(zhì)層對(duì)應(yīng)于不同的學(xué)習(xí)表示結(jié)構(gòu):從抽象到具體,逐層遞減.表示的抽象程度越高,越能更多地交叉支持具體的處理任務(wù).因此,我們需要利用好的學(xué)習(xí)模型,更多地抽取出有用的中間表示形式(Intermediate representations).深度學(xué)習(xí)能夠較好地抽取處理任務(wù)的多層分類表示.

        此外,人類自然語(yǔ)言具有遞歸特性(Recursion).比如,自然語(yǔ)言中的句子,事實(shí)上可以由詞、短語(yǔ)遞歸組合而成.深度學(xué)習(xí)提供了較為方便的遞歸操作,可以支持這種自然語(yǔ)言遞歸組合特性的功能,如遞歸神經(jīng)網(wǎng)絡(luò)(Recursive neural network,RNN).

        2.1.4當(dāng)前可用的技術(shù)及硬件平臺(tái)支撐

        深度學(xué)習(xí)結(jié)構(gòu)一般由多層神經(jīng)網(wǎng)絡(luò)結(jié)點(diǎn)組成,其預(yù)訓(xùn)練過(guò)程通常需要高性能計(jì)算的支持.隨著技術(shù)的發(fā)展,能夠提供高性能計(jì)算的硬件平臺(tái)目前逐漸成熟,如多核計(jì)算(Multi-core computing)、圖形處理單元(Graphics processing unit,GPU)等.同時(shí),為深度網(wǎng)絡(luò)結(jié)構(gòu)中的組成單元提供算法支持的技術(shù)也有較好發(fā)展,如RBM、Auto-encoders等;并且各類結(jié)合自然語(yǔ)言處理的語(yǔ)言模型/算法[28,37,43-44]等也逐漸得到優(yōu)化,性能得到提升.這些硬件及軟件技術(shù)的發(fā)展,都為當(dāng)前采用深度學(xué)習(xí)結(jié)構(gòu)的自然語(yǔ)言處理提供了良好支撐環(huán)境.

        面向領(lǐng)域任務(wù)的深度學(xué)習(xí)研究及應(yīng)用,需要解決兩個(gè)普適問(wèn)題:1)應(yīng)用領(lǐng)域的原始特征表示;2)選擇合適的深度學(xué)習(xí)算法.前者實(shí)際是數(shù)據(jù)的表示問(wèn)題,后者代表了深度學(xué)習(xí)結(jié)構(gòu)問(wèn)題,即深度學(xué)習(xí)模型.例如在圖像處理領(lǐng)域,一般會(huì)選取圖像像素矩陣作為原始特征表示[4,6-7];而在語(yǔ)音處理任務(wù)中,則會(huì)選取最基本的語(yǔ)音單位[43],如音素(Phonemes).

        面向自然語(yǔ)言處理的深度學(xué)習(xí)研究,同樣需要考慮上述兩個(gè)普適問(wèn)題.對(duì)于問(wèn)題1),典型的有基于詞向量空間[30,45-46]、詞袋模型(Bag-of-words,BoW)、向量空間模型(Vector space model,VSM)等的表示方式;對(duì)于問(wèn)題2),目前普遍認(rèn)可的是,需要根據(jù)自然語(yǔ)言的特點(diǎn),來(lái)選擇合適的深度學(xué)習(xí)模型.人類自然語(yǔ)言具有遞歸特性.比如,自然語(yǔ)言中的句子,事實(shí)上是由詞、短語(yǔ)遞歸組合而成.因此,遞歸特性是自然語(yǔ)言的重要特征.考慮自然語(yǔ)言遞歸特性的深度學(xué)習(xí)模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)及其系列改進(jìn)模型[37,47-50].

        考慮上述兩個(gè)問(wèn)題之后,在自然語(yǔ)言處理中應(yīng)用深度學(xué)習(xí)的方式主要有兩類:1)在深度學(xué)習(xí)模型中,直接使用原始特征,構(gòu)建一類端到端(End-toend)系統(tǒng),完成處理任務(wù);2)在現(xiàn)有模型中,將訓(xùn)練后的原始特征作為輔助特征擴(kuò)充使用.第1)種方式典型的工作如SENNA系統(tǒng)[30],基于詞向量方法及多層一維卷積神經(jīng)網(wǎng)絡(luò)完成了詞性標(biāo)注、語(yǔ)塊切分、命名實(shí)體識(shí)別等系列任務(wù);類似的工作還有如Socher基于遞歸神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)情感分析、句法分析等多項(xiàng)任務(wù)[51].第2)種方式典型的工作如Turian等將詞向量作為額外的特征加入到現(xiàn)有最優(yōu)系統(tǒng)中[52],進(jìn)一步提高了命名實(shí)體識(shí)別和短語(yǔ)識(shí)別的效果.

        2.2.1數(shù)據(jù)表示

        2.2.1.1One-hot representation

        面向自然語(yǔ)言處理的深度學(xué)習(xí),首先要解決的是自然語(yǔ)言的表示問(wèn)題.在基于規(guī)則和統(tǒng)計(jì)的自然語(yǔ)言處理工作中,最常見(jiàn)的是One-hot representation表示方法:每個(gè)詞表示為一個(gè)很長(zhǎng)的向量;其中只有一個(gè)維度的值為1,代表了當(dāng)前的詞;其他絕大多數(shù)元素都為0;向量的維度是詞表的大小.如詞“話筒”的向量可表示為[0001000000000000···],而詞“麥克”的向量則可表示為[0000000010000000···].

        One-hot representation如果采用稀疏方式存儲(chǔ),形式上非常簡(jiǎn)潔.結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法,如最大熵、支持向量機(jī)、條件隨機(jī)場(chǎng)等,該方法可以勝任大多數(shù)自然語(yǔ)言處理的主流任務(wù);但其純粹的向量表示形式,僅是孤立地表示單個(gè)詞,無(wú)法表達(dá)詞與詞之間的相關(guān)性.如上述詞“話筒”和“麥克”的表示向量,單純從這兩個(gè)向量中,無(wú)法看出兩個(gè)詞是否存在關(guān)系,即使是麥克和話筒這樣的同義詞也不例外.Firth提出一種利用相近鄰詞表示當(dāng)前詞的思想[53]:通過(guò)計(jì)算不同范圍的上下文相近鄰詞,從而得到當(dāng)前表示詞的多種不同表達(dá)值.比如當(dāng)前中心詞前后的詞都可以用來(lái)計(jì)算得到當(dāng)前中心詞的表達(dá)值.基于這種思想所產(chǎn)生的詞表達(dá)方式,被稱為Distributional similarity.這也被譽(yù)為現(xiàn)代統(tǒng)計(jì)自然語(yǔ)言處理中最為成功的思想之一.

        2.2.1.2詞向量

        詞向量表示方式延續(xù)并擴(kuò)展了上述類似思想.為了讓相關(guān)或者相似的詞,在距離上更接近(向量的距離可以用傳統(tǒng)的歐氏距離來(lái)衡量),Hinton提出了一種用 Distributed representation表示詞的方式[54],通常被稱為詞向量.詞向量是一種低維實(shí)數(shù)向量,如[0.792,-0.177,-0.107,0.109,-0.542,···].用這種方式表示的向量,“麥克”和“話筒”的距離會(huì)遠(yuǎn)遠(yuǎn)小于“麥克”和“天氣”.詞向量的方式是目前自然語(yǔ)言處理中應(yīng)用深度學(xué)習(xí)的首選表示方式.這種表示方法的好處在于:首先,如果采用傳統(tǒng)One-hot representation的稀疏表示法,在解決某些任務(wù)的時(shí)候,比如構(gòu)建語(yǔ)言模型,可能會(huì)造成維數(shù)災(zāi)難[36],而使用低維的詞向量就可以避免類似問(wèn)題;其次,從實(shí)踐上看,高維的特征如果要應(yīng)用深度學(xué)習(xí)方法,復(fù)雜度過(guò)高,很難接受;再有,相似詞的詞向量距離相近,這就讓基于詞向量設(shè)計(jì)的一些模型能夠自帶平滑功能.

        詞向量模型為文本中的每個(gè)單詞構(gòu)造一組特征,較好地解決了自然語(yǔ)言中“詞”一級(jí)的表示問(wèn)題;事實(shí)上,也可以針對(duì)不同粒度進(jìn)行推廣,如字向量、句子向量和文檔向量[46],從而實(shí)現(xiàn)字、短語(yǔ)、文本等表示.而在文本級(jí)別,另外一種常見(jiàn)的表示方法是詞袋模型.

        2.2.1.3詞袋模型

        詞袋模型是最早出現(xiàn)在自然語(yǔ)言處理領(lǐng)域中用來(lái)表示文檔的方法.詞袋模型忽略文本的語(yǔ)法和語(yǔ)序,用一組無(wú)序的單詞來(lái)表達(dá)一個(gè)文檔或一段文字,文檔中每個(gè)單詞都是獨(dú)立出現(xiàn),不依賴于其他單詞是否出現(xiàn).文檔或文字段僅僅看作是若干個(gè)詞匯的集合.

        例 1a).Tom likes to play basketball.Mike likes too.

        例1b).Mike also likes to play tennis.

        根據(jù)上述兩句話中出現(xiàn)的單詞,我們能構(gòu)建出一個(gè)字典(“Tom”:1,“l(fā)ikes”:2,“to”:3,“play”:4,“basketball”:5,“Mike”:6,“too”:7,“also”:8,“tennis”:9).

        該字典中包含9個(gè)單詞,每個(gè)單詞有唯一索引,注意它們的順序和出現(xiàn)在句子中的順序沒(méi)有關(guān)聯(lián).根據(jù)這個(gè)字典,我們能將上述兩句話重新表示為下述兩個(gè)向量:

        [1,2,1,1,1,1,1,0,0]

        [0,1,1,1,0,1,0,1,1]

        這兩個(gè)向量共包含9個(gè)元素,其中第i個(gè)元素表示字典中第i個(gè)單詞在句子中出現(xiàn)的次數(shù).因此詞袋模型可認(rèn)為是一種統(tǒng)計(jì)直方圖.在文本檢索和處理應(yīng)用中,可以通過(guò)該模型很方便地計(jì)算詞頻.詞袋模型典型的應(yīng)用是文檔分類.定義文檔集合D,共有M 個(gè)文檔;將文檔里面的所有單詞提取出來(lái)后,構(gòu)成一個(gè)包含N個(gè)單詞的詞典.基于詞袋模型,每個(gè)文檔都可以被表示成為一個(gè)N維向量,利用計(jì)算機(jī)就可以來(lái)完成海量文檔的分類任務(wù).

        2.2.1.4向量空間模型

        向量空間模型(Vector space model,VSM)由Salton[55]于20世紀(jì)70年代提出,并成功地應(yīng)用于著名的SMART(System for the mechanical analysis and retrieval of text)文本檢索系統(tǒng).向量空間模型概念簡(jiǎn)單,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度來(lái)表示語(yǔ)義的相似度,直觀易懂.當(dāng)文檔被表示為文檔空間的向量時(shí),就可以通過(guò)計(jì)算向量之間的余弦距離來(lái)度量文檔間的相似性.

        除了在信息檢索領(lǐng)域的成功應(yīng)用外,向量空間模型也在自然語(yǔ)言處理的其他語(yǔ)義任務(wù)中有著令人印象深刻的結(jié)果.如Rapp采用基于向量的詞義表示方式來(lái)完成TOEFL考試的同義詞多項(xiàng)選擇問(wèn)題[56],取得了92.5%的準(zhǔn)確率,相比之下,當(dāng)時(shí)的該項(xiàng)考試中考生的平均正確率也僅為64.5%.類似的,Turney使用語(yǔ)義關(guān)系的向量表示[57],來(lái)完成SAT大學(xué)入學(xué)考試的推理多項(xiàng)選擇問(wèn)題,取得了56%的準(zhǔn)確率,和人類考試平均正確率57%基本相當(dāng).受向量空間模型思想啟發(fā),在如何表示短語(yǔ)、句子、篇章等高一級(jí)的語(yǔ)言單元這一問(wèn)題上,我們認(rèn)為,可能的解決思路是:以詞向量為最小單位;把同屬一個(gè)短語(yǔ)、句子或篇章的詞向量映射到同一向量空間中.類似的工作在短語(yǔ)、篇章及文檔的相似性判斷中已經(jīng)表現(xiàn)出較好的效果,如Manning等使用向量空間模型作為搜索引擎[58],來(lái)衡量一個(gè)查詢與文檔之間的相似度.

        2.2.2學(xué)習(xí)模型

        詞向量的獲得一般都是依賴語(yǔ)言模型的訓(xùn)練.常見(jiàn)的方式是在訓(xùn)練語(yǔ)言模型的過(guò)程中,同時(shí)訓(xùn)練得到詞向量.

        定義2.定義語(yǔ)言單元集合E={短語(yǔ),子句,篇章},語(yǔ)言基礎(chǔ)最小單元集合WordUnit={詞|字}.其中,英文中的語(yǔ)言基礎(chǔ)最小單元是詞,而漢語(yǔ)的語(yǔ)言基礎(chǔ)單位可以是字[26,59].

        定義3.語(yǔ)言模型可以形式化描述為:給定一個(gè)字符串S={w1w2···wt},判斷它屬于自然語(yǔ)言的概率為P(S).其中,S∈E,wi∈WordUnit,(i=1,2,···,t).簡(jiǎn)單的推論如下:

        推論1.P(w1,w2,···,wt)=P(w1)×P(w2| w1)×P(w3|w1,w2)×···×P(wt|w1,w2,···,wt-1).

        在實(shí)際應(yīng)用模型中,一般都求近似解,如n元語(yǔ)法(n-gram)模型就是如此.

        2.2.2.1神經(jīng)網(wǎng)絡(luò)與n元語(yǔ)法模型

        神經(jīng)網(wǎng)絡(luò)與語(yǔ)言模型的結(jié)合工作,最早源自Xu等[60]提出一種使用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元語(yǔ)言模型的思想;而Bengio等[36]利用三層神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建n元語(yǔ)法模型的工作,就把神經(jīng)網(wǎng)絡(luò)與語(yǔ)言模型訓(xùn)練的結(jié)合推上了一個(gè)新的臺(tái)階.

        如圖5所示最下方的wt-n+1,···,wt-2,wt-1表示前n-1個(gè)詞.根據(jù)前n-1個(gè)詞預(yù)測(cè)下一個(gè)詞wt是模型的終極目標(biāo).其中,模型使用了一個(gè)詞向量庫(kù),如定義4所示.

        圖5 三層神經(jīng)網(wǎng)絡(luò)構(gòu)建的n-gram模型[36]Fig.5 n-gram model constructed by three layer of neural networks[36]

        定義4.詞向量庫(kù)定義為矩陣C=|V|×m,其中|V|表示語(yǔ)料中的總詞數(shù);m表示詞向量的維度;c(w)表示從矩陣C中取出一行向量值,用來(lái)代表詞w所對(duì)應(yīng)的詞向量.

        網(wǎng)絡(luò)的輸入層將Cwt-n+1,···,Cwt-2,Cwt-1串連拼接起來(lái),構(gòu)成一個(gè)m(n-1)維的向量,表示為網(wǎng)絡(luò)的第二層(隱藏層)基于計(jì)算方式直接得到結(jié)果(其中H為隱藏層網(wǎng)絡(luò)權(quán)重矩陣,d為網(wǎng)絡(luò)輸入層到隱藏層的偏置項(xiàng)),并使用tanh函數(shù)作為激活函數(shù);網(wǎng)絡(luò)的第三層(輸出層)共包含|V|個(gè)節(jié)點(diǎn),使用softmax激活函數(shù)將輸出值y歸一化,如式(1)所示.

        其中yi表示下一個(gè)詞為i的未歸一化概率.定義y的計(jì)算如式(2):

        式中,b為隱藏層到輸出層的偏置項(xiàng);詞特征輸入層到輸出層的權(quán)重矩陣W=|V|×(n-1)m;隱藏層到輸出層的權(quán)重矩陣U=|V|×h,其中h是隱藏層節(jié)點(diǎn)數(shù)量;隱藏層權(quán)重矩陣H=h×(n-1)m;矩陣U和網(wǎng)絡(luò)隱藏層的矩陣乘法是模型的主要計(jì)算量.為了提升模型的計(jì)算速度,后期研究者的相關(guān)工作[29-30,47],都有對(duì)這一計(jì)算環(huán)節(jié)的簡(jiǎn)化.式(2)中的矩陣W 包含了從輸入層到輸出層的線性變換.如果不需要線性變換的話,可將W 置為0.線性變換雖然不能提升模型效果,但是可以減少一半的迭代次數(shù)[36].

        最后,采用隨機(jī)梯度下降法實(shí)現(xiàn)模型優(yōu)化工作,在得到語(yǔ)言模型的同時(shí),也得到了詞向量.值得注意的是,與一般神經(jīng)網(wǎng)絡(luò)輸入層僅帶一個(gè)輸入值而無(wú)需優(yōu)化不同,為了使得到的模型自帶平滑功能,該模型的輸入層參數(shù)是需要調(diào)整優(yōu)化的.相比于傳統(tǒng)含有復(fù)雜平滑設(shè)計(jì)的n元語(yǔ)法模型而言,該模型算法性能提升了約10%~20%[36].

        文獻(xiàn) [36]最主要的思想,隨后在下面三個(gè)重要工作中體現(xiàn)出來(lái):Log-bilinear語(yǔ)言模型、Hierarchical log-bilinear語(yǔ)言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型.

        2.2.2.2Log-bilinear語(yǔ)言模型

        受文獻(xiàn)[36]的影響,Mnih等提出了一種Logbilinear語(yǔ)言模型[61],用于實(shí)現(xiàn)語(yǔ)言模型及詞向量的訓(xùn)練.這可以認(rèn)為是自然語(yǔ)言處理中較早開(kāi)始深度學(xué)習(xí)應(yīng)用的嘗試.他們從最基本的受限玻爾茲曼機(jī)(Restricted Boltzmann machines,RBM)開(kāi)始,不斷調(diào)整修改模型的能量函數(shù),最終獲得了Logbilinear模型.采用神經(jīng)網(wǎng)絡(luò)的形式可以表示為:

        式(3)和(4)可以合并表示為:

        2.2.2.3Hierarchical log-bilinear語(yǔ)言模型

        在Log-bilinear語(yǔ)言模型基礎(chǔ)上,Mnih等提出了一種帶有層級(jí)思想的HLB(Hierarchical logbilinear)語(yǔ)言模型替換了文獻(xiàn)[36]提出的三層神經(jīng)網(wǎng)絡(luò)架構(gòu)中計(jì)算成本最大的矩陣乘法,在保證效果的基礎(chǔ)上,提升了速度[29].

        這種層級(jí)的思想最初由Morin等提出[62],他們采用WordNet中的IS-A關(guān)系,將其轉(zhuǎn)化為二叉樹后再作分類預(yù)測(cè).實(shí)驗(yàn)結(jié)果表明盡管提高了速度,但卻降低了性能,似乎有點(diǎn)得不償失.Mnih等借鑒了層級(jí)的思想,但在實(shí)驗(yàn)中使用一種自舉學(xué)習(xí)(Bootstrapping)的方法來(lái)自動(dòng)構(gòu)建平衡二叉樹,并將其用于替換網(wǎng)絡(luò)最后一層[29].在預(yù)測(cè)向量分類時(shí),采用了二叉樹中的非葉節(jié)點(diǎn);模型最后構(gòu)建得到的葉子節(jié)點(diǎn)就用來(lái)確定具體的詞.計(jì)算復(fù)雜度也從原來(lái)的O(|V|)降低到O(log2(|V|)).

        2.2.2.4循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

        文獻(xiàn)[36]提出的模型中,涉及大量訓(xùn)練參數(shù). Mikolov等提出了一種循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Recurrent neural network language model,RNNLM)用于降低訓(xùn)練參數(shù)的數(shù)量[47];其采用BPTT(Backpropagation through time)優(yōu)化算法,取得了比n元語(yǔ)法模型中的最優(yōu)方法更好的效果;隨后的研究中,Mikolov等一直在RNNLM上作各種改進(jìn),包括速度及正確率[37,48-50].

        循環(huán)神經(jīng)網(wǎng)絡(luò)與前面方法中使用的前饋網(wǎng)絡(luò)訓(xùn)練的原理基本一致,但是在結(jié)構(gòu)上存在較大差別.循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大致如圖6所示.

        圖6 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Structure diagram of recurrent neural network

        圖6(a)是網(wǎng)絡(luò)的抽象表示結(jié)構(gòu),由于循環(huán)神經(jīng)網(wǎng)絡(luò)多用在時(shí)序序列上,因此輸入層、隱藏層和輸出層都帶有時(shí)序參數(shù)t.隱藏層計(jì)算公式表示為:

        圖6(b)表示循環(huán)神經(jīng)網(wǎng)絡(luò)的流轉(zhuǎn)過(guò)程.每當(dāng)一個(gè)新詞輸入,循環(huán)神經(jīng)網(wǎng)絡(luò)聯(lián)合輸入新詞的詞向量與上一個(gè)隱藏層狀態(tài),計(jì)算下一個(gè)隱藏層狀態(tài);重復(fù)計(jì)算得到所有隱藏層狀態(tài);各隱藏層最終通過(guò)傳統(tǒng)的前饋網(wǎng)絡(luò)得到輸出結(jié)果.

        不同于取n個(gè)詞來(lái)近似預(yù)測(cè)下一個(gè)詞的窗口模式,循環(huán)神經(jīng)網(wǎng)絡(luò)可以真正充分地利用所有上文信息來(lái)預(yù)測(cè)下一個(gè)詞.這種方式實(shí)際上優(yōu)劣并存,如果一旦在實(shí)際使用中優(yōu)化不足,就可能丟失長(zhǎng)距離信息,導(dǎo)致預(yù)測(cè)詞的性能甚至可能還比不上取n個(gè)詞的窗口模式.為了降低最后隱藏層到輸出層的復(fù)雜計(jì)算量,Mikolov等[47]采用了一種分組的方法:基于詞頻特點(diǎn),將|V|個(gè)詞分成組,先通過(guò)次判斷,判斷下一個(gè)詞所屬組別;再通過(guò)若干次判斷,找出其屬于組內(nèi)的元素;最后均攤復(fù)雜度約為略差于Mnih和Hinton所提模型[29]的復(fù)雜度O(log(|V|)).但是這種方法最大的優(yōu)點(diǎn)是結(jié)構(gòu)比較簡(jiǎn)單,可以減少誤差傳遞.

        2.2.2.5基于詞向量的改進(jìn)模型

        Collobert和Weston在2008年首次提出了一種特殊的詞向量計(jì)算方法[30],文中系統(tǒng)地總結(jié)了他們基于詞向量完成的多項(xiàng)自然語(yǔ)言處理任務(wù),如詞性標(biāo)注、命名實(shí)體識(shí)別、短語(yǔ)識(shí)別、語(yǔ)義角色標(biāo)注等工作.不同于求近似解的n元語(yǔ)法模型,他們的詞向量訓(xùn)練方法直接求解的近似解.給出定義5.

        定義5.定義f(wt-n+1,···,wt-1,wt)表示窗口連續(xù)n個(gè)詞的分值.f只有相對(duì)高低之分,并不表示概率的特性.f分值越高,表明這句話越是正常;f分值低,表明這句話不合理.極端情況,如果隨機(jī)把幾個(gè)詞堆積在一起,f值將表示為負(fù)分.

        基于此,Collobert和Weston使用Pair-wise方法來(lái)訓(xùn)練詞向量[30].其中,需要最小化目標(biāo)函數(shù)如下.

        式中,X為訓(xùn)練集中的所有連續(xù)的n元短語(yǔ),D是整個(gè)字典,x表示正樣本,x(w)表示負(fù)樣本,而函數(shù)f(x)是正樣本的分值轉(zhuǎn)換,f(x(w))是負(fù)樣本的分值轉(zhuǎn)換.式(7)中的第一個(gè)求和枚舉計(jì)算將訓(xùn)練語(yǔ)料中的n元短語(yǔ)都作為正樣本挑選出來(lái)了;所有的負(fù)樣本則通過(guò)第二個(gè)對(duì)字典的枚舉構(gòu)建得到.x(w)表示用w替換正常短語(yǔ)x的中間詞,這樣處理后,最終得到短語(yǔ)大多數(shù)情況下肯定不是正確的短語(yǔ),可以作為負(fù)樣本使用.由式(7)可見(jiàn),正樣本最終的打分要比負(fù)樣本至少高出1分.

        f函數(shù)的結(jié)構(gòu)基本上和文獻(xiàn)[36]中的網(wǎng)絡(luò)結(jié)構(gòu)一致.它們的共同之處在于:1)窗口中的n個(gè)詞所對(duì)應(yīng)的詞向量被串連形成一個(gè)長(zhǎng)向量;2)隱藏層都經(jīng)過(guò)一層網(wǎng)絡(luò)計(jì)算后得到.不同點(diǎn)在于:Collobert和Weston模型[30]的輸出層只有一個(gè)節(jié)點(diǎn)表示得分,而文獻(xiàn)[36]模型則擁有|V|個(gè)節(jié)點(diǎn);此外,采用HardTanh代替tanh激活函數(shù)以降低計(jì)算復(fù)雜度.

        Collobert和Weston模型中窗口n值設(shè)定為11,字典大小值|V|設(shè)定為130000,利用維基百科英文語(yǔ)料和路透社語(yǔ)料訓(xùn)練7周后得到了C&W詞向量.相比其他詞向量,C&W 詞向量主要特點(diǎn)有:

        1)C&W 詞向量?jī)H包含小寫單詞.也就是說(shuō),不同于其他詞向量對(duì)大小寫詞分開(kāi)處理,該詞表不區(qū)分大小寫,它把單詞都按照小寫詞加以處理.

        2)C&W 詞向量是通過(guò)半監(jiān)督學(xué)習(xí)得到的.因?yàn)镃&W詞向量是在通過(guò)詞性標(biāo)注、命名實(shí)體識(shí)別等多任務(wù)優(yōu)化的半監(jiān)督學(xué)習(xí)后得到的,區(qū)別于其他方法中的無(wú)監(jiān)督學(xué)習(xí).

        Turian等在將Collobert和Weston所實(shí)現(xiàn)的C&W 向量與Mnih和Hinton實(shí)現(xiàn)的向量[29]做了對(duì)比實(shí)驗(yàn)[52],并在其標(biāo)注好的語(yǔ)料上運(yùn)行了HLB(Hierarchical log-bilinear)模型,得到了另一份詞向量.Mikolov等的系列論文[45-46]介紹了將詞表征為實(shí)數(shù)值向量的詞向量工具包word2vec(本文第2.5.2節(jié)討論了該工具包),其主要用到CBOW模型(Continuous bag-of-words model)和Skip-gram模型(Skip-gram model),分別采用Hierarchical softmax和Negative sampling框架進(jìn)行設(shè)計(jì).CBOW模型和Skip-gram模型都包含三層架構(gòu),即輸入層、投影層和輸出層,所不同的是,前者在已知當(dāng)前詞wt的上下文wt-2,wt-1,wt+1,wt+2的前提下預(yù)測(cè)當(dāng)前詞wt,如圖7(a)所示;而后者是在已知當(dāng)前詞wt的前提下,預(yù)測(cè)其上下文wt-2,wt-1,wt+1,wt+2,如圖7(b)所示.

        經(jīng)過(guò)word2vec工具包訓(xùn)練得到的詞向量具備很好的類比(Word analogy)特性,在一定程度上可以表示詞語(yǔ)的語(yǔ)義和語(yǔ)法性質(zhì).面向知識(shí)圖譜的表示學(xué)習(xí)算法TransE[63]正是受此類比特性啟發(fā)而提出的.知識(shí)圖譜包含大量實(shí)體、實(shí)體的語(yǔ)義類別和實(shí)體間的關(guān)系,可以用三元組(主體、關(guān)系、客體)來(lái)表示.TransE算法將三元組中的關(guān)系看作主體到客體的翻譯,使得三元組滿足線性轉(zhuǎn)換.利用特征表示向量描述實(shí)體和關(guān)系,可以更加容易地計(jì)算實(shí)體之間的語(yǔ)義關(guān)系.

        圖7 詞向量word2vec的模型結(jié)構(gòu)圖Fig.7 Model structure diagram of word2vec

        2.2.3模型討論

        上述其他所有模型,除了循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型以外,本質(zhì)上模型的輸入層到隱藏層(第一層)都是等價(jià)的.即使形式比較特別的HLB語(yǔ)言模型,如果把模型中的H看成Hi的拼接,則也可以得到類似其他方法那樣的等式:

        所以上述諸多模型,本質(zhì)上非常相似,差別主要在于隱藏層到輸出層的語(yǔ)義定義.Bengio采用最樸素的線性變換[36],從隱藏層直接映射到每個(gè)詞;Collobert和Weston將語(yǔ)言模型做了簡(jiǎn)化[30],利用線性變換把隱藏層轉(zhuǎn)換為f分值;Mnih和Hinton復(fù)用了詞向量[29],進(jìn)一步強(qiáng)化了語(yǔ)義,并用層級(jí)結(jié)構(gòu)加速;Mikolov等則用了分組來(lái)實(shí)現(xiàn)加速[47].

        此外,Collobert和Weston的實(shí)驗(yàn)結(jié)果表明[30]:相比于隨機(jī)初始化,將詞向量作為初始值,在不同任務(wù)上的效果都有顯著提升;同時(shí)發(fā)現(xiàn)訓(xùn)練語(yǔ)料越大,實(shí)際效果越好.在將詞向量用作輔助特征時(shí),Turian等[52]的實(shí)驗(yàn)表明C&W 向量在命名實(shí)體識(shí)別和短語(yǔ)識(shí)別中的效果比Mnih和Hinton[29]實(shí)現(xiàn)的向量稍好些;而兩者聯(lián)合使用,效果更佳.

        近期Mikolov等的研究發(fā)現(xiàn)了一個(gè)有意思的現(xiàn)象[45]:兩個(gè)詞向量之間的關(guān)系,可以用兩個(gè)向量的差來(lái)體現(xiàn).例如已經(jīng)知道a與b的關(guān)系,類似等價(jià)于 c與d的關(guān)系,現(xiàn)在給定 a、b、c,判斷是否近似于詞向量例如實(shí)驗(yàn)中發(fā)現(xiàn)有詞向量≈進(jìn)一步發(fā)現(xiàn)居然就是最接近的詞向量.向量之間存在的這種線性平移關(guān)系,極有可能成為詞向量未來(lái)發(fā)展的關(guān)鍵.Mikolov等的實(shí)驗(yàn)結(jié)果也同樣表明,語(yǔ)料越大,詞向量效果就越好,這一點(diǎn)同Collobert和Weston[30]的實(shí)驗(yàn)結(jié)果是一致的.

        2.3面向自然語(yǔ)言處理的深度學(xué)習(xí)應(yīng)用策略

        Bengio提出了采用梯度下降法(Stochastic gradient descent,SGD)訓(xùn)練深度結(jié)構(gòu)的系列建議[64],其中大致可將訓(xùn)練過(guò)程分為:無(wú)監(jiān)督預(yù)訓(xùn)練、模型參數(shù)初始化及后期優(yōu)化、模型調(diào)試等.參考這一過(guò)程,我們定義如下在自然語(yǔ)言處理領(lǐng)域深度學(xué)習(xí)的應(yīng)用策略,應(yīng)用架構(gòu)如圖8所示.

        圖8 面向自然語(yǔ)言處理的深度學(xué)習(xí)應(yīng)用架構(gòu)圖Fig.8 Deep learning application architecture for NLP

        步驟1.構(gòu)建基本模型框架.針對(duì)處理任務(wù),選擇合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建深度學(xué)習(xí)基本模型框架.

        步驟2.模型檢查.采用梯度下降法檢查模型實(shí)現(xiàn)是否存在錯(cuò)誤.這對(duì)于整個(gè)過(guò)程至關(guān)重要.

        步驟3.模型初始化.主要涉及神經(jīng)網(wǎng)絡(luò)隱藏層偏置量b和網(wǎng)絡(luò)結(jié)點(diǎn)權(quán)重矩陣W 的參數(shù)初始化.

        步驟4.模型優(yōu)化.主要涉及模型參數(shù)調(diào)整優(yōu)化.

        步驟5.模型調(diào)整.檢查模型是否能夠滿足過(guò)擬合要求,如果沒(méi)有,調(diào)整模型參數(shù)使其能夠滿足過(guò)擬合要求;如果達(dá)到過(guò)擬合要求,那就采用正則化(Regularization)方法調(diào)整模型.

        2.3.1構(gòu)建基本模型框架

        構(gòu)建面向自然語(yǔ)言處理的深度學(xué)習(xí)模型,首先要考慮基本表示結(jié)構(gòu),可選的表示結(jié)構(gòu)有Single words、Fixed windows、Recursive sentence或Bag of words;其次要考慮非線性化過(guò)程,可選的非線性化函數(shù)有l(wèi)ogistic(“sigmoid”)、tanh、hard tanh、soft sign、rectifier等,如圖9所示.sigmoid函數(shù)及其反函數(shù)都具有單調(diào)遞增特點(diǎn),可實(shí)現(xiàn)變量在[0,1]區(qū)間的映射,故經(jīng)常作為神經(jīng)網(wǎng)絡(luò)閾值函數(shù)使用;但是,sigmoid函數(shù)初始化權(quán)重集后,能夠激活近半數(shù)的神經(jīng)元,這與模仿大腦神經(jīng)元稀疏性工作的原理似乎相悖,同時(shí)也不利于深度網(wǎng)絡(luò)訓(xùn)練.與此相比,rectifier函數(shù)具有單側(cè)抑制性,可以相對(duì)有效降低深度網(wǎng)絡(luò)訓(xùn)練復(fù)雜度.此外,統(tǒng)計(jì)表明,對(duì)于深度網(wǎng)絡(luò)而言,tanh函數(shù)性能最佳,使用頻率也是最高;hard tanh函數(shù)類似,計(jì)算代價(jià)相對(duì)低廉.上述幾種常用的非線性函數(shù)如圖9所示,其公式如下:

        圖9 幾種常用的非線性化函數(shù)可視化表示Fig.9 Visual representation of several commonly used nonlinear functions

        1)logistic(“sigmoid”)函數(shù):

        2)tanh函數(shù):

        3)hard tanh函數(shù):

        4)soft sign函數(shù):

        5)rectifier函數(shù):

        2.3.2模型檢查

        梯度下降法是常用的模型檢查方法.通過(guò)模型檢查,能夠驗(yàn)證所實(shí)現(xiàn)的模型是否存在明顯缺陷.首先,在檢查模型之前,需要選擇合適的梯度表示;其次,循環(huán)計(jì)算調(diào)整參數(shù);最后,比較輸出值和實(shí)際結(jié)果之間的偏差,以確保其一致.

        2.3.3模型初始化

        模型的初始化,首先設(shè)置隱藏層的偏置量為0,并設(shè)置輸出層的偏置量為假定權(quán)重值w都為0的情況下的最優(yōu)值;其次,設(shè)置權(quán)重其中fanin為前一層網(wǎng)絡(luò)的結(jié)點(diǎn)數(shù),fanout為后一層網(wǎng)絡(luò)的結(jié)點(diǎn)數(shù);最后,完成預(yù)訓(xùn)練過(guò)程.

        2.3.4模型優(yōu)化

        模型優(yōu)化主要涉及參數(shù)的訓(xùn)練.設(shè)θ為參數(shù){W,b},W 為網(wǎng)絡(luò)權(quán)重矩陣,b為網(wǎng)絡(luò)單元的偏置(Bias). 常規(guī)優(yōu)化算法有隨機(jī)梯度下降(SGD)、LBFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno)、共軛梯度下降 CG(Conjugate gradients).

        SGD形式化定義如下:

        式中,L為損失函數(shù),Zt為當(dāng)前樣本,θ為參數(shù)向量,εt為學(xué)習(xí)速率.SGD算法中對(duì)于學(xué)習(xí)速率的選擇,簡(jiǎn)單的辦法是選定一個(gè)固定值,作為全局變量使用;并且學(xué)習(xí)速率隨著時(shí)間動(dòng)態(tài)逐步遞減,以確保模型收斂.典型的遞減方式如取倒數(shù)形式O(1/t),形式化可表示為:

        在優(yōu)化過(guò)程中,不同的優(yōu)化算法都有不同的優(yōu)缺點(diǎn),需要區(qū)分不同應(yīng)用場(chǎng)合,加以選擇使用.比如在參數(shù)維度較低(小于1萬(wàn)維)的情況下,LBFGS的效果最好;而針對(duì)高維問(wèn)題,CG算法又要比其他兩種算法更優(yōu).此外,如果是在小規(guī)模數(shù)據(jù)集上,則LBFGS或CG算法較優(yōu);如果是在大數(shù)據(jù)集合中,SGD算法對(duì)模型參數(shù)的調(diào)整性能最佳[65].大數(shù)據(jù)集合經(jīng)常伴隨大規(guī)模訓(xùn)練集,為降低訓(xùn)練集的計(jì)算復(fù)雜度,在每次迭代時(shí)僅利用部分訓(xùn)練集樣本加以訓(xùn)練.這里的部分訓(xùn)練樣本其實(shí)是訓(xùn)練集的一個(gè)子集,一般稱為mini-batch.在實(shí)際優(yōu)化過(guò)程中,目前常用的是帶mini-batch的SGD優(yōu)化算法.

        在深度學(xué)習(xí)網(wǎng)絡(luò)中,梯度表示為雅可比行列矩陣的形式,每一單元的結(jié)果都依賴于前一步計(jì)算.這可能會(huì)使梯度結(jié)果變化速度過(guò)快,從而導(dǎo)致梯度下降局部變化的假設(shè)不再成立.

        2.3.5模型調(diào)整

        經(jīng)過(guò)上述步驟得到的模型,如果出現(xiàn)過(guò)擬合,則需要在本階段作正則化調(diào)整.第一步最簡(jiǎn)單的方式是:降低模型規(guī)模.可以通過(guò)降低各種參數(shù)值達(dá)到這一目的,如可以減少神經(jīng)網(wǎng)絡(luò)結(jié)點(diǎn)單元數(shù)、網(wǎng)絡(luò)層數(shù)及其他可用參數(shù)等.其次,可以使用標(biāo)準(zhǔn)L1或L2的Regularity限制調(diào)整權(quán)重值,或者采用稀疏化方式促使模型復(fù)雜度降低,提升計(jì)算速度和模型的泛化能力.

        2.4面向自然語(yǔ)言處理的深度學(xué)習(xí)典型應(yīng)用

        相比于圖像和語(yǔ)音領(lǐng)域所取得的成果,深度學(xué)習(xí)在自然語(yǔ)言處理上盡管還未取得重大突破,但也在以下相關(guān)諸多領(lǐng)域,如詞性標(biāo)注、句法分析、詞義學(xué)習(xí)、情感分析有著初步應(yīng)用,并取得較好效果.

        2.4.1分詞和詞性標(biāo)注

        分詞是指按照一定的規(guī)范,將連續(xù)的字序列重新組合成詞序列的過(guò)程.詞性標(biāo)注(Part-of-speech tagging,POS)則是指確定句子中每個(gè)詞的詞性,如形容詞、動(dòng)詞、名詞等,又稱詞類標(biāo)注或者簡(jiǎn)稱標(biāo)注.

        在英文分詞和詞性標(biāo)注方面,結(jié)合深度學(xué)習(xí)開(kāi)展相關(guān)研究最有影響力的是Collobert等的研究工作[28],他們基于詞向量方法及多層一維卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了一個(gè)同時(shí)處理詞性標(biāo)注、語(yǔ)塊切分、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注四個(gè)典型自然語(yǔ)言處理任務(wù)的SENNA系統(tǒng),取得了與當(dāng)時(shí)業(yè)界最好性能相當(dāng)接近的效果.

        在中文分詞和詞性標(biāo)注方面,Zheng等分析了利用深度學(xué)習(xí)來(lái)進(jìn)行上述兩項(xiàng)工作的可行性[59],主要集中在特征發(fā)現(xiàn)、數(shù)據(jù)表示和模型算法三方面工作.在特征發(fā)現(xiàn)方面,他們嘗試采用深層神經(jīng)網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)與任務(wù)相關(guān)的特征,從而避免依賴于具體任務(wù)的特征工程(Task-specific feature engineering);在數(shù)據(jù)表示方面,他們利用大規(guī)模非標(biāo)注數(shù)據(jù)(Unlabeled data)來(lái)改善中文字的內(nèi)在表示(Internal representation),然后使用改善后的表示來(lái)提高有監(jiān)督的分詞和詞性標(biāo)注模型的性能;在模型算法方面,他們提出Perceptron-style算法替代Maximum-likelihood方法,在性能上接近當(dāng)前最好的算法,但計(jì)算開(kāi)銷更小.特別有意思的是,受英文的詞向量[28,36]的概念啟發(fā),他們提出以中文的字(Character)為基本單位的字向量概念,由此提供了深度學(xué)習(xí)利用中文大規(guī)模非標(biāo)注數(shù)據(jù)開(kāi)展預(yù)訓(xùn)練的可能性.

        2.4.2句法分析

        句法分析(Syntactic analysis)的主要任務(wù)是自動(dòng)識(shí)別句子中包含的句法單位以及這些句法單位相互之間的關(guān)系,即句子的結(jié)構(gòu).通常的做法是:給定一個(gè)句子作為輸入,利用語(yǔ)言的語(yǔ)法特征作為主要知識(shí)源構(gòu)建一棵短語(yǔ)結(jié)構(gòu)樹.

        Henderson提出一種 Left-corner句法分析器[66],首次將神經(jīng)網(wǎng)絡(luò)成功應(yīng)用于大規(guī)模句法分析中;隨后,Henderson又基于同步網(wǎng)絡(luò)訓(xùn)練句法分析器[67];Titov等使用SVM改進(jìn)了一種生成型句法分析器用于不同領(lǐng)域的句法分析任務(wù)[68];他們還在特征學(xué)習(xí)基礎(chǔ)上尋求進(jìn)一步改進(jìn)系統(tǒng)的方法[69]. Collobert基于深度循環(huán)圖轉(zhuǎn)移網(wǎng)絡(luò)提出了一種應(yīng)用于自然語(yǔ)言句法分析的快速判別算法[70].該方法使用較少的文本特征,所取得的性能指標(biāo)與當(dāng)時(shí)最好的判別式分析器和基準(zhǔn)分析器相當(dāng),而在計(jì)算速度上具有較大優(yōu)勢(shì).

        與此同時(shí),Costa等也嘗試采用遞歸神經(jīng)網(wǎng)絡(luò)模型[71],用于解決增量式句法分析器中侯選附加短語(yǔ)的排序問(wèn)題.他們的工作首次揭示了利用遞歸神經(jīng)網(wǎng)絡(luò)模型獲取足夠的信息,從而修正句法分析結(jié)果的可能性;但是他們只在大約2000個(gè)句子的子集上做了測(cè)試,相對(duì)來(lái)說(shuō)測(cè)試集合顯得有點(diǎn)少. Menchetti等[72]在使用Collins分析器[73]生成侯選句法樹的基礎(chǔ)上,利用遞歸神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)再排序.和他們的工作類似,Socher等提出了一種CVG(Compositional vector grammar)模型用于句法結(jié)構(gòu)預(yù)測(cè)[74],該模型將PCFG(Probabilistic context free grammars)與遞歸神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,充分利用了短語(yǔ)的語(yǔ)法和語(yǔ)義信息.與斯坦福分析器相比,他們的系統(tǒng)不僅性能上提高了約3.8%(取得了90.4%的F1值),而且在訓(xùn)練速度上提高約20%. Legrand等基于簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)模型,提出了一種自底向上的句法分析方法[75].其主要優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單,計(jì)算開(kāi)銷少,分析速度快,且性能接近當(dāng)前最好系統(tǒng).

        2.4.3詞義學(xué)習(xí)

        基于無(wú)監(jiān)督學(xué)習(xí)機(jī)制的詞義表示在自然語(yǔ)言處理中有著非常廣泛的用途,例如可以作為某些學(xué)習(xí)算法的輸入或者是特殊詞的特征表示.但是,目前大多數(shù)詞義表示模型都依賴本地上下文關(guān)系,且只能一詞一義.這存在很大局限性,因?yàn)橥ǔ?赡芤粋€(gè)詞有著多個(gè)含義;并且對(duì)于學(xué)習(xí)詞義而言,全局上下文關(guān)系能夠提供更多有用的信息.Huang等[76]在Collobert和Weston[30]的基礎(chǔ)上,提出了一種新的深度神經(jīng)網(wǎng)絡(luò)模型用于詞義學(xué)習(xí).該模型通過(guò)綜合本地和全局文本上下文信息,學(xué)習(xí)能夠更好表達(dá)詞義的隱藏詞;通過(guò)學(xué)習(xí)每個(gè)詞的多義詞表示,來(lái)更好地解釋同名歧義;進(jìn)一步,在基于多個(gè)詞向量表示詞的多義性基礎(chǔ)上,通過(guò)對(duì)模型的改進(jìn),使得詞向量包含更豐富的語(yǔ)義信息.實(shí)驗(yàn)表明,相比于其他向量,Huang等的方法與人工標(biāo)注語(yǔ)義相似度最為接近.

        Socher等提到了對(duì)語(yǔ)言的深度理解概念[40].他們認(rèn)為,單個(gè)詞的向量空間模型在詞匯信息的學(xué)習(xí)中得到了充分成功的應(yīng)用,但是由于不能有效獲取長(zhǎng)短語(yǔ)的組合詞義,則在語(yǔ)言的進(jìn)一步深度理解上產(chǎn)生了障礙.他們提出了一種深度遞歸神經(jīng)網(wǎng)絡(luò)模型,該模型可通過(guò)學(xué)習(xí)短語(yǔ)和句子的組合向量來(lái)表示語(yǔ)義.句子可以是任意句法類型和長(zhǎng)度的句子.該模型給句法樹上的每個(gè)結(jié)點(diǎn)都分配一個(gè)向量和矩陣;向量獲取元素的本體語(yǔ)義;矩陣捕獲鄰近單詞和短語(yǔ)的變化信息.該模型在三種不同的實(shí)驗(yàn)中取得了顯著性能,分別是副詞-形容詞組合對(duì)的情感分布預(yù)測(cè)、影評(píng)標(biāo)記的情感分類、情感關(guān)系分類,如因果或名詞之間的主題信息等.

        2.4.4情感分析

        情感分析(Sentiment analysis)又稱為傾向性分析、意見(jiàn)抽?。∣pinion extraction)、意見(jiàn)挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主觀分析(Subjectivity analysis)等,它是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程,如從評(píng)論文本中分析用戶對(duì)“手機(jī)”的價(jià)格、大小、重量、易用性等屬性的情感傾向.

        Zhou等提出一種稱為主動(dòng)深度網(wǎng)絡(luò)(Active deep network,ADN)的半監(jiān)督學(xué)習(xí)算法用于解決情感分類問(wèn)題[77].首先,在標(biāo)注數(shù)據(jù)和無(wú)標(biāo)注數(shù)據(jù)集上,他們采用無(wú)監(jiān)督學(xué)習(xí)算法來(lái)訓(xùn)練RBM,進(jìn)而搭建ADN,并通過(guò)基于梯度下降算法的有監(jiān)督學(xué)習(xí)方法進(jìn)行結(jié)構(gòu)微調(diào);之后,結(jié)合主動(dòng)學(xué)習(xí)(Active learning)方法,利用標(biāo)注好的評(píng)論數(shù)據(jù)來(lái)訓(xùn)練半監(jiān)督學(xué)習(xí)框架,將其與ADN結(jié)構(gòu)融合,實(shí)現(xiàn)了一個(gè)面向半監(jiān)督分類任務(wù)的統(tǒng)一模型.實(shí)驗(yàn)表明,該模型在5種情感分類數(shù)據(jù)集上都有較為突出的性能.ADN中RBM性能的提升,部分得益于無(wú)標(biāo)注訓(xùn)練數(shù)據(jù)的規(guī)模提高,這就為大量豐富的無(wú)標(biāo)注評(píng)論數(shù)據(jù)開(kāi)辟了利用空間.

        Glorot等提出了一種采用無(wú)監(jiān)督學(xué)習(xí)方式從網(wǎng)絡(luò)評(píng)論數(shù)據(jù)中學(xué)習(xí)如何提取有意義信息表示的深度學(xué)習(xí)方法[78],并將其用于情感分類器的構(gòu)建中,在Amazon產(chǎn)品的4類評(píng)論基準(zhǔn)數(shù)據(jù)上的測(cè)試性能顯著.Socher等基于RAE(Recursive auto-encoders)提出一種深度學(xué)習(xí)模型[79],應(yīng)用于句子級(jí)的情感標(biāo)注預(yù)測(cè).該模型采用詞向量空間構(gòu)建輸入訓(xùn)練數(shù)據(jù),利用RAE實(shí)現(xiàn)半監(jiān)督學(xué)習(xí).實(shí)驗(yàn)表明,該模型準(zhǔn)確性優(yōu)于同類基準(zhǔn)系統(tǒng).針對(duì)詞向量空間在長(zhǎng)短語(yǔ)表達(dá)上缺乏表現(xiàn)力這一缺點(diǎn),Socher等引入情感樹庫(kù)(Sentiment treebank),以增強(qiáng)情感訓(xùn)練和評(píng)價(jià)資源[51];在此基礎(chǔ)上,訓(xùn)練完成的RNTN(Recursive neural tensor network)模型,性能表現(xiàn)突出:簡(jiǎn)單句的正負(fù)情感分類準(zhǔn)確率從80%提高到85.4%;短語(yǔ)情感預(yù)測(cè)從71%提高到80.7%.針對(duì)詞袋模型的缺陷,Le等提出了一種基于段落的向量模型(Paragraph vector)[41],該模型實(shí)現(xiàn)了一種從句子、段落和文檔中自動(dòng)學(xué)習(xí)固定長(zhǎng)度特征表示的無(wú)監(jiān)督算法,在情感分析和文本分類任務(wù)中都有優(yōu)異表現(xiàn),尤其是簡(jiǎn)單句的正負(fù)情感分類準(zhǔn)確率相比RNTN模型[51]提高了2.4%.Kim在Collobert等構(gòu)建的CNN模型基礎(chǔ)上[28],借助Google公司的詞向量開(kāi)源工具word2vec完成了1000億個(gè)單詞的新聞?wù)Z料訓(xùn)練,并將其用于包括情感樹庫(kù)等試驗(yàn)語(yǔ)料上的簡(jiǎn)單句情感分類任務(wù),取得了88.1%的當(dāng)時(shí)最好性能[42].這似乎再次驗(yàn)證了BigData思想:只要包含足夠的訓(xùn)練數(shù)據(jù),深度學(xué)習(xí)模型總能夠盡可能逼近真實(shí)結(jié)果.

        2.4.5機(jī)器翻譯

        機(jī)器翻譯(Machine translation)是利用計(jì)算機(jī)把一種自然源語(yǔ)言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語(yǔ)言的過(guò)程,也稱為自動(dòng)翻譯.目前,基于深度學(xué)習(xí)的統(tǒng)計(jì)機(jī)器翻譯方法研究熱點(diǎn)可以分為:傳統(tǒng)機(jī)器翻譯模型上的神經(jīng)網(wǎng)絡(luò)改進(jìn)、采用全新構(gòu)建的端到端神經(jīng)機(jī)器翻譯(Neural machine translation,NMT)方法兩種類型.

        大多數(shù)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)建模采用基于對(duì)數(shù)線性框架(Log-linear framework),盡管已經(jīng)取得較為成功的應(yīng)用,但依然面臨如下局限性:1)所選特征需要與模型本身成線性匹配;2)特征無(wú)法進(jìn)一步解釋說(shuō)明以便反映潛在語(yǔ)義.針對(duì)上述局限,Liu等提出了一種附加神經(jīng)網(wǎng)絡(luò)模型(Additive neural network)[80],用于擴(kuò)展傳統(tǒng)對(duì)數(shù)線性翻譯模型;此外,采用詞向量將每個(gè)詞編碼轉(zhuǎn)化為特征向量,作為神經(jīng)網(wǎng)絡(luò)的輸入值,該模型在中英和日英兩類翻譯任務(wù)中均獲得了較好性能.詞對(duì)齊(Word alignment)方法是機(jī)器翻譯常用的基礎(chǔ)技術(shù).Yang等基于深度神經(jīng)網(wǎng)絡(luò)(DNN)提出了一種新穎的詞對(duì)齊方法[81].該方法將多層神經(jīng)網(wǎng)絡(luò)引入隱馬爾科夫模型,從而利用神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算上下文依賴的詞義轉(zhuǎn)換得分;并采用大量語(yǔ)料來(lái)預(yù)先訓(xùn)練詞向量.在大規(guī)模中英詞對(duì)齊任務(wù)的實(shí)驗(yàn)表明,該方法取得較好的詞對(duì)齊結(jié)果,優(yōu)于經(jīng)典的隱馬爾科夫模型和IBM Model 4.

        與上述傳統(tǒng)機(jī)器模型中的神經(jīng)網(wǎng)絡(luò)針對(duì)翻譯系統(tǒng)局部改進(jìn)所不同的是,近來(lái)出現(xiàn)的神經(jīng)機(jī)器翻譯構(gòu)建了一種新穎的端到端翻譯方法[82-85]:其初始輸入為整個(gè)句子,并聯(lián)合翻譯輸出的候選句子構(gòu)成句子對(duì);通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò),并結(jié)合雙語(yǔ)平行語(yǔ)料庫(kù)來(lái)尋找條件概率最大時(shí)的候選句子對(duì),最終輸出目標(biāo)翻譯句.神經(jīng)機(jī)器翻譯試圖構(gòu)建并訓(xùn)練一個(gè)可以讀取源句子,直接翻譯為目標(biāo)句子的單一、大型的神經(jīng)網(wǎng)絡(luò).從統(tǒng)計(jì)角度來(lái)看,機(jī)器翻譯可以等價(jià)為在給定輸入源句子X(jué)的情況下,尋找條件概率最大時(shí)的翻譯目標(biāo)句子Y的值,即求argmaxYp(Y|X).

        事實(shí)上,目前提出的大多數(shù)神經(jīng)機(jī)器翻譯方法都屬于一類編碼解碼器(Encoder-decoders)模型[83-84],其主要框架包含兩部分:首先編碼器將輸入的長(zhǎng)度不固定的源句子編碼轉(zhuǎn)換為固定長(zhǎng)度的向量,之后解碼器將向量解碼輸出為翻譯的目標(biāo)句.這里的解碼器,就可以采用一類深度神經(jīng)網(wǎng)絡(luò)模型,例如循環(huán)神經(jīng)網(wǎng)絡(luò).在使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為編解碼的框架中,編碼器讀入輸入句子,經(jīng)過(guò)編碼輸出為向量c c

        c.表示如下:

        其中,ht∈Rn表示時(shí)刻t時(shí)的隱藏狀態(tài),c cc是由多個(gè)隱藏狀態(tài)序列生成的向量,f和q是非線性函數(shù).例如Sutskever等使用多層LSTM(Long shortterm memory)表示f函數(shù)[83].在給定上下文向量c和前續(xù)已經(jīng)預(yù)測(cè)得到的詞序列{y1,···,yt′-1}的前提下,循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的編碼器用來(lái)預(yù)測(cè)下一個(gè)詞yt′.表示如下:

        其中,y={y1,···,yTy},基于循環(huán)神經(jīng)網(wǎng)絡(luò),每個(gè)條件概率可以建模如下:

        其中,g是非線性多層函數(shù),可以由循環(huán)神經(jīng)網(wǎng)絡(luò)建模表示,st是循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層.類似的結(jié)構(gòu)也可以采用循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)混合表示[82].

        編碼解碼器模型一個(gè)潛在的問(wèn)題是所采用的神經(jīng)網(wǎng)絡(luò)需要能夠把輸入源句子的所有信息都?jí)嚎s進(jìn)入固定長(zhǎng)度的向量中,這在處理長(zhǎng)句子時(shí)可能比較困難,尤其是那些遠(yuǎn)比訓(xùn)練語(yǔ)料庫(kù)中的長(zhǎng)得多的句子.Cho等實(shí)驗(yàn)表明隨著輸入句子長(zhǎng)度的增加,編碼解碼器模型性能快速降低[85].為了克服這個(gè)缺陷,Bahdanau等引入了一個(gè)擴(kuò)展的編碼解碼器模型[86].該模型在翻譯過(guò)程中,也是每次根據(jù)上下文相關(guān)信息,以及已經(jīng)找到的目標(biāo)單詞,通過(guò)引入注意力機(jī)制來(lái)自動(dòng)學(xué)習(xí)目標(biāo)詞在源語(yǔ)言上的對(duì)齊目標(biāo)單詞.和基本編碼解碼器模型不同的是,該模型并不是試圖把整個(gè)輸入句子編碼轉(zhuǎn)換放進(jìn)單個(gè)固定長(zhǎng)度的向量中,而是編碼轉(zhuǎn)換放進(jìn)一個(gè)向量序列中;當(dāng)解碼時(shí),就可以在向量序列中選擇一個(gè)合適的向量子集用于解碼,這種方式使得神經(jīng)網(wǎng)絡(luò)翻譯模型不必過(guò)度糾結(jié)于輸入句子的長(zhǎng)度.實(shí)驗(yàn)同時(shí)也表明這種改進(jìn)的編碼解碼器模型在處理長(zhǎng)句問(wèn)題時(shí)性能表現(xiàn)更好.Dong等基于多任務(wù)學(xué)習(xí)機(jī)制聯(lián)合學(xué)習(xí),通過(guò)在一對(duì)多的序列到序列的機(jī)器翻譯模型中共享源語(yǔ)言的表示,構(gòu)建了一種源語(yǔ)言到多個(gè)目標(biāo)語(yǔ)言的翻譯模型[87].

        2.5面向自然語(yǔ)言處理的深度學(xué)習(xí)平臺(tái)工具

        面向自然語(yǔ)言處理的深度學(xué)習(xí)平臺(tái)或工具較多,根據(jù)開(kāi)發(fā)語(yǔ)言的不同,可以分為基于Python、C++、C或Java等不同程序設(shè)計(jì)語(yǔ)言實(shí)現(xiàn)的算法庫(kù)或框架;根據(jù)實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型的不同,可以分為面向RBM/DBN(Deep belief network)等組件、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的框架平臺(tái);根據(jù)功能目標(biāo)不同,又可以分為提供深度學(xué)習(xí)基本功能實(shí)現(xiàn)的函數(shù)庫(kù)/工具包、在函數(shù)庫(kù)基礎(chǔ)上面向領(lǐng)域任務(wù)構(gòu)建的不同應(yīng)用框架等.下面從不同角度介紹幾類典型的深度學(xué)習(xí)開(kāi)源工具.

        2.5.1函數(shù)庫(kù)/工具包

        最早出現(xiàn)的,較為完整實(shí)現(xiàn)深度學(xué)習(xí)框架的庫(kù)函數(shù)包是由加拿大Montreal大學(xué)LISA(Laboratoire d′Informatique desAdaptatifs)實(shí)驗(yàn)室Bergstra等開(kāi)發(fā)的Theano,是一個(gè)基于Python語(yǔ)言的庫(kù),實(shí)現(xiàn)了深度學(xué)習(xí)相關(guān)模型及算法,如RBM/DBN等,可有效支持涉及多維矩陣相關(guān)的定義、優(yōu)化及評(píng)估等數(shù)學(xué)運(yùn)算.

        Theano具有以下特點(diǎn):1)有效集成NumPy. NumPy是一個(gè)用Python實(shí)現(xiàn)的科學(xué)計(jì)算包,一般和稀疏矩陣運(yùn)算包Scipy配合使用.Theano使用numpy.ndarray集成編譯函數(shù),全面兼容Numpy庫(kù)函數(shù).2)可方便應(yīng)用于GPU平臺(tái).在一類數(shù)據(jù)密集型的計(jì)算任務(wù)中,與普通僅使用32位浮點(diǎn)數(shù)的CPU相比,計(jì)算速度可提高100多倍.3)有效的符號(hào)區(qū)分能力.Theano可有效支持帶有1個(gè)或多個(gè)輸入的擴(kuò)展函數(shù).4)速度及可靠性表現(xiàn)優(yōu)異.即便x取值很小,也能計(jì)算得到log(1+x)的正確結(jié)果. 5)支持動(dòng)態(tài)C代碼生成.6)具有眾多測(cè)試和自檢單元.可方便地檢測(cè)和診斷多種類型的錯(cuò)誤.

        在Theano基礎(chǔ)上,后續(xù)研究者陸續(xù)開(kāi)發(fā)了眾多深度學(xué)習(xí)框架,如Pylearn2、Blocks、Keras等.采用Python語(yǔ)言實(shí)現(xiàn)的Keras是一個(gè)追求簡(jiǎn)易、高度模塊化的神經(jīng)網(wǎng)絡(luò)庫(kù),開(kāi)發(fā)的主要目的在于將研究創(chuàng)意能夠快速轉(zhuǎn)換為深度學(xué)習(xí)實(shí)驗(yàn)的原型框架,避免因?yàn)閷?shí)驗(yàn)困難而錯(cuò)過(guò)了創(chuàng)意的驗(yàn)證.Keras的擴(kuò)展性能非常好,可以快速實(shí)現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或者兩者混合實(shí)現(xiàn)的經(jīng)典模型,同時(shí)能夠運(yùn)行于CPU和GPU平臺(tái).Keras和前兩個(gè)工具包都是在Theano庫(kù)基礎(chǔ)上構(gòu)建的,稍有不同的地方在于Keras還支持另一個(gè)函數(shù)庫(kù)TensorFlow.

        TensorFlow是一個(gè)開(kāi)源軟件庫(kù),最早由Google公司機(jī)器智能研究部門的谷歌大腦團(tuán)隊(duì)(Google Brain Team)開(kāi)發(fā)完成,目的是為了搭建機(jī)器學(xué)習(xí)及深度神經(jīng)網(wǎng)絡(luò)研究平臺(tái).該軟件庫(kù)采用數(shù)據(jù)流圖模式實(shí)現(xiàn)數(shù)值計(jì)算,數(shù)據(jù)流圖中的結(jié)點(diǎn)表示數(shù)學(xué)運(yùn)算,圖中的邊表示多維數(shù)據(jù)陣列.采用該軟件庫(kù)開(kāi)發(fā)的平臺(tái),架構(gòu)靈活,代碼一次開(kāi)發(fā),無(wú)需修改,即可在單機(jī)、服務(wù)器或移動(dòng)設(shè)備上流暢運(yùn)行,支持多CPU/GPU計(jì)算.

        類似TensorFlow可以在各種設(shè)備上運(yùn)行的輕量級(jí)函數(shù)庫(kù)還有MShadow,這也是奉行簡(jiǎn)單實(shí)用、靈活方便主義的模板庫(kù),基于C++/CUDA實(shí)現(xiàn),支持CPU/GPU/多GPU以及分布式系統(tǒng).在該函數(shù)庫(kù)上擴(kuò)展開(kāi)發(fā)了CXXNet和MxNet分布式深度學(xué)習(xí)框架,也是一類高質(zhì)量的軟件工具包.

        2.5.2數(shù)據(jù)表征工具

        第一個(gè)在自然語(yǔ)言任務(wù)中取得較好性能的深度學(xué)習(xí)應(yīng)用軟件是SENNA,由Collobert[28]團(tuán)隊(duì)開(kāi)發(fā),具有架構(gòu)簡(jiǎn)單、獨(dú)立性強(qiáng)(不依賴其他自然語(yǔ)言處理工具)、運(yùn)行速度快等特點(diǎn),在POS Tagging、Chunking、Named entity recognition、Semantic role labeling等四個(gè)典型自然語(yǔ)言處理問(wèn)題上取得的性能都與當(dāng)時(shí)最好系統(tǒng)相當(dāng). SENNA采用大約3500行的標(biāo)準(zhǔn)C語(yǔ)言(ANSI C)代碼實(shí)現(xiàn),可以運(yùn)行在配備150MB內(nèi)存且支持浮點(diǎn)運(yùn)算的計(jì)算機(jī)平臺(tái)上.目前最新的版本是SENNA V3.0,更新于2011年8月.SENNA特別強(qiáng)調(diào)它們?cè)赪ikipedia上花費(fèi)2個(gè)月時(shí)間所訓(xùn)練的詞向量,將詞表征為多維向量,可以用于不同的自然語(yǔ)言處理任務(wù).

        與此相類似的,Google公司在2013年開(kāi)源軟件word2vec也是將詞表征為實(shí)數(shù)值向量的有效工具.word2vec使用第2.2.1節(jié)中所提到Distributed representation詞向量表示方式,通過(guò)一個(gè)三層的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,可以將文本內(nèi)容處理轉(zhuǎn)化為K維向量空間中的運(yùn)算;進(jìn)一步,文本語(yǔ)義上的相似度,就可以用向量空間中的距離(如歐氏距離、cosine相似度)來(lái)表示.word2vec在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中,根據(jù)詞出現(xiàn)的頻率采用Huffman編碼設(shè)計(jì)隱藏層節(jié)點(diǎn)數(shù)目,詞頻越高的詞語(yǔ),所激活的隱藏層節(jié)點(diǎn)數(shù)目越少,這就大大降低了計(jì)算復(fù)雜度.實(shí)驗(yàn)表明,優(yōu)化的單機(jī)版本的word2vec,在一天內(nèi)可以訓(xùn)練上億個(gè)詞.這種訓(xùn)練的高效性,也是word2vec在自然語(yǔ)言處理中大受歡迎的一個(gè)重要原因.

        2.5.3經(jīng)典神經(jīng)網(wǎng)絡(luò)模型

        能夠?qū)⑽谋緝?nèi)容轉(zhuǎn)換表示為向量形式,開(kāi)啟了面向自然語(yǔ)言處理的深度學(xué)習(xí)應(yīng)用熱潮.理論上,基于向量表示,所有的深度學(xué)習(xí)模型都用來(lái)處理不同的自然語(yǔ)言處理任務(wù);但在實(shí)踐中,使用頻率最高、效果最為突出的還是卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等.

        2.5.4深度神經(jīng)網(wǎng)絡(luò)組件

        最早由Ruslan Salakhutdinov基于Matlab開(kāi)發(fā)的一類小型函數(shù)庫(kù)(Matrbm、Estimating partition functions of RBM′s、Learning deep Boltzmann machines)[35],主要用于訓(xùn)練構(gòu)成深度學(xué)習(xí)網(wǎng)絡(luò)的組件,如RBM,規(guī)模不大.隨后出現(xiàn)的Deeplearning4j是一個(gè)規(guī)模較大,完整實(shí)現(xiàn)深度學(xué)習(xí)框架的平臺(tái)工具,支持GPU,可以運(yùn)行在Hadoop計(jì)算平臺(tái)上,這就為大規(guī)模數(shù)據(jù)處理提供了便利性.Deeplearning4j采用Java/Scala語(yǔ)言實(shí)現(xiàn)了RBM、深度可信網(wǎng)絡(luò)(DBN)、LSTM、遞歸自動(dòng)解碼器(Recursive autoencoder)等一類典型的深度神經(jīng)網(wǎng)絡(luò)組件,為構(gòu)建可靠的、分布式處理的深度神經(jīng)網(wǎng)絡(luò)框架提供了良好的基礎(chǔ).

        2.5.5卷積神經(jīng)網(wǎng)絡(luò)工具

        卷積神經(jīng)網(wǎng)絡(luò)是一類典型經(jīng)典的面向自然語(yǔ)言處理的深度學(xué)習(xí)模型.上節(jié)提到的SENNA即是一種基于卷積神經(jīng)網(wǎng)絡(luò)原理的工具軟件.此外,其他比較著名的卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)工具有Cudaconvnet、ConvNet以及第2.5.1節(jié)提到的Keras等. Cuda-convnet2是當(dāng)前Cuda-convnet的最新版本,采用C++/CUDA實(shí)現(xiàn),訓(xùn)練過(guò)程基于BP算法;ConvNet是一個(gè)采用Matlab實(shí)現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)工具包.

        2.5.6循環(huán)神經(jīng)網(wǎng)絡(luò)等工具

        循環(huán)神經(jīng)網(wǎng)絡(luò)以及遞歸神經(jīng)網(wǎng)絡(luò)模型也是近年來(lái)在自然語(yǔ)言處理領(lǐng)域被認(rèn)為是最有潛力的深度學(xué)習(xí)模型,上文提及的很多函數(shù)庫(kù)及工具包都提供了相應(yīng)實(shí)現(xiàn),如采用Python語(yǔ)言實(shí)現(xiàn)、基于Theano的Keras,采用Java語(yǔ)言支持分布式大規(guī)模計(jì)算平臺(tái)的Deeplearning4j等.其他還有一些比較令人注目的開(kāi)源工具如Tomas Mikolov開(kāi)發(fā)的基于循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的工具包2Mikolov開(kāi)發(fā)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型http://www.fit.vutbr.cz/imikolov/rnnlm/(支持中文及UTF-8格式的語(yǔ)料)[47]、Richard Socher開(kāi)發(fā)的基于遞歸神經(jīng)網(wǎng)絡(luò)的工具包3Socher的遞歸神經(jīng)網(wǎng)絡(luò)模型http://www.socher.org[39]等,當(dāng)前在自然語(yǔ)言處理的各種任務(wù)中逐漸嶄露頭角.

        3 存在的問(wèn)題與未來(lái)的研究方向

        3.1數(shù)據(jù)表示問(wèn)題及展望

        “自然語(yǔ)言”在深度學(xué)習(xí)中用于初始輸入的“數(shù)據(jù)源”是字或詞,和圖像、語(yǔ)音分別采用像素點(diǎn)及音素作為初始“數(shù)據(jù)源”相比較,前者已經(jīng)包含了人類的語(yǔ)義解釋,是經(jīng)過(guò)人類主觀思考處理后形成的,而后者是原始的,還沒(méi)有經(jīng)過(guò)人類加工處理.這一點(diǎn)是自然語(yǔ)言處理和其他兩種應(yīng)用最大的不同.由此,我們聯(lián)想到,這是否也是深度學(xué)習(xí)在圖像、語(yǔ)音方面能夠取得巨大成功,而在自然語(yǔ)言方面還沒(méi)有成功的關(guān)鍵原因呢?因?yàn)榘夹盘?hào)的情況下,不容易丟失未知信息,從而能夠通過(guò)深度學(xué)習(xí)的不同分層特征表示,更為全面地表征原始輸入,進(jìn)一步為分類、聚類等具體應(yīng)用提供充分的特征支撐.

        目前來(lái)看,面向自然語(yǔ)言處理的深度學(xué)習(xí)中的數(shù)據(jù)表征主要還是Word embedding概念,只是可能在不同語(yǔ)言中,具體Word的表示單位有所不同,如英文中可以是單詞或詞綴,中文中則換成了詞組或字,本質(zhì)上還是通過(guò)某種映射規(guī)則,將Word轉(zhuǎn)換為向量表示.

        在如何將深度學(xué)習(xí)與現(xiàn)有自然語(yǔ)言處理具體任務(wù)結(jié)合方面,目前還沒(méi)有比較明顯有突破的方法或規(guī)律可以遵循.現(xiàn)有工作中,比較直接簡(jiǎn)單的做法是,以詞或短語(yǔ)作為原始輸入,構(gòu)建向量類型的表達(dá)方式,經(jīng)過(guò)深度學(xué)習(xí)分層學(xué)習(xí)后得到的特征可以添加進(jìn)現(xiàn)有基于特征的半監(jiān)督學(xué)習(xí)系統(tǒng)中進(jìn)行處理[49].此外,還有將深度學(xué)習(xí)模型與當(dāng)前經(jīng)典問(wèn)題結(jié)合后產(chǎn)生的應(yīng)用模型,如結(jié)合樹形或鏈?zhǔn)浇Y(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)模型等[39-40,51,88].因此,考慮如何將深度學(xué)習(xí)與自然語(yǔ)言處理任務(wù)結(jié)合的具體落地應(yīng)用也是值得研究的重點(diǎn).

        3.2學(xué)習(xí)模型問(wèn)題及展望

        面向自然語(yǔ)言處理的深度學(xué)習(xí)研究工作,目前尚處于起步階段,盡管已有的深度學(xué)習(xí)算法模型如循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等已經(jīng)有較為顯著的應(yīng)用,但還沒(méi)有重大突破.圍繞適合自然語(yǔ)言處理領(lǐng)域的深度學(xué)習(xí)模型構(gòu)建等研究應(yīng)該有著非常廣闊的空間.

        在當(dāng)前已有的深度學(xué)習(xí)模型研究中,難點(diǎn)是在模型構(gòu)建過(guò)程中參數(shù)的優(yōu)化調(diào)整方面.主要如深度網(wǎng)絡(luò)層數(shù)、正則化問(wèn)題及網(wǎng)絡(luò)學(xué)習(xí)速率等.可能的解決方案比如有:采用多核機(jī)提升網(wǎng)絡(luò)訓(xùn)練速度;針對(duì)不同應(yīng)用場(chǎng)合,選擇合適的優(yōu)化算法等.

        深度學(xué)習(xí)模型的訓(xùn)練過(guò)程中,最為突出的問(wèn)題是訓(xùn)練速度.普遍來(lái)看,深度學(xué)習(xí)模型的訓(xùn)練速度遠(yuǎn)比線性模型來(lái)得慢.此外,模型性能的優(yōu)劣,一般與訓(xùn)練數(shù)據(jù)集的規(guī)模有關(guān).數(shù)據(jù)集越大,訓(xùn)練結(jié)果越好[89].這一點(diǎn),非常符合目前主流的大數(shù)據(jù)應(yīng)用趨勢(shì).但是,這也可能給學(xué)習(xí)模型的優(yōu)化帶來(lái)發(fā)展阻礙.在極力追求產(chǎn)生大數(shù)據(jù)訓(xùn)練集的情況下,是否會(huì)削弱對(duì)更優(yōu)學(xué)習(xí)模型的研究熱情呢?

        3.3其他問(wèn)題及思考

        3.3.1自動(dòng)學(xué)習(xí)和人工結(jié)合

        圍繞數(shù)據(jù)表示及特征提取問(wèn)題,已有大量文獻(xiàn)分析了自然語(yǔ)言處理中的數(shù)據(jù)源特征和無(wú)監(jiān)督自動(dòng)學(xué)習(xí)方法.深度學(xué)習(xí)一直強(qiáng)調(diào)學(xué)習(xí)特征采用自動(dòng)的方法,然而,如果能夠在訓(xùn)練過(guò)程中融合已有面向特定應(yīng)用領(lǐng)域的顯然的知識(shí)(如人工選取的明顯特征規(guī)律),對(duì)于深度模型而言,依然具有吸引力.這就好比人類學(xué)習(xí),完全拋棄祖先的知識(shí)而白手起家開(kāi)展工作,是不可想象的.但是,要做到這點(diǎn)非常困難.首先,針對(duì)問(wèn)題領(lǐng)域,需要選擇合適的模型架構(gòu),比如針對(duì)自然語(yǔ)言的語(yǔ)義框架選擇合適的深度結(jié)構(gòu);其次,人類知識(shí)的融合,最佳的進(jìn)入點(diǎn)應(yīng)該是在模型的第一層,類似線性模型一樣,總的目標(biāo)是希望能夠使模型具有自我學(xué)習(xí)的能力.

        此外,在自然語(yǔ)言處理領(lǐng)域,已經(jīng)有了大量的人工標(biāo)注知識(shí).深度學(xué)習(xí)可以通過(guò)有監(jiān)督學(xué)習(xí)得到相關(guān)的語(yǔ)義知識(shí).這種知識(shí)和人類總結(jié)的知識(shí)應(yīng)該存在某種對(duì)應(yīng)關(guān)系,尤其是在一些淺層語(yǔ)義方面.因?yàn)槿斯?biāo)注,本質(zhì)上已經(jīng)給深度學(xué)習(xí)提供了學(xué)習(xí)的目標(biāo).只是深度學(xué)習(xí)可以不眠不休地學(xué)習(xí),這種逐步靠攏學(xué)習(xí)目標(biāo)的過(guò)程,可能遠(yuǎn)比人類總結(jié)過(guò)程來(lái)得更快.這一點(diǎn),從最近Google公司圍棋人工智能軟件AlphaGo短時(shí)間內(nèi)連勝兩位人類圍棋高手的事實(shí),似乎能夠得到驗(yàn)證[90].

        3.3.2自然語(yǔ)言的不確定性

        由于一詞多義的存在,使得即使采用詞向量技術(shù)作為深度學(xué)習(xí)的原始輸入信號(hào),也還是不能如圖像或語(yǔ)音一樣將所有原始信息確定地輸入到深度學(xué)習(xí)模型中.在深度學(xué)習(xí)模型分層表示原始輸入信號(hào)的不同特征時(shí),這種不確定性所帶來(lái)的誤差有可能在不同層間被傳遞并局部放大.

        解決這種一詞多義所帶來(lái)的不確定性的方法,似乎還是要結(jié)合上下文語(yǔ)言情境.因此,突破自然語(yǔ)言字、詞、短語(yǔ)、小句等局部表示的局限性,面向包含上下文全局信息的篇章、文本來(lái)開(kāi)展深層語(yǔ)義理解,如篇章分析、篇章理解等,應(yīng)該是重點(diǎn)發(fā)展的方向之一.

        4 結(jié)束語(yǔ)

        相比于圖像處理,自然語(yǔ)言的分層抽象其實(shí)并不明顯.自然語(yǔ)言處理在深度學(xué)習(xí)中所采用的特征表示,目前主要是Word embedding機(jī)制.盡管從語(yǔ)言表達(dá)的形式角度,也可以構(gòu)建字母、單詞、詞組、短語(yǔ)、句子等層次結(jié)構(gòu),但從語(yǔ)義表達(dá)角度來(lái)看,似乎沒(méi)有如圖像處理那樣具有明顯的抽象分層,例如單詞和詞組、詞組和短語(yǔ)之間,語(yǔ)義表達(dá)上面并沒(méi)有非常明顯的不同.抽象層次不明顯,實(shí)質(zhì)上就可能限制了特征表示的多樣性,從而無(wú)法最好地發(fā)揮深度學(xué)習(xí)多層特征表示的長(zhǎng)處.除了詞向量之外,是否還有更好的特征表示方式?采用何種模型來(lái)構(gòu)建明顯分層機(jī)制?等等此類問(wèn)題,也是面向自然語(yǔ)言處理的深度學(xué)習(xí)在未來(lái)發(fā)展中需要重點(diǎn)研究的內(nèi)容.當(dāng)然,盡管目前來(lái)看,面向自然語(yǔ)言的深度學(xué)習(xí)還存在著各種各樣的問(wèn)題,但是總體而言,現(xiàn)有深度學(xué)習(xí)的特征自動(dòng)表示及分層抽象思想,為自然語(yǔ)言處理提供了一種將特征表示和應(yīng)用實(shí)現(xiàn)獨(dú)立分開(kāi)的可行方法,這將使得在領(lǐng)域任務(wù)和語(yǔ)言之間的泛化遷移變得較為容易.

        致謝

        本文作者衷心感謝蘇州大學(xué)李正華博士、鄒博偉博士及王中卿博士對(duì)本文寫作的熱情幫助.

        References

        1 Erhan D,Bengio Y,Couville A,Manzagol P A,Vincent P,Samy B.Why does unsupervised pre-training help deep learning?Journal of Machine Learning Research,2010,11: 625-660

        2 Sun Zhi-Jun,Xue Lei,Xu Yang-Ming,Wang Zheng. Overview of deep learning.Application Research of Computers,2012,29(8):2806-2810(孫志軍,薛磊,許陽(yáng)明,王正.深度學(xué)習(xí)研究綜述.計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810)

        3 Bengio Y.Learning deep architectures for AI.Foundations and Trends?in Machine Learning,2009,2(1):1-127

        4 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7): 1527-1554

        5 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786): 504-507

        6 Bengio Y,Lamblin P,Popovici D,Larochelle H.Greedy layer-wise training of deep networks.In:Proceedings of the 2007 Advances in Neural Information Processing Systems 19(NIPS′06).Vancouver,Canada:MIT Press,2007.153-160

        7 Ranzato M A,Poultney C,Chopra S,LeCun Y.Efficient learning of sparse representations with an energy-based model.In:Proceedings of the 2007 Advances in Neural Information Processing Systems 19(NIPS′06).Vancouver,Canada:MIT Press,2007.1137-1144

        8 Weston J,Ratle F,Collobert R.Deep learning via semisupervised embedding.In:Proceedings of the 25th International Conference on Machine Learning(ICML′08).New York,USA:ACM Press,2008.1168-1175

        9 Srivastava N,Mansimov E,Salakhutdinov R.Unsupervised learning of video representations using LSTMs.In:Proceedings of the 32nd International Conference on Machine Learning(ICML′15).Lille,F(xiàn)rance:Omni Press,2015.843-852

        10 Jia K,Sun L,Gao S H,Song Z,Shi B E.Laplacian autoencoders:an explicit learning of nonlinear data manifold. Neurocomputing,2015,160:250-260

        11 Chan T H,Jia K,Gao S H,Lu J W,Zeng Z N,Ma Y. PCANet:a simple deep learning baseline for image classification?IEEE Transactions on Image Processing,2015,24(12):5017-5032

        12 Alain G,Bengio Y.What regularized auto-encoders learn from the data-generating distribution?The Journal of Machine Learning Research,2014,15(1):3563-3593

        13 SrivastavaN,HintonG,KrizhevskyA,SutskeverI,Salakhutdinov R.Dropout:a simple way to prevent neural networks from overfitting.The Journal of Machine Learning Research,2014,15(1):1929-1958

        14 Dosovitskiy A,Springenberg J T,Riedmiller M,Brox T. Discriminative unsupervised feature learning with convolutional neural networks.In:Proceedings of the 2014 Advances in Neural Information Processing Systems 27(NIPS′14).,Quebec,Canada:MIT Press,2014. 766-774

        15 Sun Y,Wang X G,Tang X O.Deep learning face representation from predicting 10000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,Ohio,USA:IEEE,2014. 1891-1898

        16 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續(xù)型深度信念網(wǎng)的設(shè)計(jì)與應(yīng)用.自動(dòng)化學(xué)報(bào),2015,41(12):2138-2146)

        18 Han X F,Leung T,Jia Y Q,Sukthankar R,Berg A C.MatchNet:unifying feature and metric learning for patch-based matching.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR′15).Boston,Massachusetts,USA:IEEE Press,2015.3279-3286

        19 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR′15). Boston,Massachusetts,USA:IEEE,2015.1-9

        20 Denton E L,Chintala S,Szlam A,F(xiàn)ergus R.Deep generative image models using a Laplacian pyramid of adversarial networks.In:Proceedings of the 2015 Advances in Neural Information Processing Systems 28(NIPS′15).Montreal,Canada:MIT Press,2015.1486-1494

        21 Dong C,Loy C C,He K M,Tang X O.Learning a deep convolutional network for image super-resolution.In:Proceedings of the 13th European Conference on Computer Vision(ECCV′14).Zurich,Switzerland:Springer International Publishing,2014.184-199

        22 Nie S Q,Wang Z H,Ji Q.A generative restricted Boltzmann machine based method for high-dimensional motion data modeling.Computer Vision and Image Understanding,2015,136:14-22

        23 Jain A,Tompson J,LeCun Y,Bregler C.Modeep:a deep learning framework using motion features for human pose estimation.In:Proceedings of the 12th Asian Conference on Computer Vision(ACCV′2014).Singapore:Springer International Publishing,2015.302-315

        24 Geng Jie,F(xiàn)an Jian-Chao,Chu Jia-Lan,Wang Hong-Yu.Research on marine floating raft aquaculture SAR image target recognition based on deep collaborative sparse coding network.Acta Automatica Sinica,2016,42(4):593-604(耿杰,范劍超,初佳蘭,王洪玉.基于深度協(xié)同稀疏編碼網(wǎng)絡(luò)的海洋浮筏SAR圖像目標(biāo)識(shí)別.自動(dòng)化學(xué)報(bào),2016,42(4):593-604)

        25 Erhan D,Szegedy C,Toshev A,Anguelov D.Scalable object detection using deep neural networks.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR′14).Columbus,Ohio,USA:IEEE,2014.2155-2162

        26 Qi Y J,Das S G,Collobert R,Weston J.Deep learning for character-based information extraction.In:Proceedings of the 36th European Conference on IR Research on Advances in Information Retrieval.Amsterdam,The Netherland:Springer International Publishing,2014.668-674

        27 Nie L Q,Wang M,Zhang L M,Yan S C,Zhang B,Chua T S.Disease inference from health-related questions via sparse deep learning.IEEE Transactions on Knowledge and Data Engineering,2015,27(8):2107-2119

        28 Collobert R,Weston J,Bottou L,Karlen M,Kavukcuoglu K,Kuksa P.Natural language processing(almost)from scratch.The Journal of Machine Learning Research,2011,12:2493-2537

        29 Mnih A,Hinton G E.A scalable hierarchical distributed language model.In:Proceedings of the 2009 Advances in Neural Information Processing Systems 21(NIPS′08).Vancouver,Canada:MIT Press,2009.1081-1088

        30 Collobert R,Weston J.A unified architecture for natural language processing:deep neural networks with multitask learning.In:Proceedings of the 25th International Conference on Machine Learning(ICML′08).Helsinki,F(xiàn)inland: ACM Press,2008.160-167

        31 Olshausen B A,F(xiàn)ield D J.Emergence of simple-cell receptive field properties by learning a sparse code for natural images.Nature,1996,381(6583):607-609

        32 Overview of deep learning and parallel implementation[Online],available:http://djt.qq.com/article/view/1245,June 20,2016

        33 Hastad J.Computational Limitations for Small Depth Circuits.Cambridge,MA,USA:Massachusetts Institute of Technology,1987

        34 Serre C,Mellot-Draznieks C,S,Audebrand N,F(xiàn)ilinchuk Y,G.Role of solvent-host interactions that lead to very large swelling of hybrid frameworks.Science,2007,315(5820):1828-1831

        35 Salakhutdinov R R,Hinton G.Deep Boltzmann machines. In:Proceedings of the 12th International Conference on Artificial Intelligence and Statistics(AISTATS′09).Florida,USA:Omni Press,2009.448-455

        36 Bengio Y,Ducharme R,Vincent P,Jauvin C.A neural probabilistic language model.The Journal of Machine Learning Research,2003,3:1137-1155

        37 Mikolov T,Deoras A,Kombrink S,Burget L,J H. Empirical evaluation and combination of advanced language modeling techniques.In:Proceedings of the 2011 Conference of the International Speech Communication Association(INTERSPEECH′2011).Florence,Italy:ISCA Press,2011.605-608

        38 Schwenk H,Rousseau A,Attik M.Large,pruned or continuous space language models on a GPU for statistical machine translation.In:Proceedings of the NAACL-HLT 2012 Workshop:Will We ever Really Replace the N-gram Model?on the Future of Language Modeling for HLT.,Canada:ACL Press,2012.11-19

        39 Socher R,Huang E H,Pennington J,Ng A Y,Manning C D. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection.In:Proceedings of the 2011 Advances in Neural Information Processing Systems 24(NIPS′11). Granada,Spain:MIT Press,2011.801-809

        40 Socher R,Huval B,Manning C D,Ng A Y.Semantic compositionality through recursive matrix-vector spaces.In:Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island,Korea:ACL Press,2012. 1201-1211

        41 Le Q,Mikolov T.Distributed representations of sentences and documents.In:Proceedings of the 31st International Conference on Machine Learning(ICML′14).Beijing,China:ACM Press,2014.1188-1196

        42 Kim Y.Convolutional neural networks for sentence classification.In:Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP′2014). Doha,Qatar:ACL Press,2014.1746-1751

        43 Dahl G E,Yu D,Deng L,Acero A.Context-dependent pretrained deep neural networks for large vocabulary speech recognition.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):30-42

        44 Mohamed A R,Dahl G E,Hinton G.Acoustic modeling using deep belief networks.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22

        45 Mikolov T,Yih W T,Zweig G.Linguistic regularities in continuous space word representations.In:Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT′2013). Atlanta,Georgia:ACL Press,2013.746-751

        46 Mikolov T,Sutskever I,Chen K,Corrado G S,Dean J.Distributed representations of words and phrases and their compositionality.In:Proceedings of the 2013 Advances in Neural Information Processing Systems 26(NIPS′13).Nevada,USA:MIT Press,2013.3111-3119

        48 Mikolov T,Kombrink S,Burget L,J H,Khudanpur S.Extensions of recurrent neural network language model.In:Proceedings of the 2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Prague,Czech Republic:IEEE,2011. 5528-5531

        49 Mikolov T,Deoras A,Povey D,Burget L,J H. Strategies for training large scale neural network language models.In:Proceedings of the 2011 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU). Waikoloa,Hawaii,USA:IEEE Press,2011.196-201

        50 Mikolov T,Zweig G.Context dependent recurrent neural network language model.In:Proceedings of the 2012 IEEE Conference on Spoken Language Technology(SLT).Miami,F(xiàn)lorida,USA:IEEE,2012.234-239

        51 Socher R,Perelygin A,Wu J Y,Chuang J,Manning C D,Ng A Y,Potts C.Recursive deep models for semantic compositionality over a sentiment treebank.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing(EMNLP′2013).Seattle,USA:ACL Press,2013.1631-1642

        52 Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning.In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics(ACL′2010).Uppsala,Sweden:ACL Press,2010.384-394

        53 Firth J R.A synopsis of linguistic theory 1930-55.Studies in Linguistic Analysis.Oxford:Philological Society,1957. 1-32

        54 Hinton G E.Learning distributed representations of concepts.In:Proceedings of the 8th Annual Conference of the Cognitive Science Society.Amherst,Massachusetts:Cognitive Science Society Press,1986.1-12

        55 Salton G.Automatic processing of foreign language documents.Journal of the American Society for Information Science,1970,21(3):187-194

        56 Rapp R.Word sense discovery based on sense descriptor dissimilarity.In:Proceedings of the 9th Conference on Machine Translation Summit.New Orleans,USA:IAMT Press,2003.315-322

        57 Turney P D.Expressing implicit semantic relations without supervision.In:Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics(COLING and ACL 2006).Sydney,Australia:ACL Press,2006.313-320

        59 Zheng X Q,Chen H Y,Xu T Y.Deep learning for Chinese word segmentation and POS tagging.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing(EMNLP′2013).Seattle,Washington,USA:ACL Press,2013.647-657

        60 Xu W,Rudnicky A I.Can artificial neural networks learn language models?In:Proceedings of 2000 International Conference on Spoken Language Processing(ICSLP′2000).Beijing,China:Speech Communication Press,2000.202-205

        61 Mnih A,Hinton G.Three new graphical models for statistical language modelling.In:Proceedings of the 24th International Conference on Machine Learning(ICML′07).Corvallis,Oregon:ACM Press,2007.641-648

        62 Morin F,Bengio Y.Hierarchical probabilistic neural network language model.In:Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics(AISTATS′2005).Barbados:Omni Press,2005.246-252

        64 Bengio Y.Deep learning of representations for unsupervised and transfer learning.In:Proceedings of the ICML2011 Unsupervised and Transfer Learning Workshop.Bellevue,Washington,USA:ACM Press,2012.17-37

        65 Le Q V,Ngiam J,Coates A,Lahiri A,Prochnow B,Ng A Y. On optimization methods for deep learning.In:Proceedings of the 28th International Conference on Machine Learning(ICML′11).Bellevue,Washington,USA:ACM Press,2011. 67-105

        66 Henderson J.Neural network probability estimation for broad coverage parsing.In:Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics(EACL′03).Budapest,Hungary:ACL Press,2003.131-138

        67 Henderson J.Discriminative training of a neural network statistical parser.In:Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics(ACL′2004).Barcelona,Spain:ACL Press,2004.95-102

        68 Titov I,Henderson J.Porting statistical parsers with datadefined kernels.In:Proceedings of the 10th Conference on Computational Natural Language Learning(CoNLL-2006). New York,USA:ACL Press,2006.6-13

        69 Titov I,Henderson J.Constituent parsing with incremental sigmoid belief networks.In:Proceedings of the 45th Annual Meeting on Association for Computational Linguistics(ACL′2007).Prague,Czech Republic:ACL Press,2007. 632-639

        70 Collobert R.Deep learning for efficient discriminative parsing.In:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics(AISTATS′2011).Fort Lauderdale,F(xiàn)lorida,USA:Omni Press,2011.224-232

        71 Costa F,F(xiàn)rasconi P,Lombardo V,Soda G.Towards incremental parsing of natural language using recursive neural networks.Applied Intelligence,2003,19(1-2):9-25

        72 Menchetti S,Costa F,F(xiàn)rasconi P,Pontil M.Wide coverage natural language processing using kernel methods and neural networks for structured data.Pattern Recognition Letters,2005,26(12):1896-1906

        73 Collins M.Head-driven statistical models for natural language parsing.Computational linguistics,2003,29(4): 589-637

        74 Socher R,Bauer J,Manning C D,Ng A Y.Parsing with compositional vector grammars.In:Proceedings of the 51st Annual Meeting on Association for Computational Linguistics(ACL′2013).Sofia,Bulgaria:ACL Press,2013.455-465

        75 Legrand J,Collobert R.Recurrent greedy parsing with neural networks.In:Proceedings of the 2014 European Conference on Machine Learning and Knowledge Discovery in Databases.Nancy,F(xiàn)rance:Springer Press,2014.130-144

        76 Huang E H,Socher R,Manning C D,Ng A Y.Improving word representations via global context and multiple word prototypes.In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics(ACL′2012). Jeju Island,Korea:ACL Press,2012.873-882

        77 Zhou S S,Chen Q C,Wang X L.Active deep networks for semi-supervised sentiment classification.In:Proceedings of the 23rd International Conference on Computational Linguistics(COLING′2010).Beijing,China:ACL Press,2010. 1515-1523

        78 Glorot X,Bordes A,Bengio Y.Domain adaptation for largescale sentiment classification:a deep learning approach. In:Proceedings of the 28th International Conference on Machine Learning(ICML′11).Bellevue,Washington,USA: Omni Press,2011.513-520

        79 Socher R,Pennington J,Huang E H,Ng A Y,Manning C D.Semi-supervised recursive autoencoders for predicting sentiment distributions.In:Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing(EMNLP′2011).Edinburgh,UK:ACL Press,2011.151-161

        80 Liu L M,Watanabe T,Sumita E,Zhao T J.Additive neural networks for statistical machine translation.In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL′2013).Sofa,Bulgaria:ACL Press,2013.791-801

        81 Yang N,Liu S J,Li M,Zhou M,Yu N H.Word alignment modeling with context dependent deep neural network.In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL′2013).Sofa,Bulgaria: ACL Press,2013.166-175

        82 Kalchbrenner N,Blunsom P.Recurrent continuous translation models.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing(EMNLP′2013).Seattle,Washington,USA:ACL Press,2013.1700-1709

        83 Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks.In:Proceedings of the 2014 Advances in Neural Information Processing Systems 27(NIPS′14).,Quebec,Canada:MIT Press,2014. 3104-3112

        86 Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate.In:Proceedings of the 3rd International Conference on Learning Representations(ICLR′2015).San Diego,California,USA:arXiv Press,2015.1409.0473V7

        87 Dong D X,Wu H,He W,Yu D H,Wang H F.Multi-task learning for multiple language translation.In:Proceedings of the 53rd Annual Meeting on Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Beijing,China:ACL Press,2015.1723-1732

        88 Pinheiro P O,Collobert R.Recurrent convolutional neural networks for scene labeling.In:Proceedings of the 31st International Conference on Machine Learning(ICML′14). Beijing,China,2014.82-90

        89 Le Q V.Building high-level features using large scale unsupervised learning.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013.8595-8598

        90 Tian Yuan-Dong.A simple analysis of AlphaGo.Acta Automatica Sinica,2016,42(5):671-675(田淵棟.阿法狗圍棋系統(tǒng)的簡(jiǎn)要分析.自動(dòng)化學(xué)報(bào),2016,42(5): 671-675)

        奚雪峰蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博士研究生.主要研究方向?yàn)樽匀徽Z(yǔ)言理解,篇章分析,自動(dòng)問(wèn)答.

        E-mail:xfxi@mail.usts.edu.cn

        (XI Xue-FengPh.D.candidate at the School of Computer Science and Technology,Soochow University.His research interest covers natural language understanding,discourse analysis and questionanswering.)

        周國(guó)棟蘇州大學(xué)特聘教授.主要研究方向?yàn)樽匀徽Z(yǔ)言理解,中文信息處理,信息抽取.本文通信作者.

        E-mail:gdzhou@suda.edu.cn

        (ZHOU Guo-DongDistinguished professor at the School of Computer Science and Technology,Soochow University.His research interest covers natural language understanding,Chinese computing,and information extraction.Corresponding author of this paper.)

        A Survey on Deep Learning for Natural Language Processing

        XI Xue-Feng1,2,3ZHOU Guo-Dong1

        Recently,deep learning has made significant development in the fields of image and voice processing.However,there is no major breakthrough in natural language processing task which belongs to the same category of human cognition. In this paper,firstly the basic concepts of deep learning are introduced,such as application motivation,primary task and basic framework.Secondly,in terms of both data representation and learning model,this paper focuses on the current research progress and application strategies of deep learning for natural language processing,and further describes the current deep learning platforms and tools.Finally,the future development difficulties and suggestions for possible extensions are also discussed.

        Natural language processing,deep learning,representation learning,feature learning,neural network

        Manuscript November 2,2015;accepted June 12,2016

        10.16383/j.aas.2016.c150682

        Xi Xue-Feng,Zhou Guo-Dong.A survey on deep learning for natural language processing.Acta Automatica Sinica,2016,42(10):1445-1465

        2015-11-02錄用日期2016-06-12

        國(guó)家自然科學(xué)基金(61331011,61472264)資助

        Supported by National Natural Science Foundation of China(61331011,61472264)

        本文責(zé)任編委柯登峰

        Recommended by Associate Editor KE Deng-Feng

        1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 蘇州 2150062.蘇州科技學(xué)院電子與信息工程學(xué)院蘇州2150093.蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室蘇州215009

        1.School of Computer Science and Technology,Soochow University,Suzhou 2150062.School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou 2150093.Suzhou Key Laboratory of Mobile Networking and Applied Technologies,Suzhou 215009

        猜你喜歡
        深度特征模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        国产一区二区女内射| 国产av一区二区日夜精品剧情| 九九久久精品国产免费av| 亚洲熟妇av一区| 国产色综合天天综合网| 欧美综合图区亚洲综合图区| 日本高清在线播放一区二区| 亚洲国产亚综合在线区| 无码少妇一区二区浪潮av| 国产精品亚洲专区在线播放| 国产色婷亚洲99精品av网站| 久久亚洲精品中文字幕| 国产一区二区三精品久久久无广告 | 久久久亚洲免费视频网| 性生交片免费无码看人| 富婆如狼似虎找黑人老外| 国产一区二区三区视频大全| 激情五月开心五月麻豆| 凹凸在线无码免费视频| 国产精品主播视频| 最新亚洲视频一区二区| 国产精品国产亚洲精品看不卡| 国产精品免费久久久久软件| avtt一区| 羞羞色院99精品全部免| 无码国产69精品久久久久孕妇| 精品手机在线视频| 少妇性l交大片免费快色| 狠狠色噜噜狠狠狠狠97首创麻豆| 丰满熟妇乱又伦| 国产亚洲日本人在线观看| 亚洲av第一区国产精品| 中文字幕aⅴ人妻一区二区| 国产香蕉尹人综合在线观| 羞涩色进入亚洲一区二区av | 久久99精品国产麻豆不卡| 无码 制服 丝袜 国产 另类| 白白色福利视频在线观看| 亚洲国产精品成人久久| 中文字幕精品久久久久人妻红杏1 丰满人妻妇伦又伦精品国产 | 给我看免费播放的视频在线观看 |