亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向自然語言處理的深度學習

2018-02-25 14:27:38薛亞非

電子技術(shù)與軟件工程 2018年12期

薛亞非

摘要近年來，在語音和圖像處理領(lǐng)域中，對于深度學習的研究現(xiàn)已取得突出成就，但在自然語言處理領(lǐng)域中，還尚未取得重大突破。基于此，文章主要從學習定義、應用動機、基本框架等方面入手，對深度學習進行了全方位介紹，同時還對面向自然語言處理的深度學習進行了深入研究。

【關(guān)鍵詞】自然語言處理深度學習自動編碼器神經(jīng)網(wǎng)絡(luò) 機器學習

所謂“深度學習”，即通過深層神經(jīng)網(wǎng)絡(luò)的建立，對人體大腦機制進行模擬，并分析文本、語音、圖像等數(shù)據(jù)。在現(xiàn)階段的機器學習研究中，深度學習是一個重點熱議的話題。在傳統(tǒng)機器學習工作中，其質(zhì)量和效果與輸入特征和人工設(shè)計數(shù)據(jù)息息相關(guān)，而機器學習的方法只是對學習權(quán)重加以優(yōu)化，從而輸出最優(yōu)學習結(jié)果。而深度學習可自動完成特征提取和數(shù)據(jù)表示工作，并提倡通過學習來提取出不同維度和不同水平的有效表示，從而不斷提升對數(shù)據(jù)的解釋能力。從認知科學的角度分析，深度學習的思路與人們的學習機理十分契合，本文主要研究了面向自然語言處理的深度學習。

1 深度學習概述

1.1 深度結(jié)構(gòu)

相比于以往的淺層學習，深度學習在具體實踐的過程中，對模型的深度具有較高要求，基本上均要求具備3層以上隱層節(jié)點，甚至是可以達到10層，從而可形成多層非線性映射結(jié)構(gòu)，為復雜函數(shù)的逼近提供了便利條件。另外，深度學習十分重視特征學習，通過非監(jiān)督預訓練的方式，改變原始樣本的特征，形成一個全新的特征空間，這種新特征更加有助于預測和分類的實現(xiàn)。另外，生成性預訓練，也可有效防止由于網(wǎng)絡(luò)函數(shù)表達能力而導致的擬合問題。

在深度學習中，關(guān)于“深度”，其主要是來源于流圖的屬性表示，而流圖可對輸入、輸出過程中涵蓋的相關(guān)計算進行表示，經(jīng)過節(jié)點計算，原始輸入產(chǎn)生的結(jié)果，可被作為下一節(jié)點的輸入，以此類推。

將深度結(jié)構(gòu)作為一種因子分解，隨機狀態(tài)下選取的函數(shù)，通常很難通過網(wǎng)絡(luò)結(jié)構(gòu)進行表示，但相比于淺層結(jié)構(gòu)。深度結(jié)構(gòu)表示的有效性更高。相關(guān)人員預測，在這些不能用淺層結(jié)構(gòu)表示而可以用深層次結(jié)構(gòu)表示的函數(shù)中，極有可能存在某種結(jié)構(gòu)，能夠通過深層結(jié)構(gòu)進行泛化表示。

1.2 應用動機

將待處理問題中的對象通過特征進行表示，是應用任務(wù)的首要工作。在對文本分類進行處理的過程中，人們經(jīng)常會通過詞結(jié)合特征對文檔進行表示和描述，之后通過各種各樣的分類算法完成分類。而在處理圖像任務(wù)的過程中，最常見的便是通過像素集合特征的方式來表示圖像，不同的特征對最后的結(jié)果也會產(chǎn)生不同的影響。因此，人們在解決實際問題的過程中，選擇恰當、合理的特征至關(guān)重要。

在很多訓練任務(wù)中，如本文、圖像、語音等等，以圖像識別為例，圖像的像素是最初的原始輸入，其他的相鄰的像素可以一同構(gòu)成線條，而由線條的結(jié)合又可形成紋理，最后形成圖像。而通過局部的圖像還能構(gòu)成一個完整的物體。通過整個過程不難看出，淺層特征和原始輸入之間的關(guān)聯(lián)和很容易找到，在此前提下，借助中間層的相關(guān)特征，能夠獲得高層特征和原始輸入之間的關(guān)系。

以往的機器學習方式，對于特征表示的依賴性較強，自動組織信息和抽取信息的能力較弱，通過人工選擇，雖然能夠借助人類的經(jīng)驗知識和智慧來彌補這一不足和缺陷，但若想達到深入理解問題的層次，相關(guān)研究人員仍需花費大量的時間和精力。而這也在很大程度上限制了機器學習向智能化學習的方向發(fā)展，因此，從能夠觀察到的感官數(shù)據(jù)中，解釋或者是識別相關(guān)特征，逐漸擺脫選擇人工特征的局限性，也逐漸成為了深度學習過程中的重要思想。從某種意義上來看，能夠具備自動化學習功能的學習方式，均可被納入深度學習范疇。

1.3 首要任務(wù)

對于深度學習而言，其首要任務(wù)是找尋一種簡單、便捷的算法，能夠?qū)Υ鉀Q問題進行分層表示，通過特征的變換.將原始樣本的特征逐漸轉(zhuǎn)變換到一個全新的特征空間，如此便可更加方便的借助特征，來完成預測和分類任務(wù)。由此也凸顯了表示學習和特征學習的重要性，這一思想與傳統(tǒng)的機器學習方式相一致，但差異在于，深度學習可自動的提取特征，但以往的機器學習，對于人工分析的依賴性較強。自動化程度較低。深度學習會學習數(shù)據(jù)的變換形式，在預測器或者分類器構(gòu)建的過程中，更加容易獲取價值信息。

2 面向自然語言處理的深度學習研究及其應用

在語音和圖像領(lǐng)域中，對于深度學習的研究現(xiàn)己取得顯著成就。但在自然語言處理領(lǐng)域中，還未取得重大進展，不同于圖像，語言產(chǎn)生于人的大腦，經(jīng)過一系列的加工和處理之后形成符號系統(tǒng)，在自然語言領(lǐng)域中，人工神經(jīng)網(wǎng)絡(luò)對人腦結(jié)構(gòu)的模仿具有突出優(yōu)勢，但現(xiàn)實卻并非如此。最近幾十年來，自然語言的處理基本都是以統(tǒng)計模型為主，而人工神經(jīng)網(wǎng)絡(luò)作為一種傳統(tǒng)的統(tǒng)計方式，卻并未在自然語言處理領(lǐng)域中得到相應的重視。

2.1 深度學習的可用性研究

2.1.1 特征表示學習需求

在自然語言處理任務(wù)中，首要工作便是對對象的表現(xiàn)形式進行處理，為了能夠更加精準的描述和表示對象，一般會選擇一些特征，如在處理文本的過程中，經(jīng)常會使用詞集合對文檔進行表示，結(jié)合傳統(tǒng)手工方式的抽取特征，不僅浪費時間和精力，且整個過程也比較缺乏嚴謹性，完備性不足。另外，處理領(lǐng)域和處理任務(wù)的不同，特征提取也要重復的進行，難以實現(xiàn)共享。而深度學習主要就是為了解決上述問題而產(chǎn)生，即要實現(xiàn)自動化的從數(shù)據(jù)中獲取特征的目標。

2.1.2 無監(jiān)督特征和權(quán)重學習需求

目前，很多效果顯著的自然語言處理任務(wù)和學習方式，均是比較依賴于標注數(shù)據(jù)，在此情況下，有監(jiān)督學習方式和標志語料庫逐漸成為重要的主流手段。但在實踐應用過程中，若想從自然語言中大量存在的標注數(shù)據(jù)中獲取或挖掘價值信息，就一定要提升對無監(jiān)督方法的重視程度。而深度學習便是通過該方式完成了預訓練任務(wù)，并提供出了恰當?shù)挠柧毮Ｐ汀?/p>

2.1.3 學習多層分類表示需求

研究表明，大腦結(jié)構(gòu)可輔助人們完成學習，其屬于一種多層的皮質(zhì)層，不同的皮質(zhì)層，其所對應的學習表示結(jié)構(gòu)各不相同。表示越抽象，便越能夠交叉支持具體任務(wù)處理，因此，一定要充分的利用好學習模型，并要盡可能多的抽取其中的價值表示形式，通過深度學習能夠很好的完成上述目標。

另外，人類的自然語言具有一定的遞歸屬性。例如，自然語言中的句子，一般是由短語、字詞等共同組成，而深度學習確可為其提供了一種較為便捷的遞歸操作，同時可充分滿足自然語言遞歸組合的實際需求，如遞歸神經(jīng)網(wǎng)絡(luò)。

2.1.4 硬件及技術(shù)支撐平臺

深度學習機構(gòu)是由很多的神經(jīng)網(wǎng)絡(luò)節(jié)點共同構(gòu)成，其在進行預訓練的過程中，一般需要得到高性能計算機的輔助和支持。隨著科學技術(shù)的不斷發(fā)展，目前，能夠提供高性能計算機的平臺逐漸成熟，具體如圖像處理單元、多核計算等等。提供算法支持技術(shù)也獲得了快速發(fā)展，如Auto-encoders、RBM等等。與此同時，自然語言處理的預演算法和模型也得到了優(yōu)化，其性能得到了顯著改善。隨著軟硬件技術(shù)的不斷發(fā)展，均為面向自然語言處理的深度學習研究提供了良好環(huán)境。

2.2 面向自然語言處理的深度學習研究模型

若想實現(xiàn)深度學習在自然語言處理領(lǐng)域中的有效應用，首先要解決以下問題，

（1）應用領(lǐng)域內(nèi)的原始特征表示;

（2）要選擇恰當、合理的深度學習算法。

前者隸屬于數(shù)數(shù)據(jù)表示的范疇，而后者則是隸屬于深度學習結(jié)構(gòu)的范疇，即深度學習模型。例如，在處理圖像的過程中，在選擇原始特征表示時，一般會以圖像像素矩陣為主。而在處理于語音任務(wù)的過程中，則通常會優(yōu)先選擇基本語音單位，最為典型的便是音素。同時，還應對深度學習框架加以明確。

結(jié)合上述可知，深度學習的主要任務(wù)是特征學習，而從本質(zhì)上來看，這種學習模型實則是屬于一種基于原始特征的輸入，經(jīng)過多層非線性處理，對復雜的特征表示方式進行學習。如果能夠與特定的領(lǐng)域任務(wù)進行結(jié)合，則深度學習一般可借助自動學習的特征表示，對新型分類器進行構(gòu)建，同時還可自動生成工具，從而完成更多領(lǐng)域的任務(wù)。例如，在逐層訓練中，自動編碼器構(gòu)建屬于最核心、最關(guān)鍵的部分，在構(gòu)建深度學習模型的過程中，自動編碼器發(fā)揮著神經(jīng)網(wǎng)絡(luò)的作用和功能。

2.2.1 無監(jiān)督構(gòu)建自動把編碼器

在確定了原始輸入之后，第一層為訓練模型，在整個模型中扮演著認知結(jié)構(gòu)的角色，可對原始輸入進行編碼，從而形成初級特征。為了對編碼之后特征的等價抽象表示進行驗證，并沒有丟失過多信息，一般情況下會引入一個相對應的解碼器，通過其實現(xiàn)與原始數(shù)據(jù)輸入的比較驗證，而驗證之后的結(jié)果誤差就是代價函數(shù)，可將其應用于解碼器和編碼器的訓練中。在達到訓練目標之后，所確定的參數(shù)神經(jīng)網(wǎng)絡(luò)編碼器便是第一層模型，由此也可獲取原始數(shù)據(jù)的抽象表示。完成上述操作之后，需將神經(jīng)網(wǎng)絡(luò)編碼器參數(shù)進行固定，將抽象輸入當做輸入，重復上述操作，以此類推，便可獲取第二、三層的模型，直到滿足訓練的要求為止。

2.2.2 有監(jiān)督訓練分類器

通過上述操作能夠獲得自動編碼器，且原始輸入信號也有很多表達特征，而這些特征便可用來表示原始輸入信號。但目前，自動編碼器，還不具備分類功能，為了彌補這一缺陷和不足，一般可在自動編碼器的最高層增加分類器。調(diào)整參數(shù)的方式包括：對最高層分類器參數(shù)進行調(diào)整;結(jié)合標簽樣本，對所有自動編碼器參數(shù)進行調(diào)整。深度學習模型的存在局部最優(yōu)解，通過逐層初始化的方式，可對深層模型進行調(diào)整，使其達最佳優(yōu)解位置，從而為最優(yōu)效果提供保障。而淺層模型對于人工經(jīng)驗的依賴性較強，而這也是其局限所在，模型自身只是一種預測和分類工具。因此，在淺層模型系統(tǒng)中，模型的好壞并不能起到?jīng)Q定性的作用，選取特征的好壞才是重點。相關(guān)人員在對上述問題進行研究的過程中，不僅要全面深刻的了解任務(wù)領(lǐng)域的相關(guān)問題，同時還需要花費大量的時間和精力對實驗進行反復探索。實質(zhì)上，逐層初始化模型也是特征學習的過程中，借助隱蔽層，對原始輸入進行抽象表示，并對數(shù)據(jù)結(jié)構(gòu)進行學習，尋找有效特征，從而不斷提升分類問題的精確性，在得到有效特征之后，也就完成了模型的整體訓練

面向自然語言處理的深度學習研究，也應重點考慮上述相關(guān)問題，在應用領(lǐng)域內(nèi)的原始特征表示問題上，包括此詞向量空間、向量空間模型、詞貸模型等表示方式。在深度學習算法的問題上，一般要結(jié)合語言的實際特征，來選擇一種合理的深度學習模型。人類的自然語言具有一定的遞歸屬性。例如，自然語言中的句子，一般是由短語、字詞等共同組成，因此，這種遞歸屬性也是自然語言所具備的特征?；谠撎匦缘纳疃葘W習模型包括卷積神經(jīng)網(wǎng)絡(luò)模型、遞歸神經(jīng)網(wǎng)絡(luò)模型以及循環(huán)神經(jīng)網(wǎng)絡(luò)模型等等。

綜合衡量了上述問題之后，在自然語言處理領(lǐng)域中的深度學習方式如下：

（1）在深度學習模型構(gòu)建過程中，通過原始特征的應用，對端對端系統(tǒng)進行構(gòu)建，從而逐步完成處理任務(wù)。

（2）在現(xiàn)有模型的基礎(chǔ)上，將完成訓練的原始特征作為輔助特征并進行實踐應用。

在方法一中，較為奠定的代表是SENNA系統(tǒng)，以多層一維卷積神經(jīng)網(wǎng)絡(luò)和向量方法為基礎(chǔ)和前提，逐步完成了命名實體識別、語塊切分、詞性標注等相關(guān)工作任務(wù)。類似的工作還包括Socher，即以遞歸神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)完成語法分析、情感分析等多項工作。在第二種方法中，較為典型的如Turian，即將詞向量加入最優(yōu)系統(tǒng)中，從而不斷提升短語識別和命名實體識別的精準性和效率性。

3 結(jié)束語

綜上所述，不同于圖像處理，自然語言分層抽象并不突出，深度學習在自然語言處理領(lǐng)域中所選取的特征表示，目前以Wordembedding機制為主，實踐過程中還存在著一定問題，但總而言之，深度學習為自然語言處理提供了全新的嘗試，可行性較高，如此也使得語言和任務(wù)之間的泛化遷移變得更加容易。

參考文獻

[1]林奕歐，雷航，李曉瑜等，自然語言處理中的深度學習：方法及應用[J].電子科技大學學報，2017，464： 45-963.

[2]昝紅英，朱學鋒，面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構(gòu)建[J].當代語言學，2014，4265：124-135.

[3]鞏捷甫，面向語文作文自動評閱的修辭手法識別系統(tǒng)的設(shè)計與實現(xiàn)[J].哈爾濱工業(yè)大學，2016，45： 63-362.

[4]陳致鵬，面向小學生閱讀理解題型的智能解題系統(tǒng)研究與實現(xiàn)[J]哈爾濱工業(yè)大學，2016，74-455.

[5]郭鵬.深度卷積神經(jīng)網(wǎng)絡(luò)及其在手寫體漢字識別中的應用研究[J]，四川師范大學，20164，45： 88-654.