亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向自然語言處理的深度學習

        2018-02-25 14:27:38薛亞非
        電子技術(shù)與軟件工程 2018年12期
        關(guān)鍵詞:自然語言處理機器學習深度學習

        薛亞非

        摘要 近年來,在語音和圖像處理領(lǐng)域中,對于深度學習的研究現(xiàn)已取得突出成就,但在自然語言處理領(lǐng)域中,還尚未取得重大突破。基于此,文章主要從學習定義、應用動機、基本框架等方面入手,對深度學習進行了全方位介紹,同時還對面向自然語言處理的深度學習進行了深入研究。

        【關(guān)鍵詞】自然語言處理 深度學習 自動編碼器 神經(jīng)網(wǎng)絡(luò) 機器學習

        所謂“深度學習”,即通過深層神經(jīng)網(wǎng)絡(luò)的建立,對人體大腦機制進行模擬,并分析文本、語音、圖像等數(shù)據(jù)。在現(xiàn)階段的機器學習研究中,深度學習是一個重點熱議的話題。在傳統(tǒng)機器學習工作中,其質(zhì)量和效果與輸入特征和人工設(shè)計數(shù)據(jù)息息相關(guān),而機器學習的方法只是對學習權(quán)重加以優(yōu)化,從而輸出最優(yōu)學習結(jié)果。而深度學習可自動完成特征提取和數(shù)據(jù)表示工作,并提倡通過學習來提取出不同維度和不同水平的有效表示,從而不斷提升對數(shù)據(jù)的解釋能力。從認知科學的角度分析,深度學習的思路與人們的學習機理十分契合,本文主要研究了面向自然語言處理的深度學習。

        1 深度學習概述

        1.1 深度結(jié)構(gòu)

        相比于以往的淺層學習,深度學習在具體實踐的過程中,對模型的深度具有較高要求,基本上均要求具備3層以上隱層節(jié)點,甚至是可以達到10層,從而可形成多層非線性映射結(jié)構(gòu),為復雜函數(shù)的逼近提供了便利條件。另外,深度學習十分重視特征學習,通過非監(jiān)督預訓練的方式,改變原始樣本的特征,形成一個全新的特征空間,這種新特征更加有助于預測和分類的實現(xiàn)。另外,生成性預訓練,也可有效防止由于網(wǎng)絡(luò)函數(shù)表達能力而導致的擬合問題。

        在深度學習中,關(guān)于“深度”,其主要是來源于流圖的屬性表示,而流圖可對輸入、輸出過程中涵蓋的相關(guān)計算進行表示,經(jīng)過節(jié)點計算,原始輸入產(chǎn)生的結(jié)果,可被作為下一節(jié)點的輸入,以此類推。

        將深度結(jié)構(gòu)作為一種因子分解,隨機狀態(tài)下選取的函數(shù),通常很難通過網(wǎng)絡(luò)結(jié)構(gòu)進行表示,但相比于淺層結(jié)構(gòu)。深度結(jié)構(gòu)表示的有效性更高。相關(guān)人員預測,在這些不能用淺層結(jié)構(gòu)表示而可以用深層次結(jié)構(gòu)表示的函數(shù)中,極有可能存在某種結(jié)構(gòu),能夠通過深層結(jié)構(gòu)進行泛化表示。

        1.2 應用動機

        將待處理問題中的對象通過特征進行表示,是應用任務(wù)的首要工作。在對文本分類進行處理的過程中,人們經(jīng)常會通過詞結(jié)合特征對文檔進行表示和描述,之后通過各種各樣的分類算法完成分類。而在處理圖像任務(wù)的過程中,最常見的便是通過像素集合特征的方式來表示圖像,不同的特征對最后的結(jié)果也會產(chǎn)生不同的影響。因此,人們在解決實際問題的過程中,選擇恰當、合理的特征至關(guān)重要。

        在很多訓練任務(wù)中,如本文、圖像、語音等等,以圖像識別為例,圖像的像素是最初的原始輸入,其他的相鄰的像素可以一同構(gòu)成線條,而由線條的結(jié)合又可形成紋理,最后形成圖像。而通過局部的圖像還能構(gòu)成一個完整的物體。通過整個過程不難看出,淺層特征和原始輸入之間的關(guān)聯(lián)和很容易找到,在此前提下,借助中間層的相關(guān)特征,能夠獲得高層特征和原始輸入之間的關(guān)系。

        以往的機器學習方式,對于特征表示的依賴性較強,自動組織信息和抽取信息的能力較弱,通過人工選擇,雖然能夠借助人類的經(jīng)驗知識和智慧來彌補這一不足和缺陷,但若想達到深入理解問題的層次,相關(guān)研究人員仍需花費大量的時間和精力。而這也在很大程度上限制了機器學習向智能化學習的方向發(fā)展,因此,從能夠觀察到的感官數(shù)據(jù)中,解釋或者是識別相關(guān)特征,逐漸擺脫選擇人工特征的局限性,也逐漸成為了深度學習過程中的重要思想。從某種意義上來看,能夠具備自動化學習功能的學習方式,均可被納入深度學習范疇。

        1.3 首要任務(wù)

        對于深度學習而言,其首要任務(wù)是找尋一種簡單、便捷的算法,能夠?qū)Υ鉀Q問題進行分層表示,通過特征的變換.將原始樣本的特征逐漸轉(zhuǎn)變換到一個全新的特征空間,如此便可更加方便的借助特征,來完成預測和分類任務(wù)。由此也凸顯了表示學習和特征學習的重要性,這一思想與傳統(tǒng)的機器學習方式相一致,但差異在于,深度學習可自動的提取特征,但以往的機器學習,對于人工分析的依賴性較強。自動化程度較低。深度學習會學習數(shù)據(jù)的變換形式,在預測器或者分類器構(gòu)建的過程中,更加容易獲取價值信息。

        2 面向自然語言處理的深度學習研究及其應用

        在語音和圖像領(lǐng)域中,對于深度學習的研究現(xiàn)己取得顯著成就。但在自然語言處理領(lǐng)域中,還未取得重大進展,不同于圖像,語言產(chǎn)生于人的大腦,經(jīng)過一系列的加工和處理之后形成符號系統(tǒng),在自然語言領(lǐng)域中,人工神經(jīng)網(wǎng)絡(luò)對人腦結(jié)構(gòu)的模仿具有突出優(yōu)勢,但現(xiàn)實卻并非如此。最近幾十年來,自然語言的處理基本都是以統(tǒng)計模型為主,而人工神經(jīng)網(wǎng)絡(luò)作為一種傳統(tǒng)的統(tǒng)計方式,卻并未在自然語言處理領(lǐng)域中得到相應的重視。

        2.1 深度學習的可用性研究

        2.1.1 特征表示學習需求

        在自然語言處理任務(wù)中,首要工作便是對對象的表現(xiàn)形式進行處理,為了能夠更加精準的描述和表示對象,一般會選擇一些特征,如在處理文本的過程中,經(jīng)常會使用詞集合對文檔進行表示,結(jié)合傳統(tǒng)手工方式的抽取特征,不僅浪費時間和精力,且整個過程也比較缺乏嚴謹性,完備性不足。另外,處理領(lǐng)域和處理任務(wù)的不同,特征提取也要重復的進行,難以實現(xiàn)共享。而深度學習主要就是為了解決上述問題而產(chǎn)生,即要實現(xiàn)自動化的從數(shù)據(jù)中獲取特征的目標。

        2.1.2 無監(jiān)督特征和權(quán)重學習需求

        目前,很多效果顯著的自然語言處理任務(wù)和學習方式,均是比較依賴于標注數(shù)據(jù),在此情況下,有監(jiān)督學習方式和標志語料庫逐漸成為重要的主流手段。但在實踐應用過程中,若想從自然語言中大量存在的標注數(shù)據(jù)中獲取或挖掘價值信息,就一定要提升對無監(jiān)督方法的重視程度。而深度學習便是通過該方式完成了預訓練任務(wù),并提供出了恰當?shù)挠柧毮P汀?/p>

        2.1.3 學習多層分類表示需求

        研究表明,大腦結(jié)構(gòu)可輔助人們完成學習,其屬于一種多層的皮質(zhì)層,不同的皮質(zhì)層,其所對應的學習表示結(jié)構(gòu)各不相同。表示越抽象,便越能夠交叉支持具體任務(wù)處理,因此,一定要充分的利用好學習模型,并要盡可能多的抽取其中的價值表示形式,通過深度學習能夠很好的完成上述目標。

        另外,人類的自然語言具有一定的遞歸屬性。例如,自然語言中的句子,一般是由短語、字詞等共同組成,而深度學習確可為其提供了一種較為便捷的遞歸操作,同時可充分滿足自然語言遞歸組合的實際需求,如遞歸神經(jīng)網(wǎng)絡(luò)。

        2.1.4 硬件及技術(shù)支撐平臺

        深度學習機構(gòu)是由很多的神經(jīng)網(wǎng)絡(luò)節(jié)點共同構(gòu)成,其在進行預訓練的過程中,一般需要得到高性能計算機的輔助和支持。隨著科學技術(shù)的不斷發(fā)展,目前,能夠提供高性能計算機的平臺逐漸成熟,具體如圖像處理單元、多核計算等等。提供算法支持技術(shù)也獲得了快速發(fā)展,如Auto-encoders、RBM等等。與此同時,自然語言處理的預演算法和模型也得到了優(yōu)化,其性能得到了顯著改善。隨著軟硬件技術(shù)的不斷發(fā)展,均為面向自然語言處理的深度學習研究提供了良好環(huán)境。

        2.2 面向自然語言處理的深度學習研究模型

        若想實現(xiàn)深度學習在自然語言處理領(lǐng)域中的有效應用,首先要解決以下問題,

        (1)應用領(lǐng)域內(nèi)的原始特征表示;

        (2)要選擇恰當、合理的深度學習算法。

        前者隸屬于數(shù)數(shù)據(jù)表示的范疇,而后者則是隸屬于深度學習結(jié)構(gòu)的范疇,即深度學習模型。例如,在處理圖像的過程中,在選擇原始特征表示時,一般會以圖像像素矩陣為主。而在處理于語音任務(wù)的過程中,則通常會優(yōu)先選擇基本語音單位,最為典型的便是音素。同時,還應對深度學習框架加以明確。

        結(jié)合上述可知,深度學習的主要任務(wù)是特征學習,而從本質(zhì)上來看,這種學習模型實則是屬于一種基于原始特征的輸入,經(jīng)過多層非線性處理,對復雜的特征表示方式進行學習。如果能夠與特定的領(lǐng)域任務(wù)進行結(jié)合,則深度學習一般可借助自動學習的特征表示,對新型分類器進行構(gòu)建,同時還可自動生成工具,從而完成更多領(lǐng)域的任務(wù)。例如,在逐層訓練中,自動編碼器構(gòu)建屬于最核心、最關(guān)鍵的部分,在構(gòu)建深度學習模型的過程中,自動編碼器發(fā)揮著神經(jīng)網(wǎng)絡(luò)的作用和功能。

        2.2.1 無監(jiān)督構(gòu)建自動把編碼器

        在確定了原始輸入之后,第一層為訓練模型,在整個模型中扮演著認知結(jié)構(gòu)的角色,可對原始輸入進行編碼,從而形成初級特征。為了對編碼之后特征的等價抽象表示進行驗證,并沒有丟失過多信息,一般情況下會引入一個相對應的解碼器,通過其實現(xiàn)與原始數(shù)據(jù)輸入的比較驗證,而驗證之后的結(jié)果誤差就是代價函數(shù),可將其應用于解碼器和編碼器的訓練中。在達到訓練目標之后,所確定的參數(shù)神經(jīng)網(wǎng)絡(luò)編碼器便是第一層模型,由此也可獲取原始數(shù)據(jù)的抽象表示。完成上述操作之后,需將神經(jīng)網(wǎng)絡(luò)編碼器參數(shù)進行固定,將抽象輸入當做輸入,重復上述操作,以此類推,便可獲取第二、三層的模型,直到滿足訓練的要求為止。

        2.2.2 有監(jiān)督訓練分類器

        通過上述操作能夠獲得自動編碼器,且原始輸入信號也有很多表達特征,而這些特征便可用來表示原始輸入信號。但目前,自動編碼器,還不具備分類功能,為了彌補這一缺陷和不足,一般可在自動編碼器的最高層增加分類器。調(diào)整參數(shù)的方式包括:對最高層分類器參數(shù)進行調(diào)整;結(jié)合標簽樣本,對所有自動編碼器參數(shù)進行調(diào)整。深度學習模型的存在局部最優(yōu)解,通過逐層初始化的方式,可對深層模型進行調(diào)整,使其達最佳優(yōu)解位置,從而為最優(yōu)效果提供保障。而淺層模型對于人工經(jīng)驗的依賴性較強,而這也是其局限所在,模型自身只是一種預測和分類工具。因此,在淺層模型系統(tǒng)中,模型的好壞并不能起到?jīng)Q定性的作用,選取特征的好壞才是重點。相關(guān)人員在對上述問題進行研究的過程中,不僅要全面深刻的了解任務(wù)領(lǐng)域的相關(guān)問題,同時還需要花費大量的時間和精力對實驗進行反復探索。實質(zhì)上,逐層初始化模型也是特征學習的過程中,借助隱蔽層,對原始輸入進行抽象表示,并對數(shù)據(jù)結(jié)構(gòu)進行學習,尋找有效特征,從而不斷提升分類問題的精確性,在得到有效特征之后,也就完成了模型的整體訓練

        面向自然語言處理的深度學習研究,也應重點考慮上述相關(guān)問題,在應用領(lǐng)域內(nèi)的原始特征表示問題上,包括此詞向量空間、向量空間模型、詞貸模型等表示方式。在深度學習算法的問題上,一般要結(jié)合語言的實際特征,來選擇一種合理的深度學習模型。人類的自然語言具有一定的遞歸屬性。例如,自然語言中的句子,一般是由短語、字詞等共同組成,因此,這種遞歸屬性也是自然語言所具備的特征?;谠撎匦缘纳疃葘W習模型包括卷積神經(jīng)網(wǎng)絡(luò)模型、遞歸神經(jīng)網(wǎng)絡(luò)模型以及循環(huán)神經(jīng)網(wǎng)絡(luò)模型等等。

        綜合衡量了上述問題之后,在自然語言處理領(lǐng)域中的深度學習方式如下:

        (1)在深度學習模型構(gòu)建過程中,通過原始特征的應用,對端對端系統(tǒng)進行構(gòu)建,從而逐步完成處理任務(wù)。

        (2)在現(xiàn)有模型的基礎(chǔ)上,將完成訓練的原始特征作為輔助特征并進行實踐應用。

        在方法一中,較為奠定的代表是SENNA系統(tǒng),以多層一維卷積神經(jīng)網(wǎng)絡(luò)和向量方法為基礎(chǔ)和前提,逐步完成了命名實體識別、語塊切分、詞性標注等相關(guān)工作任務(wù)。類似的工作還包括Socher,即以遞歸神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)完成語法分析、情感分析等多項工作。在第二種方法中,較為典型的如Turian,即將詞向量加入最優(yōu)系統(tǒng)中,從而不斷提升短語識別和命名實體識別的精準性和效率性。

        3 結(jié)束語

        綜上所述,不同于圖像處理,自然語言分層抽象并不突出,深度學習在自然語言處理領(lǐng)域中所選取的特征表示,目前以Wordembedding機制為主,實踐過程中還存在著一定問題,但總而言之,深度學習為自然語言處理提供了全新的嘗試,可行性較高,如此也使得語言和任務(wù)之間的泛化遷移變得更加容易。

        參考文獻

        [1]林奕歐,雷航,李曉瑜等,自然語言處理中的深度學習:方法及應用[J].電子科技大學學報,2017,464: 45-963.

        [2]昝紅英,朱學鋒,面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構(gòu)建[J].當代語言學,2014,4265:124-135.

        [3]鞏捷甫,面向語文作文自動評閱的修辭手法識別系統(tǒng)的設(shè)計與實現(xiàn)[J].哈爾濱工業(yè)大學,2016,45: 63-362.

        [4]陳致鵬,面向小學生閱讀理解題型的智能解題系統(tǒng)研究與實現(xiàn)[J]哈爾濱工業(yè)大學,2016,74-455.

        [5]郭鵬.深度卷積神經(jīng)網(wǎng)絡(luò)及其在手寫體漢字識別中的應用研究[J],四川師范大學,20164,45: 88-654.

        猜你喜歡
        自然語言處理機器學習深度學習
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應用
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于支持向量機的金融數(shù)據(jù)分析研究
        面向機器人導航的漢語路徑自然語言組塊分析方法研究
        欧美理论在线| 青青草视频在线播放81| 亚洲精品国产综合久久| 成人激情视频在线手机观看| 免费毛儿一区二区十八岁| 人妻丝袜av中文系列先锋影音 | 日本黑人亚洲一区二区| 国产一区二区自拍刺激在线观看| 国产又黄又硬又粗| 国产成人久久精品一区二区三区| 最新高清无码专区| 精品久久久久久无码不卡| 亚洲处破女av一区二区| 综合久久精品亚洲天堂| 欧美 日韩 人妻 高清 中文| 亚洲学生妹高清av| 国产一区二区三区免费在线视频| 蜜桃视频在线免费观看一区二区| 国产精品高清免费在线| 国产三级精品三级在线专区2| 一本色综合网久久| 国产精品久久777777| 久久久久国产精品熟女影院| 亚洲熟女av中文字幕网站| 国产午夜三级精品久久久| 极品av一区二区三区| 亚洲中文久久精品无码| 一本一道波多野结衣av中文| 国产丝袜在线福利观看| 亚洲综合在线观看一区二区三区 | 国产高清在线精品一区app| 97伦伦午夜电影理伦片| 9999毛片免费看| 亚洲午夜精品国产一区二区三区 | 亚洲欧美v国产蜜芽tv| 国产亚洲精品精品综合伦理| 精品丰满人妻无套内射| 免费超爽大片黄| 五月激情狠狠开心五月| 麻豆最新国产av原创| 国产无遮挡又黄又爽在线观看|