亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用

        2020-11-28 19:38:20
        科技傳播 2020年21期
        關(guān)鍵詞:三元組層級(jí)向量

        自然語言處理技術(shù)又稱為NLP 技術(shù),是信息技術(shù)的發(fā)展前沿,能夠?qū)崿F(xiàn)人機(jī)交互。深度學(xué)習(xí)是幫助機(jī)器進(jìn)行自主學(xué)習(xí)的重要方式,是機(jī)器學(xué)習(xí)算法的總稱。目前,深度學(xué)習(xí)已經(jīng)有了長(zhǎng)足的發(fā)展,被廣泛應(yīng)用在自然語言處理、遙感影像翻譯等多個(gè)領(lǐng)域中,在自然語言處理方面主要集中在分詞識(shí)別、句法分析、語言分析、智能問答等方面,大大提升語言處理效率。通過利用深度學(xué)習(xí),能夠提高對(duì)抽象化文本的翻譯能力,厘清文本間的關(guān)系,還能將相關(guān)的學(xué)習(xí)方法和結(jié)論儲(chǔ)存到語料庫(kù)中,提升NLP技術(shù)的判別能力和特征自學(xué)能力。

        1 深度學(xué)習(xí)概述

        1.1 深度結(jié)構(gòu)

        深度學(xué)習(xí)模型結(jié)構(gòu)需要具有3 層以上的隱層節(jié)點(diǎn),甚至?xí)哌_(dá)十幾層[1]。與傳統(tǒng)的淺層學(xué)習(xí)模式相比,多層學(xué)習(xí)模式呈現(xiàn)非線性映射結(jié)構(gòu),可以完成更加復(fù)雜的函數(shù)計(jì)算。深度學(xué)習(xí)需要基于特征學(xué)習(xí),需要通過非監(jiān)督式預(yù)訓(xùn)練算法來根據(jù)原始樣本進(jìn)行逐層變化,映射出一個(gè)新的特征空間。另外,還可以通過生成性訓(xùn)練方法來避免由于網(wǎng)絡(luò)函數(shù)過強(qiáng)而導(dǎo)致的過擬合問題。深度學(xué)習(xí)代表著需要經(jīng)過多個(gè)節(jié)點(diǎn)進(jìn)行計(jì)算,并將經(jīng)過節(jié)點(diǎn)后的結(jié)算結(jié)果作為下一次節(jié)點(diǎn)的輸入數(shù)據(jù),然后進(jìn)行逐層計(jì)算。

        1.2 應(yīng)用動(dòng)機(jī)

        利用深度學(xué)習(xí)方式需要通過特征來處理問題,因此需要將采用特征當(dāng)成是應(yīng)用前提。舉個(gè)例子,在進(jìn)行文本分類時(shí),需要通過經(jīng)常用詞的方式進(jìn)行集合,然后將集合特征用來指代文本,接著在使用不同的分類算法進(jìn)行文本分類。如果是進(jìn)行圖像處理,則需要將圖像特征作為深度學(xué)習(xí)的特征。特征的選擇會(huì)直接影響到任務(wù)的最終結(jié)果,因此要慎重選擇。在過去,傳統(tǒng)的機(jī)器會(huì)依賴于人工進(jìn)行特征選取,這樣的方法難以提升機(jī)器的智能性和自動(dòng)化,需要應(yīng)用到大量人力,而且處理的效率不高。另一方面,人工選取特征就代表著需要依靠人類智慧和知識(shí)進(jìn)行深度學(xué)習(xí),但這樣的方式限制了機(jī)器學(xué)習(xí)向更先進(jìn)地步發(fā)展的步伐,會(huì)阻礙到機(jī)器智能化發(fā)展。因此,需要擺脫人工特征選擇方式,實(shí)現(xiàn)深度學(xué)習(xí)的無監(jiān)督特征學(xué)習(xí),進(jìn)而提升深度學(xué)習(xí)質(zhì)量和效率。

        1.3 深度學(xué)習(xí)現(xiàn)狀

        傳統(tǒng)深度學(xué)習(xí)方法無法實(shí)現(xiàn)自動(dòng)學(xué)習(xí)特征的主要原因有三個(gè)方面。

        第一,表示的深度不夠。一般來說,在給目標(biāo)進(jìn)行精度函數(shù)采用時(shí),需要使用2 層網(wǎng)絡(luò)結(jié)構(gòu)就,而這兩層深度結(jié)構(gòu)需要大量的計(jì)算節(jié)點(diǎn),當(dāng)深度結(jié)構(gòu)與計(jì)算節(jié)點(diǎn)呈現(xiàn)數(shù)級(jí)增長(zhǎng)時(shí),使用深度的計(jì)算方式可以更加節(jié)約計(jì)算成本。這就不需要使用到計(jì)算節(jié)點(diǎn)表示的函數(shù)族。第二,深度學(xué)習(xí)的規(guī)律是基于人類認(rèn)知規(guī)律,因此深度學(xué)習(xí)的分層相對(duì)于人類逐漸學(xué)習(xí)的過程。通過進(jìn)行分層分析,就會(huì)導(dǎo)致總?cè)蝿?wù)與子任務(wù)處于不同的認(rèn)知層面,也就難以從中總結(jié)出自動(dòng)學(xué)習(xí)特征。第三,人腦存在分層結(jié)構(gòu)。深層學(xué)習(xí)是基于人類的認(rèn)知,這就導(dǎo)致深層學(xué)習(xí)的存在仿生效果,難以脫離分層認(rèn)知和學(xué)習(xí)。

        2 人工智能領(lǐng)域自然語言處理的深度學(xué)習(xí)方法

        2.1 前饋神經(jīng)網(wǎng)絡(luò)應(yīng)用

        前饋神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱FNN)是需要作用在多任務(wù)環(huán)境下的神經(jīng)網(wǎng)絡(luò)模型[2]。隨著自然語言處理環(huán)境越來越復(fù)雜,神經(jīng)模型也需要隨之進(jìn)行升級(jí)優(yōu)化,但神經(jīng)網(wǎng)絡(luò)訓(xùn)練問題也會(huì)影響到自然語言處理。這時(shí)候使用前饋神經(jīng)網(wǎng)絡(luò)可以提升自然語言處理效率,主要依靠FNN 的反向傳播算法,通過這種學(xué)習(xí)方式能夠?qū)Σ煌瑢蛹?jí)存在的問題進(jìn)行優(yōu)化,及時(shí)調(diào)整相關(guān)網(wǎng)絡(luò)參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱CNN)是FNN 的主流模型之一,它可以利用卷積核來擴(kuò)展描述空間,增加模型的深度,是一種改進(jìn)過得深度神經(jīng)網(wǎng)絡(luò)。在一般FNN 中,會(huì)通過全連接結(jié)構(gòu)來連接輸入層和隱藏層,而CNN 卻可以通過不同的卷積層節(jié)點(diǎn)來實(shí)現(xiàn)對(duì)區(qū)域的鏈接,核心的卷積節(jié)點(diǎn)就是卷積核。目前,CNN 被廣泛應(yīng)用在NLP 領(lǐng)域的語義角色標(biāo)注、語料訓(xùn)練、文本分析等方面。而且,CNN的池化技術(shù)能夠固定每個(gè)區(qū)域的大小并能夠使用平均值或最大值來代替矩陣區(qū)域,有效降低特征采用的難度。

        2.2 遞歸神經(jīng)網(wǎng)絡(luò)

        遞歸神經(jīng)網(wǎng)絡(luò)是對(duì)時(shí)間遞歸結(jié)構(gòu)進(jìn)行表達(dá)的一種方式,能夠?yàn)閿?shù)據(jù)設(shè)置明確的時(shí)間序列關(guān)系。同時(shí),RNN 還具有訓(xùn)練神經(jīng)記憶的能力,能夠?qū)⑶昂筝斎氲男畔⒔⒂行?lián)系。通過構(gòu)建擁有RNN 的深度學(xué)習(xí)模型,能夠?qū)㈦[含層的信息激活,然后再根據(jù)不同時(shí)刻進(jìn)行遞歸,使其形成一個(gè)連接隱藏層和輸入層的參數(shù)矩陣,最后在通過計(jì)算得出偏向量。RNN 是樹形神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以將它應(yīng)用到語義標(biāo)注、句法分析、機(jī)器翻譯等方面。

        2.3 神經(jīng)網(wǎng)絡(luò)詞向量

        詞向量指的是通過利用神經(jīng)網(wǎng)絡(luò)方式來對(duì)稀有文本進(jìn)行整合分析,通過在較小特征中進(jìn)行大規(guī)模語料分析,能夠獲得有關(guān)上下文關(guān)系的分布式特征詞編碼技術(shù)。詞向量的主要作用是進(jìn)行詞匯分析,通過對(duì)文本中的詞組進(jìn)行隔離分析,能夠豐富語料庫(kù)的詞匯量。在詞向量方面,我國(guó)的研究成果主要集中在SENNA 詞向量、HLBL 詞向量、word2vec 詞向量以及glove 詞向量等[3]。不同詞向量有不同的規(guī)則,詞向量主要代表的是詞向量之間的組合關(guān)系,如與其他詞相加時(shí)代表是什么意思或減掉某些詞語或定語就會(huì)變成另外一個(gè)意思,因此詞向量具有極強(qiáng)的應(yīng)用意義。舉個(gè)例子,glove 詞向量能夠通過矩陣的方式來表現(xiàn)不同的性能,使得測(cè)量指標(biāo)更加具有針對(duì)性,可以快速解決很多自然語言處理問題。

        2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶模型

        循環(huán)神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱RNN)是隱藏層和自身相聯(lián)系的一種神經(jīng)網(wǎng)絡(luò),它的計(jì)算結(jié)果將會(huì)應(yīng)用到下一次隱藏層的計(jì)算。RNN 的優(yōu)化算法為BPTT 算法,能夠用來處理語料庫(kù)的機(jī)器翻譯、文本生成、語音識(shí)別等工作。RNN 的反饋只能向后傳遞5-10 層,因此可以在此基礎(chǔ)上建立長(zhǎng)短時(shí)記憶模型。長(zhǎng)短時(shí)記憶模型是基于記憶結(jié)構(gòu)之前的輸入幫助網(wǎng)絡(luò)學(xué)習(xí)到新的Cell 結(jié)構(gòu)。RNN 和長(zhǎng)短時(shí)記憶模型被廣泛應(yīng)用在NLP 領(lǐng)域,如應(yīng)用到情感分析、詞性標(biāo)注、實(shí)體命名識(shí)別等方面。另一方面,由于改進(jìn)后的長(zhǎng)短時(shí)記憶模型比較復(fù)雜,人們也隨之提出另一種RNN 變體,就是GRU,它有效簡(jiǎn)化長(zhǎng)短時(shí)記憶模型的步驟,可以得到更好的自然語言處理效果。

        3 人工智能自然語言處理深度學(xué)習(xí)的應(yīng)用方法

        3.1 神經(jīng)網(wǎng)絡(luò)的模型建設(shè)

        目前,我國(guó)在進(jìn)行深度學(xué)習(xí)模型構(gòu)建時(shí),一般都會(huì)使用Nivre 分析來確定最終的語言特征分類。這種方法的好處是在進(jìn)行特征分類后,所分取出來的特征能夠聯(lián)系上下文,即可以作為文本上下文的依存關(guān)系,然后結(jié)合全文完成句法分析。在建立Nivre 分析模型時(shí),可以采用三元組的方式來表示模型的格局,進(jìn)而建立一個(gè)科學(xué)合理的神經(jīng)網(wǎng)絡(luò)模型。在三元組中,需要包含三個(gè)主要部分,分別是堆棧、節(jié)點(diǎn)序列以及依存弧集合,人們常常會(huì)使用字母S 來代表堆棧,采用I 來代表節(jié)點(diǎn)序列,最后采用A 來表示依存弧集合。通過建立三元組神經(jīng)網(wǎng)絡(luò)模型,能夠在分析動(dòng)作是提取到句法特征,進(jìn)而實(shí)現(xiàn)對(duì)句法的分析,為最終分析決策提供重要數(shù)據(jù)支持。在建立三元組網(wǎng)絡(luò)神經(jīng)模型時(shí),需要注意三元組的相關(guān)信息,主要包括三個(gè)方面信息,分別是有詞信息、詞性信息和依存弧信息。

        第一,有詞信息。有詞信息指的是文本中存在的詞組的相關(guān)信息。不管是在堆棧還是節(jié)點(diǎn)序列緩中,都會(huì)包含大量的詞信息,有些詞信息可能已經(jīng)被處理,也有些詞信息還沒有被處理,這些詞信息都是重要的三元組信息,它們帶有明顯的特征。因此,在進(jìn)行網(wǎng)絡(luò)神經(jīng)模型潛入前,可以通過稀疏的方式進(jìn)行表達(dá),但如果這些詞信息已經(jīng)完成潛入,就需要通過稠密的方式進(jìn)行表達(dá),由此可以看出潛入前后的表達(dá)方式是不一樣的。第二,有詞就會(huì)有詞性信息,這些詞性信息會(huì)與模型保持一一對(duì)應(yīng)的關(guān)系,這樣才能為每個(gè)詞提供相對(duì)應(yīng)的詞性。第三,依存弧信息。依存弧信息的主要功能就是為已經(jīng)被處理了的詞信息提供相應(yīng)的依存關(guān)系,具有連接文本信息的重要作用。通過獲得三元組的相關(guān)信息,然后在將這些信息進(jìn)行重新組合,就能得出二階特征,豐富不同詞的特征和為詞進(jìn)行模型組合時(shí)提供可參考的意見。應(yīng)用三元組的神經(jīng)網(wǎng)絡(luò)模型,能夠幫助不同類型的詞進(jìn)行重新組合,并且能夠?qū)⑿陆M合的詞作用到不同層級(jí)中,有效提升自然語言處理效率。

        3.2 深度學(xué)習(xí)的模型層級(jí)

        隨著深度學(xué)習(xí)模型層級(jí)不斷提升,通過人工智能就可以實(shí)現(xiàn)非線性函數(shù)狀態(tài)下的語言特征組合,但這樣的神經(jīng)網(wǎng)絡(luò)模型需要依托于三元組信息,根據(jù)神經(jīng)網(wǎng)絡(luò)三元組的特征表現(xiàn)出來,然后按照多層級(jí)方式進(jìn)行分類訓(xùn)練,這樣就能實(shí)現(xiàn)提取不同特征的要求。具體來說,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型主要分為四個(gè)層級(jí),分別是輸入層、嵌入層、隱含層以及softmax 層。

        輸入層是最基礎(chǔ)的層級(jí),是整個(gè)神經(jīng)網(wǎng)絡(luò)模型的根本,只有通過輸入層將相關(guān)信息輸入模型中,才能繼續(xù)之后的分析、整合工作。輸入層的功能是能夠與已經(jīng)完成構(gòu)建的分析格局相聯(lián)系,然后對(duì)三元組進(jìn)行處理,幫助整個(gè)神經(jīng)網(wǎng)絡(luò)活動(dòng)以構(gòu)建格局中的元特征內(nèi)容。嵌入層是一個(gè)信息處理層,它位于輸入層之上。嵌入層是由與三元組相對(duì)應(yīng)的子嵌入層組合而成,各個(gè)子嵌入層之間能夠獨(dú)立存在,然后負(fù)責(zé)獲取詞信息、詞性和依存弧特征,接著在完成三元組稀疏和稠密的轉(zhuǎn)換。隱藏層是嵌入層的上層層級(jí),在嵌入層完成稠密特征的轉(zhuǎn)換后,隱含層會(huì)對(duì)稠密特征進(jìn)行處理,使其能夠變換成可以進(jìn)行非線性函數(shù)變化的模型。softmax 層是最后一個(gè)層級(jí),能夠?qū)⒆匀徽Z言非線性轉(zhuǎn)換成能夠分析的數(shù)據(jù),并根據(jù)分析的結(jié)果對(duì)這些特征進(jìn)行分類和預(yù)測(cè),進(jìn)而實(shí)現(xiàn)對(duì)自然語言處理的訓(xùn)練??梢哉f,softmax 層是確保神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行自然語言處理訓(xùn)練的重要保障。

        3.3 深度信念網(wǎng)絡(luò)訓(xùn)練

        通過對(duì)既有理論進(jìn)行堆疊,可以得出新的訓(xùn)練模型,受限玻爾茲曼機(jī)就是其中一種。通過理論堆疊形成的訓(xùn)練模型被稱為是深度信念網(wǎng)絡(luò)模型,它能夠通過對(duì)網(wǎng)絡(luò)訓(xùn)練來進(jìn)行數(shù)據(jù)還原,即對(duì)輸入層數(shù)據(jù)進(jìn)行還原訓(xùn)練。在訓(xùn)練過程中,深度信念網(wǎng)絡(luò)模型能夠根據(jù)可見層的受限玻爾茲曼機(jī)進(jìn)行原始數(shù)據(jù)的輸入,然后在通過對(duì)原始數(shù)據(jù)進(jìn)行層級(jí)內(nèi)部處理,且還能對(duì)層級(jí)的數(shù)量進(jìn)行檢驗(yàn),確保層級(jí)數(shù)能夠滿足執(zhí)行需要。如果檢驗(yàn)得出的結(jié)果是不能滿足執(zhí)行步驟,就需要重新進(jìn)行原始數(shù)據(jù)的獲取,直到得出的結(jié)果能夠滿足執(zhí)行需求為止。深度信念網(wǎng)絡(luò)能夠?qū)?nèi)部層級(jí)數(shù)進(jìn)行微調(diào),這樣就能根據(jù)深度學(xué)習(xí)算法模型進(jìn)行整合和優(yōu)化,是得層級(jí)內(nèi)部能夠達(dá)到最優(yōu)解。有專家指出,深度信念網(wǎng)絡(luò)的層數(shù)設(shè)置方式可以由自編碼其來完成,通過自編碼器的自動(dòng)化、智能化編碼,能夠達(dá)到網(wǎng)絡(luò)的泛化和拓展。自編碼器是一種半監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),主要的作用是能夠?qū)⑤斎胄畔⒆鳛閷W(xué)習(xí)目標(biāo),然后進(jìn)行表征學(xué)習(xí)。通過自編碼器進(jìn)行自主學(xué)習(xí),能夠有效解決編碼器問題和升級(jí)編碼器性能,因此可以通過自編碼器實(shí)現(xiàn)網(wǎng)絡(luò)模型的層數(shù)設(shè)置。在這個(gè)過程中,自編碼器能夠取代網(wǎng)絡(luò)中的深度信念網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)對(duì)數(shù)據(jù)的簡(jiǎn)單堆疊,進(jìn)而形成相應(yīng)的自編碼網(wǎng)格。這是一種雖神經(jīng)網(wǎng)絡(luò)自然語言稀疏特性進(jìn)行隱藏的網(wǎng)格編碼方式,可以通過抑制神經(jīng)元的狀態(tài)來實(shí)現(xiàn)稀疏自編碼網(wǎng)格。根據(jù)多次實(shí)踐應(yīng)用,發(fā)現(xiàn)自編碼網(wǎng)格方式能夠?qū)ψ匀徽Z言特征進(jìn)行學(xué)習(xí),為語言特征檢索提供更加快速、準(zhǔn)確的搜索途徑。

        4 結(jié)束語

        綜上所述,深度學(xué)習(xí)用語NLP 領(lǐng)域的步驟如下,第一步,將原始文本輸入神經(jīng)網(wǎng)絡(luò)模型中,通過機(jī)器自主學(xué)習(xí)獲得文本特征;第二步,將特征作為深度神經(jīng)網(wǎng)絡(luò)輸入;第三步,根據(jù)不同需求選用不同的學(xué)習(xí)模型。

        深度學(xué)習(xí)是一個(gè)處于快速發(fā)展的新興技術(shù),還有很多問題沒有得到解決。人們對(duì)于深度學(xué)習(xí)的了解還處于起步階段,沒有足夠的理論依據(jù)來指導(dǎo)實(shí)驗(yàn),人們難以確定網(wǎng)絡(luò)架構(gòu)是否已經(jīng)是最優(yōu)質(zhì)的。目前深度學(xué)習(xí)在NLP 的應(yīng)用前景十分良好,可以將其應(yīng)用到文法分析、信息抽取等方面,只有不斷提升機(jī)器智能和拓展智能領(lǐng)域,才能為NLP 技術(shù)提供更有力的支持。因此,需要重視深度學(xué)習(xí)在NLP 領(lǐng)域的嘗試,不斷提升深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),促進(jìn)NLP技術(shù)更好發(fā)展。

        猜你喜歡
        三元組層級(jí)向量
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
        基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
        關(guān)于余撓三元組的periodic-模
        向量垂直在解析幾何中的應(yīng)用
        任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        国产高清一区二区三区四区色| 99re国产电影精品| 久久色悠悠亚洲综合网 | 91成人自拍在线观看| 亚洲av日韩av天堂久久| 少妇太爽了在线观看| 亚洲色AV天天天天天天| 激情五月开心五月啪啪| 日韩精品专区av无码| 99久久免费看少妇高潮a片特黄| 免费无码又爽又刺激又高潮的视频| 少妇人妻系列中文在线| 亚洲av永久无码天堂网| 欧洲日本一线二线三线区本庄铃| 亚洲人成影院在线高清| 精品高清一区二区三区人妖| 久久精品国产精品亚洲| 久久精品成人欧美大片| 亚洲欧美成人久久综合中文网| 高清在线有码日韩中文字幕| 色777狠狠狠综合| 伊人网综合在线视频| 中文字幕一区二区三在线| 国产内射视频在线免费观看| 2020年国产精品| 无码不卡一区二区三区在线观看| 精品人妻一区二区三区不卡毛片| 国产精品免费无遮挡无码永久视频| 丰满少妇在线观看网站| 亚洲性爱区免费视频一区| 亚洲色图专区在线视频| 无码av一区二区大桥久未| 在线播放国产女同闺蜜| 久久精品伊人久久精品| 国产精品无码人妻在线| 国产精品香蕉在线观看| 国产小视频一区二区三区| 娇小女人被黑人插免费视频| 久久久午夜精品福利内容| 无码av免费精品一区二区三区| 国产av无毛无遮挡网站|