(河北建筑工程學(xué)院,河北 張家口 075000)
目前在所有的信息技術(shù)中,自然語(yǔ)言處理技術(shù)是最先進(jìn)的技術(shù),其出現(xiàn)實(shí)現(xiàn)了我國(guó)整個(gè)人工智能體系的突破,在一定程度上決定著我國(guó)人工智能的發(fā)展方向。而深度學(xué)習(xí)的出現(xiàn),其以多層的非線性映射結(jié)構(gòu)的優(yōu)勢(shì)應(yīng)用在語(yǔ)言、圖像、以及文本的數(shù)據(jù)處理中,有效地提高了處理的效率。將其應(yīng)用在自然語(yǔ)言處理技術(shù)中,可以改變其傳統(tǒng)的處理模式,快速的識(shí)別命名、意圖、句法、語(yǔ)音等,并對(duì)進(jìn)行模型式的計(jì)算,有效地提高了計(jì)算效率[1]。在深度學(xué)習(xí)的應(yīng)用下,自然語(yǔ)言處理技術(shù)不再是專門的實(shí)驗(yàn)室里具備探索性的技術(shù),而是具備了工業(yè)化的條件,有效地應(yīng)用在我國(guó)各行各業(yè)中。因此本文對(duì)于深度學(xué)習(xí)在自然語(yǔ)言處理NLP中應(yīng)用的研究具有非常現(xiàn)實(shí)的指導(dǎo)意義。
深度學(xué)習(xí)是2006年提出的基于機(jī)器學(xué)習(xí)的概念,其框架在于通過(guò)模擬人腦的神經(jīng)網(wǎng)絡(luò),在進(jìn)行分析、學(xué)習(xí)、解釋,屬于一種含有多層、隱層的學(xué)習(xí)結(jié)構(gòu)。其跟淺層學(xué)習(xí)不同,因?yàn)槠渌⒌哪P徒Y(jié)構(gòu)足夠的深,一般都有3層以上的隱層節(jié)點(diǎn),最高可達(dá)10層以上,可以完成非常復(fù)雜的函數(shù)分析,詳見(jiàn)表1。并且其強(qiáng)調(diào)了特征學(xué)習(xí),因?yàn)樯疃葘W(xué)習(xí)屬于無(wú)監(jiān)督的一種,通過(guò)非監(jiān)督預(yù)訓(xùn)練算法,將原始的樣本通過(guò)輸入的方式來(lái)映射到一個(gè)新的特征空間,從而更好的實(shí)現(xiàn)預(yù)測(cè)、分類等。此外,其有效性跟淺層學(xué)習(xí)相比也比較強(qiáng),一些在淺層結(jié)構(gòu)無(wú)法表達(dá)的函數(shù),可能在深層結(jié)構(gòu)中解釋的更好,因此深度學(xué)習(xí)被廣泛的應(yīng)用在我國(guó)的各個(gè)行業(yè)中。
表1 淺層和深層模型的對(duì)比分析
傳統(tǒng)的自然語(yǔ)言處理技術(shù)存在于實(shí)驗(yàn)室,其主要是以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)算法為基礎(chǔ)來(lái)對(duì)圖片、音頻、文本等進(jìn)行處理。深度學(xué)習(xí)的出現(xiàn),使得其具備了工業(yè)化應(yīng)用的條件,近幾年除了取得了革命性的進(jìn)展,還滲透到了我國(guó)的各行各業(yè)中,取得了不錯(cuò)的成效。
2015年Tomas Mikolov提出了Word2vec的算法,這是一種新的構(gòu)建詞向量的方法,屬于以深度學(xué)習(xí)為基礎(chǔ)的自然語(yǔ)言處理技術(shù)的發(fā)端。該方法有兩種模型,一種是Skip-gram模型,一種是CBOW模型,其中Skip-gram模型是通過(guò)輸入某個(gè)單詞來(lái)預(yù)測(cè)周圍的上下文語(yǔ)境,而CBOW模型是通過(guò)輸入某個(gè)詞語(yǔ)上下文的語(yǔ)境來(lái)預(yù)測(cè)這個(gè)詞語(yǔ)的本身,所產(chǎn)生的詞向量就是神經(jīng)網(wǎng)絡(luò)模型的輸入向量。由此可以看出,Word2ve已經(jīng)具備了一定的理解能力,也具備了以往IT-IDF無(wú)法實(shí)現(xiàn)的一些功能,也意味著自然語(yǔ)言處理技術(shù)有了無(wú)需人工處理干預(yù)就可以直接解釋和理解文本語(yǔ)境的能力[2-3]。緊接著,我國(guó)掀起了研究自然語(yǔ)言處理算法的熱潮,一些模擬word2vec詞向量的計(jì)算模型也相繼被提出,深度學(xué)習(xí)也被應(yīng)用到其中,有了將詞性和命名實(shí)體標(biāo)簽與word2vec融合的sense2vec的算法。
在應(yīng)用深度學(xué)習(xí)在自然語(yǔ)言處理中,可以采用梯度下降法,具體的步驟如下:(1)構(gòu)建基本的模型框架。根據(jù)要處理的實(shí)際內(nèi)容,選擇合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也就是構(gòu)建基本的深度學(xué)習(xí)模型框架。(2)模型檢查。采用梯度下降法來(lái)對(duì)模型進(jìn)行檢查,檢查其漏洞,以及是否符合處理要求。(3)模型初始化。根據(jù)檢查出來(lái)的漏洞和不足對(duì)模型進(jìn)行優(yōu)化,主要是調(diào)整模型的參數(shù)。(4)模型調(diào)整。采用正則化方法來(lái)對(duì)沒(méi)有滿足擬合要求的模型參數(shù)進(jìn)行調(diào)整,調(diào)整到符合擬合要求為止[4]。
(1)分詞和詞性標(biāo)注。分詞主要是根據(jù)規(guī)范來(lái)將連續(xù)的字序進(jìn)行重新組合,并將其組合成新的詞序列的過(guò)程。而詞性標(biāo)注就是正確的標(biāo)注該詞的詞性,如該次屬于形容詞、動(dòng)詞、名詞等。目前應(yīng)用深度學(xué)習(xí)法可以同時(shí)處理詞性標(biāo)注、語(yǔ)義角色標(biāo)注、語(yǔ)塊切分、以及命名實(shí)體識(shí)別等典型的自然語(yǔ)言處理任務(wù)。
(2)句法分析。就是對(duì)句子的語(yǔ)法、以及語(yǔ)法之間的關(guān)系進(jìn)行分析。應(yīng)用深度學(xué)習(xí)法可以自動(dòng)、快速的識(shí)別句子的句法單位、以及句法單位之間的關(guān)系,具體的做法就是輸入一個(gè)給定的句子,利用其語(yǔ)法特征來(lái)構(gòu)建短語(yǔ)結(jié)構(gòu)樹(shù)以此來(lái)進(jìn)行分析和處理。
(3)詞義學(xué)習(xí)。在應(yīng)用深度學(xué)習(xí)在詞義學(xué)習(xí)上,是應(yīng)用了其無(wú)監(jiān)督的學(xué)習(xí)機(jī)制。其通過(guò)構(gòu)建深度的神經(jīng)網(wǎng)絡(luò)模型,在利用該模型綜合的對(duì)文本的上下文、以及全局進(jìn)行分析,以此來(lái)找出詞義更好的表達(dá)方式,并且找出詞義隱藏的詞匯,來(lái)更好對(duì)同名歧義的詞進(jìn)行解釋。而且如果是多個(gè)多義性的詞向量還可以通過(guò)改進(jìn)模型的方式,豐富詞向量的語(yǔ)義,讓其表達(dá)的更加的清晰[5]。
(4)情感分析。應(yīng)用深度學(xué)習(xí)來(lái)對(duì)情感進(jìn)行分析,就是通過(guò)構(gòu)建情感分析模型,在利用深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練部分來(lái)對(duì)情感標(biāo)簽的句子進(jìn)行標(biāo)注,并結(jié)合全局的規(guī)律、以及上下文的特征,來(lái)預(yù)測(cè)標(biāo)注外句子的情感特征,以此來(lái)實(shí)現(xiàn)文檔級(jí)、語(yǔ)句級(jí)、以及觀點(diǎn)級(jí)的情感色彩分析。這種分析屬于自然語(yǔ)言處理任務(wù)中的高級(jí)情感分析,由此可以看出,深度學(xué)習(xí)應(yīng)用在自然語(yǔ)言處理中可以有效的提高處理效果。
雖然深度學(xué)習(xí)應(yīng)用在自然語(yǔ)言處理中可以有效的提高處理效果,但是依然存在著一些局限性,未來(lái)還需要進(jìn)一步優(yōu)化技術(shù)進(jìn)行突破。
目前根據(jù)基于深度學(xué)習(xí)的自然語(yǔ)言處理的數(shù)據(jù)表示中,主要是Word embedding概念,而word的表示單位在不同的語(yǔ)言中有不同的說(shuō)法,如英文中,word可以是個(gè)單詞,也可以是個(gè)詞綴,而中文就是字,或者詞組,在本質(zhì)上都是通過(guò)某種映射規(guī)則來(lái)將word進(jìn)行轉(zhuǎn)換,以向量的形式表示,實(shí)際上并沒(méi)有什么轉(zhuǎn)換規(guī)律可以遵循。未來(lái)建議可以添加半監(jiān)督學(xué)習(xí)系統(tǒng),這樣更加有利于深度學(xué)習(xí)和自然語(yǔ)言處理任務(wù)的應(yīng)用和結(jié)合。
雖然自然語(yǔ)言處理應(yīng)用了深度學(xué)習(xí)算法模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、以及卷積神經(jīng)網(wǎng)絡(luò)等,而且效果顯著,但是目前我國(guó)面向自然語(yǔ)言處理深度學(xué)習(xí)的研究和應(yīng)用還處于起步階段,還存在著很多局限,如深度網(wǎng)絡(luò)層數(shù)、正則化問(wèn)題及網(wǎng)絡(luò)學(xué)習(xí)速率等,因此未來(lái)還有更廣闊的發(fā)展空間。未來(lái)還需要優(yōu)化算法、提升網(wǎng)絡(luò)訓(xùn)練速度等[6]。
深度學(xué)習(xí)的無(wú)監(jiān)督學(xué)習(xí)機(jī)制目前已經(jīng)應(yīng)用到自然語(yǔ)言處理中,并且可以圍繞數(shù)據(jù)表示及特征提取問(wèn)題,但是在具體的實(shí)踐中,如果將如人工選取的明顯特征規(guī)律這樣的已有面向的特定應(yīng)用領(lǐng)域跟訓(xùn)練過(guò)程融合卻依然有一定的難度。如問(wèn)題領(lǐng)域、人類知識(shí)的融合等,需要根據(jù)自然語(yǔ)言的語(yǔ)義選擇合適的深度模型結(jié)構(gòu),在知識(shí)融合時(shí)選擇在第一層為融合的進(jìn)入點(diǎn)等,以此來(lái)讓模型具備自我學(xué)習(xí)的能力。
自然語(yǔ)言的局限主要是取決于其不確定性。因?yàn)榻?jīng)常會(huì)出現(xiàn)一詞多義的問(wèn)題,雖然可以應(yīng)用深度學(xué)習(xí)的詞向量技術(shù)來(lái)進(jìn)行信號(hào)處理,但是卻不能將原始的信息輸入到深度學(xué)習(xí)的模型中,這是因?yàn)樽匀徽Z(yǔ)言的不確定性造成的。這種不確定性會(huì)產(chǎn)生誤差,甚至?xí)趥鬟f中,經(jīng)過(guò)深度學(xué)習(xí)模型中的各個(gè)層次變得更加的不確定。因此未來(lái)還需要突破自然語(yǔ)言的不確定性,如字、詞、短語(yǔ)、小句等不確定性,綜合篇章來(lái)進(jìn)行深層語(yǔ)義理解和處理[7]。
綜上所述,深度學(xué)習(xí)是新一代的機(jī)器學(xué)習(xí)技術(shù),通過(guò)模擬人腦機(jī)制,建立深層的神經(jīng)網(wǎng)絡(luò),來(lái)對(duì)圖像、文本、語(yǔ)音等進(jìn)行分析和解釋,因此被廣泛的應(yīng)用在各個(gè)領(lǐng)域中。目前在自然語(yǔ)言處理中,深度學(xué)習(xí)已經(jīng)被用在了語(yǔ)義學(xué)習(xí)、分詞和詞性標(biāo)注、句法分析、以及情感分析等領(lǐng)域,但是依然存在著一些局限性。未來(lái)還需要進(jìn)行深入的研究,就目前來(lái)看,其依然是自然語(yǔ)言處理最好的應(yīng)用模型。