柏藝珊++黃展原
摘 要 自然語(yǔ)言處理技術(shù)在快速發(fā)展中,為人們的生活帶來(lái)了一定的便捷。監(jiān)督學(xué)習(xí)方法在自然語(yǔ)言處理技術(shù)發(fā)展過(guò)程中起到了推動(dòng)型作用,但是監(jiān)督學(xué)習(xí)方法在落實(shí)過(guò)程中對(duì)于有關(guān)資料的依賴(lài)性較高,非常容易出現(xiàn)標(biāo)注預(yù)料缺乏的問(wèn)題。在這種情況下,半監(jiān)督學(xué)習(xí)就是一種最為的選擇。半監(jiān)督學(xué)習(xí)主要是對(duì)于標(biāo)記數(shù)據(jù)與無(wú)標(biāo)記數(shù)據(jù)同時(shí)進(jìn)行應(yīng)用,這樣能夠充分利用標(biāo)記數(shù)據(jù),進(jìn)而推動(dòng)自然語(yǔ)言處理技術(shù)的發(fā)展。
【關(guān)鍵詞】半監(jiān)督學(xué)習(xí) 跨語(yǔ)言詞性標(biāo)注 主動(dòng)學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是近幾年機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)最為熱點(diǎn)的一個(gè)課題,主要就是對(duì)于標(biāo)記數(shù)據(jù)與無(wú)標(biāo)記數(shù)據(jù)利用進(jìn)行分析研究,進(jìn)而獲得比原有有監(jiān)督學(xué)習(xí)方法更加優(yōu)良的功能。半監(jiān)督學(xué)習(xí)理念只從推出之后,科研人員研究了較多的方法,但是現(xiàn)在實(shí)際應(yīng)用過(guò)程中還是存在較多并未標(biāo)注的數(shù)據(jù),在標(biāo)注數(shù)據(jù)獲取上面具有較高的難度,未標(biāo)記數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)標(biāo)記數(shù)據(jù)數(shù)量。就以生物學(xué)角度而言,科研人員在蛋白質(zhì)結(jié)構(gòu)分析上面可以花費(fèi)多年的研究時(shí)間,其中無(wú)標(biāo)記樣本數(shù)量占據(jù)大部分。
1 基于主動(dòng)學(xué)習(xí)的半監(jiān)督支持向量機(jī)研究與應(yīng)用
1.1 半監(jiān)督支持向量機(jī)的定義
半監(jiān)督支持向量機(jī)是一種具有代表性的半監(jiān)督機(jī)器學(xué)習(xí)算法,是支持向量機(jī)算法內(nèi)的一個(gè)分支結(jié)構(gòu)。分類(lèi)準(zhǔn)測(cè)也就是對(duì)于最大與最小風(fēng)險(xiǎn)數(shù)值對(duì)于標(biāo)準(zhǔn)進(jìn)行檢測(cè)。半監(jiān)督支持向量機(jī)與聚類(lèi)假設(shè)十分吻合,聚類(lèi)假設(shè)主要表示在將分類(lèi)界面內(nèi)的數(shù)據(jù)最大程度進(jìn)行分析之后,所劃分得到的區(qū)域。
1.2 最優(yōu)化方法
半監(jiān)督支持向量機(jī)在對(duì)于最優(yōu)化目標(biāo)尋找過(guò)程中,只有一個(gè)目的就是對(duì)于非凸優(yōu)化問(wèn)題進(jìn)行分析,大部分科研人員在研究過(guò)程中都是應(yīng)用求近似解的方式,通過(guò)迭代的形成,逐漸尋找到優(yōu)化目標(biāo)。在對(duì)于非凸優(yōu)化問(wèn)題計(jì)算過(guò)程中,最為主要的限制因素就是半監(jiān)督支持向量機(jī)。本文在最優(yōu)化方法分析研究過(guò)程中,利用平均隨機(jī)梯度下降的方法進(jìn)行分析。
隨機(jī)梯度下降算法是隨機(jī)近似算法被的重要組成部分,在機(jī)器學(xué)習(xí)結(jié)構(gòu)內(nèi)應(yīng)用十分廣泛,例如支持向量機(jī)。隨機(jī)梯度下降算法應(yīng)用最為主要的一個(gè)優(yōu)勢(shì)就是能夠?qū)τ跈?quán)重向量進(jìn)行在線更新。
就隨機(jī)近似算法理論而言,在實(shí)際應(yīng)用過(guò)程中無(wú)法計(jì)算到最佳結(jié)果,但是伴隨著近幾年科研人員對(duì)其深入性研究分析,科研人員研究發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)在保證充足的情況下,在迭代計(jì)算過(guò)程中,隨機(jī)梯度下降類(lèi)算法能夠計(jì)算得出最優(yōu)結(jié)果。這個(gè)發(fā)現(xiàn)對(duì)于開(kāi)展大規(guī)模訓(xùn)練活動(dòng)而言,對(duì)于整個(gè)活動(dòng)開(kāi)展具有促進(jìn)性意義。平均隨機(jī)梯度下降與原有隨機(jī)梯度下降在應(yīng)用效果上面相比較,所具有的收斂速度更加快速,計(jì)算穩(wěn)定性也得到了顯著提高。
正常情況下,對(duì)于樣本進(jìn)行梯度計(jì)算求和結(jié)果,等同于每次對(duì)于樣本的隨機(jī)性選擇,對(duì)于梯度進(jìn)行計(jì)算,權(quán)重也能夠在線更新。
2 基于圖的半監(jiān)督算法在自然語(yǔ)言處理中的應(yīng)用
近幾年,科研人員對(duì)于圖的半監(jiān)督算法給與了較高的關(guān)注,主要原因是由于圖的半監(jiān)督算法與一般假設(shè)相比較,應(yīng)用更加便捷,解釋十分容易,在應(yīng)用的領(lǐng)域內(nèi)都取得了良好的效果。但是,圖的半監(jiān)督算法在應(yīng)用過(guò)程中十分繁瑣,同時(shí)由于計(jì)算流程屬于直推式的,這樣也就表示在對(duì)于測(cè)試集更換之后,需要重新進(jìn)行計(jì)算。圖的半監(jiān)督算法在小數(shù)據(jù)集上面雖然取得了一定成果,但是在大規(guī)模數(shù)據(jù)上面應(yīng)用還存在一定不足。基于圖的半監(jiān)督算法在自然語(yǔ)言處理中應(yīng)用,主要原因有兩個(gè),分別是復(fù)雜度較高與計(jì)算代價(jià)。
2.1 基于圖的半監(jiān)督算法
基于圖的半監(jiān)督算法在實(shí)際應(yīng)用過(guò)程中,就是將樣本內(nèi)全部數(shù)據(jù)構(gòu)建成為一個(gè)相似性較高的圖,圖上面所具有的每一個(gè)點(diǎn)都能夠代表一個(gè)樣本內(nèi)的數(shù)據(jù),兩個(gè)節(jié)點(diǎn)之間的間距一般情況下標(biāo)示樣本之間所具有的相似度,表示出兩個(gè)樣本之間所具有的關(guān)聯(lián)。在對(duì)于相似性進(jìn)行定義過(guò)程中,主要有兩種方法,年分別是高斯核與K緊鄰。
2.2 NLP任務(wù)中圖算法數(shù)據(jù)稀疏問(wèn)題的解決方法
2.2.1 詞向量簡(jiǎn)介
近幾年,詞向量在自然語(yǔ)言內(nèi)得到了顯著關(guān)注。詞向量主要是在深度學(xué)習(xí)算法之后計(jì)算得出,詞向量應(yīng)用到自然語(yǔ)言處理領(lǐng)域內(nèi),最為關(guān)鍵的一個(gè)技術(shù)就是詞語(yǔ)用法。
在自然語(yǔ)言處理領(lǐng)域內(nèi),統(tǒng)計(jì)方法已經(jīng)成為主流方法,自然語(yǔ)言問(wèn)題在轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)問(wèn)題的時(shí)候,首先就需要應(yīng)用數(shù)學(xué)符號(hào)對(duì)于自然語(yǔ)言問(wèn)題進(jìn)行表示。
在詞向量沒(méi)有產(chǎn)生之前,自然語(yǔ)言處理應(yīng)該最為廣泛的方式為one-hot,這種表示方法主要就是將自然語(yǔ)言轉(zhuǎn)變?yōu)閛/l向量,向量的長(zhǎng)度就是詞語(yǔ)長(zhǎng)短。
2.2.2 詞匯化特征與詞向量特征的使用方式
在對(duì)于詞匯化特征與詞向量特征使用方式分析研究過(guò)程中,就以詞性標(biāo)注任務(wù)作為研究對(duì)象,對(duì)于詞向量特征怎樣提高標(biāo)準(zhǔn)精確性進(jìn)行分析研究。
在自然語(yǔ)言處理領(lǐng)域內(nèi),最為基礎(chǔ)性技術(shù)就是詞性標(biāo)注,為每個(gè)詞匯標(biāo)注針對(duì)性信息。正常情況下,在對(duì)于詞性標(biāo)注過(guò)程中,可以將其看成序列標(biāo)注問(wèn)題,部分科研人員還將其看成分類(lèi)問(wèn),本文在分析研究中,就將其看稱(chēng)為分類(lèi)問(wèn)題。要是文內(nèi)一共具有n個(gè)詞性,在對(duì)于每一個(gè)詞進(jìn)行標(biāo)注過(guò)程中,一共能夠劃分為n類(lèi),這樣詞性標(biāo)注就能夠成為一個(gè)多分類(lèi)問(wèn)題。在對(duì)于不同分類(lèi)問(wèn)題解決過(guò)程中,很多現(xiàn)有機(jī)器學(xué)習(xí)模型都能夠得到有效應(yīng)用。
3 結(jié)論
機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理過(guò)程中已經(jīng)得到了廣泛應(yīng)用,半監(jiān)督算法在自然語(yǔ)言基礎(chǔ)性問(wèn)題處理上面得到了廣泛應(yīng)用,例如詞性標(biāo)注等,取得了顯著成績(jī)。原有監(jiān)督算法在實(shí)際應(yīng)用過(guò)程中對(duì)于標(biāo)注資料具有較高的依賴(lài)性,但是標(biāo)注預(yù)料對(duì)于人力資源需求數(shù)量較高,進(jìn)而造成標(biāo)注語(yǔ)料在擴(kuò)展上面存在較大難度。半監(jiān)督算法就是在這種條件之下產(chǎn)生,已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的主要發(fā)展趨勢(shì),主要是就是將標(biāo)記數(shù)據(jù)與無(wú)標(biāo)記數(shù)據(jù)進(jìn)行利用,進(jìn)而對(duì)于全部數(shù)據(jù)進(jìn)行有效利用。
參考文獻(xiàn)
[1]T?ckstr?m O,Mc Donald R,Uszkoreit J.Cross-lingual word clusters for direct transfer of linguistic structure[C]//Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2012:477-487.
作者單位
對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué) 北京市 100029