崔瑩
摘要:近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,其已在多個(gè)應(yīng)用領(lǐng)域開(kāi)花結(jié)果,尤其在語(yǔ)音識(shí)別和圖像處理領(lǐng)域接連取得重大突破,然而仍在某些領(lǐng)域處于起步階段,如自然語(yǔ)言處理(NLP)領(lǐng)域,特別是對(duì)文本的表示及分類相關(guān)問(wèn)題上的應(yīng)用。自然語(yǔ)言處理任務(wù)中的文本分類技術(shù)是實(shí)現(xiàn)人機(jī)自由交互的關(guān)鍵技術(shù),如何對(duì)文本內(nèi)容進(jìn)行提取和分類,從眾多非結(jié)構(gòu)化的文本中提取出有效的信息,成為了解決文本信息管理中的關(guān)鍵手段。本文首先從深度學(xué)習(xí)基本概念開(kāi)始,對(duì)首要任務(wù)及主要模型等方面進(jìn)行介紹;其次分析討論深度學(xué)習(xí)在文本表示中的研究進(jìn)展及應(yīng)用策略;進(jìn)而對(duì)基于深度學(xué)習(xí)的文本分類技術(shù)進(jìn)行進(jìn)一步介紹;最后,對(duì)深度學(xué)習(xí)在文本表示及分類中的應(yīng)用難點(diǎn)進(jìn)行展望。
關(guān)鍵詞:深度學(xué)習(xí);自然語(yǔ)言處理;文本分類;文本表示
中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)16-0174-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: In recent years, deep learning has made a significant breakthrough in speech recognition and image processing. And it is still in the initial stage in the field of natural language processing (NLP), which belongs to the category of human cognition, especially for the application of text representation and classification. The text categorization technology in natural language processing task is the key technology to achieve man-machine interaction. How to extract effective information from many unstructured texts and extract and classify text contents become the key means to solve text information management. This paper first introduces the main task and the main model of deep learning basic concepts; secondly discussed that deep learning research progress and application of strategies in the text; then further introduction of text classification technology based on deep learning; finally, the prospect of the application of deep learning difficulties in the text representation and classification.
Key words: deep learning, NLP, classification, text representation.
1? 前言
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,其已在多個(gè)應(yīng)用領(lǐng)域開(kāi)花結(jié)果,尤其在語(yǔ)音識(shí)別和圖像處理領(lǐng)域接連取得重大突破,然而仍在某些領(lǐng)域處于起步階段,如自然語(yǔ)言處理(NLP)領(lǐng)域,特別是對(duì)文本的表示及分類相關(guān)問(wèn)題上的應(yīng)用。從 2006 年開(kāi)始,研究者們便開(kāi)始基于大規(guī)模無(wú)標(biāo)注的語(yǔ)料上,利用深層神經(jīng)網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),為每個(gè)詞學(xué)到一個(gè)分布式表示,并在形式上把每個(gè)單詞用一個(gè)固定維數(shù)的向量表示,將該向量作為詞的底層特征。在此特征基礎(chǔ)上,Collobert & Weston完成了詞性標(biāo)注、命名實(shí)體識(shí)別和語(yǔ)義角色標(biāo)注等多個(gè)任務(wù)[32],RichardSocher等人利用遞歸神經(jīng)網(wǎng)絡(luò)在句法分析、句子表示和情感分析等多個(gè)任務(wù)中開(kāi)展應(yīng)用,這也為文本的表示提供了新的思路[3][4][5][6][7]。
本文對(duì)當(dāng)前基于深度學(xué)習(xí)的文本的表示和分類的研究進(jìn)展重點(diǎn)展開(kāi)分析,并對(duì)深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域未來(lái)可能的發(fā)展空間進(jìn)行探討。 本文首先對(duì)深度學(xué)習(xí)的基本概念進(jìn)行描述;其次再圍繞文本表示和文本分類兩個(gè)方面,對(duì)當(dāng)前深度學(xué)習(xí)的研究現(xiàn)狀及應(yīng)用策略進(jìn)行重點(diǎn)分析討論;最后是結(jié)束語(yǔ),對(duì)有待深入研究的難點(diǎn)進(jìn)行展望。
2? 深度學(xué)習(xí)概述
深度學(xué)習(xí)是新興的一個(gè)機(jī)器學(xué)習(xí)研究領(lǐng)域,它起源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究,是基于深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)一類學(xué)習(xí)方法的統(tǒng)稱。其首要任務(wù)是通過(guò)特征來(lái)對(duì)待處理問(wèn)題中的對(duì)象進(jìn)行表示,主要?jiǎng)訖C(jī)是對(duì)怎樣從數(shù)據(jù)中自動(dòng)地提取多層的特征表示進(jìn)行研究,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式,并采用一系列非線性的處理,提取原始數(shù)據(jù)中從低層到高層、從具體到抽象、從一般到特定語(yǔ)義的特征是其核心思想。傳統(tǒng)的機(jī)器學(xué)習(xí)方法由于對(duì)人工選取特征或表示過(guò)于依賴,且不具備自動(dòng)抽取和組織信息的能力,因此具備無(wú)特征監(jiān)督學(xué)習(xí)特點(diǎn)的深度學(xué)習(xí)得到了前所有為的進(jìn)展。
近年來(lái),在自然語(yǔ)言處理領(lǐng)域深度學(xué)習(xí)模型的應(yīng)用已經(jīng)取得了一定成果,并成為研究熱點(diǎn)之一,其研究主要是在對(duì)詞語(yǔ)、句子和斷章的學(xué)習(xí)表示及相關(guān)應(yīng)用上。目前在深度學(xué)習(xí)研究領(lǐng)域有些使用比較主流的模型包括:卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、長(zhǎng)短期記憶模型、自動(dòng)編碼器、深度玻爾茲曼機(jī)以及循環(huán)神經(jīng)網(wǎng)絡(luò)等。
Mikolo[8]等人通過(guò)利用神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)提出了一種名為詞向量或詞嵌入的新向量表示,其中包含了字詞的語(yǔ)法信息和語(yǔ)義信息,同詞袋表示相比,詞向量表示具有稠密、低維、連續(xù)的特點(diǎn)。Socher 等人[23]利用遞歸自動(dòng)編碼的改進(jìn)模型處理情感分析中的語(yǔ)義合成問(wèn)題。Collobert 等人[24]利用詞向量方法處理自然語(yǔ)言處理任務(wù),如命名實(shí)體識(shí)別、詞性標(biāo)注、語(yǔ)義角色標(biāo)注、短語(yǔ)識(shí)別等。Li 等人[26]在知識(shí)庫(kù)基礎(chǔ)上,將多柱卷積神經(jīng)網(wǎng)(MUTI-COLUMN)應(yīng)用于問(wèn)答系統(tǒng)中來(lái)解決問(wèn)題的分類。Cui 等人[27]將深度學(xué)習(xí)的方法用于解決學(xué)習(xí)主題表達(dá)問(wèn)題和處理統(tǒng)計(jì)機(jī)器翻譯消歧問(wèn)題。另外,Zhang 等人[25]則用深度卷積信念網(wǎng)來(lái)學(xué)習(xí)詞匯與句子層面的特征,并處理解決句子中詞之間的相關(guān)分類問(wèn)題。自然語(yǔ)言處理領(lǐng)域范圍較廣,覆蓋了不同層次、不同性質(zhì)的各種問(wèn)題,這就要求我們?cè)谔幚聿煌愋蛦?wèn)題時(shí),需要針對(duì)各類型問(wèn)題特點(diǎn),設(shè)計(jì)相應(yīng)的深度學(xué)習(xí)模型,才能更好地解決處理到任務(wù)。
2.1卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)
卷積神經(jīng)網(wǎng)絡(luò)可以看成是一個(gè)BP網(wǎng)絡(luò)的擴(kuò)展,由多層的神經(jīng)元通過(guò)有規(guī)律的連接而形成的,同時(shí)融合了共享權(quán)值和局部感受野、時(shí)間域或空間域上的三種結(jié)構(gòu)性次采用的方法。卷積神經(jīng)網(wǎng)絡(luò)能夠通過(guò)對(duì)大量的輸入與輸出來(lái)學(xué)習(xí)兩者之間的映射關(guān)系。圖 1為卷積神經(jīng)網(wǎng)絡(luò)模型,模型有兩個(gè)隱藏層(c1、c2),每層是由多個(gè)神經(jīng)元組成的二維平面(特征 map)組成,S1、S2為池化層。通過(guò)三個(gè)卷積核的卷積操作,將輸入X 映射為含有與卷積核相同數(shù)量的特征 map,池化后得到S1,再將S1作為輸入,經(jīng)過(guò)卷積核的卷積、池化操作生成S2層的特征map,最后所有神經(jīng)元通過(guò)全連接層連接成一個(gè)向量輸入到分類器中。在BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整中都采用了梯度下降方法,這樣做的目的是可使得權(quán)值從朝著梯度下降最快的方向進(jìn)行調(diào)整,進(jìn)而使網(wǎng)絡(luò)收斂速度加快。由于在同一特征映射面上具有相同的神經(jīng)元權(quán)值,因此網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是相對(duì)于普通的神經(jīng)元網(wǎng)絡(luò)來(lái)講卷積網(wǎng)絡(luò)的一大優(yōu)勢(shì)。
2.2長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,假設(shè)所有的輸入、輸出之間的映射關(guān)系是相互獨(dú)立的。但對(duì)于許多任務(wù)來(lái)說(shuō),需要其先前輸入的計(jì)算信息。比如預(yù)測(cè)句子中的下一個(gè)單詞,應(yīng)最好知道在它之前有哪些單詞出現(xiàn)。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)(如圖 2)主要用于序列的模型預(yù)測(cè),可以充分對(duì)上下文信息加以利用,對(duì)當(dāng)前單詞進(jìn)行記憶,并對(duì)這個(gè)時(shí)刻之前的所有單詞信息進(jìn)行實(shí)時(shí)更新,基于序列從而更好的預(yù)測(cè)。正因?yàn)镽NN基于序列的優(yōu)點(diǎn),使其在許多NLP任務(wù)中顯示出巨大的成功,比如不分段連續(xù)手寫識(shí)別、自主語(yǔ)音識(shí)別。特別是,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)最常用的類型是長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)(如圖 3)。LSTM 是 RNN一種特殊的類型,其本質(zhì)思想和基本架構(gòu)與RNN相同,但LSTM可以學(xué)習(xí)長(zhǎng)期依賴信息,要比RNN捕獲更長(zhǎng)時(shí)間的有效性特征。
3? 文本表示
在對(duì)文本數(shù)據(jù)進(jìn)行分類之前,首先要將文本數(shù)據(jù)轉(zhuǎn)換成模型可以處理的定量化形式。因此,文本表示是文本分類的基礎(chǔ),由于文本文檔是由大量字符組成的集合,其內(nèi)部包含了非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,所以在被分類器所識(shí)別之前,必須要將其轉(zhuǎn)換為一種計(jì)算機(jī)可以理解的語(yǔ)言。在實(shí)際研究分析中,將文本的內(nèi)容轉(zhuǎn)換成為機(jī)器可以理解的結(jié)構(gòu)是有多種樣式的,可以用字、詞、短語(yǔ)、n-gram等不同形式分別形成向量或者樹(shù)的結(jié)構(gòu)。在面向自然語(yǔ)言處理的深度學(xué)習(xí)中,目前常見(jiàn)的文本表示模型有One-hot representation、詞向量、詞袋模型、向量空間模型等。
3.1 One-hot representation
One-hot representation表示方法基礎(chǔ)思想:通過(guò)使用一個(gè)很長(zhǎng)的向量來(lái)對(duì)每個(gè)詞進(jìn)行表示;其中值為1的維度只有一個(gè),該向量代表了當(dāng)前的詞;其他絕大多數(shù)的元素值都為0;向量的維度表示詞表的大小。其純粹的向量表示形式只能對(duì)每個(gè)單詞進(jìn)行獨(dú)立的表示,詞與詞之間的相關(guān)性無(wú)法得到表達(dá),具有高維、稀疏性等缺點(diǎn)。
3.2 詞向量表示
Firth 提出了一種利用相近鄰的詞來(lái)表示當(dāng)前的詞,其主要思想是:通過(guò)對(duì)不同范圍的上下文相近鄰詞進(jìn)行計(jì)算,從而可以計(jì)算得到當(dāng)前表示詞的多種不同表達(dá)值。例如當(dāng)前中心詞的前后詞都可以通過(guò)計(jì)算來(lái)得到對(duì)當(dāng)前中心詞的表達(dá)值。在這種思想基礎(chǔ)之上,所產(chǎn)生的詞表達(dá)方式被稱為Distributional similarity。這個(gè)思想也被譽(yù)為在現(xiàn)代統(tǒng)計(jì)自然語(yǔ)言處理中最成功的思想之一。
詞向量的表示方式是上述類似思想的延續(xù)和擴(kuò)展,為了使相關(guān)或者相似的詞,能夠在距離上更接近(可以使用傳統(tǒng)的歐氏距離來(lái)對(duì)向量的距離進(jìn)行衡量),Hinton提出了一種使用Distributed representation來(lái)表示詞的方式,通常稱為詞向量。詞向量本質(zhì)是一種低維實(shí)數(shù)向量。用這種方式表示的向量,例如“話筒”和“麥克”的距離會(huì)遠(yuǎn)遠(yuǎn)小于“天氣”和“麥克”的距離。在目前自然語(yǔ)言處理中,詞向量的方式是深度學(xué)習(xí)得以應(yīng)用的首選表示方式。
詞向量一般是依賴對(duì)語(yǔ)言模型的訓(xùn)練來(lái)獲得。其中,常見(jiàn)的方式是在對(duì)訓(xùn)練語(yǔ)言模型的過(guò)程中,同步訓(xùn)練得到詞向量。通過(guò)使用大規(guī)模的無(wú)監(jiān)督的文本語(yǔ)料數(shù)據(jù)集訓(xùn)練得到的分布式詞向量中包含有更多的語(yǔ)義和語(yǔ)法的信息,并可以為模型提供一個(gè)較好的初始值[21]。在2008年Collobert 和 Weston首次提出了一種特殊的詞向量的計(jì)算方法[17],文中對(duì)他們基于詞向量完成的眾多項(xiàng)自然語(yǔ)言處理任務(wù)進(jìn)行了系統(tǒng)而詳細(xì)的總結(jié),如短語(yǔ)識(shí)別、詞性標(biāo)注、語(yǔ)義角色標(biāo)注、命名實(shí)體識(shí)別等工作。
3.3 詞袋模型
詞袋模型是用一組無(wú)序的單詞來(lái)表達(dá)一個(gè)文檔或一段文字,忽略文本的語(yǔ)法和語(yǔ)序,文檔中的每個(gè)單詞都是獨(dú)立出現(xiàn)的,并不依賴于其他單詞是否出現(xiàn)。同時(shí),文檔或文字段僅僅被看作是由若干個(gè)詞匯組成的集合。詞袋模型最典型的應(yīng)用便是文檔分類。定義一個(gè)文檔集合D,其中共包含有M個(gè)文檔,通過(guò)提取文檔里所有單詞,構(gòu)成一個(gè)由N個(gè)單詞組成的詞典。詞袋模型本質(zhì)上可以認(rèn)為是一種統(tǒng)計(jì)直方圖?;谠~袋模型表示,每個(gè)文檔都可以用一個(gè)N維向量來(lái)表示,進(jìn)一步利用計(jì)算機(jī)便可以完成對(duì)海量文檔進(jìn)行分類的任務(wù)。
3.4? 向量空間模型
向量空間模型(Vector space model,VSM)由Salton于20世紀(jì)70年代提出,并將其成功應(yīng)用于著名的SMART(System for the mechanical analysis and retrieval of text)文本檢索系統(tǒng)中。該方法主要思想是:將對(duì)文本內(nèi)容的處理轉(zhuǎn)換為對(duì)向量空間中的向量運(yùn)算,并用空間上的相似度來(lái)對(duì)語(yǔ)義相似度進(jìn)行表示。當(dāng)文本被表示為文檔空間向量時(shí),便可通過(guò)計(jì)算向量之間余弦的距離來(lái)對(duì)文本間的相似性進(jìn)行度量。
4 文本分類
文本分類是自然語(yǔ)言處理領(lǐng)域重要的研究方向。文本分類是指通過(guò)對(duì)文檔的特征(主題、內(nèi)容或?qū)傩裕┻M(jìn)行分析,將大量的文本自動(dòng)地劃歸到一個(gè)或多個(gè)類別的過(guò)程,詳見(jiàn)圖 4。在文本分類方法中,主要分為兩類:一類分類方法是基于知識(shí)工程的,另一類方法是基于機(jī)器學(xué)習(xí)的?;谥R(shí)工程的分類方法中需要大量的領(lǐng)域?qū)<抑R(shí)和知識(shí)庫(kù)作為分類過(guò)程的支撐,其對(duì)人力資源的要求較高且其規(guī)則不能窮舉,顯然不足以應(yīng)對(duì)當(dāng)今如此豐富的信息世界。正因如此,基于機(jī)器學(xué)習(xí)的文本分類技術(shù)得到不斷發(fā)展,如支持向量機(jī)(Support vector machine,SVM)、K近鄰算法(K Nearest Neighbor,KNN)、神經(jīng)網(wǎng)絡(luò)(Neural Nets)、決策樹(shù)和最小二乘等。SVM的應(yīng)用是文本分類中近幾年來(lái)最重要的進(jìn)展之一。以上方法已經(jīng)可以解決很多應(yīng)用問(wèn)題,但要求數(shù)據(jù)量較小、分布均勻、標(biāo)注較準(zhǔn)確。在大規(guī)模的應(yīng)用中,文本分類技術(shù)在很多問(wèn)題上仍存在挑戰(zhàn)。例如文本表示、非線性問(wèn)題、數(shù)據(jù)集偏斜、多層分類、標(biāo)注瓶頸、Web 頁(yè)面分類、算法的可擴(kuò)展性等。
國(guó)內(nèi)的文本分類的研究出現(xiàn)比較晚,但是其發(fā)展卻是非常的快。其早期主要是將外國(guó)的文本分類方法應(yīng)用于中文的分類中,然而由于英文文本和中文文本存在著很大的差異,中文的文本分類算法在已有算法基礎(chǔ)上上進(jìn)行了調(diào)整和修改,使得其更加符合中文的文本特點(diǎn)。同時(shí),國(guó)內(nèi)也對(duì)文本分類領(lǐng)域加大了基礎(chǔ)研究力度,產(chǎn)生了大量高效的算法,并且其中的一些算法已經(jīng)被成功的運(yùn)用到實(shí)際應(yīng)用領(lǐng)域中,促進(jìn)了中文文本分類技術(shù)的發(fā)展。如李榮陸等人的最大熵模型,王強(qiáng)等人提出的類別噪聲裁剪算法。由姜鶴等人提出的一種減少特征向量空間維數(shù)的特征提取的方法,大大提升了進(jìn)行文本分類時(shí)對(duì)系統(tǒng)資源的利用率[28]。晉幼麗、周明全等人將 SVM 和 K-means兩種算法進(jìn)行了很好地結(jié)合,并將其應(yīng)用于文本中,首先利用 K-means 算法對(duì)文本進(jìn)行聚類,然后在聚類的結(jié)果上選取訓(xùn)練樣本,并在選取后的樣本上對(duì) SVM 分類器進(jìn)行訓(xùn)練,并將訓(xùn)練好的分類器用于進(jìn)行文本分類[26]。劉少輝等人將改進(jìn)的向量空間模型很好的應(yīng)用于文本分類中,并使用了一種基于向量空間模型的特征項(xiàng)權(quán)重計(jì)算的方法[29]。張培穎等人在文本分類中通過(guò)使用詞語(yǔ)的語(yǔ)義相關(guān)性,大大降低了詞語(yǔ)的稀疏性對(duì)文本分類的影響[27]。許增福等人提出了一種基于神經(jīng)網(wǎng)絡(luò)的文本分類方法,該方法中結(jié)合模糊理論,利用模糊理論自身的特點(diǎn)來(lái)構(gòu)建神經(jīng)網(wǎng)絡(luò)[30]。戚孝銘,施亮等人提出了一種特征選擇算法,該算法基于模擬退火算法結(jié)合蜂群算法,能夠快速地尋找最優(yōu)解,并且避免陷入局部的最優(yōu),可以很好地得到最優(yōu)特征。朱顥東等人提出了一種特征選擇方法,該方法解決了特征空間稀疏性,利用了類別的相關(guān)性和交叉熵來(lái)降低特征空間的稀疏性[31]。
由于傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要是線性和淺層非線性的方法,因此對(duì)于復(fù)雜詞句的語(yǔ)義內(nèi)容會(huì)帶來(lái)許多誤差。通過(guò)深度學(xué)習(xí)的技術(shù)學(xué)習(xí)文本深度特征,解決文本分類的方法,已有許多學(xué)者在探索。針對(duì)文本稀疏性和模糊性問(wèn)題,Wang 等人提出語(yǔ)義聚類和卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)建模,增強(qiáng)上下文的語(yǔ)義相關(guān)性。Johnson 等人提出一個(gè)半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,更有效的利用無(wú)標(biāo)記數(shù)據(jù)。特別是,Zhou 等人提出的c-lstm模型,利用 CNN 提取文本句子特征,并被送入短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)獲得的句子表征,在情緒分類和文本分類有較好的表現(xiàn)。借助大量數(shù)據(jù),深度學(xué)習(xí)模型可自主學(xué)習(xí)詞句內(nèi)在的句法特征和語(yǔ)義特征,較好的理解表示文本,有效填補(bǔ)人工提取特征的缺陷,具有較好的魯棒性和普適性。
5? 結(jié)語(yǔ)
在現(xiàn)階段以深度學(xué)習(xí)方法為主要方法的特征學(xué)習(xí)研究中,還存在著許多問(wèn)題有待被進(jìn)一步探索解決。例如在一個(gè)特征表示優(yōu)于另一個(gè)特征表示時(shí)的主要因素是什么?假設(shè)給定一個(gè)表示對(duì)象,我們應(yīng)該如何學(xué)習(xí)好的特征來(lái)表示?諸如此類的基本問(wèn)題, 都有待被深入研究解決。在已有的深度學(xué)習(xí)模型研究中,存在著另一方面的難點(diǎn),即在模型構(gòu)建過(guò)程中如何對(duì)參數(shù)進(jìn)行優(yōu)化調(diào)整。主要參數(shù)例如深度網(wǎng)絡(luò)的層數(shù)、網(wǎng)絡(luò)的學(xué)習(xí)速率以及正則化等問(wèn)題。當(dāng)然也有一些可能的解決方案,如:采用多核機(jī)來(lái)提升網(wǎng)絡(luò)的訓(xùn)練速度;在不同的應(yīng)用場(chǎng)合中,選擇合適的具有針對(duì)性的優(yōu)化算法等。在未來(lái)可能會(huì)被進(jìn)一步研究的方向有:更多的利用深度學(xué)習(xí)的方法,自動(dòng)地從原始文本中獲取特征,從而減少模型對(duì)標(biāo)注數(shù)據(jù)的依賴,盡量少的從標(biāo)注信息中學(xué)習(xí)特征;通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)復(fù)雜度進(jìn)行優(yōu)化,在能夠完成任務(wù)的同時(shí)盡量降低模型的復(fù)雜度。
面向自然語(yǔ)言處理的深度學(xué)習(xí)研究工作中,盡已經(jīng)有的深度學(xué)習(xí)算法模型如遞歸神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等均已經(jīng)得到較為顯著的應(yīng)用,但仍需要對(duì)其進(jìn)行不斷深入研究和探索。在自然語(yǔ)言處理領(lǐng)域中,圍繞何時(shí)的深度學(xué)習(xí)模型的構(gòu)建等研究工作仍有著非常廣闊的空間。
參考文獻(xiàn):
[1] Bengio, Yoshua, Rejean Ducharme, Pascal Vincent. A neural probabilistic language model. Advances in NIPS . 2001.
[2] G.E.Hinton, S.Osindero, Y.Teh. A fast learning algorithm for deep belief nets. Neural Computation . 2006.
[3] Richard Socher,Brody Huval,Christopher D.Manning,Andrew Y.Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. Proc.ACL2010 . 2010.
[4] Richard Socher,Jeffrey Pennington,Eric H. Huang,Andrew Y. Ng,Christopher D. "Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions". Manning. Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing . 2011.
[5] Socher, R,C.D.Manning, A.Y.Ng. Learning continuous phrase representations and syntactic parsing with recursive neural networks. Proceedings of the NIPS-2010Deep Learning and Unsupervised Feature Learning Workshop . 2010.
[6] Richard Socher,Cliff Lin,Andrew Y Ng,Christopher Manning. Parsing naturalscenes and natural language with recursive neural networks. Proceedings of theTwenty-Eighth International Conference on Machine Learning . 2011.
[7] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013, January 17). Efficient Estimation of Word Representations in Vector Space. arXiv.org.
[8] Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013, October 17). Distributed Representations of Words and Phrases and their Compositionality. arXiv.org. //Proceedings? of? the? 27th Advances? in? Neural? Information? Processing? Systems? (NIPS 2013).South Lake Tahoe, Nevada, USA, 2013: 3111-3119.
[9] Bengio, Y., Ducharme, R., Vincent, P., & Janvin, C. (2003). A neural probabilistic language model. The Journal of Machine Learning Research, 3, 1137–1155.
[10] Turney, P. D., & Pantel, P. (2010). From frequency to meaning: vector space models of semantics. Journal of Artificial Intelligence Research, 37(1).
[11] Morin, F., & Bengio, Y. (2005). Hierarchical Probabilistic Neural Network Language Model. Aistats.
[12] Mnih, A., & Kavukcuoglu, K. (2013). Learning word embeddings efficiently with noise-contrastive estimation, 2265–2273.
[13] Mikolov, T., Karafiát, M., Burget, L., & Cernock?, J. (2010). Recurrent neural network based language model. Interspeech.
[14] Mikolov, T., Yih, W., & Zweig, G. (2013). Linguistic Regularities in Continuous Space Word Representations. Hlt-Naacl.
[15] Mikolov, T., Le, Q. V., & Sutskever, I. (2013, September 17). Exploiting Similarities among Languages for Machine Translation. arXiv.org.
[16] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research, 12(Aug), 2493–2537.
[17] Barkan, O., & Koenigstein, N. (2016, March 14). Item2Vec: Neural Item Embedding for Collaborative Filtering. arXiv.org.
[18] Le, Q. V., & Mikolov, T. (2014, May 16). Distributed Representations of Sentences and Documents. arXiv.org.
[19] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[20] SOCHER? R,? PERELYGIN? A,? WU? J,? et? al.? Recursive? deep? models? forsemantic? compositionality? over? a sentiment? treebank[C]//Proceedings? ofthe? 2013? Conference? on? Empirical? Methods? in? Natural Language Processing (EMNLP 2013). Seattle, Washington, USA, 2013: 1642.
[21] Socher? R,? Pennington? J,? Huang? E? H,? et? al.? Semi-supervised? recursive? autoencoders? for predicting? sentiment? distributions[C]//Proceedings? of? the? Conference? on? Empirical? Methods? in Natural Language Processing. Association for Computational Linguistics, 2011: 151-161.
[22] Collobert? R,? Weston? J.? A? unified? architecture? for? natural? language? processing:? Deep? neural networks? with? multitask? learning[C]//Proceedings? of? the? 25th? international? conference? on Machine learning. ACM, 2008: 160-167.
[23] Zhang D,? Wang D. Relation? Classification? via? Recurrent? Neural? Network[J].? ar Xiv? preprint ar Xiv:1508.01006, 2015.
[24] Dong? L,? Wei? F,? Zhou? M,? et? al.? Question? answering? over? freebase? with? multi-column convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational? Linguistics? and? the? 7th? International? Joint? Conference? on? Natural? Language Processing. 2015, 1: 260-269.
[25] Cui L, Zhang D, Liu S, et al.? Learning? topic? representation? for? smt? with? neural networks[C]//Proceedings? of? the? 52nd? Annual? Meeting? of? the? Association? for? Computational Linguistics. 2014, 1: 133-143.
[26] 晉幼麗, 周明全, 王學(xué)松. SVM 和 K-means 結(jié)合的文本分類方法研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2009, 19(11): 35-37.
[27] 張培穎, 王雷全. 基于語(yǔ)義距離的文本分類方法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(1):128-130.
[28] 姜鶴.SVM 文本分類中基于法向量的特征選擇算法研究:碩士學(xué)位論文[D].上海:上海交通大學(xué).
[29] 劉少輝, 董明楷, 張海俊, 等. 一種基于向量空間模型的多層次文本分類方法[J]. 中文信息學(xué)報(bào), 2002, 16(3): 9-15, 27.
[30] 許增福, 梁靜國(guó), 田曉宇. 基于加權(quán)模糊推理網(wǎng)絡(luò)的文本自動(dòng)分類方法[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2004, 25(4): 504-508.
[31] 朱顥東, 鐘勇. 基于類別相關(guān)性和交叉熵的特征選擇方法[J]. 鄭州大學(xué)學(xué)報(bào): 理學(xué)版,2010, 42(2): 61-65.
[32] 奚雪峰,周國(guó)棟. 面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J]. 自動(dòng)化學(xué)報(bào),2016,42(10):1445-1465.
【通聯(lián)編輯:唐一東】