熊晗
(重慶工商職業(yè)學(xué)院軟件教研室,重慶,400052)
目前深度學(xué)習(xí)框架針對訓(xùn)練樣本有較高的要求,常見的自然語言處理可以使用普通文本語料,比如bert可以使用預(yù)訓(xùn)練的詞向量做fine-tune,但在一些特定領(lǐng)域,比如法律、公安、金融領(lǐng)域等等,有較多的專業(yè)名詞,且標(biāo)注語料通常不多,使用普通語料訓(xùn)練的詞向量進(jìn)行下游任務(wù)效果不佳,針對這些場景的自然語言處理,存在如下的一些問題:
(1)專業(yè)領(lǐng)域文本的內(nèi)容少部分詞語比較專業(yè)化,但又非常關(guān)鍵。使用預(yù)訓(xùn)練的詞向量來做fine-tune,很可能沒有很好的挖掘出專業(yè)詞匯的信息特征,導(dǎo)致效果不好。
(2)針對部分短文本使用CNN、RNN這類依靠位置順序關(guān)系的模型,可能對非連續(xù)性以及短距離的語義信息建模能力不足。
(3)文本數(shù)量巨大,針對模型訓(xùn)練需要大量的標(biāo)注樣本也是困難點(diǎn)之一。
近年基于圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用目前相關(guān)的研究內(nèi)容主要為以下兩種:①針對圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的綜述。介紹圖神經(jīng)網(wǎng)絡(luò)的核心思想,以及如何運(yùn)用圖結(jié)構(gòu)表示語言模型,并如何將相關(guān)的自然語言處理任務(wù)場景結(jié)合起來。②基于圖卷積神經(jīng)網(wǎng)絡(luò)的框架研究與改進(jìn),這部分文章,結(jié)合現(xiàn)實(shí)的自然語言處理實(shí)際問題,重點(diǎn)研究圖卷積網(wǎng)絡(luò)的構(gòu)架改進(jìn)以及自然語言的圖表示模型。
通過研究調(diào)查,圖卷積神經(jīng)網(wǎng)絡(luò)與自然語言處理結(jié)合已經(jīng)有理論基礎(chǔ)認(rèn)證,并有部分實(shí)際工作。本文重點(diǎn)將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),并針對具有圖結(jié)構(gòu)關(guān)系的文本場景(比如社交評論,微博關(guān)注等等),提取文本之間的關(guān)系信息,提升自然語言處理任務(wù)效果。
作為圖神經(jīng)網(wǎng)絡(luò)來說,如何將圖結(jié)構(gòu)的數(shù)據(jù)進(jìn)行表示,是能否將該結(jié)構(gòu)用于圖神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的關(guān)鍵問題。同樣,我們針對自然語言處理任務(wù)中的文本,就需要研究圖嵌入方法,即旨在將圖的節(jié)點(diǎn)表示成一個低維向量空間,同時保留網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)信息,以便在后續(xù)的圖分析任務(wù)中可以直接使用現(xiàn)有的機(jī)器學(xué)習(xí)算法。
本項(xiàng)目將以下兩個思路進(jìn)行文本圖結(jié)構(gòu)表示:
第一類,將每個文本作為頂點(diǎn),將頂點(diǎn)之間的實(shí)際拓?fù)潢P(guān)系作為邊條件與權(quán)值,例如文本作者與粉絲之間的關(guān)注關(guān)系,文本相互鏈接的關(guān)系等等。
第二類,是基于文本的實(shí)體與共指關(guān)系連接構(gòu)建。將文本中的實(shí)體作為節(jié)點(diǎn),并把實(shí)體之間的共指,同現(xiàn),鄰近實(shí)體連接作為邊。從而使用圖結(jié)構(gòu)進(jìn)行表示。
圖卷積神經(jīng)網(wǎng)絡(luò)直接將多層神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖結(jié)構(gòu)數(shù)據(jù)之上,并且根據(jù)鄰接點(diǎn)與鄰邊信息生成進(jìn)行圖嵌入表示。假設(shè)一個圖結(jié)構(gòu)為G=
圖1 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架
輸入為圖結(jié)構(gòu)的數(shù)據(jù),每次選取一個點(diǎn)作為中心點(diǎn),按照公式1進(jìn)行一次計(jì)算,當(dāng)遍歷完所有點(diǎn)后,一層計(jì)算完成,經(jīng)過多層堆疊,直到所有的點(diǎn)計(jì)算出來的圖嵌入向量收斂則訓(xùn)練完成。構(gòu)建好圖模型后,后續(xù)根據(jù)下游任務(wù)添加相應(yīng)神經(jīng)網(wǎng)絡(luò)層即可:
其中?(.)表示通過圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的狀態(tài)更新函數(shù),X表示所有頂點(diǎn)的特征集,A表示頂點(diǎn)對應(yīng)的鄰接矩陣。
本次實(shí)驗(yàn)選取自然語言處理任務(wù)中的分類任務(wù)來進(jìn)行對比,分類任務(wù)是自然語言處理中的基本任務(wù)之一,實(shí)現(xiàn)簡單,驗(yàn)證相對容易且清晰。
考慮到圖卷積神經(jīng)網(wǎng)絡(luò)的處理特點(diǎn),實(shí)驗(yàn)選取的語料需要專業(yè)領(lǐng)域較強(qiáng),標(biāo)注量不大,并且具有一定圖結(jié)構(gòu)關(guān)系的文本。本次實(shí)驗(yàn)爬取知乎上相關(guān)文章5400篇,內(nèi)容包括計(jì)算機(jī)技術(shù)類、金融投資類、旅游類等共8類別,采用人工取其中400篇文章進(jìn)行類別標(biāo)記,平均每種類別標(biāo)記50篇。同時爬取文章之間的鏈接跳轉(zhuǎn)關(guān)系,文章作者之間的關(guān)注關(guān)系,以及粉絲關(guān)系,建立文章之間的拓?fù)鋱D關(guān)系如圖2所示。
圖2 文章之間的關(guān)系拓?fù)?/p>
將關(guān)系圖轉(zhuǎn)換成鄰接矩陣N,則可以帶入到公式1進(jìn)行迭代計(jì)算。最后加上softmax層采用公式2,即可在迭代收斂時,判斷出文章類型。總體流程圖如圖3所示。
觀賞竹栽培品種整理。主要開展牡竹屬、慈竹屬等觀賞竹栽培品種的整理與新品種定名工作,現(xiàn)階段已完成牡竹屬1種新品種的定名,取得國際登錄號;以及川牡竹1號、硬頭黃7號新品種登錄的申報工作。
圖3 實(shí)驗(yàn)任務(wù)處理流程圖
損失函數(shù),我們使用交叉熵來進(jìn)行計(jì)算,如公式3所示:
其中DY表示有標(biāo)簽的文章集合,F(xiàn)表示文章所有的特征值集合,Y是所有文章的標(biāo)注矩陣。結(jié)合公式2的結(jié)果,即可計(jì)算損失函數(shù)。
結(jié)構(gòu)采用兩層GCN結(jié)構(gòu),直接將爬取到的文本關(guān)系網(wǎng)絡(luò)作為輸入,進(jìn)入兩層GCN隱藏層,最后加上softmax進(jìn)行輸出,該結(jié)構(gòu)能將文本的鏈接關(guān)系放入神經(jīng)網(wǎng)絡(luò)中,對這部分信息進(jìn)行有效挖掘,也是后續(xù)觀察分類效果的關(guān)鍵點(diǎn)。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架
為了測試圖卷積神經(jīng)網(wǎng)絡(luò)針對選取文本的分類效果,本文選擇了幾種常見的自然語言處理的機(jī)器學(xué)習(xí)構(gòu)架來進(jìn)行比較,選取的幾種常見模型介紹如下:
TF-IDF+LR:采用詞袋模型的經(jīng)典分類算法,其主要的思想是將每篇文章的關(guān)鍵詞提取,通過詞頻與逆詞頻的處理,找到主要關(guān)鍵詞,在進(jìn)行邏輯回歸算法分類。
LSTM:LSTM是一種典型的RNN構(gòu)架算法,采用長短期記憶模型,對每個文本的字進(jìn)行學(xué)習(xí)處理,來理解文本內(nèi)容。
FastText:fasttext是facebook出品的一種快速的文本分類算法,其中新思想與Word2vector思路一致,都是通過深度學(xué)習(xí)中間變量來表示文本向量。
Bert:Bert作為自然語言處理近年來的佼佼者,在各項(xiàng)任務(wù)都取得了不錯成績,但前期的大量訓(xùn)練只有大型公司才能完成,使用fine-tune進(jìn)行遷移學(xué)習(xí),但針對特定領(lǐng)域,效果有待提升。
加上本文使用的GCN針對文本的分類,5中方法的實(shí)驗(yàn)效果如表1所示。
表1 真實(shí)數(shù)據(jù)上5中分類算法的指標(biāo)比較結(jié)果
通過結(jié)果可以看出在本次實(shí)驗(yàn)選擇的語料文本特點(diǎn)下,使用GCN圖卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)果相對于其余4中經(jīng)典的文本分類常用算法框架來說,效果有一定的提升。
本文針對目前近年來流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對象,結(jié)合了圖卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn),選取自然語言處理中的分類任務(wù)為目標(biāo),設(shè)定了在特定場景下的一些具有圖網(wǎng)絡(luò)關(guān)系的語料進(jìn)行研究。使用實(shí)驗(yàn)證明,在專業(yè)詞匯較多,文本簡短、文本之間有豐富連接關(guān)系,且標(biāo)注數(shù)據(jù)量較少的語料場景下,圖卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果更好。