程鐘慧 陳珂 陳剛 徐世澤 傅丁莉
摘 ?要:命名實體識別是一項從非結(jié)構(gòu)化大數(shù)據(jù)集中抽取有意義的實體的技術(shù)。命名實體識別技術(shù)有著非常廣泛的應(yīng)用,例如從軌道交通列車產(chǎn)生的海量運行控制日志中抽取日期、列車、站臺等實體信息進行進階數(shù)據(jù)分析。近年來,基于學(xué)習(xí)的方法成為主流,然而這些算法嚴重依賴人工標注,訓(xùn)練集較小時會出現(xiàn)過擬合現(xiàn)象,無法達到預(yù)期的泛化效果。針對以上問題,本文提出了一種基于強化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標注數(shù)據(jù)的情況下,無須人工參與,利用大量無標注數(shù)據(jù)自動提升模型性能。在兩種不同領(lǐng)域的語料上進行實驗,模型F1值均提升10%,證明了本文方法的有效性和通用性。同時,與傳統(tǒng)的協(xié)同訓(xùn)練方法進行對比,本文方法F1值高于其他方法5%,實驗結(jié)果表明本文方法更加智能。
關(guān)鍵詞:強化學(xué)習(xí);協(xié)同訓(xùn)練;命名實體識別
中圖分類號:TP391.1 ? ? 文獻標識碼:A
Abstract:Named entity recognition(NER)is a technique for extracting meaningful entities from unstructured big datasets.NER has a wide range of applications.An example of NER is advanced data analysis which extracts date,train,platform and other entity information from a large operation logs dataset produced by rail transit trains.In recent years,the reinforcement learning based method has become the mainstream method of solving this task.However,these algorithms rely heavily on manual labeling.The over-fitting problem may occur when the training set is small,and cannot achieve the expected generalization effect.In this paper,we propose a novel method,Reinforced Co-Training.With only small amount of labeled data,the performance of the named entity recognition model can be automatically improved by using a large amount of unlabeled data.We have experimented our framework on corpus in two different fields,the results show that the F1 value of our proposed method is increased by 10%,which proves the effectiveness and generality of the method in this paper.We also compared our method with the traditional co-training methods,the F1 value of our method is 5% higher than other methods,which shows that this method is more intelligent.
Keywords:reinforcement learning;co-training;named entity recognition
1 ? 引言(Introduction)
給定一個非結(jié)構(gòu)化大數(shù)據(jù)集(如軌道交通列車控制系統(tǒng)產(chǎn)生的車輛運行控制日志),命名實體識別(NER)技術(shù)的目的是從該數(shù)據(jù)集中提取出具有特定意義的實體,如站臺名、列車號、控制指令等[1],進而為其他大數(shù)據(jù)建模任務(wù)提供實用信息。研究者們將NER任務(wù)歸約為序列標注問題[2],基于統(tǒng)計機器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法成為主流,例如條件隨機場模型[3],基于卷積網(wǎng)絡(luò)的序列標注模型[4]以及基于雙向LSTM網(wǎng)絡(luò)的模型[5]等。然而,基于學(xué)習(xí)的方法嚴重依賴人工標注,訓(xùn)練集較小時會出現(xiàn)過擬合現(xiàn)象,無法達到預(yù)期的泛化效果。同時,命名實體具有極強的不確定性,在進行大規(guī)模的數(shù)據(jù)標注時需要消耗大量的人力和時間,其代價是難以接受的。與標注語料不同,無標注語料數(shù)量巨大且極易獲得,因此如何發(fā)揮大量無標注語料的價值,在少量標注數(shù)據(jù)的情況下改善模型學(xué)習(xí)性能是命名實體識別進一步研究的重點。
半監(jiān)督學(xué)習(xí)[6]方法通常利用大量的無標注數(shù)據(jù)來輔助少量的有標注數(shù)據(jù)進行學(xué)習(xí),從而提高模型學(xué)習(xí)性能。協(xié)同訓(xùn)練(Co-training)[7]是廣泛使用的半監(jiān)督學(xué)習(xí)方法之一,它利用兩個學(xué)習(xí)器的“相容互補性”來互相標記樣本擴大訓(xùn)練集,從而達到借助無標注數(shù)據(jù)提升學(xué)習(xí)性能的目的。協(xié)同訓(xùn)練的關(guān)鍵在于挑選高質(zhì)量的無標注數(shù)據(jù)添加到訓(xùn)練集中,目前通常使用啟發(fā)式的樣本選擇策略。然而,現(xiàn)有的協(xié)同訓(xùn)練算法存在一些缺陷。首先,在訓(xùn)練過程中,每次添加兩個弱分類器的偽標注數(shù)據(jù)到訓(xùn)練集中,會造成噪聲累積。其次,由于少量標注數(shù)據(jù)和大量無標注數(shù)據(jù)在分布上具有一定差異,在訓(xùn)練一段時間后,會導(dǎo)致采樣偏差向無標注數(shù)據(jù)方向偏移,進而導(dǎo)致訓(xùn)練模型性能降低。此外,傳統(tǒng)的協(xié)同訓(xùn)練方法為了減少噪聲的引入,每次添加模型置信度高的預(yù)測結(jié)果到訓(xùn)練集中,容易造成局部采樣限制,會限制模型泛化能力[8]。
因此,一種理想的協(xié)同訓(xùn)練算法應(yīng)該具備兩個特性,一是擴充訓(xùn)練集帶來的噪聲應(yīng)盡可能小,二是能對數(shù)據(jù)空間進行充分探索,以獲得更好的泛化學(xué)習(xí)性能?;谝陨?,本文利用深度Q網(wǎng)絡(luò)(Deep Q-network)[9]自動學(xué)習(xí)選擇策略替代傳統(tǒng)的啟發(fā)式樣本選擇策略,進而提高協(xié)同訓(xùn)練效果。
本文的主要貢獻如下:
(1)提出了一種基于強化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標注數(shù)據(jù)情況下,無須人工參與,利用大量無標注數(shù)據(jù)自動提升命名實體識別模型的性能。
(2)提出了一種基于實體級置信度的模型集成方法,減少協(xié)同訓(xùn)練過程中噪聲的引入,進一步提高添加樣本的質(zhì)量。
(3)在人民日報和金融新聞?wù)Z料上進行重復(fù)實驗,證明了本文方法的有效性、通用性和魯棒性。同時,與傳統(tǒng)的協(xié)同訓(xùn)練方法進行對比實驗,本文方法F1值高于其他方法5%。
2 ? 相關(guān)工作(Related work)
針對如何在少量標注數(shù)據(jù)的情況下,使用半監(jiān)督學(xué)習(xí)方法進行命名實體識別任務(wù),已有學(xué)者做了相關(guān)研究。Liao[10]等人提出了一種基于CRF單一分類器的半監(jiān)督命名實體識別方法,需要人工分析數(shù)據(jù),提取有效規(guī)則,難度較大且規(guī)則的領(lǐng)域移植性較差。Aryoyudanta[11]等人使用SVM單一分類器,基于上下文和實體兩種不同的屬性視圖構(gòu)建兩個學(xué)習(xí)器進行協(xié)同訓(xùn)練。Xiao[12]等人提出了一種基于CRF和SVM協(xié)同訓(xùn)練的中文機構(gòu)實體識別算法,定義了一種啟發(fā)式樣本選擇策略。然而,這些半監(jiān)督學(xué)習(xí)方法都是基于人工預(yù)先設(shè)定的樣本選擇策略,無法對數(shù)據(jù)空間進行充分準確的學(xué)習(xí)。協(xié)同訓(xùn)練算法的核心在于樣本選擇策略,Zhang[13]等人提出了一種性能驅(qū)動的樣本選擇策略,選擇有助于提高分類精度的無標注數(shù)據(jù)進行半監(jiān)督學(xué)習(xí)。同時,Chawla[14]等人論證了隨機挑選樣本的方法會導(dǎo)致訓(xùn)練模型向無標注數(shù)據(jù)分布方向發(fā)生采樣偏移。
與上述半監(jiān)督命名實體識別方法相比,本文使用深度強化學(xué)習(xí)模型自動學(xué)習(xí)樣本選擇策略。深度強化學(xué)習(xí)(DRL)[15,16]是人工智能領(lǐng)域新的研究熱點,它將深度學(xué)習(xí)(DL)[17]在特征表示方面較強的抽象感知能力和強化學(xué)習(xí)(RL)[18]的推理決策能力相結(jié)合。Lange[19]等人最先將深度學(xué)習(xí)模型和強化學(xué)習(xí)方法結(jié)合,提出了一種深度自動編碼器,但是只適用于狀態(tài)空間維度較小的問題。Mnih[9]等人結(jié)合深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)強化學(xué)習(xí)中求解最優(yōu)動作值函數(shù)的Q學(xué)習(xí)算法,提出了深度Q網(wǎng)絡(luò)模型(DQN)來近似表示動作值函數(shù)。近年來,深度強化學(xué)習(xí)在自然語言處理領(lǐng)域獲得了越來越多的關(guān)注,在會話生成、文本摘要等任務(wù)中均有應(yīng)用。但由于語言是離散的,句子空間是無窮的,所以在將NLP任務(wù)轉(zhuǎn)化為DRL問題時存在諸多挑戰(zhàn)。
3 ?基于強化學(xué)習(xí)的協(xié)同訓(xùn)練框架(Reinforced Co-training)
3.1 ? 未標注數(shù)據(jù)子集的劃分
由于無標注數(shù)據(jù)數(shù)量巨大,如果在每次迭代過程中只選擇一個樣本添加到訓(xùn)練集中,并重新訓(xùn)練兩個學(xué)習(xí)器,那將十分低效。所以,我們首先將大量的無標注數(shù)據(jù)樣本切分成句子,并根據(jù)句子間的相似度大小,將其劃分成子集。這樣每次算法挑選一個無標注數(shù)據(jù)子集作為候選樣本添加到訓(xùn)練集中,更新兩個學(xué)習(xí)器,能極大提高計算效率,節(jié)約時間成本。
4 ? 實驗與分析(Experiment and analysis)
4.1 ? 實驗數(shù)據(jù)
本文選用人民日報(1998年)和金融新聞兩種不同領(lǐng)域的語料庫對前文提出的基于強化學(xué)習(xí)協(xié)同訓(xùn)練模型進行評估實驗,其中人民日報為通用領(lǐng)域公開數(shù)據(jù)集,是中文命名實體識別任務(wù)常用的語料;金融新聞是從金融網(wǎng)站上利用爬蟲技術(shù)獲取的1000篇經(jīng)人工標注的新聞?wù)Z料,具有一定的領(lǐng)域特性。其中人民日報語料共有19484個句子、52735個實體,包括人名、地名、機構(gòu)名三類;金融新聞?wù)Z料含有26233個句子、56813個實體,包括人名、地名、機構(gòu)名、日期、貨幣、百分比、時間七類。我們將原始的帶標注語料劃分成四個數(shù)據(jù)集:訓(xùn)練集、驗證集、測試集和無標注數(shù)據(jù)集,首先隨機選取500個句子作為少量標注訓(xùn)練集,之后從剩余的數(shù)據(jù)中選取10%作為驗證集,10%作為測試集,其余80%去除標注結(jié)果作為協(xié)同訓(xùn)練過程中待添加的無標注數(shù)據(jù)集。
4.2 ? 實驗配置
4.2.1 ? 實驗環(huán)境
本文的實驗是在一臺小型服務(wù)器上運行的,CPU處理器為Intel(R) Xeon(R) Silver 4114 CPU @2.2GHz,GPU為GeForce GTX 1080Ti,內(nèi)存為100GB,操作系統(tǒng)為Ubuntu 18.04.1 LTS Server。使用的編程語言為Python,版本為3.6.7,使用深度學(xué)習(xí)框架TensorFlow 1.12.0。
4.2.2 ? 實驗設(shè)置
(1)協(xié)同訓(xùn)練模型
本文選用了兩個主流的命名實體識別模型進行協(xié)同訓(xùn)練,其一是CRF序列標注模型[3],另一個則是基于深度學(xué)習(xí)的BiLSTM-CRF模型[5]。前者屬于傳統(tǒng)的概率圖模型,對條件分布進行建模,后者旨在通過一個深度神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)從輸入文本到標注序列的映射關(guān)系,是一個端到端的過程。兩種模型從學(xué)習(xí)和訓(xùn)練的原理上具有顯著的差異性和互補性。
實驗使用python-crfsuite庫實現(xiàn)CRF模型。為避免分詞的影響,采用基于字符特征的CRF模型。特征方面選擇大小為2的上下文窗口,考慮前后各兩個字符對當(dāng)前字符的影響,特征包括1-Gram、2-Gram、字符所在詞的詞性以及在詞中的位置特征。BiLSTM模型的batch_size為16,學(xué)習(xí)率取0.001,采用Adam梯度下降優(yōu)化算法,為防止過擬合,實驗中采用early_stop準則,使用驗證集,如果評價指標在驗證集上連續(xù)三個epoch沒有變化,就停止訓(xùn)練。
(2)網(wǎng)絡(luò)參數(shù)設(shè)置
在本文的協(xié)同訓(xùn)練框架中,我們將無標注數(shù)據(jù)子集的數(shù)量設(shè)置為100。在候選無標注樣本的內(nèi)容表示部分,分別通過128個大小為3、4、5的卷積核,步長為1進行卷積,使用ReLU激活函數(shù)。在不確定性表示部分,使用20個大小為3的卷積核,步長為1進行卷積。全連接層輸出向量維度為256。設(shè)置折扣因子為0.99,batch_size為32?;胤庞洃泦卧畲笕萘繛?000個轉(zhuǎn)移樣本,學(xué)習(xí)率和行為策略的參數(shù)都設(shè)置為從開始到1000個轉(zhuǎn)移樣本區(qū)間內(nèi)線性遞減的形式,即從0.005降到0.00025,從1.0降到0.0001。
(3)對比實驗設(shè)置
我們將本文提出的基于強化學(xué)習(xí)的協(xié)同訓(xùn)練方法RL Co-Training與兩種經(jīng)典方法對比:
①Standard Co-Training:協(xié)同訓(xùn)練的兩個模型各自隨機選擇偽標注樣本進行協(xié)同訓(xùn)練[7]。
②CoTrade Co-Training:協(xié)同訓(xùn)練的兩個模型各自挑選置信度高的偽標注樣本,添加到對方的訓(xùn)練集中[22]。
4.3 ? 實驗結(jié)果分析
本文在人民日報和金融新聞兩種不同領(lǐng)域的語料上分別進行實驗,并與兩種經(jīng)典的協(xié)同訓(xùn)練算法Standard Co-Training,CoTrade Co-Training進行對比。實驗中,首先使用從語料中隨機選擇的500個句子作為少量的帶有標注的訓(xùn)練數(shù)據(jù)對兩個學(xué)習(xí)模型進行初始化,得到兩個弱學(xué)習(xí)器,之后分別使用三種不同的協(xié)同訓(xùn)練算法,每次根據(jù)各自不同的樣本選擇策略不斷添加100句偽標注數(shù)據(jù),擴增訓(xùn)練集,迭代訓(xùn)練學(xué)習(xí)模型,最后利用測試集計算模型對所有實體識別的F1值,具體結(jié)果如表1和表2所示。
從中可以看出,(1)本文提出的基于強化學(xué)習(xí)的協(xié)同訓(xùn)練方法RL Co-Training在只有少量標注數(shù)據(jù)初始化模型的情況下,無須人工參與,通過利用大量無標注語料迭代訓(xùn)練,可以有效提升模型性能,在兩種測試語料上模型的F1值均可有效提升10%左右,證明了本文方法的有效性和通用性;(2)本文的RL Co-Training方法表現(xiàn)效果要好于傳統(tǒng)的協(xié)同訓(xùn)練方法,其F1值高于其他方法5%左右。
為了進一步比較分析三種協(xié)同訓(xùn)練算法樣本選擇策略的性能,圖3和圖4分別給出了在兩種語料上,各方法在驗證集上F1值隨迭代次數(shù)的變化情況。在每種語料上分別展示了在協(xié)同訓(xùn)練迭代過程中,兩種協(xié)同訓(xùn)練模型CRF和BiLSTM,以及對兩個模型進行集成后的性能變化,橫軸表示迭代過程中添加進訓(xùn)練集中的偽標注數(shù)據(jù)的句子數(shù)量,縱軸表示模型在驗證集上的F1值。
從中可以看出:(1)在添加句子數(shù)量相同的情況下,本文的RL Co-Training方法獲得了最好的效果,模型性能的提升最大,說明本文提出的協(xié)同訓(xùn)練算法學(xué)習(xí)效率最高;(2)Standard Co-training隨機選擇添加樣本的方法造成了模型極強的不穩(wěn)定性,CoTrade Co-training可以有效提升協(xié)同訓(xùn)練效果,但是每次迭代只添加置信度高的樣本限制了模型的泛化能力。本文方法與兩者相比有顯著提升,證明了本文使用強化學(xué)習(xí)智能體來自動學(xué)習(xí)一種樣本選擇策略,替代傳統(tǒng)的預(yù)先定義的啟發(fā)式樣本選擇策略方法的有效性。強化學(xué)習(xí)智能體可以對樣本空間進行充分探索,選取更高質(zhì)量的無標注數(shù)據(jù),不僅可以幫助改善Standard Co-Training算法在隨機挑選樣本時發(fā)生的采樣偏移問題,還可以改善CoTrade Co-Training算法由于局部采樣造成的對模型泛化能力的限制。
此外,為了驗證本文方法的魯棒性,我們設(shè)計了如下實驗:首先,使用原始數(shù)據(jù)劃分訓(xùn)練強化學(xué)習(xí)智能體Q-agent。在測試時,隨機生成另外五個訓(xùn)練集,并將剩余數(shù)據(jù)按原比例劃分為測試集和無標注數(shù)據(jù)集,使用Q-agent已經(jīng)學(xué)到的樣本選擇策略對兩個模型重新進行協(xié)同訓(xùn)練,將兩個模型集成后在測試集上進行測試,結(jié)果如表3所示。結(jié)果表明,本文方法對不同的初始化訓(xùn)練集具有魯棒性,我們模型中的強化學(xué)習(xí)智能體Q-agent可以學(xué)習(xí)到一個良好的魯棒的樣本選擇策略來選擇高質(zhì)量的無標注子集,以幫助協(xié)同訓(xùn)練過程。
5 ? 結(jié)論(Conclusion)
本文提出了一種基于強化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標注數(shù)據(jù)的情況下,無須人工參與,利用大量無標注數(shù)據(jù)自動提升模型性能??蚣苤械膹娀瘜W(xué)習(xí)智能體可以學(xué)習(xí)一種良好的樣本選擇策略,選擇高質(zhì)量的無標注數(shù)據(jù)進行協(xié)同訓(xùn)練。我們在兩種不同領(lǐng)域的語料上對模型進行了評估,實驗結(jié)果表明本文方法性能優(yōu)于其他的協(xié)同訓(xùn)練算法。我們還對強化學(xué)習(xí)智能體進行了測試,證明了學(xué)習(xí)到的樣本選擇策略對不同的初始化訓(xùn)練集和數(shù)據(jù)劃分具有魯棒性。在未來的研究中,我們計劃將本文提出的框架擴展應(yīng)用到其他不同類型的任務(wù)中去。
參考文獻(References)
[1] Grishman R,Sundheim B.Message Understanding conference-6:a brief history[C].Proceedings of the 16th International Conference on Computational Linguistics,1996:466-471.
[2] Finkel J R,Grenager T,Manning C.Incorporating non-local information into information extraction systems by Gibbs sampling[C].Proceedings of the 2005,43rd Annual Meeting of the Association for Computational Linguistics,2005:363-370.
[3] Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Proceedings of the 18th International Conference on Machine Learning,2001:282-289.
[4] Collobert R,Weston J,Bottou L.Natural language processing(almost) from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.
[5] Chiu J P C,Nichols E.Named entity recognition with bidirectional LSTM-CNNs[J].Transactions of the Association for Computational Linguistics,2016(4):357-370.
[6] Chapelle O,Scholkopf B,Zien A.Semi-supervised learning (chapelle,o.et al.,eds.;2006)[book reviews][J].IEEE Transactions on Neural Networks,2009,20(3):542-542.
[7] Blum A,Mitchell T.Combining labeled and unlabeled data with co-training[J].Proceedings of the eleventh annual conference on Computational learning theory,1998:92-100.
[8] Zhang R,Rudnicky A I.A new data selection principle for semi-supervised incremental learning[C].IEEE,2006(2):780-783.
[9] Minh V,Kavukcuoglu K,Silver D.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529-533.
[10] LIAO W,Veeramachaneni S.A simple semi-supervised algorithm for named entity recognition[C].Naacl Hlt Workshop on Semi-supervised Learning for Natural Language Processing,2009.
[11] Aryoyudanta B,Adji T B,Hidayah I.Semi-supervised learning approach for Indonesian named entity recognition (NER) using co-training algorithm[C].International Seminar on Intelligent Technology & Its Applications IEEE,2017.
[12] XIAO K.Chinese organization name recognition based on co-training algorithm[C].International Conference on Intelligent System & Knowledge Engineering IEEE,2008.
[13] ZHANG R,Rudnicky A I.A new data selection principle for semi-supervised incremental learning[C].18th International Conference on Pattern Recognition,IEEE Computer Society,2006:780-783.
[14] Chawla N V,Karakoulas G.Learning from labeled and unlabeled data:An empirical study across techniques and domains[J].Journal of Artificial Intelligence Research,2005,23:331-366.
[15] Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529.
[16] Silver D,Huang A,Maddison C J.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.
[17] Yu K,Jia L,Chen Y.Deep learning:yesterday,today,and tomorrow[J].Journal of computer Research and Development,2013,50(9):1799-1804.
[18] Sutton R,Barto A.Reinforcement learning:An ?Introduction[M].MIT Press,1998.
[19] Lange S,Riedmiller M.Deep auto-encoder neural networks in reinforcement learning[C].The 2010 International Joint Conference on Neural Networks,2010,1-8.
[20] Rajaraman A,Ullman J D.Finding similar items[J].Mining of Massive Datasets,2010,77:73-80.
[21] Watkins C J C H,Dayan P.Q-learning[J].Machine learning,1992,8(3-4):279-292.
[22] Zhang M L,Zhou Z H.CoTrade:confident co-training with data editing[J].IEEE Transactions on Systems,2011,41(6):1612-1626.
作者簡介:
程鐘慧(1995-),女,碩士生.研究領(lǐng)域:自然語言處理.
陳 ?珂(1977-),女,博士,副教授.研究領(lǐng)域:時空數(shù)據(jù)庫,數(shù)據(jù)挖掘,數(shù)據(jù)隱私保護.
陳 ? 剛(1973-),男,博士,教授.研究領(lǐng)域:大數(shù)據(jù)管理.
徐世澤(1973-),男,本科,高級工程師.研究領(lǐng)域:電力系統(tǒng)及自動化.本文通訊作者.
傅丁莉(1988-),女,本科,工程師.研究領(lǐng)域:通信技術(shù).