丁晟春 方振 王楠
摘?要:[目的/意義]為解決目前網絡公開平臺的多源異構的企業(yè)數據的散亂、無序、碎片化問題,提出Bi-LSTM-CRF深度學習模型進行商業(yè)領域中的命名實體識別工作。[方法/過程]該方法包括對企業(yè)全稱實體、企業(yè)簡稱實體與人名實體3類命名實體識別。[結果/結論]實驗結果顯示對企業(yè)全稱實體、企業(yè)簡稱實體與人名實體3類命名實體識別的識別率平均F值為90.85%,驗證了所提方法的有效性,證明了本研究有效地改善了商業(yè)領域中的命名實體識別效率。
關鍵詞:商業(yè)領域;命名實體識別;深度學習;Bi-LSTM-CRF
DOI:10.3969/j.issn.1008-0821.2020.03.010
〔中圖分類號〕TP391?〔文獻標識碼〕A?〔文章編號〕1008-0821(2020)03-0103-08
Abstract:[Purpose/Significance]In order to solve the problem of scattered,disordered and fragmented multi-source heterogeneous enterprise data of the current network open platform,the Bi-LSTM-CRF deep learning model was proposed for the named entities recognition in the business field.[Method/Process]This method included three kinds of named entities:enterprise full name entity,enterprise short name entity and personal name entity.[Result/Conclusion]The experimental results showed that the average F value of the recognition rate of the three types of named entities,namely enterprise full entity,enterprise abbreviation entity and person name entity,was 90.85%,which verified the effectiveness of the proposed method.It was proved that this study effectively improved the efficiency of named entity recognition in the commercial field.
Key words:business domain;named entity recognition;deep learning;Bi-LSTM-CRF
隨著國民經濟的穩(wěn)定發(fā)展,中國正步入改革開放的關鍵時期,經濟全球化的發(fā)展和國家政策的支持正給國內企業(yè)發(fā)展帶來新的機遇與挑戰(zhàn)。企業(yè)信息作為企業(yè)決定自身發(fā)展、企業(yè)間合作及政府監(jiān)管的一項重要依據,對推動經濟社會的發(fā)展有著重大影響?;谄髽I(yè)產生的大量數據,具有重要的研究價值和實踐意義[1]。
然而,大數據時代的到來引發(fā)的“信息爆炸”使得人在輕松獲取大量信息的同時,也帶來了信息來源繁雜、數據散亂無序、質量真?zhèn)坞y辨等諸多問題,這些問題使得全面了解一個企業(yè)變得困難。用戶所需的企業(yè)相關知識通常是穩(wěn)定和行業(yè)通用的,但這些知識往往以圖形、文檔等不同形式存在,存儲地點零散,分布平臺廣泛,查找費時費力又難以保證準確性。這樣的信息難以獲取更加難以讓用戶進行閱讀和理解,因此深入關聯地挖掘企業(yè)各種信息之間潛在的關系,挖掘互聯網上實時的財經公告和新聞信息等非結構化文本信息,對相關信息進行識別整合,有助于改善用戶的閱讀體驗和效率。
在此前提下,本研究以商業(yè)領域信息為研究對象,針對命名實體識別任務提出Bi-LSTM-CRF命名實體識別算法,幫助用戶挖掘和組織商業(yè)領域的信息。
1?相關工作
實體識別,就是指從文本中識別出有意義的命名性實體,并將其劃分到指定類別的過程,主要包括人名、地名、機構名、專有名詞的識別等。實體識別最早在上世紀90年代的MUC任務中被提出,自此一直是信息抽取和自然語言處理領域研究的熱點課題[2]。
早期的命名實體識別(Named Entity Recognition,NER)主要使用基于規(guī)則的方法,通過分析實體的構成特點和上下文特征,人工構造有限的特定規(guī)則,再從文本中識別滿足這些規(guī)則的實體。如Ralph G N[3]針對不同類型的實體編寫不同的抽取規(guī)則,周昆等[4-5]構建了命名實體識別的規(guī)則庫。此類方法中規(guī)則的制定編寫通常需要眾多領域專家來參與,對語言參與者的知識水平的要求很高,難度大,可移植性低。
到20世紀90年代后期,基于統計的方法開始成為處理命名實體識別問題的主流。HMM[6-7]、ME[8]、CRF[9]和SVM[10]等常見的統計機器學習模型都被成功應用于命名實體的序列標注問題上,且取得了較好的結果。其中,條件隨機場(CRF)方法是最為常見的一類模型,它是Lafferty J D等在2001年提出的一種典型的判別式模型(Discirminative Model)[11],既擁有判別式模型的優(yōu)點,又兼具生成式模型考慮生成標簽的轉移特征的特性,因此在命名實體識別任務中得到了廣泛地研究與應用。
近年來,基于深度學習的方法能夠從數據中自主的學習特征,而不需要人為的去設定特征,成為研究的熱點,也有越來越多的學者把深度學習模型應用到命名實體的識別之中。如王國昱[12]基于棧式自編碼的深度神經網絡模型(DNN),在人民日報語料集上的地名、機構名的識別,Dong X等[13]基于卷積神經網絡(CNN)模型,提出一種兩階段的電子病歷的命名實體識別方法,朱丹浩等[14]基于詞向量的雙向長短時記憶神經網絡模型(BI-LSTM)等。
綜上所述,本文在分析了商業(yè)領域企業(yè)名稱、人物名稱的構成特點之后,將結合LSTM[15]模型和CRF模型進行商業(yè)領域企業(yè)名、人名的命名實體識別研究。
2?商業(yè)領域實體識別
實體信息除了可以在各種相應的網站的結構化或半結構化的數據之中抽取,例如政府監(jiān)管機構公布的企業(yè)信息,企業(yè)公布的年報等等,還有更多豐富的信息蘊藏在大量的、動態(tài)的財經資訊、商業(yè)公告這類非結構化數據之中。
2.1?模型框架
本文提出一種綜合多特征的Bi-LSTM-CRF深度學習模型進行商業(yè)領域中企業(yè)全稱、企業(yè)簡稱與人名的命名實體識別工作,模型整體架構如圖1所示。該模型為基于字符的序列標注模型,主要可分為3部分:輸入特征層、Bi-LSTM中間層、CRF輸出層。首先將文本分割成一個一個字,每個字使用拼接的特征向量表示,作為模型的輸入;中間層使用包含前向和后向兩個方向的LSTM神經網絡層對輸入的文本序列建模;最后采用CRF層作為模型的輸出層生成對應的類別標簽序列。
1)Input:Input為模型的輸入特征層。將訓練集文本看成是字的聚合,每個字在模型的輸入由字向量(Char Embedding)和額外的特征向量(Additional Features)聯結而成。其中字向量為Word2Vec訓練出的詞向量,額外的特征向量為不同特征組合(分詞特征、詞性特征及實體邊界特征)下拼接形成的特征向量。
2)Bi-LSTM:利用雙向的具有LSTM單元的循環(huán)神經網絡對輸入序列信息進行特征提取,最終將兩個方向的LSTM結果進行聯結,輸入到CRF層。
3)CRF Layer:CRF作為模型的輸出層,生成文本的序列標注結果。
其中,在Input和Bi-LSTM層之間,還使用了一個Dropout參數進行正則化。Dropout通過在前向計算過程使一定比例的單元隨機失活來防止隱藏單元的共同調整,使得網絡對于噪聲更具魯棒性。
2.2?輸入特征層
首先,在對語料進行分詞后,使用分布式表示將每個詞映射到一個較短的詞向量上,解決One-hot向量維度過大的問題。同時考慮到傳統模型輸入只考慮字級別的詞向量,可能會丟失詞語層面的語義信息,因此本文在此基礎上,從百科網站、企業(yè)黃頁、搜狗詞庫等語料庫中搜集大量相關語料信息,研究分析商業(yè)領域中企業(yè)名稱、人名的構成特點,得到了商業(yè)領域中關于企業(yè)名稱、人名獨特的分詞特征、詞性特征和實體邊界特征,定義了額外的特征向量作為模型的輸入補充,以提高模型識別的效果。
2.3?Bi-LSTM-CRF層
本文采用雙向長短時記憶神經網絡和條件隨機場相結合(Bi-LSTM-CRF)的方法,構建神經網絡模型進行3類實體的識別。該方法相較于傳統的機器學習的優(yōu)勢在于,神經網絡可以自行學習數據的特征,無需人工構建復雜的特征工程,可以獲得不錯的效果。由于神經網絡具備自主學習特征的特性,使得我們可以將多個不同類別的命名實體任務結合到一個模型中,將不同類型的命名實體識別任務轉化為有監(jiān)督的多類別的序列標注問題,提升識別任務的工作效率。
2.3.1?LSTM
LSTM(Long Short-Term Memory,長短期記憶網絡),是近年來較為火熱用來進行命名實體識別的深度學習模型。LSTM是RNN(Recurrent Neural Network,循環(huán)神經網絡)的基礎上改進而來的一個模型,本質是具備長短時記憶單元的循環(huán)神經網絡,其緩解了傳統RNN訓練時產生的梯度消失問題,且能建模詞之間的長期依賴關系,被廣泛地應用于文本序列建模任務中。LSTM計算過程如圖2所示。
LSTM計算過程包括以下步驟:
1)遺忘門的計算。選擇需要丟棄的信息。其
2.3.2?BI-LSTM
單向的LSTM神經網絡模型,只能獲取句子的上文信息,對于句子的下文信息無法獲取。為了彌補這一不足,本文采用雙向長短時期神經網絡(BI-LSTM)模型。BI-LSTM神經網絡模型,分別從前向和后向對句子進行分析,這樣既能保存前面的上下文信息,也能同時考慮到句子未來的上下文信息,使其在命名實體識別任務中可以取得更好的效果。
2.3.3?條件隨機場
LSTM模型,對于每個輸入詞而言,其輸出是獨立的,無法學習到輸出標簽之間的轉移特征,而CRF能夠很好地解決這個問題。
在BI-LSTM-CRF模型中,首先定義了句子X輸出標簽序列y的分值s(X,y)的計算公式[16]:
3?實驗設置與結果分析
3.1?數據采集及預處理
1)數據集來源
本文數據集主要來源于財經網站。目前,國內較有影響力的財經網站有東方財富網、財經網、和訊網、新浪財經、網易財經等,如表1所示,通過對比百度搜索指數提供的多個網站的整體搜索指數和移動搜索指數,本文最終選擇關注度最高、最受用戶歡迎的東方財富網作為本文的實驗信息來源。具體數據采集方式為人工編寫相應的爬蟲框架,通過分析網頁數據的分布特征,針對性地采集東方財富網上的財經公告板塊。
按照既定的規(guī)則模板爬取頁面上的數據信息時,由于模板的覆蓋面終究有限,解析出的文本內容往往存在一些“雜質”,如一些HTML標簽〈br〉、〈em〉,無法識別的特殊字符,多余的空白占位符等,這些都會對后續(xù)的信息抽取產生不良影響。針對這些殘留的HTML標簽和特殊字符,本文統一借助正則表達式實現相應的過濾和替換操作,以獲取高質量、無雜質的網頁文本數據集。
2)數據集
本實驗數據來源于爬取的東方財富網財經公告數據。其中,人工標注了1 200篇文本數據作為實驗的數據集,如表2所示,涉及企業(yè)全稱實體2 985個,企業(yè)簡稱實體3 095個,人名實體1 139個,合計實體7 219個。處理完的數據集格式部分如圖5所示,采用BIO標注模式,文本中的每一個字及相應的標注即為一行,其中ORG表示企業(yè)全稱實體,ABR_ORG表示企業(yè)簡稱實體,PERSON表示人名實體,O表示非實體。即在該圖中,“長沙海格”表示一個企業(yè)簡稱實體,“易燦”、“徐建軍”分別表示一個人名實體,“湖南高新創(chuàng)業(yè)投資集團有限公司”表示一個企業(yè)全稱實體。最終將數據集按7/3的比例劃分訓練集和測試集,進行命名實體模型的訓練。
3.2?實驗設計
為了尋找模型的最佳參數配置,本文進行了參數搜索試驗。搜索過程中,將詞向量的維度定在[50,100,150]之間,每層LSTM的單元數定在[64,128]之間,Dropout定在[0.4,0.5,0.6]之間。最終定下模型最佳的訓練參數設置如表3所示,即:字向量維度為100,分詞特征、詞性特征、邊界特征向量維度為20,每層LSTM維度為128,Dropout值為0.5,Batch Size大小為20,學習率為0.001,優(yōu)化算法為Adam。
為了驗證文本提出的Bi-LSTM-CRF神經網絡模型和添加的特征組合的有效性,在該部分設計了兩類任務:1)比較傳統CRF模型和Bi-LSTM-CRF神經網絡模型在本文命名實體識別任務中的實體識別效果。2)探究在Bi-LSTM-CRF神經網絡模型下,針對3類實體識別效果最好的輸入特征組合。
最終定義了10個模型進行對比:
模型1:只考慮輸入單詞本身特征的CRF模型。
模型2:考慮輸入單詞本身及詞性特征以及上下文單詞及詞性特征的CRF模型。
模型3:只考慮字向量輸入的Bi-LSTM-CRF模型。
模型4:考慮字向量、分詞特征的Bi-LSTM-CRF神經網絡模型。
模型5:考慮字向量、詞性特征的Bi-LSTM-CRF神經網絡模型。
模型6:考慮字向量、實體邊界特征的Bi-LSTM-CRF神經網絡模型。
模型7:考慮字向量、分詞特征、詞性特征的Bi-LSTM-CRF神經網絡模型。
模型8:考慮字向量、分詞特征、實體邊界特征的Bi-LSTM-CRF神經網絡模型。
模型9:考慮字向量、實體邊界特征、詞性特征的Bi-LSTM-CRF神經網絡模型。
模型10:考慮字向量、分詞特征、詞性特征、實體邊界特征的Bi-LSTM-CRF神經網絡模型。
具體實驗中,為方便書寫,將分詞特征簡寫為Word,詞性特征簡寫為Pos,邊界特征簡寫為Boundary。
3.3?任務一實驗結果分析
任務一的實驗結果如表4所示,從中可以發(fā)現:
1)對比模型1與模型3,在僅考慮字向量輸入的情況下,模型3的命名實體識別F值達到了87.82%,明顯高于模型1的F值82.89%,且在企業(yè)全稱實體、企業(yè)簡稱實體、綜合識別效果上都達到了最佳,而人名實體識別比模型1略低但差距不大。綜合來看,Bi-LSTM-CRF神經網絡模型的實體識別效果明顯優(yōu)于傳統的CRF模型。
2)對比模型2與模型3,模型2為考慮了詞本身單詞特征、詞本身詞性特征、上下文詞特征、上下文詞性特征等多種特征組合的CRF模型,其實體識別的F值為85.66%,比模型1的F值高2.77%,但仍比模型3的F值低2.16%。這表明考慮特征組合的CRF模型的實體識別效果與傳統CRF模型相比有明顯提升,但仍低于無特征的Bi-LSTM-CRF模型的識別效果。
3.4?任務二實驗結果分析
任務二的實驗結果如表5所示,從中可以看出:
1)無論是分詞特征、詞性特征還是實體邊界特征,都有助于模型識別效果的提升,尤其是詞性特征,添加后模型整體F值比基準模型高出了2個百分點。
2)實體邊界特征的添加對企業(yè)全稱的識別有顯著的提升,企業(yè)全稱的識別F值直接從89.77%上升到了93.27%。詞性特征的添加對企業(yè)簡稱的識別F值有小幅度的提升,從86.05%提升到了87.60%。分詞特征和詞性特征的組合添加對人名識別有著顯著的提升,人名識別的F值從87.52%上升到了92.17%。這說明本文結合實體自身的特點,提出的額外特征是有效的,這些特征在不同程度上都提高了命名實體的識別質量。
3)最好的模型是綜合考慮3種特征組合的模型,即模型10,其在企業(yè)全稱識別的F值上達到了93.95%,企業(yè)簡稱識別的F值上達到了87.09%,人名識別的F值達到了93.62%,綜合F值達到90.85%,超出基準模型3個百分點,超出傳統CRF模型8個百分點。這再一次驗證了本文提出的特征的有效性,綜合使用這3種特征能顯著提升神經網絡模型對于企業(yè)全稱、企業(yè)簡稱及人名命名實體的識別效果。
以上模型中企業(yè)簡稱的識別率相對較低,提升幅度也最小,究其原因可能是:企業(yè)簡稱構詞復雜、形式多變,神經網絡難以捕捉到其特征;模型訓練依賴于標注語料,可能存在人工標注的部分錯誤和遺漏,導致模型識別出的簡稱被判斷錯誤;且標注語料中,企業(yè)簡稱的標注數量也相對較少,導致模型訓練不充分;另外人工添加的特征中,詞性特征和詞典特征對企業(yè)簡稱的覆蓋也較少,實體邊界特征更是只考慮人名和企業(yè)全稱的構成規(guī)則,沒有考慮企業(yè)簡稱的自身特點,因此額外添加的特征對企業(yè)簡稱的識別提升較小。但總體來說,采用添加分詞特征、詞性特征和實體邊界特征的Bi-LSTM-CRF神經網絡模型對企業(yè)全稱和人名的識別率都在93%之上,3類實體的識別率在90%之上,這對于在商業(yè)領域的文本中抽取相關實體是非常有助益的。
4?總結及展望
本文從商業(yè)領域中企業(yè)名稱、人名的構成特點考慮,提出一種綜合分詞特征、詞性特征和實體邊界特征的Bi-LSTM-CRF深度學習模型,實現對商業(yè)領域中3類實體的命名實體識別工作,實驗驗證了本文提出方法的有效性。在未來的研究中,還將考慮企業(yè)間實體的開放性抽取,并對抽取的實體關系進行聚類研究,進一步探索使用更為復雜的神經網絡模型來實現商業(yè)領域的命名實體識別。
參考文獻
[1]田娟,朱定局,楊文翰.基于大數據平臺的企業(yè)畫像研究綜述[J].計算機科學,2018,45(S2):58-62.
[2]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現代圖書情報技術,2010,(6):42-47.
[3]Ralph G N.The NYU System for MUC-6 or Wheres the Syntax?[C]//Message Understanding Conference,1995.
[4]周昆.基于規(guī)則的命名實體識別研究[D].合肥:合肥工業(yè)大學,2010.
[5]鄭家恒,李鑫,譚紅葉.語料庫的中文姓名識別方法研究[J].中文信息學報,2000,(1):7-12.
[6]Bikel D M,Miller S,Schwartz R,et al.Nymble:A High-performance Learning Name-finder[C]//Conference on Applied Natural Language Processing,1997.
[7]Bikel D M,Schwartz R,Weischedel R M.An Algorithm that Learns Whats in a Name[J].Machine Learning,1999,34(1-3):211-231.
[8]Borthwick A E.A Maximum Entropy Approach to Named Entity Recognition[M].New York University,1999.
[9]Mccallum A,Li W.Early Results for Named Entity Recognition with Conditional Random Fields,Feature Induction and Web-Enhanced Lexicons[C]//Conference on Natural Language Learning at Hlt-naacl.Association for Computational Linguistics,2003.
[10]Isozaki H,Kazawa H.Efficient Support Vector Classifiers for Named Entity Recognition[C]//International Conference on Computational Linguistics,2002.
[11]Lafferty J D,Mccallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[J].Proceedings of Icml,2001,3(2):282-289.
[12]王國昱.基于深度學習的中文命名實體識別研究[D].北京:北京工業(yè)大學,2015.
[13]Dong X,Qian L,Guan Y,et al.A Multiclass Classification Method Based on Deep Learning for Named Entity Recognition in Electronic Medical Records[C]//Scientific Data Summit.IEEE,2016.
[14]朱丹浩,楊蕾,王東波.基于深度學習的中文機構名識別研究——一種漢字級別的循環(huán)神經網絡方法[J].現代圖書情報技術,2016,(12):36-43.
[15]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.
[16]李明浩,劉忠,姚遠哲.基于LSTM-CRF的中醫(yī)醫(yī)案癥狀術語識別[J].計算機應用,2018,38(S2):42-46.
(責任編輯:孫國雷)