亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多特征的老撾機(jī)構(gòu)名實(shí)體識(shí)別方法

        2020-10-13 05:20:56晏雷周蘭江張建安周楓
        現(xiàn)代電子技術(shù) 2020年19期

        晏雷 周蘭江 張建安 周楓

        摘? 要: 為了解決老撾機(jī)構(gòu)名實(shí)體構(gòu)詞方法和語法規(guī)則復(fù)雜的問題,提出融合多特征的CRF與SVM的實(shí)體識(shí)別框架。面向老撾語機(jī)構(gòu)名構(gòu)詞特點(diǎn),將老撾機(jī)構(gòu)名稱分為前綴詞和后綴詞,將前綴詞提取構(gòu)造成一個(gè)機(jī)構(gòu)名稱特征詞典,基于詞典與SVM模型確定老撾機(jī)構(gòu)名稱前界,再使用融合多特征的CRF模型識(shí)別機(jī)構(gòu)名稱;最后使用SVM確定的前綴詞修正CRF的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,精確率達(dá)到83.49%,召回率達(dá)到81.99%,證明了該方法的有效性。文中方法結(jié)合了SVM模型與CRF模型的優(yōu)點(diǎn),并融合了老撾機(jī)構(gòu)名稱的相關(guān)語言學(xué)特征,取得了較好的識(shí)別效果。

        關(guān)鍵詞: 老撾語; 機(jī)構(gòu)名稱識(shí)別; 多特征融合; 前綴詞提取; 識(shí)別結(jié)果修正; 實(shí)驗(yàn)結(jié)果分析

        中圖分類號(hào): TN911.1?34; TP391? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)19?0122?04

        Abstract: In order to solve the problem that the word?formation method and grammatical rules of Lao organization name entities are complex, an entity identification framework of CRF (conditional random field) and SVM (support vector machine) fusing multiple features is proposed. According to the word?formation characteristics of institution names in Lao language, the Lao institution names are divided into prefix words and suffix words. The prefix words are extracted to build a dictionary about institutional name features. The prezones of the Lao institution names are determined on the basis of the dictionary and SVM model. The CRF model fusing multiple features is used to identify the institution names. Finally, the prefix words determined by SVM are used to correct the recognition results of CRF. The experimental results show that the accuracy rate of the method reaches 83.49% and its recall rate reaches 81.99%, which prove the effectiveness of the method. In the proposed method, the advantages of the SVM model and CRF model are combined, and the relevant linguistic features of Lao institution names are integrated, which achieve good recognition results.

        Keywords: Lao; organization name recognition; multi?feature fusion; prefix word extraction; recognized result correction; experiment result analysis

        0? 引? 言

        命名實(shí)體識(shí)別一直是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù),如信息抽取、文本摘要、機(jī)器翻譯等[1]。命名實(shí)體一般分為七大類,分別為人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比[2]。時(shí)間、日期、貨幣和百分比由于形式比較固定,識(shí)別比較簡單;相較于人名、地名而言,機(jī)構(gòu)名結(jié)構(gòu)復(fù)雜、長短不一、組成多樣,不同機(jī)構(gòu)名差異較大,這些都加大了機(jī)構(gòu)名識(shí)別的難度。本文的研究內(nèi)容主要是面向老撾語中機(jī)構(gòu)名稱的識(shí)別。

        近年來,在命名實(shí)體識(shí)別領(lǐng)域主要使用的是基于統(tǒng)計(jì)的方法與基于神經(jīng)網(wǎng)絡(luò)的方法。文獻(xiàn)[3]采用SVM與HMM疊加的方法對(duì)實(shí)體詞進(jìn)行識(shí)別,但是由于HMM模型需要嚴(yán)格的獨(dú)立性假設(shè),使其不能學(xué)習(xí)長遠(yuǎn)的上下文特征。文獻(xiàn)[4]提出一種基于角色集的方法識(shí)別實(shí)體名并取得了較好結(jié)果,但該方法對(duì)于不同語種移植性較差,同時(shí)角色集的設(shè)計(jì)對(duì)實(shí)驗(yàn)結(jié)果影響較大,需要多次實(shí)驗(yàn)才能確定最優(yōu)角色集。文獻(xiàn)[5]中使用的基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法具有泛化性強(qiáng)、更少依賴人工特征的優(yōu)點(diǎn),但是目前老撾語命名實(shí)體識(shí)別語料稀少,并不能為神經(jīng)網(wǎng)絡(luò)提供大量的標(biāo)注數(shù)據(jù),所以該方法移植到老撾語上效果一般。

        針對(duì)老撾機(jī)構(gòu)名實(shí)體構(gòu)詞方法和語法規(guī)則復(fù)雜的問題,本文提出融合多特征的CRF模型與SVM相結(jié)合的方法。首先,利用SVM模型結(jié)合特征詞典對(duì)老撾機(jī)構(gòu)名前綴詞進(jìn)行識(shí)別;再利用融合詞的上下文信息、詞性、特征詞典、左右指界詞特征的CRF模型對(duì)機(jī)構(gòu)名實(shí)體進(jìn)行識(shí)別;最后,使用SVM的前綴詞的識(shí)別結(jié)果對(duì)CRF的識(shí)別結(jié)果進(jìn)行修正。實(shí)驗(yàn)表明,本文方法能夠明顯提高識(shí)別結(jié)果的準(zhǔn)確率。

        1? 系統(tǒng)框架

        本文進(jìn)行的老撾語機(jī)構(gòu)名實(shí)體識(shí)別的研究以詞匯為最小判別單元,使用的標(biāo)注集合為[{B,I,O}],其中,命名實(shí)體首字符標(biāo)為[B]、命名實(shí)體其他字符標(biāo)為[I]、非實(shí)體字符標(biāo)為[O]。系統(tǒng)的框架結(jié)構(gòu)如圖1所示,共分為三層。第一層為輸入層,首先將句子做分詞處理,再將句子處理為模型所需的格式輸入到模型中進(jìn)行訓(xùn)練。第二層為模型層,將句子輸入到訓(xùn)練好的兩個(gè)模型中,得到標(biāo)記結(jié)果,當(dāng)SVM模型標(biāo)記該詞為老撾機(jī)構(gòu)名稱前綴詞[B]并且CRF模型也標(biāo)記該詞為[B]時(shí),方可確定該詞為老撾機(jī)構(gòu)名前綴詞,并取CRF中[I]的標(biāo)記結(jié)果確定一個(gè)完整的實(shí)體名;當(dāng)只有一個(gè)模型認(rèn)為該詞為前綴詞,另一個(gè)模型沒有進(jìn)行該標(biāo)記則跳過該詞。第三層為輸出層,綜合兩個(gè)模型的輸出得到最終的標(biāo)注結(jié)果。

        2? SVM模型

        2.1? SVM原理

        根據(jù)老撾語機(jī)構(gòu)名稱的特點(diǎn)構(gòu)建特征向量,使用SVM模型對(duì)特征向量進(jìn)行分類,可以抽象成一個(gè)非線性分類問題。解決非線性分類問題的辦法是將原來低維空間的訓(xùn)練數(shù)據(jù)映射到一個(gè)使訓(xùn)練數(shù)據(jù)線性可分的更高維的空間中,通過SVM模型找到最優(yōu)分類超平面[6],對(duì)數(shù)據(jù)進(jìn)行分類,訓(xùn)練模型。

        定義訓(xùn)練集如下:

        SVM模型通過找到最優(yōu)分類超平面對(duì)數(shù)據(jù)進(jìn)行劃分[7],該超平面可通過凸二次規(guī)劃方程求解得到:

        對(duì)句子中存在于特征詞典中的詞,使用SVM模型進(jìn)行判斷,若得到標(biāo)簽為+1,則確定其為老撾機(jī)構(gòu)名稱的前界;若得到標(biāo)簽為-1,則確定其不是老撾機(jī)構(gòu)名稱中的詞。

        2.2? 特征詞典的構(gòu)造

        老撾機(jī)構(gòu)名稱形式相對(duì)固定。在老撾語中一般實(shí)體都會(huì)以特征詞作為一個(gè)機(jī)構(gòu)實(shí)體詞的開頭,形式為前綴詞+后綴詞,如老撾國立大學(xué)(???????????????????)分為前綴詞(????????????)與后綴詞(???????)。將形如大學(xué)(????????????)這種機(jī)構(gòu)名稱前綴詞加入特征詞詞典。為了更加符合實(shí)際應(yīng)用情況,只將訓(xùn)練集中的機(jī)構(gòu)名稱特征詞提出來并去重后加入特征詞詞典,測試集中的詞不加入特征詞詞典。表1中是部分特征詞。

        2.3? SVM識(shí)別老撾機(jī)構(gòu)名稱前綴詞

        前綴詞的識(shí)別可以看作是一個(gè)二分類問題。SVM模型是一個(gè)使用監(jiān)督學(xué)習(xí)的方式對(duì)數(shù)據(jù)進(jìn)行二值分類的分類器。使用SVM對(duì)老撾語機(jī)構(gòu)名稱前綴詞進(jìn)行識(shí)別,當(dāng)句子中存在特征詞典的詞出現(xiàn)時(shí),將其加入前綴詞候選詞,使用SVM模型進(jìn)行識(shí)別,確認(rèn)其是否為老撾語機(jī)構(gòu)名稱前綴詞。根據(jù)語料特性,結(jié)合識(shí)別效果和效率,定義11維向量,格式如下:

        其中:[L]表示標(biāo)簽類型,[L∈-1,? 1],[L= 1]表示該特征向量為正類,該詞是機(jī)構(gòu)名稱前綴詞,[L=-1]表示該特征向量為負(fù)類,該詞不是機(jī)構(gòu)名稱前綴詞;[W]表示老撾語單詞的詞形;[P]表示其詞性;-2,-1,0,1,2表示單詞的位置信息,0代表當(dāng)前詞,1代表當(dāng)前詞后面的第一個(gè)詞,-1代表當(dāng)前詞前面的第一個(gè)詞,以此類推。根據(jù)定義的向量格式構(gòu)建相應(yīng)向量如下所示:

        1???ADJ?????????? N????? N??????? N?????N

        將標(biāo)注語料輸入SVM模型進(jìn)行訓(xùn)練與測試,得到老撾機(jī)構(gòu)名稱前綴詞識(shí)別結(jié)果。

        3? 條件隨機(jī)場模型

        3.1? 條件隨機(jī)場原理

        自Laggerty等在2001年提出條件隨機(jī)場以來,在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用[8]。對(duì)比HMM與MEMM模型,其打破了條件獨(dú)立性假設(shè),在給定觀察序列[X]和輸出的標(biāo)注序列[Y]時(shí),使用條件概率[PYX]描述概率模型,并以序列化進(jìn)行全局參數(shù)優(yōu)化,解決了labelbias問題,使其在序列標(biāo)注問題上獲得了更好的表現(xiàn)。

        條件隨機(jī)場是一種無向圖模型[9],其中最簡單的鏈?zhǔn)浇Y(jié)構(gòu)圖如圖2所示,此處只將觀察序列[Y]作為條件,不對(duì)其做任何獨(dú)立性假設(shè)。

        在給定觀察序列[X={x1,x2,…,xn}]的情況下,計(jì)算并輸出對(duì)應(yīng)的狀態(tài)序列[Y={y1,y2,…,yn}],其條件概率為:

        式中:[ZX]為歸一化因子,使得所有狀態(tài)序列的概率和為1;[tjyi-1,yi,xi]是關(guān)于觀測序列和位置[i]及[i-1]標(biāo)記的轉(zhuǎn)移概率的函數(shù),稱為轉(zhuǎn)移函數(shù);[t′jyi,xi]是關(guān)于觀測序列和位置[i]標(biāo)記的狀態(tài)特征的函數(shù),稱為狀態(tài)函數(shù);[λj]和[λ′j]分別為[tj]和[t′j]的權(quán)重,需要通過訓(xùn)練得到。

        最大可能的標(biāo)注序列可通過維特比算法解碼得出:

        3.2? 特征選擇

        在使用CRF進(jìn)行機(jī)構(gòu)名稱識(shí)別時(shí),除了語料大小會(huì)對(duì)結(jié)果產(chǎn)生重要的影響,特征模版也會(huì)對(duì)結(jié)果產(chǎn)生直接影響。本文針對(duì)老撾組織機(jī)構(gòu)名實(shí)體識(shí)別的任務(wù)結(jié)合老撾語句子的詞匯特征、句法特征提取如下特征模板。

        1) 詞匯上下文特征

        根據(jù)老撾機(jī)構(gòu)名的語言特性,本文將詞匯上下文特征的窗口設(shè)置為5。此時(shí)輸入句子序列的具體形式為[i=2NWi],其中,[N]為句子長度,[Wi]為一個(gè)大小為5的窗口,具體如下所示:

        式中:[wi]為當(dāng)前觀察的詞匯;[ti]為當(dāng)前詞匯的標(biāo)簽。具體的特征模板如表2所示。

        2) 詞性特征

        當(dāng)前的觀察詞與該詞所對(duì)應(yīng)的詞性[pi]。此時(shí)輸入的句子序列如下所示:

        對(duì)應(yīng)的詞性特征[wipi]也加入特征模板中。

        3) 特征詞表

        特征詞是表示該組織機(jī)構(gòu)名實(shí)體類別屬性的構(gòu)件[10],如“?????????????????(坦克?裝甲局)”中的“???(局)”即為一個(gè)特征詞。此處特征詞表與上一節(jié)中特征詞典內(nèi)容一致。在輸入的句子序列中,加上一列特征詞標(biāo)記[ci],如果當(dāng)前觀察詞匯出現(xiàn)在特征詞表中,令[ci=Y],否則,令[ci=N]。

        4) 左右指界詞表

        指界詞即出現(xiàn)在機(jī)構(gòu)名前或后的第一個(gè)詞,例如左指界詞????(通過)后面會(huì)伴隨出現(xiàn)機(jī)構(gòu)名;右指界詞?????(主席)一般出現(xiàn)在機(jī)構(gòu)名后。出現(xiàn)次數(shù)不同的指界詞對(duì)機(jī)構(gòu)名邊界的指示作用不同,受語料大小所限,本文實(shí)驗(yàn)中只取出現(xiàn)頻率最高的20個(gè)指界詞。同樣,在句子輸入序列中,加上一列左右指界詞標(biāo)記[mi],如果當(dāng)前觀察詞匯出現(xiàn)在特征詞表中,令[mi=Y],否則,令[mi=N]。

        根據(jù)以上4個(gè)特征,構(gòu)造4組不同的訓(xùn)練語料:第一組為詞+[BIO]標(biāo)簽;第二組為詞+詞性+[BIO]標(biāo)簽;第三組為詞+詞性+特征詞表+[BIO]標(biāo)簽;第四組為詞+詞性+特征詞表+左右指界詞表+[BIO]標(biāo)簽。第四組語料標(biāo)注示例如表3所示。

        4? 實(shí)? 驗(yàn)

        4.1? 數(shù)據(jù)集

        本文的實(shí)驗(yàn)語料主要通過對(duì)老撾新聞網(wǎng)站的爬取,然后再通過老撾語專家和老撾留學(xué)生進(jìn)行標(biāo)注,并對(duì)語料進(jìn)行分詞、詞性標(biāo)注等預(yù)處理,并設(shè)計(jì)程序?qū)ψ笥抑附缭~進(jìn)行統(tǒng)計(jì)。語料庫約18.9 MB,其中,70%的語料用來訓(xùn)練,30%的語料用來測試。

        4.2? 結(jié)果分析

        本文使用3個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),分別是準(zhǔn)確率[P]、召回率[R]和[F]值。準(zhǔn)確率指的是一個(gè)算法的查準(zhǔn)率,召回率指的是一個(gè)算法的查全率,[F]值是綜合考慮準(zhǔn)確率和召回率的指標(biāo)[11]。計(jì)算公式如下:

        使用SVM模型對(duì)上述老撾機(jī)構(gòu)名稱前綴詞的識(shí)別實(shí)驗(yàn)結(jié)果如表4所示。

        使用4組不同的模板訓(xùn)練CRF模型,得到的對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。

        使用SVM與融合多特征的CRF方法進(jìn)行實(shí)驗(yàn),對(duì)比CRF模型中取得的最好實(shí)驗(yàn)結(jié)果,對(duì)比結(jié)果如表6所示。

        從實(shí)驗(yàn)結(jié)果可以看出:由于標(biāo)注語料有限,可以看出在詞與詞性的基礎(chǔ)上融合特征詞典的特征對(duì)識(shí)別準(zhǔn)確率提升不大;CRF模型中融合了詞、詞性、特征詞典、左右指界詞的模型效果,在CRF的4組實(shí)驗(yàn)中效果最好,說明融合的特征都是有效的。單純使用特征詞典+SVM模型,對(duì)老撾機(jī)構(gòu)名左邊界的識(shí)別效果較好。基于SVM與融合多特征的CRF的模型在CRF的基礎(chǔ)上有效地提高了準(zhǔn)確率,召回率沒有改變,說明SVM對(duì)左邊界的識(shí)別結(jié)果能夠有效剔除CRF中的錯(cuò)誤實(shí)體結(jié)果,減小FP的數(shù)量,從而提高識(shí)別機(jī)構(gòu)名實(shí)體的準(zhǔn)確率。但是由于本文的實(shí)驗(yàn)結(jié)果是基于正確分詞和詞性標(biāo)注的基礎(chǔ)上,實(shí)際上分詞與詞性標(biāo)注上的錯(cuò)誤都會(huì)降低識(shí)別的精確度。

        5? 結(jié)? 語

        本文針對(duì)老撾語機(jī)構(gòu)名稱構(gòu)詞的語法特點(diǎn),建立一種基于SVM和CRF的雙層模型,對(duì)老撾機(jī)構(gòu)名稱進(jìn)行識(shí)別。在特征詞詞典的基礎(chǔ)上,使用SVM模型對(duì)老撾語機(jī)構(gòu)名稱特征詞進(jìn)行識(shí)別,并通過CRF模型融合老撾機(jī)構(gòu)名稱特征對(duì)機(jī)構(gòu)名稱進(jìn)行標(biāo)注,結(jié)合SVM的前綴詞識(shí)別結(jié)果,有效降低了CRF模型預(yù)測錯(cuò)誤實(shí)體的個(gè)數(shù),從而達(dá)到了提高準(zhǔn)確率的目的。

        實(shí)驗(yàn)表明,本文方法能夠獲得較好的老撾機(jī)構(gòu)實(shí)體的識(shí)別準(zhǔn)確率,但是不足之處也較為明顯,特征詞典為人工收集,對(duì)于未錄入特征詞詞典的機(jī)構(gòu)名稱則無法進(jìn)行識(shí)別,這還有待于后續(xù)進(jìn)一步深入的研究;語料的不足也對(duì)實(shí)驗(yàn)結(jié)果有一定的影響,后續(xù)工作還要繼續(xù)擴(kuò)充標(biāo)注好的語料庫。

        參考文獻(xiàn)

        [1] 武惠,呂立,于碧輝.基于遷移學(xué)習(xí)和BiLSTM?CRF的中文命名實(shí)體識(shí)別[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(6):1142?1147.

        [2] 段韶鵬.老撾語命名實(shí)體識(shí)別研究[D].昆明:昆明理工大學(xué),2017.

        [3] 祝繼鋒.基于SVM和HMM算法的中文機(jī)構(gòu)名稱識(shí)別[D].吉林:吉林大學(xué),2017.

        [4] 李麗雙,郭元?jiǎng)P.基于CNN?BLSTM?CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào),2018,32(1):116?122.

        [5] 潘璀然,王青華,湯步洲,等.基于句子級(jí)Lattice?長短記憶神經(jīng)網(wǎng)絡(luò)的中文電子病歷命名實(shí)體識(shí)別[J].第二軍醫(yī)大學(xué)學(xué)報(bào),2019,40(5):497?506.

        [6] 許華.基于有監(jiān)督學(xué)習(xí)的醫(yī)療實(shí)體抽取方法研究[D].武漢:武漢科技大學(xué),2016.

        [7] 周曉磊,趙薛蛟,劉堂亮,等.基于SVM?BiLSTM?CRF模型的財(cái)產(chǎn)糾紛命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(1):245?250.

        [8] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 2001: 282?289.

        [9] SARAWAGI S. Sequence segmentation using semi?Markov conditional random fields [J]. Journal of the Indian Institute of Science, 2019, 99(2): 215?224.

        [10] 李明鑫.基于信息抽取的實(shí)體知識(shí)庫系統(tǒng)研究[D].北京:北京交通大學(xué),2017.

        [11] 羅鈺敏,劉丹,尹凱,等.加權(quán)平均Word2Vec實(shí)體對(duì)齊方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(7):1927?1933.

        [12] 楊夢杰.老撾語命名實(shí)體識(shí)別方法的研究[D].昆明:昆明理工大學(xué),2016.

        久久精品国产www456c0m| 成人av毛片免费大全| 风韵丰满熟妇啪啪区老老熟妇| 午夜性无码专区| 亚洲国产精品线路久久| 日本一区二区亚洲三区| 久久精品国产免费一区二区三区| 国产成人精品999视频| 欲妇荡岳丰满少妇岳| 欧美日韩国产乱了伦| 成人男性视频在线观看| 国产公开免费人成视频| 狠狠色噜噜狠狠狠狠888奇禾| 啊v在线视频| 少妇又骚又多水的视频| 欧美人与禽2o2o性论交| 韩国三级中文字幕hd久久精品 | 久久亚洲道色综合久久| 欧美aaaaaa级午夜福利视频| 久久精品—区二区三区无码伊人色 | 欧美午夜理伦三级在线观看| 在线精品国产亚洲av麻豆| 亚洲精品少妇30p| 香蕉人妻av久久久久天天| 久久久精品人妻一区二区三区日本 | 日本最新一区二区三区免费看| 亚洲婷婷久久播66性av| 男女做爰高清免费视频网站| 久久精品国产亚洲av电影| 国产免费视频一区二区| 中文字幕日韩有码在线| 国产又爽又粗又猛的视频| 亚洲欧洲日产国码久在线观看| 久亚洲一线产区二线产区三线麻豆| 亚洲色欲久久久综合网东京热| 美女高潮无遮挡免费视频| 人妻少妇精品视频一区二区三区| 亚洲中文字幕在线综合| 亚洲精品无码专区在线| 国产一精品一aⅴ一免费| 日本人妻系列中文字幕|