亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于條件隨機(jī)場(chǎng)的中文公司名識(shí)別方法

        2014-02-27 13:16:32哈寅晨孟凡坤
        關(guān)鍵詞:文本模型

        哈寅晨 孟凡坤

        (北京工業(yè)大學(xué)多媒體與智能軟件北京重點(diǎn)實(shí)驗(yàn)室 北京 100124)

        0 引言

        命名實(shí)體識(shí)別對(duì)于很多自然語言處理領(lǐng)域的任務(wù),如信息抽取,信息檢索和自動(dòng)文摘等而言,,是一項(xiàng)非常重要且基礎(chǔ)的技術(shù)[1]。命名實(shí)體的識(shí)別主要分為三個(gè)子任務(wù):名字的識(shí)別(ENAMEX),包括人名,地名,機(jī)構(gòu)名;時(shí)間的識(shí)別(TIMEX),包括對(duì)時(shí)間短語如日期、時(shí)間等的識(shí)別;數(shù)字的識(shí)別(NUMEX),包括對(duì)金錢數(shù)量和百分比數(shù)量的識(shí)別等。和第一個(gè)任務(wù)相比,后面兩個(gè)子任務(wù)幾乎完全可以靠幾種模式匹配完成,要簡(jiǎn)單得多。因此,名字的識(shí)別(ENAMEX)是命名實(shí)體識(shí)別研究的重點(diǎn)。

        文獻(xiàn)[2]以人工總結(jié)的公司名構(gòu)成規(guī)則和六個(gè)知識(shí)庫為基礎(chǔ),通過兩次掃描實(shí)現(xiàn)對(duì)文本中公司名的識(shí)別。這種方法雖然可以達(dá)到一定的準(zhǔn)確率,但是覆蓋的范圍有限,僅僅依靠規(guī)則的方法很難正確覆蓋自然語言中出現(xiàn)的所有語言現(xiàn)象[3]。

        本文在文獻(xiàn)[2]的基礎(chǔ)上,提出了一種基于條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的公司名識(shí)別方法,在公司名的識(shí)別方面進(jìn)行了有效的探索。

        1 公司名特點(diǎn)分析和總結(jié)

        公司名屬于“定語+名詞性中心詞”型的名詞短語,簡(jiǎn)稱定名型短語,從宏觀上看,是一種偏正復(fù)合名詞,其結(jié)構(gòu)為X+Y,其中“X”和“Y”表示詞,X+表示X元素可以出現(xiàn)一次或多次。公司名的中心語重要集中在“公司”、“集團(tuán)”等有限的一些名詞上。這對(duì)我們識(shí)別公司名的右邊界起到了非常大的作用。另外,有不少公司名是以地名或人名開頭,這對(duì)我們識(shí)別公司名的左邊界是有一定作用的。在研究了大量的真實(shí)文本之后,我們發(fā)現(xiàn)在公司名中,有些詞和有些詞性是明顯不會(huì)作為公司名的組成部分的。

        表1 公司名簡(jiǎn)稱分類

        簡(jiǎn)稱類型 全稱 簡(jiǎn)稱公司名關(guān)鍵字+公司名后綴 美國蘋果股份有限公司 蘋果公司地名+公司名關(guān)鍵字+公司名后綴 印度塔塔信息技術(shù)有限公司 印度塔塔公司

        公司名的出現(xiàn)情況有兩種:全稱和簡(jiǎn)稱。公司名的全簡(jiǎn)稱的對(duì)應(yīng)關(guān)系如表1所示。由此可以看出,公司名關(guān)鍵字的識(shí)別,對(duì)于公司名簡(jiǎn)稱的識(shí)別具有非常重要的意義。

        2 基于條件隨機(jī)場(chǎng)的識(shí)別

        2.1 條件隨機(jī)場(chǎng)

        條件隨機(jī)場(chǎng)(CRF)模型最早是由Lafferty和M cCallum在2001年提出,是一種用于在給定輸入結(jié)點(diǎn)值時(shí)計(jì)算指定輸出結(jié)點(diǎn)值的條件概率的無向圖模型[4]。假定O是一個(gè)值可以被觀察的“輸入”隨機(jī)變量集合,S是一個(gè)值能夠被模型預(yù)測(cè)的“輸出”隨機(jī)變量的集合,且這些輸出隨機(jī)變量之間通過表示依賴關(guān)系的無向邊連接起來。如果用C(S,O)表示這個(gè)圖中的團(tuán)的集合,CRF將輸出隨機(jī)變量值的條件概率定義為與無向圖中各個(gè)團(tuán)的勢(shì)函數(shù)(potential function)的乘積成正比:

        其中,表示團(tuán)c的勢(shì)函數(shù)。當(dāng)圖形模型中的各輸出被連接成一條線性鏈的特殊情形時(shí),CRF假設(shè)在各個(gè)輸出結(jié)點(diǎn)之間存在一階馬爾科夫獨(dú)立性,二階或更高階的模型可以按照類似的方法擴(kuò)展。若讓表示被觀察的輸入數(shù)據(jù)序列,讓表示一個(gè)狀態(tài)序列,在給定一個(gè)輸入序列的情況下,線性鏈的CRF定義狀態(tài)序列的條件概率為:

        其中,f是一個(gè)任意的特征函數(shù),是每一個(gè)特征函數(shù)的權(quán)值,歸一化因子為:

        條件隨機(jī)場(chǎng)模型不同于產(chǎn)生式模型,它可以使用豐富的、彼此重疊的觀察序列的特征,而且不需要很嚴(yán)格的前提假設(shè);同時(shí),不同于最大熵馬爾科夫模型等概率模型,它不是對(duì)單個(gè)標(biāo)記歸一化之后再進(jìn)行全局搜索,而是在整個(gè)觀測(cè)序列上求解一個(gè)最優(yōu)的標(biāo)記序列,避免了標(biāo)記偏見問題。因此,條件隨機(jī)場(chǎng)模型本身非常適合用于中文命名實(shí)體識(shí)別等這樣的任務(wù)。

        2.2 標(biāo)注方式

        針對(duì)中文公司名的識(shí)別,我們將句子的分詞結(jié)果和詞性信息二者作為識(shí)別公司名的重要的特征信息,用于條件隨機(jī)場(chǎng)模型[5]。

        由于公司名全稱具有相對(duì)明顯的左右邊界詞特征[6],所以區(qū)別于由Ramshaw和Marcus提出的BIO標(biāo)注方式,即B(begin,開始)、I(internal,內(nèi)部)和O(other,其他)。本文針對(duì)公司名全稱的結(jié)構(gòu)特點(diǎn),以及應(yīng)對(duì)從全稱中提取公司名關(guān)鍵字的需要,提出了一種BKTEO的標(biāo)注方式,即B(begin,開始)、K(keywords,公司名關(guān)鍵字)、T(type,公司類型)、E(end,公司名后綴)和O(other,其他),構(gòu)成標(biāo)注集合。標(biāo)注示例如下表所示:

        由 p O上海 ns CN-B玖 m CN-K峰 q CN-K數(shù)碼 n CN-T科技 n CN-T有限公司 n CN-E提供 v O

        針對(duì)于公司名簡(jiǎn)稱,采用BCEO的標(biāo)注方式,即B(begin,開始)、C(continue,延續(xù))、E(end,結(jié)束)和O(other,其他),構(gòu)成標(biāo)注集合。標(biāo)注示例如下表所示:

        和 cc O玖峰 nz CN-B科技 n CN-C有限公司 n CN-E總裁 n O

        2.3 特征提取

        條件隨機(jī)場(chǎng)模型可以利用豐富的、彼此重疊的特征,所以在應(yīng)用中一個(gè)非常重要的問題就是如何針對(duì)特定的任務(wù)為模型選擇合適的特征集合,用這樣的特征集合表示復(fù)雜的語言現(xiàn)象[7]。相對(duì)于隱馬爾科夫模型只能利用中心詞的前n個(gè)詞作為上下文信息的弱點(diǎn),條件隨機(jī)場(chǎng)模型能夠同時(shí)使用中心詞的前n個(gè)詞和后m個(gè)詞作為該詞的上下文信息,這樣,中心詞的最終標(biāo)記不僅與前面詞語的信息相關(guān),還與其后的詞語相關(guān),更加接近實(shí)際情況。

        針對(duì)中文公司名的識(shí)別,我們?cè)O(shè)置了大小為5的上下文觀察窗口,利用平行輸入的詞形 W(word)和詞性 P(Part of Speech)信息,對(duì)于待標(biāo)注的詞,其標(biāo)注結(jié)果依賴如下特征:

        這三個(gè)式子分別表示,待標(biāo)注詞的標(biāo)注結(jié)果依賴于其所在位置前后兩個(gè)詞的詞形和自身的詞形,依賴于其所在位置前后兩個(gè)詞的詞性和自身的詞性,以及其前一個(gè)詞的標(biāo)注結(jié)果。

        3 識(shí)別策略

        公司名識(shí)別策略的整體結(jié)構(gòu)圖如下圖1所示:

        圖1 公司名識(shí)別策略的整體結(jié)構(gòu)圖

        原始新聞本文首先進(jìn)入分詞和詞性標(biāo)注系統(tǒng),該系統(tǒng)已經(jīng)經(jīng)過了初步的改造,加入了信息產(chǎn)業(yè)領(lǐng)域常用概念和術(shù)語,以改善分詞和詞性標(biāo)注的效果。另外,加入了部分公司名關(guān)鍵字,用于識(shí)別公司名簡(jiǎn)稱。

        第一次掃描主要進(jìn)行公司名全稱的識(shí)別和公司名關(guān)鍵字的提取。在第一次掃描時(shí),原始文本經(jīng)過分詞和詞性標(biāo)注之后,進(jìn)入到“公司名全稱識(shí)別模塊”,被識(shí)別出的公司名全稱中表示為的部分被提取出來,作為公司名關(guān)鍵字加入到公司名關(guān)鍵字詞典中,并以“專有名詞”(nz)作為其在字典中的詞性標(biāo)注,以此改善第二次掃描時(shí)的分詞和詞性標(biāo)注結(jié)果。

        第二次掃描則主要是利用第一次掃描中獲得的公司名關(guān)鍵字信息和改善后的分詞和詞性標(biāo)注結(jié)果,識(shí)別包含有公司名關(guān)鍵字的公司名簡(jiǎn)稱。

        4 實(shí)驗(yàn)結(jié)果和分析

        本文使用的語料庫來自互聯(lián)網(wǎng)的信息產(chǎn)業(yè)新聞網(wǎng)站,共收集了13283篇。從中隨機(jī)選出了100篇新聞文本,對(duì)公司名全稱采用BKTEO的標(biāo)注方式進(jìn)行人工標(biāo)注,作為訓(xùn)練集,用于訓(xùn)練識(shí)別公司名全稱的條件隨機(jī)場(chǎng)模型。另外,同樣的對(duì)這100篇新聞文本,對(duì)所有的公司名實(shí)體(包括全稱和簡(jiǎn)稱),采用BCEO的標(biāo)注方式進(jìn)行人工標(biāo)注,作為訓(xùn)練集,用于訓(xùn)練識(shí)別公司名全簡(jiǎn)稱的條件隨機(jī)場(chǎng)模型。

        對(duì)這100篇新聞文本進(jìn)行封閉測(cè)試,公司名全簡(jiǎn)稱識(shí)別實(shí)驗(yàn)結(jié)果如下:

        ?文本數(shù)目 100測(cè)試點(diǎn)個(gè)數(shù) 1099識(shí)別出公司個(gè)數(shù) 903正確數(shù) 870錯(cuò)誤數(shù) 33準(zhǔn)確率 96.3%召回率 82.2% F1 88.7%

        我們對(duì)結(jié)果中錯(cuò)的識(shí)別進(jìn)行了分析,總結(jié)如下:

        (1)對(duì)于公司名類型的識(shí)別,非常依賴訓(xùn)練集的標(biāo)注數(shù)量,導(dǎo)致有些公司名不能識(shí)別。

        (2)公司名關(guān)鍵字的提取的錯(cuò)誤會(huì)傳遞到第二遍掃描,即造成公司名全簡(jiǎn)稱識(shí)別錯(cuò)誤。

        (3)有些公司名的簡(jiǎn)稱,特別是國企簡(jiǎn)稱,其全稱本身通常不帶有關(guān)鍵字,如“中國電子科技集團(tuán)公司”簡(jiǎn)稱為“中電集團(tuán)”,其中就不包含任何公司名關(guān)鍵字,給識(shí)別工作帶來了困難。

        5 結(jié)束語

        本文介紹了一種基于條件隨機(jī)場(chǎng)的公司名的識(shí)別方法。首次提出了利用 CRF統(tǒng)計(jì)模型自動(dòng)標(biāo)注的方法提取公司名關(guān)鍵字。經(jīng)過初步試驗(yàn),結(jié)果表明我們的識(shí)別方法是可行有效的。下一步的工作是對(duì)本文所提出的方法進(jìn)行改善,這包括擴(kuò)充訓(xùn)練集的數(shù)量,對(duì)全稱識(shí)別結(jié)果進(jìn)行后處理,進(jìn)一步過濾掉錯(cuò)誤的識(shí)別,以提高第二遍掃描的準(zhǔn)確率。

        [1]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,06:42-47.

        [2]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識(shí)別[J].中文信息學(xué)報(bào),2002,16(2):1.

        [3]廖先桃.中文命名實(shí)體識(shí)別方法研究[D].哈爾濱工業(yè)大學(xué),2006.

        [4]Lafferty,John D.;M cCallum,Andrew;Pereira,F(xiàn)ernando C.N.:Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.In:Proceedings of the Eighteenth International Conference on Machine Learning(ICML 2001),M organ Kaufmann Publishers,2001,pp.282-289.

        [5]張祝玉,任飛亮,朱靖波.基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別特征比較研究[C].第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集.北京:出版者不詳,2008:111-117.

        [6]邱莎,王付艷,申浩如,段玻,阿圓,丁海燕.基于含邊界詞性特征的中文命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程,2012,13:128-130.

        [7]黃利科,劉群.基于條件隨機(jī)場(chǎng)的中文產(chǎn)品名自動(dòng)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用研究,2008,25(10):1829-1831.

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        精品中文字幕久久久人妻| 亚洲成a人片在线观看天堂无码| 日韩高清毛片| 区一区一日本高清视频在线观看| 五月开心六月开心婷婷网| 午夜天堂精品久久久久| 丁香花在线影院观看在线播放| 中文字幕国产欧美| 亚洲国产精品色一区二区| 国产区女主播一区在线| 三年片大全在线观看免费观看大全| yeyecao亚洲性夜夜综合久久| 国产桃色精品网站| 激情亚洲不卡一区二区| 99久热在线精品视频观看| 亚洲中文无码永久免| 久久99亚洲网美利坚合众国| 特级黄色大片性久久久| 国产又大又硬又粗| 中文字幕无线码中文字幕| 操B小视频国产| 国产精品国产自产拍高清| 人妻熟女一区二区三区app下载 | 久久精品无码一区二区日韩av| 国产精品卡一卡二卡三| 校花高潮一区日韩| 青青草手机在线观看视频在线观看| 久久久久久久波多野结衣高潮| 伊人99re| 亚洲男女视频一区二区| 亚洲国产精品成人天堂| 大香伊蕉国产av| 草莓视频在线观看无码免费| 少妇又紧又爽丰满在线视频| 人妻夜夜爽天天爽三区麻豆av网站 | 日韩中文字幕不卡在线| 男女高潮免费观看无遮挡| 日韩国产一区| 人妻少妇中文字幕av| 久久久久九九精品影院| 超薄肉色丝袜一区二区|