亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于可信度模型的中文人名識(shí)別研究

        2011-06-14 03:45:40朱巧明李培峰
        中文信息學(xué)報(bào) 2011年3期
        關(guān)鍵詞:用字區(qū)分度語(yǔ)料

        倪 吉,孔 芳,朱巧明,李培峰

        (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

        1 引言

        命名實(shí)體識(shí)別是文本信息處理的基礎(chǔ),在機(jī)器翻譯、信息檢索、自動(dòng)問(wèn)答、知識(shí)管理、實(shí)體關(guān)系抽取等應(yīng)用領(lǐng)域中都有重要的作用。命名實(shí)體識(shí)別首先在MUC-6上作為子任務(wù)提出[1],主要任務(wù)是識(shí)別文本中人名、地名、機(jī)構(gòu)名、時(shí)間表達(dá)式、數(shù)量表達(dá)式等。由于中國(guó)人名在實(shí)體中所占的比例較大,據(jù)統(tǒng)計(jì),在《人民日?qǐng)?bào)》1998年1月的語(yǔ)料庫(kù)(2 305 896字)中,平均每100個(gè)字包含未登錄詞1.192個(gè)(不計(jì)時(shí)間詞和數(shù)量詞),其中48.6%的實(shí)體是中國(guó)人名[2],另外中文語(yǔ)義復(fù)雜,中國(guó)人名的用字又具有很大的任意性,所以中國(guó)人名的識(shí)別是命名實(shí)體識(shí)別任務(wù)中主要任務(wù)和主要難點(diǎn)之一。

        2 相關(guān)工作

        雖然中文命名實(shí)體的研究相比英語(yǔ)命名實(shí)體識(shí)別尚處于不成熟階段,但在中文人名識(shí)別上也已經(jīng)有了不少的研究,主要有基于規(guī)則和基于語(yǔ)料庫(kù)統(tǒng)計(jì)[3-6]的人名識(shí)別方法,這類方法的核心是統(tǒng)計(jì)人名用字在語(yǔ)料中的頻率,通過(guò)計(jì)算概率來(lái)確定文本中的候選人名為確定人名的可能性;羅智勇等[7]提出的基于可信度的中國(guó)人名識(shí)別方法也是統(tǒng)計(jì)人名的用字頻率作為人名的可信度,但他在統(tǒng)計(jì)人名用字概率時(shí)去除了人名用字在語(yǔ)料中作為普通詞出現(xiàn)的情況,是一種解決傳統(tǒng)統(tǒng)計(jì)誤區(qū)的方法;李中國(guó)等[8]提出了基于邊界模板和局部統(tǒng)計(jì)相結(jié)合的中國(guó)人名識(shí)別方法,該方法從標(biāo)注語(yǔ)料庫(kù)中抽取邊界模板,利用邊界模板對(duì)人名進(jìn)行粗略定界,然后根據(jù)局部統(tǒng)計(jì)量和啟發(fā)式規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行校正;另外,賈寧等[9-11]使用了機(jī)器學(xué)習(xí)模型對(duì)人名進(jìn)行識(shí)別。上述方法通常會(huì)受到訓(xùn)練語(yǔ)料規(guī)模的約束,所以如何在有限語(yǔ)料庫(kù)基礎(chǔ)上提高統(tǒng)計(jì)數(shù)據(jù)的有效性,充分利用語(yǔ)料庫(kù)中的知識(shí),從而使整體識(shí)別性能得到提高也是重要的研究方向之一。除此之外,文獻(xiàn)[12]指出了目前命名實(shí)體系統(tǒng)準(zhǔn)確率較高而召回率較低的情況,該文基于CRFs使用0/1標(biāo)簽方法和Non-local特征來(lái)提高系統(tǒng)的召回率,所以如何在保證準(zhǔn)確率的同時(shí)能有效地提高召回率也是目前命名實(shí)體識(shí)別系統(tǒng)需要解決的問(wèn)題之一。

        本文在前人研究的基礎(chǔ)上,利用標(biāo)注語(yǔ)料庫(kù)和人名相關(guān)的知識(shí)庫(kù),研究了中國(guó)人名形成的特征,定義了人名可信度的計(jì)算方法,并通過(guò)實(shí)驗(yàn)將可信度模型嵌入到基準(zhǔn)系統(tǒng)中,著重研究了可信度模型對(duì)已有命名實(shí)體識(shí)別系統(tǒng)中人名識(shí)別召回率提高的作用。實(shí)驗(yàn)證明,可信度模型對(duì)中國(guó)人名識(shí)別性能提高有一定的幫助,也說(shuō)明本文的可信度模型在考慮人名成詞時(shí)更具有完整性。

        3 可信度模型

        可信度模型是通過(guò)計(jì)算人名內(nèi)聚度、人名區(qū)分度(文獻(xiàn)[2]和文獻(xiàn)[7]中就將其稱為可信度)和邊界模板可信度的綜合概率,判斷某個(gè)候選人名確實(shí)為人名的可信程度。人名可信度模型主要用途包括兩個(gè)方面: 第一,對(duì)系統(tǒng)已標(biāo)注的人名通過(guò)計(jì)算其可信度判斷該人名是否識(shí)別正確,主要針對(duì)一些低準(zhǔn)確率的情況;第二,對(duì)系統(tǒng)未識(shí)別的人名進(jìn)行補(bǔ)充識(shí)別,是一種使用可信度模型解決低召回率問(wèn)題的方法。

        3.1 人名內(nèi)聚度

        通常,一個(gè)完整的中國(guó)人名由姓字(SN)、姓名首字(FN)、姓名尾字(LN)組成。其中姓名首字特指字?jǐn)?shù)超過(guò)兩字的人名的中間用字,例如孫中山的“中”字。假設(shè)中國(guó)人名在文本中出現(xiàn)不超過(guò)四字,于是我們定義人名的出現(xiàn)有以下幾種形式:

        四字: SN(復(fù)姓)|FN|LN,SN|SN|FN|LN(港澳臺(tái)的已婚婦女),還有較少的SN|FN|FN|LN和SN|FN|LN|LN;

        三字: SN|FN|LN,SN(復(fù)姓)|LN,SN|SN|LN

        二字: SN|LN,F(xiàn)N|LN

        單字: SN,LN

        人名內(nèi)聚度的概念是借鑒于“物以類聚”的思想,即人名常用字也會(huì)以一定的強(qiáng)度聚在一起,即一個(gè)字符序列若為人名,則這個(gè)序列是由人名常用字聚集而成,也可以這么認(rèn)為: 若某個(gè)字為SN,則緊接著很有可能出現(xiàn)FN、LN,這些連續(xù)的字內(nèi)聚成人名的可能性則比較大。如果SN后緊接的字不為FN或LN,則可以認(rèn)為這兩個(gè)字內(nèi)聚成人名的概率為0(內(nèi)聚不考慮單字人名的情況)。也就是說(shuō),內(nèi)聚度的強(qiáng)弱說(shuō)明了連續(xù)的幾個(gè)字內(nèi)聚成人名的概率大小,而這種內(nèi)聚強(qiáng)度在本文中采用了人名用字的常用程度來(lái)體現(xiàn)。

        我們從網(wǎng)絡(luò)上收集了8萬(wàn)多中國(guó)常見(jiàn)人名,記錄所有不同的SN、FN和LN用字以及它們分別出現(xiàn)的次數(shù)(表1),并計(jì)算每個(gè)不同SN(FN、LN)用字在SN(FN、LN)總數(shù)中的比例,記為Cohe(XNi),XNi表示SN、FN或LN中的第i個(gè)字,計(jì)算方法如公式(1)所示。

        (1)

        表1 SN、FN、LN統(tǒng)計(jì)結(jié)果

        表1的數(shù)據(jù)實(shí)際上反映了每個(gè)字作為人名的常用程度,所以Cohe(XNi)值越大表示XNi作為XN出現(xiàn)機(jī)會(huì)越大。定義WN=C1C2...Cn為連續(xù)的字符序列,則WN的內(nèi)聚度記為Cohe(WN)。由于收集的人名中復(fù)姓、港澳臺(tái)姓名都較少,為了保證內(nèi)聚概率的可靠性,我們僅計(jì)算WN符合上述中國(guó)人名出現(xiàn)形式中SN|FN|LN和SN|LN時(shí)的Cohe(WN),即:

        除此之外,對(duì)于有名無(wú)姓的形式FN|LN和LN,有姓無(wú)名的情況SN,由于這些形式都有其在文本中出現(xiàn)的特殊情況,首先,一般在上文中出現(xiàn)了人名的全名,后文才會(huì)使用簡(jiǎn)稱;其次,若為SN是人名,則往往以老|小SN、SN某、SN稱謂詞等搭配形式出現(xiàn)。所以可以單獨(dú)采用規(guī)則的算法進(jìn)行處理。

        3.2 人名區(qū)分度

        人名內(nèi)聚度從人名用字的常用程度及通過(guò)這種常用程度反映的字串序列間的內(nèi)聚度來(lái)決定這個(gè)字串成為人名的可信程度。但是在文本中,每一個(gè)SN、FN、LN用字都有可能是普通用字。例如,表1中的“王”字,雖然是中國(guó)人名的大姓,但是“王”字作為普通用字的時(shí)候也很多,如“大王”、“王爺”;又如“劉”字,雖然其從統(tǒng)計(jì)中獲得常用程度不如“王”,但它的區(qū)分度較高(表2),則“劉”字在文本中作為姓字的概率也會(huì)很高。所以我們需要為每個(gè)人名常用字定義一個(gè)區(qū)分于普通用字的概率,記為Diff(Ni)。人名區(qū)分度是根據(jù)每個(gè)字的Diff值,綜合計(jì)算一個(gè)字符序列是人名還是普通字詞的區(qū)分概率。區(qū)分度的計(jì)算需要語(yǔ)料庫(kù)的支持,設(shè)2.1節(jié)中獲得的人名常用字為C,C綜合了SN、FN、LN,則Diff(C)的計(jì)算方法如公式4所示。

        本文考慮到分詞錯(cuò)誤可能會(huì)帶來(lái)的統(tǒng)計(jì)錯(cuò)誤,例如,句子“對(duì)白/n 曉/v 燕/n 說(shuō)起/v”進(jìn)行切分后使用文獻(xiàn)[7]中的統(tǒng)計(jì)方法會(huì)對(duì)“白”字的統(tǒng)計(jì)產(chǎn)生偏差,所以本文采用了傳統(tǒng)基于字的統(tǒng)計(jì)方法,通過(guò)內(nèi)聚度和區(qū)分度的綜合來(lái)減少傳統(tǒng)統(tǒng)計(jì)的不合理之處;本文利用微軟研究院(MSRA)標(biāo)注的訓(xùn)練文件進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表2所示,從表2中可以看出,表1中常用的人名用字可能其區(qū)分度并不高,而表2中區(qū)分度高的用字,在表1中得到的出現(xiàn)次數(shù)并不多,所以內(nèi)聚度和下文定義的人名區(qū)分度是決定人名可信度共同的內(nèi)部因素。

        表2 人名常用字區(qū)分度

        根據(jù)區(qū)分度的定義,設(shè)WN=C1C2…Cn為人名估計(jì)字符序列,我們認(rèn)為只有當(dāng)WN中的每個(gè)字都為非人名用字時(shí),該WN才不是人名;否則,如果存在任意Ci表現(xiàn)為人名用字時(shí),該WN都有可能為人名。所以,序列WN的人名區(qū)分度可用公式(5)表示。

        (5)

        區(qū)分度是指區(qū)別一個(gè)字是人名用字或是普通用字的能力。但是僅靠區(qū)分度參數(shù)進(jìn)行判定時(shí)會(huì)遇到一些困難,例如,“張”字,其統(tǒng)計(jì)獲得的區(qū)分度僅為0.422 68(“張”的人名用字次數(shù)為287,普通用字次數(shù)為392),則從區(qū)分度參數(shù)很難判斷“張”是否為姓字。而通過(guò)綜合“張”字作為人名的常用程度考慮會(huì)使判定更具有可靠性。

        3.3 邊界模板可信度

        人名內(nèi)聚度和區(qū)分度都是根據(jù)人名的內(nèi)部信息計(jì)算人名的可信程度。邊界模板可信度則是通過(guò)人名的上下文邊界統(tǒng)計(jì)信息來(lái)計(jì)算可信度。

        本文實(shí)驗(yàn)系統(tǒng)中使用的邊界模板集合是從MSRA的標(biāo)注語(yǔ)料中獲得,統(tǒng)計(jì)和記錄模板及其出現(xiàn)的次數(shù),如出現(xiàn)次數(shù)較多的模板有“記者 PER 報(bào)道”、“、 PER 、”、“| PER 說(shuō)”、“, PER 、”、“| PER 在”…… 其中“|”表示句首。類似與人名區(qū)分度,處于邊界模板之間的字詞不一定為人名,例如對(duì)于模板“、 PER 、”,頓號(hào)之間可能是地名、普通形容詞、名詞等,所以我們也統(tǒng)計(jì)了所有模板在標(biāo)注語(yǔ)料中出現(xiàn)的總次數(shù),以計(jì)算模板作為人名邊界的概率。由于本文主要是對(duì)于中國(guó)人名邊界模板的處理,在統(tǒng)計(jì)每個(gè)模板總數(shù)時(shí),只考慮了模板間字?jǐn)?shù)小于4的情況。

        在上述統(tǒng)計(jì)到邊界模板中,不管模板作為人名邊界的概率有多大,只要在邊界模板之間的字詞都有可能為人名,所以不能因?yàn)樽鳛檫吔缒0宓母怕实投鼓0逯g的人名可信度降低,所以我們定義的模板可信度如公式(6)所示。

        (6)

        公式(6)的定義主要是為了體現(xiàn)邊界模板對(duì)人名可信度的加強(qiáng)作用,所以人名的可信度模型定義可如公式(7)所示。

        K(WN,PER)=Cohe(WN)*Diff(WN)*Tj

        (7)

        特殊地,當(dāng)邊界模板在模板集合中不存在時(shí),Tj=1。

        4 實(shí)驗(yàn)和結(jié)果分析

        本文使用微軟亞洲研究院(MSRA)標(biāo)注的語(yǔ)料進(jìn)行實(shí)驗(yàn),首先建立基準(zhǔn)平臺(tái),用于人名的初步識(shí)別,之后使用可信度模型對(duì)初步結(jié)果文本進(jìn)一步處理,最后得到整個(gè)系統(tǒng)的最終識(shí)別結(jié)果。系統(tǒng)流程如圖1所示。

        4.1 基準(zhǔn)平臺(tái)

        基準(zhǔn)平臺(tái)是系統(tǒng)對(duì)待識(shí)別文本進(jìn)行的初步處理,本文使用CRFs分類器和MSRA標(biāo)注的訓(xùn)練語(yǔ)料訓(xùn)練形成模型,使用的特征有一元特征(w0),窗口大小為2,即考慮前后各兩個(gè)單元(w1,w2,w-1,w-2);二元特征(w0/w1,w-1/w0);三元特征(w-2/w-1/w0,w-1/w0/w1,w0/w1/w2)。其中,w0表示當(dāng)前位置的字面特征,w-i表示從當(dāng)前位置往分析方向相反的第i個(gè)字,w+i表示從當(dāng)前位置與分析方向一致的第i個(gè)字,二元和三元特征都為組合特征?;鶞?zhǔn)平臺(tái)即是通過(guò)上述特征訓(xùn)練形成的模型對(duì)源文本進(jìn)行人名識(shí)別。

        使用MSRA提供的測(cè)試文本對(duì)基準(zhǔn)平臺(tái)進(jìn)行測(cè)試,初步識(shí)別結(jié)果的性能如表3所示。

        表3 基準(zhǔn)平臺(tái)識(shí)別性能

        4.2 可信度模型實(shí)現(xiàn)

        可信度模型的核心是通過(guò)計(jì)算一個(gè)字符序列內(nèi)聚度、區(qū)分度和邊界模板可信度的綜合概率來(lái)衡量該字符序列作為人名的可靠性程度,其中區(qū)分度和模板可信度的數(shù)據(jù)即為第二節(jié)中介紹的方法獲得,只是對(duì)內(nèi)聚度的數(shù)值進(jìn)行了轉(zhuǎn)換: ①根據(jù)公式(2)和公式3計(jì)算SN|FN|LN和SN|LN的初始內(nèi)聚度;②確定Cohe值的范圍分別為4.1E-5~3.4E-15、1.3E-3~1.9E-10;③將步驟②中Cohe值按表4進(jìn)行轉(zhuǎn)換,本實(shí)驗(yàn)中C的取值為0.9。

        表4 Cohe轉(zhuǎn)換表

        另外,影響內(nèi)聚度的因素還包括內(nèi)聚的字及其上下文的成詞情況,以下列舉了3條常用的啟發(fā)式規(guī)則,存在這些情況,則會(huì)使Cohe值降低: 設(shè)字符序列為:

        S=…C1C2SNFNLNC3C4…(…C1C2SNLNC3C4…),

        ① (C1C2) is not phrase AND (C2SN) is phrase AND FNLN is phrase;

        ② (C3C4) is not phrase AND (LNC3) is phrase AND SNFN is phrase;

        ③ SNFNLN(SNLN) is Phrase;

        4.3 實(shí)驗(yàn)結(jié)果分析

        本節(jié)通過(guò)使用可信度模型對(duì)基準(zhǔn)平臺(tái)輸出的初步結(jié)果進(jìn)行了人名的再識(shí)別,主要是為了能提高整個(gè)系統(tǒng)的召回率,其過(guò)程是對(duì)整個(gè)文本中已識(shí)別為人名的字串不作任何處理,只對(duì)文本中其余部分進(jìn)行再識(shí)別,識(shí)別的方法是以姓字(SN)為驅(qū)動(dòng),由姓字(SN)及其緊隨的單字或雙字組成字串序列,采用可信度模型計(jì)算詞語(yǔ)序列(SN+LN)和(SN+FN+LN)的可信度概率,取兩者中較大值,若該值大于設(shè)定的閾值δ則認(rèn)為該詞語(yǔ)序列為人名。在MSRA語(yǔ)料上封閉測(cè)試的實(shí)驗(yàn)結(jié)果如表5,表6所示,表5的結(jié)果是使用傳統(tǒng)區(qū)分度作為可信度,表6則是綜合了內(nèi)聚度、區(qū)分度和邊界模板來(lái)計(jì)算可信度的結(jié)果。

        從表5的數(shù)據(jù)可以看出,隨著閾值δ的降低,在召回率提高的同時(shí)精確率下降得很快,這說(shuō)明了只使用區(qū)分度作為可信度缺乏穩(wěn)定性,引入內(nèi)聚度和邊界模板正是為了在提高召回率的同時(shí)更好地保證識(shí)別的精確率。從表6可以看出, 召回率提高對(duì)精確率的損失影響比較平滑,并且在δ取0.4時(shí),可信度模型對(duì)原有系統(tǒng)性能的提升最大,召回率提高了4.3%,而準(zhǔn)確率僅下降了0.24%,從而使F提高了2.27%,高于原始可信度模型對(duì)系統(tǒng)F值性能提高的0.87%。

        表5 傳統(tǒng)可信度模型識(shí)別結(jié)果

        表6 加入內(nèi)聚度和邊界模板的可信度模型識(shí)別結(jié)果

        表7 系統(tǒng)識(shí)別結(jié)果示例

        在表7列出的系統(tǒng)識(shí)別結(jié)果中,例句1、2、3是基準(zhǔn)平臺(tái)未能識(shí)別而通過(guò)可信度模型識(shí)別的人名;例句4、5反映了分詞對(duì)人名識(shí)別的影響[13],其中“對(duì)白”、“好在”都會(huì)在分詞時(shí)被作為普通詞從而影響到人名的識(shí)別,所以本文只是將分詞信息作為內(nèi)聚度計(jì)算的輔助信息;例句6、7反映了不分詞對(duì)識(shí)別的影響,其中“林業(yè)科”、“程順利”都會(huì)被誤識(shí)別為人名,所以4.2節(jié)中計(jì)算內(nèi)聚度引入了啟發(fā)式規(guī)則;例句8、9是可信度模型識(shí)別錯(cuò)誤的人名;例句10是可信度模型未能識(shí)別的人名,因?yàn)槿嗣傲枞弧钡目尚哦葹?.37,小于識(shí)別性能最好的閾值0.4;例句11假設(shè)人名“凌然”出現(xiàn)在邊界模板“| PER 闡述”之間,由于“| PER 闡述”的模板可信度較高,所以“凌然”可以被識(shí)別為人名,該例句說(shuō)明了邊界模板對(duì)人名識(shí)別的作用;例句12中人名“傅抱石”在基準(zhǔn)平臺(tái)中可以被識(shí)別,而使用可信度模型不能識(shí)別,原因是“抱”字在統(tǒng)計(jì)的人名信息中不存在,使得“傅抱石”成為人名的可信度為0,這也反映了統(tǒng)計(jì)方法存在的缺陷,所以本文將可信度模型作為模塊嵌入到基礎(chǔ)平臺(tái)。

        5 總結(jié)與展望

        本文提出了一種計(jì)算中國(guó)人名可信度的方法,通過(guò)內(nèi)聚度、區(qū)分度和邊界模板可信度的綜合概率來(lái)衡量一個(gè)字串序列為人名的可靠程度,并將實(shí)現(xiàn)的可信度檢測(cè)模塊嵌入到一個(gè)簡(jiǎn)單的人名識(shí)別系統(tǒng)中,可以對(duì)系統(tǒng)已識(shí)別的人名進(jìn)行糾正,也可以對(duì)系統(tǒng)未識(shí)別的部分進(jìn)行再識(shí)別。本文的實(shí)驗(yàn)說(shuō)明了可信度模型的有效性,另外,實(shí)驗(yàn)中將可信度模型嵌入到基于CRFs的基準(zhǔn)平臺(tái),是為了將統(tǒng)計(jì)方法可能帶來(lái)的偏差縮小在一個(gè)較小的范圍,能夠在損失較小準(zhǔn)確率的前提下提高召回率。可信度模型可以獨(dú)立于已有命名實(shí)體識(shí)別系統(tǒng)存在,單獨(dú)地對(duì)人名進(jìn)行判斷,但其性能對(duì)統(tǒng)計(jì)信息的可靠性及相對(duì)應(yīng)的啟發(fā)式規(guī)則的要求較高,需要更進(jìn)一步地研究和完善。由于使用的測(cè)試語(yǔ)料中包含了大量的譯名,而可信度模型是對(duì)于中國(guó)人名的判斷,所以對(duì)整個(gè)系統(tǒng)人名識(shí)別性能的提升也存在局限性。

        本文對(duì)內(nèi)聚度的計(jì)算只考慮了SN|FN|LN和SN|LN的情況,下一步的工作可以增加人名內(nèi)聚情況以提高可信度模型的覆蓋程度。另外,區(qū)分度和內(nèi)聚度已經(jīng)很好地反映了一個(gè)人名的內(nèi)部信息,但是人名的外部信息邊界模板并沒(méi)有充分發(fā)揮其作用,所以更好地制定邊界模板可信度的計(jì)算策略對(duì)人名的識(shí)別也有重要的作用。之后可以嘗試將可信度模型的計(jì)算方法應(yīng)用到譯名、地名、機(jī)構(gòu)名的識(shí)別中。

        [1] Sundheim B M. Named entity task definition, version 2.1[C]//Proceedings of the Sixth Message Understanding Conference. Morgan Kaufmann, California, 1995:319-332.

        [2] 張素香. 信息抽取中關(guān)鍵技術(shù)的研究[D]. 北京: 北京郵電大學(xué), 2007.5.

        [3] Li Jianhua,Wang X.L.An Effective Method on Automatic Identification of Chinese Name[J].High Technology Letters. 2000, 10(2): 46-49.

        [4] 黃德根,楊元生等. 基于統(tǒng)計(jì)方法的中文姓名識(shí)別[J]. 中文信息學(xué)報(bào), 2001,15(2): 31-37.

        [5] 劉秉偉,黃萱菁等. 基于統(tǒng)計(jì)方法的中文姓名識(shí)別[J]. 中文信息學(xué)報(bào), 2000,14(3): 16-24,36

        [6] 鄭家恒,李鑫,譚紅葉. 基于語(yǔ)料庫(kù)的中文姓名識(shí)別方法研究[J]. 中文信息學(xué)報(bào), 2000, 14(1): 7-12.

        [7] 羅智勇,宋柔. 一種基于可信度的人名識(shí)別方法[J]. 中文信息學(xué)報(bào), 2005, 19(3): 67-72,86.

        [8] 李中國(guó),劉穎. 邊界模板和局部統(tǒng)計(jì)相結(jié)合的中國(guó)人名識(shí)別[J]. 中文信息學(xué)報(bào), 2006,20(5): 44-50,57.

        [9] Zhou Guodong, Su Jian. Named Entity Recognition using an HMM-based Chunk Tagger[C]//Proceedings of the 40thAnnual Meeting of the Association for Computational Linguistics. Philadelphia, USA, 2002:473-480.

        [10] 賈寧,張全. 基于最大熵模型的中文姓名識(shí)別[J]. 計(jì)算機(jī)工程, 2007, 33(9): 31-33.

        [11] 王志強(qiáng). 基于條件隨機(jī)域的中文命名實(shí)體識(shí)別研究[D]. 南京: 南京理工大學(xué), 2006.8

        [12] Mao Xinnian, He Saike, Bao Sencheng, Dong Yuan and Wang Haila. Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields[C]//Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing, Hyderabad, India, 2008:90-93.

        [13] 張躍,姚天順. 基于結(jié)合性自動(dòng)識(shí)別中文姓名[J]. 小型微型計(jì)算機(jī)系統(tǒng), 1997, 18(10): 43-48.

        [14] 張華平,劉群. 基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(1): 85-91.

        猜你喜歡
        用字區(qū)分度語(yǔ)料
        容易混淆的詞語(yǔ)
        《漢語(yǔ)大字典》“人名用字”考誤舉隅
        科技論文表格的編排要求(五):用線和用字
        淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
        圖形推理測(cè)量指標(biāo)相關(guān)性考察*
        江淮論壇(2018年4期)2018-08-24 01:22:30
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        淺觀一道題的“區(qū)分度”
        遼代避諱用字“元”
        單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        一区二区三区日本伦理| 国内露脸中年夫妇交换| 国产日韩欧美911在线观看| 亚洲av永久久无久之码精| 99视频一区二区日本| 极品嫩模大尺度av在线播放| 无码视频在线观看| 大伊香蕉在线精品视频75| 成人无码无遮挡很H在线播放| 熟女乱乱熟女乱乱亚洲| 国产亚洲熟妇在线视频| 精品久久久久久无码中文野结衣| 精品少妇人妻av一区二区| 午夜精品一区二区三区无码不卡| 久久精品这里就是精品| 人妻夜夜爽天天爽三区麻豆av| 在线观看特色大片免费视频 | 搡女人真爽免费视频大全| 啦啦啦www播放日本观看| 无码成人片一区二区三区| 在线播放中文字幕一区二区三区| 久亚洲精品不子伦一区| 中文字幕在线日亚州9 | 大胆欧美熟妇xxbbwwbw高潮了| 亚洲男人在线无码视频| 亚洲成在人线天堂网站| 18禁免费无码无遮挡不卡网站| 女邻居的大乳中文字幕| 色窝窝无码一区二区三区2022 | 国产免费视频一区二区| 极品美女调教喷水网站| 久久综合狠狠综合久久综合88| 丰满人妻被黑人中出849| 无码国产精品色午夜| 日本久久久精品免费免费理论| 国产精品美女久久久免费 | 在线永久免费观看黄网站| 九九久久精品大片| 一区二区精品天堂亚洲av| 人妻丰满熟妇aⅴ无码| 精品人妻va出轨中文字幕|