馬孟鋮,楊晴雯,艾斯卡爾·艾木都拉,吐爾地·托合提
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
命名實(shí)體是文本中的基礎(chǔ)信息單元。其表示了文本中內(nèi)在名稱和縮寫的信息,同時(shí)自然語(yǔ)言處理研究中一項(xiàng)基礎(chǔ)且必要的任務(wù)就是對(duì)于命名實(shí)體的識(shí)別。旨在從海量文本中提取出能夠體現(xiàn)客觀具體或者抽象實(shí)體的詞匯,例如人名、地名和機(jī)構(gòu)名等。
隨著計(jì)算機(jī)技術(shù)水平的不斷提高,自然語(yǔ)言處理和文本處理相關(guān)研究不斷深入。問答系統(tǒng)、自動(dòng)摘要、意見挖掘等研究領(lǐng)域都需要語(yǔ)義知識(shí)作為支持,命名實(shí)體識(shí)別和分類已成為一項(xiàng)重要的基礎(chǔ)性研究問題[1]。從狹義上講,命名實(shí)體可以分為人名、地名、組織名等。從廣義上講,命名實(shí)體包括各種表達(dá)式、電子郵箱等,伴隨著現(xiàn)在自然語(yǔ)言處理相關(guān)研究的興起,原來(lái)的命名實(shí)體界定范圍已經(jīng)不能滿足需求,人們對(duì)這些實(shí)體詞匯在原有基礎(chǔ)上進(jìn)行了種類的擴(kuò)展,分類更加細(xì)致。比如,地名可細(xì)分為地區(qū)名稱(不同大洲)、國(guó)家名、城市名、鄉(xiāng)鎮(zhèn)名等。相同語(yǔ)料研究任務(wù)的不同可能需要不同類型的命名實(shí)體,若每次根據(jù)任務(wù)類型再選取相應(yīng)的特征識(shí)別命名實(shí)體需要耗費(fèi)人力、精力和時(shí)間,代價(jià)未免太過巨大。因此,現(xiàn)在的研究重點(diǎn)應(yīng)該是根據(jù)不同應(yīng)用領(lǐng)域的特定需求定義不同類型的命名實(shí)體并加以識(shí)別,并且快速、高效率地完成[2,3]。
發(fā)展至今,中文命名實(shí)體識(shí)別的方法主要有以下幾種:基于機(jī)器學(xué)習(xí)的方法通常被當(dāng)作序列標(biāo)注任務(wù)[4],經(jīng)典機(jī)器學(xué)習(xí)分類模型主要有隱馬爾可夫模型和條件隨機(jī)場(chǎng)等淺層模型。馮艷紅等[5]利用詞語(yǔ)的詞向量與領(lǐng)域術(shù)語(yǔ)的詞向量之間的相似度特征,構(gòu)成基于詞向量的特征向量,提出一種基于詞向量和條件隨機(jī)場(chǎng)領(lǐng)域術(shù)語(yǔ)識(shí)別方法;張海楠等[6]提出的基于深度神經(jīng)網(wǎng)絡(luò)的字詞聯(lián)合方法利用了字、詞向量的特點(diǎn),用于中文命名實(shí)體識(shí)別取得了較好的效果。Huang等[7]提出了融合語(yǔ)言學(xué)特征的Bi-Lstm-CRF模型,提升了模型的性能。林廣和等[8]提出一種基于注意力機(jī)制的字符級(jí)詞表示模型與Bi-Lstm-CRF模型聯(lián)合進(jìn)行實(shí)體識(shí)別的方法,顯著提高了系統(tǒng)的召回率。
不同領(lǐng)域下的命名實(shí)體識(shí)別研究發(fā)展迅速;針對(duì)軍事文本中的命名實(shí)體[9],馮蘊(yùn)天等[10]提出了一種半監(jiān)督命名實(shí)體識(shí)別方法。先基于條件隨機(jī)場(chǎng)識(shí)別出結(jié)果,再使用基于字典的方法和基于規(guī)則的方法來(lái)校正識(shí)別結(jié)果,且取得了不錯(cuò)的效果;張劍等[11]針對(duì)農(nóng)業(yè)領(lǐng)域語(yǔ)料特點(diǎn),采用基于條件隨機(jī)場(chǎng)的方法,將命名實(shí)體分為作物、病蟲害、農(nóng)藥及化肥4種類別,準(zhǔn)確率達(dá)到了93%以上;王洪亮[12]提出一種融合全局上下文信息的詞向量特征選擇方法,并采用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文微博的命名實(shí)體識(shí)別,取得了不錯(cuò)的效果;何紅磊[13]實(shí)現(xiàn)了使用詞表示方法對(duì)生物醫(yī)學(xué)命名實(shí)體識(shí)別。
作為文本中重要的語(yǔ)義知識(shí),命名實(shí)體分類已成為一個(gè)現(xiàn)實(shí)的基礎(chǔ)研究問題。然而,由于不同領(lǐng)域下實(shí)體類型的自由性、復(fù)雜性。該問題還有進(jìn)一步研究的空間。針對(duì)這一問題,本文做出的主要工作:①本文提出一種先識(shí)別再分類的思想,先構(gòu)建特征識(shí)別出實(shí)體,再利用詞向量聚類以及計(jì)算詞向量相似度的方法對(duì)實(shí)體進(jìn)行分類;②根據(jù)實(shí)驗(yàn)語(yǔ)料的特點(diǎn),我們針對(duì)性的選取統(tǒng)計(jì)特征并構(gòu)建特征模板識(shí)別命名實(shí)體;③為了驗(yàn)證分類的準(zhǔn)確性,對(duì)測(cè)試語(yǔ)料進(jìn)行人工標(biāo)注;④對(duì)于人名的分類,提出了構(gòu)建百家姓詞典以及根據(jù)字符長(zhǎng)度進(jìn)行判斷的方法。
由于地名、機(jī)構(gòu)名等實(shí)體的語(yǔ)言特點(diǎn)不同,制定不同的分類體系需要構(gòu)建不同的特征模板,所以先識(shí)別命名實(shí)體,在對(duì)識(shí)別結(jié)果進(jìn)行分類會(huì)更加合適。本文提出一種先選取特征識(shí)別實(shí)體,再利用詞向量對(duì)實(shí)體分類的方法。將語(yǔ)料進(jìn)行預(yù)處理,分析數(shù)據(jù)集,選取特征,構(gòu)造特征模板,再加入訓(xùn)練數(shù)據(jù)集生成CRF模型,從而識(shí)別出測(cè)試集中的人名、地名、機(jī)構(gòu)名等命名實(shí)體。在命名實(shí)體分類的部分中,利用詞向量的相似性等同于詞語(yǔ)的語(yǔ)義相似性這一特點(diǎn),通過開源的詞向量詞典構(gòu)建實(shí)體的詞向量表,進(jìn)而對(duì)實(shí)體詞向量進(jìn)行聚類,最終通過比較實(shí)體詞向量間的相似度實(shí)現(xiàn)命名實(shí)體的分類。構(gòu)建的模型框架如圖1所示。
圖1 模型總體框架
條件隨機(jī)場(chǎng)是一種給定輸入特征進(jìn)行輸出判別的概率無(wú)向圖模型?;跅l件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別問題其實(shí)可以描述為序列標(biāo)注問題。對(duì)于觀察值序列W和狀態(tài)序列O,定義一個(gè)CRF模型如下,公式定義請(qǐng)參見文獻(xiàn)[14]
ZW是歸一化參數(shù),fk表示位于n-1和n之間的特征函數(shù),W則是模型中的觀察序列,目標(biāo)是求出下一狀態(tài)下最大概率的詞匯類型。
根據(jù)文本類型的不同選取合適特征是實(shí)體識(shí)別的關(guān)鍵,特征選取的好壞決定命名實(shí)體識(shí)別效果的好壞。依據(jù)實(shí)驗(yàn)語(yǔ)料的特點(diǎn),人名的識(shí)別率較高,針對(duì)地名、機(jī)構(gòu)名,本文選取了5個(gè)統(tǒng)計(jì)特征,特征提取和分析如下[15]:
特征1:詞語(yǔ)本身標(biāo)記為Word;本文選取的1998年人民日?qǐng)?bào)語(yǔ)料,通過NLPIR-ICTCLAS分詞系統(tǒng)將原始文本進(jìn)行切分形成詞語(yǔ)。
特征2:詞性標(biāo)記為POS;語(yǔ)料分詞的過程中,分詞系統(tǒng)會(huì)標(biāo)注詞語(yǔ)的詞性。一般來(lái)說,地名、機(jī)構(gòu)名的一般為名詞、動(dòng)詞及動(dòng)、名詞短語(yǔ),而不會(huì)是連詞、介詞等詞性。故可認(rèn)為與實(shí)體有一定的相關(guān)性。
特征3:實(shí)體的特征核心詞標(biāo)記為CORE;對(duì)于地名實(shí)體而言,“地區(qū)”,“自治區(qū)”出現(xiàn)時(shí)大概率會(huì)出現(xiàn)地名,如“阿克蘇地區(qū)”,“廣西壯族自治區(qū)”。對(duì)于機(jī)構(gòu)實(shí)體而言,“公司”,“委員會(huì)”很大程度上是機(jī)構(gòu)名的中心詞,如“深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司”,“社區(qū)管理委員會(huì)”??梢娫撎卣髋c實(shí)體存在較大相關(guān)性。
特征4:實(shí)體的右邊界詞標(biāo)記為Right_Boundary;對(duì)語(yǔ)料進(jìn)行分析,發(fā)現(xiàn)許多實(shí)體前后出現(xiàn)的詞是有規(guī)律的,如“位于山東附近”,位于是山東的左邊界詞,附近是山東的右邊界詞。我們選取實(shí)體的右邊界詞作為特征。
特征5:復(fù)雜機(jī)構(gòu)名的邊界限定標(biāo)記為Ins_Limit;語(yǔ)料中一些地名開頭的復(fù)合機(jī)構(gòu)名,易錯(cuò)誤識(shí)別成地名;我們利用該類實(shí)體的特點(diǎn),通過判斷實(shí)體開頭是否為地名構(gòu)建復(fù)合機(jī)構(gòu)限定詞詞典,對(duì)測(cè)試集進(jìn)行標(biāo)注。
本文將人民日?qǐng)?bào)作為語(yǔ)料,根據(jù)以上實(shí)體類型提出的5個(gè)特征,有效區(qū)分了地名和機(jī)構(gòu)名實(shí)體。
通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,將文本中的一個(gè)詞用一連串的向量進(jìn)行表示,這就是詞在計(jì)算機(jī)中的分布表示特征——詞向量。詞向量能表達(dá)詞語(yǔ)的深層語(yǔ)義內(nèi)容,利用這一特點(diǎn),我們可以通過詞向量對(duì)實(shí)體進(jìn)行分類。
影響詞向量效果的幾個(gè)因素:①詞向量的維度大小會(huì)影響詞向量的效果,維度越高,表示的內(nèi)容越充分,但是過高的維度會(huì)增加運(yùn)算量,造成“維數(shù)災(zāi)難”。②實(shí)驗(yàn)語(yǔ)料的質(zhì)量也會(huì)影響詞向量的效果。同一領(lǐng)域內(nèi)不相干的語(yǔ)料越多,詞向量的效果就越差??紤]到以上因素,本文選取的是人民大學(xué)開源的人民日?qǐng)?bào)詞向量詞典,該詞典訓(xùn)練了1947年-2017年的人民日?qǐng)?bào)的詞向量。全面覆蓋了通用領(lǐng)域的詞語(yǔ),能夠滿足任務(wù)需要。
在提取出訓(xùn)練集中標(biāo)注的實(shí)體及檢索詞向量詞典找到匹配的詞向量時(shí),我們采用最大逆向匹配算法,如“新疆大學(xué)”第一次匹配無(wú)法找到對(duì)應(yīng)詞向量,第二次匹配輸入“疆大學(xué)”,依次匹配,最終“大學(xué)”找到詞向量,作為“新疆大學(xué)”對(duì)應(yīng)的詞向量。
聚類是一種無(wú)監(jiān)督學(xué)習(xí)的方法,實(shí)質(zhì)是依據(jù)某種距離度量,使得同一聚簇之間的相似性最大化,不同聚簇之間的相似性最小化,即把相似的對(duì)象放入同一聚簇中,把不相似的對(duì)象放到不同的聚簇中。本文采用基于K-means算法的詞向量聚類,提取出訓(xùn)練集中的實(shí)體詞向量聚類成若干個(gè)簇,為下一節(jié)測(cè)試集實(shí)體的分類做好準(zhǔn)備。
前文通過CRF模型識(shí)別出測(cè)試集中的命名實(shí)體并構(gòu)建待分類實(shí)體集,上一節(jié)將訓(xùn)練集內(nèi)命名實(shí)體劃分為若干簇。這里我們提取出待分類實(shí)體集下的每一個(gè)實(shí)體,與聚類的每個(gè)簇之間進(jìn)行相似度比較,放入距離最近的那個(gè)簇中。為了提升分類的準(zhǔn)確度,我們?cè)诿總€(gè)簇中隨機(jī)抽取10個(gè)實(shí)體,與待分類實(shí)體計(jì)算詞向量相似度,得到的10個(gè)相似度距離取平均數(shù)作為該簇與該實(shí)體之間的距離。相似度特征的計(jì)算方法
詞向量在命名實(shí)體識(shí)別研究中應(yīng)用廣泛,但是一般是將詞向量加入特征構(gòu)建特征模板進(jìn)行實(shí)體識(shí)別。本文提出通過詞向量聚類及計(jì)算詞向量相似度的方法實(shí)現(xiàn)實(shí)體分類。
實(shí)驗(yàn)所用語(yǔ)料為1998年1月的人民日?qǐng)?bào)語(yǔ)料,該語(yǔ)料為人工標(biāo)注語(yǔ)料,人名、地名、機(jī)構(gòu)名的標(biāo)注非常精細(xì),對(duì)于后期判斷實(shí)體識(shí)別的好壞有很大幫助。郭家清在該數(shù)據(jù)集上實(shí)體識(shí)別準(zhǔn)確率達(dá)到了95.4%,召回率達(dá)到了90.9%,F(xiàn)1值達(dá)到了93.1%。可見,在高質(zhì)量的語(yǔ)料下,命名實(shí)體的識(shí)別研究已經(jīng)達(dá)到很好的效果。這也確保了下一步對(duì)實(shí)體進(jìn)行分類的準(zhǔn)確度。本文隨機(jī)抽取4/5語(yǔ)料作為訓(xùn)練語(yǔ)料,1/5作為測(cè)試語(yǔ)料。訓(xùn)練語(yǔ)料約15 590個(gè)句子,測(cè)試語(yǔ)料約3908個(gè)句子。
我們共采取了3部分實(shí)驗(yàn)進(jìn)行命名實(shí)體識(shí)別及分類:第一部分實(shí)驗(yàn)及目的是對(duì)特征進(jìn)行選擇,構(gòu)建特征模板,識(shí)別出人名、地名、機(jī)構(gòu)名;第二部分實(shí)驗(yàn)及目的是對(duì)訓(xùn)練集中的實(shí)體詞向量進(jìn)行聚類,選取合適的質(zhì)心并將命名實(shí)體集劃分為若干小類;第三部分實(shí)驗(yàn)及目的是將識(shí)別出的實(shí)體與已劃分的簇進(jìn)行相似度計(jì)算,將目標(biāo)實(shí)體放入到對(duì)應(yīng)的簇中。
本文將采用準(zhǔn)確率(P),召回率(R)和F1這3個(gè)指標(biāo)來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果
特征的選擇需要考慮實(shí)驗(yàn)語(yǔ)料的領(lǐng)域特點(diǎn)進(jìn)行判斷。由于語(yǔ)料中人名的特征已標(biāo)注在詞性中,且識(shí)別率很高,本實(shí)驗(yàn)中達(dá)到了99%,故本次實(shí)驗(yàn)只針對(duì)地名、機(jī)構(gòu)名實(shí)體選取5個(gè)特征構(gòu)建特征模板。
選取特征時(shí),比如“研討會(huì)”在“中國(guó)傳統(tǒng)醫(yī)藥學(xué)術(shù)研討會(huì)”中是實(shí)體中心詞,但是在“參加今天研討會(huì)的有……”中就不是中心詞。為了避免產(chǎn)生數(shù)據(jù)稀疏問題。我們通過設(shè)定閾值,滿足條件的詞添加標(biāo)記作為特征。不同閾值下得到的中心詞個(gè)數(shù)見表1。
表1 不同閾值對(duì)應(yīng)的中心詞個(gè)數(shù)
經(jīng)統(tǒng)計(jì),選取中心詞特征閾值取0時(shí)做標(biāo)記詞數(shù)為23 665個(gè)。閾值取0.3時(shí),該特征標(biāo)記下的詞數(shù)為10 290個(gè)。標(biāo)記數(shù)目下降一半,有效地避免了數(shù)據(jù)稀疏問題。
針對(duì)一些復(fù)雜的機(jī)構(gòu)名,如地名開頭的機(jī)構(gòu)名,首先讀取訓(xùn)練集中已標(biāo)注實(shí)體,若實(shí)體的第一個(gè)詞詞性標(biāo)記為ns(原始語(yǔ)料已標(biāo)注),則把該實(shí)體的最后一個(gè)詞添加至限定詞詞典。其次,遍歷測(cè)試集中的詞語(yǔ),找到詞性標(biāo)注為ns的詞,向后取四位詞語(yǔ),期間的每一位詞與限定詞詞典進(jìn)行匹配。若匹配成功,則添加復(fù)雜機(jī)構(gòu)名的邊界限定特征。
通過不同限定條件獲得特征后,選取不同特征構(gòu)建特征模板進(jìn)行實(shí)驗(yàn)對(duì)比,構(gòu)造組合特征進(jìn)行對(duì)比實(shí)驗(yàn)。組合特征模板見表2。
表2 組合特征模板
狹義上,命名實(shí)體分為人名、地名、組織名。隨著自然語(yǔ)言處理任務(wù)的廣泛應(yīng)用,人們對(duì)于這些實(shí)體名詞有了更細(xì)致的劃分需求。本文制定了一個(gè)命名實(shí)體分類體系,將命名實(shí)體3大類細(xì)分至8小類,見表3。
表3 實(shí)體分類
詞語(yǔ)的詞向量能夠表達(dá)語(yǔ)義關(guān)系,語(yǔ)義上相近的詞可以通過詞向量聚類的方法匯成一類。實(shí)驗(yàn)訓(xùn)練集共包含重復(fù)地名、機(jī)構(gòu)名實(shí)體約24 220個(gè),本文選用網(wǎng)上開源的已訓(xùn)練好的詞向量詞典,將訓(xùn)練語(yǔ)料中已標(biāo)注實(shí)體和詞典進(jìn)行最大逆向匹配,匹配后構(gòu)建實(shí)體詞向量詞典進(jìn)行詞向量聚類。聚類方法采用K-means聚類算法。
(1)隨機(jī)選取質(zhì)心,將實(shí)體聚類成20類,實(shí)驗(yàn)結(jié)果見表4。通過實(shí)驗(yàn),隨機(jī)選取質(zhì)心進(jìn)行聚類的效果具有一定的局限性。一是聚類的類別是隨機(jī)的,無(wú)法根據(jù)需求進(jìn)行聚類。二是一些實(shí)體區(qū)分難度較大,實(shí)驗(yàn)中第2、3、9類實(shí)體,這些實(shí)體的語(yǔ)義關(guān)系相對(duì)復(fù)雜,聚類效果不佳。針對(duì)以上問題,本文提出根據(jù)目標(biāo)需求人為設(shè)定質(zhì)心以提高分類效果。選取作為質(zhì)心的20個(gè)實(shí)體詞見表5。
(2)人工選取質(zhì)心,將實(shí)體聚類成20類,見表6。實(shí)驗(yàn)表明,①人為設(shè)定質(zhì)心,能夠?qū)?shí)體聚類成目標(biāo)需要的類別。②該組實(shí)驗(yàn)下第1、12類聚類效果較差,對(duì)照上組
表4 隨機(jī)質(zhì)心聚類結(jié)果
表5 作為質(zhì)心的實(shí)體詞
實(shí)驗(yàn)識(shí)別不完善的實(shí)體數(shù)大幅下降,由2683個(gè)降至1031個(gè)。所以通過人為設(shè)置質(zhì)心,實(shí)體聚類的效果有較大提升。
表6 人工選取質(zhì)心聚類結(jié)果
如前文所示,識(shí)別出地名、機(jī)構(gòu)名后,本文將地名、機(jī)構(gòu)名分成中國(guó)地名、外國(guó)地名、學(xué)校研究機(jī)構(gòu)等6類。首先采用最大逆向匹配算法匹配詞向量詞典構(gòu)建待分類詞向量詞典。然后在聚類的20個(gè)類中隨機(jī)抽取10個(gè)詞的詞向量和待分類詞進(jìn)行相似度計(jì)算進(jìn)行實(shí)體分類。
為了驗(yàn)證該方法的有效性,進(jìn)行了對(duì)照實(shí)驗(yàn)。首先構(gòu)建特征模板,然后利用條件隨機(jī)場(chǎng)模型直接將實(shí)體進(jìn)行分類。由于條件隨機(jī)場(chǎng)模型需要標(biāo)注出實(shí)體類別作為模型中的目標(biāo)函數(shù),而這一部分又需要人工標(biāo)注,所費(fèi)人力物力巨大,所以取訓(xùn)練集中1300個(gè)句子,測(cè)試集中1100個(gè)句子,進(jìn)行精細(xì)標(biāo)注。特征選取本文的5個(gè)特征,利用訓(xùn)練集構(gòu)建模型,用測(cè)試集進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果見表7、表8。
由實(shí)驗(yàn)可知,直接構(gòu)建特征模板,用條件隨機(jī)場(chǎng)進(jìn)行實(shí)體識(shí)別的效果不好。分析原因,一是因?yàn)榻y(tǒng)計(jì)模型是根97.7%,機(jī)構(gòu)名的F1值由86.6%提升到了92.8%。這也為下一步實(shí)體的分類奠定了基礎(chǔ)。
表7 條件隨機(jī)場(chǎng)模型分類結(jié)果
表8 詞向量聚類下實(shí)體分類結(jié)果
據(jù)條件概率進(jìn)行判斷;對(duì)照實(shí)驗(yàn)中訓(xùn)練語(yǔ)料的規(guī)模會(huì)影響判別效率,訓(xùn)練集為1300句時(shí),命名實(shí)體識(shí)別的準(zhǔn)確率要高于訓(xùn)練集為500句。但是在當(dāng)今時(shí)代下,文本量呈指數(shù)級(jí)增長(zhǎng),對(duì)全部語(yǔ)料進(jìn)行人工標(biāo)注耗時(shí)費(fèi)力。二是特征的選??;根據(jù)分類的實(shí)體類別確定特征固然是好,但是如果取不同的實(shí)體類別就要構(gòu)造新的特征,而這個(gè)特征還不一定對(duì)識(shí)別率有正面的影響,同樣也是費(fèi)時(shí)費(fèi)力。相比而言,本文提出的先進(jìn)行基于統(tǒng)計(jì)特征的實(shí)體識(shí)別,再進(jìn)行詞向量的聚類,比較詞向量相似度進(jìn)行分類的方法,只需要在測(cè)試集上進(jìn)行人工標(biāo)注,也無(wú)需更改特征,減少了訓(xùn)練語(yǔ)料人工標(biāo)注的工作量,在識(shí)別率上也取得了很好的效果。
該語(yǔ)料下人名實(shí)體的識(shí)別率較高,在人名的分類上;本文將人名實(shí)體分成漢族常用人名及其它人名;漢族人名和其它人名相比,其特點(diǎn)一是字符數(shù)相對(duì)較短,最長(zhǎng)不過4位。二是漢族人名的第一個(gè)字符為百家姓,可以構(gòu)建姓氏表對(duì)其進(jìn)行識(shí)別。
分類步驟:
(1)提取出識(shí)別的人名字符串,依據(jù)字符串長(zhǎng)度進(jìn)行判別;限定字符串長(zhǎng)度≥4的為其它人名,<4的進(jìn)行下一步判斷;
(2)搜集常用姓氏構(gòu)造百家姓詞典,將字符串長(zhǎng)度<4人名的首字符與詞典進(jìn)行判別,匹配到則把該字符串放入漢族人名列表。
(3)對(duì)于復(fù)姓,取字符串長(zhǎng)度≥4的人名與復(fù)姓姓氏匹配,匹配到則把該字符串放入漢族人名列表。人名分類流程如圖2所示。
圖2 人名分類流程
如表9所示,組合特征模板下地名、機(jī)構(gòu)名的征時(shí),機(jī)構(gòu)名的識(shí)別率有了顯著的提高,這主要是該特征下確定地名開頭的復(fù)合機(jī)構(gòu)名的邊界,提高了機(jī)構(gòu)名的識(shí)別率;而在添加右邊界詞Right_Boundary及中心詞CORE特征后,地名實(shí)體的識(shí)別率有所提高。通過對(duì)不同特征組合下的對(duì)比實(shí)驗(yàn),比較命名實(shí)體的識(shí)別率,實(shí)驗(yàn)表明:地名的F1由95.5%提升到了97.7%,機(jī)構(gòu)名的F1值由86.6%提升到了92.8%。這也為下一步實(shí)體的分類奠定了基礎(chǔ)。
表9 不同特征模板下地名、機(jī)構(gòu)名識(shí)別的效果/%
人名分類結(jié)果見表10,人名分類效果達(dá)存在一部分外國(guó)人名,首字符是中文姓氏開頭,如:“喬丹”,“韋德”等會(huì)誤識(shí)別成漢族人名。對(duì)于一些簡(jiǎn)稱或者是作家的筆名,如:“老王”,“冰心”,“老舍”等會(huì)誤識(shí)別成其它人名。能否從音節(jié),字符常用搭配等方面進(jìn)行研究也是下一步的研究重點(diǎn)。
表10 人名、地名、機(jī)構(gòu)名分類結(jié)果
分類結(jié)果見表10。根據(jù)實(shí)驗(yàn)結(jié)果,地名、機(jī)構(gòu)名分成6類,每一類的F1值都達(dá)到了78%以上。與訓(xùn)練語(yǔ)料為1300句的對(duì)照實(shí)驗(yàn)結(jié)果相比,每一類的識(shí)別率都有所提高??梢?,訓(xùn)練語(yǔ)料規(guī)模的擴(kuò)大會(huì)加強(qiáng)實(shí)體聚類時(shí)簇的效果,提升實(shí)體分類的準(zhǔn)確性。識(shí)別效果較差的“學(xué)校、研究機(jī)構(gòu)”類別、“企、事業(yè)單位”類別及“文娛活動(dòng)”類別在該方法下識(shí)別效果增長(zhǎng)明顯,主要是因?yàn)樵~向量聚類是按照語(yǔ)義相關(guān)性進(jìn)行聚類,受語(yǔ)料規(guī)模的影響較小。且每次根據(jù)需要選取不同的實(shí)體進(jìn)行分類,只需要修改質(zhì)心即可,不用修改特征進(jìn)行大量的語(yǔ)料標(biāo)注及實(shí)驗(yàn)。
針對(duì)命名實(shí)體分類問題,本文提出的先選取特征構(gòu)建特征模板識(shí)別出命名實(shí)體,再利用詞向量聚類及計(jì)算詞向量相似度對(duì)實(shí)體進(jìn)行分類的方法能夠?qū)?shí)體分類產(chǎn)生較好效果。其優(yōu)點(diǎn)在于: ①該方法分類的準(zhǔn)確率相對(duì)于直接利用CRF模型進(jìn)行分類要高,并且省去大規(guī)模語(yǔ)料標(biāo)注的工作,只需對(duì)測(cè)試預(yù)料進(jìn)行標(biāo)注。②可根據(jù)文本的類型及需要對(duì)細(xì)分類別實(shí)體進(jìn)行任意組合,如地名可分為中外地名,亦可分為景點(diǎn)、高山、湖泊等。在未來(lái)的研究中,還將針對(duì)以下幾點(diǎn)進(jìn)行改進(jìn):首先本文的詞向量詞典具有一些局限性,對(duì)于新的領(lǐng)域,如醫(yī)療、農(nóng)業(yè)、交通等領(lǐng)域聚類效果會(huì)下降。這需要我們擴(kuò)展詞向量詞典覆蓋范圍。其次下一步可以與深度學(xué)習(xí)方法相結(jié)合,采用主動(dòng)學(xué)習(xí),遷移學(xué)習(xí)等方法進(jìn)一步減少人工標(biāo)注語(yǔ)料的工作量。