蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 蘇州 215000
自進(jìn)入信息時(shí)代以來,互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展,需要處理的文本信息逐漸增多,為了進(jìn)一步強(qiáng)化對文本內(nèi)容的理解,需要相關(guān)研究人員結(jié)合命名實(shí)體進(jìn)行深入探索。而所謂命名實(shí)體,主要指以人名、地名為主的名稱,或以時(shí)間、日期為主的表達(dá)式等一系列具有明確語義信息文本、字詞或短語。通過對文本中的實(shí)體進(jìn)行識別,能夠?yàn)槿藗冞M(jìn)一步了解文本奠定基礎(chǔ),為機(jī)器更加深入的處理文本實(shí)體和含義提供保障[1]。
中文命名實(shí)體識別是研究和處理自然語言的關(guān)鍵方向,也是分詞系統(tǒng)、實(shí)體連接系統(tǒng)以及文本摘要系統(tǒng)中不可或缺的組成部分。近年來,隨著網(wǎng)絡(luò)進(jìn)程的不斷深入,網(wǎng)絡(luò)文本與日俱增,在一定程度上增加了文本信息處理的工作量,使得人們對文本自動(dòng)化處理產(chǎn)生了迫切需求。
以上提到,命名實(shí)體是指具有明確語義的專有名詞,其中包括稱呼、表達(dá)式以及數(shù)量詞語等。在研究特定的命名實(shí)體過程中,需要結(jié)合實(shí)際場景確定其具體含義。
人名作為明明實(shí)體中的重要組成之一,是一個(gè)較為特殊的類別,相對于其他專有名詞而言,在識別方面具有一定難度。中文人名在識別中存在的難點(diǎn)具體可以體現(xiàn)在以下幾個(gè)方面:第一,外國人名在識別過程中可以將首字母大寫作為標(biāo)志,而中文人名識別則沒有。第二,人名具有不可列舉特征。當(dāng)前,只有極少部分的中文人名或昵稱可以在字典中找到,而大部分人名都需要專門識別。第三,中文姓名具有多樣化特征,格式無法統(tǒng)一,并且其中涉及大量音譯外國人名,在一定程度上增加了識別難度。第四,中文人名具有結(jié)構(gòu)復(fù)雜特征,其中包括人名本身是一個(gè)詞語詞或其中一部分是一個(gè)詞語,在識別過程中容易產(chǎn)生歧義。例如:黎明、汪洋等本身成詞的人名,或王國維等部分成詞的人名。
組織機(jī)構(gòu)名稱也是出現(xiàn)頻率較為頻繁,并且對文本含義起到重要影響的專有名詞之一。在中文短文本實(shí)體識別中,組織機(jī)構(gòu)名稱識別難度較大。具體來說,由于組織機(jī)構(gòu)名稱長短不一,并且存在嵌套或者縮寫等情況。因此,在組織名稱較長的文本識別過程中,可以通過先局部、在合并的方式進(jìn)行識別,而后結(jié)合中文短文本中的前后關(guān)系,提取組織機(jī)構(gòu)名稱的識別方法。
地名識別相對于人名識別和組織機(jī)構(gòu)識別而言相對簡單。地名一般具有顯著特征,并且絕大多數(shù)地名都被收錄到字典中,并且與其他專有名詞相比,新增地名的可能性相對較低。
在研究命名實(shí)體識別過程中,雖然通過標(biāo)記專有名詞,能夠進(jìn)一步解專有名詞在文本中的類型及相關(guān)位置,但是無法為人們深入掌握名詞提供依據(jù),對于中文短文本識別而言,理解和解釋專有名詞,才是識別命名實(shí)體的重要內(nèi)容。
通過實(shí)體連接,可以用某個(gè)百科全書或知識庫文章中的條目,對專有名詞進(jìn)行標(biāo)記。由此可見,實(shí)體連接具備簡潔性和抽象性特征,通過給定一組查詢名詞或者相關(guān)背景,能夠使人們從已有知識庫中找到與文本識別向匹配的實(shí)體項(xiàng),從而對專有名詞做出標(biāo)記[2]。如果知識庫中沒有與文本相對應(yīng)的實(shí)體向,則返回NIL。在此過程中需要注意,實(shí)體連接雖然是一種較為便捷的專有名詞解釋方法,但是更加適用于被復(fù)雜任務(wù)的自然語言處理系統(tǒng)。
另外,并非百科全書就一定具有全面性,其中也并非收錄所有實(shí)體。例如:在謀篇中文短文本中出現(xiàn)“李白”這一人名后,大多數(shù)人都會自然而然聯(lián)想到唐代詩人李白,在知識庫中雖然有唐代詩人李白的相關(guān)條目,但是文本中所指的“李白”,也可能知識普通人群中的一員,此時(shí),需要將這一專有名詞標(biāo)記為NIL,表示知識庫中沒有對這一實(shí)體進(jìn)行描述的內(nèi)容。
想要進(jìn)一步解決實(shí)體識別與實(shí)體鏈接問題,研究人員廣泛應(yīng)用了管道體系。具體來說,研究人員利用一個(gè)命名實(shí)體識別系統(tǒng),對專用名詞的具體位置和類型進(jìn)行標(biāo)示。而后用實(shí)體鏈接系統(tǒng)深入研究專有名詞的位置和類型,從而對專用名詞在中文短文本中的意義進(jìn)行揭示。與其他管道體系弊端相同,這種方式也存在一定的不足之處,即在實(shí)體識別系統(tǒng)中存在的錯(cuò)誤,會持續(xù)傳遞到實(shí)體鏈接系統(tǒng)中[3]。具體體現(xiàn)在以下三點(diǎn):第一,一旦實(shí)體識別存在錯(cuò)誤,并且傳遞到練習(xí)系統(tǒng),則導(dǎo)致錯(cuò)誤無法恢復(fù)和彌補(bǔ)。第二,中文短文本實(shí)體識別,無法利用實(shí)體連接系統(tǒng)中使用的相關(guān)信息。第三,實(shí)體識別系統(tǒng)與實(shí)體鏈接系統(tǒng)產(chǎn)生的輸出不一致。也就是說,實(shí)體鏈接系統(tǒng)標(biāo)記的專有名詞與實(shí)體識別系統(tǒng)給出的類別標(biāo)記不一致。
曾有專業(yè)研究人員明確提出,在中文短文本處理過程中,將系統(tǒng)的F1精度設(shè)置到0.64~0.67之間。如果實(shí)體識別結(jié)果正確,此時(shí)實(shí)體連接系統(tǒng)精度也相對較高。本文在此基礎(chǔ)上提出一種新型模型,用于命名實(shí)體識別處理和鏈接任務(wù)中[4]。另外,如果中文短文本具有短小、缺乏完整性、句法結(jié)構(gòu)異常等缺陷,首先需要考慮知識庫中的信息,并對實(shí)體進(jìn)行深入分析。
綜上所述,自然語言處理具有一定困難性和挑戰(zhàn)性,其主要原因在于自然語言表達(dá)具有多言行特點(diǎn)。簡單來說就是同一實(shí)體存在多種表達(dá)方式,并且多種表達(dá)方式的意思又具有一致性。因此,本文結(jié)合中文短文本實(shí)體識別和實(shí)體連接的相關(guān)介紹進(jìn)行分析,通過對實(shí)體識別的位置和類型進(jìn)行標(biāo)示,利用實(shí)體連接在知識庫中找到相應(yīng)條目,從而確定文本實(shí)體的含義,為人和機(jī)器進(jìn)一步掌握詞義奠定基礎(chǔ)。