摘要:朝鮮語作為人類語種中的一員,雖使用人數不多,但卻依然為人類文明的傳承,作出了重要貢獻?;诖饲椋恼聦Τr語自然語言的處理問題進行探究,望所述為朝鮮語自然語言處理的發(fā)展,提供些許可參考依據。
關鍵詞:自然語言;朝鮮語;處理
引言
我國早在上世紀就開始對自然語言的處理進行探究,但是主要集中在英語、日語等語種方面,涉及朝鮮語的自然語言處理問題探究相對要少很多,而自然語言又是一種由人蓄意為某些特定目的而創(chuàng)造的語言,故而在翻譯方面難度較大,因此,下文將對朝鮮語自然語言處理問題進行探究。
一、朝鮮語自然語言處理的主要內容
1、句法學
句法學是朝鮮語自然語言處理中的重要內容,其主要是對語言中不同成分組成句子的規(guī)則和句子結構中各成分之間的相互關系進行探究,長久以來,受各種客觀和主觀因素影響,其研究進展緩慢,但近幾年,關于句法學的研究,卻在穩(wěn)步推進,并取得了一定的成果。
目前,我國在朝鮮語句法學方面,主要分兩個方面對復句進行了探究,即復句的自動識別、提取與復句的句法結構、語義結構的相似度計算。其一,在復句的自動識別、提取方面,采用借助一階謂詞邏輯表示法與框架表示法,這種方法需要人工進行編碼,工作量十分龐大,且耗時較長,但卻為后續(xù)的復句識別研究提供了借鑒,其二,是通過借助連接副詞對復句進行“解構化”處理,但這種方法有一定的局限性,其主要針對朝鮮語單重復句,而對句子結構復雜的長句和多重復句不太適用,其三,結合朝鮮語復句語法特點和標注特征,歸納了130余類連接語尾使用語境和4類潛在關系標記,構建了詳細的復句識別特征集,實驗結果表明復句的識別率能達到87%以上,為朝鮮語的復句處理提供了基礎資源,存在的不足是數據樣本的規(guī)模較小,特征集還有待進一步完善,多重復句的識別準確率不高。
2、形態(tài)學
形態(tài)學是語言學的一個分支,其主要的研究內容是詞的內部結構,包括曲折變化、構詞法。目前,針對朝鮮語的自然語言處理,我國的起步相對較晚,因此,尚未有什么顯著成就,而在這方面研究成果較為突出的當屬韓國,如首爾的高麗大學,通過構建詞綴詞典和制定詞綴規(guī)則體制來進行形態(tài)素分析,構建了韓國語形態(tài)分析模型,另外,延世大學、梨花女子大學等,也均開發(fā)了形態(tài)素分析器,當然,還有一些其他高等學府在其處理方面也取得了一定的成果。
3、語義學
語義學,顧名思義,即探究語言意義的學科。對于不同的語言單位,語義分析的任務各不相同。在詞的層次上,語義分析主要是進行詞義消歧(WSD),在句子層面上,主要任務是語義角色標注,而在篇章層面上,指代消歧、篇章語義分析則是目前研究的重點。
我國在朝鮮語予以分析方面,主要集中在詞匯及句子層面的語義角色標注、語義知識庫建立。目前,對朝鮮語可能存在的語義結構進行了全面系統(tǒng)的總結,最終構擬出朝鮮語事件語義結構的層次推演系統(tǒng),初步建立了現代朝鮮語的語義角色清單,該語義角色清單共包含了35個具體的語義角色,比韓國的“世宗計劃”,還要多出21個,這也為朝鮮語語義研究奠定了基礎,而在此基礎上,又將謂詞的句法、語義屬性結合,進而建立了“朝鮮語句法語義知識庫”,為我國朝鮮語的自然語言處理作出了巨大貢獻。
二、朝鮮語自然語言處理的基本方法
從當前的朝鮮語自然語言處理的研究來看,其主要以理性主義和經驗主義兩種研究方法為主,采取規(guī)則和統(tǒng)計相結合的形式。而為了能夠提高計算機翻譯的準確度,在基于韓國“世宗計劃”標注語料庫中的20萬句語料的基礎上,對朝鮮語以連接詞尾結尾的特殊短語結構、以冠形詞轉成詞尾結尾的特殊短語以及以一般副詞結尾的特殊短語分別進行語言特征分析,確定其左右邊界,構建規(guī)則庫,以迭代方式提取出56216個短語結構,建立了特殊短語庫,最后以5000句訓練語料為基礎,通過中心詞對信息提取系統(tǒng)進行召回率和正確率的評價,最終召回率達到了100%,正確率為93.8%。采用規(guī)則與統(tǒng)計相結合的方法,對韓國語的定語從句進行了句法特征的分析及自動識別。通過分析動詞類AM定語從句,形容詞類AM定語從句,系詞類AM定語從句的句法結構特征,歸納總結其左右邊界和內部構成的共現關系,構建了定語從句識別集,在語料庫中進行匹配運算,實現了定語從句的自動識別。通過提取句子的骨架結構,然后與實例庫中句子匹配,并運用數學模型計算出兩個句子間的結構相似度,最后以1萬句單句為實驗對象,抽取骨架結構,按上述數學模型對句子進行遍歷比較,最終得到相似度計算結果,驗證了該方法的可行性,但是正確率只要76%,有進一步提升的空間。
結束語
綜上所述,朝鮮語的自然語言處理,雖然已經取得一些成就,但仍然有很多地方需要完善,只有這樣,才能更加準確無誤的實現不同語言之間的有效互譯,消除語言障礙,實現國家、地區(qū)及民族之間的溝通,促進兩者的共同進步,為人類文明的延續(xù),作出應有的貢獻。
參考文獻:
[1]畢玉德.朝鮮語特殊短語結構的語言特征分析及自動提取[D].廣西科學院學報,2018(34)
[2]江一赫.朝鮮語民俗語言的翻譯方法探討[J].科教導刊(電子版),2021(12)
[3]畢玉德.朝鮮語自然語言處理研究管窺[J].中文信息學報,2011(25)
作者姓名:張詩悅,出生日期:1999.2.17,性別:女,籍貫:遼寧省遼中縣,專業(yè):朝鮮語,學校:遼東學院