亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        蒙古語語言知識庫的建立與應(yīng)用

        2011-02-17 04:20:23那順烏日圖
        中文信息學(xué)報 2011年6期
        關(guān)鍵詞:語義數(shù)據(jù)庫

        那順烏日圖

        (內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙 呼和浩特 010021)

        1 引言

        建立一個較為完整的、能夠為自然語言處理系統(tǒng)提供知識支撐的語言知識庫是蒙古文信息處理當(dāng)務(wù)之急。其具體內(nèi)容包括: (1)整理和完善現(xiàn)有資源。將蒙古文信息處理字、詞處理階段所建立的較為零亂的、面向某一個具體應(yīng)用系統(tǒng)的知識資源整合成一個完整的體系,即系統(tǒng)化的知識資源;(2)根據(jù)機器翻譯、語料庫加工等工作的實際需求,構(gòu)建包括蒙古語語法知識、語義知識和語用知識的綜合性語言知識庫,同時制定面向信息處理的蒙古語各類規(guī)范、標(biāo)準(zhǔn);(3)建立知識資源管理平臺,將已有的知

        識資源用統(tǒng)一規(guī)格集成在一個平臺上,使之更有效地為語言信息處理服務(wù)。

        近幾年我們把現(xiàn)有知識庫和規(guī)范、標(biāo)準(zhǔn)應(yīng)用在語料庫加工、文字識別、機器翻譯等具體系統(tǒng)上,通過運行、調(diào)試,不斷進行調(diào)整和完善。例如,“現(xiàn)代蒙古語文數(shù)據(jù)庫”的詞性標(biāo)注和詞法標(biāo)注;“蒙古語語法信息詞典”的擴充和完善以及管理平臺的設(shè)計與實現(xiàn);對蒙古語詞語進行語義分類并制定相關(guān)標(biāo)記集;“蒙古語語義信息詞典”的框架設(shè)計及部分分庫的構(gòu)建;“蒙古語謎語數(shù)據(jù)庫”、“蒙古語熟語數(shù)據(jù)庫”的構(gòu)建及其管理軟件的研發(fā);面向信息處理的蒙古語詞語短語和語義標(biāo)記集的制定;蒙古語樹庫的構(gòu)建等工作。

        2 蒙古語語言知識庫的主要結(jié)構(gòu)和內(nèi)容

        2.1 語法知識庫

        (1) “蒙古語語法信息詞典”的建立。我們構(gòu)建了包括傳統(tǒng)蒙古文正字法,蒙古語常用詞語的詞性、形態(tài)、功能,蒙古語構(gòu)形附加成分的功能和用法,蒙古文標(biāo)點符號的使用規(guī)則等文字學(xué)、語法學(xué)知識的,結(jié)構(gòu)較為完整、信息較為翔實的一個語法知識庫—“蒙古語語法信息詞典”。目前該詞典已基本成形,建成包括一個總庫和19個分庫的詞典數(shù)據(jù)庫,并開發(fā)了其管理平臺,制定了相關(guān)規(guī)范。目前“總庫”詞條達(dá)到38 000余個,總信息量達(dá)到270多萬條。該詞典在蒙古文機器翻譯、蒙古文文檔識別、蒙古語語料庫標(biāo)注與對齊、蒙古文農(nóng)業(yè)專家系統(tǒng)等應(yīng)用系統(tǒng)中發(fā)揮著重要作用。

        (2) “現(xiàn)代蒙古語固定短語語法信息詞典”的構(gòu)建。針對自動處理固定短語的類型、意義、屬性等特征,已構(gòu)建了包含12 000余條常用固定短語的“固定短語語法信息詞典”。該詞典數(shù)據(jù)庫設(shè)置了17項語法屬性字段,詳細(xì)描述了其各種語法屬性,并研制了蒙古語固定短語自動識別系統(tǒng)。

        (3) 詞法分析系統(tǒng)、生成規(guī)則庫的構(gòu)建。1)通過開發(fā)漢蒙機器翻譯系統(tǒng),研制了“蒙古語語言模型”、“蒙古語生成規(guī)則庫”、“漢語-蒙古語轉(zhuǎn)換規(guī)則庫”和雙語機器詞典等,詳細(xì)描述了蒙古語詞語、短語的語法屬性和各種語法形式的生成規(guī)則等。2)為了解決蒙古語詞語標(biāo)注和編碼轉(zhuǎn)換等問題,我們采用基于規(guī)則和基于統(tǒng)計的方法研發(fā)了具有蒙古文編碼轉(zhuǎn)換和切分還原、詞性標(biāo)注等功能的詞法分析器。該軟件能夠切分蒙古文詞語、還原詞干和識別附加成分,分析詞干詞性和附加成分歸類,從而確定整詞的詞性。并且實現(xiàn)了各種蒙古文編碼的相互轉(zhuǎn)換,將非標(biāo)準(zhǔn)編碼文本轉(zhuǎn)換成符合蒙古文編碼國際標(biāo)準(zhǔn)的文本。3)在構(gòu)建漢蒙雙語平行語料庫時,漢蒙詞語對齊的基本框架中需要蒙古語文本的詞法分析和標(biāo)注。針對這種需求,我們研發(fā)了基于詞典和規(guī)則的蒙古語詞法分析系統(tǒng)。該系統(tǒng)的詞典部分是“蒙古語語法信息詞典”的“總庫”和“構(gòu)形附加成分分庫”,規(guī)則部分是蒙古語詞語切分還原規(guī)則。目前,在漢蒙詞語對齊技術(shù)研究中充分發(fā)揮了該詞法分析器的作用。

        (4) 不論從蒙古語句子的自動分析,還是從蒙古語短語和句子的結(jié)構(gòu)關(guān)系看,提供蒙古語短語結(jié)構(gòu)規(guī)則是進行蒙古語句法分析不可缺少的必要條件。為了滿足這種需求,我們研發(fā)了“現(xiàn)代蒙古語名詞、動詞短語結(jié)構(gòu)規(guī)則庫”。蒙古語名詞、動詞短語作為蒙古語短語的兩大重要類型,其結(jié)構(gòu)規(guī)則庫的構(gòu)建會促進整個蒙古語句法分析研究的深化。

        2.2 語義知識庫

        (1) “蒙古語語義信息詞典”的研發(fā)

        我們正在構(gòu)建詳細(xì)描述蒙古語常用詞語的語義分類、語義搭配、價質(zhì)價量等信息的語義知識庫—“蒙古語語義信息詞典”,初步完成了詞典的框架設(shè)計和名詞、形容詞語義信息庫。

        (2) “蒙古語格框架綜合知識庫”的研發(fā)

        為了充分利用蒙古語格框架知識資源,我們在語料分析的基礎(chǔ)上初步構(gòu)建了包含“格框架ID”、“格框架類型”、“語義格”、“格標(biāo)”、“謂語部分”主要信息的“蒙古語格框架綜合知識庫”。它對蒙古語詞語的語義分析,句法分析等自動處理中提供語義格框架與模型。

        (3) “蒙古文同形詞知識庫”的構(gòu)建

        為解決自然語言的歧義問題,我們研制了“蒙古文同形詞知識庫”及相關(guān)軟件: 包括“同形詞信息詞典”,100萬詞現(xiàn)代蒙古語同形詞標(biāo)注語料庫,“同形詞搭配庫”、“共現(xiàn)庫”、“類語庫”及“‘同形詞信息詞典’管理與維護工具”,“共現(xiàn)成分統(tǒng)計工具”,“同形同音同類詞識別與標(biāo)注工具”等。

        (4) “蒙古語多義詞詞典”的研發(fā)

        我們針對蒙古文信息處理中文本校對、詞法、句法消歧等需求,研發(fā)了按蒙古語常用詞語的義項作為詞條的“面向信息處理的蒙古語多義詞詞典”。目前,該詞典的規(guī)模已達(dá)到18 223詞條,涵蓋蒙古語多義名詞、多義形容詞、多義副詞等9個詞類。

        (5) “蒙古語連接形式知識庫”的構(gòu)建

        為自動識別自然語言句子中連接形式及其結(jié)構(gòu)、功能和位置等特征,開發(fā)了詳細(xì)描述蒙古語連接形式詞法、句法和語義特征的《蒙古語連接形式信息詞典》,并在此基礎(chǔ)上構(gòu)建了“蒙古語連接形式規(guī)則庫”,實現(xiàn)了“蒙古語連接形式自動識別程序”。

        2.3 語言規(guī)范標(biāo)準(zhǔn)

        (1) 詞語分類及其標(biāo)記集的制定

        通過十幾年的知識積累和自然語言處理經(jīng)驗,已制定“信息技術(shù) 信息處理用蒙古文詞語標(biāo)記集”,同時,把它應(yīng)用到100萬詞“現(xiàn)代蒙古語文數(shù)據(jù)庫”的詞性標(biāo)注,20萬“現(xiàn)代蒙古語文數(shù)據(jù)庫”的詞法標(biāo)注,“蒙古語語法信息詞典”的分類標(biāo)注等研究領(lǐng)域,這個標(biāo)記集目前已頒布成國家標(biāo)準(zhǔn)(GB/T 26235—2010)。

        (2) 語義分類及其標(biāo)記集的制定

        為了順利進行“蒙古語語義信息詞典”的開發(fā)和滿足語義分析、生成的需求,我們初步研制了蒙古語詞語語義分類體系及其標(biāo)記集。目前已完成蒙古語名詞、形容詞、動詞“語義分類體系及其標(biāo)記集”的研制工作,已應(yīng)用到“蒙古語語義信息詞典”的“名詞、形容詞、動詞分庫”中。

        (3) 短語分類及其標(biāo)記集的制定

        這是一個由蒙古語各類短語的邊界劃分規(guī)則和統(tǒng)計模型組成的知識庫。它不僅對一般短語標(biāo)注提供基本信息,而且對解決短語劃分中的歧義問題起決定性的作用。目前,將蒙古語短語分類及其標(biāo)記集集成到“信息技術(shù) 信息處理用蒙古文詞語標(biāo)記”的同時以此作為基準(zhǔn)進行蒙古語語料庫短語標(biāo)注。短語標(biāo)注語料庫已達(dá)到100萬詞規(guī)模。

        2.4 蒙古語標(biāo)注語料庫

        我們已對100萬詞級“現(xiàn)代蒙古語文數(shù)據(jù)庫”進行詞性標(biāo)注和詞法標(biāo)注,這個語料庫已經(jīng)從原來單純的數(shù)據(jù)資源逐步過渡到知識資源。

        2.5 各類電子詞典

        (1) 我們已輸入了近3 000條的“蒙古語人名詞典”,1 500條的“蒙古語地名詞典”,1 300余組類語的“蒙古語類語詞典”,正在輸入30 000余詞條的“蒙古語熟語詞典”。下一步我們將這些詞典填加到數(shù)據(jù)庫中,并設(shè)置一些屬性字段進行詞義描述。這些資源將對蒙古語語料庫的深層加工起到很大的推進作用。

        (2) 為了更加系統(tǒng)地了解詞語的各種義項,我們以內(nèi)蒙古大學(xué)《蒙漢詞典》為藍(lán)本,在原詞典數(shù)據(jù)庫的基礎(chǔ)上擴充了西里爾蒙古文屬性字段,編制成詞條總量達(dá)53 660條,約119萬字的傳統(tǒng)蒙古文、西里爾蒙古文與漢文對照的綜合性電子詞典,詞典由詞典數(shù)據(jù)庫及用戶界面組成。詞典可以顯示傳統(tǒng)蒙古文、西里爾蒙古文及漢文釋義、同時實現(xiàn)了蒙古文模糊查詢和例句自動抽取功能。

        (3) 為使蒙古族兒童在寓教于樂中掌握母語知識,幫助開發(fā)他們的智力,同時將已建知識資源在不同領(lǐng)域發(fā)揮更大的作用,我們構(gòu)建了“達(dá)日罕謎語數(shù)據(jù)庫”。數(shù)據(jù)庫中收錄了1 120個謎語,編寫了《達(dá)日罕謎語系統(tǒng)》專門程序,使它成為游戲型的問答系統(tǒng)。目前,該問答系統(tǒng)正準(zhǔn)備通過網(wǎng)絡(luò)平臺,投入應(yīng)用。

        2.6 管理平臺

        在已建立蒙古語語言知識庫的基礎(chǔ)上開發(fā)相應(yīng)的管理平臺是有必要的。蒙古語語言知識庫管理平臺是擴充、管理和共享知識庫的技術(shù)基礎(chǔ)。該數(shù)據(jù)庫管理軟件是在Visual Studio 2005 的編程環(huán)境中用Visual C#.NET語言設(shè)計實現(xiàn)的。為了更好地管理并補充和完善蒙古語語言知識庫中的詞法、句法、語義信息的統(tǒng)一性和完整性,管理平臺對各個資源庫設(shè)計了若干個MDI 子節(jié)點窗體,分別實現(xiàn)了添加、修改、刪除、查詢、瀏覽和校對等功能。與此同時為了保證各個知識庫之間的一致性,實現(xiàn)了一系列連貫操作。

        3 蒙古語語言知識庫的應(yīng)用

        這些知識庫作為蒙古自然語言處理的主要知識資源,正在或即將在蒙古文各種應(yīng)用系統(tǒng)中發(fā)揮重要作用。

        (1) 將語言知識資源建設(shè)與工程技術(shù)研發(fā)有機結(jié)合,是本知識庫的主要宗旨。無論是蒙古語“語法信息詞典”、“語義信息詞典”和規(guī)則庫,并不僅僅是一些理論性基礎(chǔ)研究的成果,而是與資源建設(shè)及系統(tǒng)開發(fā)相輔相成的、重要的基礎(chǔ)工程。例如,語料庫深層標(biāo)注、語言模型的研制、OCR的編碼轉(zhuǎn)換等都得益于該知識庫。

        (2) 在語言資源建設(shè)中制定和應(yīng)用一系列規(guī)范、標(biāo)準(zhǔn),使得各個知識庫之間的屬性設(shè)置互相對應(yīng),是各類資源統(tǒng)一管理和實現(xiàn)共享的基本保障。譬如,蒙古語詞語標(biāo)記集作為蒙古語語料庫建設(shè)的基礎(chǔ)標(biāo)準(zhǔn),貫穿于整個知識體系和數(shù)據(jù)資源,向不同的應(yīng)用系統(tǒng)提供規(guī)范、可信的語言知識。

        (3) 知識庫管理平臺將有效解決語法知識、語義知識和語用知識的融合,提高語料庫建設(shè)和應(yīng)用系統(tǒng)開發(fā)的速度與質(zhì)量。

        (4) 隨著電子詞典、機器翻譯系統(tǒng)趨于實用化,為各級政府部門、企事業(yè)單位的翻譯人員和廣大用戶提供文字翻譯的便利,這將對民族文字電子政務(wù)、電子商務(wù)、移動通信、網(wǎng)絡(luò)媒體等相關(guān)產(chǎn)業(yè)的發(fā)展起到積極作用。而各種語料庫、謎語數(shù)據(jù)庫、熟語數(shù)據(jù)庫……將對中小學(xué)教育提供知識資源,使教育教學(xué)的現(xiàn)代化和數(shù)字化具有實際意義。所以這項工作對保持我國在蒙古語語言資源開發(fā)和構(gòu)建方面的主導(dǎo)地位有深遠(yuǎn)意義,同時會帶來很大的社會效益和潛在的經(jīng)濟效益。

        (5) “蒙古語語法信息詞典”已得到一定程度上的應(yīng)用,并向國內(nèi)外的一些公司和研究機構(gòu)轉(zhuǎn)讓使用權(quán)許可,取得了顯著的經(jīng)濟效益和社會效益。100萬詞現(xiàn)代蒙古語語料庫、6萬句對漢蒙平行語料庫、“CWMT2009”漢蒙翻譯評測的開發(fā)集和測試集已放在CLDC(中文語言資源聯(lián)盟)上,為廣大用戶提供資源共享。中央民族語文翻譯局等專業(yè)翻譯部門、不少個人用戶都在試用我們研發(fā)的機器翻譯系統(tǒng),而電子詞典的用戶更多。蒙古國有關(guān)研究機構(gòu)、教學(xué)單位對蒙古文機器翻譯技術(shù)和漢蒙雙語對照語料庫建設(shè)非常關(guān)注,已提出合作開發(fā)或技術(shù)轉(zhuǎn)讓的意愿。除此之外,與國內(nèi)外諸多單位合作開展的一系列工作,例如,“農(nóng)業(yè)專家系統(tǒng)”的開發(fā),“多字體印刷蒙古文(混排漢英)文檔識別系統(tǒng)”的開發(fā),能夠充分體現(xiàn)出這些成果的實際應(yīng)用價值和所帶來的直接經(jīng)濟效益。

        (6) 在研制該知識庫十幾年的過程中的我們培養(yǎng)了近十名博士生、20余名碩士生,并形成了一個由語言學(xué)專家和計算機專家組成的科研團隊。北京大學(xué)、中國科學(xué)院計算技術(shù)研究所、內(nèi)蒙古大學(xué)的20余名博士、碩士生都以蒙古語語言資源開發(fā)與建設(shè)的理論研究和技術(shù)設(shè)計作為學(xué)位論文,獲得博士、碩士學(xué)位。

        內(nèi)蒙古大學(xué)與中國科學(xué)院、北京大學(xué)、清華大學(xué)等單位在蒙古語語言知識庫、機器翻譯、語料庫加工等方面有了一個較為默契的、既有分工又有互補的合作機制。

        4 尚待解決的問題

        (1) 語法知識資源方面,雖然“蒙古語語法信息詞典”已初具規(guī)模,并向國內(nèi)外用戶進行轉(zhuǎn)讓,取得一定的經(jīng)濟效益,但尚待進行擴充、完善,實現(xiàn)產(chǎn)品化。

        (2) 語義知識資源方面,在“蒙古語語義信息詞典”現(xiàn)有框架的基礎(chǔ)上,需要逐步擴充和完善各個分庫,同時把它們集成在統(tǒng)一管理平臺上,拓展其應(yīng)用范圍。

        (3) 語用知識資源方面,目前在詞語搭配詞典、語用規(guī)則庫的建設(shè)方面只有一些前期積累,仍需要進一步的實質(zhì)性開發(fā)。

        (4) 語言規(guī)范標(biāo)準(zhǔn)方面,目前所制定的規(guī)范、標(biāo)準(zhǔn)尚未實現(xiàn)系統(tǒng)化,與全方位國際接軌相差甚遠(yuǎn),所以在制定標(biāo)準(zhǔn)方面需要不懈的努力。

        [1] 俞士汶. 計算語言學(xué)概論[M].北京: 商務(wù)印書館,2003.

        [2] 馮志偉.計算語言學(xué)探索[M].哈爾濱: 黑龍江教育出版社,2001.

        [3] 詹衛(wèi)東.面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[M].北京: 清華大學(xué)出版社,南寧: 廣西科學(xué)技術(shù)出版社,2000.

        [4] 那順烏日圖.蒙古語語言資源平臺架構(gòu)設(shè)想,中國語言資源論叢(一)[M].北京: 商務(wù)印書館,2009, 236-248.

        [5] 平?jīng)g洋一,電脳意味論[M].おうふう,東京,2001.

        [6] 児玉徳見,意味論の対象と方法[M],くろしお出版,2002.

        [7] N.Kwon,M.Fleischman,E.Hovy.Senseval automatic labeling of semantic roles using Maximum Entropy models[C]//R.Mihalcea,P.Edmond(Editor),Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, Barcelona, Spain: Association for Computational Linguistics, 2004: 129-132.

        [8] 那順烏日圖.關(guān)于面向信息處理的蒙古語語義研究[J].內(nèi)蒙古大學(xué)學(xué)報,2002,(5): 16-23.

        [9] 那順烏日圖.在編制“蒙古語語法信息詞典”時遇到的理論與實踐問題[J].內(nèi)蒙古大學(xué)學(xué)報(蒙古文版),2002,(4): 18-22.

        [10] Nasun-urt.Mongolian Knowledge base and Mongolian Information Processing[C]//The 17th International Conference KOREA and MONGOLIA, Seoul, 2004, 51-58.

        [11] New requirement and tendency of Mongolian semantic research[C]//Works in research, Volume Ⅹ(238),Ulaanbaatar,2004: 93-102.

        [12] Nasun-urt.Exploitation and application of the Mongolian linguistic Knowledge Resource[C]//Proceeding of the International conference of Chinese Computing 2005 (ICCC2005), Published by COLIPS Publication,2005.3,Singapore: 213-218.

        [13] Hai yin-hua Nasun-urt Wang Sirguleng. New progress of “Mongolian Grammatical Information Dictionary” [C]//Proceedings of Mongolian Academy of Sciences,2008, (4): 75-84.

        猜你喜歡
        語義數(shù)據(jù)庫
        語言與語義
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        認(rèn)知范疇模糊與語義模糊
        “深+N季”組配的認(rèn)知語義分析
        語義分析與漢俄副名組合
        欧美亚洲国产片在线播放| 国产交换精品一区二区三区| 国产在线视频一区二区天美蜜桃 | 爽爽精品dvd蜜桃成熟时电影院 | 亚洲人成网站在线观看播放| 麻豆久久久国内精品| 水蜜桃网站视频在线观看| 在线观看av片永久免费| 少妇脱了内裤让我添| 久久99中文字幕久久| 日产国产亚洲精品系列| 日韩日韩日韩日韩日韩日韩| 欧美性猛交xxxx乱大交丰满| 色窝窝手在线视频| 日本一区二区三区不卡在线| 亚洲性无码一区二区三区| 最新69国产成人精品视频免费| 无码人妻黑人中文字幕| 国产综合久久久久影院| 日韩亚洲精选一区二区三区| 一本无码中文字幕在线观| 欧美成人一区二区三区| 无码超乳爆乳中文字幕| 国产精品亚洲一二三区| 色偷偷av一区二区三区| 精品国产一区二区三区久久久狼| 开心五月婷婷综合网站| 亚洲国产精品高清在线| 久久综合狠狠色综合伊人| 日韩中文字幕不卡网站| 我也色自拍俺也色自拍| 欧美大屁股xxxx高潮喷水 | av狠狠色丁香婷婷综合久久 | 国产亚洲一本大道中文在线| 精品专区一区二区三区| 欧美性色欧美a在线播放| 丰满岳乱妇久久久| 国产亚洲曝欧美不卡精品| 日本系列中文字幕99| 男人j进女人j啪啪无遮挡| 日本香蕉久久一区二区视频|