亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        維吾爾語框架語義例句輔助標(biāo)注系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)?

        2014-11-02 08:56:48米熱吉古麗熱扎克阿里甫庫(kù)爾班
        關(guān)鍵詞:維吾爾語例句句法

        米熱吉古麗·熱扎克,阿里甫·庫(kù)爾班

        (新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)

        0 引言

        框架語義知識(shí)庫(kù)(簡(jiǎn)稱框架網(wǎng))是繼信息檢索和機(jī)器翻譯之后在信息處理領(lǐng)域新興的一項(xiàng)在線詞庫(kù)工程,具有語言研究及語言處理的多種用途.“框架”(Frame)作為一個(gè)語言學(xué)術(shù)語,是指人們理解語言時(shí)激活大腦已有的認(rèn)知結(jié)構(gòu),這種認(rèn)知結(jié)構(gòu)是通過詞語反映的[1].維吾爾語框架語義知識(shí)庫(kù)(Uyghur FrameNet,簡(jiǎn)稱UFN)是將Fillmore的框架語義學(xué)作為理論基矗 以伯克利FrameNet和漢語CFN工程設(shè)計(jì)體系思路為參照,結(jié)合維吾爾語源語言的框架語義描述體系,以配價(jià)作為基本描寫法,依真實(shí)語料為事實(shí)依據(jù)的詞一級(jí)的維吾爾語語義詞匯資源.構(gòu)建UFN中,需要從真實(shí)語料庫(kù)中抽取包含將要描述詞元的例句,為例句標(biāo)注以及這些例句的配價(jià)模式進(jìn)行深入研究,UFN課題組面臨了符合基于阿拉伯字符的UFN相應(yīng)的計(jì)算機(jī)輔助軟件工具開發(fā).軟件工具將要從標(biāo)注語料庫(kù)中自動(dòng)地生成兩個(gè)報(bào)告:一個(gè)報(bào)告是“詞元標(biāo)注報(bào)告”(Annotation by LexUnit Report),另一個(gè)報(bào)告是“詞條報(bào)告”(Lexical Entry Report).這兩個(gè)自動(dòng)生成的報(bào)告有助于維吾爾語自然語言處理研究人員和語言學(xué)家進(jìn)一步深入研究.鑒于這種認(rèn)識(shí),本文圍繞獲取這兩個(gè)報(bào)告設(shè)計(jì)問題進(jìn)行了前期研究.

        1 維吾爾語框架語義例句標(biāo)注任務(wù)

        目前UFN中例句標(biāo)注與英語FrameNet、漢語CFN的例句標(biāo)注工作原理一樣,針對(duì)給定的例句、目標(biāo)詞及其框架,對(duì)目標(biāo)詞的各個(gè)直接從屬成分所承擔(dān)的框架元素、短語類型和句法功能這三個(gè)層次進(jìn)行標(biāo)注.短語類型標(biāo)注就是標(biāo)注框架元素所在的整個(gè)短語的句法性質(zhì).句法功能標(biāo)注是只有做目標(biāo)詞的框架元素成分才標(biāo)注.我們圍繞下面例句來討論例句標(biāo)注對(duì)象和任務(wù).

        (今天對(duì)應(yīng)屆畢業(yè)生進(jìn)行了兩個(gè)小時(shí)的培訓(xùn).)

        從上述分析可知,例句標(biāo)注對(duì)象為目標(biāo)詞、框架元素、短語類型、句法功能和零碎成分.

        1.1 目標(biāo)詞

        目標(biāo)詞是例句中能夠激起框架的詞或短語[2],UFN中名詞,形容詞,動(dòng)詞和副詞都可以承擔(dān)目標(biāo)詞.一般用tgt(target)標(biāo)記來標(biāo)注.

        1.2 框架元素

        框架元素是框架的參與者和支撐者,是帶有某種語義角色的論元.框架元素根據(jù)它們與框架關(guān)系的緊密程度分為兩種:核心(core)框架元素和非核心(noncore)框架元素.核心框架元素是一個(gè)框架在概念理解上的必有成分,它們?cè)诓煌目蚣苤袛?shù)量和類型不同,顯示出框架的屬性.非核心框架元素并不顯示框架的個(gè)性,可以出現(xiàn)在多數(shù)框架中.

        構(gòu)建UFN語料庫(kù)中發(fā)現(xiàn)與英語框架語料庫(kù)一樣,在UFN語料庫(kù)中有些核心框架元素不是謂詞的依存成分,這種框架元素稱為零形式框架元素(Null Inatantiation,簡(jiǎn)記為NI),也稱為零形式.零形式由核心框架元素缺失引起的[3,4].核心框架元素缺失的現(xiàn)象可分為兩類情況,即允許缺失的語義實(shí)體類型和對(duì)所缺失論元的解釋類型[5].前者是由特定的詞項(xiàng)或句法結(jié)構(gòu)缺失引起的零形式,即結(jié)構(gòu)零形式(Constructional Null Instantiation,簡(jiǎn)記為CNI),后者是由例句中論元的解釋缺失引起的零形式,分為有定零形式(Definite Null Inatantiation,簡(jiǎn)記為DNI)和不定零形式(Indefinite Null Inatantiation,簡(jiǎn)記為INI)兩種.下面分別探討上述的三種零形式.

        1.2.1 結(jié)構(gòu)零形式(CNI)

        結(jié)構(gòu)零形式(CNI)適用于任何有著合適的能用于被動(dòng)語態(tài)語義信息的謂詞[5].UFN中,結(jié)構(gòu)零形式包括以下幾種情況,被動(dòng)句中施動(dòng)者的缺失,祈使句中主語的缺失,獨(dú)立動(dòng)名詞和動(dòng)詞不定式中主題的缺失

        1.2.2 有定零形式(DNI)

        UFN中有定零形式(DNI)是指缺失的框架元素一定在語篇的上下文語境中或理解維吾爾語例句中可

        1.2.3 不定零形式(INI)

        UFN中,不定零形式(INI)允許缺失的是潛在的不及物動(dòng)詞,如喝)等.這樣動(dòng)詞缺失對(duì)象的語義類型是通過不及物動(dòng)詞的最基本的解釋來理解.如例句:(她已經(jīng)三天沒吃)中動(dòng)詞缺失的對(duì)象很可能是一頓飯.如,例句(他已經(jīng)停止喝)中動(dòng)詞“喝”的缺失對(duì)象可能是一種酒精飲料,也可能是某種藥液.從上述標(biāo)注例句中的目標(biāo)動(dòng)詞的基本解釋中可以得出,缺失的對(duì)象很可能是某種技能或思想方面的教育或培訓(xùn).

        1.3 短語類型(Phrase Type,簡(jiǎn)記PT)

        維吾爾語中兩個(gè)以上的詞按照一定的語法關(guān)系和語義關(guān)系組成的單位叫短語.UFN標(biāo)注中“短語”是廣義的概念.UFN中短語標(biāo)注時(shí)對(duì)框架元素所在的整個(gè)短語的句法性質(zhì)進(jìn)行標(biāo)注.本文有關(guān)維吾爾語短語類型劃分和使用的標(biāo)注標(biāo)記集以參考文獻(xiàn)[6]為依據(jù).上述例句成分擔(dān)任時(shí)間短語、形容詞短語、名詞短語、名量詞短語等.

        1.4 句法功能(Grammatical Function,簡(jiǎn)記GF)

        UFN中句法功能是指在框架元素與目標(biāo)詞所構(gòu)成的句法關(guān)系中,該框架元素所起到的句法功能.句法功能的標(biāo)注是只有框架元素才能被劃入標(biāo)注范圍,例句中不能充當(dāng)框架元素的成分,一般不標(biāo)注該成分的句法功能[6].上述例句中例句成分由擔(dān)任目標(biāo)詞的狀語擔(dān)任定語.

        1.5 零碎成分(Other)

        語義角色標(biāo)注中除了框架元素以外還有其他成分的標(biāo)記,包括支撐詞(supp)和透明成分(null).這種成分在例句中雖然沒有承擔(dān)任何框架語義角色也沒有具體的意義,但是在句法上(不是語義上)與目標(biāo)詞有隱含的語法關(guān)系.在例句中支撐詞或透明成分用supp或null標(biāo)記來標(biāo)注.

        2 例句輔助標(biāo)注軟件的功能結(jié)構(gòu)設(shè)計(jì)

        構(gòu)建UFN中對(duì)每個(gè)詞語的每個(gè)義項(xiàng)都要描述,獲取其語義和句法結(jié)合的可能性,也就是它的配價(jià),需要以框架語義學(xué)為理論基礎(chǔ)以帶有語義標(biāo)注信息的語料庫(kù)的支持.從語料庫(kù)中抽取帶有語義標(biāo)注信息的例句,需要利用計(jì)算機(jī)輔助標(biāo)注例句中語義信息.例句中語義信息通過人機(jī)交互式的手工標(biāo)注以及自動(dòng)地對(duì)標(biāo)注結(jié)果加以組織,排列和整理而得到.人機(jī)交互式的標(biāo)注工具是抽取帶有語義標(biāo)注信息例句的有效手段,從一定程度上可以減輕標(biāo)注人員的負(fù)擔(dān)并且還可以輔助檢查標(biāo)注結(jié)果的一致性等問題.

        UFN中例句標(biāo)注參考英語FrameNet和漢語CFN的例句標(biāo)注,設(shè)計(jì)了與UFN自身特點(diǎn)相適合的人機(jī)交互式例句輔助標(biāo)注系統(tǒng).UFN例句輔助標(biāo)注系統(tǒng)的功能結(jié)構(gòu)如圖1所示.

        圖1 維吾爾語框架語義例句輔助標(biāo)注系統(tǒng)的功能結(jié)構(gòu)圖

        2.1 維吾爾語框架語義例句標(biāo)輔助標(biāo)注過程設(shè)計(jì)

        UFN例句輔助標(biāo)注模塊主要完成針對(duì)一個(gè)例句,確定一個(gè)詞元和該詞元所屬框架,根據(jù)預(yù)定的標(biāo)注標(biāo)記集合,交互地標(biāo)注目標(biāo)詞的各個(gè)直接從屬成分所承擔(dān)的元素類型,并標(biāo)注該元素的短語(或詞)的短語類型和句法功能等三種信息.這三類信息對(duì)詞元庫(kù)自動(dòng)生成及其框架元素的句法實(shí)現(xiàn)方式和詞元的配價(jià)模式的統(tǒng)計(jì)提供數(shù)據(jù).UFN例句標(biāo)注過程如圖2所示.

        UFN例句輔助標(biāo)注,首先從UFN語料庫(kù)中抽取包含將要標(biāo)注詞元的例句并從中挑選能夠例示我們所要分析的具有某種給定意義的詞元的例子.維吾爾文字符隸屬拼音字母,對(duì)所選的例句進(jìn)行按字母字符切分,字符切分目的是確定標(biāo)注成分的邊界.其次,采用人機(jī)交互的方式通過鼠標(biāo)拖動(dòng)操作進(jìn)行詞性標(biāo)注,確定將要標(biāo)注例句的目標(biāo)詞之后,選擇目標(biāo)詞的開始和結(jié)束點(diǎn),并用Target標(biāo)記來進(jìn)行標(biāo)注,然后對(duì)例句中選擇目標(biāo)詞的直接從屬成分的開始和結(jié)束點(diǎn),根據(jù)預(yù)定的標(biāo)注標(biāo)記集[7,8]對(duì)其進(jìn)行框架元素、短語類型和句法功能的標(biāo)注.標(biāo)注中有些例句成分沒有短語類型和句法功能,只與目標(biāo)詞有隱含的句法關(guān)系,這種成分用supp或null標(biāo)記來標(biāo)注.有些例句中會(huì)出現(xiàn)核心框架元素缺失的現(xiàn)象,這時(shí)在例句接尾處用相應(yīng)框架元素左邊的下拉列表中選擇DNI或CNI等標(biāo)記來進(jìn)行標(biāo)注.最終,例句的所有標(biāo)注信息以HTML格式儲(chǔ)存到數(shù)據(jù)庫(kù)中.例句的標(biāo)注規(guī)范如下:

        {}/{}{}/{}

        其中“w”為待標(biāo)注的詞(或短語),tgt(target)為目標(biāo)詞,F(xiàn)E為框架元素,PT為短語類型,GF為句法功能,OTHER為零碎標(biāo)記,即不充當(dāng)框架中所定義的語義成分,如支撐詞、透明成分等.

        圖2 例句標(biāo)注工作流程

        2.2 詞元庫(kù)自動(dòng)生成

        通過上述的維吾爾語框架語義例句標(biāo)注的設(shè)計(jì),UFN的詞元庫(kù)自動(dòng)生成.詞元庫(kù)主要針對(duì)每一個(gè)詞元,描述詞元的每一個(gè)詞義以及該詞元的例句標(biāo)注報(bào)告.詞元詞義的描述根據(jù)該詞元隸屬的框架范疇內(nèi)描述和定義,因?yàn)榫S吾爾語中的詞匯歧義現(xiàn)象分布很廣,涉及到各主要的詞類,而且,不同的歧義都有很強(qiáng)的特異性,不易發(fā)現(xiàn)一般性的規(guī)律.隸屬于某一特定框架的詞元在詞義上保持唯一性,詞元所支配的框架元素的短語類型及句法功能句法特點(diǎn),以及目標(biāo)詞的語義搭配模式的不同,因此UFN詞元庫(kù)生成模塊主要完成詞元標(biāo)注報(bào)告和詞條標(biāo)注報(bào)告.詞元標(biāo)注報(bào)告針對(duì)每一個(gè)詞元,記錄詞元所在義項(xiàng)的具體含義以及該詞元的例句標(biāo)注報(bào)告.例句標(biāo)注報(bào)告包括各個(gè)框架元素的句法功能抽取以及目標(biāo)詞的語義搭配模式的統(tǒng)計(jì)和演示.

        圖3 句法功能抽取工作流程

        圖4 配價(jià)模式抽取流程

        2.2.1 句法功能標(biāo)注信息的抽取設(shè)計(jì)

        框架元素的句法功能是框架元素相對(duì)于已給定的目標(biāo)詞所起到的句法功能.框架元素的句法功能標(biāo)注設(shè)計(jì)信息已給定框架的一個(gè)框架元素在某一個(gè)詞元的已標(biāo)注好的例句中出現(xiàn)的次數(shù),以及該框架元素作為某種短語類型和句法功能出現(xiàn)的次數(shù).具體處理過程如圖3所示:

        2.2.2 配價(jià)模式信息的抽取設(shè)計(jì)

        配價(jià)模式對(duì)于自然語言處理是非常有價(jià)值的研究?jī)?nèi)容,因?yàn)榕鋬r(jià)模式反映詞元的句法語義特性.UFN構(gòu)建過程中對(duì)每個(gè)詞元(lexeme)的各個(gè)涵義都要詳盡地描述之外,還要詞元與框架元素(包括核心元素、非核心元素和同用非核心)的組合方式進(jìn)行統(tǒng)計(jì)分析,也就是它的配價(jià).配價(jià)反映了該詞元的語義和句法的各種結(jié)合能力[9].配價(jià)不僅能夠?yàn)閁FN單詞的釋義,標(biāo)注例句、多種索引方式以及各個(gè)框架元素的句法、語義特征的說明,最能體現(xiàn)UFN的整體結(jié)構(gòu)和核心內(nèi)容等.具體處理過程如圖4所示:

        3 維吾爾語框架語義例句標(biāo)注器的實(shí)現(xiàn)

        3.1 計(jì)算機(jī)輔助標(biāo)注界面介紹

        UFN例句標(biāo)注器的開發(fā)工具是Microsoft Visual Studio2005 C#,Microsoft SQL Server 2005.標(biāo)注器的標(biāo)注界面如圖5所示,標(biāo)注界面分為四個(gè)工作區(qū):工作區(qū)①是詞元列表顯示區(qū),涵蓋框架名稱列表和其框架元素列表;工作區(qū)②是顯示包含詞元“”的例句;工作區(qū)③是標(biāo)注所選的例句和標(biāo)注層次;工作區(qū)④是為標(biāo)注層次提供字符切分,框架元素、短語類型、句法功能、其他標(biāo)注標(biāo)記集的標(biāo)注功能的區(qū).

        圖5 標(biāo)注界面

        標(biāo)注人員從工作區(qū)①中選擇將要標(biāo)注的詞元,在工作區(qū)②中顯示包含該詞元的例句列表,標(biāo)注人員從例句列表中選擇語義搭配模式和句法實(shí)現(xiàn)方式盡量多樣的例句.被選中的例句按字符流形式顯示在工作區(qū)③中,工作區(qū)③包含目標(biāo)詞層、框架元素層、短語型層、句法功能層、零碎成分層、例句層和詞性層7個(gè)層次.標(biāo)注界面的具體操作過程為:通過鼠標(biāo)拖動(dòng)選擇例句中目標(biāo)詞的直接從屬成分,然后在工作區(qū)④中選擇框架元素、句法功能、短語類型、其他和詞性相應(yīng)的標(biāo)簽來填充工作區(qū)③中的各個(gè)層次.

        UFN課題組定義的短語類型及標(biāo)注功能界面如圖6所示.上述框架中框架元素大多數(shù)情況下表現(xiàn)為主語或賓語,擔(dān)任框架元素的例句成分大多數(shù)情況下承擔(dān)狀語或定語.

        圖6 短語類型

        圖7 句法功能

        3.2 詞元標(biāo)注報(bào)告和詞條標(biāo)注報(bào)告.

        我們通過訪問詞元報(bào)告和詞條報(bào)告來檢查例句標(biāo)注的結(jié)果以及不同配價(jià)模式.每個(gè)詞元報(bào)告中主要顯示了框架元素表和包含該詞元的所有例句.詞元的詞元報(bào)告如圖8所示,圖中工作區(qū)①是詞元所屬框架的框架元素,這稱為框架元素表,工作區(qū)②中展示了詞元的標(biāo)注的例句列表.

        圖9所示的是詞元的配價(jià)模式統(tǒng)計(jì)報(bào)告.該報(bào)告包含兩部分內(nèi)容,工作區(qū)①中顯示每個(gè)框架元素在標(biāo)注例句中出現(xiàn)的次數(shù)及其句法實(shí)現(xiàn)方式的統(tǒng)計(jì)內(nèi)容.比如,包含框架元素的例句有12個(gè),其中在6個(gè)例句中此框架元素?fù)?dān)任名詞短語(當(dāng)賓語),在6個(gè)例句中擔(dān)任代詞短語(當(dāng)主語).通過鼠標(biāo)點(diǎn)擊鏈接顯示的示例個(gè)數(shù)會(huì)顯示有關(guān)標(biāo)注例句.從這些標(biāo)注的例句中可以看出框架元素的句法實(shí)現(xiàn)方式.

        圖9工作區(qū)②是詞元的語義配價(jià)的可能性.在給定例句中通過配價(jià)的可能性我們表示了框架元素的語義和句法實(shí)現(xiàn)方式.比如,有兩個(gè)例句中框架元素?fù)?dān)任名詞短語,DNI任名詞短語,擔(dān)任時(shí)間短語、名詞短語.通過鼠標(biāo)點(diǎn)擊鏈接的數(shù)量演示相關(guān)標(biāo)注例句的句法和語義的詳細(xì)信息.

        圖8 詞元標(biāo)注報(bào)告

        圖9 詞條報(bào)告

        4 結(jié)束語

        本系統(tǒng)是針對(duì)構(gòu)建UFN例句標(biāo)注而設(shè)計(jì),為獲取詞元的語義搭配模式和框架元素的句法實(shí)現(xiàn)方式,對(duì)現(xiàn)有的例句標(biāo)注體系做進(jìn)一步的精化的一種嘗試.在維吾爾語語義框架網(wǎng)絡(luò)的自動(dòng)構(gòu)造中起到很好的促進(jìn)作用.設(shè)計(jì)中仍然存在一些不足,這些將在以后的使用過程中逐步得到改善.

        猜你喜歡
        維吾爾語例句句法
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語句法配置
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        英聲細(xì)語
        統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
        好詞好句
        好詞好句
        好詞好句
        維吾爾語話題的韻律表現(xiàn)
        日本阿v片在线播放免费| 亚洲一区极品美女写真在线看| 亚洲国产日韩精品综合| 爱爱免费视频一区二区三区 | 国产播放隔着超薄丝袜进入| 真实单亲乱l仑对白视频| 亚州无线国产2021| 水蜜桃视频在线观看免费18| 国产精品国产三级农村妇女| 亚洲一区二区三区精品| 无码人妻精品一区二区三区东京热| 狠狠噜天天噜日日噜无码| 国产精品原创巨作AV女教师| 国产一区二区三区爆白浆 | 国产自产拍精品视频免费看| 国产精品成人一区二区在线不卡| 亚洲综合一| 人妻中文字幕在线一二区| 欲求不満の人妻松下纱荣子 | 亚洲专区路线一路线二天美| 美国又粗又长久久性黄大片| 亚洲av无码精品无码麻豆| 美女视频黄的全免费视频网站 | 国产盗摄xxxx视频xxxx| 色丁香在线观看| 色噜噜精品一区二区三区 | 人妻人妇av一区二区三区四区| 97人妻人人揉人人躁九色| 50岁熟妇大白屁股真爽| 亚洲午夜成人片| 富婆叫鸭一区二区三区| 青青草精品视频在线播放| 亚洲精品无码久久久久秋霞 | 久久99国产亚洲高清观看首页| 国产丝袜美腿嫩模视频诱惑| 日韩网红少妇无码视频香港| 国产山东熟女48嗷嗷叫| 日本高清一区二区不卡视频| 国产精品麻豆一区二区三区 | 日本一区二区三区激视频| 人与人性恔配视频免费|