亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        XML在語(yǔ)料庫(kù)建設(shè)中的應(yīng)用:以UAM Corpus Tool為例

        2013-11-15 02:39:30王大鵬
        電子測(cè)試 2013年16期
        關(guān)鍵詞:多維度文本功能

        王大鵬

        (渤海大學(xué)大學(xué)外語(yǔ)教研部,遼寧錦州,121013)

        0 引言

        語(yǔ)料庫(kù)是為一個(gè)或多個(gè)應(yīng)用目標(biāo)而專(zhuān)門(mén)收集,有一定結(jié)構(gòu)、代表性、可被計(jì)算機(jī)程序檢索、具有一定規(guī)模的語(yǔ)料的集合?,F(xiàn)代語(yǔ)料庫(kù)語(yǔ)言學(xué)基于計(jì)算機(jī)平臺(tái),并隨計(jì)算機(jī)技術(shù)的發(fā)展而逐步走向成熟。目前,國(guó)內(nèi)絕大多數(shù)語(yǔ)料庫(kù)仍然采用TXT存儲(chǔ),但在其中融入了TEI 文本編碼及CES標(biāo)準(zhǔn)——兩者均基于SGML或XML標(biāo)記語(yǔ)言。采用此標(biāo)注方式的語(yǔ)料庫(kù)有:JDEST,CLEC,SWECCL,COLSEC,PACCEL等。但國(guó)外權(quán)威的語(yǔ)料庫(kù)如BNC第二版是完整意義上的SGML,第三版更新為XML,已不再采用TXT模式存儲(chǔ)。

        1 基于TXT的語(yǔ)料庫(kù)標(biāo)注體系

        TXT存儲(chǔ)模式的優(yōu)勢(shì)在于文本占用空間小,檢索速度快;常用于檢索TXT文本的檢索器有WordSmith, Antconc等。基于TXT并融入XML的標(biāo)記模式可以滿足簡(jiǎn)單的研究需求,但缺點(diǎn)在于此模式并非完整意義上的XML文檔,不適合復(fù)雜的多層及和多維度標(biāo)注。如:對(duì)一個(gè)語(yǔ)料庫(kù)同時(shí)進(jìn)行詞性標(biāo)注、語(yǔ)義標(biāo)注和語(yǔ)篇信息標(biāo)注時(shí),TXT存儲(chǔ)模式的語(yǔ)料庫(kù)必須建立相應(yīng)的新庫(kù)以滿足需求,檢索也必須分別、獨(dú)立進(jìn)行,耗時(shí)耗力。 簡(jiǎn)言之,TXT模式的語(yǔ)料庫(kù)已不適用于復(fù)雜的語(yǔ)言研究需求,取而代之的是真正意義的XML語(yǔ)料庫(kù)。

        2 基于XML的多層及標(biāo)注體系

        XML(Extensible Markup Language)可擴(kuò)展性標(biāo)記語(yǔ)言繼承了SGML(Standard Generalized Markup Language)的優(yōu)勢(shì)并由其簡(jiǎn)化而來(lái),由于其描述性強(qiáng),易讀性好,可跨平臺(tái)和系統(tǒng)使用等特性,已成為一種通用的數(shù)據(jù)交換格式。XML Schema的優(yōu)勢(shì)在于:一、可定義文檔結(jié)構(gòu)和語(yǔ)法標(biāo)準(zhǔn);二、支持更多的數(shù)據(jù)類(lèi)型定義,允許用戶自定義,具有更好的擴(kuò)展性;三、提供了一套更為完整而易用的機(jī)制去規(guī)范XML文檔中的標(biāo)記使用。文檔樹(shù)的應(yīng)用使復(fù)雜的信息標(biāo)記和數(shù)據(jù)索引更為簡(jiǎn)化。以上優(yōu)勢(shì)適用于復(fù)雜的多層級(jí)和多維度語(yǔ)言研究。目前較為流行的基于XML語(yǔ)料庫(kù)建庫(kù)和檢索的工具有MMAX和UAM Corpus Tool,本文以UAM Corpus Tool為例介紹XML在語(yǔ)料庫(kù)建設(shè)及后期檢索、開(kāi)發(fā)中的應(yīng)用。UAM Corpus Tool的軟件特色是:一、采用Stand-off XML 標(biāo)注模式,標(biāo)注文件和生語(yǔ)料庫(kù)分離式存儲(chǔ),便于多維度、多層及分析同一語(yǔ)料庫(kù);二、多個(gè)文本或多套語(yǔ)料庫(kù)可使用同一標(biāo)注體系進(jìn)行標(biāo)注,由于標(biāo)注方案獨(dú)立存儲(chǔ)在XML文件中,便于跨程序共享。 三、提供多層級(jí)標(biāo)注、跨層級(jí)檢索和跨標(biāo)注子集數(shù)據(jù)對(duì)比等功能。

        2.1 UAM多層及標(biāo)注體系的制定

        實(shí)驗(yàn)語(yǔ)料選自BNC(第三版)中的書(shū)面語(yǔ)部分,隨機(jī)抽取其中100篇文章并去除原始標(biāo)注和標(biāo)記,分析這些篇章的語(yǔ)法特征、語(yǔ)域分布和語(yǔ)篇銜接特點(diǎn)。語(yǔ)法特征分析即對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行句法標(biāo)注,程序自動(dòng)調(diào)用Stanford Parser對(duì)文本進(jìn)行標(biāo)注。語(yǔ)域分布研究語(yǔ)篇的分布類(lèi)型,如:新聞、小說(shuō)、學(xué)術(shù)英語(yǔ)和雜志等。語(yǔ)篇分析部分,著重分析語(yǔ)篇的銜接,銜接是語(yǔ)篇特征的重要內(nèi)容,它體現(xiàn)在語(yǔ)篇的表層結(jié)構(gòu),可分為語(yǔ)法銜接和詞匯銜接,語(yǔ)法手段又可分為照應(yīng)、替代和省略和連接;詞匯手段可分為復(fù)現(xiàn)關(guān)系和同現(xiàn)關(guān)系。此標(biāo)注體系包含了三大維度及其下多個(gè)層級(jí)的樹(shù)狀關(guān)系,基于XML的UAM Corpus Tool尤其適用這種復(fù)合式標(biāo)注。點(diǎn)擊Add Layer添加標(biāo)注維度,點(diǎn)擊Edit詳細(xì)制定標(biāo)注層級(jí)(圖1)。在編輯具體的標(biāo)注層級(jí)時(shí)候需注意,大括號(hào)和方括號(hào)表示不同的含義,這與系統(tǒng)功能語(yǔ)言學(xué)定義兩種不同括號(hào)的功能有關(guān):大括號(hào)為包容關(guān)系,方括號(hào)為互斥關(guān)系。多維度、多層及的標(biāo)注體系制定完成后,便可用其標(biāo)注語(yǔ)料庫(kù)了。

        2.2 UAM語(yǔ)料庫(kù)的檢索、統(tǒng)計(jì)和拓展功能

        UAM Corpus Tool是一款多功能的語(yǔ)料庫(kù)工具,集建庫(kù)、檢索和統(tǒng)計(jì)等功能于一身。 本程序支持跨標(biāo)注層級(jí)的復(fù)合式檢索,如查詢(xún)復(fù)合句中包含was的從句,通過(guò)clause + containing immediately “was”的表達(dá)式,可檢索到 They left because[she was tired]之類(lèi)的句子;檢索使用過(guò)去完成時(shí)的從句,可編寫(xiě)表達(dá)式:past-perfect + anywhere in clause。檢索語(yǔ)篇銜接中的前指照應(yīng)可編寫(xiě)表達(dá)式:cohesion + containing anywhere anaphoric-reference。數(shù)據(jù)統(tǒng)計(jì)方面,提供語(yǔ)料庫(kù)的文本復(fù)合度、詞匯密度、主觀性分析和指稱(chēng)密度等基本統(tǒng)計(jì)。 提供兩個(gè)標(biāo)注集的對(duì)比功能,即兩個(gè)集合在指定層級(jí)上所標(biāo)注特征的數(shù)據(jù)對(duì)比;差異顯著性可通過(guò)T檢驗(yàn)和方差來(lái)量化統(tǒng)計(jì),提供多文本數(shù)據(jù)對(duì)比功能。 拓展功能方面,提供詞的云圖(word cloud)和詞圖(word plot)功能,使語(yǔ)料庫(kù)高頻詞顯示更為直觀化。 自動(dòng)標(biāo)注部分(Autocode)可根據(jù)特征自動(dòng)的批量標(biāo)注文本,表達(dá)式Select passive if contains 'be% @participle表示:如果句中包含有be動(dòng)詞及動(dòng)詞的過(guò)去分詞形式,此句會(huì)被標(biāo)注為被動(dòng)句;Select active if clauses and not passive則將其它的非被動(dòng)句標(biāo)注為主動(dòng)句。

        2.3 基于XML的在線語(yǔ)料庫(kù)構(gòu)建

        當(dāng)今語(yǔ)料庫(kù)領(lǐng)域,集標(biāo)注、檢索、統(tǒng)計(jì)和兼顧后期在線檢索功能的軟件只有MMAX和UAM,以上兩款程序均基于完整意義上的XML建設(shè)語(yǔ)料庫(kù)。采用Stand-off XML建設(shè)的語(yǔ)料庫(kù),其標(biāo)注方案獨(dú)立存貯,可跨程序應(yīng)用于其它系統(tǒng)平臺(tái)。因此,基于以上兩款程序建設(shè)的語(yǔ)料庫(kù)便于在線檢索的后期開(kāi)發(fā)。在互聯(lián)網(wǎng)迅猛發(fā)展的今天,語(yǔ)料庫(kù)發(fā)展有在線化的趨勢(shì),在線語(yǔ)料庫(kù)可以打破時(shí)空和版權(quán)限制供更多人使用,優(yōu)勢(shì)不言而喻。 在線語(yǔ)料庫(kù)的建設(shè)需要應(yīng)用SQL數(shù)據(jù)庫(kù)系統(tǒng),XML可完美應(yīng)用于此平臺(tái)。MMAX和UAM CORPUS TOOL從研究特征的選擇、語(yǔ)料的準(zhǔn)備、標(biāo)注的進(jìn)行到后期的數(shù)據(jù)庫(kù)索引、在線檢索統(tǒng)計(jì)等都要一體設(shè)計(jì)。世界上較成功的實(shí)例是MARK DAVIES設(shè)計(jì)開(kāi)發(fā)的系列在線檢索平臺(tái),其基于微軟的商用數(shù)據(jù)庫(kù)MSSQL,如COCA(http://corpus.byu.edu/coca/)和 BNC(http://corpus.byu.edu/bnc/);國(guó)內(nèi)的北京外國(guó)語(yǔ)大學(xué)和上海交通大學(xué)等院校也均設(shè)有大型在線檢索平臺(tái)。在線語(yǔ)料庫(kù)建設(shè)的模式很多,如:可采用Dreamweaver與PHP & MYSQL相結(jié)合的方式。通過(guò)Dreamweaver來(lái)完成檢索面板,以及數(shù)據(jù)庫(kù)連接與查詢(xún)、插入、更新和刪除等部分;MYSQL為免費(fèi)開(kāi)源數(shù)據(jù)庫(kù),PHP的設(shè)計(jì)目的是用于編寫(xiě)Web腳本,對(duì)MYSQL支持較好,是一種服務(wù)端和跨平臺(tái)技術(shù),可完美運(yùn)行在絕大多數(shù)操作系統(tǒng)上。在線語(yǔ)料庫(kù)建設(shè)完畢后,用戶只需要訪問(wèn)該網(wǎng)站,便可對(duì)語(yǔ)料庫(kù)進(jìn)行基本的查詢(xún)和統(tǒng)計(jì);語(yǔ)料庫(kù)網(wǎng)站由專(zhuān)人進(jìn)行維護(hù)和更新,用戶不需要學(xué)習(xí)語(yǔ)料庫(kù)后臺(tái)維護(hù)技術(shù)。在線語(yǔ)料庫(kù)技術(shù)使語(yǔ)料庫(kù)的統(tǒng)計(jì)和檢索如同使用百度和谷歌一樣便捷。

        3 結(jié)語(yǔ)

        XML技術(shù)已成為跨平臺(tái)、跨應(yīng)用程序的一種通用標(biāo)準(zhǔn),其應(yīng)用于語(yǔ)料庫(kù)領(lǐng)域有利于規(guī)范語(yǔ)料庫(kù)的標(biāo)注模式、打破應(yīng)用壁壘、減少重復(fù)建設(shè);使語(yǔ)料庫(kù)不僅可以應(yīng)用在語(yǔ)言學(xué)領(lǐng)域,還可應(yīng)用在軍事、醫(yī)學(xué)、社會(huì)生活等各個(gè)方面。 基于XML的語(yǔ)料庫(kù)技術(shù)在“大型在線語(yǔ)料庫(kù)建設(shè)、基于云計(jì)算的語(yǔ)料庫(kù)藍(lán)圖規(guī)劃和安卓系統(tǒng)下的語(yǔ)料庫(kù)終端建設(shè)等方面都具有重大的理論和現(xiàn)實(shí)意義。

        [1]馮志偉.序言 語(yǔ)料庫(kù)語(yǔ)言學(xué)的進(jìn)展 [Z].2009:d9.

        [2]朱暾,樓新遠(yuǎn).基于XML Schema XML索引技術(shù)研究[J].鐵路計(jì)算機(jī)應(yīng)用,2011,20(10):8-10+14.

        [3]郭艷艷,吳揚(yáng)揚(yáng).一種基于XML schema的XML索引[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(1):43-47.

        [4]黃國(guó)文.語(yǔ)篇分析概要[M].湖南:湖南教育出版社,1988.[5]Halliday,M.A.K.& R.Hason.Cohesion in English[M].London:Longman,1976.

        猜你喜歡
        多維度文本功能
        也談詩(shī)的“功能”
        “多維度評(píng)改”方法初探
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        多維度市南
        商周刊(2017年7期)2017-08-22 03:36:22
        關(guān)于非首都功能疏解的幾點(diǎn)思考
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
        辨證施護(hù)在輕度認(rèn)知功能損害中的應(yīng)用
        如何快速走進(jìn)文本
        视频在线国产一区二区| 国产一区二区三区爆白浆| 国产一区二区亚洲av| 亚洲av日韩专区在线观看| 国产乱妇无码大片在线观看| 中文字幕久久熟女蜜桃| 国产精品免费久久久久影院| 亚洲精品乱码久久久久99| 国产精品一二三区亚洲| 国产成人精品无码一区二区三区 | 性色av浪潮av色欲av| 亚洲综合色一区二区三区另类| 日韩免费高清视频网站| 国产精女同一区二区三区久| 精品+无码+在线观看| 亚洲av无码一区二区二三区| 91精品欧美综合在线观看| 久久国产精品免费专区| 久久狠狠爱亚洲综合影院| 美丽人妻被按摩中出中文字幕| 51精品视频一区二区三区| 中文字幕乱码在线婷婷| 变态另类手机版av天堂看网 | 成人激情五月天| 青青青伊人色综合久久亚洲综合| 性视频毛茸茸女性一区二区| 国产免费人成视频在线| 美国少妇性xxxx另类| 亚洲色欲色欲综合网站| 中文字幕亚洲精品第1页| 久久国产精品免费一区二区三区| 一本色道久久婷婷日韩| 特级毛片a级毛片100免费播放| 亚洲男人av香蕉爽爽爽爽| 色偷偷av一区二区三区人妖| 美妇炮灰被狂躁爽到高潮h| 超碰97资源站| 国产艳妇av在线出轨| 看国产亚洲美女黄色一级片| 欧美亚洲精品suv| 亚洲依依成人亚洲社区|