亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向語(yǔ)言監(jiān)測(cè)的字母詞自動(dòng)獲取研究

        2016-03-23 05:38:03王秋萍沈陽(yáng)師范大學(xué)遼寧沈陽(yáng)110034
        關(guān)鍵詞:文本

        王秋萍沈陽(yáng)師范大學(xué),遼寧沈陽(yáng)110034

        ?

        面向語(yǔ)言監(jiān)測(cè)的字母詞自動(dòng)獲取研究

        王秋萍
        沈陽(yáng)師范大學(xué),遼寧沈陽(yáng)110034

        摘要

        近年來(lái),字母詞在漢語(yǔ)中使用廣泛,對(duì)字母詞使用情況的調(diào)查、對(duì)策分析及規(guī)范探討的研究越來(lái)越多。因此,字母詞的自動(dòng)獲取和數(shù)據(jù)統(tǒng)計(jì)作為一項(xiàng)相關(guān)前期工作,也受到重視。力求在分析字母詞構(gòu)成及形式特征的基礎(chǔ)上,提供一種字母詞自動(dòng)獲取方法,在字母詞使用情況的調(diào)查實(shí)踐中,證明該方法有效。

        關(guān)鍵詞

        字母詞;自動(dòng)獲??;方法

        近年來(lái),字母詞在漢語(yǔ)中使用廣泛。為了摸清字母詞在漢語(yǔ)中的使用實(shí)態(tài),基于大規(guī)模真實(shí)文本的字母詞使用情況的調(diào)查、對(duì)策分析及規(guī)范探討的研究越來(lái)越多。因此,字母詞的自動(dòng)獲取和數(shù)據(jù)統(tǒng)計(jì)作為一項(xiàng)相關(guān)前期工作,也受到重視。下文將在分析字母詞構(gòu)成及形式特征的基礎(chǔ)上,提供一種字母詞自動(dòng)獲取方法,在字母詞使用情況的調(diào)查實(shí)踐中,證明該方法有效。

        一、字母詞形式特征分析

        字母詞是由字母單獨(dú)構(gòu)成,或由字母與符號(hào)、數(shù)字、漢字組合構(gòu)成的詞語(yǔ)。字母詞在漢語(yǔ)詞匯系統(tǒng)中,是一個(gè)形式上具有特殊性的詞集,具體表現(xiàn)在,字母詞一定含有字母,“字母詞”也因而得名。

        從字母詞的構(gòu)成元素看,字母詞一定含有字母,可以含有數(shù)字、符號(hào)和漢字。

        (一)字母

        字母指“拼音文字或注音符號(hào)的最小書(shū)寫(xiě)單位?!雹龠@里,漢語(yǔ)字母詞中的字母主要由拼音文字的最小書(shū)寫(xiě)單位構(gòu)成,包括拉丁字母、希臘字母、西里爾字母、平假名和片假名等。

        (二)數(shù)字

        數(shù)字指10個(gè)阿拉伯?dāng)?shù)字和22個(gè)羅馬數(shù)字。包括:0到9的半角、全角形式和“ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ”。

        (三)符號(hào)

        符號(hào)指廣義標(biāo)點(diǎn)符號(hào)、數(shù)學(xué)運(yùn)算符號(hào)、計(jì)量單位符號(hào)、數(shù)字序號(hào)、貨幣符號(hào)和其他標(biāo)記符號(hào)的半角、全角形式。

        (四)漢字

        漢字指“記錄漢語(yǔ)的書(shū)寫(xiě)符號(hào)系統(tǒng)?!雹谶@里將文本中字符統(tǒng)一為Unicode字符集,指字符編碼在0x4e00到0x9fa5范圍內(nèi)的字符。

        二、字母詞自動(dòng)獲取方法

        (一)字母詞自動(dòng)獲取總體流程

        字母詞一定含有字母串,可以含有數(shù)字串、符號(hào)串和漢字串。因此,可以將字母串作為特征詞串,對(duì)字母詞進(jìn)行自動(dòng)獲取,總體流程見(jiàn)圖1。

        陜西省西安市雁塔區(qū)高新科技路進(jìn)行全面改善與施工,全長(zhǎng)為21.3km,此路段為雙向四車(chē)道,這一市政工程開(kāi)展施工以后會(huì)對(duì)道路與橋梁、給排水與電力、綠化等都造成影響,需要不斷對(duì)相關(guān)市政管線加以完善,確保環(huán)境不受到污染,還要重新改造綠化隔離帶。為了避免環(huán)境受到污染,陜西省西安市雁塔區(qū)高新科技路市政工程采用綠色施工技術(shù),避免對(duì)居民生活造成影響,為市政工程提供更優(yōu)質(zhì)的施工環(huán)境,提高施工質(zhì)量。

        圖1 字母詞自動(dòng)獲取總體流程圖

        (二)獲取含有字母字符串模塊

        字母詞屬于詞匯研究的范疇??紤]到字母詞在語(yǔ)料中散在分布的特點(diǎn),為了提高完善現(xiàn)有字母詞表工作的效率,首先獲取含有字母的字符串作為完善詞表過(guò)程的待處理語(yǔ)料。這里,“含有字母的字符串”定義為以字母串為中心,左右各保留10個(gè)雙字節(jié)字符,不足10個(gè)字符以空格填充,獨(dú)占一個(gè)文本行。這樣,批處理的文本規(guī)模會(huì)大大地減少,提高提取效率。

        (三)字母詞預(yù)篩選模塊

        提取含有字母字符串模塊希望可以取得提取字母詞的粗語(yǔ)料,并盡可能去掉一些可能含有相同字母詞的語(yǔ)料片段。但是,字母詞是一個(gè)從形式上定義的詞匯形式,這里還將引入一些規(guī)則,將符合構(gòu)成形式標(biāo)準(zhǔn),但不符合字母詞定義或者字母詞典型性弱的字母串文本行去掉,例如:網(wǎng)址、郵箱、外文語(yǔ)碼混用,小于詞的單位等。這個(gè)模塊的篩選選項(xiàng)可以根據(jù)字母詞監(jiān)測(cè)任務(wù)的實(shí)際需要而有選擇地使用。

        (四)完善現(xiàn)有詞表模塊

        這里介紹的字母詞提取算法是一種基于字母詞底表的獲取方法?,F(xiàn)有字母詞詞表Letter-words. txt由兩個(gè)詞表組成:CUCBst分詞標(biāo)注系統(tǒng)中的字母詞詞典,記作Letter-words1.txt,和中國(guó)傳媒大學(xué)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言分中心共同搜集編寫(xiě)的字母詞詞典中的詞條,記作Let?ter-words2.txt。Letter-words.txt在進(jìn)行字母詞使用監(jiān)測(cè)研究時(shí),還可能存在不完備的情況。因此,研究中又試圖利用自動(dòng)比對(duì)和人工甄別、添加相結(jié)合的方法,發(fā)現(xiàn)調(diào)查語(yǔ)料中存在但現(xiàn)有詞表尚未收錄的字母詞,并循環(huán)完善現(xiàn)有的字母詞詞表,以使得監(jiān)測(cè)語(yǔ)料中字母詞的提取更加完全。完善詞表的過(guò)程分為兩個(gè)步驟:

        字母詞的自動(dòng)獲取采取將“含有漢字字母詞”和“不含有漢字字母詞”分開(kāi)處理的策略。在對(duì)劉涌泉《漢語(yǔ)字母詞詞典》(2009年版)統(tǒng)計(jì)發(fā)現(xiàn),含有漢字字母詞和不含有漢字字母詞近乎各占一半。統(tǒng)計(jì)結(jié)果見(jiàn)表1。

        表1 劉涌泉《漢語(yǔ)字母詞詞典》各類(lèi)字母詞所占比例

        由此可見(jiàn),含有漢字字母詞不僅在字母詞中占有一席之地,而且在字母詞成員中占近一半的數(shù)量。但是,含有漢字字母詞的邊界問(wèn)題是字母詞自動(dòng)獲取的一個(gè)難點(diǎn),單獨(dú)采取有針對(duì)性的提取策略十分必要。

        獲取含有漢字的字母詞模塊的目的是找到含有漢字的字母詞的候選文本行,以供后期人工干預(yù)查找和添加含有漢字的字母詞,補(bǔ)充到詞表Letterwords.txt中。

        例如:要把“B族維生素”一詞添加到詞表中。待處理語(yǔ)料的形式如圖2。

        圖2 待處理語(yǔ)料的文本行示例

        第一,查找到每一個(gè)文本行中的字母串,并取其左右的各5個(gè)字符,形成10種形式。例如:對(duì)于第一個(gè)文本行,10種形式示例如圖3。相當(dāng)于將待處理語(yǔ)料中的每一個(gè)文本行都抽取出10個(gè)形式,所有被抽取出來(lái)的形式形成一個(gè)候選串表。

        圖3 圖2中待處理語(yǔ)料第一個(gè)文本行10種統(tǒng)計(jì)形式示例

        第二,對(duì)候選串表中的每一個(gè)形式在語(yǔ)料中統(tǒng)計(jì)頻次,如果頻次大于經(jīng)驗(yàn)閾值,將候選串表里每組字母串形式中,頻次最高,長(zhǎng)度最長(zhǎng)的那個(gè)字符串所在的文本行,寫(xiě)入“帶漢字字母詞候選.txt”文件中。

        (六)獲取不含有漢字的字母詞

        獲取不含有漢字的字母詞模塊的目的是查找待處理語(yǔ)料中的每一個(gè)文本行(經(jīng)過(guò)去掉重復(fù)處理),不能和字母詞表中任何詞條相匹配的,將這樣的文本行,寫(xiě)入一個(gè)文件。

        第一,將字母詞表中詞條按照詞的長(zhǎng)短排序,詞長(zhǎng)長(zhǎng)的在前,目的是先匹配較長(zhǎng)詞長(zhǎng)的詞條。

        第二,將待處理語(yǔ)料中每一個(gè)文本行,依次與字母詞表進(jìn)行比對(duì),如果匹配上字母詞表中的詞條,這個(gè)文本行暫不處理;如果沒(méi)有匹配到任何詞條,將這個(gè)文本行寫(xiě)入“不帶漢字字母詞候選.txt”文件中。

        三、結(jié)語(yǔ)

        將“含有漢字的字母詞”和“不含有漢字的字母詞”分開(kāi)處理的目的是:如果直接查字母詞表,會(huì)出現(xiàn)兩個(gè)問(wèn)題。第一,現(xiàn)有詞表可能不夠完善,其中純字母的字母詞占大多數(shù),這樣,當(dāng)語(yǔ)料是“QQ號(hào)碼”時(shí),詞表中恰好有QQ這個(gè)詞條,匹配上“QQ”后,“QQ號(hào)碼”這樣一類(lèi)帶有漢字的字母詞,將不能被發(fā)現(xiàn)和補(bǔ)充到詞表中。因此,有必要對(duì)帶有漢字的字母詞預(yù)先處理一下。第二,原來(lái)的詞表沒(méi)有進(jìn)行詞長(zhǎng)排序,這樣當(dāng)語(yǔ)料中的詞是“NBA”,詞表中先出現(xiàn)“N”,實(shí)際并沒(méi)有“NBA”這個(gè)詞條時(shí),程序卻認(rèn)為匹配成功,而使像“NBA”這樣的詞條不能被發(fā)現(xiàn)并補(bǔ)充到詞表中。所以,采用以上兩個(gè)步驟完成。

        利用經(jīng)過(guò)反復(fù)完善的字母詞表文件Letterwords.txt,對(duì)經(jīng)過(guò)全角轉(zhuǎn)換處理的文件夾下所有文件進(jìn)行匹配查找,將經(jīng)過(guò)詞長(zhǎng)降序排列的詞表文件中的詞條逐一與語(yǔ)料比對(duì),將語(yǔ)料中查找到的字母詞寫(xiě)入一個(gè)文本文件,并相應(yīng)統(tǒng)計(jì)出每個(gè)字母詞出現(xiàn)的頻次和文本數(shù)。

        “工欲善其事,必先利其器”。字母詞的自動(dòng)獲取和數(shù)據(jù)統(tǒng)計(jì)作為字母詞使用情況監(jiān)測(cè)的一項(xiàng)前期基礎(chǔ)性工作,可以為監(jiān)測(cè)數(shù)據(jù)的大規(guī)模、高效、準(zhǔn)確獲取和統(tǒng)計(jì)提供保證。

        注釋?zhuān)?/p>

        ①GB/T12200.1-90《漢語(yǔ)信息處理詞匯01部分:基本術(shù)語(yǔ)》

        ②GB/T12200.2-94《漢語(yǔ)信息處理詞匯02部分:漢語(yǔ)和漢字》

        [參考文獻(xiàn)]

        [1]侯敏.實(shí)用字母詞詞典[M].北京:商務(wù)印書(shū)館,2014.

        [2]胡鳳國(guó).字母詞的全/半角形式對(duì)中文分詞的影響及對(duì)策初探[J].中國(guó)科技術(shù)語(yǔ),2010(4).

        [3]劉涌泉.關(guān)于漢語(yǔ)字母詞的問(wèn)題[J].語(yǔ)言文字應(yīng)用,2002(1).

        [4]劉涌泉.漢語(yǔ)字母詞詞典[M].北京:外語(yǔ)教學(xué)與研究出版社,2009.

        [5]王秋萍.近二十年來(lái)漢語(yǔ)書(shū)面語(yǔ)中字母詞使用狀況調(diào)查[D].北京:中國(guó)傳媒大學(xué),2011.

        [6]王秋萍.屬性、隸屬度與字母詞典型性[J].吉林師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2010(6).

        [7]王秋萍.字母詞使用和詞形整理中的一詞多形問(wèn)題[J].渤海大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2015 (6).

        [8]鄭澤芝,張普,楊建國(guó).基于語(yǔ)料庫(kù)的字母詞語(yǔ)自動(dòng)提取研究[J].中文信息學(xué)報(bào),2005(2).

        [9]鄭澤芝.基于動(dòng)態(tài)流通語(yǔ)料庫(kù)(DCC)的漢語(yǔ)字母詞語(yǔ)識(shí)別及考察研究[D].北京:北京語(yǔ)言大學(xué),2005.

        [10]鄭澤芝.一種字母詞語(yǔ)自動(dòng)標(biāo)注算法[J].廈門(mén)大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2007(5).

        (責(zé)任編輯:武亮)

        文獻(xiàn)標(biāo)識(shí)碼A

        中圖分類(lèi)號(hào)H0

        收稿日期2015-12-02

        基金項(xiàng)目:本文系遼寧省社會(huì)科學(xué)規(guī)劃基金項(xiàng)目“報(bào)紙、廣播和電視媒體中字母詞使用調(diào)查”(項(xiàng)目編號(hào)L11DYY051);遼寧省教育廳科學(xué)研究一般項(xiàng)目”漢語(yǔ)字母詞語(yǔ)使用穩(wěn)態(tài)與動(dòng)態(tài)跟蹤研究“(項(xiàng)目編號(hào):W2013148);沈陽(yáng)師范大學(xué)博士、引進(jìn)人才科研項(xiàng)目啟動(dòng)基金“報(bào)紙、廣播和電視媒體中字母詞使用調(diào)查”的研究成果。

        作者簡(jiǎn)介:王秋萍(1982-),女,遼寧沈陽(yáng)人,沈陽(yáng)師范大學(xué)國(guó)際教育學(xué)院講師,博士。研究方向?yàn)椋赫Z(yǔ)料庫(kù)語(yǔ)言學(xué)及語(yǔ)言監(jiān)測(cè)。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫(xiě)作
        重點(diǎn):論述類(lèi)文本閱讀
        重點(diǎn):實(shí)用類(lèi)文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開(kāi)對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        婷婷五月综合缴情在线视频| 青青草手机在线观看视频在线观看| 免费观看国产短视频的方法| 玩50岁四川熟女大白屁股直播| 成年女人永久免费看片| 人妻少妇看A偷人无码电影| 亚洲国产综合一区二区| 51国产偷自视频区视频| 少妇性饥渴bbbbb搡bbbb| 国产午夜无码视频免费网站| 男女羞羞的视频免费网站| 日本黑人亚洲一区二区| 日韩aⅴ人妻无码一区二区| 色偷偷88888欧美精品久久久| 亚洲乱码一区AV春药高潮| 91精品人妻一区二区三区水蜜桃| 久久亚洲av午夜福利精品一区| 国产成人久久777777| 免费在线观看一区二区| 少妇精品揄拍高潮少妇桃花岛| 国产日产亚洲系列最新| 性色av无码不卡中文字幕| 亚洲成人av一区二区三区| 97人妻中文字幕总站| 精品国产偷窥一区二区| 亚洲国产精品久久久久秋霞1| 国产精品涩涩涩一区二区三区免费| 亚洲一区二区在线观看av| 人妻仑乱a级毛片免费看| 精品国精品国产自在久国产应用| 国产精品成人无码a 无码 | 欧美韩国精品另类综合| 日韩有码在线免费视频| 欧美性猛交xxxx免费看蜜桃| 国产小受呻吟gv视频在线观看| 日本精品久久久久中文字幕1| 日韩高清不卡一区二区三区| 丁香六月久久婷婷开心| 亚洲午夜精品a区| 四虎在线中文字幕一区| 无码a级毛片免费视频内谢5j|