亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        年度新詞語的獲取

        2017-08-13 02:00:22王宗華石彥霞
        現(xiàn)代語文(學(xué)術(shù)綜合) 2017年8期
        關(guān)鍵詞:新義詞形引號(hào)

        王宗華+石彥霞

        摘 要:新詞語是語言監(jiān)測(cè)的重要內(nèi)容,目前新詞語的監(jiān)測(cè)結(jié)果以編年本的形式向社會(huì)公布。為獲取年度新詞語,人們采用了全切分的方法,這種方法的統(tǒng)計(jì)計(jì)算量較大。文章在考察新詞語在文本中的表現(xiàn)的基礎(chǔ)上,提出利用新詞語的外在特征來獲取年度新詞語的方法。

        關(guān)鍵詞:年度新詞語 獲取

        一、引言

        語言與社會(huì)生活息息相關(guān),它是社會(huì)的一面鏡子,社會(huì)的發(fā)展變化會(huì)引起語言的變化,新詞語(包括舊詞的新義)的大量涌現(xiàn)就是語言對(duì)社會(huì)發(fā)展變化的一種反映。年度新詞語是語言監(jiān)測(cè)與研究的重要內(nèi)容,為了自動(dòng)提取年度新詞語,國(guó)家語言資源監(jiān)測(cè)與研究中心有聲媒體分中心采用詞匯時(shí)空分布模型,先對(duì)語料(本年度和往年)進(jìn)行全切分,根據(jù)年使用率差提取出新詞語候選,再過濾,得到新詞語候選集,以備人工確認(rèn)(何偉,2007;侯敏,2008)。實(shí)踐證明,這種方法可行、有效,缺點(diǎn)是統(tǒng)計(jì)計(jì)算量特別大,耗費(fèi)巨大的計(jì)算資源。在提取新詞語的實(shí)踐中,我們發(fā)現(xiàn)年度新詞語有一定的特點(diǎn),即大部分帶有引號(hào),利用這一特點(diǎn)可以快速地獲取年度新詞語候選集,這種方法可以作為對(duì)前一種方法的有效補(bǔ)充。

        二、新詞語與引號(hào)

        標(biāo)點(diǎn)符號(hào)簡(jiǎn)稱標(biāo)點(diǎn),是輔助文字記錄語言的符號(hào),是現(xiàn)代書面語的有機(jī)組成部分。標(biāo)點(diǎn)符號(hào)的作用,大體上說有三個(gè)方面:1.表示停頓;2.表示語氣,標(biāo)明句子是陳述語氣、疑問語氣、祈使語氣還是感嘆語氣;3.標(biāo)示句子中某些詞句的性質(zhì)。

        國(guó)家標(biāo)準(zhǔn)《標(biāo)點(diǎn)符號(hào)用法》中常用的標(biāo)點(diǎn)符號(hào)共16種,分點(diǎn)號(hào)和標(biāo)號(hào)兩大類。其中,引號(hào)的基本用法:1.行文中直接引用的話,用引號(hào)標(biāo)示。例如:要普及現(xiàn)代信息技術(shù)教育,“計(jì)算機(jī)要從娃娃抓起”。2.行文中需要著重說明的詞語,用引號(hào)標(biāo)示。例如:“坤包、坤表、坤車”里的“坤”,意思是“女式的,女用的”。3.行文中具有特殊含義的詞語,用引號(hào)標(biāo)示。例如:新學(xué)期伊始,上海一些家長(zhǎng)加入了流行的“曬一族”,在網(wǎng)絡(luò)上“曬”起子女的寒假作業(yè)。(周麒,2009)

        按照上述引號(hào)的用法,新詞語中的新詞形,因其“新”的詞形,行文中需要著重說明,應(yīng)該用引號(hào)標(biāo)示;詞語的新義、新用法,因其有特殊的含義,也會(huì)使用引號(hào)。下面我們來分析年度新詞語與引號(hào)的關(guān)聯(lián)性有多大。

        三、年度新詞語使用引號(hào)情況考察

        商務(wù)印書館從2006年起,每年出版年度新詞語詞典,其中收錄的新詞語包括新詞形和有新義的詞語。我們選擇其中2006、2007、2008這三年的年度新詞語詞典(周薦,2007;侯敏,2008;侯敏,2009)進(jìn)行考察。

        先看詞語的新義。2006年度新詞語詞典收錄的有新義的詞有:“EMBA、空調(diào)、曬”。另外以附錄形式給出了2003—2005年的新詞語,其中收錄了認(rèn)為有新義的詞:“板磚、空軍、鳥巢”。2007年度新詞語詞典正文沒有收錄新義詞語,但以附錄形式給出了2004—2006年的新詞語,其中收錄了認(rèn)為有新義的詞:“打鐵、水滴、水門”。2008年度新詞語詞典收錄的認(rèn)為有新義的詞有:“AB制、八寶飯、乘電梯、第四公報(bào)、糾結(jié)、控、雷、雷點(diǎn)、裸演、霹靂、人肉、山寨、水軍、淘客、堰塞湖、一滴水、長(zhǎng)草、做俯臥撐”。另外以附錄形式給出了2007年的新詞語,其中收錄了認(rèn)為有新義(新用法)的詞“裸考”。

        我們利用有聲媒體語料庫(kù)以及網(wǎng)絡(luò),考察了上述詞語新義在產(chǎn)生的當(dāng)年以及后續(xù)若干年度使用引號(hào)的情況,發(fā)現(xiàn)除了“EMBA、控”外,其他詞在產(chǎn)生初期都有引號(hào),有的后來仍有引號(hào)或者和沒有引號(hào)的并存。這種現(xiàn)象表明,按年度監(jiān)測(cè)詞語新義,引號(hào)是新義剛開始出現(xiàn)時(shí)的一個(gè)重要外在特征。我們進(jìn)一步考察了搜集的160多個(gè)新義詞語(近30年來產(chǎn)生的)的使用情況,看其是否也伴隨有引號(hào)。我們發(fā)現(xiàn),這些新義詞在產(chǎn)生初期幾乎都有使用引號(hào)的相關(guān)例子,其中有些詞的新義現(xiàn)在都感覺不到它的“新”了,后來就不再使用引號(hào)。也就是說,這些詞和上述年度新義詞語在引號(hào)上的表現(xiàn)是一樣的。

        再看新詞形。我們考察了2008年新詞語詞典音序索引中A—Q部分的251個(gè)新詞形。我們發(fā)現(xiàn),其中217個(gè)都有使用引號(hào)的用例,占總數(shù)的86.5%。有34個(gè)沒有使用引號(hào),如“奧運(yùn)騎警、奧運(yùn)簽注、伴飛小衛(wèi)星、草根管理、常態(tài)包機(jī)、超級(jí)用戶名、蟲柑、川震、窗口售票機(jī)、垂直式浴室、代購(gòu)手、蛋殼族、??汀?,結(jié)合這些詞語出現(xiàn)的上下文,從這些詞語的字面上就能理解其意義,不需要進(jìn)行著重說明,也沒有什么特殊的含義,所以沒有加引號(hào)。

        綜上所述,詞語新義絕大部分都使用引號(hào),而新詞形使用引號(hào)的大概占總數(shù)的86%,由此我們可以對(duì)新詞語與引號(hào)的關(guān)系做個(gè)簡(jiǎn)單的估計(jì):引號(hào)內(nèi)的字符串大概覆蓋了86%左右的新詞語。但反過來,帶引號(hào)的字符串,不一定就是新詞語,統(tǒng)計(jì)表明,帶引號(hào)的字符串大部分不是新詞語。

        四、獲取2009年度語料中新詞語候選集的實(shí)驗(yàn)

        新詞語一般先出現(xiàn)在網(wǎng)絡(luò),然后進(jìn)入平面媒體、有聲媒體(《中國(guó)語言生活狀況報(bào)告2008》(下編),2009)。它們?cè)谶@些媒體上剛出現(xiàn)時(shí),都會(huì)使用引號(hào),我們的目的是檢驗(yàn)利用引號(hào)提取新詞語的方法,所以,選擇哪種媒體形式的語料進(jìn)行實(shí)驗(yàn)不會(huì)影響實(shí)驗(yàn)結(jié)果是關(guān)鍵。我們利用2007、2008年有聲媒體語料,在2009年有聲媒體語料上,提取該年度帶引號(hào)的字符串,然后過濾、去重,以獲得該年度的新詞語候選集。

        (一)從新詞語的長(zhǎng)度、構(gòu)成方面過濾候選字符串,然后去重

        引號(hào)具有引用的功能,其中的字符串可能是引用的文字,從現(xiàn)有新詞語來看,其長(zhǎng)度一般不超過4個(gè)漢字,為了過濾明顯不是新詞語的字符串,提取時(shí)我們限定引號(hào)內(nèi)字符串的長(zhǎng)度在4個(gè)漢字以內(nèi)。在2007年度有聲媒體語言語料庫(kù)上提取了63487個(gè)含有引號(hào)的字符串,其中,4個(gè)漢字長(zhǎng)度以內(nèi)的字符串有41839個(gè),占總數(shù)的66%。在2008年度有聲媒體語言語料庫(kù)上我們提取了38640個(gè)含有引號(hào)的字符串,其中,4個(gè)漢字長(zhǎng)度以內(nèi)的字符串有28313個(gè),占總數(shù)的73%。在2009年度有聲媒體語言語料庫(kù)上提取到了87818條引號(hào)內(nèi)的字符串,其中,4個(gè)漢字長(zhǎng)度以內(nèi)的字符串有55693個(gè),占總數(shù)的65%。

        包含有字母、數(shù)字、標(biāo)點(diǎn)符號(hào)的字符串一般不是新詞語;另外,2009年度有聲媒體語料中帶有引號(hào)的部分字符串,在2009年前的語料中以相同形式出現(xiàn)過。2009年語料上提取的4個(gè)漢字長(zhǎng)度以內(nèi)的字符串共55693個(gè),我們過濾帶有上述符號(hào)的1716條,過濾與2007、2008兩年重合的14571條,一共過濾16287條,還剩下39406條,減少約29.2%。

        可以看出,過濾后字符串的數(shù)量還是很多,從中進(jìn)行人工篩選新詞語的話,工作量仍很大。由于新詞語主要在三字以內(nèi),我們可以進(jìn)一步縮小候選詞語的數(shù)量。2009年的39406條候選串中,三字長(zhǎng)度以內(nèi)的有19527條,占總數(shù)的49.5%,候選串?dāng)?shù)量縮小了50.5%,篩選范圍縮小了很多。

        經(jīng)對(duì)比,我們發(fā)現(xiàn)上述2009候選字符串包含了《2009漢語新詞語》詞典中的絕大部分新詞語,這說明利用這種方法提取的字符串可以很好地覆蓋新詞語。如果進(jìn)一步限制字符串的長(zhǎng)度,比如兩個(gè)漢字的長(zhǎng)度,可以過濾更多的字符串。如2009年39406條候選串中,兩字以內(nèi)的有9309條,只占總數(shù)的23.6%,對(duì)這些詞進(jìn)行人工判斷的工作量就小了很多。

        (二)利用頻次進(jìn)行過濾

        我們分別統(tǒng)計(jì)了2007、2008、2009各年語料中帶引號(hào)字符串的頻次,發(fā)現(xiàn)各年頻次為1的字符串的數(shù)量占總數(shù)的比例分別為66.9%、65.5和66.8%,而且,頻次為1的字符串一般不是本年度的新詞語。以2009年度有聲媒體語料中的帶引號(hào)字符串為例,按頻次的分布見表1:

        我們可以先過濾頻次為1的字符串,然后按前面所說方法再次過濾,候選字符串的數(shù)量就會(huì)少很多,可以極大減輕人的工作量。以2009年語料為例,頻次大于1的字符串有27825條,其中,四字以內(nèi)的字符串有21208,占76%,對(duì)四字以內(nèi)的21208條字符串與2007、2008比對(duì)去重后還剩下12241條,其中三字以內(nèi)的僅6902條,候選集的數(shù)量大為減少,減輕了人排查的工作量??梢姡瑢⒁陨蟽煞N方法結(jié)合起來,能取得很好的過濾效果。

        五、結(jié)語

        根據(jù)對(duì)語料的觀察,我們發(fā)現(xiàn)新詞語(包括新義)與引號(hào)有很強(qiáng)的關(guān)聯(lián)。為了印證這個(gè)直觀判斷,我們考察了年度新詞語詞典以及我們搜集的詞語新義,發(fā)現(xiàn)86%左右的新詞語使用了引號(hào),即引號(hào)內(nèi)的字符串大概覆蓋了86%左右的新詞語。

        但帶引號(hào)的字符串絕大部分不是新詞語,需要過濾。我們根據(jù)新詞語在長(zhǎng)度、構(gòu)成、頻次方面的特點(diǎn),對(duì)候選字符串進(jìn)行了過濾:過濾頻次為1的字符串;過濾包含有數(shù)字、標(biāo)點(diǎn)符號(hào)的字符串,這些字符串所占比例較?。贿^濾四個(gè)漢字長(zhǎng)度以上的詞語,因?yàn)樾略~語以四個(gè)漢字以內(nèi)為主;過濾年度語料間重合的部分。在2009年度語料中進(jìn)行提取并過濾帶引號(hào)字符串的結(jié)果表明,這種方法簡(jiǎn)單而且有效。

        (基金項(xiàng)目:本文系2014年度河北省社會(huì)科學(xué)發(fā)展研究課題[項(xiàng)目編號(hào):2014041702]“面向語言監(jiān)測(cè)的詞語新義識(shí)別研究”。)

        參考文獻(xiàn):

        [1]何偉,侯敏,文采菊.流行語時(shí)空監(jiān)測(cè)模型研究[A].內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C].2007.

        [2]侯敏,周薦主編.2007漢語新詞語[M].北京:商務(wù)印書館,2008.

        [3]侯敏,周薦主編.2008漢語新詞語[M].北京:商務(wù)印書館,2009.

        [4]周薦主編.2006漢語新詞語[M].北京:商務(wù)印書館,2007.

        [5]周麒主編.出版校對(duì)培訓(xùn)教程[M].北京:商務(wù)印書館,2009:380-382.

        [6]中國(guó)語言生活狀況報(bào)告課題組.中國(guó)語言生活狀況報(bào)告2008(下編)[M].北京:商務(wù)印書館,2009:289-306.

        (王宗華,石彥霞 天津 河北工業(yè)大學(xué)人文與法律學(xué)院 300401)

        猜你喜歡
        新義詞形引號(hào)
        詞形變換解題指導(dǎo)
        引號(hào)的用法
        “咕咚”為什么加引號(hào)?
        韓國(guó)學(xué)校語法中副詞形語尾的變遷
        舊裙新義
        帶前置功能的詞形《 в сопоставлениис 》的結(jié)構(gòu)與搭配
        山東青年(2018年7期)2018-11-06 06:13:12
        從異解看成語新義的形成
        “奇葩”一詞的發(fā)展變化及原因
        引號(hào)和書名號(hào)
        快樂語文(2017年18期)2017-08-11 13:07:56
        建議來稿統(tǒng)一使用規(guī)范詞形(二)
        亚洲精品97久久中文字幕无码| 国产自拍一区在线视频| 丁香花五月六月综合激情| 青青草国产精品一区二区| 免费一级淫片日本高清| 成人免费xxxxx在线观看| 国产真实乱人偷精品人妻| 99re6久精品国产首页| 一本久久a久久精品综合| 日韩有码在线观看视频| 国产精品av在线| 色噜噜狠狠色综合成人网| 国产欧美曰韩一区二区三区| 久久亚洲精精品中文字幕早川悠里 | 亚洲熟女少妇精品综合| 国产综合色在线视频区| 边做边流奶水的人妻| 精品四虎免费观看国产高清| 日韩精品视频在线一二三| 亚洲日本高清一区二区| 亚洲av永久无码天堂网| 最近中文字幕视频完整版在线看| 香蕉视频一级片| 亚洲精品国产主播一区二区| 久草手机视频在线观看| 一本色道久久综合狠狠躁篇| 亚洲国产精品国自产拍av| 无码国产激情在线观看| 98精品国产高清在线xxxx| 情av一区二区三区在线观看| 男女性爽大片视频| 欧美亚洲日韩国产人成在线播放 | 99久久精品免费看国产情侣| 亚洲日本VA午夜在线电影| 国产一区二区三区十八区| 亚洲av成人片在线观看| 国产午夜三级一区二区三| 男人天堂av在线成人av| 亚洲精彩av大片在线观看| 极品尤物一区二区三区| 青草视频在线播放|