【摘 要】本文從語言監(jiān)測(cè)的研究現(xiàn)狀、網(wǎng)絡(luò)媒體監(jiān)測(cè)流程和監(jiān)測(cè)語料庫的應(yīng)用三個(gè)方面介紹網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫,著重介紹熱點(diǎn)事件追蹤、網(wǎng)絡(luò)流行詞發(fā)現(xiàn)、新詞識(shí)別、中國語言生活綠皮書的發(fā)布等應(yīng)用技術(shù)。通過網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫觀察分析語言現(xiàn)象的動(dòng)態(tài)變化,并定期發(fā)布觀察分析結(jié)果同時(shí)為國家制定或調(diào)整語言政策提供參考依據(jù),促進(jìn)網(wǎng)絡(luò)語言的健康發(fā)展和信息安全。
【關(guān)鍵詞】網(wǎng)絡(luò)媒體;監(jiān)測(cè)語料庫;網(wǎng)絡(luò)監(jiān)測(cè)流程;監(jiān)測(cè)語料庫的應(yīng)用
一、引言
網(wǎng)絡(luò)媒體被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體之一。網(wǎng)絡(luò)媒體監(jiān)控語料庫的建立可以幫助人們應(yīng)對(duì)信息過載問題的研究,語料庫具備及時(shí)更新和自動(dòng)監(jiān)控的能力,能夠不斷自動(dòng)淘汰過時(shí)的語料,不斷自動(dòng)選擇新語料、增加時(shí)效性很強(qiáng)的新語料,從因特網(wǎng)獲取網(wǎng)絡(luò)語料,及時(shí)發(fā)現(xiàn)、及時(shí)報(bào)告語言應(yīng)用中出現(xiàn)的新現(xiàn)象、新變化。
二、網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫
語料庫是存儲(chǔ)于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、分析的語言素材的總體。在傳統(tǒng)的基于規(guī)則的分析語言基礎(chǔ)上進(jìn)行研究。通過對(duì)網(wǎng)絡(luò)媒體語言資源的收集、建庫、整理和加工,建成了網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫,按照即時(shí)性、通用性、描述性、實(shí)用性等原則系統(tǒng)地抽樣選擇互聯(lián)網(wǎng)上的現(xiàn)代漢語語言材料,涉及人文與社會(huì)科學(xué)、自然科學(xué)及綜合等多個(gè)大類。
網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫由三大模塊組成:數(shù)據(jù)采集模塊、數(shù)據(jù)服務(wù)和管理模塊、發(fā)布、數(shù)據(jù)管理和監(jiān)測(cè)配置界面。該監(jiān)測(cè)語料庫主要作用是語言現(xiàn)象實(shí)時(shí)監(jiān)控、語言政策制定、網(wǎng)絡(luò)語言安全、自然語言處理、對(duì)外語教學(xué)和詞典編撰。
三、網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫的應(yīng)用
網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫是歷時(shí)、平衡的監(jiān)測(cè)語料,包含了最大、最全的網(wǎng)絡(luò)語言資源,應(yīng)用方面有網(wǎng)絡(luò)詞典查詢、BBS語料庫數(shù)據(jù)發(fā)布、熱點(diǎn)事件追蹤、網(wǎng)絡(luò)流行詞發(fā)現(xiàn)、新詞識(shí)別、中國語言生活綠皮書的發(fā)布和多文檔自動(dòng)文摘測(cè)試集。
本文主要介紹以下語料庫的應(yīng)用:
1.網(wǎng)絡(luò)熱點(diǎn)事件追蹤
熱點(diǎn)事件,就是一段時(shí)間內(nèi)在某一群體中關(guān)注程度比較高的事件。熱點(diǎn)事件跟蹤基于統(tǒng)計(jì)學(xué)方法,采用了文本分類和聚類、信息檢索、多文檔摘要等多種自然語言處理方法,并結(jié)合已有的流行語抽取技術(shù),選取了財(cái)經(jīng)證券類、社會(huì)類、科技類、國際類、體育類共5個(gè)大類的若干熱點(diǎn)新聞事件。
熱點(diǎn)事件即話題識(shí)別與跟蹤研究集中于五個(gè)子任務(wù)展開:新聞報(bào)道的切分、新事件的識(shí)別、報(bào)道關(guān)系識(shí)別、話題識(shí)別、話題跟蹤。該中心是在多策略優(yōu)化的基礎(chǔ)上利用動(dòng)態(tài)二次聚類算法得到話題列表,再利用該中心提出的網(wǎng)絡(luò)話題判定公式從這些話題中發(fā)現(xiàn)網(wǎng)絡(luò)話題。
2.網(wǎng)絡(luò)新詞識(shí)別
網(wǎng)絡(luò)新詞的識(shí)別是自然語言處理領(lǐng)域一項(xiàng)基礎(chǔ)性的研究工作,在機(jī)器翻譯、文本摘要、詞典編撰、信息檢索等領(lǐng)域中有廣泛地應(yīng)用,特別是針對(duì)開放性的網(wǎng)絡(luò)語言而言,其作用顯得更加重要。目前,本中心采用純統(tǒng)計(jì)的方法,對(duì)網(wǎng)絡(luò)上大規(guī)模的語料進(jìn)行每天的抽取,檢測(cè)出通用詞典以外的命名實(shí)體、領(lǐng)域?qū)I(yè)術(shù)語等,為語料的進(jìn)一步監(jiān)測(cè)提供良好的了基礎(chǔ)。
網(wǎng)絡(luò)新詞識(shí)別流程為下載網(wǎng)頁,組建語料庫,對(duì)語料進(jìn)行預(yù)處理,建立PatTree索引,然后進(jìn)行術(shù)語抽取。其中術(shù)語抽取的方法采用基于卡方檢驗(yàn)的質(zhì)子串分解方法。
3.網(wǎng)絡(luò)流行語監(jiān)測(cè)
流行語就是在某一時(shí)期,某一地域或某一人群中迅速傳播、盛行的詞語。網(wǎng)絡(luò)流行語就是在網(wǎng)絡(luò)中的某一時(shí)期或某一網(wǎng)絡(luò)社區(qū)中迅速傳播、盛行的詞語。網(wǎng)絡(luò)流行語具有如下特點(diǎn):擴(kuò)散性,時(shí)效性,地域性,密集性。
通過對(duì)網(wǎng)絡(luò)語料的分析和統(tǒng)計(jì),我們監(jiān)測(cè)每個(gè)詞匯在各個(gè)不同時(shí)期的活躍程度,通過與歷史記錄的對(duì)比,來考察該詞在不同時(shí)期的流行程度。通過大規(guī)模地分析處理采集的網(wǎng)頁,用分詞工具進(jìn)行詞性標(biāo)注與未登陸詞識(shí)別,利用實(shí)驗(yàn)室已有算法補(bǔ)充新詞,提取所有名詞性詞語。引入詞語屬性定義與量化機(jī)制,并配合依據(jù)詞語屬性與時(shí)間關(guān)系而繪制的走勢(shì)曲線圖,設(shè)置淘汰機(jī)制,過濾詞語,設(shè)置評(píng)分機(jī)制,對(duì)篩選剩下的詞語評(píng)分排序,排序越前的在時(shí)間背景下成為流行詞語的可能性更大。
4.中國語言生活綠皮書的發(fā)布
《中國語言生活綠皮書》是對(duì)中國語言生活的全面調(diào)查以獲取年度用語用字的最新動(dòng)態(tài),它對(duì)報(bào)紙、廣播電視、網(wǎng)絡(luò)等媒體及漢語作為第二語言教材語言狀況的統(tǒng)計(jì)數(shù)據(jù),包括調(diào)查報(bào)告和調(diào)查數(shù)據(jù)兩個(gè)大部分。針對(duì)社會(huì)快速進(jìn)步,隨著新事物新觀念不斷涌現(xiàn),出現(xiàn)了大量新詞語和詞語的新用法的社會(huì)現(xiàn)象,對(duì)社會(huì)語言狀況進(jìn)行了考察,涵蓋了社會(huì)生活各個(gè)領(lǐng)域的語言文字使用狀況。
四、總結(jié)
網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫是一個(gè)動(dòng)態(tài)的語料庫,及時(shí)發(fā)現(xiàn)新的網(wǎng)絡(luò)新現(xiàn)象和獲得新詞語。該語料庫所做各實(shí)驗(yàn)均采用從五大門戶網(wǎng)站(搜狐、網(wǎng)易、新浪、騰訊、Tom)上下載下來的網(wǎng)頁內(nèi)容。網(wǎng)絡(luò)熱點(diǎn)事件的實(shí)驗(yàn)內(nèi)容是半年度的網(wǎng)上文本,文本根據(jù)主題存放,共有6組:國內(nèi)、國際、體育、科技、財(cái)經(jīng)和娛樂,每組作為一個(gè)語料庫,獲取熱點(diǎn)事件。
從獲取的實(shí)驗(yàn)數(shù)據(jù)中,可見網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫具備及時(shí)更新和自動(dòng)監(jiān)控的能力,能夠及時(shí)分析,識(shí)別和發(fā)現(xiàn)網(wǎng)絡(luò)新詞、發(fā)現(xiàn)網(wǎng)絡(luò)流行語、追蹤報(bào)道熱點(diǎn)事件和發(fā)布中國語言生活綠皮書。但是在這些應(yīng)用上仍然存在一些問題,例如,新詞的識(shí)別上還不是完全的自動(dòng)化,最后的結(jié)果需要人工的干預(yù)、流行詞語的篩選在某些方面仍存在不足,閾值對(duì)實(shí)驗(yàn)結(jié)果影響較大。
在接下來的工作中,將會(huì)實(shí)驗(yàn)中繼續(xù)語料庫的比較研究,采用其他的算法和技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫規(guī)范化、自動(dòng)化、網(wǎng)絡(luò)化、多功能和智能化。
參考文獻(xiàn)
[1]何婷婷.語料庫研究[D].華中師范大學(xué).2003年
[2]李保利,俞士汶.話題識(shí)別與跟蹤研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(17):6-10
[3]何婷婷,朱薏,張勇,任函.基于詞語屬性的計(jì)算機(jī)輔助獲取流行詞語研究[J].中文信息學(xué)報(bào),2006,6(06):38-45.
[4]胡文敏,何婷婷,張勇.基于卡方檢驗(yàn)的漢語術(shù)語抽取[J].計(jì)算機(jī)應(yīng)用,2007(12):3019-3020
[5]駱衛(wèi)華,于滿泉,許洪波,王斌,程雪旗.基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J].中文信息學(xué)報(bào),2006,1(20):29-36
作者簡介:吳保珍(1982-),女,湖南婁底人,碩士,武漢東湖學(xué)院計(jì)算機(jī)科學(xué)學(xué)院主要研究方向:自然語言處理;教授課程:數(shù)據(jù)庫,面向?qū)ο蟪绦蛟O(shè)計(jì),C++,數(shù)字邏輯。