亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫及其應(yīng)用

        2016-07-05 13:47:30吳保珍
        讀寫算·基礎(chǔ)教育研究 2016年28期

        【摘 要】本文從語言監(jiān)測(cè)的研究現(xiàn)狀、網(wǎng)絡(luò)媒體監(jiān)測(cè)流程和監(jiān)測(cè)語料庫的應(yīng)用三個(gè)方面介紹網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫,著重介紹熱點(diǎn)事件追蹤、網(wǎng)絡(luò)流行詞發(fā)現(xiàn)、新詞識(shí)別、中國語言生活綠皮書的發(fā)布等應(yīng)用技術(shù)。通過網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫觀察分析語言現(xiàn)象的動(dòng)態(tài)變化,并定期發(fā)布觀察分析結(jié)果同時(shí)為國家制定或調(diào)整語言政策提供參考依據(jù),促進(jìn)網(wǎng)絡(luò)語言的健康發(fā)展和信息安全。

        【關(guān)鍵詞】網(wǎng)絡(luò)媒體;監(jiān)測(cè)語料庫;網(wǎng)絡(luò)監(jiān)測(cè)流程;監(jiān)測(cè)語料庫的應(yīng)用

        一、引言

        網(wǎng)絡(luò)媒體被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體之一。網(wǎng)絡(luò)媒體監(jiān)控語料庫的建立可以幫助人們應(yīng)對(duì)信息過載問題的研究,語料庫具備及時(shí)更新和自動(dòng)監(jiān)控的能力,能夠不斷自動(dòng)淘汰過時(shí)的語料,不斷自動(dòng)選擇新語料、增加時(shí)效性很強(qiáng)的新語料,從因特網(wǎng)獲取網(wǎng)絡(luò)語料,及時(shí)發(fā)現(xiàn)、及時(shí)報(bào)告語言應(yīng)用中出現(xiàn)的新現(xiàn)象、新變化。

        二、網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫

        語料庫是存儲(chǔ)于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、分析的語言素材的總體。在傳統(tǒng)的基于規(guī)則的分析語言基礎(chǔ)上進(jìn)行研究。通過對(duì)網(wǎng)絡(luò)媒體語言資源的收集、建庫、整理和加工,建成了網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫,按照即時(shí)性、通用性、描述性、實(shí)用性等原則系統(tǒng)地抽樣選擇互聯(lián)網(wǎng)上的現(xiàn)代漢語語言材料,涉及人文與社會(huì)科學(xué)、自然科學(xué)及綜合等多個(gè)大類。

        網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫由三大模塊組成:數(shù)據(jù)采集模塊、數(shù)據(jù)服務(wù)和管理模塊、發(fā)布、數(shù)據(jù)管理和監(jiān)測(cè)配置界面。該監(jiān)測(cè)語料庫主要作用是語言現(xiàn)象實(shí)時(shí)監(jiān)控、語言政策制定、網(wǎng)絡(luò)語言安全、自然語言處理、對(duì)外語教學(xué)和詞典編撰。

        三、網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫的應(yīng)用

        網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫是歷時(shí)、平衡的監(jiān)測(cè)語料,包含了最大、最全的網(wǎng)絡(luò)語言資源,應(yīng)用方面有網(wǎng)絡(luò)詞典查詢、BBS語料庫數(shù)據(jù)發(fā)布、熱點(diǎn)事件追蹤、網(wǎng)絡(luò)流行詞發(fā)現(xiàn)、新詞識(shí)別、中國語言生活綠皮書的發(fā)布和多文檔自動(dòng)文摘測(cè)試集。

        本文主要介紹以下語料庫的應(yīng)用:

        1.網(wǎng)絡(luò)熱點(diǎn)事件追蹤

        熱點(diǎn)事件,就是一段時(shí)間內(nèi)在某一群體中關(guān)注程度比較高的事件。熱點(diǎn)事件跟蹤基于統(tǒng)計(jì)學(xué)方法,采用了文本分類和聚類、信息檢索、多文檔摘要等多種自然語言處理方法,并結(jié)合已有的流行語抽取技術(shù),選取了財(cái)經(jīng)證券類、社會(huì)類、科技類、國際類、體育類共5個(gè)大類的若干熱點(diǎn)新聞事件。

        熱點(diǎn)事件即話題識(shí)別與跟蹤研究集中于五個(gè)子任務(wù)展開:新聞報(bào)道的切分、新事件的識(shí)別、報(bào)道關(guān)系識(shí)別、話題識(shí)別、話題跟蹤。該中心是在多策略優(yōu)化的基礎(chǔ)上利用動(dòng)態(tài)二次聚類算法得到話題列表,再利用該中心提出的網(wǎng)絡(luò)話題判定公式從這些話題中發(fā)現(xiàn)網(wǎng)絡(luò)話題。

        2.網(wǎng)絡(luò)新詞識(shí)別

        網(wǎng)絡(luò)新詞的識(shí)別是自然語言處理領(lǐng)域一項(xiàng)基礎(chǔ)性的研究工作,在機(jī)器翻譯、文本摘要、詞典編撰、信息檢索等領(lǐng)域中有廣泛地應(yīng)用,特別是針對(duì)開放性的網(wǎng)絡(luò)語言而言,其作用顯得更加重要。目前,本中心采用純統(tǒng)計(jì)的方法,對(duì)網(wǎng)絡(luò)上大規(guī)模的語料進(jìn)行每天的抽取,檢測(cè)出通用詞典以外的命名實(shí)體、領(lǐng)域?qū)I(yè)術(shù)語等,為語料的進(jìn)一步監(jiān)測(cè)提供良好的了基礎(chǔ)。

        網(wǎng)絡(luò)新詞識(shí)別流程為下載網(wǎng)頁,組建語料庫,對(duì)語料進(jìn)行預(yù)處理,建立PatTree索引,然后進(jìn)行術(shù)語抽取。其中術(shù)語抽取的方法采用基于卡方檢驗(yàn)的質(zhì)子串分解方法。

        3.網(wǎng)絡(luò)流行語監(jiān)測(cè)

        流行語就是在某一時(shí)期,某一地域或某一人群中迅速傳播、盛行的詞語。網(wǎng)絡(luò)流行語就是在網(wǎng)絡(luò)中的某一時(shí)期或某一網(wǎng)絡(luò)社區(qū)中迅速傳播、盛行的詞語。網(wǎng)絡(luò)流行語具有如下特點(diǎn):擴(kuò)散性,時(shí)效性,地域性,密集性。

        通過對(duì)網(wǎng)絡(luò)語料的分析和統(tǒng)計(jì),我們監(jiān)測(cè)每個(gè)詞匯在各個(gè)不同時(shí)期的活躍程度,通過與歷史記錄的對(duì)比,來考察該詞在不同時(shí)期的流行程度。通過大規(guī)模地分析處理采集的網(wǎng)頁,用分詞工具進(jìn)行詞性標(biāo)注與未登陸詞識(shí)別,利用實(shí)驗(yàn)室已有算法補(bǔ)充新詞,提取所有名詞性詞語。引入詞語屬性定義與量化機(jī)制,并配合依據(jù)詞語屬性與時(shí)間關(guān)系而繪制的走勢(shì)曲線圖,設(shè)置淘汰機(jī)制,過濾詞語,設(shè)置評(píng)分機(jī)制,對(duì)篩選剩下的詞語評(píng)分排序,排序越前的在時(shí)間背景下成為流行詞語的可能性更大。

        4.中國語言生活綠皮書的發(fā)布

        《中國語言生活綠皮書》是對(duì)中國語言生活的全面調(diào)查以獲取年度用語用字的最新動(dòng)態(tài),它對(duì)報(bào)紙、廣播電視、網(wǎng)絡(luò)等媒體及漢語作為第二語言教材語言狀況的統(tǒng)計(jì)數(shù)據(jù),包括調(diào)查報(bào)告和調(diào)查數(shù)據(jù)兩個(gè)大部分。針對(duì)社會(huì)快速進(jìn)步,隨著新事物新觀念不斷涌現(xiàn),出現(xiàn)了大量新詞語和詞語的新用法的社會(huì)現(xiàn)象,對(duì)社會(huì)語言狀況進(jìn)行了考察,涵蓋了社會(huì)生活各個(gè)領(lǐng)域的語言文字使用狀況。

        四、總結(jié)

        網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫是一個(gè)動(dòng)態(tài)的語料庫,及時(shí)發(fā)現(xiàn)新的網(wǎng)絡(luò)新現(xiàn)象和獲得新詞語。該語料庫所做各實(shí)驗(yàn)均采用從五大門戶網(wǎng)站(搜狐、網(wǎng)易、新浪、騰訊、Tom)上下載下來的網(wǎng)頁內(nèi)容。網(wǎng)絡(luò)熱點(diǎn)事件的實(shí)驗(yàn)內(nèi)容是半年度的網(wǎng)上文本,文本根據(jù)主題存放,共有6組:國內(nèi)、國際、體育、科技、財(cái)經(jīng)和娛樂,每組作為一個(gè)語料庫,獲取熱點(diǎn)事件。

        從獲取的實(shí)驗(yàn)數(shù)據(jù)中,可見網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫具備及時(shí)更新和自動(dòng)監(jiān)控的能力,能夠及時(shí)分析,識(shí)別和發(fā)現(xiàn)網(wǎng)絡(luò)新詞、發(fā)現(xiàn)網(wǎng)絡(luò)流行語、追蹤報(bào)道熱點(diǎn)事件和發(fā)布中國語言生活綠皮書。但是在這些應(yīng)用上仍然存在一些問題,例如,新詞的識(shí)別上還不是完全的自動(dòng)化,最后的結(jié)果需要人工的干預(yù)、流行詞語的篩選在某些方面仍存在不足,閾值對(duì)實(shí)驗(yàn)結(jié)果影響較大。

        在接下來的工作中,將會(huì)實(shí)驗(yàn)中繼續(xù)語料庫的比較研究,采用其他的算法和技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)媒體監(jiān)測(cè)語料庫規(guī)范化、自動(dòng)化、網(wǎng)絡(luò)化、多功能和智能化。

        參考文獻(xiàn)

        [1]何婷婷.語料庫研究[D].華中師范大學(xué).2003年

        [2]李保利,俞士汶.話題識(shí)別與跟蹤研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(17):6-10

        [3]何婷婷,朱薏,張勇,任函.基于詞語屬性的計(jì)算機(jī)輔助獲取流行詞語研究[J].中文信息學(xué)報(bào),2006,6(06):38-45.

        [4]胡文敏,何婷婷,張勇.基于卡方檢驗(yàn)的漢語術(shù)語抽取[J].計(jì)算機(jī)應(yīng)用,2007(12):3019-3020

        [5]駱衛(wèi)華,于滿泉,許洪波,王斌,程雪旗.基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J].中文信息學(xué)報(bào),2006,1(20):29-36

        作者簡介:吳保珍(1982-),女,湖南婁底人,碩士,武漢東湖學(xué)院計(jì)算機(jī)科學(xué)學(xué)院主要研究方向:自然語言處理;教授課程:數(shù)據(jù)庫,面向?qū)ο蟪绦蛟O(shè)計(jì),C++,數(shù)字邏輯。

        欧美丰满熟妇xxxx性| 亚洲三区av在线播放| 东风日产车是不是国产的| 无码人妻精品一区二区三区东京热| 少妇被黑人整得嗷嗷叫视频| 国产草草影院ccyycom| 精品亚洲aⅴ在线观看| 精品黄色av一区二区三区| 亚洲色图第一页在线观看视频| 日本免费在线一区二区三区| 男人的天堂av高清在线| 免费观看又色又爽又黄的| 国产91 对白在线播放九色| 亚洲日韩国产精品不卡一区在线 | 亚洲AV综合久久九九| 国产人妖一区二区av| 韩国三级黄色一区二区| 国产一区亚洲二区三区| 人人摸人人操| 国产精品久久久久久久久免费观看 | 欧美精品色婷婷五月综合| 一二三四在线观看免费视频| 久久精品国产亚洲av电影| 亚洲人成在线播放a偷伦| 国产精品国产三级久久| 无码丰满熟妇一区二区| 国产无线乱码一区二三区| 中文字幕被公侵犯的丰满人妻| 羞羞色院99精品全部免| 国产精品一卡二卡三卡| 欧美亚洲日本在线| 国内自拍视频在线观看h| 日本岛国一区二区三区四区| 久久精品国产自在天天线| 熟妇与小伙子matur老熟妇e| 国产青青草视频在线播放| 国产精品一区二区夜色不卡| 日本熟妇色xxxxx日本妇| 人妻夜夜爽天天爽三区麻豆AV网站 | 最新四色米奇影视777在线看| 丰满人妻中文字幕乱码|