亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)處理技術(shù)的《必應(yīng)詞典》編纂模式研究

        2019-03-15 03:42:30廖海宏
        綿陽師范學(xué)院學(xué)報 2019年1期
        關(guān)鍵詞:詞條搜索引擎語料

        廖海宏

        (廈門理工學(xué)院外國語學(xué)院,福建廈門 361024)

        詞典編纂技術(shù)與計算機和網(wǎng)絡(luò)技術(shù)同步發(fā)展,隨著數(shù)據(jù)時代的到來,基于數(shù)據(jù)處理技術(shù)的詞典編纂模式不斷發(fā)展。詞典學(xué)者開始關(guān)注和研究數(shù)據(jù)處理技術(shù)對詞典編纂模式的影響,具體可參見章宜華[1]1,馬立東、吳光華[2]43,林皓、張逸[3]26,耿云冬、魏向清[4]65等的文章討論。其中,耿云冬和魏向清[4]66提出的“語言數(shù)據(jù)驅(qū)動模式”更是直接指出數(shù)據(jù)處理技術(shù)對詞典編纂發(fā)展的方向性影響,他們認(rèn)為:“如果說傳統(tǒng)的詞典編纂更多是編者主體經(jīng)驗驅(qū)動模式,那么當(dāng)代及未來的詞典編纂則無疑應(yīng)是語言數(shù)據(jù)驅(qū)動模式。” 近年來,在理論發(fā)展的同時,數(shù)據(jù)處理技術(shù)在詞典編纂實踐領(lǐng)域不斷得到應(yīng)用,基于數(shù)據(jù)處理技術(shù)的詞典編纂模式逐漸發(fā)展并趨于成熟。鑒于數(shù)據(jù)處理技術(shù)對詞典編纂未來發(fā)展的方向性影響,有必要加強對此類詞典產(chǎn)品的研究。

        《必應(yīng)詞典》是微軟亞洲研究院研發(fā)的帶翻譯功能的在線英漢雙語詞典。經(jīng)過近10年發(fā)展,《必應(yīng)詞典》現(xiàn)有網(wǎng)絡(luò)版、桌面版、移動版等,最新版本是Win10版。根據(jù)手機內(nèi)置的不同操作系統(tǒng),移動版又細(xì)分為Windows10App版、Windows10Android版、Windows10iphone版、Windows10WinPhone版等版本,各版本均擁有龐大詞庫、海量詞條、海量雙語例證庫,提供詞典查詢和以詞典為基礎(chǔ)的雙語翻譯服務(wù)。本文從數(shù)據(jù)處理技術(shù)的角度出發(fā),分析基于數(shù)據(jù)處理技術(shù)的詞典編纂模式對《必應(yīng)詞典》發(fā)展進(jìn)程、編纂過程、編纂結(jié)果等的影響,并以點帶面,管窺數(shù)據(jù)處理技術(shù)對詞典編纂模式未來發(fā)展的影響。

        一、《必應(yīng)詞典》數(shù)據(jù)處理技術(shù)應(yīng)用沿革

        “數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸,數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。”[5]6《必應(yīng)詞典》一向注重數(shù)據(jù)處理技術(shù)的詞典應(yīng)用,最新版《必應(yīng)詞典》是綜合應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘、搜索引擎、云計算、大數(shù)據(jù)等技術(shù)的詞典產(chǎn)品。

        《英庫》是《必應(yīng)詞典》的前身。2009年12月,微軟亞洲研究院在線英語詞典研究項目成果《英庫》上線,這是一款用戶需求導(dǎo)向、針對中國人英語學(xué)習(xí)特點設(shè)計的詞典?!队臁费邪l(fā)之初就注重數(shù)據(jù)處理技術(shù)的詞典應(yīng)用,根據(jù)微軟亞洲研究院官方微博:“《英庫》基于全新網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),不斷挖掘、擴充雙語數(shù)據(jù)庫,以數(shù)以千計的速度擴展單詞和例證,達(dá)到千萬詞匯和例證。通過掃描幾十億量級的網(wǎng)頁,應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)挖掘海量網(wǎng)絡(luò)數(shù)據(jù),建設(shè)千萬級詞匯庫和雙語例證庫等?!雹?010年9月,《英庫》更名 《必應(yīng)詞典》,并把詞典發(fā)布到微軟必應(yīng)搜索引擎首頁。新版詞典在《英庫》網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上進(jìn)行了技術(shù)升級,融詞典功能和搜索引擎功能為一體。劉超[6]36指出:“搜索引擎通過網(wǎng)絡(luò)爬蟲獲取大量相關(guān)資料和信息,采用機器學(xué)習(xí)或者網(wǎng)絡(luò)數(shù)據(jù)挖掘的算法進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)挖掘,進(jìn)一步分類和提取,將用戶最想要的搜索信息返回給用戶?!睌?shù)據(jù)處理是搜索引擎的主要功能之一,把搜索引擎技術(shù)融入《必應(yīng)詞典》是把數(shù)據(jù)處理技術(shù)融入詞典編纂的又一次技術(shù)創(chuàng)新。在獲取詞典編纂所需的數(shù)據(jù)和處理數(shù)據(jù)的過程中,搜索引擎后臺海量數(shù)據(jù)為數(shù)據(jù)挖掘提供數(shù)據(jù)基礎(chǔ),而搜索引擎的數(shù)據(jù)搜索、存儲、挖掘功能為詞典編纂提供技術(shù)基礎(chǔ),詞典編纂自動化程度提高。2011年5月,微軟宣布在云計算技術(shù)基礎(chǔ)上推出基于“云”服務(wù)模式的“必應(yīng)云詞典”,詞典具備云端與本地詞庫查詢雙重搜索模式,提供詞典查詢服務(wù)和基于詞典的翻譯服務(wù)。必應(yīng)云詞典官方網(wǎng)頁(2011)指出:“必應(yīng)云詞典是由海量數(shù)據(jù)驅(qū)動的、基于機器學(xué)習(xí)和統(tǒng)計建模的最新一代機器翻譯引擎……提供云服務(wù)模式詞典和翻譯服務(wù)。”②網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)是云計算技術(shù)的功能之一,基于云計算技術(shù)的詞典“云”服務(wù)模式是《必應(yīng)詞典》把數(shù)據(jù)處理技術(shù)融入詞典編纂的又一輪技術(shù)創(chuàng)新。鄒燕飛[7]186認(rèn)為:“海量網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)W(wǎng)絡(luò)環(huán)境和應(yīng)用條件要求較高,而云計算技術(shù)的應(yīng)用有效提高了網(wǎng)絡(luò)數(shù)據(jù)挖掘效率和云計算技術(shù)在海量網(wǎng)絡(luò)數(shù)據(jù)挖掘中的應(yīng)用研究。” 云計算技術(shù)應(yīng)用提高了《必應(yīng)詞典》對網(wǎng)絡(luò)數(shù)據(jù)的挖掘和應(yīng)用的效率。進(jìn)入大數(shù)據(jù)階段,種類繁多、數(shù)量龐大的網(wǎng)絡(luò)數(shù)據(jù)成為《必應(yīng)詞典》編纂重要的語料來源,詞典編纂開始從紛繁復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)中采集、篩選、分析和挖掘有效數(shù)據(jù),大數(shù)據(jù)技術(shù)開始在《必應(yīng)詞典》編纂中得到應(yīng)用,為基于數(shù)據(jù)處理技術(shù)的詞典編纂打開了更廣闊的視野。

        二、《必應(yīng)詞典》編纂過程的數(shù)據(jù)處理特色

        數(shù)據(jù)處理技術(shù)賦予詞典編纂過程新的特色。常規(guī)的詞典編纂過程包括語料采集、語料加工、選詞立目、釋義和例證的收集、篩選等,數(shù)據(jù)處理技術(shù)對《必應(yīng)詞典》語料采集途徑、語料加工方式、選詞立目條件,以及釋義和例證的采集、篩選、收錄等過程都產(chǎn)生了深刻影響。

        (一)《必應(yīng)詞典》語料采集與加工方式

        《必應(yīng)詞典》在語料采集方面既兼顧傳統(tǒng)又謀求創(chuàng)新,來自權(quán)威詞典的語料和在網(wǎng)絡(luò)數(shù)據(jù)基礎(chǔ)上挖掘的語料共同構(gòu)成《必應(yīng)詞典》語料,在種類和規(guī)模上打破了傳統(tǒng)格局?!侗貞?yīng)詞典》內(nèi)置牛津大學(xué)出版社系列牛津詞典、微軟Office詞典、微軟電子百科全書等權(quán)威詞典和百科全書,權(quán)威詞典為詞典提供嚴(yán)格按詞典標(biāo)準(zhǔn)規(guī)范加工的語料,語料來源得到較好的質(zhì)量保證;數(shù)據(jù)處理技術(shù)應(yīng)用拓寬了傳統(tǒng)的語料采集途徑,網(wǎng)絡(luò)數(shù)據(jù)成為詞典編纂重要的語料來源。2011 年,世界知名咨詢公司麥肯錫指出: “數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素?!盵8]14如果說數(shù)據(jù)是數(shù)據(jù)時代的重要生產(chǎn)因素,那么種類繁多的網(wǎng)絡(luò)數(shù)據(jù)則是數(shù)據(jù)時代詞典編纂的重要語料來源和生產(chǎn)因素?;ヂ?lián)網(wǎng)空間為《必應(yīng)詞典》編纂提供了千萬億字節(jié)規(guī)模的數(shù)據(jù)采集庫,互聯(lián)網(wǎng)空間開放共享的在線詞典、詞典數(shù)據(jù)庫、翻譯網(wǎng)站、大型語料庫等提供經(jīng)過語料加工的百萬、千萬、億級的語言數(shù)據(jù)庫。

        《必應(yīng)詞典》語料來源和采集方式的變化帶動語料加工方式的變化,以數(shù)據(jù)挖掘為主要特征的語料數(shù)據(jù)化技術(shù)在《必應(yīng)詞典》編纂中得到應(yīng)用。章宜華[1]2認(rèn)為:“語料數(shù)據(jù)化是辭書現(xiàn)代化的新理念,即應(yīng)用語言學(xué)研究的新成果和網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),在海量的語料中提取詞典所需的各種有效語言數(shù)據(jù),把語料庫變?yōu)樵~匯/詞典數(shù)據(jù)庫,從而大大提高語料使用和詞典編纂的效率。”《必應(yīng)詞典》編纂過程充分應(yīng)用語料數(shù)據(jù)化技術(shù),從互聯(lián)網(wǎng)空間采集海量數(shù)據(jù),再從所采集數(shù)據(jù)中提取適用于詞典編纂的有效數(shù)據(jù),挖掘詞匯的詞法、句法、語義、語用等方面的詞匯知識和實用信息,語料加工方式更加智能化。

        (二)《必應(yīng)詞典》選詞立目原則

        詞典只有不斷滿足用戶需求,才能持續(xù)維護生命力。數(shù)據(jù)時代,用戶查詢內(nèi)容發(fā)生很大變化,查詢需求趨向?qū)嵱眯?、百科性和實時性,對詞典選詞立目提出了更高要求?!侗貞?yīng)詞典》選詞立目手段數(shù)據(jù)化、信息化,選詞立目體現(xiàn)“以用戶為中心”的實用原則。

        必應(yīng)搜索引擎和網(wǎng)絡(luò)數(shù)據(jù)挖掘等技術(shù)的融合應(yīng)用使得詞典可以發(fā)掘和反映不斷變化的語言現(xiàn)象。詞典收詞趨于海量,除收錄內(nèi)置權(quán)威詞典詞條外,借助搜索引擎后臺數(shù)據(jù)倉庫以及網(wǎng)頁數(shù)據(jù)抓取、更新、存儲等技術(shù),從海量數(shù)據(jù)中提取詞條,達(dá)到了為用戶提供千萬級以上詞條查詢的能力;詞條收錄呈現(xiàn)百科特征,在分析用戶查詢內(nèi)容、查詢行為和查詢意圖等詞典使用數(shù)據(jù)的基礎(chǔ)上,詞典收錄大量應(yīng)用于網(wǎng)絡(luò)、普通詞典不收錄而用戶常常需要使用和查詢的百科詞條,收錄各類專業(yè)術(shù)語、縮寫、名稱等, 甚至收錄Facebook(臉書網(wǎng))、WeChat(微信)、Twitter (推特)等網(wǎng)絡(luò)平臺名;詞典收詞趨于實時,從網(wǎng)絡(luò)空間挖掘大量新詞,如selfie(自拍)、Brexit(英國脫歐)、clicktivism(網(wǎng)絡(luò)點擊行動主義)等,在數(shù)據(jù)處理基礎(chǔ)上實時更新詞庫。林皓、張逸[3]28指出:“互聯(lián)網(wǎng)加速了語言的發(fā)展、變化速度,一個新詞創(chuàng)造后,人們常常以幾何級的速度傳播和使用它。”按傳統(tǒng)編纂模式,詞典通常只能數(shù)年甚至十多年才修訂更新一次,傳統(tǒng)在線詞典由于技術(shù)局限更新速度也還不夠,數(shù)據(jù)處理技術(shù)使詞典在實時反映語言發(fā)展方面又前進(jìn)了一步。

        (三)釋義采集、分類與表述特色

        數(shù)據(jù)處理拓寬詞典釋義的采集途徑,豐富詞典釋義的分類和表述方式。《必應(yīng)詞典》采用權(quán)威英漢雙解釋義、英漢釋義、英英釋義、圖片釋義、網(wǎng)絡(luò)釋義等形式對釋義進(jìn)行分類。權(quán)威英漢雙解釋義、英漢釋義、英英釋義主要來源于內(nèi)置的牛津系列詞典和微軟Office詞典,按詞典規(guī)范化標(biāo)準(zhǔn)收錄釋義,網(wǎng)絡(luò)釋義、圖片釋義是基于數(shù)據(jù)處理的新型釋義方式。

        “網(wǎng)絡(luò)釋義”不同于傳統(tǒng)釋義方式,是在數(shù)據(jù)處理基礎(chǔ)上從網(wǎng)絡(luò)采集的詞條意義,呈現(xiàn)基于數(shù)據(jù)處理的詞條釋義?!队械涝~典》官方網(wǎng)頁對“網(wǎng)絡(luò)釋義”的說明是:“網(wǎng)絡(luò)釋義指的是應(yīng)用搜索引擎抓取并獲得多達(dá)數(shù)十億海量網(wǎng)頁數(shù)據(jù)后,利用網(wǎng)頁萃取技術(shù)進(jìn)行信息理解、網(wǎng)絡(luò)數(shù)據(jù)挖掘和文本分析,從中找出互為關(guān)系的釋義,再根據(jù)它們在海量網(wǎng)頁中出現(xiàn)的頻次、位置等因素優(yōu)化調(diào)整,從而得到與詞條相關(guān)度最高的釋義?!雹塾帽貞?yīng)搜索引擎搜索詞條“blog”,國內(nèi)版和國際版分別抓取41 500 000 和41 000 000條結(jié)果,在所抓取的千萬級數(shù)據(jù)的基礎(chǔ)上,必應(yīng)詞典進(jìn)一步篩選出309 050個和236 607個網(wǎng)頁,對數(shù)據(jù)進(jìn)一步理解、挖掘、分析后,通過“網(wǎng)絡(luò)釋義”收錄“blog”的釋義,第一個義項:博客,一種簡易的個人信息發(fā)布方式。任何人都可注冊,完成個人網(wǎng)頁創(chuàng)建、發(fā)布和更新。wenwen.soso.com|基于309 050個網(wǎng)頁。第二個義項:部落格,部落格(BLOG)是什么?部落格到底能夠做什么?dp.tsh.ttu.edu.tw|基于236 607個網(wǎng)頁④。

        以相關(guān)關(guān)系為邏輯基礎(chǔ),《必應(yīng)詞典》從網(wǎng)絡(luò)空間挖掘與詞條語義相關(guān)的圖片,以直觀易懂的方式收錄在“圖片釋義”欄。由于微軟在設(shè)計上把《必應(yīng)詞典》平臺和搜索引擎平臺融為一體,“圖片釋義”欄鏈接搜索引擎平臺,因此,除詞典界面提供的圖片,搜索引擎界面也為使用者提供與詞條語義相關(guān)的海量圖片,圖片順序按語義的相關(guān)關(guān)系排列,相關(guān)關(guān)系最強的圖片排在最前面。

        新技術(shù)應(yīng)用使得詞典更深層地挖掘詞匯語義特征,更客觀地反映語言在真實應(yīng)用中體現(xiàn)的社會、文化、技術(shù)等表征。

        (四)例證采集、分類與表述特色

        例證具有印證詞目、輔助釋義、提供搭配信息、文化信息、用法提示等功能,詞典通過例證幫助使用者加強對詞條語義信息、語法信息、語體信息和語用信息等的理解。在數(shù)據(jù)處理的基礎(chǔ)上,《必應(yīng)詞典》在編纂過程中采集海量英漢漢英雙語平行句對,經(jīng)篩選、分析、比對、分類后收錄數(shù)量可觀的例證,各個版本收錄的例證數(shù)量有所不同。網(wǎng)絡(luò)版和桌面版《必應(yīng)詞典》為每個詞條收錄250個按詞典規(guī)范加工的例證,這些例證來源于內(nèi)置的權(quán)威詞典和網(wǎng)絡(luò)數(shù)據(jù);移動版除收錄網(wǎng)絡(luò)版收錄的250個例證外,還收錄大量來源自網(wǎng)絡(luò)的精加工和粗加工例證,并收錄每個例證的網(wǎng)絡(luò)來源。

        由于例證數(shù)量多,《必應(yīng)詞典》對例證進(jìn)行了分類,按類別分為口語、書面語、標(biāo)題、技術(shù)類例證;按來源分為來自權(quán)威詞典和網(wǎng)絡(luò)的例證;按例證難度分為簡單、中等、難三種。詞典使用者可按實際需求自由組合和選擇所需的例證,既可選擇來自權(quán)威詞典,也可選擇源自網(wǎng)頁的例證。

        《必應(yīng)詞典》還對所采集海量英漢漢英雙語平行句對進(jìn)行數(shù)據(jù)比對和分析,以英漢對照的方式收錄例證,并以動態(tài)顯示的方式標(biāo)示例證和例證翻譯中每個詞匯的一一對應(yīng)關(guān)系,使兩種語言在語義框架層面對等呈現(xiàn),多層面映射和匹配英漢兩種語言符號。英漢兩種語言符號在特定語境下的多層面映射為詞典使用者理解語言提供了極大方便。

        三、《必應(yīng)詞典》詞條信息表述特色

        詞典編纂過程的改變必然改變詞典編纂結(jié)果,數(shù)據(jù)處理技術(shù)賦予《必應(yīng)詞典》詞條信息諸多新特點?!霸~條是詞典的基本結(jié)構(gòu)單位和功能單位,也是詞典的主體?!盵9] 47數(shù)據(jù)環(huán)境下,基于數(shù)據(jù)處理技術(shù)的編纂過程改變了詞典語料來源和加工方式,詞典信息采集和加工能力大大加強,過程趨于自動化,大量采集的語料來源于真實使用的語言環(huán)境且數(shù)量趨于海量,詞條信息構(gòu)成方式、表述方式、表述內(nèi)容隨之改變。

        (一)詞條信息的有機構(gòu)成

        完整意義的《必應(yīng)詞典》詞條信息涵蓋收錄于各種版本的相同和不同的信息,存儲于各版本的詞條信息以整合或分述的方式構(gòu)成一個有機的整體。網(wǎng)絡(luò)版、桌面版、移動版,以及移動版的各種版本均提供英漢釋義、英英釋義、權(quán)威英漢雙解釋義、網(wǎng)絡(luò)釋義、例證、搭配、同義詞、反義詞、圖片等,但收錄信息有所不同又互為補充。“數(shù)字化環(huán)境下,只有建立宏觀認(rèn)知概念,才能正確認(rèn)知詞典內(nèi)容,提高詞典的使用效能,正確分析和研究詞典?!盵10]90《必應(yīng)詞典》通過不同載體的各種版本收錄互為補充的詞條信息,因此,只有建立宏觀認(rèn)知概念,才能正確認(rèn)知、使用和研究詞典。

        《必應(yīng)詞典》網(wǎng)絡(luò)版、桌面版整合了詞典平臺和搜索引擎平臺,詞典提供詞條信息的能力在量上得到提升。兩個版本的詞典界面均設(shè)置圖標(biāo) “”以鏈接搜索引擎界面,搜索引擎界面也設(shè)置詞條查詢?nèi)肟冢橛脩舴謩e設(shè)置國內(nèi)版和國際版查詢?nèi)肟?,方便查詢搜索引擎采集、篩選的詞條信息;在詞條信息排序上,搜索引擎界面把與詞條相關(guān)的詞典信息、詞典網(wǎng)站信息、翻譯網(wǎng)站信息置頂頁面,同時,國內(nèi)版把《必應(yīng)詞典》內(nèi)容置頂,國際版把牛津系列詞典內(nèi)容置頂⑤,緊跟其后的是國內(nèi)外的主流詞典網(wǎng)站,如www.iciba.com、www.dictionary.com、www.thesaurus.com、www.merriam-webster.com、www.thefreedictionary.com等,這些網(wǎng)站是詞條信息采集的重要來源,最后才是與詞條相關(guān)的百科信息。

        詞條信息或整合或分述。根據(jù)載體特點,詞典為不同版本設(shè)置互為補充的欄目,相同欄目收錄的信息互為補充。與網(wǎng)絡(luò)版和桌面版相比,在分析與詞條相關(guān)的有效數(shù)據(jù)的基礎(chǔ)上,移動版增設(shè)聯(lián)想詞匯欄,以動感的網(wǎng)狀圖式呈現(xiàn)詞條語義關(guān)系,收錄詞條同義詞、反義詞、上下義詞等,如詞條“hate”收錄 “envy, detest, loathe, adore, love”等與詞條語義相關(guān)的聯(lián)想詞匯;詞條 “emoticon”收錄 “emoji, smiley,symbol, cartoon, animated, graphics”等聯(lián)想詞匯。相同欄目收錄的詞條信息有所不同,以“網(wǎng)絡(luò)釋義”欄為例,移動版為“emoticon”提供簡單的英漢釋義和該釋義的來源網(wǎng)頁,emoticon:1.表情符號,來源:whatis.com.cn;2.表情圖標(biāo),來源:blog.sina.com.cn。網(wǎng)絡(luò)版和桌面版具體說明釋義采集依存的網(wǎng)頁數(shù)量和具體語境,“emoticon:1.表情符號,表情符號(emoticon)是一短串鍵盤字母和符號,通常仿效一個面部表情,用來補充文字信息……”

        (二)詞條信息的豐富形態(tài)

        互聯(lián)網(wǎng)空間數(shù)據(jù)格式紛繁復(fù)雜,除文本數(shù)據(jù)外,圖片、圖形、音頻、視頻等數(shù)據(jù)也為詞典所用。數(shù)據(jù)處理技術(shù)使得《必應(yīng)詞典》可以通過更為豐富的形態(tài)表述詞條信息,幫助詞典用戶建立多維度的詞匯認(rèn)知空間,在更宏觀的層面認(rèn)知詞匯。

        除通過詞典界面表述多形態(tài)的詞條信息,通過詞典界面所鏈接的搜索引擎界面,詞典用戶還可以在搜索引擎設(shè)置的詞條查詢欄查詢到大量源自網(wǎng)絡(luò)空間的各種形態(tài)的詞條信息,如查詢詞條“dance”,使用者可以查看大量與舞蹈相關(guān)的圖片、音頻、視頻等。

        (三)詞條信息的兼收并容

        規(guī)定主義和描寫主義之爭在詞典史上由來已久,李明和周敬華認(rèn)為[12]150:“規(guī)定主義恪守正統(tǒng)的、規(guī)范的、符合邏輯、符合經(jīng)典作家用法的傳統(tǒng)并以此為標(biāo)準(zhǔn)對語言進(jìn)行規(guī)定的編纂方針,描寫主義主張不是以經(jīng)典傳統(tǒng)為依據(jù)而是以對語言全面的、系統(tǒng)的、客觀的描寫資料為依據(jù)進(jìn)行詞典編纂?!痹诰€英漢漢英雙語詞典肩負(fù)著溝通英漢兩種語言的作用,除了忠實反映兩種語言的最新發(fā)展和應(yīng)用情況,也應(yīng)準(zhǔn)確和規(guī)范地收錄詞條信息以引導(dǎo)語言健康發(fā)展,因此必須平衡好規(guī)定主義和描寫主義傾向?!侗貞?yīng)詞典》詞條信息在內(nèi)容上具有兼收并容的傾向,既注重對內(nèi)置牛津系列詞典等權(quán)威詞典的詞條信息的收錄,又注重全面、系統(tǒng)、客觀地描寫和記錄語言。

        傳統(tǒng)上,由于全面、系統(tǒng)、客觀地描寫語言難度很大,詞典編纂高度依賴編纂者語言能力和人工經(jīng)驗,詞典編纂以規(guī)范詞匯的標(biāo)準(zhǔn)用法為主要目的;數(shù)據(jù)時代,隨著詞典用戶查詢行為的改變,為詞典用戶解決語言應(yīng)用的實際問題發(fā)展為詞典編纂需要解決的主要矛盾,基于數(shù)據(jù)處理技術(shù)的詞典編纂把數(shù)據(jù)采集拓展到網(wǎng)絡(luò)空間的海量數(shù)據(jù),全面、系統(tǒng)、客觀地描寫語言有了可能性。在數(shù)據(jù)處理的基礎(chǔ)上,《必應(yīng)詞典》詞條信息在內(nèi)容上體現(xiàn)了一定的描寫主義特色,通過采集網(wǎng)絡(luò)空間海量數(shù)據(jù)描寫語言生存和發(fā)展?fàn)顩r,在更為客觀的層面收錄語言實際應(yīng)用過程中產(chǎn)生的詞匯應(yīng)用信息。

        詞典通過詞條信息記錄和反映人類認(rèn)知社會的過程和結(jié)果,基于數(shù)字處理的詞典編纂模式在內(nèi)容上拓寬了詞典記錄和反映人類認(rèn)知社會的范圍。

        四、結(jié)語

        當(dāng)數(shù)據(jù)和數(shù)據(jù)處理發(fā)展為社會快速信息化的重要表征,研究基于數(shù)據(jù)處理技術(shù)的詞典編纂模式就顯得尤為重要?!侗貞?yīng)詞典》是數(shù)據(jù)時代在線雙語詞典應(yīng)用數(shù)據(jù)處理技術(shù)的典型代表,反映了數(shù)據(jù)時代詞典編纂模式的發(fā)展趨勢。數(shù)據(jù)處理技術(shù)融入詞典編纂的具體過程,賦予詞典編纂新的方法,詞典信息在構(gòu)成和表述方式上都發(fā)生很大改變。數(shù)據(jù)時代,數(shù)據(jù)處理技術(shù)不僅對數(shù)據(jù)計算和分析領(lǐng)域有很大的影響,而且對人文學(xué)科領(lǐng)域也產(chǎn)生了深刻影響。隨著數(shù)據(jù)處理技術(shù)在人文學(xué)科領(lǐng)域應(yīng)用的推進(jìn),語言學(xué)領(lǐng)域也越來越重視數(shù)據(jù)處理技術(shù)對語言學(xué)學(xué)科發(fā)展的影響,作為語言學(xué)分支學(xué)科,詞典學(xué)領(lǐng)域應(yīng)當(dāng)更多地關(guān)注數(shù)據(jù)處理技術(shù)對詞典編纂模式未來發(fā)展和詞典學(xué)學(xué)科發(fā)展的影響。

        猜你喜歡
        詞條搜索引擎語料
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        大數(shù)據(jù)相關(guān)詞條
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        永久国产盗摄一区二区色欲| 蜜桃视频在线免费观看一区二区| h视频在线观看视频在线| 国产成人精品一区二区20p| 日本一区二区在线免费视频| 精品少妇一区二区三区免费观| 午夜AV地址发布| 国产V日韩V亚洲欧美久久| 99精品国产第一福利网站| 亚洲美女性生活一级片| 亚洲精品综合久久中文字幕| 一区二区三区日韩精品视频 | 777午夜精品免费观看| 日韩av高清无码| 久久精品国产99久久丝袜| 黄网站a毛片免费观看久久| 九一免费一区二区三区偷拍视频 | 蜜桃久久精品成人无码av| 欧美疯狂做受xxxx高潮小说| 国产欧美日韩在线观看 | av天堂中文亚洲官网| 国产av剧情刺激对白| 午夜福利一区二区三区在线观看| 日韩区在线| 国产精品欧美成人片| 一级二级三一片内射视频| 亚洲一区二区国产一区| 国产极品粉嫩福利姬萌白酱| 日韩内射美女人妻一区二区三区| 澳门毛片精品一区二区三区| 亚洲国产精品日韩专区av| 亚洲女同精品一区二区久久| 精品人妻一区二区三区四区在线 | 欧美激情视频一区二区三区免费 | 亚洲天堂一区二区三区视频| 日韩美女亚洲性一区二区| 亚洲国产一二三精品无码| 亚洲精品无码久久久久久| 亚洲成在人网av天堂| 大陆成人精品自拍视频在线观看 | 岛国大片在线免费观看|