亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        略談辭書(shū)編纂中人工智能技術(shù)的應(yīng)用

        2018-03-27 21:44:50張國(guó)強(qiáng)
        出版與印刷 2018年4期
        關(guān)鍵詞:詞目辭書(shū)自動(dòng)

        張國(guó)強(qiáng)

        辭書(shū)編纂需要處理的信息量大,故而對(duì)善于數(shù)據(jù)處理的計(jì)算機(jī)技術(shù)有著迫切需求。

        目前,計(jì)算機(jī)技術(shù)處理數(shù)據(jù)的能力和表現(xiàn)形式,已經(jīng)從依靠“蠻力”發(fā)展到了智能時(shí)代。這里所謂的“蠻力”,指的是計(jì)算機(jī)能以極快的計(jì)算速度作檢索、比對(duì)、處理等,但這種檢索、比對(duì)、處理尚處于一種初級(jí)階段,僅是作“機(jī)械”處理,而基本不涉及“智能”的范疇;而所謂的“智能”,則是指計(jì)算機(jī)利用高速的運(yùn)算能力,具有初步的理解、分析、判斷、推理等能力,即計(jì)算機(jī)能夠“模擬類(lèi)似于人類(lèi)的某些智能活動(dòng)和功能”[1]1558。

        相應(yīng)地,計(jì)算機(jī)技術(shù)在辭書(shū)編纂中的運(yùn)用,也應(yīng)當(dāng)從借助于“蠻力”的階段進(jìn)入依賴(lài)于智能的階段。

        一、計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)大大提高了辭書(shū)編纂的效率

        回顧一下不太久遠(yuǎn)的歷史,我們可以清楚地了解到,借助于計(jì)算機(jī)的“蠻力”,我們利用計(jì)算機(jī)技術(shù)尤其是數(shù)據(jù)庫(kù)技術(shù),使辭書(shū)編纂的效率得到了前所未有的提高。筆者十幾年前曾寫(xiě)《數(shù)據(jù)庫(kù)化的辭書(shū)編纂》一文,提到利用數(shù)據(jù)庫(kù)技術(shù)來(lái)提高辭書(shū)編纂效率的設(shè)想,包括“在辭書(shū)編纂中充分運(yùn)用數(shù)據(jù)庫(kù)技術(shù),根據(jù)辭書(shū)的性質(zhì)和辭書(shū)編纂工藝的特點(diǎn),將詞目、對(duì)應(yīng)外文、注音、釋文、作者、資料來(lái)源等有關(guān)信息有組織地存入數(shù)據(jù)庫(kù)內(nèi),利用數(shù)據(jù)庫(kù)技術(shù)檢索信息快捷、數(shù)據(jù)冗余度低、可避免數(shù)據(jù)的不一致性等特點(diǎn),對(duì)諸如內(nèi)容編寫(xiě)、匯總合并、參見(jiàn)核查、交叉處理、數(shù)據(jù)檢索、瀏覽修訂、條目編排、索引制作等辭書(shū)編纂、出版中的有關(guān)信息進(jìn)行處理,目的是縮短辭書(shū)編纂周期,提高編纂效率,提升辭書(shū)質(zhì)量,減輕工作強(qiáng)度”[2]。

        經(jīng)過(guò)努力,上述設(shè)想在辭書(shū)編纂實(shí)踐中不僅均已得到體現(xiàn),并且還有進(jìn)一步的發(fā)展。例如,目前正在使用的“《辭?!肪幾胂到y(tǒng)”,除了可以實(shí)現(xiàn)上述應(yīng)用外,還在專(zhuān)項(xiàng)檢查等方面細(xì)化需求,提供了更多的功能,如“歷史紀(jì)年檢查”“參見(jiàn)落實(shí)檢查”“古今地名檢查”“成套詞檢查”“書(shū)證檢查”等。這些具體應(yīng)用或功能,不僅在目前《辭?!罚ǖ谄甙妫┮约捌渌麑?zhuān)科詞典的編纂過(guò)程中取得了很好的效果,而且在可預(yù)見(jiàn)的未來(lái),還將對(duì)辭書(shū)編纂效率的提高繼續(xù)起到積極而明顯的作用。

        二、人工智能可使計(jì)算機(jī)技術(shù)在辭書(shū)編纂中的運(yùn)用進(jìn)入更高層面

        “人工智能”也稱(chēng)“計(jì)算機(jī)智能技術(shù)”,其定義目前尚有很多種,而據(jù)《辭?!贰叭斯ぶ悄堋睏l,這是指“研究用機(jī)器(主要指計(jì)算機(jī))模擬類(lèi)似于人類(lèi)的某些智能活動(dòng)和功能的學(xué)科?!饕芯浚?jiǎn)栴}解決和演繹推理、學(xué)習(xí)和歸納過(guò)程、知識(shí)表征、語(yǔ)言處理、專(zhuān)家系統(tǒng)、智能機(jī)器人、自然程序編制等”[1]1558。通俗地說(shuō),人工智能“就是要讓機(jī)器的行為看起來(lái)就像是人所表現(xiàn)出的智能行為一樣”[3]。

        智能時(shí)代的計(jì)算機(jī)技術(shù)能給辭書(shū)編纂帶來(lái)什么樣的變化呢?從辭書(shū)編纂的角度來(lái)講,哪些智能化應(yīng)用是應(yīng)當(dāng)留意或加以實(shí)現(xiàn)的呢?關(guān)注這些問(wèn)題,對(duì)辭書(shū)編纂有十分重要的意義。

        就“智能”而言,涉及的范圍非常廣,包括思維、意識(shí)、規(guī)劃等諸多艱深的領(lǐng)域。目前,人工智能技術(shù)主要體現(xiàn)在智能模擬以及視覺(jué)識(shí)別、語(yǔ)音識(shí)別、運(yùn)動(dòng)控制等幾個(gè)方面,而與辭書(shū)編纂有比較密切關(guān)系的大致是智能模擬,包括自然語(yǔ)言處理、大數(shù)據(jù)處理、文本挖掘、知識(shí)發(fā)現(xiàn)、智能問(wèn)答、自動(dòng)推理(包括規(guī)劃和決策)以及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。

        所謂“自然語(yǔ)言處理技術(shù)”,是指通過(guò)計(jì)算機(jī)技術(shù)來(lái)實(shí)現(xiàn)自然語(yǔ)言的理解和自然語(yǔ)言生成,以及大數(shù)據(jù)處理和文本挖掘。自然語(yǔ)言的理解包括內(nèi)容提?。ê谋痉诸?lèi)和聚類(lèi))等;自然語(yǔ)言生成包括內(nèi)容概括、自動(dòng)文摘等;大數(shù)據(jù)處理和文本挖掘則指利用合適的工具,對(duì)廣泛的異構(gòu)數(shù)據(jù)源進(jìn)行抽取與集成,進(jìn)而進(jìn)行技術(shù)分析,提取、推測(cè)出有價(jià)值的信息或知識(shí)。例如,利用自然語(yǔ)言處理技術(shù),我們可以在辭書(shū)編纂中的詞目選收、機(jī)器人撰稿、機(jī)器人問(wèn)答等方面得到人工智能的幫助,取得單純依靠人力所不能獲得的信息、文本和速度等,從而在“獲得知識(shí)、使用知識(shí)、表示知識(shí)”(這也正是辭書(shū)應(yīng)該為讀者提供的功能)方面做出一番前人囿于技術(shù)而無(wú)法做到的事情。通過(guò)人工智能的運(yùn)用,我們可以使計(jì)算機(jī)技術(shù)在辭書(shū)編纂中的運(yùn)用進(jìn)入到一個(gè)更高的層面,展現(xiàn)出看似具有智能的行為。

        三、人工智能技術(shù)在辭書(shū)編纂中的具體運(yùn)用

        通過(guò)基于自然語(yǔ)言處理的文本分析技術(shù)等手段,人工智能技術(shù)可以在辭書(shū)編纂中實(shí)現(xiàn)如下應(yīng)用目標(biāo)。

        1.提高辭書(shū)的詞目選收質(zhì)量

        “詞目”是一部辭書(shū)的綱目。詞目選收是否合理,是決定辭書(shū)質(zhì)量的關(guān)鍵因素之一。從古至今,大概沒(méi)有一部辭書(shū)可以做到收詞不精而全書(shū)質(zhì)量較高的。辭書(shū)收詞是否精到,很重要的一點(diǎn)就是要把那些在特定收詞范圍之內(nèi)(如某種專(zhuān)科詞典所應(yīng)反映的某一學(xué)科范圍之內(nèi))的,并且使用頻度高(基本上也就是查閱頻度高,兩者間有著很大程度上的正相關(guān)關(guān)系)的詞語(yǔ)全部網(wǎng)羅。那么,如何做到這一點(diǎn)?傳統(tǒng)的做法是依靠人的經(jīng)驗(yàn)進(jìn)行人工判斷、選擇,但單純依靠人工難免有遺珠之憾,如一部著名的大型百科詞典就漏收了“出版社”“電視臺(tái)”“硬盤(pán)”“芯片”“論文”等重要詞目。

        自然語(yǔ)言處理所用到的分詞技術(shù),可以較好地解決這一問(wèn)題。

        所謂“分詞技術(shù)”,就是利用計(jì)算機(jī)將句子“拆分”為“詞”的技術(shù)。由于中文不像西文那樣詞與詞之間有空格,因此中文的分詞是自然語(yǔ)言處理中的難點(diǎn)之一。然而,目前各種中文分詞技術(shù)取得了長(zhǎng)足的進(jìn)步,已進(jìn)入到可以實(shí)際應(yīng)用的階段。利用日臻完善的分詞技術(shù),我們就可以進(jìn)行高頻詞語(yǔ)的統(tǒng)計(jì),從而在選取辭書(shū)詞目時(shí)做到對(duì)高頻詞語(yǔ)不遺漏。這在目前的辭書(shū)編纂中可以說(shuō)是提高收詞質(zhì)量最有效的方法之一。

        另外,通過(guò)對(duì)數(shù)據(jù)采集的范圍、時(shí)間等參數(shù)的設(shè)置,我們可對(duì)不同的情況進(jìn)行分析。如縮小采集數(shù)據(jù)的時(shí)間范圍,我們就可以收集到該段時(shí)間的“熱詞”,進(jìn)行甄別、分析后,決定是否要作為詞目收入。

        2.加快詞條的編纂速度

        在內(nèi)容快速迭代的互聯(lián)網(wǎng)時(shí)代,加快詞條編纂的速度,對(duì)辭書(shū)的競(jìng)爭(zhēng)力有著舉足輕重的作用。要加快詞條編纂的速度,利用“撰稿機(jī)器人”來(lái)編纂某些類(lèi)型的辭書(shū)條目,是一個(gè)有效的途徑。所謂“撰稿機(jī)器人”,就是根據(jù)一定的算法自動(dòng)生成稿件的計(jì)算機(jī)程序。目前,“撰稿機(jī)器人”已經(jīng)在財(cái)經(jīng)、體育方面的一些分支領(lǐng)域開(kāi)始應(yīng)用,主要是完成相關(guān)新聞稿的寫(xiě)作。如2015年9月,騰訊財(cái)經(jīng)就發(fā)布了由“新聞寫(xiě)作機(jī)器人”在一分鐘內(nèi)生成的《8月CPI同比上漲2.0% 創(chuàng)12個(gè)月新高》新聞稿。類(lèi)似的情況在國(guó)外發(fā)生得更早些,2014年就有報(bào)道宣稱(chēng)“美聯(lián)社開(kāi)始使用一種新聞書(shū)寫(xiě)軟件代替人力,自動(dòng)撰寫(xiě)有關(guān)公司財(cái)報(bào)的新聞”[4]。當(dāng)然,“撰稿機(jī)器人”目前還僅運(yùn)用于一些消息類(lèi)的新聞稿寫(xiě)作,在其他類(lèi)型的新聞稿件(如人物專(zhuān)訪(fǎng)、事件背景深度挖掘報(bào)道等)寫(xiě)作中尚不能作為主力擔(dān)綱。

        辭書(shū)條目的體裁具有“格型性”特點(diǎn),恰恰與消息類(lèi)新聞稿具有很多抽象意義上的相似性,如都具有一定的層次模式,都采用類(lèi)似“倒金字塔”的結(jié)構(gòu),都有一定的必備元素及其表述格式,都采用注重客觀(guān)描述事實(shí)、很少帶有主觀(guān)評(píng)價(jià)和個(gè)人情感色彩的“政論語(yǔ)體”等。因此,利用自然語(yǔ)言處理中的自動(dòng)文摘系統(tǒng),研制、訓(xùn)練出符合辭書(shū)編纂基本要求的“撰稿機(jī)器人”來(lái)撰寫(xiě)事實(shí)類(lèi)條目(如事件條目、人物條目、機(jī)構(gòu)條目、天文地理客體條目、物件條目等)是完全可能的。目前在高校的碩士、博士論文中,有這方面的大量研究。如有的研究課題,就是主要針對(duì)互聯(lián)網(wǎng)上的事件網(wǎng)頁(yè)信息,開(kāi)發(fā)一個(gè)完整的基于事件的多文檔自動(dòng)文摘系統(tǒng),該系統(tǒng)能夠自動(dòng)獲取事件內(nèi)容,并從互聯(lián)網(wǎng)上選取相關(guān)的事件信息,壓縮成事件的自動(dòng)文摘,提交給用戶(hù)。[5]自動(dòng)文摘通常具有的特點(diǎn)是:第一,能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來(lái)。第二,自動(dòng)提取出來(lái)的文本具有概括性、客觀(guān)性、可理解性和可讀性。第三,可適用于多個(gè)領(lǐng)域。這與我們編寫(xiě)事實(shí)類(lèi)辭書(shū)條目的做法是多么相近。因此,假以時(shí)日,專(zhuān)門(mén)用于辭書(shū)編纂的“撰稿機(jī)器人”一定會(huì)面世。

        3.提供豐富的知識(shí)服務(wù)手段

        辭書(shū)本身就是一類(lèi)專(zhuān)供查閱、釋疑解惑的工具圖書(shū),其基本特點(diǎn)之一就是提供知識(shí)服務(wù)。與傳統(tǒng)的紙質(zhì)辭書(shū)相比,數(shù)據(jù)庫(kù)時(shí)代的數(shù)字化辭書(shū)所提供的這種知識(shí)服務(wù),借助數(shù)據(jù)庫(kù)、計(jì)算機(jī)等軟硬件,在知識(shí)檢索速度上有了飛速的提高,在檢索的便利性方面也有了極大的發(fā)展,尤其是支持通配符的組合查詢(xún),使得基于結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL)的各種檢索條件幾乎都可得到滿(mǎn)足。

        到智能時(shí)代,數(shù)字化辭書(shū)的知識(shí)服務(wù)又將有本質(zhì)性的拓展,知識(shí)服務(wù)的價(jià)值鏈可以延伸,形成“知識(shí)服務(wù)系統(tǒng)”。所謂“知識(shí)服務(wù)系統(tǒng)”,是指在某一知識(shí)領(lǐng)域,圍繞某一專(zhuān)題或知識(shí)點(diǎn),聚集相關(guān)知識(shí),形成知識(shí)節(jié)點(diǎn),為用戶(hù)提供較為系統(tǒng)、全面的知識(shí)。實(shí)際上,在“提供知識(shí)”這一點(diǎn)上,“知識(shí)服務(wù)系統(tǒng)”與傳統(tǒng)的辭書(shū)有著天然的一致性,只是在提供的方式、效率、范圍、深度等方面有差別。“知識(shí)服務(wù)系統(tǒng)”能夠提供的內(nèi)容更為豐富,提供的知識(shí)更為全面、系統(tǒng),呈現(xiàn)的方式更為靈活。比如,以“知識(shí)圖譜”的呈現(xiàn)方式可以描述各種概念、知識(shí)之間的語(yǔ)義關(guān)系。又如,與“語(yǔ)音識(shí)別系統(tǒng)”結(jié)合,則可開(kāi)發(fā)出類(lèi)似IOS系統(tǒng)中Siri這樣的智能問(wèn)答機(jī)器人,能即時(shí)分析問(wèn)題,并自動(dòng)匹配到最佳答案后反饋給用戶(hù)。

        另外,結(jié)合自然語(yǔ)言處理技術(shù),開(kāi)發(fā)精準(zhǔn)的搜索引擎也是題中應(yīng)有之意。例如,當(dāng)我們搜尋作為一個(gè)作家的“魯迅”時(shí),諸如“魯迅路儲(chǔ)蓄所”之類(lèi)的弱相關(guān)信息就應(yīng)該放在搜索結(jié)果的末尾或直接屏蔽掉。采用“內(nèi)容動(dòng)態(tài)重組”技術(shù),則又可以根據(jù)用戶(hù)需要,將數(shù)據(jù)庫(kù)中的有關(guān)知識(shí)臨時(shí)組合,系統(tǒng)、全面、有層次地向用戶(hù)展示。

        4.提供智能輔助編校系統(tǒng)

        如前所述,我們?cè)凇啊掇o?!肪幾胂到y(tǒng)”中已經(jīng)能夠完成諸如“歷史紀(jì)年檢查”“參見(jiàn)落實(shí)檢查”“古今地名檢查”“成套詞檢查”“書(shū)證檢查”等編校功能。但這些功能還是基于計(jì)算機(jī)的“蠻力”做簡(jiǎn)單機(jī)械的匹配,尚未達(dá)到智能化階段。目前一些通用的校對(duì)軟件,“雖然可以通過(guò)采用大規(guī)模詞庫(kù)和重點(diǎn)詞監(jiān)控等技術(shù)對(duì)漢語(yǔ)文本中的常見(jiàn)錯(cuò)誤進(jìn)行審校,對(duì)文本審校起到較大的助益,在一定程度上降低了人工審校的工作量,但仍存在一些不足與局限性,集中表現(xiàn)在以下方面:(1)算法的局限性;(2)詞庫(kù)更新機(jī)制的局限性;(3)產(chǎn)品架構(gòu)的局限性”[6]。從人工智能的角度而言,未來(lái)的“智能輔助編校系統(tǒng)”應(yīng)該具備如下功能:在運(yùn)用大數(shù)據(jù)分析和自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)的基礎(chǔ)上,不僅通過(guò)比對(duì),也模仿人的推理邏輯,自動(dòng)發(fā)現(xiàn)文稿中字詞、語(yǔ)法、語(yǔ)義、常用數(shù)據(jù)、知識(shí)性甚至引文、格式、遵循相關(guān)技術(shù)標(biāo)準(zhǔn)方面的錯(cuò)誤,并提出修改建議。這從表現(xiàn)形式來(lái)看,與現(xiàn)在通用的校對(duì)軟件略有相似,但其背后是人工智能技術(shù)的支撐,因而功能應(yīng)當(dāng)更為強(qiáng)大、靈活(超越字詞校對(duì)的層次),效率更高,適應(yīng)性更強(qiáng)。

        以上所述,主要是著眼人工智能技術(shù)運(yùn)用于辭書(shū)編纂的外部表現(xiàn)。還有一些人工智能技術(shù)的運(yùn)用將主要與辭書(shū)編纂內(nèi)在的(即后臺(tái)的)數(shù)據(jù)處理有關(guān),如非結(jié)構(gòu)化文本的動(dòng)態(tài)標(biāo)注、圖像識(shí)別等,因其對(duì)辭書(shū)編纂的影響不是那么顯性地面向編輯或用戶(hù),此處姑且從略。

        四、結(jié)語(yǔ)

        辭書(shū)編纂需處理的信息繁復(fù),因而對(duì)以數(shù)據(jù)處理見(jiàn)長(zhǎng)的計(jì)算機(jī)技術(shù)有著天然的需求。借助自然語(yǔ)言處理、大數(shù)據(jù)處理、文本挖掘以及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù),可以使計(jì)算機(jī)技術(shù)在辭書(shū)編纂中的運(yùn)用進(jìn)入到一個(gè)更高的層面,實(shí)現(xiàn)提高辭書(shū)詞目選收質(zhì)量、加快辭書(shū)編纂速度、豐富辭書(shū)服務(wù)手段、形成更多編纂工具等應(yīng)用目標(biāo)。這對(duì)辭書(shū)編纂的實(shí)踐、理論、產(chǎn)品乃至用戶(hù)都會(huì)產(chǎn)生深遠(yuǎn)的影響。

        當(dāng)然,與數(shù)據(jù)庫(kù)技術(shù)不同,人工智能技術(shù)目前仍處于起步階段,其發(fā)展路徑、技術(shù)突破、影響的范圍及深度目前還難以預(yù)測(cè)或精確把握。因此,其對(duì)辭書(shū)編纂的影響也存在著很大的有待于進(jìn)一步探索的空間,需要有志于此的相關(guān)各方持續(xù)關(guān)注,使這一議題得到更具實(shí)效的討論,并在辭書(shū)編纂的具體應(yīng)用上開(kāi)展更為有效的工作。

        猜你喜歡
        詞目辭書(shū)自動(dòng)
        CISHU YANJIU LEXICOGRAPHICAL STUDIES
        大型辭書(shū)疑難字考釋七則
        藏語(yǔ)傳統(tǒng)辭書(shū)詞目編排法探析
        西藏研究(2021年1期)2021-06-09 08:09:52
        自動(dòng)捕盜機(jī)
        基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
        關(guān)于自動(dòng)駕駛
        日語(yǔ)中“V1+V2型復(fù)合名詞”的分類(lèi)
        ——基于《廣辭苑》從有無(wú)對(duì)應(yīng)動(dòng)詞形角度
        山西青年(2016年19期)2016-02-04 15:17:09
        Stefan Greiner:我們?yōu)槭裁葱枰詣?dòng)駕駛?
        《漢語(yǔ)大詞典》漏收宋代筆記詞目補(bǔ)釋
        《漢語(yǔ)新詞新語(yǔ)年編2003-2005》詞目年代研究——兼論《編年本〈漢語(yǔ)新詞語(yǔ)〉系列詞典部分詞目的著錄年代》
        亚洲AV无码国产永久播放蜜芽| 亚洲日韩成人无码| 亚洲国产精品无码专区| 成人国产精品免费视频| 久久精品中文字幕久久| 国产诱惑人的视频在线观看| 成人片黄网站a毛片免费| 一区二区三区国产亚洲网站| 亚洲欧洲日韩免费无码h| 青青草好吊色在线视频| 久久亚洲精品中文字幕| 最近中文字幕视频完整版在线看| 欧美在线日韩| 亚洲av男人免费久久| 一本色道久久婷婷日韩| 天天躁日日躁狠狠很躁| 亚洲国产成人无码影院| 青青草视频在线观看视频免费| 国产精品激情自拍视频| 国产精品老熟女露脸视频| 久久福利资源国产精品999| 亚洲二区精品婷婷久久精品| 绝顶高潮合集videos| 午夜成人理论无码电影在线播放 | 中文字幕精品亚洲无线码二区| 二区三区日本高清视频| 精品国产性色无码av网站| 国产呦精品系列在线播放| 日本午夜理伦三级好看| 永久免费视频网站在线| 亚洲成av人在线观看天堂无码| 亚洲黄色尤物视频| 亚洲无人区一码二码国产内射| 成人丝袜激情一区二区| 国产成人无码av在线播放dvd| 亚洲欧美v国产蜜芽tv| 男女av免费视频网站| 成人免费无码大片a毛片软件| 天天躁日日操狠狠操欧美老妇| 亚洲激情视频在线观看a五月| 成人a级视频在线播放|