彭偉
摘? ?要:本文主要以語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)分析為重點(diǎn)進(jìn)行闡述,結(jié)合當(dāng)下自然語言處理技術(shù)的發(fā)展趨勢(shì)為依據(jù),首先分析自然語言處理技術(shù)概述,其次從幾個(gè)方面深入說明并探討語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)的有效應(yīng)用,最后闡述語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)的發(fā)展展望,進(jìn)一步推動(dòng)社會(huì)的前進(jìn)與發(fā)展,旨意在為相關(guān)研究提供參考資料。
關(guān)鍵詞:語料庫? 統(tǒng)計(jì)學(xué)? 自然語言處理技術(shù)? 發(fā)展前景
中圖分類號(hào):TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2019)12(a)-0253-02
最近幾年,計(jì)算機(jī)先進(jìn)技術(shù)得到迅速發(fā)展,機(jī)器的存儲(chǔ)量逐步增加,運(yùn)算速度逐步加快,而價(jià)格呈現(xiàn)下降的趨勢(shì),促使大容量的機(jī)器可讀語料庫的建設(shè)發(fā)展為可能?,F(xiàn)在諸多地區(qū)出現(xiàn)多達(dá)幾億詞匯的文本樣例,部分新穎的,更好的統(tǒng)計(jì)語言模型隨之產(chǎn)生。要想充分發(fā)揮自然語言處理技術(shù)的存在價(jià)值,需要站在語料庫特征以及統(tǒng)計(jì)學(xué)的視角上進(jìn)行思考,以下為筆者給出的相關(guān)分析與建議。
1? 自然語言處理技術(shù)概述
所謂的自然語言,便是日常生活中使用的語言類型,包括漢語、日語和英語等,然而自然語言也就是通過計(jì)算機(jī)技術(shù)給予自然語言加以處理和運(yùn)用,歸屬于人工智能和語言領(lǐng)域的分支學(xué)科。充當(dāng)語料庫與統(tǒng)計(jì)學(xué)研究領(lǐng)域的主要方向,自然語言處理技術(shù)在于完成人類和計(jì)算機(jī)之間的交互[1]。并且語言成為社會(huì)上人類獨(dú)特的互動(dòng)與表述思維的媒介,所以以掌握計(jì)算機(jī)自然語言能力為前提,才可以進(jìn)一步掌握自然語言處理技術(shù)的內(nèi)涵,包括認(rèn)知、理解以及生成的部分,認(rèn)知與理解是將計(jì)算機(jī)輸入的語言轉(zhuǎn)換為有意義的符號(hào),之后結(jié)合目的加以處理,后者的生成主要是把計(jì)算機(jī)中信息轉(zhuǎn)成自然語言,由此計(jì)算機(jī)用戶不需要花費(fèi)過多的時(shí)間學(xué)習(xí)抽象性的計(jì)算機(jī)語言,而是在自然語言處理技術(shù)的基礎(chǔ)上完成計(jì)算機(jī)系統(tǒng)的交互,這也是自然語言處理技術(shù)的本質(zhì)原因與目標(biāo)。
2? 語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)的有效應(yīng)用
2.1 個(gè)性化智能推薦
以自然語言文本為前提的個(gè)性化職能推薦為一種過濾系統(tǒng),可以結(jié)合用戶的檔案信息以及歷史記錄,分析用戶自身的興趣,猜測(cè)用戶針對(duì)已知物品的評(píng)分與偏好。尤其是電子商務(wù),信息過載發(fā)展為人們加工信息的挑戰(zhàn)[2]。站在用戶的視角上,怎樣通過指數(shù)增長(zhǎng)的方式迅速的定位自身需求的內(nèi)容比較困難。站在商家的視角上,怎樣把合適的物品展現(xiàn)在用戶面前,加快交易活動(dòng)的進(jìn)行,存在一定難度。
面向語料庫與統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)中的推薦系統(tǒng)便可以處理這些問題。跟蹤用戶的選購(gòu)與下單信息,給予用戶提供針對(duì)性的商品推薦,加強(qiáng)商品曝光率和用戶決策的效率。針對(duì)離不開社交平臺(tái)與生活服務(wù)的網(wǎng)絡(luò)用戶,個(gè)性化推薦十分普遍,一方面完善商家以及用戶之間的互動(dòng),另一方面強(qiáng)化商家與用戶的溝通。此外,對(duì)于新聞服務(wù)的層面,通過細(xì)分化為主的信息研究模式下的個(gè)性化新聞信息推送逐步發(fā)展為客戶端的集中模式,以了解用戶自身的閱讀內(nèi)容與評(píng)論和社交網(wǎng)絡(luò)終端設(shè)備機(jī)型,綜合研究用戶注重的信息源以及信息核心詞匯,開展專業(yè)的分析活動(dòng),進(jìn)一步完成新聞?wù)砗屯扑?,本質(zhì)上達(dá)到新聞個(gè)體定制服務(wù)的目標(biāo),逐步提高用戶的體驗(yàn)感受。
需要注意的是,對(duì)于語料庫的收集,可以對(duì)“原料”進(jìn)行加工,或者替換另外類型的詞匯,也可以檢索舉例的內(nèi)容,之后保存在語料庫體系中。對(duì)于內(nèi)容的加工,需要保證語料庫內(nèi)容的實(shí)用性,體現(xiàn)新穎性;針對(duì)形式層面,可以把語法和詞匯級(jí)別進(jìn)行匹配,替換原有的超綱詞匯,改變語法實(shí)際結(jié)構(gòu)適應(yīng)人們的需求,補(bǔ)充一些信息數(shù)據(jù),發(fā)揮語料庫的實(shí)際價(jià)值。
2.2 語音識(shí)別
語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)中包括語音識(shí)別的項(xiàng)目,此項(xiàng)目可以促使機(jī)器在識(shí)別與理解的過程中轉(zhuǎn)變語言信號(hào),生成對(duì)應(yīng)的文本以及命令,換言之確保機(jī)器可以了解人類的語音,目的是把人類語音中涉及的詞匯內(nèi)容轉(zhuǎn)變?yōu)橛?jì)算機(jī)分析的信息。首先把話語進(jìn)行分解,包括詞匯與音素等,還要?jiǎng)?chuàng)設(shè)理解語義的相關(guān)規(guī)則,識(shí)別技術(shù)項(xiàng)目包括前端降噪、語音分幀、特征獲取與狀態(tài)配置等內(nèi)容,框架包括聲學(xué)模型、語言模型以及解碼模型。
針對(duì)智能化的家居層面,一般家庭會(huì)擁有紅外遙控器相關(guān)的家電,因?yàn)榧t外線的傳輸會(huì)受到空間的影響,一個(gè)紅外線可以把多個(gè)遙控設(shè)備進(jìn)行結(jié)合,同時(shí)以聲音控制為主形成集成設(shè)備,可以自動(dòng)化的切斷電源與更換頻道。若沒有空閑時(shí)間,可以在語音的模式下完成人類和職能音箱之間的交互,完成遙控、點(diǎn)歌與網(wǎng)購(gòu)等活動(dòng)。比如淋浴期間,借助語音的模式控制好水溫,或者調(diào)節(jié)室外空調(diào)的實(shí)際溫度;在開車期間以智能音箱取得電話聯(lián)系,確保手機(jī)維持在地圖顯示的狀態(tài)中,不需要切換干擾其他人員。
2.3 機(jī)器翻譯
機(jī)器翻譯技術(shù)也是自然語言處理技術(shù)的一個(gè)分支,在語料庫與統(tǒng)計(jì)學(xué)的視角上取得一定進(jìn)展。所謂的機(jī)器翻譯,也是自動(dòng)翻譯,主要是在計(jì)算機(jī)的基礎(chǔ)上把一種形式的自然語言轉(zhuǎn)變?yōu)榱硗庑问降淖匀徽Z言,將此過程視作機(jī)器翻譯的工作狀態(tài)。
對(duì)于電子商務(wù)來講,在跨境電子商務(wù)的迅速發(fā)展背景下,諸多和不同語言相連的問題相繼產(chǎn)生,跨境電商網(wǎng)絡(luò)的有效運(yùn)作,需要網(wǎng)絡(luò)和APP多語言化的強(qiáng)大支撐,用戶希望使用語言完成搜索,然而跨境電商網(wǎng)站自身來講,不會(huì)花費(fèi)高成本給予國(guó)家的用戶創(chuàng)設(shè)搜索引擎,并且用戶在網(wǎng)站的作用下尋找自身想要的項(xiàng)目,找到自己需求的商品,在用戶了解標(biāo)題之后,總會(huì)分析以下商品的詳情,或者部分用戶會(huì)關(guān)注商品的評(píng)價(jià)。若在語言因素的影響下,用戶沒有找到自己需求的信息,便會(huì)關(guān)掉頁面,由此出現(xiàn)用戶數(shù)量的流失,影響交易成效。
3? 語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)發(fā)展展望
對(duì)于語料庫的語言學(xué)習(xí),以統(tǒng)計(jì)學(xué)為基礎(chǔ)的自然語言處理技術(shù)便是在語料庫中得到多種知識(shí)的重點(diǎn)方式,其圍繞的主題包括:語料庫視作唯一信息數(shù)據(jù)的來源,一切的知識(shí)都在語料庫中獲取;借助統(tǒng)計(jì)方式獲得知識(shí),站在統(tǒng)計(jì)學(xué)的意義上解釋知識(shí)等。
針對(duì)自然語言處理技術(shù),機(jī)器翻譯技術(shù)的前進(jìn)一方面給人們的工作帶來便利,另一方面由于運(yùn)行成本低的優(yōu)勢(shì),給此項(xiàng)技術(shù)的產(chǎn)業(yè)化發(fā)展帶來諸多商機(jī)。比如把一篇文章輸入在翻譯軟件中,可以即時(shí)獲取免費(fèi)的譯文,針對(duì)要求不高的網(wǎng)頁來講,在網(wǎng)路中可以找到源文件,由此機(jī)器翻譯針對(duì)人工翻譯而言,優(yōu)勢(shì)十分凸顯。其針對(duì)大多數(shù)的公司商業(yè)信函角度的翻譯業(yè)務(wù)具備較強(qiáng)吸引力。然而依舊缺少人類語氣和語調(diào)以及肢體語言的利用元素,就像是在文學(xué)中,作者通過寫作技巧增添作品的色彩,若使用機(jī)器翻譯,便不會(huì)較好的模仿翻譯人員,因此在自然語言處理處理的發(fā)展展望中,可以朝向真實(shí)化的人類行為活動(dòng)方面轉(zhuǎn)變。
4? 結(jié)語
綜上所述,語料庫和面向統(tǒng)計(jì)學(xué)的自然語言處理技術(shù)研究課題的開展具有十分重要的意義和價(jià)值,自然語言處理技術(shù)的存在為語言的翻譯與使用提供便利條件,在很大程度上提升人們的生活中質(zhì)量,需要引起社會(huì)人士的廣泛關(guān)注。
參考文獻(xiàn)
[1] 王月麗.兼容與沖突:系統(tǒng)功能語言學(xué)與語料庫語言學(xué)的互鑒互補(bǔ)[J].成都理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2018, 26(3):101-106.
[2] 伊爾夏提·吐爾貢, 吾守爾·斯拉木,熱西旦木·吐爾洪太,等.維吾爾文情感語料庫的構(gòu)建與分析[J].計(jì)算機(jī)與現(xiàn)代化,2017(4):67-72.