林伊洋
(上海市控江中學(xué),上海 200093)
1999年,美國計算機學(xué)家Bill Manaris在《計算機進展》一書中提出了自然語言處理一詞,將其定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學(xué)科。而隨著現(xiàn)代化技術(shù)的發(fā)展,如今的自然語言處理的廣泛定義為自然語言處理研究在人機交互的過程中,如何能使人類與計算機更高效地進行通信的理論知識和科學(xué)手段,它囊括了計算機學(xué),語言學(xué)和數(shù)學(xué)。其過程主要分為四個階段:對人類面的語言進行處理,以縝密的數(shù)學(xué)形式化模型呈現(xiàn)出;將數(shù)學(xué)化模型改寫為能在計算機上輸入的算法模型;根據(jù)所定義的算法模型,編寫計算機語言程序,使自然語言處理得以應(yīng)用化實現(xiàn);對已成型的自然語言處理模型進一步優(yōu)化,應(yīng)用于更多領(lǐng)域。
20世紀40年代到20世紀50年代屬于自然語言處理技術(shù)的萌芽期。在此期間,A.M.Turing的計算機算法模型為現(xiàn)代計算機科學(xué)奠定了基礎(chǔ)。他的研究也幫助了之后Culloch—Pitts(麥克羅克-皮特)的神經(jīng)元理論和Kleene(克林)有關(guān)有限自動機和正則表達式的研究,使之后的算法計算模型得到了顯著的提升。除此之外,N.Chomsky(喬姆斯基)關(guān)于形式語言理論的研究和C.E.Shannon(香農(nóng))概率和信息論模型的研究也相繼取得成功,成為了鞏固現(xiàn)代計算機語言的各項基本技術(shù)。
20世紀60年代到20世紀80年代屬于自然語言處理技術(shù)的發(fā)展期。機器翻譯技術(shù)日趨成熟,并被應(yīng)用于實際生活。同時,統(tǒng)計算法在語音識別算法研制中也取得了成功。語音和語言處理概率模型的提出以及基于邏輯學(xué)方法在自然語言處理中的研究是這個時期主要的科研成果。
20世紀90年代后屬于自然語言處理技術(shù)的繁盛期。機器翻譯中引入了建立大規(guī)模語料庫方法,使其性能得到了飛躍般的提升。隨著計算機計算量、計算速度以及萬維網(wǎng)的爆炸式發(fā)展,數(shù)據(jù)挖掘和信息檢索的需求越來越大,自然語言處理技術(shù)也因此在更多的方面得到進一步的發(fā)展。
3.1.1 搜索引擎的現(xiàn)狀及存在問題
隨著信息化時代的到來,互聯(lián)網(wǎng)在人們的生活中起著尤為重要的作用。而互聯(lián)網(wǎng)最實用的作用之一就是信息搜索。目前的搜索引擎主要分為三大類,分別是全文搜索引擎、目錄搜索引擎和元搜索引擎,但以上三種傳統(tǒng)搜索引擎都是基于關(guān)鍵詞查找,無法理解用戶輸入的內(nèi)容,造成搜索結(jié)果的不全面、不準確。因此,提升搜索引擎對計算機自然語言的理解是解決該問題的關(guān)鍵,要進一步研究計算機自然語言處理技術(shù),使其應(yīng)用于智能化搜索引擎的開發(fā)。
3.1.2 基于自然語言處理的漢語搜索引擎發(fā)展?fàn)顩r
20世紀60年代,國外成功開發(fā)出了一項能夠通過分析詞句的語法信息來理解句子的自然語言處理系統(tǒng),在一定程度上實現(xiàn)了基于自然語言處理的智能化搜索引擎。但由于語種的差異,通過此類方法來實現(xiàn)漢語的智能化搜索難度要遠遠大于英語。但在90年代中后期,中國科學(xué)院的黃增陽教授,基于中國傳統(tǒng)語言學(xué)、物理學(xué)、信號處理、哲學(xué)等方面的功底,成功研究出了面向自然語言理解處理的概念層次網(wǎng)絡(luò)(HNC)理論。該理論通過模擬人類大腦對語言的感知過程,使計算機理解自然語言,也成功地實現(xiàn)了一部分基于信息語義的智能化搜索。
2001年1月,前Infoseek資深工程師李彥宏與加州伯克利分校博士徐勇從美國硅谷回國,在北京創(chuàng)立百度(Baidu)公司,定位于打造中國人自己的搜索引擎。據(jù)統(tǒng)計,目前百度收錄中文網(wǎng)頁已超過2億,其獨立訪問者有2.687億,是世界最大的中文數(shù)據(jù)庫。百度公司的這支隊伍掌握著世界上最為先進的搜索引擎技術(shù),使中國成為美國、俄羅斯、和韓國之外,全球僅有的4個擁有搜索引擎核心技術(shù)的國家之一。
現(xiàn)今,一部分西方發(fā)達國家非常重視自然語言處理技術(shù)在軍事領(lǐng)域的潛力,潛心研究自然語言在各個方面的技術(shù)應(yīng)用,例如語音識別,文本分類,信息挖掘,信息檢索,機器翻譯等。美、英、法等國家也相繼投入大筆資金,將計算機自然語言處理技術(shù)融入軍事行動之中,開發(fā)信息化的武器裝備,大大提高了國家的軍事實力。
3.2.1 基于語音識別功能的軍事武裝控制
現(xiàn)代化的戰(zhàn)斗機操作系統(tǒng)日趨復(fù)雜化,而飛行員不僅要在各種天候下,克服苛刻的任務(wù)要求,還要準確無誤地操作戰(zhàn)斗機的各項設(shè)備,無疑是一個很大的挑戰(zhàn)。因此,在戰(zhàn)斗機座艙中加入語音識別系統(tǒng)會對此類問題有很大的改善。在環(huán)境噪聲高達120分貝的座艙內(nèi),實現(xiàn)高度精確的語音識別較為困難。同時,飛行過程中的重力、引力、向心力也會影響飛行員的發(fā)音。英國、德國、西班牙、意大利聯(lián)合研發(fā)了搭載直接語音輸入系統(tǒng)(DVI)的新式戰(zhàn)斗機—“臺風(fēng)”,Eurofighter Typhoon。飛行員控制系統(tǒng)在有了語音控制操縱桿系統(tǒng)(VTAS)后變得更加高效,直接的聲音輸入允許飛行員使用聲音命令實現(xiàn)模態(tài)選擇和數(shù)據(jù)登錄程序,這也是世界上第一種語音操控系統(tǒng),覆蓋傳感器、武器控制、防衛(wèi)幫助管理和飛行中的操縱,夠識別大約200個單詞,反應(yīng)時間大約為200ms,正確率超過95%,提供24個原來需要指尖控制的指令。
3.2.2 基于語音識別與分析的情報搜索
人類的說話聲音能作為一種生物特征被鑒別,而語音識別與分析技術(shù)就能夠活用于此領(lǐng)域來實現(xiàn)人物身份鑒別。語音分析共分為兩種方式,一是從某段連續(xù)的語音數(shù)據(jù)中,抽取出一兩個單詞或詞組的聲音信息,與保存在計算機數(shù)據(jù)庫中的聲紋信息相比較,篩選出相似度最高的一個;另一種是對某段語音的聲帶特征進行解析,來確定被調(diào)查者的身份。據(jù)悉,美國國防部十分重視語音處理技術(shù),通過監(jiān)聽系統(tǒng)截取部分聲音內(nèi)容就可準確確定該段對話的講述者。美國911事件的主導(dǎo)者,本·拉登在逃亡期間完全避免使用移動電話或互聯(lián)網(wǎng)等電子設(shè)備為的就是不讓美國中央情報局監(jiān)測到他的位置。但美國情報局卻通過語音識別與分析的手段成功截獲并解析出他的一名信使與他人的通話,最終找到了本·拉登的藏身之處。由此可見,基于自然語言處理的計算機語音識別技術(shù)的重要性之大。
醫(yī)學(xué)影像報告—組成電子健康病例(EHR)中大量數(shù)據(jù)信息的主要部分。但大多以自由文本形式出現(xiàn)的醫(yī)學(xué)影像報告,由于其非結(jié)構(gòu)式數(shù)據(jù)的信息而不利提取,故自然語言處理(NLP)成為了使醫(yī)學(xué)影像報告信息化的重要手段。自然語言處理技術(shù)能通過計算機自動分析自有文本,提取其中的有利信息并將其加以整合。其主要過程分為三個階段:特征提取、特征加工、系統(tǒng)訓(xùn)練和驗證。
在特征提取階段中,計算機首先進行詞匯分割,判別詞根,擴寫縮略語等,識別出單個詞匯的概念;再進行每個詞匯的語義分析,定義出詞匯相聯(lián)系之后得到的醫(yī)學(xué)概念,輸出結(jié)構(gòu)式的數(shù)據(jù);然后進入到特征加工階段,計算機檢索得到的結(jié)構(gòu)式數(shù)據(jù)是否包含目標(biāo)概念,判斷出能否根據(jù)其推導(dǎo)出某種臨床結(jié)局。這一過程必須遵循一種規(guī)則,它可以由專家制定,也可以由計算機自主學(xué)習(xí)生成規(guī)則,亦或是二者相結(jié)合。完成特征加工之后的系統(tǒng),需要通過給予計算機大量的標(biāo)準數(shù)據(jù)來進行訓(xùn)練和驗證工作,也就是系統(tǒng)訓(xùn)練和驗證。通常情況下,提供的標(biāo)準數(shù)據(jù)越多,系統(tǒng)在實際運用中的穩(wěn)定性也越強。
通過使用自然語言處理技術(shù)處理醫(yī)學(xué)影像報告,能夠進一步挖掘出報告信息與臨床信息的內(nèi)在關(guān)系,并與此同時綜合分析報告的結(jié)果,給予評價,為輔助影像醫(yī)師提供更便捷的幫助。
目前,對于中文的句法分析還不夠準確,應(yīng)建立更加完整的數(shù)學(xué)形式化模型,并對一些特殊的詞句用法進行獨立的處理,面對中文的復(fù)雜性,使計算機全面準確地理解用戶的語義,做出精確更高的反饋。
自然語言處理系統(tǒng)不易被接受的很大一部分原因在于其處理信息的規(guī)則不夠明晰。若是由專家制定的規(guī)則,人們尚能接受,但倘若是由計算機自主學(xué)習(xí)并制定的規(guī)則,其背后的原理過程太過復(fù)雜,得不到人們的信任。故面對此類問題,應(yīng)進一步發(fā)展自然語言處理的自主學(xué)習(xí),提高其過程的可讀性。
隨著現(xiàn)代技術(shù)的發(fā)展,計算機自然語言處理技術(shù)日趨成熟,并在各領(lǐng)域為人們提供了許多便利,解決了許多問題。在搜索領(lǐng)域方面,自然語言處理技術(shù)讓現(xiàn)有搜索引擎的結(jié)果更加準確,更加人性化。在軍事領(lǐng)域方面,自然語言處理技術(shù)的發(fā)展大大加強了各國的軍事實力,無論是在語音控制,還是情報檢索中都發(fā)揮著必不可少的作用。而在醫(yī)學(xué)領(lǐng)域,自然語言處理技術(shù)同樣為醫(yī)學(xué)工作者們帶去便捷,自動化的臨床診斷與信息分析指日可待。自然語言處理技術(shù)在人類的生活中擔(dān)任著尤為重要的一個角色。
[1] 馮志偉.自然語言處理的學(xué)科定位[J].解放軍外國語學(xué)院學(xué)報,2005(03):1-8.
[2] 殷淑娥,田偉,于泳海.自然語言處理技術(shù)在搜索引擎中的應(yīng)用[J].電子商務(wù),2012(05):67+69.
[3] 張鳳,高航.自然語言處理技術(shù)在西方國家軍事領(lǐng)域的應(yīng)用現(xiàn)狀[J].國防科技,2014,35(06):75-82.
[4] 馬帥,王霄英.自然語言處理在醫(yī)學(xué)影像中的應(yīng)用[J].放射學(xué)實踐,2016,31(12):1120-1123.
[5] 馮志偉.自然語言處理的歷史與現(xiàn)狀[J].中國外語,2008(01):14-22.