檀亞寧 陳輝 邱毅斌
摘 要 語言能力(包括口語能力和書面語言能力)是人的首要能力,是其綜合能力的重要組成部分。而計算機科學領域也有語言處理,即計算機理解和運用人類語言的能力,也就是自然語言處理技術。自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。本文簡要分析了自然語言處理學習中的重點,并對其處理過程和技術方面進行了主要探究,旨在從更多更深入的自然語言處理的方法和技術層面推動人工智能及計算機的發(fā)展。
關鍵詞 自然語言處理;人工智能計算機
1引言
機器翻譯是最早的自然語言理解方面的研究,但人們當時低估了自然語言的復雜性,而且語言處理的理論和技術均不成熱,所以相關方面的研究進展不大[1]。隨著計算機與互聯(lián)網的迅速發(fā)展,現(xiàn)在的自然語言處理技術可以做到信息提取,語音輸入,輿論分析,情感分析,智能問答甚至語言生成等一系列較為先進的功能。隨著深度學習在圖像識別、語音識別領域的大放異彩,人們對深度學習在NLP的價值也寄予厚望。自然語言處理作為人工智能領域的認知智能,成為目前大家關注的焦點。自然語言處理這一研究方向主要解決的是使得計算機能夠理解人類的自然語言的問題。自然語言理解完成了人類與機器的交互,并且做出人類要求的相應的命令控制處理工作。
2自然語言處理研究要點
2.1自然語言處理的基本問題
(1)語音學問題:研究詞語及其語音之間的關聯(lián)。這是語音識別方面研究的主要問題,機器通過對語音信號進行處理、分析并識別從而判斷語音的意思。此方面的應用主要有:輸入法的語音識別、同聲傳譯等等[2]。
(2)語法學問題:研究其句子結構成分之間的相互關系和組成句子的序列的規(guī)則。如英語中的語法眾多,漢語中也有很多的語法,這些語法也同樣是自然語言處理中的難題。
(3)語義學問題:研究如何從一個語句中得到一個詞的本質意思,以及這些詞在該句子中的句法結構的作用來推導語句的意義。這其中的主要問題是語言文字的歧義現(xiàn)象。歧義現(xiàn)象包括結構歧義和語義歧義。如何正確理解歧義也是一個重點。
(4)語用學問題:研究在不同語境中語句的應用,以及上下文對句子理解所產生的影響。自然語言的處理大部分情況下離不開語境,在不同的語境下不同的句子會有不同的含義。因此語境的學習同樣為語言識別的要點。
3自然語言處理過程
自然語言理解的研究分為兩個方面,一方面是書面理解,另一方面是口語理解,其中計算機處理更容易處理書面理解。計算機對于語言的分析與理解通常是一個層次化過程,語言學家將這一過程分為語用分析、語音分析、語義分析四種。
自然語言處理主要步驟包括:
(1)分詞處理:將一篇文章按詞組依次分開。
(2)詞法分析:將分詞處理后的詞匯類型進行分詞,標明詞匯的詞性也就是確定詞的類
型,包括名詞、動詞、形容詞、副詞、介詞等。
(3)語法分析:分析出句子的語法成分。
(4)語義分析:指的是讓計算機能夠理解自然語言。
4自然語言處理技術
4.1語料庫
語料庫是為一個或者多個應用目標而專門收集的,有一定結構的、有代表的、可被計算機程序檢索的、具有一定規(guī)模的語料集合。語料是翻譯和做語言研究的基礎,同樣是我們自然語言處理的一個重要的數據庫。21世紀是大數據的時代,語料庫中豐富的語言數據,對于自然語言處理這一工作是重中之重。
4.2 word2vec
該技術通過一個句子中的周邊詞語預測中心詞語或通過中心詞語預測周邊詞語來構建模型,并將句子中所有的詞都轉換為詞向量的形式。中心詞距離周邊詞較其他詞語更近。該方法借助于神經網絡進行自然語言的處理。
4.3 長短期記憶LSTM
普通的循環(huán)神經網絡(RNN)在進行語言處理時候,對距離近的詞記憶較好,而對于距離較遠的詞記憶較差,所以在實際中通常使用LSTM即長短期記憶的方法,其優(yōu)勢在于可以避免長距離的失憶問題。
5總結與展望
當前人工智能正從感知智能向認知智能升級,自然語言處理的重要性日益凸顯。一方面,自然語言處理受到大數據和深度學習的雙輪驅動,在各項關鍵技術方面都有不同程度的進步;另一方面,自然語言處理滲透到各個領域,與教育、醫(yī)療、法律等知識服務型行業(yè)深度整合,同時虛擬/實體機器人等新型應用模式與線下服務對接。人類對智能的需要隨著社會科技的進步已經越來越必須,要求也越來越高。目前計算機還遠遠沒有的達到人一樣的理解水平,相信將來也不會達到這樣的水平,所以應該從實用的角度去判斷計算機對自然語言的理解,只要計算機能夠實現(xiàn)人機會話,或者能夠自動摘錄一些語言信息,那么我們就可以說計算機已經具有了自然語言的能力。
參考文獻:
[1]張靜. 基于自然語言處理的智能識別和智能控制應用[D].南京郵電大學,2017.
[2]孫茂松,周建設.從機器翻譯歷程看自然語言處理研究的發(fā)展策略[J].語言戰(zhàn)略研究,2016,1(06):12-18.