徐博文 蘇晴
摘要:近幾年來,隨著科學(xué)技術(shù)的高速發(fā)展,人工智能這個詞語出現(xiàn)在大家視線中的頻率越來越高,其中最有代表性的技術(shù)便是深度學(xué)習(xí)。深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,其目的是通過相關(guān)算法及函數(shù),讓機器可以“理解”人類的思想及意圖,完成人類的要求,甚至具有人類的行為及思想。關(guān)于機器如何理解人類的思想,最關(guān)鍵的則是如何理解人類的語言,即如何將信息進(jìn)行處理,如何將人類的語言轉(zhuǎn)換成機器可以明白的語言。然而,中文作為聯(lián)合國中的六種工作語言之一,對其進(jìn)行處理已成為人工智能領(lǐng)域不可缺少的一部分。由于人工智能可以模擬人類智能解決問題,并可以大大減少不必要的人力,從而高效高質(zhì)量的完成大量簡單又枯燥的工作,為人們的常生活提供便利。
關(guān)鍵詞:深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);中文分詞
引言
自1950年Alan Turing提出圖靈測試,為檢測機器是否智能,就有越來越多的人進(jìn)行嘗試,隨著人工智能技術(shù)的發(fā)展,人類與機器之間的溝通已經(jīng)不再是一件困難的事情。
深度學(xué)習(xí)是指使機器能模擬人類的學(xué)習(xí)行為,自動地通過學(xué)習(xí)獲取知識和技能,不斷改善性能,實現(xiàn)自我完善。深度學(xué)習(xí)已經(jīng)在圖像識別以及語言處理方面有了非常廣泛的應(yīng)用,比傳統(tǒng)意義上的機器學(xué)習(xí)更進(jìn)一步的地方,是其可以通過建立深層神經(jīng)網(wǎng)絡(luò),模擬人類大腦對圖像及語言處理方式,將圖像或文本轉(zhuǎn)換成相應(yīng)的數(shù)據(jù),嘗試自動完成最有效數(shù)據(jù)的提取。簡而言之,是是機器具備學(xué)習(xí)的能力。
中文信息處理即是將中文文本處理成機器可以理解的數(shù)據(jù),再通過相應(yīng)模型或算法,進(jìn)而可以完成機器翻譯,自動文摘,文本分類等工作,為人類減少了一些重復(fù)性高、枯燥乏味性質(zhì)的工作。利用深度學(xué)習(xí)技術(shù),通過相應(yīng)方法將文本轉(zhuǎn)換成其建立的深層神經(jīng)網(wǎng)絡(luò)可以理解且可學(xué)習(xí)的數(shù)據(jù),可以更準(zhǔn)確高效地完成信息處理,為自然語言處理開啟了新篇章。
1 中文分詞
傳統(tǒng)意義上的中文信息處理是將中文文本分解成子文本進(jìn)行分析,即我們說的中文分詞。
首先對已知文本進(jìn)行預(yù)處理,先將輸入的文本進(jìn)行分詞處理,即將詞語與詞語之間以空格分割,繼而進(jìn)行每一個詞語的詞性標(biāo)注,并且在文本中去除對工作沒有太大意義的詞語,保證了不浪費存儲空間,提高了搜索的效率。
中文分詞是中文信息處理的必備條件,對處理的結(jié)果起著決定性的作用。中文沒有像英文一樣的空格作為分隔符,因此,常見的機械分詞方法有:正向最大匹配算法,逆向最大匹配算法,鄰近匹配算法,最短路徑匹配算法,基于統(tǒng)計的最短路徑分詞算法。前三者都是將文本簡化為一個字符串,繼而對字符串進(jìn)行搜索,找到目標(biāo)詞。最短路徑匹配算法是根據(jù)詞典構(gòu)造詞語切分有向無環(huán)圖,找出最短路徑,這條路徑上包含的詞就是切分結(jié)果?;诮y(tǒng)計的最短路徑分詞算法則是將數(shù)學(xué)的統(tǒng)計方法與有向無環(huán)圖相結(jié)合,提高了切分的精度。
詞性標(biāo)注是是標(biāo)注分好的詞語詞性的過程,此過程可以刪掉一些對文本意義不大的詞語,為接下來的過程做了充足的準(zhǔn)備。分詞系統(tǒng)通過建立語料庫,在詞性標(biāo)注集中規(guī)定好各類詞的詞性,以及通過判斷其在句子中的成分給予詞語一定的詞性。
停用詞:在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。但這種中文信息處理的方法不僅需要人力構(gòu)建完備的語料庫,而且對于大量的中文文本有一定的局限性,比如由于在不同語境中會出現(xiàn)的語義歧義;一些專有名詞無法識別;文本的情感分析等等。
2 深度學(xué)習(xí)
站在生物學(xué)的角度上看,人腦本身就是一個深層次結(jié)構(gòu)。然而這種層次結(jié)構(gòu)十分明顯地減少了感官直接帶來的數(shù)據(jù)處理量,并且提取了有效的信息。這啟發(fā)了神經(jīng)網(wǎng)絡(luò)的研究人員,只有這種層次結(jié)構(gòu)才可以長久高效地處理中文信息。神經(jīng)網(wǎng)絡(luò)是一種并行且分布式處理的技術(shù),它可以更好地效仿人類的學(xué)習(xí)過程,了解用戶的意圖,完成用戶的需求。隨著當(dāng)今社會的高速發(fā)展,只有機器自己具備學(xué)習(xí)的能力,才可以應(yīng)對日新月異的變化。
2.1 機器翻譯
利用可以自動在語料庫里學(xué)習(xí)翻譯知識的深層神經(jīng)網(wǎng)絡(luò),基于“編碼器-解碼器”框架,兩端均利用遞歸神經(jīng)網(wǎng)絡(luò),在編碼器一端將句子向量化,即自動提取出可以表征該句子的詞向量,然后在解碼器一端生成對應(yīng)語言的目標(biāo)詞。由于深層神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)特點,誤差可在梯度更新中不斷積累,進(jìn)而產(chǎn)生了梯度爆炸。同理,若網(wǎng)絡(luò)中的權(quán)重更新得越來越慢,直到不再更新,就會產(chǎn)生梯度消失。針對這兩個問題,通過使用長短期記憶單元,設(shè)置可以調(diào)節(jié)控制內(nèi)部信息流的門控開關(guān),可以有效避免長期的依賴而產(chǎn)生的梯度問題。
當(dāng)然,機器翻譯在句子長度,語境分析,情感分析等方面還有很多需要探討的地方,但目前看來,深度學(xué)習(xí)已經(jīng)使機器翻譯更加合理化,更貼近人類的語言模式。
2.2 自動文摘
在媒體發(fā)展迅速的今天,每時每刻都有大量的信息產(chǎn)生,其中文本信息占絕大多數(shù),自動文摘技術(shù)可以從中快速準(zhǔn)確提取出文章的核心內(nèi)容,提高了用戶獲取信息的效率。
目前在深度學(xué)習(xí)領(lǐng)域,最常用的中文自動文摘方法是基于卷積神經(jīng)網(wǎng)絡(luò),利用CNN模型,將自動文摘轉(zhuǎn)化為一個匹配問題,將文本及文本中的句子進(jìn)行多層次的卷積操作和最大池化后,提取并銜接二者的特征向量,以最頂層的神經(jīng)網(wǎng)絡(luò)層次輸入,通過對匹配程度的高低進(jìn)行排序,取匹配度最高的句子作為該文本的摘要。
基于深度學(xué)習(xí),可以使文摘獲取的更加高效,精準(zhǔn)度更高,方便了用戶對感興趣的信息的獲取。
2.3 文本分類
在大規(guī)模的文本中提取有價值的信息,是目前文本挖掘研究的主要意義。文本分類是依據(jù)文本的內(nèi)容,將同一類別的文本歸類的過程。
經(jīng)研究得出,對于簡單的單標(biāo)簽文本分類,利用基于詞向量表示提高文本的區(qū)分度;對于專業(yè)性強的多標(biāo)簽文本分類,先利用CNN獲取文本的局部特征,繼而補充文本的全局特征,將兩個特征結(jié)合起來,可以更好地提取高層文本;對于領(lǐng)域不明確的多標(biāo)簽文本分類,利用基于序列預(yù)測標(biāo)簽的文本分類模型,通過排序的方式來預(yù)測文本的標(biāo)簽可以更好地將文本分類。
文本分類信息檢索與挖掘的基礎(chǔ)工作,對后續(xù)的文本信息處理工作起到關(guān)鍵作用,是必不可少的步驟,可見文本分類的重要性。
3 結(jié)束語
深度學(xué)習(xí)作為當(dāng)前科技研究的熱門方向,已經(jīng)可以有效地運用到中文信息處理當(dāng)中,雖然還有很多需要改進(jìn)的地方,比如怎樣將模型結(jié)合可以達(dá)到最佳的效果,怎樣減少機器高度運算帶來的誤差等問題。通過對機器進(jìn)行訓(xùn)練學(xué)習(xí),將性能優(yōu)化,使機器更加智能化,可以更有效地完成人類給出的任務(wù)。
參考文獻(xiàn):
[1]劉遷,賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用,2006(03):175-177+182.
[2]楊南.基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的統(tǒng)計機器翻譯研究[D].中國科學(xué)技術(shù)大學(xué),2014.
[3]喻麗.基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動文摘方法[D].哈爾濱工業(yè)大學(xué),2017.
[4]周超.基于深度學(xué)習(xí)混合模型的文本分類研究[D].蘭州大學(xué),2016.
作者簡介:徐博文(1996-),男,吉林省延吉市,通信工程(中外)專業(yè)本科生;
蘇晴(1990-),通訊作者,女,吉林省延吉市人,計算機應(yīng)用技術(shù)專業(yè),工學(xué)碩士,助教;