亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的中文信息處理

2018-08-22 19:35:16徐博文蘇晴

科學(xué)與財富 2018年20期

徐博文蘇晴

摘要：近幾年來，隨著科學(xué)技術(shù)的高速發(fā)展，人工智能這個詞語出現(xiàn)在大家視線中的頻率越來越高，其中最有代表性的技術(shù)便是深度學(xué)習(xí)。深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究，其目的是通過相關(guān)算法及函數(shù)，讓機器可以“理解”人類的思想及意圖，完成人類的要求，甚至具有人類的行為及思想。關(guān)于機器如何理解人類的思想，最關(guān)鍵的則是如何理解人類的語言，即如何將信息進(jìn)行處理，如何將人類的語言轉(zhuǎn)換成機器可以明白的語言。然而，中文作為聯(lián)合國中的六種工作語言之一，對其進(jìn)行處理已成為人工智能領(lǐng)域不可缺少的一部分。由于人工智能可以模擬人類智能解決問題，并可以大大減少不必要的人力，從而高效高質(zhì)量的完成大量簡單又枯燥的工作，為人們的常生活提供便利。

關(guān)鍵詞：深度學(xué)習(xí)；神經(jīng)網(wǎng)絡(luò)；中文分詞

引言

自1950年Alan Turing提出圖靈測試，為檢測機器是否智能，就有越來越多的人進(jìn)行嘗試，隨著人工智能技術(shù)的發(fā)展，人類與機器之間的溝通已經(jīng)不再是一件困難的事情。

深度學(xué)習(xí)是指使機器能模擬人類的學(xué)習(xí)行為，自動地通過學(xué)習(xí)獲取知識和技能，不斷改善性能，實現(xiàn)自我完善。深度學(xué)習(xí)已經(jīng)在圖像識別以及語言處理方面有了非常廣泛的應(yīng)用，比傳統(tǒng)意義上的機器學(xué)習(xí)更進(jìn)一步的地方，是其可以通過建立深層神經(jīng)網(wǎng)絡(luò)，模擬人類大腦對圖像及語言處理方式，將圖像或文本轉(zhuǎn)換成相應(yīng)的數(shù)據(jù)，嘗試自動完成最有效數(shù)據(jù)的提取。簡而言之，是是機器具備學(xué)習(xí)的能力。

中文信息處理即是將中文文本處理成機器可以理解的數(shù)據(jù)，再通過相應(yīng)模型或算法，進(jìn)而可以完成機器翻譯，自動文摘，文本分類等工作，為人類減少了一些重復(fù)性高、枯燥乏味性質(zhì)的工作。利用深度學(xué)習(xí)技術(shù)，通過相應(yīng)方法將文本轉(zhuǎn)換成其建立的深層神經(jīng)網(wǎng)絡(luò)可以理解且可學(xué)習(xí)的數(shù)據(jù)，可以更準(zhǔn)確高效地完成信息處理，為自然語言處理開啟了新篇章。

1 中文分詞

傳統(tǒng)意義上的中文信息處理是將中文文本分解成子文本進(jìn)行分析，即我們說的中文分詞。

首先對已知文本進(jìn)行預(yù)處理，先將輸入的文本進(jìn)行分詞處理，即將詞語與詞語之間以空格分割，繼而進(jìn)行每一個詞語的詞性標(biāo)注，并且在文本中去除對工作沒有太大意義的詞語，保證了不浪費存儲空間，提高了搜索的效率。

中文分詞是中文信息處理的必備條件，對處理的結(jié)果起著決定性的作用。中文沒有像英文一樣的空格作為分隔符，因此，常見的機械分詞方法有：正向最大匹配算法，逆向最大匹配算法，鄰近匹配算法，最短路徑匹配算法，基于統(tǒng)計的最短路徑分詞算法。前三者都是將文本簡化為一個字符串，繼而對字符串進(jìn)行搜索，找到目標(biāo)詞。最短路徑匹配算法是根據(jù)詞典構(gòu)造詞語切分有向無環(huán)圖，找出最短路徑，這條路徑上包含的詞就是切分結(jié)果?；诮y(tǒng)計的最短路徑分詞算法則是將數(shù)學(xué)的統(tǒng)計方法與有向無環(huán)圖相結(jié)合，提高了切分的精度。

詞性標(biāo)注是是標(biāo)注分好的詞語詞性的過程，此過程可以刪掉一些對文本意義不大的詞語，為接下來的過程做了充足的準(zhǔn)備。分詞系統(tǒng)通過建立語料庫，在詞性標(biāo)注集中規(guī)定好各類詞的詞性，以及通過判斷其在句子中的成分給予詞語一定的詞性。

停用詞：在信息檢索中，為節(jié)省存儲空間和提高搜索效率，在處理自然語言數(shù)據(jù)之前或之后會自動過濾掉某些字或詞，這些字或詞即被稱為Stop Words。這些停用詞都是人工輸入、非自動化生成的，生成后的停用詞會形成一個停用詞表。但是，并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。但這種中文信息處理的方法不僅需要人力構(gòu)建完備的語料庫，而且對于大量的中文文本有一定的局限性，比如由于在不同語境中會出現(xiàn)的語義歧義；一些專有名詞無法識別；文本的情感分析等等。

2 深度學(xué)習(xí)

站在生物學(xué)的角度上看，人腦本身就是一個深層次結(jié)構(gòu)。然而這種層次結(jié)構(gòu)十分明顯地減少了感官直接帶來的數(shù)據(jù)處理量，并且提取了有效的信息。這啟發(fā)了神經(jīng)網(wǎng)絡(luò)的研究人員，只有這種層次結(jié)構(gòu)才可以長久高效地處理中文信息。神經(jīng)網(wǎng)絡(luò)是一種并行且分布式處理的技術(shù)，它可以更好地效仿人類的學(xué)習(xí)過程，了解用戶的意圖，完成用戶的需求。隨著當(dāng)今社會的高速發(fā)展，只有機器自己具備學(xué)習(xí)的能力，才可以應(yīng)對日新月異的變化。

2.1 機器翻譯

利用可以自動在語料庫里學(xué)習(xí)翻譯知識的深層神經(jīng)網(wǎng)絡(luò)，基于“編碼器-解碼器”框架，兩端均利用遞歸神經(jīng)網(wǎng)絡(luò)，在編碼器一端將句子向量化，即自動提取出可以表征該句子的詞向量，然后在解碼器一端生成對應(yīng)語言的目標(biāo)詞。由于深層神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)特點，誤差可在梯度更新中不斷積累，進(jìn)而產(chǎn)生了梯度爆炸。同理，若網(wǎng)絡(luò)中的權(quán)重更新得越來越慢，直到不再更新，就會產(chǎn)生梯度消失。針對這兩個問題，通過使用長短期記憶單元，設(shè)置可以調(diào)節(jié)控制內(nèi)部信息流的門控開關(guān)，可以有效避免長期的依賴而產(chǎn)生的梯度問題。

當(dāng)然，機器翻譯在句子長度，語境分析，情感分析等方面還有很多需要探討的地方，但目前看來，深度學(xué)習(xí)已經(jīng)使機器翻譯更加合理化，更貼近人類的語言模式。

2.2 自動文摘

在媒體發(fā)展迅速的今天，每時每刻都有大量的信息產(chǎn)生，其中文本信息占絕大多數(shù)，自動文摘技術(shù)可以從中快速準(zhǔn)確提取出文章的核心內(nèi)容，提高了用戶獲取信息的效率。

目前在深度學(xué)習(xí)領(lǐng)域，最常用的中文自動文摘方法是基于卷積神經(jīng)網(wǎng)絡(luò)，利用CNN模型，將自動文摘轉(zhuǎn)化為一個匹配問題，將文本及文本中的句子進(jìn)行多層次的卷積操作和最大池化后，提取并銜接二者的特征向量，以最頂層的神經(jīng)網(wǎng)絡(luò)層次輸入，通過對匹配程度的高低進(jìn)行排序，取匹配度最高的句子作為該文本的摘要。

基于深度學(xué)習(xí)，可以使文摘獲取的更加高效，精準(zhǔn)度更高，方便了用戶對感興趣的信息的獲取。

2.3 文本分類

在大規(guī)模的文本中提取有價值的信息，是目前文本挖掘研究的主要意義。文本分類是依據(jù)文本的內(nèi)容，將同一類別的文本歸類的過程。

經(jīng)研究得出，對于簡單的單標(biāo)簽文本分類，利用基于詞向量表示提高文本的區(qū)分度；對于專業(yè)性強的多標(biāo)簽文本分類，先利用CNN獲取文本的局部特征，繼而補充文本的全局特征，將兩個特征結(jié)合起來，可以更好地提取高層文本；對于領(lǐng)域不明確的多標(biāo)簽文本分類，利用基于序列預(yù)測標(biāo)簽的文本分類模型，通過排序的方式來預(yù)測文本的標(biāo)簽可以更好地將文本分類。

文本分類信息檢索與挖掘的基礎(chǔ)工作，對后續(xù)的文本信息處理工作起到關(guān)鍵作用，是必不可少的步驟，可見文本分類的重要性。

3 結(jié)束語

深度學(xué)習(xí)作為當(dāng)前科技研究的熱門方向，已經(jīng)可以有效地運用到中文信息處理當(dāng)中，雖然還有很多需要改進(jìn)的地方，比如怎樣將模型結(jié)合可以達(dá)到最佳的效果，怎樣減少機器高度運算帶來的誤差等問題。通過對機器進(jìn)行訓(xùn)練學(xué)習(xí)，將性能優(yōu)化，使機器更加智能化，可以更有效地完成人類給出的任務(wù)。

參考文獻(xiàn)：

[1]劉遷，賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用，2006（03）：175-177+182.

[2]楊南.基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的統(tǒng)計機器翻譯研究[D].中國科學(xué)技術(shù)大學(xué)，2014.

[3]喻麗.基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動文摘方法[D].哈爾濱工業(yè)大學(xué)，2017.

[4]周超.基于深度學(xué)習(xí)混合模型的文本分類研究[D].蘭州大學(xué)，2016.

作者簡介：徐博文（1996-），男，吉林省延吉市，通信工程（中外）專業(yè)本科生；

蘇晴（1990-），通訊作者，女，吉林省延吉市人，計算機應(yīng)用技術(shù)專業(yè)，工學(xué)碩士，助教；