亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的中文信息處理

        2018-08-22 19:35:16徐博文蘇晴
        科學(xué)與財富 2018年20期
        關(guān)鍵詞:深度學(xué)習(xí)

        徐博文 蘇晴

        摘要:近幾年來,隨著科學(xué)技術(shù)的高速發(fā)展,人工智能這個詞語出現(xiàn)在大家視線中的頻率越來越高,其中最有代表性的技術(shù)便是深度學(xué)習(xí)。深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,其目的是通過相關(guān)算法及函數(shù),讓機器可以“理解”人類的思想及意圖,完成人類的要求,甚至具有人類的行為及思想。關(guān)于機器如何理解人類的思想,最關(guān)鍵的則是如何理解人類的語言,即如何將信息進(jìn)行處理,如何將人類的語言轉(zhuǎn)換成機器可以明白的語言。然而,中文作為聯(lián)合國中的六種工作語言之一,對其進(jìn)行處理已成為人工智能領(lǐng)域不可缺少的一部分。由于人工智能可以模擬人類智能解決問題,并可以大大減少不必要的人力,從而高效高質(zhì)量的完成大量簡單又枯燥的工作,為人們的常生活提供便利。

        關(guān)鍵詞:深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);中文分詞

        引言

        自1950年Alan Turing提出圖靈測試,為檢測機器是否智能,就有越來越多的人進(jìn)行嘗試,隨著人工智能技術(shù)的發(fā)展,人類與機器之間的溝通已經(jīng)不再是一件困難的事情。

        深度學(xué)習(xí)是指使機器能模擬人類的學(xué)習(xí)行為,自動地通過學(xué)習(xí)獲取知識和技能,不斷改善性能,實現(xiàn)自我完善。深度學(xué)習(xí)已經(jīng)在圖像識別以及語言處理方面有了非常廣泛的應(yīng)用,比傳統(tǒng)意義上的機器學(xué)習(xí)更進(jìn)一步的地方,是其可以通過建立深層神經(jīng)網(wǎng)絡(luò),模擬人類大腦對圖像及語言處理方式,將圖像或文本轉(zhuǎn)換成相應(yīng)的數(shù)據(jù),嘗試自動完成最有效數(shù)據(jù)的提取。簡而言之,是是機器具備學(xué)習(xí)的能力。

        中文信息處理即是將中文文本處理成機器可以理解的數(shù)據(jù),再通過相應(yīng)模型或算法,進(jìn)而可以完成機器翻譯,自動文摘,文本分類等工作,為人類減少了一些重復(fù)性高、枯燥乏味性質(zhì)的工作。利用深度學(xué)習(xí)技術(shù),通過相應(yīng)方法將文本轉(zhuǎn)換成其建立的深層神經(jīng)網(wǎng)絡(luò)可以理解且可學(xué)習(xí)的數(shù)據(jù),可以更準(zhǔn)確高效地完成信息處理,為自然語言處理開啟了新篇章。

        1 中文分詞

        傳統(tǒng)意義上的中文信息處理是將中文文本分解成子文本進(jìn)行分析,即我們說的中文分詞。

        首先對已知文本進(jìn)行預(yù)處理,先將輸入的文本進(jìn)行分詞處理,即將詞語與詞語之間以空格分割,繼而進(jìn)行每一個詞語的詞性標(biāo)注,并且在文本中去除對工作沒有太大意義的詞語,保證了不浪費存儲空間,提高了搜索的效率。

        中文分詞是中文信息處理的必備條件,對處理的結(jié)果起著決定性的作用。中文沒有像英文一樣的空格作為分隔符,因此,常見的機械分詞方法有:正向最大匹配算法,逆向最大匹配算法,鄰近匹配算法,最短路徑匹配算法,基于統(tǒng)計的最短路徑分詞算法。前三者都是將文本簡化為一個字符串,繼而對字符串進(jìn)行搜索,找到目標(biāo)詞。最短路徑匹配算法是根據(jù)詞典構(gòu)造詞語切分有向無環(huán)圖,找出最短路徑,這條路徑上包含的詞就是切分結(jié)果?;诮y(tǒng)計的最短路徑分詞算法則是將數(shù)學(xué)的統(tǒng)計方法與有向無環(huán)圖相結(jié)合,提高了切分的精度。

        詞性標(biāo)注是是標(biāo)注分好的詞語詞性的過程,此過程可以刪掉一些對文本意義不大的詞語,為接下來的過程做了充足的準(zhǔn)備。分詞系統(tǒng)通過建立語料庫,在詞性標(biāo)注集中規(guī)定好各類詞的詞性,以及通過判斷其在句子中的成分給予詞語一定的詞性。

        停用詞:在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。但這種中文信息處理的方法不僅需要人力構(gòu)建完備的語料庫,而且對于大量的中文文本有一定的局限性,比如由于在不同語境中會出現(xiàn)的語義歧義;一些專有名詞無法識別;文本的情感分析等等。

        2 深度學(xué)習(xí)

        站在生物學(xué)的角度上看,人腦本身就是一個深層次結(jié)構(gòu)。然而這種層次結(jié)構(gòu)十分明顯地減少了感官直接帶來的數(shù)據(jù)處理量,并且提取了有效的信息。這啟發(fā)了神經(jīng)網(wǎng)絡(luò)的研究人員,只有這種層次結(jié)構(gòu)才可以長久高效地處理中文信息。神經(jīng)網(wǎng)絡(luò)是一種并行且分布式處理的技術(shù),它可以更好地效仿人類的學(xué)習(xí)過程,了解用戶的意圖,完成用戶的需求。隨著當(dāng)今社會的高速發(fā)展,只有機器自己具備學(xué)習(xí)的能力,才可以應(yīng)對日新月異的變化。

        2.1 機器翻譯

        利用可以自動在語料庫里學(xué)習(xí)翻譯知識的深層神經(jīng)網(wǎng)絡(luò),基于“編碼器-解碼器”框架,兩端均利用遞歸神經(jīng)網(wǎng)絡(luò),在編碼器一端將句子向量化,即自動提取出可以表征該句子的詞向量,然后在解碼器一端生成對應(yīng)語言的目標(biāo)詞。由于深層神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)特點,誤差可在梯度更新中不斷積累,進(jìn)而產(chǎn)生了梯度爆炸。同理,若網(wǎng)絡(luò)中的權(quán)重更新得越來越慢,直到不再更新,就會產(chǎn)生梯度消失。針對這兩個問題,通過使用長短期記憶單元,設(shè)置可以調(diào)節(jié)控制內(nèi)部信息流的門控開關(guān),可以有效避免長期的依賴而產(chǎn)生的梯度問題。

        當(dāng)然,機器翻譯在句子長度,語境分析,情感分析等方面還有很多需要探討的地方,但目前看來,深度學(xué)習(xí)已經(jīng)使機器翻譯更加合理化,更貼近人類的語言模式。

        2.2 自動文摘

        在媒體發(fā)展迅速的今天,每時每刻都有大量的信息產(chǎn)生,其中文本信息占絕大多數(shù),自動文摘技術(shù)可以從中快速準(zhǔn)確提取出文章的核心內(nèi)容,提高了用戶獲取信息的效率。

        目前在深度學(xué)習(xí)領(lǐng)域,最常用的中文自動文摘方法是基于卷積神經(jīng)網(wǎng)絡(luò),利用CNN模型,將自動文摘轉(zhuǎn)化為一個匹配問題,將文本及文本中的句子進(jìn)行多層次的卷積操作和最大池化后,提取并銜接二者的特征向量,以最頂層的神經(jīng)網(wǎng)絡(luò)層次輸入,通過對匹配程度的高低進(jìn)行排序,取匹配度最高的句子作為該文本的摘要。

        基于深度學(xué)習(xí),可以使文摘獲取的更加高效,精準(zhǔn)度更高,方便了用戶對感興趣的信息的獲取。

        2.3 文本分類

        在大規(guī)模的文本中提取有價值的信息,是目前文本挖掘研究的主要意義。文本分類是依據(jù)文本的內(nèi)容,將同一類別的文本歸類的過程。

        經(jīng)研究得出,對于簡單的單標(biāo)簽文本分類,利用基于詞向量表示提高文本的區(qū)分度;對于專業(yè)性強的多標(biāo)簽文本分類,先利用CNN獲取文本的局部特征,繼而補充文本的全局特征,將兩個特征結(jié)合起來,可以更好地提取高層文本;對于領(lǐng)域不明確的多標(biāo)簽文本分類,利用基于序列預(yù)測標(biāo)簽的文本分類模型,通過排序的方式來預(yù)測文本的標(biāo)簽可以更好地將文本分類。

        文本分類信息檢索與挖掘的基礎(chǔ)工作,對后續(xù)的文本信息處理工作起到關(guān)鍵作用,是必不可少的步驟,可見文本分類的重要性。

        3 結(jié)束語

        深度學(xué)習(xí)作為當(dāng)前科技研究的熱門方向,已經(jīng)可以有效地運用到中文信息處理當(dāng)中,雖然還有很多需要改進(jìn)的地方,比如怎樣將模型結(jié)合可以達(dá)到最佳的效果,怎樣減少機器高度運算帶來的誤差等問題。通過對機器進(jìn)行訓(xùn)練學(xué)習(xí),將性能優(yōu)化,使機器更加智能化,可以更有效地完成人類給出的任務(wù)。

        參考文獻(xiàn):

        [1]劉遷,賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用,2006(03):175-177+182.

        [2]楊南.基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的統(tǒng)計機器翻譯研究[D].中國科學(xué)技術(shù)大學(xué),2014.

        [3]喻麗.基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動文摘方法[D].哈爾濱工業(yè)大學(xué),2017.

        [4]周超.基于深度學(xué)習(xí)混合模型的文本分類研究[D].蘭州大學(xué),2016.

        作者簡介:徐博文(1996-),男,吉林省延吉市,通信工程(中外)專業(yè)本科生;

        蘇晴(1990-),通訊作者,女,吉林省延吉市人,計算機應(yīng)用技術(shù)專業(yè),工學(xué)碩士,助教;

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級階梯
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        人人爽人人爽人人爽| 亚洲男人综合久久综合天堂| 琪琪色原网站在线观看| 亚洲中文字幕无码爆乳| 欧美成人在线A免费观看| 亚州韩国日本区一区二区片| 国产色视频一区二区三区不卡| 免费无码一区二区三区蜜桃| 国产人成午夜免电影观看| 日韩人妻中文字幕一区二区| 国产精品狼人久久影院软件介绍| 任我爽精品视频在线播放| 午夜片无码区在线| 国产美女高潮流白浆免费观看| 国产精品高潮呻吟av久久黄| 日韩精品区一区二区三vr| 久久精品国产亚洲AⅤ无码| 国产精品亚洲av无人区二区| 亚洲欧洲免费无码| 亚洲精品无码乱码成人| 人妖另类综合视频网站| 国产精品髙潮呻吟久久av| 国产精品久久久久9999| 黄色成人网站免费无码av| 久久精品熟女亚洲av艳妇| av日韩高清一区二区| 99精品人妻少妇一区二区| 91久久久久无码精品露脸| 亚洲无人区一码二码国产内射| 欧美成人猛片aaaaaaa| 蜜桃精品免费久久久久影院| 国产精品亚洲婷婷99久久精品| 风韵犹存丰满熟妇大屁股啪啪| 最近中文字幕完整版免费 | 亚洲伊人一本大道中文字幕| 免费在线亚洲视频| 国产在线播放免费人成视频播放| 亚洲va久久久噜噜噜久久天堂| 久久久久久久女国产乱让韩| 无码啪啪人妻| 性av一区二区三区免费|