亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文信息處理中自動分詞技術(shù)的研究與展望

        2015-05-30 15:14:38郭淑妮
        科技創(chuàng)新與應(yīng)用 2015年25期
        關(guān)鍵詞:研究

        摘 要:當前人們在工作和學(xué)習中需使用中文信息處理技術(shù)獲取自己需要的資源,基于人們需求不斷增加,必須提升人們搜索資源的效率,提升中文信息處理相關(guān)技術(shù),讓中文信息處理與時俱進,滿足人們實際需求。中文信息處理包含多種關(guān)鍵技術(shù),為提高信息處理能力必須多種技術(shù)同時發(fā)揮作用。中文信息處理自動分詞技術(shù)是信息處理技術(shù)瓶頸,文章就文信息處理自動分詞技術(shù)展開研究。

        關(guān)鍵詞:中文信息處理技術(shù);自動分詞技術(shù);研究

        21實際是電子信息時代,計算機在人們生活中占據(jù)重要地位。中文是我國第一語言,中文信息化處理在計算機中應(yīng)用能夠有效滿足人們對信息的需求。中文信息處理主要對中文進行轉(zhuǎn)換、傳輸、存貯、分析等加工目前我國雖然在中文信息處理方面取得一定進步,但某些關(guān)鍵技術(shù)仍舊有待完善,自動分詞技術(shù)就是其中之一。

        1 自動分詞技術(shù)的研究現(xiàn)狀及面臨的困難

        隨著人們對中文信息處理技術(shù)要求不斷提升,中文信息處理自動分詞技術(shù)已經(jīng)成為影響信息處理的關(guān)鍵技術(shù)之一。因此,必須對自動分詞技術(shù)深入研究,分析其現(xiàn)狀及存在的問題。

        自動分詞技術(shù)研究目前已經(jīng)取得一定成效,一些比較實用的自動分詞技術(shù)已經(jīng)被應(yīng)用,這些分詞技術(shù)在精確度以及分詞速度上已經(jīng)能夠滿足人們一些基本需求,但在一些特殊需求上仍需要進一步提升精確度和分詞速度,當前自動分詞技術(shù)面臨的問題主要有以下三點:

        (1)中文一些詞語概念難以界定,很多詞語具有多重意思;(2)未登錄詞的識別;(3)歧義切分字段的處理。

        我國上世紀90年代制定的《現(xiàn)代漢語分詞規(guī)范》中明確規(guī)定了一些分詞原則,與分析相關(guān)操作可根據(jù)該規(guī)范展開。進行分詞前需制定標準化、實例化的分詞詞表,并在實踐中不斷進行修改完善,該詞表制作存在一定難度。

        我國詞典雖然處于不斷完善過程中,但其必然存在最大容量,而中文內(nèi)涵是無限的。因此,必然有一些詞匯沒有被收錄到詞典中,尤其是一些新產(chǎn)生的詞匯在詞典更新前往往無法從詞典中搜索到。因此,必須建立標準化分詞詞表并不斷進行完善,持續(xù)改進。

        漢語難以實現(xiàn)自動分詞功能,究其原因是漢語語義多樣性引起的,不同中文從不同角度理解便可得出不同結(jié)論,且傳統(tǒng)中文信息傳遞主要以書寫為主。因此,無論如何分詞都難以消除中文分詞歧義。中文信息處理中自動分詞技術(shù)已經(jīng)成為自動分詞技術(shù)實際運用的最大障礙,相關(guān)專家學(xué)者必須針對該問題結(jié)合當前先進算法提升自動分詞技術(shù),解決歧義切分字段的處理。

        2 歧義字段的定義及分類

        中文句子經(jīng)常會出現(xiàn)多種切分出現(xiàn)多種語義的狀況。中文處理信息技術(shù)匯總將這種狀況稱之為歧義字段,一般可將其分為交集型歧義字段、覆蓋型歧義字段、多義型或組合型。

        交集型歧義字段:舉例來說,假設(shè)A、B、C分別代表字串,該字串由一個或多個子串組成,即其中A、B、C可自由分割,此時若出現(xiàn)字段中A、B、C均為分詞表中對應(yīng)的詞,則將其稱之為交集型歧義字段。例如對于“美國會”這一交集型歧義字段,可將其且分為“美/國會”以及“美國/會”兩種結(jié)果。調(diào)查表明,中文信息處理中交集型歧義字段在歧義字段中占據(jù)比例約為85%,解決交集型歧義字段問題是中文信息處理重中之重。

        覆蓋型歧義字段:若A、B代表一個或多個子串組成的字段,將其分段為A、B、AB等均為分詞表中的詞。此時AB則被稱為覆蓋型歧義字段,例如“把手”可分為“把/手”,均可獨立作為分詞,“十/分”也是覆蓋型歧義字段。一般情況下覆蓋型歧義字段在中文信息處理中遇到幾率不高,一旦出現(xiàn)便會造成中文信息處理故障,因此需慎重對待。

        3 中文自動分詞算法分類

        3.1 基于機械匹配的中文自動分詞算法

        機械匹配算法基本思想是先建立詞庫,將所有可能出現(xiàn)的詞納入其中,如需處理給定漢字串S,則按照某種特定分詞原則將其與詞庫中某些分詞相匹配。如果S中分割的子串本身是詞則繼續(xù)對其進行分割,直至最后剩余部分為空;如果S中分割的子串本身不是詞則取S子串進行匹配。機械匹配算法僅依靠分詞進行匹配,因此在系統(tǒng)實現(xiàn)上以及操作上較為簡單,針對某些基本中文信息處理有一定成效,目前已經(jīng)得到廣泛應(yīng)用。

        根據(jù)每次匹配時優(yōu)先考慮長詞還是短詞可將機械匹配算法分為最大匹配法和最小瓶匹配法;根據(jù)分割匹配漢字串是是正向還是反向又可將其分為正向匹配法和反向匹配法。

        3.2 基于統(tǒng)計語言模型的中文自動分詞算法

        隨著網(wǎng)絡(luò)時代到來,越來越多學(xué)者都認識到網(wǎng)絡(luò)電子文本是重要自動分詞資源,利用相關(guān)手段在電子資源庫中直接獲取需要的知識在未來必將成為自動分詞重要組成部分,基于統(tǒng)計語言模型的中文自動算法在這樣的環(huán)境下誕生了。

        基于統(tǒng)計語言模型分詞算法基本思想是對分詞在中文漢字相鄰位置出現(xiàn)概率的可信度進行統(tǒng)計,將相關(guān)統(tǒng)計信息作為分析依據(jù)。

        4 自動分詞技術(shù)展望——人工智能技術(shù)的中文自動分詞方法

        人工智能技術(shù)就是利用智能系統(tǒng)具備的神經(jīng)網(wǎng)路以及專家系統(tǒng)進行中文信息處理自動分詞功能,以實現(xiàn)中文信息處理自動化。該種算法的主要思想是利用智能系統(tǒng)模仿進行語言識別。

        神經(jīng)網(wǎng)絡(luò)分詞算法是模擬人腦進行分詞處理以及數(shù)值據(jù)算的一種智能算法,該算法主要將知識隱式方法輸入神經(jīng)網(wǎng)絡(luò)并存儲,通過系統(tǒng)自學(xué)及訓(xùn)練修改的方式達到有效分詞效果。專家系統(tǒng)分詞算法主要指從模擬人腦出發(fā)將知識分詞看做推理過程,將漢字串按照語法、語義、句法等從結(jié)構(gòu)上分離開來。

        5 結(jié)束語

        中文信息處理技術(shù)在過去一段時間獲得長足發(fā)展,已經(jīng)能夠滿足人們對中文信息處理基本需求,從長遠角度來看為更進一步促進中文信息發(fā)展必須度仍舊存在的問題進行深入分析探討,中文信息處理自動分詞技術(shù)是其中關(guān)鍵一環(huán)。因此,必須對其展開深入研究,使其適應(yīng)時代發(fā)展需求。

        參考文獻

        [1]賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用,2012(5):56-59.

        [2]梁南元.書面漢語自動分詞系統(tǒng)[J].語言文字應(yīng)用.2011(3):98.

        作者簡介:郭淑妮(1981,12-),女,山東威海人,碩士研究生,內(nèi)蒙古民族大學(xué)計算機科學(xué)與技術(shù)學(xué)院,研究方向:中文信息處理,語音識別。

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷會計研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        丝袜美腿在线播放一区二区| 精品蜜臀国产av一区二区| 中文字幕色婷婷在线视频| 亚洲av少妇一区二区在线观看 | 久久精品无码一区二区三区免费| 亚洲精品无码久久久久久| 国产精品亚洲一区二区在线观看| 亚洲av无码第一区二区三区| 国产2021精品视频免费播放| 精品国产高清a毛片| 亚洲九九夜夜| 白色月光免费观看完整版| av在线观看免费天堂| 国产国产裸模裸模私拍视频| 狠狠色噜噜狠狠狠777米奇小说| 亚洲av美国av产亚洲av图片| 性一交一乱一透一a级| 国产精品成人一区二区三区| 国产免费一级高清淫日本片| 久久国产亚洲中文字幕| 亚洲av天堂在线免费观看| 伊人久久精品亚洲午夜| 日本三级香港三级人妇99| 国产一区内射最近更新| 国内精品无码一区二区三区| 国产哟交泬泬视频在线播放| 国产成人精品三上悠亚久久 | 又粗又大又黄又爽的免费视频| 免费人成视频在线观看视频| 国产精品-区区久久久狼| 国产自产c区| 国产一区二区三区免费在线播放| 日本av一级片免费看| 99精品国产丝袜在线拍国语| 国产chinese男男gay视频网| 中字无码av电影在线观看网站| 中文字幕乱码av在线| 久久夜色精品国产噜噜噜亚洲av| 老妇高潮潮喷到猛进猛出| 丰满熟女高潮毛茸茸欧洲视频| 白丝兔女郎m开腿sm调教室|