亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文信息處理中自動(dòng)分詞技術(shù)的研究與展望

        2015-05-30 15:14:38郭淑妮
        科技創(chuàng)新與應(yīng)用 2015年25期
        關(guān)鍵詞:研究

        摘 要:當(dāng)前人們?cè)诠ぷ骱蛯W(xué)習(xí)中需使用中文信息處理技術(shù)獲取自己需要的資源,基于人們需求不斷增加,必須提升人們搜索資源的效率,提升中文信息處理相關(guān)技術(shù),讓中文信息處理與時(shí)俱進(jìn),滿足人們實(shí)際需求。中文信息處理包含多種關(guān)鍵技術(shù),為提高信息處理能力必須多種技術(shù)同時(shí)發(fā)揮作用。中文信息處理自動(dòng)分詞技術(shù)是信息處理技術(shù)瓶頸,文章就文信息處理自動(dòng)分詞技術(shù)展開研究。

        關(guān)鍵詞:中文信息處理技術(shù);自動(dòng)分詞技術(shù);研究

        21實(shí)際是電子信息時(shí)代,計(jì)算機(jī)在人們生活中占據(jù)重要地位。中文是我國(guó)第一語(yǔ)言,中文信息化處理在計(jì)算機(jī)中應(yīng)用能夠有效滿足人們對(duì)信息的需求。中文信息處理主要對(duì)中文進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工目前我國(guó)雖然在中文信息處理方面取得一定進(jìn)步,但某些關(guān)鍵技術(shù)仍舊有待完善,自動(dòng)分詞技術(shù)就是其中之一。

        1 自動(dòng)分詞技術(shù)的研究現(xiàn)狀及面臨的困難

        隨著人們對(duì)中文信息處理技術(shù)要求不斷提升,中文信息處理自動(dòng)分詞技術(shù)已經(jīng)成為影響信息處理的關(guān)鍵技術(shù)之一。因此,必須對(duì)自動(dòng)分詞技術(shù)深入研究,分析其現(xiàn)狀及存在的問題。

        自動(dòng)分詞技術(shù)研究目前已經(jīng)取得一定成效,一些比較實(shí)用的自動(dòng)分詞技術(shù)已經(jīng)被應(yīng)用,這些分詞技術(shù)在精確度以及分詞速度上已經(jīng)能夠滿足人們一些基本需求,但在一些特殊需求上仍需要進(jìn)一步提升精確度和分詞速度,當(dāng)前自動(dòng)分詞技術(shù)面臨的問題主要有以下三點(diǎn):

        (1)中文一些詞語(yǔ)概念難以界定,很多詞語(yǔ)具有多重意思;(2)未登錄詞的識(shí)別;(3)歧義切分字段的處理。

        我國(guó)上世紀(jì)90年代制定的《現(xiàn)代漢語(yǔ)分詞規(guī)范》中明確規(guī)定了一些分詞原則,與分析相關(guān)操作可根據(jù)該規(guī)范展開。進(jìn)行分詞前需制定標(biāo)準(zhǔn)化、實(shí)例化的分詞詞表,并在實(shí)踐中不斷進(jìn)行修改完善,該詞表制作存在一定難度。

        我國(guó)詞典雖然處于不斷完善過程中,但其必然存在最大容量,而中文內(nèi)涵是無(wú)限的。因此,必然有一些詞匯沒有被收錄到詞典中,尤其是一些新產(chǎn)生的詞匯在詞典更新前往往無(wú)法從詞典中搜索到。因此,必須建立標(biāo)準(zhǔn)化分詞詞表并不斷進(jìn)行完善,持續(xù)改進(jìn)。

        漢語(yǔ)難以實(shí)現(xiàn)自動(dòng)分詞功能,究其原因是漢語(yǔ)語(yǔ)義多樣性引起的,不同中文從不同角度理解便可得出不同結(jié)論,且傳統(tǒng)中文信息傳遞主要以書寫為主。因此,無(wú)論如何分詞都難以消除中文分詞歧義。中文信息處理中自動(dòng)分詞技術(shù)已經(jīng)成為自動(dòng)分詞技術(shù)實(shí)際運(yùn)用的最大障礙,相關(guān)專家學(xué)者必須針對(duì)該問題結(jié)合當(dāng)前先進(jìn)算法提升自動(dòng)分詞技術(shù),解決歧義切分字段的處理。

        2 歧義字段的定義及分類

        中文句子經(jīng)常會(huì)出現(xiàn)多種切分出現(xiàn)多種語(yǔ)義的狀況。中文處理信息技術(shù)匯總將這種狀況稱之為歧義字段,一般可將其分為交集型歧義字段、覆蓋型歧義字段、多義型或組合型。

        交集型歧義字段:舉例來(lái)說,假設(shè)A、B、C分別代表字串,該字串由一個(gè)或多個(gè)子串組成,即其中A、B、C可自由分割,此時(shí)若出現(xiàn)字段中A、B、C均為分詞表中對(duì)應(yīng)的詞,則將其稱之為交集型歧義字段。例如對(duì)于“美國(guó)會(huì)”這一交集型歧義字段,可將其且分為“美/國(guó)會(huì)”以及“美國(guó)/會(huì)”兩種結(jié)果。調(diào)查表明,中文信息處理中交集型歧義字段在歧義字段中占據(jù)比例約為85%,解決交集型歧義字段問題是中文信息處理重中之重。

        覆蓋型歧義字段:若A、B代表一個(gè)或多個(gè)子串組成的字段,將其分段為A、B、AB等均為分詞表中的詞。此時(shí)AB則被稱為覆蓋型歧義字段,例如“把手”可分為“把/手”,均可獨(dú)立作為分詞,“十/分”也是覆蓋型歧義字段。一般情況下覆蓋型歧義字段在中文信息處理中遇到幾率不高,一旦出現(xiàn)便會(huì)造成中文信息處理故障,因此需慎重對(duì)待。

        3 中文自動(dòng)分詞算法分類

        3.1 基于機(jī)械匹配的中文自動(dòng)分詞算法

        機(jī)械匹配算法基本思想是先建立詞庫(kù),將所有可能出現(xiàn)的詞納入其中,如需處理給定漢字串S,則按照某種特定分詞原則將其與詞庫(kù)中某些分詞相匹配。如果S中分割的子串本身是詞則繼續(xù)對(duì)其進(jìn)行分割,直至最后剩余部分為空;如果S中分割的子串本身不是詞則取S子串進(jìn)行匹配。機(jī)械匹配算法僅依靠分詞進(jìn)行匹配,因此在系統(tǒng)實(shí)現(xiàn)上以及操作上較為簡(jiǎn)單,針對(duì)某些基本中文信息處理有一定成效,目前已經(jīng)得到廣泛應(yīng)用。

        根據(jù)每次匹配時(shí)優(yōu)先考慮長(zhǎng)詞還是短詞可將機(jī)械匹配算法分為最大匹配法和最小瓶匹配法;根據(jù)分割匹配漢字串是是正向還是反向又可將其分為正向匹配法和反向匹配法。

        3.2 基于統(tǒng)計(jì)語(yǔ)言模型的中文自動(dòng)分詞算法

        隨著網(wǎng)絡(luò)時(shí)代到來(lái),越來(lái)越多學(xué)者都認(rèn)識(shí)到網(wǎng)絡(luò)電子文本是重要自動(dòng)分詞資源,利用相關(guān)手段在電子資源庫(kù)中直接獲取需要的知識(shí)在未來(lái)必將成為自動(dòng)分詞重要組成部分,基于統(tǒng)計(jì)語(yǔ)言模型的中文自動(dòng)算法在這樣的環(huán)境下誕生了。

        基于統(tǒng)計(jì)語(yǔ)言模型分詞算法基本思想是對(duì)分詞在中文漢字相鄰位置出現(xiàn)概率的可信度進(jìn)行統(tǒng)計(jì),將相關(guān)統(tǒng)計(jì)信息作為分析依據(jù)。

        4 自動(dòng)分詞技術(shù)展望——人工智能技術(shù)的中文自動(dòng)分詞方法

        人工智能技術(shù)就是利用智能系統(tǒng)具備的神經(jīng)網(wǎng)路以及專家系統(tǒng)進(jìn)行中文信息處理自動(dòng)分詞功能,以實(shí)現(xiàn)中文信息處理自動(dòng)化。該種算法的主要思想是利用智能系統(tǒng)模仿進(jìn)行語(yǔ)言識(shí)別。

        神經(jīng)網(wǎng)絡(luò)分詞算法是模擬人腦進(jìn)行分詞處理以及數(shù)值據(jù)算的一種智能算法,該算法主要將知識(shí)隱式方法輸入神經(jīng)網(wǎng)絡(luò)并存儲(chǔ),通過系統(tǒng)自學(xué)及訓(xùn)練修改的方式達(dá)到有效分詞效果。專家系統(tǒng)分詞算法主要指從模擬人腦出發(fā)將知識(shí)分詞看做推理過程,將漢字串按照語(yǔ)法、語(yǔ)義、句法等從結(jié)構(gòu)上分離開來(lái)。

        5 結(jié)束語(yǔ)

        中文信息處理技術(shù)在過去一段時(shí)間獲得長(zhǎng)足發(fā)展,已經(jīng)能夠滿足人們對(duì)中文信息處理基本需求,從長(zhǎng)遠(yuǎn)角度來(lái)看為更進(jìn)一步促進(jìn)中文信息發(fā)展必須度仍舊存在的問題進(jìn)行深入分析探討,中文信息處理自動(dòng)分詞技術(shù)是其中關(guān)鍵一環(huán)。因此,必須對(duì)其展開深入研究,使其適應(yīng)時(shí)代發(fā)展需求。

        參考文獻(xiàn)

        [1]賈惠波.中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J].計(jì)算機(jī)工程與應(yīng)用,2012(5):56-59.

        [2]梁南元.書面漢語(yǔ)自動(dòng)分詞系統(tǒng)[J].語(yǔ)言文字應(yīng)用.2011(3):98.

        作者簡(jiǎn)介:郭淑妮(1981,12-),女,山東威海人,碩士研究生,內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,研究方向:中文信息處理,語(yǔ)音識(shí)別。

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷會(huì)計(jì)研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        亚洲青涩在线不卡av| 国产精品久久国产三级国不卡顿| 亚洲精品无码久久久久sm| 中文字幕人成人乱码亚洲| 国产盗摄一区二区三区av| 日本xxxx色视频在线观看免费| 激情第一区仑乱| 国产精品久久无码不卡黑寡妇| 国产一区二区三区av香蕉| 19款日产奇骏车怎么样| 精品国产av色一区二区深夜久久| 88国产精品视频一区二区三区| 欧美中出在线| 久草视频在线播放免费| 日本av在线一区二区| 插b内射18免费视频| jizz国产精品免费麻豆| 无码一区二区三区在| 国产蜜桃传媒在线观看| 日本久久久久亚洲中字幕| 免费xxx在线观看| 国产在线拍偷自拍偷精品| 久久精品国产亚洲av沈先生| 麻豆国产一区二区三区四区| 亚洲av无码av男人的天堂| 久久久久中文字幕精品无码免费| 国产精东一区二区三区| 国产精品成人av大片| 久久久久亚洲av片无码| 日本大片免费观看完整视频| 免费人成视频欧美| 日本综合视频一区二区| 精品久久久久久久无码人妻热| 好大好硬好爽免费视频| 青榴社区国产精品| 亚洲中文字幕乱码一二三| 久久久久久久久毛片精品| 久久久久无码国产精品不卡| 熟女白浆精品一区二区| 华人在线视频精品在线| 午夜福利av无码一区二区|