亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于統(tǒng)計(jì)的中文分詞算法研究

2019-05-24 14:11:40鄒佳倫文漢云王同喜

電腦知識(shí)與技術(shù) 2019年4期

鄒佳倫文漢云王同喜

摘要：最近幾年大數(shù)據(jù)、人工智能的迅猛發(fā)展，對(duì)數(shù)據(jù)的采集、加工、挖掘也得到了長(zhǎng)足的發(fā)展，信息的價(jià)值逐漸凸顯，智能推薦、語(yǔ)音識(shí)別等高價(jià)值的信息處理越來(lái)越多的改變生活。如何從互聯(lián)網(wǎng)上中文網(wǎng)頁(yè)內(nèi)容提取出有效的識(shí)別、提取出有價(jià)值的信息是當(dāng)今信息研究的重要課程。中文分詞作為中文文本處理的重要組成部分，本文作者在對(duì)當(dāng)前分詞的基本問(wèn)題，以及主要分詞方法的優(yōu)缺點(diǎn)進(jìn)行思考和分析的基礎(chǔ)上，重點(diǎn)分析了基于統(tǒng)計(jì)的分詞方法，分析了基于統(tǒng)計(jì)的分詞器的設(shè)計(jì)理念與算法思想。文中涉及中文分詞的難點(diǎn)分析，隱含馬爾科夫模型的處理，維特比路徑優(yōu)化算法。

關(guān)鍵詞：中文分詞；隱馬爾科夫模型；路徑優(yōu)化問(wèn)題；維特比算法

中圖分類(lèi)號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2019）04-0149-02

對(duì)于自然語(yǔ)言處理，詞是最小的有意義的組成部分。中文相對(duì)于英文在“詞”上有明顯的難度。拉丁文語(yǔ)系，詞與詞之間是有明顯的分隔符的存在，而這一點(diǎn)在中文是不存在的，中文詞之間沒(méi)有空格符，只能通過(guò)對(duì)于單個(gè)字符、句子、或語(yǔ)句段來(lái)劃分。但是中文文本的分析，必須轉(zhuǎn)換為一個(gè)個(gè)的最小語(yǔ)義單位“詞”才能進(jìn)行。因此中文的分詞，不僅是中文自然語(yǔ)言處理中的重要環(huán)節(jié)，也是中文進(jìn)行更高層次信息處理，如：語(yǔ)義，語(yǔ)句順序等的基礎(chǔ)。

1 中文分詞發(fā)展歷史和現(xiàn)狀

中文分詞早期方法，也是最簡(jiǎn)單的方法就是查字典。這種方法最先由北京航空航天大學(xué)的梁南元教授提出。查字典的方法，就是建立一個(gè)字典，將句子從左向右掃描一次，將句子與詞典進(jìn)行匹配，遇到字典里面包含的詞語(yǔ)就標(biāo)識(shí)出來(lái)。遇到復(fù)合詞，找最長(zhǎng)的匹配詞切割。這個(gè)方法簡(jiǎn)單，可以在復(fù)雜度不高的前提下處理70%～80%的分詞問(wèn)題。20世紀(jì)80年代，哈爾濱工業(yè)大學(xué)的王曉龍博士進(jìn)一步將查字典的方法理論化，發(fā)展成為最少詞數(shù)的分詞理論。就是將一句話分成數(shù)量最少的詞串。基于查字典的方法過(guò)于簡(jiǎn)單，不適用于稍稍復(fù)雜的問(wèn)題，有一個(gè)無(wú)法避免的問(wèn)題，即切分遇到二義性詞就無(wú)能為力。

二十世紀(jì)九十年代之前，許多海內(nèi)外學(xué)者試圖用一些文法規(guī)則，來(lái)解決二義性問(wèn)題，但最后都不是很成功。直到1990年前后，清華大學(xué)的郭靜博士用統(tǒng)計(jì)語(yǔ)言模型，成功地解決了分詞的二義性問(wèn)題，成功將中文分詞的錯(cuò)誤率降低了一個(gè)數(shù)量級(jí)。

基于詞典的中文分詞方法是該領(lǐng)域的主要研究方向，主要包括基于規(guī)則、統(tǒng)計(jì)、字標(biāo)注三大類(lèi)方法。早期主要使用基于規(guī)則的方法，即根據(jù)中文的特點(diǎn)建立一些處理規(guī)則，計(jì)算機(jī)按照這些處理規(guī)則處理文本使之歧義消除。二十一世紀(jì)以前，由于這種方法類(lèi)似于語(yǔ)言學(xué)思維，基于規(guī)則的分詞方法非常流行，占據(jù)了中文分詞研究絕大部分。但后來(lái)發(fā)現(xiàn)基于規(guī)則的分詞方法效率低下，規(guī)則越來(lái)越龐大復(fù)雜，而且語(yǔ)言學(xué)家對(duì)詞語(yǔ)的定義并不完全相同，這種方法并不能如人所愿。于是基于統(tǒng)計(jì)的方法慢慢成為主流，其主要思想是使用某個(gè)數(shù)學(xué)模型作為工具，最常見(jiàn)的且比較成熟的有隱馬爾科夫模型、最大熵模型、條件隨機(jī)場(chǎng)模型等。自從基于統(tǒng)計(jì)的分詞方法提出來(lái)之后，切分速度和準(zhǔn)確度都有了明顯提高，明顯優(yōu)于基于規(guī)則的分詞方法。2002年，第一屆SIGHAN研討會(huì)上，第一篇基于字標(biāo)注分詞的文章發(fā)布，基于字標(biāo)注分詞的模型的產(chǎn)品接二連三的出現(xiàn)，技術(shù)也越來(lái)越成熟，其中比較出名的有Low開(kāi)發(fā)的系統(tǒng)，以及Nianwcn Xuc的系統(tǒng)，它們都有不錯(cuò)的成果。

2 基于統(tǒng)計(jì)的中文分詞的基本原理

由于分詞滿(mǎn)足隱馬爾科夫數(shù)學(xué)模型，利用隱馬爾科夫模型計(jì)算出各種分詞后，句子出現(xiàn)的概率，再利用維特比算法求出最大值，最終找到最好的分詞方法。

3 基于統(tǒng)計(jì)的中文分詞的核心算法

3.1 基于隱含馬爾科夫模型的數(shù)學(xué)模型

隱含馬爾科夫模型是馬爾科夫鏈的一個(gè)擴(kuò)展，任何時(shí)刻t的狀態(tài)St是不可見(jiàn)的，所以觀察者沒(méi)分通過(guò)觀察一個(gè)序列s1，s2…st來(lái)推測(cè)轉(zhuǎn)移概率等參數(shù)。但是隱含馬爾科夫模型每個(gè)時(shí)刻t都會(huì)輸出一個(gè)符號(hào)ot，ot是和st相關(guān)且只和st相關(guān)的獨(dú)立輸出假設(shè)。

第二步：針對(duì)每一步Ti，計(jì)算這一步中的每一個(gè)可能分詞的最佳路徑

Best（wi，Tn）=max（Best（wj，Tn-1）P（wi|wj））

其中Best（wi|Tn）表示分詞wi在Tn時(shí)與之前所得到得分詞組成的聯(lián)合概率中最佳概，即當(dāng)前階段所對(duì)應(yīng)字串最可能的分詞，對(duì)應(yīng)圖就是當(dāng)前階段最可能的分詞所組成的最佳路徑。wj表示wi在最佳路徑上的前向詞，p（wi|wj）是轉(zhuǎn)移概率，到最后時(shí)刻Tm時(shí)我們得到最后結(jié)果，即完整最佳分詞的路徑，結(jié)合圖1，從T1進(jìn)行到T6最后一步，就得到最后結(jié)果，最佳分詞路徑。

4 總結(jié)與展望

基于統(tǒng)計(jì)方法的中文分詞方法，經(jīng)過(guò)不斷的改進(jìn)中文分詞的精度已經(jīng)達(dá)到95%以上，已大體解決了中文分詞的問(wèn)題。但并不是說(shuō)中文分詞已經(jīng)非常完美了。對(duì)于未登錄詞語(yǔ)的處理一直一個(gè)大問(wèn)題，未登錄詞大致分為兩類(lèi)：（1）新出現(xiàn)的通用名詞或?qū)I(yè)術(shù)語(yǔ)（2）專(zhuān)有名詞，如：人名、外國(guó)譯名、地名、機(jī)構(gòu)名等。第一種情況的未登錄詞理論上雖然可以預(yù)期，可通過(guò)人工添加詞表中，但是實(shí)際操作中并不容易做到。后一種情況難度更大，完全不能預(yù)測(cè)，無(wú)論詞庫(kù)字典如何龐大，都不能概括。松茂松等指出，未登錄詞對(duì)分詞精度的影響超過(guò)了歧義切分，可見(jiàn)未登錄詞在分詞系統(tǒng)中占有舉足輕重的地位。雖然孫茂松、吳立德、劉挺、鄒嘉彥等做了大量的工作，在一定程度上提高了未登錄詞的分詞效果，但效果仍然不很好。后期仍可以做大量的研究。

參考文獻(xiàn)：

[1] 孫茂松，鄒嘉彥.漢語(yǔ)自動(dòng)化分詞研究評(píng)述[J].當(dāng)代語(yǔ)言學(xué)，2001（1）：22-32.

[2] 魏曉宇.基于隱馬爾科夫模型的中文分詞研究[J].計(jì)算機(jī)教育，2007（1）：885-886.

[3] 董振東.漢語(yǔ)分詞研究漫談[J].語(yǔ)言文字應(yīng)用，1997（1）：107-112.

[4] 黃祥喜，書(shū)面漢語(yǔ)自動(dòng)分詞的“生成一測(cè)試”方法[J].中文信息學(xué)報(bào)，1989（4）：42-49.

[5] 梁南元.書(shū)面漢語(yǔ)自動(dòng)分詞系統(tǒng)—CDWS[J].中文信息學(xué)報(bào)，1987（2）：44-52.

[6] 劉開(kāi)瑛.現(xiàn)代漢語(yǔ)自動(dòng)分詞評(píng)測(cè)技術(shù)研究[J].語(yǔ)言文字應(yīng)用，1997（1）：101-106.

[7] 劉源，梁南元.漢語(yǔ)處理的基礎(chǔ)工程—現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)[J].中文信息學(xué)報(bào)，1986（1）：17-25.

[8] 于江生.隱Markov 模型及其在自然語(yǔ)言處理中的應(yīng)用[M].北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所，1999.

[9] 陳桂林，王永成，等.一種改進(jìn)的快速分詞算法[M].計(jì)算機(jī)研究與發(fā)展，2000 .

[10] 苗奪謙，衛(wèi)志華中文文本信息處理的原理與應(yīng)用[M].清華大學(xué)出版社，2000.

【通聯(lián)編輯：梁書(shū)】

電腦知識(shí)與技術(shù)2019年4期

電腦知識(shí)與技術(shù)的其它文章: 基于C語(yǔ)言的計(jì)算機(jī)編程技術(shù)分析; 《計(jì)算機(jī)導(dǎo)論》課程教學(xué)中的思政教育; 使用kali進(jìn)行WIFI安全測(cè)試; 基于云計(jì)算的旅游個(gè)性化定制服務(wù)研究; 互聯(lián)網(wǎng)環(huán)境下城市商圈O2O轉(zhuǎn)型研究; 安徽省政務(wù)信息資源共享研究