亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語N-gram語言模型中的平滑技術(shù)研究

        2019-12-11 02:14:52仁青吉
        關(guān)鍵詞:文本語言實(shí)驗(yàn)

        仁青吉

        (甘肅民族師范學(xué)院 藏區(qū)非遺重點(diǎn)實(shí)驗(yàn)室,甘肅 合作 747000)

        0 引言

        語言模型在一個(gè)識(shí)別系統(tǒng)中占據(jù)著非常重要的地位,比如說在一個(gè)識(shí)別系統(tǒng)中,當(dāng)出現(xiàn)一個(gè)同音字時(shí),單憑聲學(xué)模型已經(jīng)不能正確的確定文本的內(nèi)容,因?yàn)閷?duì)于兩個(gè)同音的字來說機(jī)器光憑聲音是不能確定當(dāng)前讀的這個(gè)字是同音字當(dāng)中的哪一個(gè),所以聲學(xué)模型描述和處理語音信號(hào)的能力有限,因此,光靠聲學(xué)模型還不能達(dá)到理想的效果.我們還有許多非聲學(xué)的模型,如句法、語義、語境等沒有善加利用,這時(shí)語言模型就起到了關(guān)鍵性和決定性的作用,一個(gè)可靠的語言模型對(duì)識(shí)別系統(tǒng)的識(shí)別率及效率起著至關(guān)重要的作用.

        1 建模平臺(tái)的搭建和語言模型的生成

        SRILM的主要目標(biāo)是支持語言模型的估計(jì)和評(píng)測.估計(jì)是從訓(xùn)練數(shù)據(jù)中得到一個(gè)模型,包括最大似然估計(jì)及相應(yīng)的平滑算法,而評(píng)測是從測試集中技術(shù)其困惑度.最基礎(chǔ)和最核心的模塊是n-gram模塊,這也是最早實(shí)現(xiàn)的模塊,包括兩個(gè)工具:ngram-count和ngram.在訓(xùn)練語言模型的時(shí)候主要是用ngram-count來生成訓(xùn)練文本的技術(shù)文件count,然后再利用命令ngram生成訓(xùn)練文本的語言模型,在這個(gè)過程中可以添加不同的參數(shù)來測試不同的平滑算法,ngram-count被用來估計(jì)語言模型,ngram生成訓(xùn)練文本的語言模型.本次實(shí)驗(yàn)所用到的語言建模工具為SRILM,其運(yùn)行于Linux操作系統(tǒng)環(huán)境下.

        圖1 語言模型生成過程

        訓(xùn)練和評(píng)測語言模型的的流程,分為三個(gè)步驟:

        1)由語料生成計(jì)數(shù)文件;

        2)由計(jì)數(shù)文件訓(xùn)練語言模型;

        3)利用已經(jīng)訓(xùn)練好的語言模型來計(jì)算測試數(shù)據(jù)的困惑度.

        基于統(tǒng)計(jì)的語言模型是從統(tǒng)計(jì)學(xué)的角度來統(tǒng)計(jì)某種語言單位(如詞、字、音素等)的分布概率,在具體的實(shí)驗(yàn)中,是生產(chǎn)某種語言文本的統(tǒng)計(jì)模型,給定句子集合:

        其中要統(tǒng)計(jì)每個(gè)單詞在該句子集合中出現(xiàn)的概率時(shí),我們應(yīng)該用如下公式:

        p(wi|wi-1) = count(wi-1,wi) / count(wi-1)

        其中部分bigram的語言模型如下所示:

        由于基于統(tǒng)計(jì)的語言模型的生成首先是通過統(tǒng)計(jì)語料文本當(dāng)中的每一個(gè)已經(jīng)分好的語言單位比如詞、字等,所以我們開始要通過n-gram count來統(tǒng)計(jì)該文本當(dāng)中的語言單位.

        表1count實(shí)例

        表2 count實(shí)例

        表3 語言模型實(shí)例

        語言模型是用來計(jì)算一個(gè)句子概率的模型,如下公式所示:

        p(S)=p(w1,w2,w3,w4,w5,…,wn)

        =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

        其中p(S)代表語言模型,那么,如何計(jì)算p(wi|w1,w2,...,wi-1)才是最簡單、直接的方法呢?假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞,這樣語言模型叫bigram則有:

        p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

        =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)

        假設(shè)下一個(gè)詞的出現(xiàn)依賴于它前面的兩個(gè)詞,這樣的語言模型叫trigram則有:

        p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

        =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)

        2 實(shí)驗(yàn)

        在做平滑算法測試實(shí)驗(yàn)的過程中,為了使平滑算法測試實(shí)驗(yàn)的結(jié)果更直觀且更有說服力,在做實(shí)驗(yàn)時(shí)不是把整個(gè)文本都拿到一起做平滑測試實(shí)驗(yàn),而是將整個(gè)文本進(jìn)行分塊,對(duì)語料進(jìn)行預(yù)先處理后要測試的文本的大小有20MB,依次將文本分成1∶4∶6∶8的比例,將這些分塊好的文本分別標(biāo)記為A、B、C、D,并將整個(gè)文件標(biāo)記為E,然后進(jìn)行算法測試.

        實(shí)驗(yàn)步驟:

        步驟一:

        Ngram-count -text train.txt

        -order 3

        -write train.count

        步驟二:

        Ngram-count -read train.count

        -order 3

        -lm Good-Turing.lm

        步驟三:

        Ngram-count -read train.count

        -order 3

        -lm Good-Turing3-7.lm

        -gt1min 3 -gt1max 7

        -gt2min 3 -gt2max 7

        -gt3min 3 -gt2max 7

        以Good-Turing為例,利用命令ngram生成訓(xùn)練文本的語言模型,在這個(gè)過程中可以添加不同的參數(shù)來測試不同的平滑算法,相應(yīng)的被用來估計(jì)語言模型和計(jì)算語言模型的困惑度.

        實(shí)驗(yàn)一

        實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏語旅游風(fēng)俗文化和一些日常的生活用語,訓(xùn)練數(shù)據(jù)A(1 MB),測試數(shù)據(jù)(260 KB),測試結(jié)果見表4.

        表4對(duì)A的平滑測試

        實(shí)驗(yàn)二

        實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報(bào)刊類的文本,訓(xùn)練數(shù)據(jù)B(4MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表5.

        表5對(duì)B的平滑測試

        實(shí)驗(yàn)三

        實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報(bào)刊類的文本,訓(xùn)練數(shù)據(jù)C(6MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表6.

        表6對(duì)C的平滑測試

        實(shí)驗(yàn)四

        實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報(bào)刊類的文本,訓(xùn)練數(shù)據(jù)D(8MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表7.

        表7對(duì)D的平滑測試

        實(shí)驗(yàn)五

        實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報(bào)刊類的文本,訓(xùn)練數(shù)據(jù)E(20MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表8.

        表8對(duì)E的平滑測試

        圖2不同平滑算法對(duì)不同語言模型的困惑度比較

        3 總結(jié)

        從以上五個(gè)實(shí)驗(yàn)的五組實(shí)驗(yàn)數(shù)據(jù)中可以看出,分塊的A、B、C、D、E這五個(gè)不同大小的文本來說,Modified Kneser-Ney方法表現(xiàn)最好,Absolute方法表現(xiàn)比Good-Turing3-7好,Witten-Bell表現(xiàn)比Good-Turing 要好,最差的是Good-Turing3-7.當(dāng)數(shù)據(jù)量小時(shí),Good-Turing方法和Witten-Bell相差不多,當(dāng)數(shù)據(jù)量增大時(shí),Witten-Bell方法就明顯優(yōu)于Good-Turing.但是,平滑方法性能的好與不好是由很多因素決定的,沒有絕對(duì)的好與不好,應(yīng)該依據(jù)現(xiàn)有的條件而定.困惑度是對(duì)模型選擇下一個(gè)詞的范圍大小的度量,困惑度越小,識(shí)別器就越容易識(shí)別,困惑度越大,識(shí)別器的識(shí)別難度就越大.比如,對(duì)一個(gè)語音識(shí)別系統(tǒng)來說,困惑度就是表示識(shí)別器每次將會(huì)在多大的1個(gè)詞集合中選擇下一個(gè)詞.

        猜你喜歡
        文本語言實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        做個(gè)怪怪長實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語言描寫搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产精品视频白浆免费看| 国产三级一区二区三区在线观看| 国产真实乱人偷精品人妻| 欧美老妇交乱视频在线观看| 国产精品高清免费在线| 亚洲国产香蕉视频欧美| 国产精品无码成人午夜电影 | 999久久久免费精品国产| 亚洲国产一二三精品无码 | 欧美最猛黑人xxxxx猛交| 国产精品无码久久综合| 日本女优激情四射中文字幕| 亚洲女同系列高清在线观看| 97性视频| 亚洲第一av导航av尤物| 国产极品粉嫩福利姬萌白酱 | 久久久久国产一区二区三区| 国模精品一区二区三区| 丝袜美腿福利视频在线| 国产内射视频在线观看| 亚洲性啪啪无码AV天堂| 国产老熟女伦老熟妇露脸| 亚洲第一免费播放区| 三级网址在线| 中文人妻av久久人妻18| 国产二区交换配乱婬| 神马影院日本一区二区| 日韩精品高清不卡一区二区三区| 中文字幕久久久久久久系列| 男女18禁啪啪无遮挡| 日本中文字幕一区二区高清在线| 蜜臀久久99精品久久久久久| 亚洲精品中文字幕乱码| 在线免费观看视频播放| 69av在线视频| 亚洲欧美日韩精品高清| 国产成人午夜精华液| 亚洲av无码乱码国产精品| 插鸡网站在线播放免费观看| 久久综合精品国产丝袜长腿| 久久老熟女乱色一区二区|