徐立城
摘 要:語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,在現(xiàn)實(shí)生活中扮演著越來(lái)越重要的角色,語(yǔ)音識(shí)別簡(jiǎn)單來(lái)說(shuō)是讓計(jì)算機(jī)理解人的語(yǔ)音,它有兩大研究領(lǐng)域:語(yǔ)種識(shí)別和說(shuō)話人識(shí)別。本文圍繞語(yǔ)種識(shí)別展開(kāi),語(yǔ)種識(shí)別(Language Identification,LID),是指計(jì)算機(jī)通過(guò)理解和識(shí)別過(guò)程判定輸入語(yǔ)音的語(yǔ)種。本論文并通過(guò)兩個(gè)不同類型的實(shí)驗(yàn),來(lái)研究語(yǔ)種識(shí)別問(wèn)題,例如Langid工具包的使用。語(yǔ)種識(shí)別,在多語(yǔ)音語(yǔ)言識(shí)別系統(tǒng)中扮演著重要的角色,在語(yǔ)言翻譯、手寫(xiě)體文字識(shí)別、鍵盤(pán)輸入、信息發(fā)現(xiàn)和挖掘系統(tǒng)等研究領(lǐng)域都有應(yīng)用,其發(fā)展非常迅速。
關(guān)鍵詞:語(yǔ)音識(shí)別;語(yǔ)種識(shí)別;Langid等
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
1 語(yǔ)音識(shí)別發(fā)展概述
語(yǔ)音識(shí)別是一門包羅萬(wàn)象學(xué)科,其涉及很多不同的領(lǐng)域,其中就包括語(yǔ)言學(xué)、聲學(xué)、統(tǒng)計(jì)學(xué)和人工智能等,也被稱為自動(dòng)語(yǔ)音識(shí)別。它的目標(biāo)是把人類的語(yǔ)音中的詞匯內(nèi)容在計(jì)算機(jī)顯示為計(jì)算機(jī)可讀的信息,由計(jì)算機(jī)加以識(shí)別。語(yǔ)音識(shí)別技術(shù)如果與其他自然語(yǔ)言處理技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜但卻方便的應(yīng)用,例如將機(jī)器翻譯和語(yǔ)音合成相結(jié)合得到語(yǔ)音翻譯。
由于語(yǔ)音識(shí)別在各個(gè)方面的重要意義和巨大優(yōu)勢(shì),不少公司投入大量人力物力進(jìn)行研究。隨著siri、Google Now、百度語(yǔ)音、微軟Corrtana等相關(guān)產(chǎn)品的橫空出世,同時(shí)在服務(wù)提供商和設(shè)備廠商的共同推動(dòng)下,現(xiàn)在幾乎身邊所有新推出的移動(dòng)設(shè)備都會(huì)包括語(yǔ)音識(shí)別這一功能。
2 語(yǔ)種識(shí)別研究的目的及意義
隨著科技水平的提高,互聯(lián)網(wǎng)的發(fā)展帶來(lái)了巨大的語(yǔ)言文字信息,網(wǎng)頁(yè)文本的數(shù)據(jù)量也在與日俱增,與此同時(shí)語(yǔ)言也漸漸出現(xiàn)了多種混合的現(xiàn)象。語(yǔ)種識(shí)別系統(tǒng)可以把大量重復(fù)煩瑣的勞動(dòng)交給機(jī)器來(lái)處理,節(jié)約了人力、物力,提高了工作效率。語(yǔ)種識(shí)別的研究側(cè)重于對(duì)算法和模型進(jìn)行改進(jìn)和優(yōu)化,其主要方法是通過(guò)語(yǔ)言學(xué)和機(jī)器學(xué)習(xí)的方法。概率統(tǒng)計(jì)的方法或信息論的方法也被大量采用,在實(shí)際中的語(yǔ)音識(shí)別方法得到較為成功的應(yīng)用。例如HMM,GMM等,正是由于這些方法的出現(xiàn)對(duì)語(yǔ)音識(shí)別走向?qū)嶋H應(yīng)用具有極大的推進(jìn)作用。例如在國(guó)際酒店中,前臺(tái)客服在接到客人電話前,要先進(jìn)行語(yǔ)種識(shí)別,然后才分配給相應(yīng)的客服,提高了溝通效率。
3 語(yǔ)種識(shí)別的研究方法
3.1 語(yǔ)種識(shí)別基本流程
語(yǔ)種識(shí)別的一般流程分為訓(xùn)練和識(shí)別兩個(gè)階段,如圖1所示,在訓(xùn)練階段,將不同語(yǔ)言的語(yǔ)音音頻輸入系統(tǒng)中,然后進(jìn)行特征提取,得到一組特征向量序列,根據(jù)特定的訓(xùn)練算法,然后得到一個(gè)或多個(gè)參考模型,并保存下來(lái)。在識(shí)別階段,對(duì)測(cè)試語(yǔ)音進(jìn)行特征提取,然后將這些特征同模型庫(kù)中的模型進(jìn)行比對(duì),并計(jì)算得出一個(gè)相似性得分。最后根據(jù)經(jīng)過(guò)判決模塊的判決規(guī)則,由相似性得分即可得到識(shí)別的語(yǔ)言種類。
3.2 語(yǔ)種識(shí)別的方法
3.2.1 利用LDA文本對(duì)多語(yǔ)種識(shí)別進(jìn)行研究
首先是偽訓(xùn)練過(guò)程,我們需要先從互聯(lián)網(wǎng)上獲取或者直接使用已經(jīng)存在的語(yǔ)料庫(kù),然而這些數(shù)據(jù)來(lái)源都不能直接用來(lái)構(gòu)建N-gram計(jì)數(shù)。在實(shí)際操作中我們對(duì)語(yǔ)料中的標(biāo)點(diǎn)符號(hào)、數(shù)字、大小寫(xiě)等字符進(jìn)行一些處理。根據(jù)需要保留一些有助于語(yǔ)種識(shí)別的符號(hào)并刪掉一些相對(duì)于語(yǔ)種識(shí)別來(lái)說(shuō)無(wú)關(guān)緊要的符號(hào)。得到預(yù)處理過(guò)的數(shù)據(jù)以后,選擇可靠性高的語(yǔ)言模型工具生成1-5元的N-gram計(jì)數(shù)文件。得到N-gram計(jì)數(shù)文件的過(guò)程就是提取語(yǔ)料特征的過(guò)程。接著對(duì)數(shù)據(jù)集進(jìn)行Collapsed Gibbs采樣直到其收斂并更新LDA模型的參數(shù)。
第二階段為語(yǔ)種識(shí)別階段。首先對(duì)測(cè)試文本也做特征提取工作,根據(jù)需要保留一些有助于語(yǔ)種識(shí)別的符號(hào)并刪掉一些相對(duì)于語(yǔ)種識(shí)別來(lái)說(shuō)無(wú)關(guān)緊要的符號(hào)。然后將抽取出的1-5元N-gram計(jì)數(shù)文件通過(guò)Collapsed Gibbs抽樣直到其收斂,就可以得出主題分布,即語(yǔ)種分類結(jié)果,如圖2所示。
3.2.2 全局背景模型(UBM)
GMM-UBM在說(shuō)話人識(shí)別系統(tǒng)中已經(jīng)得到了廣泛的應(yīng)用,在語(yǔ)言識(shí)別系統(tǒng)中,GMM-UBM模型是一個(gè)與語(yǔ)言無(wú)關(guān)的背景模型,利用語(yǔ)言識(shí)別種的無(wú)關(guān)信息訓(xùn)練得到一個(gè)語(yǔ)言全局背景模型。圖3是一個(gè)基于GMM-UBM的語(yǔ)言辨識(shí)系統(tǒng)框圖。
給定了訓(xùn)練UBM模型的各種語(yǔ)言的數(shù)據(jù)后,有多種方法可以用來(lái)得到最終的模型,最簡(jiǎn)單的方法是EM算法來(lái)訓(xùn)練UBM模型。由于訓(xùn)練的是與語(yǔ)言無(wú)關(guān)的UBM模型,每種語(yǔ)言識(shí)別的耗時(shí)大約1h。
4 語(yǔ)種識(shí)別實(shí)驗(yàn)
4.1 語(yǔ)種識(shí)別的理論基礎(chǔ)
4.1.1 條件概率和全概率
4.1.2 貝葉斯公式
在條件概率和全概率的基礎(chǔ)上,很容易推導(dǎo)出貝葉斯公式:
看上去貝葉斯公式只是把A的后驗(yàn)概率+A的邊緣概率的組合表達(dá)形式,因?yàn)楹芏喱F(xiàn)實(shí)問(wèn)題中P(A|B)或很難直接觀測(cè)但是P(B|A)和P(A)卻很容易測(cè)得,利用貝葉斯公式可以方便我們計(jì)算很多實(shí)際的概率問(wèn)題。
4.2 小文本語(yǔ)種識(shí)別實(shí)驗(yàn)
用python進(jìn)行實(shí)驗(yàn),這些文本中有不同的語(yǔ)種,通過(guò)程序來(lái)判斷語(yǔ)種的概率,例如一種語(yǔ)言(unknown)與de的相似度是0.4,與en的相似度是0.95;取其中的最大值,表示該文本語(yǔ)en類似,從而縮小了范圍。反過(guò)來(lái)unknown與de的0.6的概率不同,與en的不同的概率是0.05。也可以得出該文本語(yǔ)接近en。以此類推,可以得到各語(yǔ)種之間的相似度或差異性。未知語(yǔ)種減去已知語(yǔ)種可得差異性概率,概率最小的,該已知語(yǔ)種就是輸入文本的語(yǔ)種。不同多語(yǔ)種根據(jù)程序進(jìn)行分類。最后可根據(jù)自己的想法決定格式,最終得到分類后語(yǔ)種的排序?;诖耍M(jìn)行了小文本語(yǔ)種識(shí)別的實(shí)驗(yàn),可以很隨心所欲得到程序中已有語(yǔ)種的句子或段落。其不足之處在于首先該實(shí)驗(yàn)對(duì)概率的統(tǒng)計(jì)較為煩瑣;其次是它實(shí)驗(yàn)范圍較窄,因?yàn)槭切∥谋緦?shí)驗(yàn),所以程序中可識(shí)別的語(yǔ)言較少,不能對(duì)所有語(yǔ)種進(jìn)行分類和識(shí)別;在文字?jǐn)?shù)量多的情況下進(jìn)行語(yǔ)種識(shí)別的,而文字較少準(zhǔn)確度不高,例如一個(gè)單詞可能會(huì)出現(xiàn)在不同的語(yǔ)種中,只是其意思不一樣。該實(shí)驗(yàn)在可規(guī)定語(yǔ)種分類后的格式這一點(diǎn)上還是可圈可點(diǎn)的。
4.3 多語(yǔ)種識(shí)別實(shí)驗(yàn)
由于上一個(gè)實(shí)驗(yàn)有一些不足之處,此實(shí)驗(yàn)將對(duì)不足之處進(jìn)行改善,還是利用python對(duì)不同語(yǔ)種進(jìn)行識(shí)別。按照程序步驟,先新建myfile文件,在其中輸入需要識(shí)別的文字,用python打開(kāi)文件,利用Langid工具包里的classify函數(shù)對(duì)輸入文本的語(yǔ)種進(jìn)行識(shí)別,此程序是對(duì)輸入數(shù)據(jù)一行一行的讀,可直接將想要的語(yǔ)種表達(dá)在另一文件夾中。
Langid工具包在語(yǔ)種識(shí)別中廣泛應(yīng)用,該工具包可以識(shí)別出來(lái)97種語(yǔ)種,通過(guò)classify函數(shù)可以將輸入文本與Langid已有標(biāo)簽的97種語(yǔ)種進(jìn)行比對(duì),然后將相似度最大的語(yǔ)種標(biāo)簽作為輸入文本的語(yǔ)種。舉個(gè)簡(jiǎn)單的例子,例如字符串string為“Hello world!”, 然后調(diào)用classify(string),即可識(shí)別出輸入文本的語(yǔ)種為英語(yǔ)。
結(jié)語(yǔ)
本文的研究工作主要集中在如何利用python對(duì)多語(yǔ)種進(jìn)行分類處理和語(yǔ)種識(shí)別。第一,詳細(xì)闡述了多項(xiàng)式貝葉斯分類模型和條件概率、全概率的公式,為構(gòu)建多語(yǔ)種識(shí)別系統(tǒng)打下堅(jiān)實(shí)的理論基礎(chǔ)。根據(jù)不同的任務(wù)要求,使用合適的語(yǔ)種識(shí)別系統(tǒng),對(duì)不同的材料進(jìn)行實(shí)驗(yàn)。第二,通過(guò)兩組實(shí)驗(yàn)驗(yàn)證挑選了Langid工具構(gòu)建了多語(yǔ)言分類模型,并詳細(xì)分析了實(shí)驗(yàn)結(jié)果,最終得出結(jié)論。
課題的研究需要大量地閱讀國(guó)內(nèi)外文獻(xiàn),研究公式定律背后的意義,同時(shí)也需要注意總結(jié)和歸納。將實(shí)驗(yàn)過(guò)程中的想法變成程序使計(jì)算機(jī)代替我來(lái)處理大規(guī)模數(shù)據(jù)的學(xué)習(xí)和識(shí)別任務(wù)。還做了大量的實(shí)驗(yàn)進(jìn)行比對(duì)測(cè)試分析。這些工作使我在面對(duì)問(wèn)題時(shí)變得更耐心仔細(xì),會(huì)細(xì)致地考慮在工作中可能出現(xiàn)的各種問(wèn)題。通過(guò)不斷的操作,使我對(duì)python的操作更加熟悉,為以后的工作奠定了基礎(chǔ)。
參考文獻(xiàn)
[1]蔣兵.語(yǔ)種識(shí)別深度學(xué)習(xí)方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2015.
[2]賈曉茹.基于LDA的文本多語(yǔ)種識(shí)別研究[D].中國(guó)海洋大學(xué), 2014.
[3]索宏彬,李明,呂萍,等.一種基于帶語(yǔ)言模型并行音節(jié)解碼器的語(yǔ)種識(shí)別系統(tǒng)[C]//全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì),2007.
[4]王昊,李思舒,鄧三鴻.基于N—Gram的文本語(yǔ)種識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(4):54-61.