閆丹陽(yáng),姜 梅,耿秀麗,閆 偉
(山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250000)
隨著信息技術(shù)的提高和人類(lèi)在機(jī)器學(xué)習(xí)領(lǐng)域的研究日益加深,人類(lèi)對(duì)機(jī)器系統(tǒng)的智能化和情感化訴求也在擴(kuò)大。情感智能聊天系統(tǒng)作為具有智能化、情感化特點(diǎn)的聊天工具在信息量與日俱增的今天受到了越來(lái)越多的關(guān)注。情感智能聊天系統(tǒng)一方面能夠作為即時(shí)通訊工具完成人機(jī)交互,準(zhǔn)確向用戶(hù)傳遞信息和數(shù)據(jù);另一方面也能夠在交互通訊的過(guò)程中體現(xiàn)出機(jī)器本不具有的智能化、情感化等突出特點(diǎn),從而把通訊過(guò)程變成一個(gè)有趣味的人機(jī)交互過(guò)程。
然而當(dāng)今情感智能聊天系統(tǒng)的發(fā)展相對(duì)緩慢,普遍存在幾個(gè)顯著的問(wèn)題:不符合人類(lèi)的聊天習(xí)慣;沒(méi)有長(zhǎng)時(shí)記憶體[1]的功能;語(yǔ)料庫(kù)[2]匱乏;不支持文本和語(yǔ)音雙向輸入輸出[3-4]。因此,情感智能聊天系統(tǒng),須加以完善,使其具備更加強(qiáng)大的功能,擁有更加豐富的情感。
針對(duì)當(dāng)前情感聊天系統(tǒng)的不足和匱乏,提出了一種新的情感智能聊天系統(tǒng)的搭建方法。擬通過(guò)利用隱馬爾可夫模型(hidden Markov model,HMM)和徑向基函數(shù)(radial basis function,RBF)的混合模型[5-7]創(chuàng)建人類(lèi)情感語(yǔ)音庫(kù),結(jié)合與瀏覽器已經(jīng)建立連接的文本數(shù)據(jù)庫(kù),通過(guò)Flex技術(shù)使系統(tǒng)與瀏覽器建立連接,使語(yǔ)料庫(kù)得到擴(kuò)充和豐富,最后實(shí)現(xiàn)對(duì)用戶(hù)的輸入做出擬人化的語(yǔ)音或者文本雙向輸出的目標(biāo)。
1.1.1 語(yǔ)料的收集
語(yǔ)料收集首先選出合適的語(yǔ)料,進(jìn)行預(yù)處理工作,為下文語(yǔ)料的標(biāo)注做好準(zhǔn)備。文中擬通過(guò)運(yùn)用合適的語(yǔ)料選擇方法來(lái)提高語(yǔ)料庫(kù)的覆蓋率,進(jìn)而提高語(yǔ)料庫(kù)的規(guī)模、使用范圍和準(zhǔn)確性。從情感色彩看,語(yǔ)料庫(kù)大致分高興、悲傷、憤怒、平靜、暴躁、愉悅、害怕、驚奇、厭惡九大類(lèi);從時(shí)間軸看,語(yǔ)料庫(kù)集結(jié)了適合各個(gè)年齡段人群交流的話(huà)題,包括動(dòng)畫(huà)片、當(dāng)下流行元素、工作問(wèn)題、結(jié)婚生子、婆媳大戰(zhàn)、健康養(yǎng)生等多類(lèi)話(huà)題[8]。總的來(lái)說(shuō),構(gòu)建語(yǔ)料庫(kù)更加貼近生活問(wèn)題,以此達(dá)到智能聊天的目的。表1列出了部分類(lèi)語(yǔ)料的詳細(xì)信息。
表1 部分類(lèi)語(yǔ)料的詳細(xì)信息
1.1.2 語(yǔ)料庫(kù)的標(biāo)注體系
語(yǔ)料庫(kù)標(biāo)注體系表示對(duì)語(yǔ)料的加工程度,即把待標(biāo)注的語(yǔ)料添加到特定的信息集合中。標(biāo)注體系的類(lèi)別劃分過(guò)粗不能準(zhǔn)確全面地理解語(yǔ)言,過(guò)細(xì)導(dǎo)致標(biāo)注信息過(guò)于龐大,會(huì)增加標(biāo)注難度,降低效率,并且會(huì)降低模型的健壯性。因此,文中預(yù)先標(biāo)注了語(yǔ)料,參考其他類(lèi)型語(yǔ)料庫(kù)標(biāo)注并結(jié)合自身特點(diǎn)制定了特有的標(biāo)注體系集合,例如:情感模型=(高興、悲傷、憤怒、平靜、暴躁、愉悅、害怕、驚奇、厭惡);生活模型=(動(dòng)畫(huà)片、當(dāng)下流行元素、工作問(wèn)題、結(jié)婚生子、婆媳大戰(zhàn)、健康養(yǎng)生)。
1.1.3 語(yǔ)料庫(kù)的質(zhì)量監(jiān)控
語(yǔ)料庫(kù)監(jiān)控從標(biāo)注規(guī)范、糾錯(cuò)機(jī)制和補(bǔ)充學(xué)習(xí)三個(gè)方面進(jìn)行。標(biāo)注規(guī)范是在語(yǔ)料標(biāo)注過(guò)程中減少錯(cuò)誤操作,提高標(biāo)注效率和一致性的有效措施[9];糾錯(cuò)機(jī)制則是在語(yǔ)料標(biāo)注完成后進(jìn)行錯(cuò)誤和一致性檢查,防止錯(cuò)誤的語(yǔ)料進(jìn)入語(yǔ)料庫(kù)[9];補(bǔ)充學(xué)習(xí)是為了提高語(yǔ)料庫(kù)的使用壽命及系統(tǒng)的智能性。現(xiàn)存的語(yǔ)料庫(kù)在更新學(xué)習(xí)方面較為缺乏,不能做到及時(shí)更新,降低了語(yǔ)料庫(kù)的壽命,加重了維護(hù)人員的工作負(fù)擔(dān)。文中改進(jìn)的補(bǔ)充學(xué)習(xí)監(jiān)控方式通過(guò)對(duì)用戶(hù)輸入請(qǐng)求的判斷規(guī)約出表達(dá)同類(lèi)情感語(yǔ)料的補(bǔ)充收錄。在用戶(hù)對(duì)一句話(huà)、一種意思或情感多次重復(fù)描述基礎(chǔ)上,把該語(yǔ)料記憶、收錄并歸類(lèi)到相應(yīng)的語(yǔ)料標(biāo)注體系下,從而實(shí)現(xiàn)智能化的提升。
1.2.1 基于HMM和RBF的語(yǔ)音庫(kù)構(gòu)建
HMM[10-11]是通過(guò)分析語(yǔ)音當(dāng)前的波形進(jìn)而推斷該波形所對(duì)應(yīng)的最可能的音素,得到該語(yǔ)音信號(hào)所對(duì)應(yīng)的文字信息。在訓(xùn)練和識(shí)別過(guò)程中發(fā)現(xiàn),不同HMM模型代表著不同的情感狀態(tài)。通過(guò)同類(lèi)情感的訓(xùn)練樣本多次訓(xùn)練可以得出每個(gè)HMM的模型參數(shù),后續(xù)可以通過(guò)修正與該情感相對(duì)應(yīng)HMM模型來(lái)學(xué)習(xí)某一種新情感。但是HMM的缺陷也比較明顯:HMM訓(xùn)練和識(shí)別算法過(guò)于依賴(lài)強(qiáng)假設(shè),從而造成模式識(shí)別性能不盡如人意;雖然充分考慮了特征類(lèi)內(nèi)部變化問(wèn)題,卻忽略了類(lèi)之間的重疊性,僅僅根據(jù)各累積概率的最大值作類(lèi)別判斷,導(dǎo)致其分類(lèi)決策能力欠佳,而且相應(yīng)的自身適應(yīng)性、魯棒性等都產(chǎn)生了一定的限制。
RBF神經(jīng)網(wǎng)絡(luò)是一種典型的局部逼近網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)分為三層[12]:
輸入層:由一些被稱(chēng)作感知單元的信號(hào)源點(diǎn)組成,用來(lái)連接網(wǎng)絡(luò)與外界。
隱藏層:該層的作用是將輸入空間傳至隱空間并產(chǎn)生局部響應(yīng),從而能夠?qū)崿F(xiàn)分類(lèi)和函數(shù)逼近。
輸出層:經(jīng)隱藏層處理,數(shù)據(jù)在該層進(jìn)行加權(quán)求和后輸出。因此,該層節(jié)點(diǎn)是一種線(xiàn)性求和單元。
RBF隱藏層向量維數(shù)通常比較高。一般來(lái)說(shuō),隱藏層向量維數(shù)越高,RBF網(wǎng)絡(luò)趨近于一個(gè)光滑的輸入輸出映射時(shí)就越精確[12]。RBF神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是能夠保持非常高效的自學(xué)習(xí)。即使輸入的維度較高,RBF也能夠保證較強(qiáng)的分類(lèi)性能和較快的訓(xùn)練速度。
根據(jù)模式識(shí)別理論,通過(guò)非線(xiàn)性映射到高維特征空間可以解決低維空間線(xiàn)性不可分的問(wèn)題,從而實(shí)現(xiàn)線(xiàn)性可分。RBF網(wǎng)絡(luò)的輸入就是一個(gè)原始線(xiàn)性不可分的特征空間,可以使之經(jīng)過(guò)適當(dāng)?shù)暮瘮?shù)變換到達(dá)另一線(xiàn)性可分的空間,之后用線(xiàn)性單元解決問(wèn)題。
為了提高語(yǔ)音情感識(shí)別的魯棒性和識(shí)別率,把動(dòng)態(tài)時(shí)間建模能力較強(qiáng)的HMM和分類(lèi)學(xué)習(xí)能力較強(qiáng)的RBF這兩種方式相結(jié)合,提出了基于HMM和RBF混合語(yǔ)音識(shí)別模型的語(yǔ)音庫(kù)構(gòu)建,即把RBF神經(jīng)網(wǎng)絡(luò)計(jì)算狀態(tài)的觀察概率結(jié)合應(yīng)用于HMM模型,不僅解決了HMM模型中魯棒性不強(qiáng)、訓(xùn)練復(fù)雜的問(wèn)題,而且克服了RBF神經(jīng)網(wǎng)絡(luò)處理語(yǔ)音動(dòng)態(tài)變化特征序列不盡如人意的缺點(diǎn)。
語(yǔ)音庫(kù)構(gòu)建過(guò)程主要包括:
(1)原始語(yǔ)音預(yù)處理。
在獲取用戶(hù)的語(yǔ)音信息之后,對(duì)聲音信息進(jìn)行預(yù)濾波、預(yù)加重、短時(shí)加窗及端點(diǎn)檢測(cè)等預(yù)處理;對(duì)特征參數(shù)提取訓(xùn)練、利用CHMM進(jìn)行聲學(xué)建模作為識(shí)別算法,建立基于CHMM的語(yǔ)音識(shí)別算法。另外從信號(hào)空間、特征空間、模型空間三方面進(jìn)行語(yǔ)音補(bǔ)償,構(gòu)建一種新的較好結(jié)合了維納濾波、直方圖均衡、向量泰勒級(jí)數(shù)三種算法[13-14]優(yōu)點(diǎn)的語(yǔ)音識(shí)別算法,確保對(duì)聲音信息的預(yù)處理及初步文本轉(zhuǎn)化更準(zhǔn)確,減少計(jì)算機(jī)的計(jì)算量,提高計(jì)算機(jī)反應(yīng)速度。
(2)特征提取。
分析每一種語(yǔ)音情感的特點(diǎn)并提取相應(yīng)特征,為下一步HMM模型的建立做準(zhǔn)備。
(3)設(shè)計(jì)HMM模型及訓(xùn)練。
給每種語(yǔ)音情感都設(shè)計(jì)了一個(gè)HMM模型。所采用的HMM模型訓(xùn)練準(zhǔn)則是基于ML的Baum-Welch算法[15]。訓(xùn)練過(guò)程首先是用HMM模型對(duì)語(yǔ)音信號(hào)進(jìn)行狀態(tài)分割并使用Viterbi算法得到最優(yōu)狀態(tài)序列[15],然后為了將變長(zhǎng)的最優(yōu)狀態(tài)序列轉(zhuǎn)變成固定維數(shù)特征向量,采用勒讓德系數(shù)對(duì)正交基函數(shù)進(jìn)行展開(kāi)[16]。
(4)RBF模型建立與最終識(shí)別。
RBF神經(jīng)網(wǎng)絡(luò)將對(duì)HMM的狀態(tài)累計(jì)概率進(jìn)行識(shí)別,通過(guò)其非線(xiàn)性映射能力進(jìn)行映射,將RBF神經(jīng)網(wǎng)絡(luò)的決策結(jié)果認(rèn)定為最終識(shí)別結(jié)果。
(5)根據(jù)識(shí)別結(jié)果歸類(lèi)入庫(kù)。
由以上過(guò)程得出語(yǔ)音識(shí)別結(jié)果,根據(jù)不同的情感分類(lèi)將之分別入庫(kù),建立最終的情感語(yǔ)音庫(kù)。
語(yǔ)音識(shí)別過(guò)程如圖1所示。
圖1 基于HMM和RBF的語(yǔ)音識(shí)別過(guò)程
1.2.2 基于Flex技術(shù)的情感語(yǔ)音庫(kù)動(dòng)態(tài)更新
使用Flex提供的構(gòu)建移動(dòng)應(yīng)用和傳統(tǒng)的基于瀏覽器應(yīng)用的基本框架,建立情感語(yǔ)音庫(kù)與瀏覽器的連接,定時(shí)更新情感語(yǔ)音庫(kù)中已有的代表某種情感狀態(tài)的語(yǔ)句。
Flex技術(shù)提供構(gòu)建移動(dòng)應(yīng)用和基于瀏覽器應(yīng)用的基本架構(gòu)[15],其框架是完全開(kāi)源免費(fèi)的。使用Flex技術(shù)可以減少服務(wù)器之間的通信次數(shù),詳細(xì)展示出數(shù)據(jù)的細(xì)節(jié),從而彌補(bǔ)了許多傳統(tǒng)Web應(yīng)用缺乏的元素,使智能聊天系統(tǒng)具有更良好的反應(yīng)速度以及更真實(shí)的情感表達(dá)。
現(xiàn)有的分詞算法分為三大類(lèi):基于字符串匹配的分詞算法、基于統(tǒng)計(jì)語(yǔ)言模型的分詞算法和基于理解的分詞算法[17]。但由于基于統(tǒng)計(jì)語(yǔ)言模型的分詞算法對(duì)常用詞的敏感度低,基于理解的分詞算法尚處于試驗(yàn)階段等局限性,采用基于字符串匹配的分詞算法,其中的雙向最大匹配法,即把正向最大匹配法和逆向最大匹配法相結(jié)合,能夠確保最精準(zhǔn)的匹配度。
由于漢語(yǔ)詞的長(zhǎng)度差異大,有的多字詞,長(zhǎng)度為十幾個(gè)漢字,而單字成詞長(zhǎng)度為1。最大匹配算法的初始切分長(zhǎng)度常為詞典最長(zhǎng)詞條的漢字?jǐn)?shù)M,如此切分和匹配影響了算法效率。另外,二字詞和三字詞在漢語(yǔ)詞中占有相當(dāng)大的比例,而以詞首字開(kāi)始的二字詞、三字詞和多字詞的數(shù)量能夠反映出詞首字開(kāi)始的詞為二字詞、三字詞和多字詞的可能性。因此,在最大匹配算法中引進(jìn)隨機(jī)數(shù)得到最大匹配的概率算法,并以詞首字最長(zhǎng)詞長(zhǎng)Lmax為最大切分限界值[18-20]。設(shè)待切分的語(yǔ)料漢字串為Str=S1S2…Sn,基于最大匹配的概率算法描述如下:
(1)取S1,通過(guò)hash映射,找到詞首字索引項(xiàng),獲取相關(guān)數(shù)據(jù)。
(2)若maxlen=1,則S1為詞首字的詞表為空,將S1切分出來(lái)。然后令Str=S2S3…Sn,繼續(xù)下一次切分;若maxlen>1,則計(jì)算:
SNo=Ntw+Nth+Nmlt
其中,Ntw表示二字詞數(shù)量;Nth表示三字詞數(shù)量;Nmlt表示多字詞數(shù)量。
(3)產(chǎn)生1~SNo范圍內(nèi)的隨機(jī)數(shù):X=Random(SNo)。
CaseX≤Ntw,取K=2;
CaseX≤Ntw+Nth,取K=3;
CaseX≤Ntw+Nth+Nmlt,則取K=maxlen。
(4)取Str1=S1S2…Sk,在字典中查找Str1。
①若Str1不是詞,重新產(chǎn)生隨機(jī)數(shù),獲取余下的K值,繼續(xù)在字典中查找,直到查找成功。若所有K值查找都不成功,則S1在此處可視為1個(gè)單字詞,得到切分S1/S2S3…Sn。同時(shí)可通過(guò)人工干預(yù)方式,將詞首字為S1的一個(gè)子串作為新詞,將其插入到多字詞鏈表。
②若Str1是詞,則增加一個(gè)字Str1=Str1+Sk+1,再查找,若Str1是詞,繼續(xù)增加一個(gè)字,直到Lmax,并記錄詞的最后一個(gè)字的位置p。則可暫時(shí)獲得切分詞:Stmp1=S1S2…Sp。
③取S2為首字詞,重復(fù)以上操作,則可獲得另一切分詞Stmp2,若Length(Stmp1)>Length(Stmp2),則得到切分詞:Stmp1,否則,得到切分詞:S1/Stmp2。
(5)移動(dòng)漢字串指針,進(jìn)行下一次切分,直到整個(gè)串切分完成。
例如:“當(dāng)中國(guó)人民站起來(lái)的那一天”。
詞首字為“當(dāng)”,若Stmp1=“當(dāng)中”,而詞首字為“中”,Stmp2=“中國(guó)人民”。
可切分為:當(dāng)/中國(guó)人民。
詞首字:“站”,則Stmp1=“站起來(lái)”,詞首字為“來(lái)”,Stmp2=“來(lái)”。
可切分為:當(dāng)/中國(guó)人民/站起來(lái)。
最后可切分為:當(dāng)/中國(guó)人民/站起來(lái)/的/那一天。
盡管正向最大匹配法和逆向最大匹配法都是比較常用的分詞算法,但并不代表它們能準(zhǔn)確無(wú)誤地完成用戶(hù)所需要的切分任務(wù)。統(tǒng)計(jì)結(jié)果表明[21],正向最大匹配算法的錯(cuò)誤率為1/169,逆向最大匹配算法的錯(cuò)誤率為1/245。事實(shí)上,只能最大限度地追求低失誤率,文中采用將兩者結(jié)合的手段,能在一定程度上提高分詞的正確性,以期達(dá)到更加智能的切分效果。
利用語(yǔ)音合成技術(shù)將查詢(xún)到的文本結(jié)果轉(zhuǎn)化為語(yǔ)音輸出,并利用TTS技術(shù)朗讀預(yù)先未知的任何語(yǔ)句,將文字信息的實(shí)時(shí)動(dòng)態(tài)轉(zhuǎn)化為語(yǔ)音形式輸出到用戶(hù)端,從而實(shí)現(xiàn)聊天系統(tǒng)與用戶(hù)之間更富情感的對(duì)話(huà)。
在文本信息轉(zhuǎn)化為語(yǔ)音信息輸出時(shí),系統(tǒng)會(huì)把語(yǔ)音預(yù)處理之后的文本和經(jīng)過(guò)情感語(yǔ)音庫(kù)匹配后輸出的文本以聊天記錄形式保存下來(lái),實(shí)行保密機(jī)制,用于驗(yàn)證登陸查看聊天記錄。具體實(shí)現(xiàn)過(guò)程將在下文闡述。
2.1.1 錄制語(yǔ)料
采用Cool Edit Pro高質(zhì)量地完成錄音、編輯、合成等多項(xiàng)任務(wù)。在錄音時(shí)采用采樣頻率為11.025 kHz、采樣精度為32位、單聲道的錄制方式,錄制語(yǔ)言保存為PCM編碼的WAV格式。選擇30名18~22歲在校大學(xué)生,要求口齒清楚、聽(tīng)力正常、能較好表達(dá)自身情感。錄制者按情感提示朗讀相應(yīng)的情景文本,錄制有關(guān)的語(yǔ)音數(shù)據(jù)以供后續(xù)研究。
2.1.2 分析評(píng)估語(yǔ)料庫(kù)
從情感識(shí)別率(EIR)以及情感強(qiáng)度(ES)兩方面對(duì)所獲得語(yǔ)料庫(kù)進(jìn)行分析評(píng)估[22-23]。具體規(guī)則如下:
(1)情感識(shí)別率:從有限的情感種類(lèi)集(如高興、憤怒、驚訝、悲傷、恐懼等)識(shí)別給定情感句子的目標(biāo)情感,測(cè)試其識(shí)別率大小。
(2)情感強(qiáng)度:評(píng)估給定情感句子的情感強(qiáng)度,可以設(shè)計(jì)5個(gè)打分標(biāo)準(zhǔn):非常弱、弱、一般、強(qiáng)、非常強(qiáng)。
通過(guò)上述標(biāo)準(zhǔn)評(píng)測(cè)出的語(yǔ)料庫(kù)有效性發(fā)現(xiàn),上文錄制的情感語(yǔ)料能夠滿(mǎn)足研究需求,因此可以繼續(xù)進(jìn)行下一階段的實(shí)驗(yàn)。
2.2.1 實(shí)驗(yàn)樣本的選擇
表2為上一節(jié)選擇出的典型的實(shí)驗(yàn)錄音腳本(部分)。
表2 實(shí)驗(yàn)錄音腳本(部分)
2.2.2 實(shí)驗(yàn)過(guò)程及結(jié)果
實(shí)驗(yàn)信號(hào)采用漢明窗分幀,其標(biāo)準(zhǔn)為窗長(zhǎng)256、幀移128,6個(gè)HMM狀態(tài),每個(gè)狀態(tài)給以5個(gè)高斯概率密度函數(shù),24維RBF輸入。提取特征向量并且結(jié)合HMM和RBF混合模型識(shí)別,采用單一的HMM仿真進(jìn)行識(shí)別率對(duì)比。結(jié)果表明,單一HMM識(shí)別效果較差,平均識(shí)別率僅為60.1%,而HMM和RBF混合模型平均識(shí)別率為66.1%,整體效果較單一HMM更好。從實(shí)驗(yàn)結(jié)果可以看出,混合模型對(duì)提高識(shí)別率有較好的效果,因此選擇該技術(shù)與情感語(yǔ)音聊天相結(jié)合來(lái)改善目前語(yǔ)音聊天系統(tǒng)的部分問(wèn)題。
由于信息采集是以完全模擬現(xiàn)實(shí)環(huán)境為準(zhǔn)則,所以其抗噪音性能的驗(yàn)證也是不言而喻的,此處給出相關(guān)實(shí)驗(yàn)數(shù)據(jù)(見(jiàn)表3),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行直觀化處理,如圖2所示,以方便對(duì)實(shí)驗(yàn)結(jié)果的進(jìn)一步分析。
表3 識(shí)別結(jié)果 %
圖2 混合模型和單一HMM模型的實(shí)驗(yàn)數(shù)據(jù)分析圖
2.2.3 相關(guān)實(shí)驗(yàn)數(shù)據(jù)結(jié)果分析
人的語(yǔ)速變化與其所處的情感狀態(tài)有關(guān)。實(shí)驗(yàn)結(jié)果表明,語(yǔ)音信號(hào)的振幅特征與各種情感信息具有較強(qiáng)的相關(guān)性:喜、怒、驚等情感,信號(hào)的振幅往往較大,悲傷情感的幅度值則較低。而且可以看出這些幅度值的差異越大,體現(xiàn)出的情感變化也越大?;诖耍梢岳谜Z(yǔ)音信號(hào)中的語(yǔ)速以及語(yǔ)音持續(xù)時(shí)間等參數(shù)來(lái)判別語(yǔ)言的情感。對(duì)于利用這一特點(diǎn)來(lái)判斷人的語(yǔ)音情感,從而使該系統(tǒng)感知出人的說(shuō)話(huà)情感變化具有重要的現(xiàn)實(shí)意義。
系統(tǒng)實(shí)現(xiàn)過(guò)程共有三個(gè)步驟:首先將語(yǔ)音輸入轉(zhuǎn)化為文字,這一步可以采用HMM和RBF技術(shù)對(duì)語(yǔ)音輸入進(jìn)行識(shí)別,并轉(zhuǎn)化為可供后臺(tái)處理的文本格式。這是至關(guān)重要的一步,因?yàn)檎Z(yǔ)音到文本的轉(zhuǎn)化容易產(chǎn)生差錯(cuò),所以采用基于HMM和RBF的混合模型來(lái)更好地解決這一問(wèn)題;其次是將轉(zhuǎn)化的文字進(jìn)行分詞處理并與語(yǔ)料庫(kù)中的詞組進(jìn)行匹配,可采用多種分詞算法來(lái)達(dá)到更加智能化的匹配,如貪心算法、雙向最大匹配法等[16],以便為下一步的輸出回復(fù)做好準(zhǔn)備;最后需要將匹配出來(lái)的回答以文字方式直接輸出或者轉(zhuǎn)化為語(yǔ)音進(jìn)行輸出。文中使用基于HMM和RBF的混合模型進(jìn)行語(yǔ)音文本轉(zhuǎn)化,具體過(guò)程如圖3所示。
圖3 系統(tǒng)實(shí)現(xiàn)示意圖
提出了一種基于HMM和RBF的情感智能聊天系統(tǒng)搭建方法。該方法利用HMM和RBF的混合模型創(chuàng)建人類(lèi)情感語(yǔ)音庫(kù),利用HMM生成最佳語(yǔ)音狀態(tài)序列,用函數(shù)逼近技術(shù)產(chǎn)生對(duì)最佳狀態(tài)序列進(jìn)行時(shí)間歸正,RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)識(shí)別。再通過(guò)Flex技術(shù)建立數(shù)據(jù)庫(kù)與瀏覽器之間的連接,保證系統(tǒng)擁有足夠豐富的數(shù)據(jù)庫(kù)和語(yǔ)料庫(kù)。結(jié)合雙向最大匹配算法,完成對(duì)中文分詞和分析歸類(lèi)。將各個(gè)模塊組建在一起實(shí)現(xiàn)更加智能化情感化的聊天系統(tǒng)。盡管如此,對(duì)于所構(gòu)想的真正智能化還有一定的差異,特別是在聊天系統(tǒng)的自主學(xué)習(xí)方面仍然需要很大的改進(jìn)。
參考文獻(xiàn):
[1] 羅 毅.一種基于HMM和ANN的語(yǔ)音情感識(shí)別分類(lèi)器[J].微計(jì)算機(jī)信息,2007,23(12-1):218-219.
[2] 胡瑞敏,薛東輝,姚天任,等.神經(jīng)網(wǎng)絡(luò)方法及其在語(yǔ)音識(shí)別中的應(yīng)用[J].高技術(shù)通訊,1995(6):11-15.
[3] COWIE R.Emotion recognition in human-computer interaction[J].Signal Processing Magazine,2001,18(1):32-80.
[4] 韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.
[5] 馬曉梅,李雪耀,王 洋.基于HMM的連續(xù)語(yǔ)音中的關(guān)鍵詞檢測(cè)[J].黑龍江科技信息,2008(32):91.
[6] 趙 力,錢(qián)向民,鄒采榮,等.語(yǔ)音信號(hào)中的情感識(shí)別研究[J].軟件學(xué)報(bào),2001,12(7):1050-1055.
[7] 聞 彬,何婷婷,羅 樂(lè),等.基于語(yǔ)義理解的文本情感分類(lèi)方法研究[J].計(jì)算機(jī)科學(xué),2010,37(6):261-264.
[8] LEE C M,NARAYANAN S.Toward detecting emotions in spoken dialogs[J].IEEE Transactions on Speech and Audio Processing,2005,13(2):293-303.
[9] 孫晉文,肖建國(guó).基于SVM文本分類(lèi)中的關(guān)鍵詞學(xué)習(xí)研究[J].計(jì)算機(jī)科學(xué),2006,33(11):182-184.
[10] NEFIAN A V,HAYES M H.Face detection and recognition using hidden Markov models[C]//Proceedings of the international conference on image processing.[s.l.]:IEEE,2002:141-145.
[11] CHEN S H,CHEN W Y.Generalized minimal distortion segmentation for ANN-based speech recognition[J].IEEE Transactions on Speech and Audio Processing,1995,3(2):141-145.
[12] ORR M J L.Introduction to radial basis function networks[J].Internationale Zeitschrift für Vitaminforschung,2003,37(3):97-101.
[13] 郝 杰,李 星.漢語(yǔ)連續(xù)語(yǔ)音識(shí)別中經(jīng)典HMM的實(shí)驗(yàn)評(píng)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2001,37(13):1-4.
[14] 蔣丹寧,蔡蓮紅.基于語(yǔ)音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006,46(1):86-89.
[15] SAMARIA F,YOUNG S.HMM based architecture for face identification[J].Image and Vision Computing,1994,12(8):537-543.
[16] FREITAG D,MCCALLUM A.Information extraction with HMM structures learned by stochastic optimization[C]//Proceedings of the eighteenth conference on artificial intelligence.[s.l.]:[s.n.],2002:584-589.
[17] 楊曉恝,蔣 維,郝文寧.基于本體和句法分析的領(lǐng)域分詞的實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2008,34(23):26-28.
[18] 歐振猛,余順爭(zhēng).中文分詞算法在搜索引擎應(yīng)用中的研究[J].計(jì)算機(jī)工程與應(yīng)用,2000,36(8):80-82.
[19] 馬玉春,宋瀚濤.Web中文文本分詞技術(shù)研究[J].計(jì)算機(jī)應(yīng)用,2004,24(4):134-135.
[20] ZHANG M Y,LU Z D,ZOU C Y.A Chinese word segmentation based on language situation in processing ambiguous words[J].Information Sciences,2004,162(3-4):275-285.
[21] 何國(guó)斌,趙晶璐.基于最大匹配的中文分詞概率算法研究[J].計(jì)算機(jī)工程,2010,36(5):173-175.
[22] 王洪偉,鄭麗娟,尹 裴,等.基于句子級(jí)情感的中文網(wǎng)絡(luò)評(píng)論的情感極性分類(lèi)[J].管理科學(xué)學(xué)報(bào),2013,16(9):64-74.
[23] YE Q,ZHANG Z,LAW R.Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J].Expert Systems with Applications,2009,36(3):6527-6535.