微軟計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)開發(fā)取得重大突破
美國(guó)微軟公司雷蒙德研究院開發(fā)出一種機(jī)器學(xué)習(xí)算法,使計(jì)算機(jī)對(duì)指定主題對(duì)話的語(yǔ)音識(shí)別率提高至94.1%,首次與人類水平相當(dāng);對(duì)親戚朋友日常對(duì)話的語(yǔ)音識(shí)別率達(dá)88.9%,甚至比人類略勝一籌。
美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所2000年曾發(fā)布了一個(gè)數(shù)據(jù)庫(kù),用以幫助解決語(yǔ)音識(shí)別難題。該數(shù)據(jù)庫(kù)包含的電話錄音有些是個(gè)人之間既定話題的談話,其余則是親戚朋友間的隨意交談。結(jié)果顯示,人類在轉(zhuǎn)錄語(yǔ)言時(shí)的出錯(cuò)率約為4%。微軟雷蒙德研究院的研究人員基于不同層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)優(yōu)化其機(jī)器深度學(xué)習(xí)系統(tǒng),使系統(tǒng)的每一層能夠分別識(shí)別語(yǔ)音的不同方面;然后,用訓(xùn)練數(shù)據(jù)作為標(biāo)準(zhǔn)來(lái)設(shè)置機(jī)器,以便識(shí)別普通語(yǔ)音并使其適應(yīng)測(cè)試數(shù)據(jù)庫(kù)??偟膩?lái)說(shuō),微軟的語(yǔ)音識(shí)別系統(tǒng)達(dá)到了與人類相當(dāng)?shù)腻e(cuò)誤率,但其錯(cuò)誤類型與人類截然不同。微軟系統(tǒng)最常見(jiàn)的錯(cuò)誤是混淆反饋聲音。相比之下,人類很少犯這樣的錯(cuò)誤。對(duì)此,研究人員認(rèn)為,出現(xiàn)誤差的原因可能與噪聲在訓(xùn)練數(shù)據(jù)集中的標(biāo)記方式有關(guān)。
研究人員表示,該項(xiàng)研究成果對(duì)于開發(fā)更智能的個(gè)人數(shù)字助理,如微軟的Cortana,以及Xbox等娛樂(lè)設(shè)備和即時(shí)語(yǔ)音轉(zhuǎn)文字等工具具有重要意義。
(KJ.1029)