董莉
林遠東從沒想過當(dāng)年在劍橋大學(xué)上學(xué)時,當(dāng)中文老師的經(jīng)歷會在后來的創(chuàng)業(yè)道路上成為一束激發(fā)頭腦風(fēng)暴的光。
“當(dāng)時,外國學(xué)生學(xué)習(xí)中文時有一個音一直掌握不好,就是ü,經(jīng)常會發(fā)錯音。通過一位教學(xué)專家傳授經(jīng)驗,我告訴學(xué)生把發(fā)E的音,嘴形變成U,就可以發(fā)ü?!绷诌h東回憶道,“那么,有沒有辦法讓我知道這個孩子實際上錯成什么了。有了這個辦法就可以通過嘴形和各種各樣的結(jié)構(gòu)圖,指導(dǎo)孩子進行正確的發(fā)音練習(xí)。但目前市面上的常有的方式能做到的是評分,但是我要告訴學(xué)習(xí)者,怎樣去正確發(fā)音?!?/p>
而這個靈感激發(fā)讓林遠東在之后的創(chuàng)業(yè)中有了不一樣的思考角度。
馳聲創(chuàng)始人及CEO林遠東,他的團隊以源于劍橋大學(xué)的智能語音技術(shù)為起點,幫助客戶實現(xiàn)人機互動的智能學(xué)習(xí)
2007年,馳聲在英國劍橋初步建立團隊的時候,人工智能還不像現(xiàn)在這么火熱。彼時林遠東他們的想法很簡單——口語練習(xí)在技術(shù)出現(xiàn)之前很難形成閉環(huán),大量的口語練習(xí)在課堂教學(xué)里面很不現(xiàn)實,“結(jié)合自身的經(jīng)歷,我們用智能語音技術(shù)很好的解決了這個問題,我在這個行業(yè)也堅守10多年了,從未離開?!瘪Y聲創(chuàng)始人及CEO林遠東介紹,團隊以源于劍橋大學(xué)的智能語音技術(shù)為起點,自主研發(fā)了基于大數(shù)據(jù)、深度學(xué)習(xí)的智能語音系列技術(shù),幫助客戶實現(xiàn)人機互動的智能學(xué)習(xí)產(chǎn)品。
多年來,圍繞語言教育,馳聲的技術(shù)已經(jīng)發(fā)展為三方面能力的評估:第一個為發(fā)音能力評估,主要解決單詞、句子、段落和篇章朗讀的發(fā)音評分,單詞可以實現(xiàn)音素級發(fā)音檢測、重讀檢測等一系列和語言教育相關(guān)的維度;第二個是語用能力評估,比如說限定場景的選擇題,主要考察學(xué)生在某個環(huán)境下的語用能力;第三個是開放題型評估,如口語作文、話題復(fù)述等等,考察的是學(xué)生運用已經(jīng)掌握的英語知識,完整表達意思的能力。
林遠東認為,人工智能在智能語音、口語評測的發(fā)展路徑分為三步,第一步是建立標(biāo)準(zhǔn),第二步是個性診斷,第三步是反饋指導(dǎo)。他認為智能技術(shù)在教育領(lǐng)域要向前深入一個階段,作為技術(shù)人員來講,就要強迫自己深入到教育行業(yè)?!爱?dāng)你要深入這個行業(yè)本身,你要去汲取這個行業(yè)里面的內(nèi)容,這是很難的,更難的是放棄自己原來的立場,深入融合教育的知識和理論?!?/p>
馳聲從2007年開始專注語音評測技術(shù),2008年推出了業(yè)內(nèi)第一評估中文聲調(diào)、評價中文發(fā)音能力的SDK;2009年推出了業(yè)內(nèi)第一個基于網(wǎng)頁的無插件英文發(fā)音評估SDK;2015年推出業(yè)界第一個支持微信語音的發(fā)音評估SDK等。
這背后是核心團隊對于痛點細致入微的拆分了解。林遠東曾調(diào)取了線上數(shù)據(jù),下載了五百多條語音,自己一條一條去聽。他吃驚地發(fā)現(xiàn):很多用戶發(fā)音的時候總是在重復(fù)犯錯,短時間內(nèi)練同一個內(nèi)容,第1次錯和第10次的錯誤是一樣的。馳聲語音評測實驗室也做了相關(guān)研究,通過調(diào)取大量的錄音數(shù)據(jù)發(fā)現(xiàn),85%的語言學(xué)習(xí)者,總是在重復(fù)犯錯。
“這是對我很大的打擊。85%的人在浪費他們的時間,雖然他們在不斷地讀,但是仍不斷犯同樣的錯誤?!绷诌h東說,“雖然我們完成了自動評分,告訴他讀得不好,但只是重復(fù)犯錯,沒有什么意義?!?blockquote>
每一項技術(shù)的發(fā)展,都是發(fā)揮技術(shù)之所長,去對老師所不擅長的工作進行填補,而不是取代
馳聲提出了一條新的研發(fā)路徑——“評分-診斷-反饋指導(dǎo)”。目前市場上大多數(shù)語音評測公司都處在“建立標(biāo)準(zhǔn)”的階段,為一份口語作業(yè)打分或者評價優(yōu)良中差。馳聲率先實現(xiàn)“個性診斷”,今年推出了新技術(shù)“診斷糾錯內(nèi)核”。針對單詞發(fā)音評分,通過構(gòu)建一個擴展網(wǎng)絡(luò)的形式,可以支持任意單詞的音素級插入、刪除和替換錯誤。以match這個單詞為例,如果[m?t?]讀成[m?t?],就會有相應(yīng)的錯誤發(fā)音提示,以及正確的發(fā)音指導(dǎo)。直觀呈現(xiàn)學(xué)習(xí)者實際發(fā)音的音素序列并進行錯誤標(biāo)注,意義就在于告訴學(xué)生:你錯了,錯在這里,怎么錯的。再結(jié)合最后一步“反饋指導(dǎo)”,用文字、圖片、視頻的方式告訴學(xué)生如何去提升,最終達到“拒絕重復(fù)犯錯”,快速提高語言學(xué)習(xí)效率的目的。
林遠東表示,2014年,馳聲語音平臺一天的錄音數(shù)據(jù)超過千萬,現(xiàn)在每天的錄音峰值達到大幾千萬的次數(shù),目前用戶使用量還在持續(xù)猛增?!半m然使用量上升內(nèi)心會感受到無比幸福,但也許有一天使用量開始回落的時候,你會感覺到另外一種幸福,那是行業(yè)的福分。當(dāng)個性化診斷和反饋指導(dǎo)得到實踐,一個孩子不需要練習(xí)100次而在第10次就能得到提升,為什么還要讓他練習(xí)100次,消耗用戶時間、消耗計算機資源、消耗客戶金錢呢?”
目前,馳聲的語音技術(shù)授權(quán)業(yè)務(wù),主要面向英語培訓(xùn)機構(gòu)、出版社、教育軟件、在線教育、教育硬件和考試服務(wù)機構(gòu)等提供口語測評技術(shù)支持,服務(wù)的用戶遍及132個國家和地區(qū)。于是,馳聲語音評測實驗室提出了一個新課題——AI+K12語言教育,除了口語評測還能做什么?
馳聲一直在思考智能語音技術(shù)如何能更好地服務(wù)K12的教學(xué)場景,為此定義了三個場景:一、正式考試環(huán)境下根據(jù)人工定標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)進行自動評分,馳聲提供了一個AMS,已經(jīng)服務(wù)了多個地區(qū)的英語聽說考試;二、考輔分為備考和模考的環(huán)境,馳聲提供CESE平臺,輔助校園聽說日常測評和階段性考試;三、在課外,馳聲也可以為學(xué)生自學(xué)提供一些口語的發(fā)音能力評估。
在遵循“評分-診斷-反饋指導(dǎo)”的技術(shù)創(chuàng)新路徑上,除了診斷糾錯內(nèi)核,馳聲今年還發(fā)布了另一項創(chuàng)新技術(shù)——開放題型多維度評估。
據(jù)了解,開放題型多維度評估,該技術(shù)與近年來各省市在中高考中增加英語口語考試的機緣密不可分。作為中國真正有中高考英語聽說人機對話考試實施經(jīng)驗的兩家語音廠商之一,馳聲與多省、市教育主管部門保持密切協(xié)作,共同推動語音測評技術(shù)在正式考試、考輔、教輔等各個教學(xué)階段的應(yīng)用。
開放題型多維度評估結(jié)合了詞嵌入技術(shù)、句法解析、GOP算法等技術(shù),可支持口語作文、看圖說話、翻譯題等開放題型,評分結(jié)果除總分以外,還加入了內(nèi)容得分、發(fā)音得分、語法得分和流利度得分等四個維度。
經(jīng)測試,開放題型多維度評估的評分性能遠遠高于以前的基于特征直接擬合總分的情況。該內(nèi)核更出色的性能特點還在于:自適應(yīng)評分標(biāo)準(zhǔn),不同的地區(qū)對這四個維度有不同的側(cè)重點,馳聲可以根據(jù)定標(biāo)數(shù)據(jù)學(xué)習(xí)到該地區(qū)在每個維度上的特征和權(quán)重,擬合出一個最為適合該地區(qū)的評分標(biāo)準(zhǔn)。
新技術(shù)還為后期打下了一個伏筆——未來,馳聲將在這四個維度上繼續(xù)往下做,對應(yīng)著診斷和反饋,比如學(xué)習(xí)者的語法錯在什么位置,應(yīng)該糾正成什么樣。
當(dāng)被問到馳聲不斷推出新技術(shù),是否會取代現(xiàn)有老師的功能,林遠東表示,其實每一項技術(shù)的發(fā)展,都是發(fā)揮技術(shù)之所長,去對老師所不擅長的工作進行填補,而不是取代。如今,教育行業(yè)正處于技術(shù)和教育融合的階段。這個階段里面,智能技術(shù)會使得教師角色得到重新定義。未來教師將被豐富為兩個角色,第一個是講課、專業(yè)的授課者;第二個是維持課堂秩序,與學(xué)生進行近距離的實時互動。教育者在教育過程中承擔(dān)更多的功能性,包括數(shù)據(jù)分析的能力,這也是未來教育行業(yè)的發(fā)展趨勢。
馳聲也公布了關(guān)于下一步的研發(fā)計劃,內(nèi)容包括通用聲學(xué)模型升級、語音自動分類、虛擬教室和基于知識圖譜的自適應(yīng)學(xué)習(xí)等。