■文/杜靈君 武曉島(中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院)
語(yǔ)音識(shí)別技術(shù)已經(jīng)發(fā)展60多年,越來(lái)越多的語(yǔ)音識(shí)別技術(shù)已融入人類的日常生活,尤其是語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航等已經(jīng)成為很多設(shè)備人機(jī)交互的關(guān)鍵技術(shù)。語(yǔ)音識(shí)別已經(jīng)發(fā)展為人工智能行業(yè)具有競(jìng)爭(zhēng)性的技術(shù)之一。本文通過(guò)對(duì)語(yǔ)音識(shí)別技術(shù)全球?qū)@?jìng)爭(zhēng)態(tài)勢(shì)的分析,了解各國(guó)在該領(lǐng)域的技術(shù)和應(yīng)用的專利布局,在一定程度上為企業(yè)產(chǎn)業(yè)布局和未來(lái)發(fā)展提供借鑒和指導(dǎo)。
語(yǔ)音識(shí)別技術(shù)最早可以追溯到1952年貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了針對(duì)特定說(shuō)話人的英語(yǔ)數(shù)字孤立詞語(yǔ)音識(shí)別系統(tǒng)。歷經(jīng)多次沉浮,20世紀(jì)80年代,以隱馬爾可夫模型(Hidden Markov Model,HMM)方法為代表基于統(tǒng)計(jì)模型的技術(shù)逐漸發(fā)展起來(lái)。20世紀(jì)90年代前期,許多大公司如IBM、蘋果、AT&T和NTT等均對(duì)語(yǔ)音識(shí)別技術(shù)進(jìn)行了大規(guī)模的投入,但識(shí)別準(zhǔn)確率很難超過(guò)90%。2009年,Hinton將DNN應(yīng)用于語(yǔ)音的聲學(xué)建模,基于DNN-HMM的建模方式逐漸取代GMM-HMM,識(shí)別的精度大大提高,成為主流的語(yǔ)音識(shí)別建模方式。
我國(guó)在語(yǔ)音識(shí)別技術(shù)上的研發(fā)相對(duì)較晚,但是發(fā)展迅速。科大訊飛、百度等企業(yè)在語(yǔ)音識(shí)別的核心技術(shù)研發(fā)上持續(xù)投入大量精力,并將其研究成果快速落地。2021年,科大訊飛提出“語(yǔ)音識(shí)別方法及系統(tǒng)”專利,通過(guò)“靜態(tài)+動(dòng)態(tài)”網(wǎng)絡(luò)空間實(shí)時(shí)融合路徑解碼尋優(yōu)算法解決了面向多領(lǐng)域、多用戶、多場(chǎng)景下識(shí)別效果差、反應(yīng)速度慢、系統(tǒng)構(gòu)建時(shí)間長(zhǎng)等技術(shù)問題,顯著地提升了語(yǔ)音識(shí)別效果。百度提出基于歷史信息抽象的流式截?cái)郼onformer建?!猄MLTA2的全新端到端模型結(jié)構(gòu),大大降低錯(cuò)誤率。
國(guó)內(nèi)外企業(yè)在語(yǔ)音識(shí)別技術(shù)上不斷突破,這些企業(yè)為保護(hù)創(chuàng)新技術(shù)也部署了相應(yīng)專利,下面我們對(duì)語(yǔ)音識(shí)別技術(shù)的全球?qū)@季诌M(jìn)行分析。
從語(yǔ)音識(shí)別專利申請(qǐng)數(shù)量看,如圖1所示,從20世紀(jì)50年代語(yǔ)音識(shí)別首次出現(xiàn),直到20世紀(jì)90年代,語(yǔ)音識(shí)別專利的申請(qǐng)數(shù)量雖有小幅度的增加,但整體數(shù)量都較少。這是因?yàn)榇藭r(shí)語(yǔ)音識(shí)別技術(shù)仍處于萌芽階段,語(yǔ)音識(shí)別技術(shù)掌握在大型研究機(jī)構(gòu)和公司手中。
圖1 專利申請(qǐng)數(shù)量變化趨勢(shì)
從20世紀(jì)90年代開始,語(yǔ)音識(shí)別相關(guān)的專利申請(qǐng)數(shù)量顯著增加。這主要因?yàn)楫?dāng)時(shí)提出了基于GMM-HMM聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模式自適應(yīng)方法,讓人們看到了語(yǔ)音識(shí)別技術(shù)的發(fā)展?jié)摿头较?,致使許多研究機(jī)構(gòu)和公司巨資投入,掀起了第一次研究和產(chǎn)業(yè)應(yīng)用的小高潮。
此后將近10年的時(shí)間里,由于GMM-HMM框架的語(yǔ)音識(shí)別系統(tǒng)整體效果還遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)用化水平,語(yǔ)音識(shí)別技術(shù)的發(fā)展相對(duì)緩慢,專利申請(qǐng)數(shù)量有下降趨勢(shì)。
從2012年開始,語(yǔ)音識(shí)別相關(guān)的專利申請(qǐng)數(shù)量出現(xiàn)迅猛增長(zhǎng)。這主要得益于2011年底DNN技術(shù)在大詞匯量連續(xù)語(yǔ)音識(shí)別上獲得的成功,大大降低了語(yǔ)音識(shí)別錯(cuò)誤率,打破了智能語(yǔ)音技術(shù)的發(fā)展瓶頸,引發(fā)了新的研發(fā)熱潮。
隨著國(guó)內(nèi)外對(duì)語(yǔ)音識(shí)別技術(shù)的關(guān)注度越來(lái)越高,以及作為支撐的硬件技術(shù)的不斷提升,全球語(yǔ)音識(shí)別行業(yè)整體技術(shù)發(fā)展前景看好,預(yù)計(jì)未來(lái)一段時(shí)間語(yǔ)音識(shí)別技術(shù)的專利申請(qǐng)數(shù)量仍舊會(huì)延續(xù)較高的增長(zhǎng)率。
語(yǔ)音識(shí)別技術(shù)專利權(quán)人的地域分布情況如圖2所示。從圖中可以看出,語(yǔ)音識(shí)別技術(shù)的專利申請(qǐng)大部分來(lái)自于中國(guó)公司和美國(guó)公司,其中美國(guó)專利權(quán)人占比32.5%,中國(guó)占比24.3%。其次是日本、韓國(guó),兩國(guó)在語(yǔ)音識(shí)別技術(shù)方面相關(guān)專利分別占22.1%和8.1%。
圖2 專利權(quán)人地域分布
美國(guó)在語(yǔ)音識(shí)別技術(shù)出現(xiàn)的早期處于壟斷地位,因?yàn)樽钤缪芯空Z(yǔ)音識(shí)別技術(shù)的貝爾實(shí)驗(yàn)室、卡梅隆大學(xué)等都位于美國(guó),同時(shí)美國(guó)的經(jīng)濟(jì)和硬件基礎(chǔ)也使得美國(guó)在語(yǔ)音識(shí)別技術(shù)發(fā)展前期占據(jù)明顯優(yōu)勢(shì)。近些年來(lái),中國(guó)在政府和市場(chǎng)資本的推進(jìn)下,緊跟語(yǔ)音識(shí)別技術(shù)的最新發(fā)展方向,核心算法不斷改進(jìn)、硬件基礎(chǔ)不斷完善、產(chǎn)業(yè)鏈不斷升級(jí),在科大訊飛、百度、思必馳等科技公司的帶頭引領(lǐng)下,語(yǔ)音識(shí)別技術(shù)在迅猛發(fā)展。從圖中可以看出,中國(guó)在專利申請(qǐng)數(shù)量上已經(jīng)超過(guò)美國(guó)企業(yè),具有較強(qiáng)的語(yǔ)音識(shí)別技術(shù)市場(chǎng)與研發(fā)力量。
語(yǔ)音識(shí)別領(lǐng)域主要專利權(quán)人申請(qǐng)數(shù)量及年度分布分別如圖3和圖4所示。從圖3可以看出,在語(yǔ)音識(shí)別領(lǐng)域,國(guó)外開始研究的比較早,紐昂斯通訊公司和微軟公司的專利申請(qǐng)數(shù)量最多,分別為2711件和2693件。紐昂斯通訊公司是行業(yè)領(lǐng)先面向全球企業(yè)和消費(fèi)者的語(yǔ)音和語(yǔ)言解決方案的通訊服務(wù)商,他們于20年前創(chuàng)建了語(yǔ)音識(shí)別空間,自那時(shí)以來(lái)一直在醫(yī)療保健、金融服務(wù)、電信、零售和政府領(lǐng)域建立深厚的領(lǐng)域?qū)I(yè)知識(shí),是語(yǔ)音技術(shù)領(lǐng)域的行家。微軟公司作為全球最大的PC軟件公司,在其推出的眾多操作系統(tǒng)中,越來(lái)越重視語(yǔ)音識(shí)別技術(shù)的開發(fā)和應(yīng)用,2016年開發(fā)出一種機(jī)器學(xué)習(xí)算法,使計(jì)算機(jī)對(duì)指定主題對(duì)話的語(yǔ)音識(shí)別率提高至94.1%,首次與人類水平相當(dāng),極大促進(jìn)了語(yǔ)音識(shí)別技術(shù)的進(jìn)一步競(jìng)爭(zhēng)和發(fā)展。
圖3 主要專利權(quán)人分布(前10位)
圖4 主要專利權(quán)人申請(qǐng)趨勢(shì)
從主要專利權(quán)人來(lái)看,除紐昂斯和微軟之外,國(guó)際商業(yè)機(jī)器公司、谷歌公司等也緊隨其后,中國(guó)的百度、騰訊、平安科技公司專利申請(qǐng)數(shù)量也躋身前十。從事語(yǔ)音識(shí)別研究開發(fā)的公司、院校遍布全球,沒有哪一家結(jié)構(gòu)處于絕對(duì)壟斷地位,這是因?yàn)槿斯ぶ悄芗夹g(shù)的迅速發(fā)展以及語(yǔ)音識(shí)別的市場(chǎng)需求,致使各機(jī)構(gòu)都在加大對(duì)語(yǔ)音識(shí)別技術(shù)的投入,以提高自己的市場(chǎng)競(jìng)爭(zhēng)力。
從圖4的主要專利權(quán)人申請(qǐng)趨勢(shì)來(lái)看,全球語(yǔ)音巨頭紐昂斯的專利申請(qǐng)數(shù)量在近幾年呈現(xiàn)明顯的下降趨勢(shì),這主要?dú)w因于2012年深度學(xué)習(xí)爆發(fā),全球語(yǔ)音市場(chǎng)競(jìng)爭(zhēng)加劇,再加上紐昂斯公司技術(shù)人才流失、管理戰(zhàn)略不當(dāng)?shù)葐栴},致使其在語(yǔ)音識(shí)別領(lǐng)域的發(fā)展一路下滑。與之相反的,中國(guó)的百度、騰訊、平安科技近幾年來(lái)的專利申請(qǐng)數(shù)量增長(zhǎng)迅速,這與中國(guó)政府和市場(chǎng)資本的推進(jìn)密切相關(guān)。中國(guó)各大企業(yè)、院校都努力跟隨語(yǔ)音識(shí)別技術(shù)的最新發(fā)展方向,發(fā)展勢(shì)頭迅猛,具有很大的發(fā)展?jié)摿Α?/p>
圖5為全球語(yǔ)音識(shí)別領(lǐng)域?qū)@麎勖植?。其中,專利壽命大?0年的專利占比達(dá)到70%,5~10年的專利和3~5年的專利占比分別為17%、6%。部分專利未達(dá)到法定保護(hù)期屆滿就已經(jīng)失效,是由于專利權(quán)人根據(jù)自身的實(shí)際情況和專利的收益情況,通過(guò)不繳費(fèi)等方式,提前終止了專利權(quán)??傮w而言,全球語(yǔ)音識(shí)別領(lǐng)域的專利壽命水平較高,說(shuō)明專利的品質(zhì)較好,技術(shù)水平和經(jīng)濟(jì)價(jià)值普遍較高。
圖5 專利壽命分布
從圖6的語(yǔ)音識(shí)別領(lǐng)域全球?qū)@姆蔂顟B(tài)看,截止到2020年6月30日,有32%的專利處于有效狀態(tài),另有26%的專利已經(jīng)失效。失效原因可能是專利已經(jīng)超過(guò)法定保護(hù)期限,也可能是專利權(quán)人未及時(shí)繳納專利年費(fèi)而喪失了專利權(quán)。而處于審中狀態(tài)的專利占比高達(dá)35%,這主要因?yàn)檎Z(yǔ)音識(shí)別技術(shù)在2011年底進(jìn)入DNN-HMM時(shí)代后,才出現(xiàn)新一波研發(fā)熱潮,伴隨各企業(yè)、院校的大量人才和資金投入而快速發(fā)展,提出大量發(fā)明專利,故很多發(fā)明專利仍處于審查狀態(tài)。
圖6 全球語(yǔ)音識(shí)別全球?qū)@蔂顟B(tài)分析圖
全球?qū)@攸c(diǎn)技術(shù)(排名前10位的IPC小類專利)年度分布情況如圖7所示。從最近十年的技術(shù)分布情況來(lái)看,“在語(yǔ)音識(shí)別過(guò)程中(例如在人機(jī)對(duì)話過(guò)程中)使用的程序”(G10L15/22)和“語(yǔ)音—正文識(shí)別系統(tǒng)”(G10L15/26)始終保持占有較大比重,說(shuō)明這兩個(gè)技術(shù)領(lǐng)域發(fā)展平穩(wěn)且始終保持較高的熱度。而“信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)”(G06F17/30)、“語(yǔ)音識(shí)別”(G10L15/00)的所占比重在近幾年有明顯下降。值得關(guān)注的是,“應(yīng)用電子設(shè)備進(jìn)行識(shí)別的方法或裝置”(G06K9/62)、“用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形”(G06K9/00)、“體系結(jié)構(gòu),例如,互連拓?fù)洹保℅06N3/04)等幾個(gè)方向的專利數(shù)量從2014年以后開始逐年攀升,總體呈現(xiàn)明顯上升趨勢(shì),反映出語(yǔ)音識(shí)別技術(shù)的這些重要研究領(lǐng)域正在快速發(fā)展,研發(fā)重點(diǎn)也逐步向面向?qū)嶋H生產(chǎn)生活的實(shí)用性語(yǔ)音交互產(chǎn)品轉(zhuǎn)移。
圖7 全球?qū)@攸c(diǎn)技術(shù)年度分布
從20世紀(jì)50年代語(yǔ)音識(shí)別技術(shù)萌芽至今,語(yǔ)音識(shí)別已經(jīng)歷六十多年的發(fā)展。縱觀這六十多年的發(fā)展史,語(yǔ)音識(shí)別技術(shù)經(jīng)歷了起始、快速發(fā)展、應(yīng)用開發(fā)、重燃熱潮四個(gè)發(fā)展階段。自2012年以后,得益于DNN技術(shù)在大詞匯量連續(xù)語(yǔ)音識(shí)別上的突破,語(yǔ)音識(shí)別技術(shù)在全球范圍內(nèi)發(fā)展迅速,研發(fā)團(tuán)隊(duì)投入力量大幅增加,語(yǔ)音識(shí)別技術(shù)進(jìn)入重燃熱潮階段,專利申請(qǐng)數(shù)量持續(xù)快速增長(zhǎng)。截止到2020年6月底全球?qū)@暾?qǐng)已經(jīng)超過(guò)57萬(wàn)件。
語(yǔ)音識(shí)別領(lǐng)域的全球?qū)@暾?qǐng)中,有近八成來(lái)自于中國(guó)和美國(guó)。我國(guó)相比國(guó)外起步晚,但近些年來(lái)由于政府和市場(chǎng)資本的大力推進(jìn),以及科大訊飛、百度等科技公司的引領(lǐng),中國(guó)語(yǔ)音識(shí)別技術(shù)發(fā)展迅猛,專利申請(qǐng)數(shù)量上已經(jīng)超過(guò)美國(guó)企業(yè),有著非常強(qiáng)大的語(yǔ)音識(shí)別技術(shù)市場(chǎng)與研發(fā)力量??v觀全球?qū)@暾?qǐng),其專利權(quán)人數(shù)量非常多,紐昂斯、微軟、IBM、谷歌等幾家國(guó)際巨頭始終占據(jù)知識(shí)產(chǎn)權(quán)優(yōu)勢(shì),同時(shí)中國(guó)的百度、騰訊、平安科技等公司也在奮起直追,語(yǔ)音識(shí)別技術(shù)總體處于群雄逐鹿?fàn)顟B(tài),各機(jī)構(gòu)都在加大技術(shù)投入,以提高自己的市場(chǎng)競(jìng)爭(zhēng)力。
語(yǔ)音識(shí)別作為人工智能重點(diǎn)發(fā)展方向,不僅為人工智能發(fā)展提供了強(qiáng)大的推動(dòng)力,也在政策、技術(shù)和投融資方面受到各界的持續(xù)關(guān)注。國(guó)內(nèi)外相關(guān)機(jī)構(gòu)的研究熱情和資金投入持續(xù)攀高,大型企業(yè)和創(chuàng)新型企業(yè)都將語(yǔ)音識(shí)別作為重要切入口,已經(jīng)逐漸凸顯出語(yǔ)音識(shí)別領(lǐng)域競(jìng)爭(zhēng)的激烈態(tài)勢(shì)。因而,要想把握住語(yǔ)音識(shí)別領(lǐng)域的發(fā)展優(yōu)勢(shì),先發(fā)企業(yè)應(yīng)充分利用多年技術(shù)積累和資源積累,構(gòu)建自己的產(chǎn)業(yè)生態(tài)體系;新興企業(yè)應(yīng)著眼和把握定制特征明顯的行業(yè)應(yīng)用領(lǐng)域,努力打造自己獨(dú)特的核心技術(shù)。同時(shí),各企業(yè)和研發(fā)機(jī)構(gòu)都應(yīng)提高對(duì)知識(shí)產(chǎn)權(quán)創(chuàng)造、保護(hù)和運(yùn)用的意識(shí),根據(jù)產(chǎn)業(yè)、技術(shù)的不同發(fā)展階段以及自身的優(yōu)劣勢(shì)積極進(jìn)行有效的專利布局。