“真是令人難以置信的結(jié)果,它的確讓我在這最后一個工作日感覺不錯?!痹诒葼枴どw茨退休當(dāng)天,微軟亞洲研究院手寫識別團隊收到了一封蓋茨的回復(fù)郵件。蓋茨在郵件中所說事情指的正是微軟亞洲研究院用戶界面組(現(xiàn)軟件分析組)與Windows產(chǎn)品部門共同研發(fā)的東亞文字手寫識別技術(shù),當(dāng)時,東亞文字手寫識別項目已經(jīng)在微軟亞洲研究院所在的希格瑪大廈完成了后期的優(yōu)化。
2007年3月,東亞文字手寫識別技術(shù)剛立項一年,比爾-蓋茨也曾在給微軟亞洲研究院的郵件中表示出了極大的興趣和期待。在項目組每個成員的郵箱里,至今仍保存著比爾一蓋茨的這兩封郵件。
一方面,這兩封郵件見證了東亞手寫識別技術(shù)從研發(fā)到植入Windows 7的本地化進程??梢韵胂?,對技術(shù)無比癡迷的蓋茨體會到的欣慰和興奮,微軟亞洲研究院又一次對微軟核心產(chǎn)品貢獻了重要智慧。同時,Windows 7也實現(xiàn)了一項革命性的跨越——東亞語言用戶用電腦做手寫筆記的應(yīng)用變得更加簡單實用。
文字游戲
世界上恐怕任何一款文字游戲,都沒有微軟亞洲研究院手寫識別團隊遇到的更具挑戰(zhàn)。
“對于輸入來講,我們不能要求用戶怎么樣,而是要盡量滿足用戶。不同用戶寫字的習(xí)慣,包括筆順和字形,都有很大變化。因此我們要把這些因素包含進去,盡量應(yīng)付這些情況。”微軟亞洲研究院軟件分析組韓石對本刊記者說。
微軟亞洲研究院軟件分析組及其前身用戶界面組的一個重要研究分支,是基于數(shù)據(jù)的統(tǒng)計學(xué)習(xí)和模式識別技術(shù)的應(yīng)用性研究,通俗一點講就是如何教機器去從大量的真實數(shù)據(jù)中學(xué)會分類。轉(zhuǎn)化到windows 7里的手寫文字識別本質(zhì)上就是一個分類的問題,也就是讓計算機知道用戶輸入的是什么字。而與以拉丁語系為代表的西方語言相比,東亞語言文字的字符集特別大,筆劃變化多端,相似的字又特別多,這些對識別率和識別速度來講都是挑戰(zhàn)。
據(jù)韓石介紹,對于單字的手寫識別來講,最難就是寫得比較草的時候。立項之初,在行業(yè)內(nèi)對潦草數(shù)據(jù)集的識別率已經(jīng)達到95%左右,單字識別當(dāng)時主要應(yīng)用的技術(shù)是利用字形的空間信息,從字局部和整體的特性來挖掘字與字之間的區(qū)分度??臻g關(guān)系的好處是它可以對字有一個整體的概念,但它忽略掉了每一筆的先后順序和走向,不容易捕捉到一些細節(jié)的局部。而如果把筆畫的時序信息應(yīng)用進去的話,對于“味”和“昧”這樣的字就可以更準確區(qū)分了。
通過整整兩年的時間進入Windows7。手寫識別團隊把東亞語言文字的識別率推向一個更高的水平,以簡體中文為例,對潦草數(shù)據(jù)集的識別率達到97%,甚至更高。
提高了識別率,剩下的是把它做快、做小。Windows 7中的文字手寫識別有整句輸入、糾錯和聯(lián)想的功能,通過聯(lián)系上下文,基于大量材料從已有的文字組合中統(tǒng)計出的語言模型,在這些功能中起著重要作用。對于東亞語言來講,它的字符集是超大的,這是一個非常大的挑戰(zhàn)。以中文為例,完整的漢字字符集有兩萬多個字,最常用的一級和二級字符集也有近七千字。由這些字組成的詞和短語。其模型空間之大可想而知。
速度快、體積小是windows 7的重要目標之一。在這么大的一個模型里面,怎么樣去選擇最有效的那一部分來提高識別率以帶給用戶更好的體驗?zāi)?據(jù)韓石介紹,此前的語言模型已經(jīng)相當(dāng)優(yōu)化,然而每一種語言的模型大小也相當(dāng)可觀。經(jīng)過手寫識別團隊的進一步優(yōu)化,在模型體積減半的同時,整句輸入模式的識別率也有所提高。
以產(chǎn)品標準做研發(fā)
“幾乎所有我們的實驗、代碼都是以產(chǎn)品的標準來做的,這樣就使整個技術(shù)轉(zhuǎn)化的過程非常平滑。這個其實出于幾點考慮,首先要想把一項技術(shù)寫成很好的代碼。對這個技術(shù)要非常了解,同時優(yōu)化代碼,做得很快很小,所以我們來做這個事情效率最高。唯一的要求就是我們這邊的人要兼?zhèn)渥鲅芯亢烷_發(fā)的能力?!弊岉n石和同事們感到欣慰的是在交付測試的時候,沒有發(fā)現(xiàn)一個bug,這個結(jié)果從做基礎(chǔ)研究的角度來講,基本上就是奇跡了。而這樣的奇跡每天都在這里發(fā)生。
這又是一次經(jīng)典的團隊合作,東亞文字手寫識別在Windows 7中的質(zhì)的飛躍,位于微軟總部雷蒙德的Windows產(chǎn)品部門手寫識別團隊同樣功不可沒。而此間發(fā)生在研究院與產(chǎn)品部門之間的緊密合作,在這里經(jīng)常發(fā)生。
2008年7月,用戶界面組(現(xiàn)軟件分析組)的手寫識別團隊成功地將基于字根和隱馬爾可夫模型(HMM)的東亞文字手寫識別技術(shù)轉(zhuǎn)化到了Windows產(chǎn)品部門。其中,在針對東亞文字的HMM拓撲設(shè)計、最優(yōu)化字根集選取、HMM區(qū)分度訓(xùn)練、基于狀態(tài)參數(shù)共享的模型壓縮、以及數(shù)據(jù)驅(qū)動的解碼加速等方面有重要突破和技術(shù)創(chuàng)新。微軟亞洲研究院基于H MM的東亞文字手寫識別(代號為Dolphin)技術(shù)顯著降低了原有技術(shù)的識別錯誤率,使四種東亞語言——簡體中文、繁體中文、日文和韓文的識別錯誤率均有顯著下降。在此之前,用于東亞文字整句手寫識別的語言模型優(yōu)化已經(jīng)在windows 7的M3階段完成了技術(shù)轉(zhuǎn)化。更好地整合了優(yōu)化的語言模型后的最終產(chǎn)品中,簡體中文、繁體中文和日文在整句輸入模式下的文字識別錯誤率也有相應(yīng)改善。
書寫未來
就手寫識別技術(shù)來說,東亞文字并不是終點,同時,電腦也只是微軟在手機和電視中“三屏”之一。
就中文來說,一個新的挑戰(zhàn)就是現(xiàn)在的年輕人的使用習(xí)慣,這些活躍于網(wǎng)絡(luò)的主流人群往往使用中英文混打,有時甚至還夾雜一些表情甚至火星文。“我們之前的做法是不同的語言用不同的模型來做,所以從局部技術(shù)角度看這是一個挑戰(zhàn)。從產(chǎn)品或者技術(shù)應(yīng)用來看,對于文字領(lǐng)域,我們還是要把更多的語言做進去或者做得更好?!表n石說,包括最近幾年學(xué)術(shù)界比較關(guān)心的阿拉伯語言和其他語種的識別,各個語言都有它的特點和應(yīng)用人群。微軟作為軟件行業(yè)的領(lǐng)導(dǎo)者,有責(zé)任和義務(wù)把各種語言做好,“畢竟我們的目標是要服務(wù)以及方便整個人類生活,讓更多的人受益”。
既要考慮人們的使用體驗,又要適應(yīng)在不同環(huán)境中的習(xí)慣。對于一些鍵盤輸入不太方便的內(nèi)容,在微軟看來都是令人興奮的挑戰(zhàn)。 “比如說像我們做過的一些數(shù)學(xué)公式和化學(xué)公式,現(xiàn)在化學(xué)公式還不是解決非常好的一個問題,尤其是一些復(fù)雜的有機結(jié)構(gòu)式,像藥物說明書經(jīng)常見到的那樣。還有就是像有一些設(shè)計草圖,臨時的靈感,如果希望把它快速地記下來,還是用筆比較方便,當(dāng)然你要把它數(shù)字化以便于管理或者進一步處理的話,還是需要識別的技術(shù)?!?/p>
在移動領(lǐng)域,手寫識別的實現(xiàn)就不只是依賴技術(shù)本身了,而是怎么樣把已有的識別技術(shù)更好地應(yīng)用起來,包括硬件革新以及更便捷的人際交互方式設(shè)計等多方面的支持。可以肯定的是,手寫識別技術(shù)不僅限于文字,也不限于Windows7,在不遠的將來就會推廣到更多空間。
信息技術(shù)的迅速發(fā)展帶來了很多新的挑戰(zhàn)和機遇。隨著包括手寫識別在內(nèi)的多項技術(shù)到最終產(chǎn)品的成功轉(zhuǎn)化,微軟亞洲研究院原來的用戶界面組也戰(zhàn)略性地選擇了更新、更具挑戰(zhàn)的研究方向,成為了現(xiàn)在的軟件分析(softwareAnalytics)組。軟件分析組目前的研究重點包括。軟件質(zhì)量與性能的高級分析、信息可視化以及大規(guī)模數(shù)據(jù)處理。值得期待的是微軟亞洲研究院更多的研究成果轉(zhuǎn)化到產(chǎn)品里,再帶到人們的生活當(dāng)中。