亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        破譯輸入密碼

        2012-04-29 00:00:00
        CHIP新電腦 2012年10期

        以前,輸入法技術(shù)比拼的主要是詞庫(kù)的大小和流行度??梢哉f(shuō)借助互聯(lián)網(wǎng)搜索引擎了解詞語(yǔ)的流行度,然后增強(qiáng)詞庫(kù)的方法,讓中文輸入的效率有了顯而易見(jiàn)的提高。但也不難發(fā)現(xiàn),目前的中文輸入法整句輸入效率還處于比較低的水平,破譯整句輸入的密碼需要更高級(jí)別的自然語(yǔ)言處理技術(shù)。

        微軟亞洲研究院將機(jī)器翻譯中用到的自然語(yǔ)言處理技術(shù)運(yùn)用到中文輸入法領(lǐng)域,經(jīng)過(guò)1年左右的研發(fā),搭建了可靈活擴(kuò)展的新一代云輸入系統(tǒng),低調(diào)地開(kāi)啟了“云輸入2.0”時(shí)代。上一期,我們介紹過(guò)微軟英庫(kù)拼音輸入法的第一個(gè)公開(kāi)測(cè)試版本,了解到它的基本輸入命中率之高和產(chǎn)品功能上的獨(dú)家秘籍。本期,我們將進(jìn)一步揭開(kāi)這款云輸入法的后窗,看看它究竟是如何做到脫胎換骨的。

        機(jī)器學(xué)習(xí)的內(nèi)核

        負(fù)責(zé)“英庫(kù)拼音”底層技術(shù)開(kāi)發(fā)的是微軟亞洲研究院的自然語(yǔ)言計(jì)算研究組,他們的另一項(xiàng)研究成果是非常受用戶歡迎的必應(yīng)詞典。而必應(yīng)詞典實(shí)現(xiàn)的機(jī)器翻譯功能,主要使用了自然語(yǔ)言處理研究中的基于“多特征融合的對(duì)數(shù)線性模型”,這種方法同樣采用大規(guī)模的訓(xùn)練語(yǔ)料(corpus)對(duì)模型的參數(shù)進(jìn)行自動(dòng)學(xué)習(xí)。在做輸入法的過(guò)程中,開(kāi)發(fā)人員意識(shí)到其實(shí)輸入法也是一種“翻譯”,只不過(guò)是從拼音“翻譯”為漢字,而基于統(tǒng)計(jì)機(jī)器翻譯的方法能夠很好地為更豐富的用戶輸入行為進(jìn)行建模。利用已經(jīng)得到證明的、基于“多特征融合的對(duì)數(shù)線性模型”的機(jī)器學(xué)習(xí)技術(shù),英庫(kù)拼音開(kāi)始了破譯中文詞語(yǔ)和整句輸入密碼的征程。

        在互聯(lián)網(wǎng)還不夠普及的時(shí)期,中文輸入法的訓(xùn)練語(yǔ)料主要來(lái)自于報(bào)紙、雜志和詞典等公開(kāi)出版物,數(shù)據(jù)量比較小,訓(xùn)練出的語(yǔ)言模型更接近“書(shū)面語(yǔ)”。1年的《人民日?qǐng)?bào)》文本量大概為200MB,而如今僅微博上不到1個(gè)月的文本量就超過(guò)1GB。為了了解最新的中文語(yǔ)言動(dòng)態(tài),英庫(kù)拼音輸入法的訓(xùn)練語(yǔ)料庫(kù)不僅包含來(lái)自必應(yīng)搜索引擎的數(shù)據(jù),而且擁有獨(dú)立的“爬蟲(chóng)”進(jìn)行全天候的工作,集合了來(lái)自微博、博客、論壇、新聞和小說(shuō)等渠道的大規(guī)模實(shí)時(shí)數(shù)據(jù)。拿到這些數(shù)據(jù)之后,他們利用微軟先進(jìn)的云計(jì)算服務(wù)器,自動(dòng)學(xué)習(xí)語(yǔ)言模型的參數(shù)。舉個(gè)簡(jiǎn)單的例子,輸入“ni’xian’zai’gan’shen’me”,得到的每個(gè)字都有很多候選,如果要獲得“你現(xiàn)在干什么”的最優(yōu)選項(xiàng),首先要利用基本的語(yǔ)法規(guī)則進(jìn)行分詞,然后就需要知道“你”后面出現(xiàn)“現(xiàn)在”的概率要比“先在、西安再”高,而“現(xiàn)在”后面出現(xiàn)“干”字的概率要比“感、敢、趕”字高,以此類(lèi)推。當(dāng)然,這只是機(jī)器通過(guò)語(yǔ)料庫(kù)學(xué)習(xí)語(yǔ)言模型參數(shù)的基本原理,真實(shí)情況下考慮的因素要復(fù)雜得多。據(jù)微軟亞洲研究院自然語(yǔ)言組主管研究員李沐博士介紹,“通過(guò)基于云計(jì)算的大數(shù)據(jù)模型,該系統(tǒng)成功地將中文轉(zhuǎn)換錯(cuò)誤率降低了25%,取得了初步成功?!?/p>

        另外,這套機(jī)器學(xué)習(xí)的系統(tǒng)還有一項(xiàng)重要的功能,那就是從實(shí)時(shí)的大數(shù)據(jù)里面發(fā)現(xiàn)新知識(shí)。比如說(shuō)“甄嬛體”是4月28號(hào)左右開(kāi)始在微博上“冒”出來(lái)的,最初兩天使用頻率不高,但是到了5月1號(hào),英庫(kù)拼音輸入法的后臺(tái)就成功地發(fā)現(xiàn)大家都在用這個(gè)詞,所以系統(tǒng)已經(jīng)成功地把它加入到英庫(kù)拼音輸入法的詞庫(kù)中,直接就可以打出“甄嬛體”了。

        事實(shí)上,這些方法并非最新概念。由于越來(lái)越多的用戶參與到互聯(lián)網(wǎng)內(nèi)容的生成活動(dòng)中,產(chǎn)生了大規(guī)模的實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),而且隨著云計(jì)算能力的不斷提高,機(jī)器學(xué)習(xí)算法才逐漸被引入到自然語(yǔ)言處理技術(shù)中,從而將中文輸入法帶入了又一個(gè)黃金年代??梢哉f(shuō),這是讓大數(shù)據(jù)研究和云計(jì)算技術(shù)“落地”的絕佳范例。

        重視用戶的體驗(yàn)

        這些年來(lái),隨著互聯(lián)網(wǎng)不斷深入人們的生活,用戶的輸入需求發(fā)生了明顯的變化。首先,大量英文詞匯漸漸融入漢語(yǔ),除了口語(yǔ)中夾帶的英文單詞外,最常用到的莫過(guò)于一些知名商標(biāo)和縮寫(xiě)詞,例如HTML、Kinect、iPhone以及SIM卡、Beta版、UI等;然后,聊天打字變得越來(lái)越不拘一格,各種誤拼寫(xiě)變成了家常便飯;最后,像“傷不起、甄嬛體和你懂的”這樣的新詞匯層出不窮。

        英庫(kù)拼音考慮到了上述情況,在機(jī)器學(xué)習(xí)系統(tǒng)中,分別加入了中英文混輸、誤拼寫(xiě)容錯(cuò)和新詞匯識(shí)別等子模型,快速地完善和補(bǔ)充最終的拼音-漢字轉(zhuǎn)換模型。與這種動(dòng)態(tài)語(yǔ)言模型配套的監(jiān)測(cè)系統(tǒng),會(huì)跟蹤查看加入新的子模型之后,用戶的輸入命中率是否得到了提高,然后根據(jù)反饋的數(shù)據(jù),不斷地進(jìn)行修正。另外,英庫(kù)拼音的云端和客戶端基本語(yǔ)言模型是一致的,只是云端的模型更完善、詞庫(kù)更大。如果本地候選項(xiàng)的“置信度”不高,在聯(lián)網(wǎng)情況下它就會(huì)請(qǐng)求“云候選項(xiàng)”。最終,使用戶即時(shí)獲得更好的輸入體驗(yàn)。

        眾所周知,微軟并不缺中文輸入法,比較早的“智能ABC”和后來(lái)的“微軟拼音”都是操作系統(tǒng)內(nèi)置的輸入法,但是由于更新緩慢,而且表現(xiàn)不佳,它們漸漸被一些互聯(lián)網(wǎng)公司的輸入法產(chǎn)品搶去了市場(chǎng)。潛心修煉1年后,英庫(kù)拼音輸入法攜從機(jī)器翻譯領(lǐng)域演化而來(lái)的中文云輸入引擎而出現(xiàn)。與微軟的傳統(tǒng)商業(yè)軟件開(kāi)發(fā)模式不同,英庫(kù)拼音輸入法也是微軟這艘巨型戰(zhàn)艦向互聯(lián)網(wǎng)產(chǎn)品開(kāi)發(fā)模式轉(zhuǎn)型的一個(gè)縮影,它不僅迅速將理念和技術(shù)轉(zhuǎn)化為產(chǎn)品和解決方案,而且通過(guò)敏捷開(kāi)發(fā)的模式,不斷根據(jù)用戶的真實(shí)需求和使用反饋來(lái)改進(jìn)云輸入系統(tǒng),使產(chǎn)品快速迭代,幾乎每隔一個(gè)月就推出一個(gè)新客戶端版本。

        結(jié)論

        如果論功能是否豐富,那么初出茅廬的英庫(kù)拼音輸入法與當(dāng)前市場(chǎng)上的主流產(chǎn)品還有一點(diǎn)差距。但是微軟對(duì)于未來(lái)技術(shù)的發(fā)展方向有著明確的愿景,現(xiàn)在對(duì)英庫(kù)拼音輸入法項(xiàng)目的投入將帶來(lái)巨大的技術(shù)和市場(chǎng)回報(bào)。第一,利用輸入法“反哺”必應(yīng)詞典和必應(yīng)搜索引擎,在技術(shù)上絕非戲言。第二,免費(fèi)輸入法并非無(wú)利可圖。如果想了解用戶的個(gè)性化行為,最直接的媒介就是輸入法。在大數(shù)據(jù)和云計(jì)算競(jìng)爭(zhēng)的年代,這是微軟拿下的又一個(gè)戰(zhàn)略高地。而用戶得到的是一款更優(yōu)秀的中文輸入法,而且它是干凈的,不必忍受各種彈窗等“流氓”行為。

        聲音

        我們把用戶輸入字符串轉(zhuǎn)換為漢字的過(guò)程也看成一個(gè)翻譯的過(guò)程,就像英漢翻譯是把英文翻譯成漢語(yǔ)一樣,利用大數(shù)據(jù)和云計(jì)算來(lái)驅(qū)動(dòng)音字轉(zhuǎn)換模型的建立。

        李沐

        微軟亞洲研究院自然語(yǔ)言組主管研究員項(xiàng)目帶頭人

        用戶的任何信號(hào),包括文字、語(yǔ)音或者手勢(shì)等移動(dòng)設(shè)備上的多模態(tài)輸入方式將會(huì)無(wú)縫對(duì)接,將時(shí)間、位置等個(gè)性化信息全部匯總之后,再通過(guò)數(shù)據(jù)驅(qū)動(dòng)的模型,將會(huì)找到最優(yōu)的輸入模式,引領(lǐng)輸入法的未來(lái)。

        周明

        微軟亞洲研究院首席研究員

        自然計(jì)算組負(fù)責(zé)人

        對(duì)搜狗輸入法來(lái)說(shuō),微軟英庫(kù)拼音輸入法技術(shù)上的一小步,都是對(duì)它市場(chǎng)地位威脅的一大步。在用戶體驗(yàn)為王的時(shí)代,一種輸入法僅憑使用習(xí)慣的護(hù)城河,很難抗拒技術(shù)的進(jìn)步。

        “炳叔”

        知名IT博主和評(píng)論員

        狠狠躁夜夜躁人人爽天天不卡软件| 亚洲综合精品在线观看中文字幕| 久久亚洲一区二区三区四区五| 国产色第一区不卡高清| 国产在线一区二区三区乱码| 国模无码一区二区三区| 亚洲啪啪综合av一区| 国产白丝在线| 欧美日韩一二三区高在线| 天堂av一区二区麻豆| 久久午夜精品人妻一区二区三区| av国产传媒精品免费| 国产伦久视频免费观看视频| 国产婷婷丁香五月麻豆 | 青青草视频在线视频播放| 91中文字幕精品一区二区| 亚洲免费一区二区三区四区| 色与欲影视天天看综合网| 国产国语熟妇视频在线观看| 国产av天堂成人网| 女同av免费在线播放| 毛片在线播放亚洲免费中文网| 少妇真实被内射视频三四区| 国产激情精品一区二区三区| 中文字幕精品一二三区| 亚洲成人免费久久av| 久久精品一区二区三区蜜桃| а天堂中文最新一区二区三区| 国产福利午夜波多野结衣| 鲁丝一区鲁丝二区鲁丝三区| 一区二区国产视频在线| 日韩av一区二区网址| 无码人妻人妻经典| 欧美在线综合| 国产一区二区三区高清视频| 午夜影院免费观看小视频| 优优人体大尺大尺无毒不卡| 欧美日韩视频无码一区二区三| 91福利国产在线观看一区二区| 日韩成精品视频在线观看| 亚洲av一区二区三区蜜桃|