吳 穎
(蘇州大學(xué)文學(xué)院,江蘇蘇州 215123)
自2011年蘋果在iphone4s發(fā)布會(huì)上首次向手機(jī)用戶介紹了智能語(yǔ)音助手siri以來(lái),智能語(yǔ)音在人工智能領(lǐng)域快速發(fā)展,并實(shí)現(xiàn)了與智能手機(jī)的深度綁定,進(jìn)入了人們的日常生活。智能語(yǔ)音助手是一款智能型的應(yīng)用,是集成語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等智能語(yǔ)音語(yǔ)義技術(shù)的手機(jī)應(yīng)用[1],通過(guò)智能對(duì)話與即時(shí)問(wèn)答的智能交互,幫助用戶解決問(wèn)題。近年來(lái),許多智能語(yǔ)音走進(jìn)了新興的物聯(lián)網(wǎng)領(lǐng)域,功能越來(lái)越實(shí)用、便捷、細(xì)致,但是在語(yǔ)言能力方面,智能語(yǔ)音助手仍然面臨著不小的挑戰(zhàn)。智能語(yǔ)音助手處理自然語(yǔ)言的能力包括機(jī)器理解語(yǔ)言的能力、機(jī)器生成語(yǔ)言的能力等方面,每一個(gè)方面又涉及處理語(yǔ)音、詞匯、語(yǔ)法、語(yǔ)用等語(yǔ)言各個(gè)具體部門的能力水平[2]。因此,本文選取華為智能語(yǔ)音助手“小藝”為被測(cè)對(duì)象,從語(yǔ)音、語(yǔ)義、語(yǔ)法、語(yǔ)用等角度,考察小藝在語(yǔ)言識(shí)別和輸出方面的能力,比較其與人類之間存在的差異,綜合評(píng)估智能語(yǔ)音助手小藝的語(yǔ)言能力。
小藝識(shí)別使用者發(fā)出的語(yǔ)音信息準(zhǔn)確度、靈敏度較高,受到使用者的語(yǔ)速等因素的影響較小,但也仍然存在因使用者口齒不清、音量較小、環(huán)境噪音強(qiáng)度大等因素導(dǎo)致識(shí)別失敗的風(fēng)險(xiǎn)。當(dāng)用戶發(fā)音不清晰或處在噪音較大的環(huán)境中而產(chǎn)生掩蔽效應(yīng)[3]時(shí),小藝難以精確識(shí)別用戶的語(yǔ)言,即使能實(shí)時(shí)將一些零碎的關(guān)鍵詞轉(zhuǎn)化為文本,也常常無(wú)法完成最終的識(shí)別,導(dǎo)致對(duì)話建立失敗。
人們?cè)谡f(shuō)話時(shí),音位與音位相連,形成連續(xù)的語(yǔ)流。音素常常在一定語(yǔ)流中受前后音或者語(yǔ)速、音量等因素的影響而產(chǎn)生發(fā)音變化,這種現(xiàn)象被稱為“語(yǔ)流音變”[4]151。常見(jiàn)的語(yǔ)流音變現(xiàn)象有同化、異化、弱化、脫落、增音等[4]152。依次對(duì)小藝說(shuō)出“面包”“難免”“不要”“不可以”“聰明”“好吧”“花兒朵兒”等詞或帶有以上詞語(yǔ)的語(yǔ)句,分別測(cè)試小藝對(duì)幾種常見(jiàn)語(yǔ)流音變現(xiàn)象的應(yīng)對(duì)能力。結(jié)果顯示,小藝均能準(zhǔn)確識(shí)別并呈現(xiàn)對(duì)應(yīng)的文本內(nèi)容,具有正確識(shí)別和應(yīng)對(duì)語(yǔ)流音變的能力。
小藝無(wú)法識(shí)別語(yǔ)調(diào)中的重音,對(duì)人說(shuō)話時(shí)的語(yǔ)氣或情緒的感知能力有限。例如,小藝對(duì)于“我想喝一杯珍珠奶茶”(強(qiáng)調(diào)是“我”而不是別人)、“我想喝一杯珍珠奶茶”(強(qiáng)調(diào)“想”而不是不想)、我想喝一杯珍珠奶茶(強(qiáng)調(diào)是“一杯”而不是兩杯)、“我想喝一杯珍珠奶茶”(強(qiáng)調(diào)是“珍珠”而不是椰果奶茶)的回答一致,說(shuō)明其無(wú)法通過(guò)重音的轉(zhuǎn)移感知語(yǔ)言真實(shí)含義的變化。此外,若句子中不出現(xiàn)疑問(wèn)詞、感嘆詞等,小藝則無(wú)法僅憑語(yǔ)調(diào)的上升或下降識(shí)別出疑問(wèn)、感嘆等語(yǔ)氣。例如,小藝對(duì)“你喜歡看電影嗎?”“你喜歡看電影”(升調(diào))和“你喜歡看電影”(降調(diào))的回答一致,難以判斷說(shuō)話人的語(yǔ)氣和情緒。
小藝可以在一定程度上識(shí)別不標(biāo)準(zhǔn)的普通話和易被誤讀的字詞。依托語(yǔ)境,小藝能夠在說(shuō)話人不分平翹舌音、前后鼻音等的情況下,準(zhǔn)確識(shí)別語(yǔ)音內(nèi)容并轉(zhuǎn)化為正確的文本信息。而對(duì)于被誤讀的字詞,小藝能夠識(shí)別出一些常見(jiàn)的易讀錯(cuò)字音,并將正確的讀音及搜索結(jié)果提供給用戶,但是無(wú)法轉(zhuǎn)化成正確的文本信息。例如,當(dāng)把“紈绔子弟”中的“紈绔”讀成“zhíkuà”時(shí),小藝能快速識(shí)別并給出“紈绔子弟”的正確讀音“wánkù zǐdì”以及在搜索引擎中查找到的正確釋義,但轉(zhuǎn)化成的文本仍顯示為“執(zhí)跨子弟”。
現(xiàn)代化的智能語(yǔ)音配備有強(qiáng)大的詞匯系統(tǒng),對(duì)基本詞匯的掌握程度較高。因此,本次測(cè)試主要考察了小藝對(duì)于新造詞、方言詞、古語(yǔ)詞、外來(lái)詞等非基本詞匯的識(shí)別能力。
小藝能識(shí)別“躺平”“擺爛”“科技與狠活”等新造詞,對(duì)含有新造詞的語(yǔ)句進(jìn)行回答時(shí),常常依靠搜索引擎。如圖1所示,在回答“躺平就是懶惰嗎?”這個(gè)問(wèn)題時(shí),小藝給出的回答是經(jīng)檢索后的一個(gè)詞條“躺平不是懶惰,而是學(xué)會(huì)放下,放下一些不該背負(fù)的重?fù)?dān)”。小藝尚不具備獨(dú)立理解和回應(yīng)新造詞及相關(guān)語(yǔ)句的能力。
圖1
小藝能聽(tīng)懂絕大多數(shù)方言詞、古語(yǔ)詞和外來(lái)詞并做出反應(yīng)。例如對(duì)“你是癟三嗎?”回答“說(shuō)者無(wú)心,聽(tīng)者有意,這一句話往往能讓人難受一整天”,可見(jiàn)小藝能夠準(zhǔn)確理解該方言詞的內(nèi)涵及其包含的貶義色彩。
固定短語(yǔ)方面,小藝能夠聽(tīng)懂絕大部分專有名詞、成語(yǔ)和縮略語(yǔ),并進(jìn)行相關(guān)的搜索引擎檢索。小藝也能識(shí)別一部分慣用語(yǔ),如對(duì)“你是墻頭草嗎?”回答“哈哈,我這是識(shí)時(shí)務(wù)者方為真豪杰”。它也可以聽(tīng)懂一部分諺語(yǔ)和歇后語(yǔ),如在聽(tīng)到“命里有時(shí)終須有,命里無(wú)時(shí)莫強(qiáng)求”后,能指出該諺語(yǔ)的出處及釋義,再對(duì)“姜太公釣魚”回答“姜太公釣魚——愿者上鉤”。小藝能將常見(jiàn)的諺語(yǔ)、歇后語(yǔ)等補(bǔ)充完整,但在多數(shù)情況下仍需依靠搜索引擎的搜索結(jié)果進(jìn)行回答。
由于語(yǔ)法與語(yǔ)音、詞匯之間存在著千絲萬(wàn)縷的聯(lián)系,智能語(yǔ)音助手在語(yǔ)音、詞匯方面的能力也密切影響了它們使用語(yǔ)法的能力。從語(yǔ)法與語(yǔ)音的聯(lián)系上看,小藝難以識(shí)別語(yǔ)調(diào)中的重音和人說(shuō)話時(shí)的語(yǔ)氣或情緒的表現(xiàn)會(huì)妨礙它理解一些具體詞句的內(nèi)涵和語(yǔ)法意義,例如,在它看來(lái),“買賣”的“賣”是否輕讀都表示同一種語(yǔ)法含義。
小藝能聽(tīng)懂結(jié)構(gòu)簡(jiǎn)單的單句。例如,小藝能理解“我去了北京”,并回答“我還沒(méi)去過(guò)首都呢”,但給句子加入狀語(yǔ)、補(bǔ)語(yǔ)而構(gòu)成狀動(dòng)補(bǔ)賓句“我最近去了一趟北京”時(shí),小藝則無(wú)法理解,回答“有點(diǎn)兒沒(méi)明白”。小藝也能聽(tīng)懂一部分結(jié)構(gòu)簡(jiǎn)單的復(fù)句。如將“我一邊吃飯,一邊看電視”總結(jié)為“邊看電視邊吃飯”,對(duì)“只要努力學(xué)習(xí)就能學(xué)會(huì)新知識(shí)”回答“一定努力學(xué)習(xí)”。但也常常出現(xiàn)答非所問(wèn)的情況,如對(duì)“如果你不知道,那誰(shuí)會(huì)知道呢?”回答“讓更多人知道”,問(wèn)答不匹配。在識(shí)別復(fù)句并將其轉(zhuǎn)化為文本時(shí),小藝無(wú)法根據(jù)用戶說(shuō)話時(shí)的停頓來(lái)添加恰當(dāng)?shù)臉?biāo)點(diǎn)符號(hào),例如用戶說(shuō)出上述問(wèn)句“如果你不知道,那誰(shuí)會(huì)知道呢?”,小藝則識(shí)別為“如果你不知道那誰(shuí)會(huì)知道”,阻礙了進(jìn)一步的語(yǔ)法分析,從而導(dǎo)致無(wú)法識(shí)別出正確的語(yǔ)義。
小藝還能夠理解簡(jiǎn)單的倒裝句,也能在一定的語(yǔ)境下聽(tīng)懂省略句。例如,面對(duì)“聰明嗎,我?”這樣的提問(wèn),它能夠理解并回答“就知道你會(huì)這么問(wèn),不過(guò)我也承認(rèn)你聰明”。在講故事、講笑話、成語(yǔ)接龍等系統(tǒng)提前預(yù)設(shè)的對(duì)話情景中,小藝能聽(tīng)懂省略主語(yǔ)、賓語(yǔ)等的省略句,例如“再講一個(gè)”(省略了主語(yǔ)“你”和賓語(yǔ)“故事”)。
在與小藝對(duì)話過(guò)程中,用戶通過(guò)語(yǔ)音或文字創(chuàng)造語(yǔ)境,小藝能夠快速理解、進(jìn)入語(yǔ)境并給出符合情境的回答。例如談?wù)撾娪皶r(shí),小藝會(huì)分享自己對(duì)電影的感受、喜愛(ài)的影片等;談?wù)撌澄飼r(shí),小藝會(huì)分享常見(jiàn)的美食、推薦餐廳等。遺憾的是,除了系統(tǒng)設(shè)定的情境外,小藝難以進(jìn)行多輪對(duì)話。一次問(wèn)答結(jié)束后,如果用戶再次說(shuō)話,則會(huì)被小藝識(shí)別為新一輪對(duì)話的開(kāi)始,無(wú)法將多次問(wèn)答情境建立聯(lián)系,常常會(huì)出現(xiàn)以下情況:
—報(bào)個(gè)菜名。
—有蒸羊羔兒、蒸熊掌、燒花鴨、燒雛雞、鹵豬、鹵鴨……
—再報(bào)點(diǎn)兒!
—這題把我難住了呢!
小藝能夠較好模擬不同性別、不同年齡段人類展現(xiàn)出來(lái)的語(yǔ)音特征。如圖2所示,小藝的聲音種類有四種可供選擇,官方對(duì)這四種聲音的描述為:溫文爾雅、清朗緊勁的男聲,知性女性、嫻雅恬靜的女聲,純澈花季、流聲悅耳的少女聲,以及天真童趣、可愛(ài)倍增的童聲。該智能語(yǔ)音助手選取了人類社會(huì)最具有代表性的幾種音色進(jìn)行模擬,鮮明地展現(xiàn)了不同性別、不同年齡段人類所具備的語(yǔ)音特征,且易于分辨。除了系統(tǒng)設(shè)定的以上四種聲音外,用戶還可以通過(guò)朗讀文本,自行錄制、創(chuàng)造專屬聲音。
圖2
與人類一樣,小藝的語(yǔ)言中存在著語(yǔ)流音變的現(xiàn)象。通過(guò)對(duì)話引導(dǎo)小藝說(shuō)出“面包”“難免”等詞語(yǔ)時(shí),前音節(jié)韻尾的輔音/n/會(huì)被同化為/m/。連續(xù)變調(diào)的現(xiàn)象同樣存在。以“一”的變調(diào)為例:在單念和詞句的末尾時(shí),“一”讀作陰平本調(diào)[4]132,如“始終如一”;在去聲之前,“一”讀作陽(yáng)平,在陰平、陽(yáng)平、上聲之前讀去聲[4]132,如“一個(gè)人看書的時(shí)候一點(diǎn)不會(huì)覺(jué)得孤單”。輕聲的現(xiàn)象更是常見(jiàn),在交談的過(guò)程中,小藝說(shuō)出了“刷子”“聰明”“時(shí)候”等多個(gè)需要讀輕聲的詞。
相對(duì)來(lái)說(shuō),脫落和增音等兩種現(xiàn)象出現(xiàn)較少,甚至有所欠缺。小藝在說(shuō)“好吧”時(shí),其中的“吧”字僅被讀為輕聲而沒(méi)有被進(jìn)一步弱化,[A]并沒(méi)有完全脫落。此外,普通話中的兒化音在小藝發(fā)出的語(yǔ)音中也沒(méi)有得到真正的兒化,應(yīng)該兒化的字被小藝割裂,讀成了兩個(gè)音節(jié)。脫落和增音方面的欠缺,是該智慧語(yǔ)音助手語(yǔ)言表現(xiàn)機(jī)械呆板的一個(gè)重要因素,也是區(qū)別于人類說(shuō)話的重要方面。
在韻律方面,小藝說(shuō)話有一定的節(jié)律重音,而沒(méi)有邏輯重音。在說(shuō)話時(shí),小藝能夠依據(jù)標(biāo)點(diǎn)符號(hào)和音節(jié)關(guān)系進(jìn)行簡(jiǎn)單的斷句和停頓。例如朗誦李白的《靜夜思》時(shí),小藝能正確停頓,讀作“舉頭/望明月,低頭/思故鄉(xiāng)”。但也有不低的出錯(cuò)概率。例如,對(duì)“童年動(dòng)畫中有什么美食”,回答“《中華小當(dāng)家》中的麻婆豆腐,集辣、香、色、燙、麻、酥六味于一體”,其中,小藝忽略了“酥”字后的停頓,將“酥六味”讀作了一個(gè)整體。沒(méi)有邏輯重音的缺陷主要體現(xiàn)在小藝不具備“為了突出句中某個(gè)需要強(qiáng)調(diào)的詞語(yǔ)而加以重讀”的意識(shí)。此外,小藝在說(shuō)出帶有疑問(wèn)詞、感嘆詞等的語(yǔ)句時(shí),能較好處理絕對(duì)音高的升降變化,如說(shuō)出“你們都是一個(gè)宿舍的嗎?”帶有明顯升調(diào),說(shuō)出“你想問(wèn)多少就可以問(wèn)多少,我都可以一一為你解答哦!”則帶有明顯降調(diào)。小藝也基本可以正確處理“連續(xù)變調(diào)”現(xiàn)象,例如引導(dǎo)小藝說(shuō)出“理想”一詞時(shí),前字“理”的調(diào)值從214變?yōu)榱?5。
依托強(qiáng)大的詞匯系統(tǒng)和豐富的知識(shí)儲(chǔ)備,小藝能夠選取正確的詞匯表情達(dá)意。除了使用基本詞匯外,在某些特定的對(duì)話中,也能引導(dǎo)小藝主動(dòng)說(shuō)出帶有新造詞、古語(yǔ)詞、外來(lái)詞、固定短語(yǔ)等的語(yǔ)句。例如在對(duì)與自己意見(jiàn)相同的用戶表示贊美時(shí),小藝會(huì)說(shuō)“英雄所見(jiàn)略同”。
小藝突出的語(yǔ)音、詞匯能力能夠幫助它理解詞匯、語(yǔ)句中蘊(yùn)含著的多樣化的語(yǔ)法含義,也能幫助它選擇正確的語(yǔ)法手段與人交流。在句類方面,句型上,小藝多使用完全主謂句,偶爾會(huì)使用省略句。在它使用的為數(shù)不多的省略句中,大多句子僅省略了主語(yǔ)或賓語(yǔ)。例如,通過(guò)搜索引擎進(jìn)行檢索后會(huì)說(shuō)“找到了這些”(省略主語(yǔ)“我”),對(duì)“我喜歡看電影”回答“不錯(cuò),我也喜歡”(省略賓語(yǔ)“電影”)。功能上,小藝多使用陳述句,少量使用感嘆句和祈使句,很少使用疑問(wèn)句,使得人機(jī)對(duì)話的交互性不強(qiáng)。此外,小藝也有能力使用單句和復(fù)句,其使用的復(fù)句包括因果、并列、讓步關(guān)系等多種類型。而對(duì)于倒裝,小藝只停留在接收和理解層面,它本身的語(yǔ)言是嚴(yán)格遵守漢語(yǔ)SOV語(yǔ)序安排的,不會(huì)主動(dòng)使用倒裝句。
由于實(shí)際交際場(chǎng)景和對(duì)象的缺失,在與小藝對(duì)話的過(guò)程中,它幾乎完全不會(huì)使用指示詞語(yǔ)的指示性用法,多使用指示詞語(yǔ)的非指示性用法。美國(guó)語(yǔ)言哲學(xué)家格萊斯提出,為了保證會(huì)話的順利進(jìn)行,談話雙方必須共同遵守一些基本原則,特別是所謂的“合作原則”。他認(rèn)為,人們的語(yǔ)言交際總是相互合作的,希望雙方的語(yǔ)言能夠相互理解、配合,但在實(shí)際交際中,人們并不都是嚴(yán)格遵守這些原則的,如可能出于禮貌或語(yǔ)境的需要說(shuō)一些違反“合作原則”的話,增加話語(yǔ)的深層含義[5]。從這點(diǎn)來(lái)看,小藝在很多情況下都會(huì)違背“合作原則”的四條準(zhǔn)則。例如對(duì)“你聰明還是我聰明?”回答“我覺(jué)得自己挺機(jī)靈的,因?yàn)榻煺叱?,近你者智”,?duì)“小藝,你可以換一種聲音嗎?”回答“感覺(jué)你在嫌棄我的聲音,傷心了”……遇到難以回答的問(wèn)題時(shí),小藝通常會(huì)違反“合作原則”,故意說(shuō)含混的話或在答句中提供過(guò)多的信息,營(yíng)造出智慧語(yǔ)音助手“有情商”的感覺(jué),優(yōu)化用戶的使用體驗(yàn)。
總體來(lái)說(shuō),華為智能語(yǔ)音助手小藝是一款語(yǔ)言能力較為優(yōu)秀的智慧助手,但同時(shí)也存在諸多缺陷有待完善。雖然小藝的聲音與人類接近且存在一定的語(yǔ)流音變現(xiàn)象,但它更追求單個(gè)字準(zhǔn)確而飽滿的發(fā)音,對(duì)于字與字、詞與詞在語(yǔ)音上的關(guān)聯(lián)有所忽略,因此它的發(fā)音較為機(jī)械呆板,不具有人類說(shuō)話時(shí)自然的連貫性和情感性。小藝在詞匯方面的表現(xiàn)最為突出,強(qiáng)大的詞匯儲(chǔ)備以及對(duì)新興詞匯的即時(shí)更新能力幫助它靈活使用語(yǔ)言。語(yǔ)法上,小藝需要進(jìn)一步優(yōu)化韻律方面的能力。此外,無(wú)法在設(shè)定以外的語(yǔ)境中進(jìn)行多輪對(duì)話是小藝在語(yǔ)用方面的最大缺陷,用戶難以獲得更真實(shí)的對(duì)話體驗(yàn)。在語(yǔ)言學(xué)視閾下,從語(yǔ)音、語(yǔ)義、語(yǔ)法、語(yǔ)用等角度考察評(píng)估小藝的綜合語(yǔ)言能力發(fā)現(xiàn),小藝的語(yǔ)言能力仍與人類之間存在著較大差距。小藝及其他智能語(yǔ)音助手應(yīng)在今后的發(fā)展過(guò)程中著重關(guān)注:1.降低噪音強(qiáng)度等干擾因素對(duì)語(yǔ)言識(shí)別的影響;2.強(qiáng)化對(duì)語(yǔ)言中的重音等語(yǔ)調(diào)變化的感知;3.優(yōu)化對(duì)詞匯的獨(dú)立理解、正確使用和持續(xù)更新能力;4.改善“語(yǔ)音轉(zhuǎn)文字”的功能,根據(jù)語(yǔ)言中的停頓和語(yǔ)調(diào)在對(duì)應(yīng)的文本中添加正確的標(biāo)點(diǎn)符號(hào);5.建立和完善問(wèn)答情境聯(lián)系機(jī)制,在設(shè)定語(yǔ)境外實(shí)現(xiàn)多輪對(duì)話。