陳憲濤,關(guān)岱松,周茉莉,王任振,魏歡
(百度人工智能交互設(shè)計(jì)院,北京 100193)
隨著語音技術(shù)的不斷成熟,自然語音交互正逐漸融入日常生活,人們與產(chǎn)品之間的交互媒介開始由圖形用戶界面轉(zhuǎn)變?yōu)檎Z音用戶界面(Voice User Interface,VUI)。語音用戶界面主要指基于語音識(shí)別技術(shù),支持用人類語言與設(shè)備進(jìn)行信息交互和實(shí)現(xiàn)用戶意圖的界面[1]。與圖形用戶界面相比,語音用戶界面具有更自然、更高效的交互屬性,為了實(shí)現(xiàn)類似日常人與人對(duì)話的互動(dòng)體驗(yàn),語音用戶界面通常需要及時(shí)響應(yīng)人們的指令和操作[2-3]。在技術(shù)實(shí)現(xiàn)上,語音用戶界面性能的評(píng)價(jià)涉及很多方面,其中響應(yīng)時(shí)間是重要的性能指標(biāo)之一,產(chǎn)品實(shí)際的響應(yīng)時(shí)間會(huì)受語音識(shí)別算法效率、聲學(xué)模型質(zhì)量、語言模型質(zhì)量等多種因素影響[4-6]。不斷優(yōu)化語音用戶界面的響應(yīng)時(shí)間是提高語音產(chǎn)品實(shí)用性的關(guān)鍵[7]。
響應(yīng)時(shí)間(Response Time,RT)是指人機(jī)交互過程中計(jì)算機(jī)對(duì)人們發(fā)出的指令進(jìn)行響應(yīng)所產(chǎn)生的延遲時(shí)間[8]。有研究表明在影響用戶對(duì)產(chǎn)品評(píng)價(jià)的諸多因素中,響應(yīng)時(shí)間是決定用戶滿意度的最重要因素[9]。關(guān)于響應(yīng)時(shí)間對(duì)用戶態(tài)度、行為和心理的影響,在圖形用戶界面交互領(lǐng)域進(jìn)行了大量和廣泛的研究[10-12],例如Dennis等研究網(wǎng)站加載延遲與用戶行為和態(tài)度的關(guān)系,發(fā)現(xiàn)延遲時(shí)間到4 s或更長(zhǎng)時(shí)間,用戶任務(wù)績(jī)效的減少開始趨于平緩,當(dāng)延遲時(shí)間達(dá)到或超過8 s時(shí),用戶滿意評(píng)價(jià)的減少開始趨于平緩[13]。Fiona對(duì)響應(yīng)時(shí)間研究做了全面的梳理,并對(duì)網(wǎng)絡(luò)用戶可容忍的頁面加載時(shí)間進(jìn)行實(shí)驗(yàn),研究發(fā)現(xiàn)理想的頁面加載時(shí)間應(yīng)設(shè)置在2 s以內(nèi)[14]。王海霞等研究響應(yīng)時(shí)間對(duì)人與信息系統(tǒng)交互效率的影響,發(fā)現(xiàn)系統(tǒng)響應(yīng)時(shí)間在0.25~0.75 s的范圍時(shí)交互效率最高,0.25 s以內(nèi)的響應(yīng)時(shí)間容易給人造成壓力和緊張情緒[15]。針對(duì)語音用戶界面的響應(yīng)時(shí)間,Thomas等研究車載語音界面的響應(yīng)延遲對(duì)駕駛員注意力的影響,發(fā)現(xiàn)較短的響應(yīng)延遲可以減少駕駛員注意力從駕駛視野區(qū)轉(zhuǎn)移,建議車載語音界面的響應(yīng)延遲最好能控制在4秒以內(nèi)[16]。Martin等針對(duì)美國(guó)家庭使用智能音箱的語音交互行為進(jìn)行研究,認(rèn)為語音用戶界面的響應(yīng)及對(duì)話設(shè)計(jì)需要參考人人對(duì)話的響應(yīng)情況,發(fā)現(xiàn)過長(zhǎng)的沉默等待時(shí)間經(jīng)常會(huì)被人們視為麻煩[17]。
目前,針對(duì)語音用戶界面響應(yīng)時(shí)間的研究較少,且主要集中在車載或駕駛等特定場(chǎng)景,對(duì)語音交互在其它使用場(chǎng)景的關(guān)注度不夠。另外,語音交互的過程涉及語音喚醒、語音識(shí)別、語義理解、語音合成等多個(gè)環(huán)節(jié),不同環(huán)節(jié)的響應(yīng)時(shí)間對(duì)用戶態(tài)度的影響,尚缺乏系統(tǒng)性的科學(xué)研究和論證。
按照用戶意圖和交互階段,可以將語音用戶界面的用戶任務(wù)分為兩個(gè)基本的交互環(huán)節(jié),如圖1所示,即語音喚醒和語音對(duì)話,先進(jìn)行語音喚醒繼而開啟語音對(duì)話的交互功能[18]。語音喚醒(Voice Wake Up)是指用戶通過特定的喚醒詞,將激活信號(hào)傳遞給設(shè)備以便實(shí)現(xiàn)語音識(shí)別系統(tǒng)的智能開啟[19],例如喚醒詞“小度小度”可以喚醒內(nèi)置百度DuerOS對(duì)話式系統(tǒng)的智能設(shè)備。語音對(duì)話是指設(shè)備被喚醒后針對(duì)用戶發(fā)出的一系列語音指令,設(shè)備進(jìn)行語音識(shí)別、語義理解、語音合成和滿足用戶需求的過程[20],以智能音箱為例,用戶的請(qǐng)求指令可以是點(diǎn)播音樂、查詢天氣、點(diǎn)播有聲資源等。
圖1 語音交互的主要流程
語音喚醒和語音對(duì)話雖同屬用戶與語音用戶界面交互的關(guān)鍵環(huán)節(jié),但兩者在技術(shù)實(shí)現(xiàn)方式及對(duì)用戶體驗(yàn)的影響兩方面均有所不同:在技術(shù)方面,相較于語音對(duì)話的大詞匯量的語音識(shí)別,語音喚醒主要是一個(gè)基于小語料的識(shí)別系統(tǒng)[19];在體驗(yàn)影響方面,作為語音交互的第一步,喚醒效果的好壞直接影響用戶的第一體驗(yàn)。因此,語音喚醒和語音對(duì)話應(yīng)屬語音技術(shù)系統(tǒng)性能優(yōu)化的不同目標(biāo)和對(duì)象。本研究聚焦語音喚醒和語音對(duì)話的響應(yīng)時(shí)間,重點(diǎn)探索語音用戶界面不同環(huán)節(jié)理想的響應(yīng)時(shí)間范圍,同時(shí)也探討不同的響應(yīng)方式對(duì)用戶感知響應(yīng)時(shí)間的影響。
針對(duì)語音用戶界面,了解語音喚醒環(huán)節(jié)用戶感知舒適的響應(yīng)時(shí)間。同時(shí),針對(duì)目前智能產(chǎn)品常見的喚醒響應(yīng)方式,探索不同喚醒響應(yīng)方式對(duì)響應(yīng)時(shí)間感知的影響。
2.1.1 被試
32名被試均是互聯(lián)網(wǎng)公司員工,年齡在20~39歲之間,男性被試17人,女性被試15人。所有被試的視力或矯正視力正常,聽力正常,實(shí)驗(yàn)后給予適量報(bào)酬。
2.1.2 實(shí)驗(yàn)設(shè)計(jì)
本實(shí)驗(yàn)采用9(喚醒響應(yīng)時(shí)間:200 ms、300 ms、400 ms、500 ms、600 ms、700 ms、800 ms、900 ms、1000 ms)×3(喚醒響應(yīng)方式:光效反饋、光效加“嘟”音效反饋、光效加“在呢”人聲反饋)被試內(nèi)設(shè)計(jì),其中三種響應(yīng)方式是目前市場(chǎng)上智能產(chǎn)品語音喚醒環(huán)節(jié)常見的反饋方式,喚醒響應(yīng)時(shí)間的操作定義是用戶說完喚醒詞到設(shè)備被激活的時(shí)間間隔。每種條件下被試需要重復(fù)兩次喚醒,以減低實(shí)驗(yàn)的隨機(jī)誤差,同時(shí)為了控制不同任務(wù)順序帶來的學(xué)習(xí)效應(yīng)以及疲勞效應(yīng),我們對(duì)每個(gè)被試完成任務(wù)的順序進(jìn)行了隨機(jī)化,即實(shí)驗(yàn)中先對(duì)響應(yīng)方式進(jìn)行分組和隨機(jī)處理,然后對(duì)每種響應(yīng)方式下的響應(yīng)時(shí)間進(jìn)行完全隨機(jī)處理。
基于Mark等對(duì)人與智能產(chǎn)品對(duì)話響應(yīng)的評(píng)價(jià)策略[21],我們將實(shí)驗(yàn)的因變量定義為被試對(duì)響應(yīng)時(shí)間的舒適度評(píng)價(jià)(1-太快了,接受不了;2-有點(diǎn)快,能夠接受;3-剛剛好;4-有點(diǎn)慢,能夠接受;5-太慢了,接受不了)。
2.1.3 實(shí)驗(yàn)程序
實(shí)驗(yàn)程序是專門為實(shí)驗(yàn)開發(fā)的智能音箱,主試可以通過設(shè)備后臺(tái)隨時(shí)更改和設(shè)置不同的響應(yīng)時(shí)間和響應(yīng)方式。實(shí)驗(yàn)中,被試與智能音箱距離約為1.5 m,以遠(yuǎn)場(chǎng)語音交互為主。實(shí)驗(yàn)開始前,被試先試用一款普通的智能音箱,主要是為了熟練使用喚醒詞“小度小度”。正式實(shí)驗(yàn)環(huán)節(jié),要求被試分別在不同的自變量水平下對(duì)智能音箱進(jìn)行語音喚醒,完成2次語音喚醒后對(duì)當(dāng)前的喚醒響應(yīng)時(shí)間進(jìn)行主觀打分。實(shí)驗(yàn)結(jié)束后,主試會(huì)針對(duì)響應(yīng)時(shí)間和響應(yīng)方式的評(píng)分及原因?qū)Ρ辉囘M(jìn)行訪談。
在語音喚醒響應(yīng)時(shí)間實(shí)驗(yàn)的基礎(chǔ)上,了解用戶在語音對(duì)話環(huán)節(jié)感知舒適的響應(yīng)時(shí)間。
2.2.1 被試
55名被試均為互聯(lián)網(wǎng)公司員工,年齡在20~39歲之間,男性被試41人,女性被試14人。所有被試的視力或矯正視力正常,聽力正常,實(shí)驗(yàn)后給予適量報(bào)酬。
2.2.2 實(shí)驗(yàn)設(shè)計(jì)
采用被試內(nèi)設(shè)計(jì),自變量為語音對(duì)話環(huán)節(jié)的響應(yīng)時(shí)間,即被試說完請(qǐng)求指令到設(shè)備開始反饋內(nèi)容的時(shí)間間隔,實(shí)驗(yàn)選取了10個(gè)不同長(zhǎng)度的響應(yīng)時(shí)間值(響應(yīng)時(shí)間:300 ms、500 ms、700 ms、900 ms、1100 ms、1300 ms、2000 ms、3000 ms、4000 ms、5000 ms)。實(shí)驗(yàn)使用相同的語音請(qǐng)求指令 “今天天氣怎么樣”,被試說完指令后提供完全相同的請(qǐng)求反饋內(nèi)容。為了控制不同任務(wù)順序帶來的學(xué)習(xí)效應(yīng)以及疲勞效應(yīng),我們對(duì)每個(gè)被試完成任務(wù)的順序進(jìn)行了隨機(jī)化。
實(shí)驗(yàn)的因變量仍然是被試對(duì)感知到的響應(yīng)時(shí)間的舒適度評(píng)價(jià)(1-太快了,接受不了;2-有點(diǎn)快,能夠接受;3-剛剛好;4-有點(diǎn)慢,能夠接受;5-太慢了,接受不了)
2.2.3 實(shí)驗(yàn)程序
實(shí)驗(yàn)程序是專門為實(shí)驗(yàn)開發(fā)的智能音箱,實(shí)驗(yàn)中我們提供了10種不同對(duì)話響應(yīng)時(shí)間設(shè)置的智能音箱。被試與智能音箱的距離是1.5 m,實(shí)驗(yàn)開始前,先讓被試體驗(yàn)一款普通的智能音箱。正式實(shí)驗(yàn)環(huán)節(jié),要求被試分別對(duì)10種不同對(duì)話響應(yīng)時(shí)間設(shè)置的智能音箱進(jìn)行語音請(qǐng)求,然后分別對(duì)響應(yīng)時(shí)間進(jìn)行主觀打分。為了平衡順序效應(yīng),實(shí)驗(yàn)中10款智能音箱采用完全隨機(jī)處理。實(shí)驗(yàn)后主試針對(duì)對(duì)話響應(yīng)時(shí)間的評(píng)價(jià)及原因?qū)Ρ辉囘M(jìn)行訪談。
對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,圖2所示為3種喚醒響應(yīng)方式下不同的喚醒響應(yīng)時(shí)間被試感覺“剛剛好”的占比。當(dāng)響應(yīng)方式為光效時(shí),喚醒響應(yīng)時(shí)間越短,感覺舒適的被試占比越高;當(dāng)響應(yīng)方式為光效加“嘟”音效時(shí),喚醒響應(yīng)時(shí)間在300 ms左右時(shí),感覺舒適的被試占比最高;當(dāng)響應(yīng)方式為光效加“在呢”人聲時(shí),被試感覺舒適的響應(yīng)時(shí)間為500 ms左右。
圖2 不同喚醒響應(yīng)方式下舒適的喚醒響應(yīng)時(shí)間感知曲線
由于實(shí)驗(yàn)程序帶來的誤差,被試實(shí)際體驗(yàn)的對(duì)話響應(yīng)時(shí)間在原來基礎(chǔ)上分別增加了150 ms的時(shí)間。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,如圖3所示,數(shù)據(jù)顯示當(dāng)對(duì)話響應(yīng)時(shí)間為650 ms時(shí),感覺“剛剛好”的被試占比最多。當(dāng)對(duì)話響應(yīng)時(shí)間超過2 150 ms時(shí),感覺“太慢了,接受不了”的被試占比開始明顯增加,被試開始覺得響應(yīng)太慢。
圖3 舒適的對(duì)話響應(yīng)時(shí)間感知曲線
研究探討了語音用戶界面不同交互環(huán)節(jié)響應(yīng)時(shí)間對(duì)用戶感知的影響,發(fā)現(xiàn)用戶感知舒適的響應(yīng)時(shí)間受到響應(yīng)方式以及交互階段影響。被試在語音對(duì)話環(huán)節(jié)感知舒適的響應(yīng)時(shí)間要略長(zhǎng)于語音喚醒環(huán)節(jié),而且喚醒響應(yīng)時(shí)間和喚醒響應(yīng)方式之間的交互作用顯著,不同的喚醒響應(yīng)方式下存在不同的最佳響應(yīng)時(shí)間范圍。
在語音喚醒環(huán)節(jié),當(dāng)響應(yīng)方式為僅光效反饋時(shí),理想的喚醒響應(yīng)時(shí)間范圍是200 ms~400 ms,結(jié)合實(shí)驗(yàn)后的訪談可以發(fā)現(xiàn),被試傾向于響應(yīng)時(shí)間越短越好,因?yàn)楣庑Х答仌r(shí),被試主要通過視覺獲得設(shè)備已經(jīng)被喚醒的信息,并不會(huì)影響被試的思考。實(shí)際上,被試并不喜歡僅光效的反饋方式,被試認(rèn)為僅光效反饋是不充分的,希望同時(shí)伴隨聽覺通道的反饋。當(dāng)響應(yīng)方式為光效加“在呢”人聲反饋時(shí),被試感覺最舒適的響應(yīng)時(shí)間范圍為300 ms~600 ms,訪談中被試提及當(dāng)人聲反饋太快時(shí),感覺像被搶話,思路被打斷,不像人與人之間的自然交流。當(dāng)響應(yīng)方式為光效加“嘟”音效反饋時(shí),被試感覺最舒適的響應(yīng)時(shí)間范圍為200 ms~500 ms,訪談中也有被試提到音效反饋太快也會(huì)給人說話被打斷和搶話的感受,只是程度沒有人聲反饋的影響強(qiáng)烈。
在語音對(duì)話環(huán)節(jié),被試感覺最舒適的響應(yīng)時(shí)間范圍為650 ms~1050 ms,并不是越快越好,這與王海霞等[15]的研究發(fā)現(xiàn)類似,太短的響應(yīng)時(shí)間容易給被試產(chǎn)生壓力和緊張情緒。被試對(duì)語音對(duì)話環(huán)節(jié)理想的響應(yīng)時(shí)間略長(zhǎng)于喚醒響應(yīng)時(shí)間,可能原因包括以下幾個(gè)方面,首先,被試對(duì)兩個(gè)環(huán)節(jié)響應(yīng)時(shí)間的預(yù)期不同,例如訪談中被試提及語音喚醒很像日常交流時(shí)叫別人的名字,而語音對(duì)話環(huán)節(jié)則類似于具體的交流和談話,被試希望在叫別人名字時(shí)能夠更快地得到反饋,而對(duì)話時(shí)則預(yù)期對(duì)方有一定的思考時(shí)間。其次,被試已有認(rèn)知因素的影響,由于被試均有互聯(lián)網(wǎng)使用經(jīng)驗(yàn),他們理解語音對(duì)話環(huán)節(jié)相比語音喚醒環(huán)節(jié),涉及更多的語音識(shí)別、網(wǎng)絡(luò)請(qǐng)求、內(nèi)容傳輸?shù)忍幚憝h(huán)節(jié),因此,評(píng)價(jià)和判斷的標(biāo)準(zhǔn)可能會(huì)受到被試認(rèn)知經(jīng)驗(yàn)的影響。
(1)語音交互的不同環(huán)節(jié),被試對(duì)語音用戶界面的響應(yīng)時(shí)間有不同的要求;(2)在語音喚醒環(huán)節(jié),當(dāng)響應(yīng)方式為光效時(shí),建議將喚醒響應(yīng)時(shí)間范圍控制在200 ms~400 ms。當(dāng)響應(yīng)方式為光效加“嘟”音效時(shí),建議將喚醒響應(yīng)時(shí)間范圍控制在200 ms~500 ms。當(dāng)響應(yīng)方式為光效加“在呢”人聲時(shí),建議將喚醒響應(yīng)時(shí)間范圍控制在300 ms~600 ms;(3)在語音對(duì)話環(huán)節(jié),建議將響應(yīng)時(shí)間范圍控制在650 ms~1050 ms。