亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

智能產(chǎn)品語音用戶界面的響應(yīng)時(shí)間研究

2019-03-14 11:10:50陳憲濤關(guān)岱松周茉莉王任振魏歡

人類工效學(xué) 2019年1期

陳憲濤，關(guān)岱松，周茉莉，王任振，魏歡

(百度人工智能交互設(shè)計(jì)院，北京 100193)

1 引言

隨著語音技術(shù)的不斷成熟，自然語音交互正逐漸融入日常生活，人們與產(chǎn)品之間的交互媒介開始由圖形用戶界面轉(zhuǎn)變?yōu)檎Z音用戶界面(Voice User Interface,VUI)。語音用戶界面主要指基于語音識(shí)別技術(shù)，支持用人類語言與設(shè)備進(jìn)行信息交互和實(shí)現(xiàn)用戶意圖的界面[1]。與圖形用戶界面相比，語音用戶界面具有更自然、更高效的交互屬性，為了實(shí)現(xiàn)類似日常人與人對(duì)話的互動(dòng)體驗(yàn)，語音用戶界面通常需要及時(shí)響應(yīng)人們的指令和操作[2-3]。在技術(shù)實(shí)現(xiàn)上，語音用戶界面性能的評(píng)價(jià)涉及很多方面，其中響應(yīng)時(shí)間是重要的性能指標(biāo)之一，產(chǎn)品實(shí)際的響應(yīng)時(shí)間會(huì)受語音識(shí)別算法效率、聲學(xué)模型質(zhì)量、語言模型質(zhì)量等多種因素影響[4-6]。不斷優(yōu)化語音用戶界面的響應(yīng)時(shí)間是提高語音產(chǎn)品實(shí)用性的關(guān)鍵[7]。

響應(yīng)時(shí)間(Response Time,RT)是指人機(jī)交互過程中計(jì)算機(jī)對(duì)人們發(fā)出的指令進(jìn)行響應(yīng)所產(chǎn)生的延遲時(shí)間[8]。有研究表明在影響用戶對(duì)產(chǎn)品評(píng)價(jià)的諸多因素中，響應(yīng)時(shí)間是決定用戶滿意度的最重要因素[9]。關(guān)于響應(yīng)時(shí)間對(duì)用戶態(tài)度、行為和心理的影響，在圖形用戶界面交互領(lǐng)域進(jìn)行了大量和廣泛的研究[10-12]，例如Dennis等研究網(wǎng)站加載延遲與用戶行為和態(tài)度的關(guān)系，發(fā)現(xiàn)延遲時(shí)間到4 s或更長(zhǎng)時(shí)間，用戶任務(wù)績(jī)效的減少開始趨于平緩，當(dāng)延遲時(shí)間達(dá)到或超過8 s時(shí)，用戶滿意評(píng)價(jià)的減少開始趨于平緩[13]。Fiona對(duì)響應(yīng)時(shí)間研究做了全面的梳理，并對(duì)網(wǎng)絡(luò)用戶可容忍的頁面加載時(shí)間進(jìn)行實(shí)驗(yàn)，研究發(fā)現(xiàn)理想的頁面加載時(shí)間應(yīng)設(shè)置在2 s以內(nèi)[14]。王海霞等研究響應(yīng)時(shí)間對(duì)人與信息系統(tǒng)交互效率的影響，發(fā)現(xiàn)系統(tǒng)響應(yīng)時(shí)間在0.25～0.75 s的范圍時(shí)交互效率最高，0.25 s以內(nèi)的響應(yīng)時(shí)間容易給人造成壓力和緊張情緒[15]。針對(duì)語音用戶界面的響應(yīng)時(shí)間，Thomas等研究車載語音界面的響應(yīng)延遲對(duì)駕駛員注意力的影響，發(fā)現(xiàn)較短的響應(yīng)延遲可以減少駕駛員注意力從駕駛視野區(qū)轉(zhuǎn)移，建議車載語音界面的響應(yīng)延遲最好能控制在4秒以內(nèi)[16]。Martin等針對(duì)美國(guó)家庭使用智能音箱的語音交互行為進(jìn)行研究，認(rèn)為語音用戶界面的響應(yīng)及對(duì)話設(shè)計(jì)需要參考人人對(duì)話的響應(yīng)情況，發(fā)現(xiàn)過長(zhǎng)的沉默等待時(shí)間經(jīng)常會(huì)被人們視為麻煩[17]。

目前，針對(duì)語音用戶界面響應(yīng)時(shí)間的研究較少，且主要集中在車載或駕駛等特定場(chǎng)景，對(duì)語音交互在其它使用場(chǎng)景的關(guān)注度不夠。另外，語音交互的過程涉及語音喚醒、語音識(shí)別、語義理解、語音合成等多個(gè)環(huán)節(jié)，不同環(huán)節(jié)的響應(yīng)時(shí)間對(duì)用戶態(tài)度的影響，尚缺乏系統(tǒng)性的科學(xué)研究和論證。

2 研究方法

按照用戶意圖和交互階段，可以將語音用戶界面的用戶任務(wù)分為兩個(gè)基本的交互環(huán)節(jié)，如圖1所示，即語音喚醒和語音對(duì)話，先進(jìn)行語音喚醒繼而開啟語音對(duì)話的交互功能[18]。語音喚醒(Voice Wake Up)是指用戶通過特定的喚醒詞，將激活信號(hào)傳遞給設(shè)備以便實(shí)現(xiàn)語音識(shí)別系統(tǒng)的智能開啟[19]，例如喚醒詞“小度小度”可以喚醒內(nèi)置百度DuerOS對(duì)話式系統(tǒng)的智能設(shè)備。語音對(duì)話是指設(shè)備被喚醒后針對(duì)用戶發(fā)出的一系列語音指令，設(shè)備進(jìn)行語音識(shí)別、語義理解、語音合成和滿足用戶需求的過程[20]，以智能音箱為例，用戶的請(qǐng)求指令可以是點(diǎn)播音樂、查詢天氣、點(diǎn)播有聲資源等。

圖1 語音交互的主要流程

語音喚醒和語音對(duì)話雖同屬用戶與語音用戶界面交互的關(guān)鍵環(huán)節(jié)，但兩者在技術(shù)實(shí)現(xiàn)方式及對(duì)用戶體驗(yàn)的影響兩方面均有所不同：在技術(shù)方面，相較于語音對(duì)話的大詞匯量的語音識(shí)別，語音喚醒主要是一個(gè)基于小語料的識(shí)別系統(tǒng)[19]；在體驗(yàn)影響方面，作為語音交互的第一步，喚醒效果的好壞直接影響用戶的第一體驗(yàn)。因此，語音喚醒和語音對(duì)話應(yīng)屬語音技術(shù)系統(tǒng)性能優(yōu)化的不同目標(biāo)和對(duì)象。本研究聚焦語音喚醒和語音對(duì)話的響應(yīng)時(shí)間，重點(diǎn)探索語音用戶界面不同環(huán)節(jié)理想的響應(yīng)時(shí)間范圍，同時(shí)也探討不同的響應(yīng)方式對(duì)用戶感知響應(yīng)時(shí)間的影響。

2.1 語音喚醒響應(yīng)時(shí)間實(shí)驗(yàn)

針對(duì)語音用戶界面，了解語音喚醒環(huán)節(jié)用戶感知舒適的響應(yīng)時(shí)間。同時(shí)，針對(duì)目前智能產(chǎn)品常見的喚醒響應(yīng)方式，探索不同喚醒響應(yīng)方式對(duì)響應(yīng)時(shí)間感知的影響。

2.1.1 被試

32名被試均是互聯(lián)網(wǎng)公司員工，年齡在20～39歲之間，男性被試17人，女性被試15人。所有被試的視力或矯正視力正常，聽力正常，實(shí)驗(yàn)后給予適量報(bào)酬。

2.1.2 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)采用9(喚醒響應(yīng)時(shí)間：200 ms、300 ms、400 ms、500 ms、600 ms、700 ms、800 ms、900 ms、1000 ms)×3(喚醒響應(yīng)方式：光效反饋、光效加“嘟”音效反饋、光效加“在呢”人聲反饋)被試內(nèi)設(shè)計(jì)，其中三種響應(yīng)方式是目前市場(chǎng)上智能產(chǎn)品語音喚醒環(huán)節(jié)常見的反饋方式，喚醒響應(yīng)時(shí)間的操作定義是用戶說完喚醒詞到設(shè)備被激活的時(shí)間間隔。每種條件下被試需要重復(fù)兩次喚醒，以減低實(shí)驗(yàn)的隨機(jī)誤差，同時(shí)為了控制不同任務(wù)順序帶來的學(xué)習(xí)效應(yīng)以及疲勞效應(yīng)，我們對(duì)每個(gè)被試完成任務(wù)的順序進(jìn)行了隨機(jī)化,即實(shí)驗(yàn)中先對(duì)響應(yīng)方式進(jìn)行分組和隨機(jī)處理，然后對(duì)每種響應(yīng)方式下的響應(yīng)時(shí)間進(jìn)行完全隨機(jī)處理。

基于Mark等對(duì)人與智能產(chǎn)品對(duì)話響應(yīng)的評(píng)價(jià)策略[21]，我們將實(shí)驗(yàn)的因變量定義為被試對(duì)響應(yīng)時(shí)間的舒適度評(píng)價(jià)(1-太快了,接受不了;2-有點(diǎn)快,能夠接受;3-剛剛好;4-有點(diǎn)慢,能夠接受;5-太慢了,接受不了)。

2.1.3 實(shí)驗(yàn)程序

實(shí)驗(yàn)程序是專門為實(shí)驗(yàn)開發(fā)的智能音箱，主試可以通過設(shè)備后臺(tái)隨時(shí)更改和設(shè)置不同的響應(yīng)時(shí)間和響應(yīng)方式。實(shí)驗(yàn)中，被試與智能音箱距離約為1.5 m，以遠(yuǎn)場(chǎng)語音交互為主。實(shí)驗(yàn)開始前，被試先試用一款普通的智能音箱，主要是為了熟練使用喚醒詞“小度小度”。正式實(shí)驗(yàn)環(huán)節(jié)，要求被試分別在不同的自變量水平下對(duì)智能音箱進(jìn)行語音喚醒，完成2次語音喚醒后對(duì)當(dāng)前的喚醒響應(yīng)時(shí)間進(jìn)行主觀打分。實(shí)驗(yàn)結(jié)束后，主試會(huì)針對(duì)響應(yīng)時(shí)間和響應(yīng)方式的評(píng)分及原因?qū)Ρ辉囘M(jìn)行訪談。

2.2 語音對(duì)話響應(yīng)時(shí)間實(shí)驗(yàn)

在語音喚醒響應(yīng)時(shí)間實(shí)驗(yàn)的基礎(chǔ)上，了解用戶在語音對(duì)話環(huán)節(jié)感知舒適的響應(yīng)時(shí)間。

2.2.1 被試

55名被試均為互聯(lián)網(wǎng)公司員工，年齡在20～39歲之間，男性被試41人，女性被試14人。所有被試的視力或矯正視力正常，聽力正常，實(shí)驗(yàn)后給予適量報(bào)酬。

2.2.2 實(shí)驗(yàn)設(shè)計(jì)

采用被試內(nèi)設(shè)計(jì)，自變量為語音對(duì)話環(huán)節(jié)的響應(yīng)時(shí)間，即被試說完請(qǐng)求指令到設(shè)備開始反饋內(nèi)容的時(shí)間間隔，實(shí)驗(yàn)選取了10個(gè)不同長(zhǎng)度的響應(yīng)時(shí)間值(響應(yīng)時(shí)間：300 ms、500 ms、700 ms、900 ms、1100 ms、1300 ms、2000 ms、3000 ms、4000 ms、5000 ms)。實(shí)驗(yàn)使用相同的語音請(qǐng)求指令 “今天天氣怎么樣”，被試說完指令后提供完全相同的請(qǐng)求反饋內(nèi)容。為了控制不同任務(wù)順序帶來的學(xué)習(xí)效應(yīng)以及疲勞效應(yīng)，我們對(duì)每個(gè)被試完成任務(wù)的順序進(jìn)行了隨機(jī)化。

實(shí)驗(yàn)的因變量仍然是被試對(duì)感知到的響應(yīng)時(shí)間的舒適度評(píng)價(jià)(1-太快了,接受不了;2-有點(diǎn)快,能夠接受;3-剛剛好;4-有點(diǎn)慢,能夠接受;5-太慢了,接受不了)

2.2.3 實(shí)驗(yàn)程序

實(shí)驗(yàn)程序是專門為實(shí)驗(yàn)開發(fā)的智能音箱，實(shí)驗(yàn)中我們提供了10種不同對(duì)話響應(yīng)時(shí)間設(shè)置的智能音箱。被試與智能音箱的距離是1.5 m，實(shí)驗(yàn)開始前，先讓被試體驗(yàn)一款普通的智能音箱。正式實(shí)驗(yàn)環(huán)節(jié)，要求被試分別對(duì)10種不同對(duì)話響應(yīng)時(shí)間設(shè)置的智能音箱進(jìn)行語音請(qǐng)求，然后分別對(duì)響應(yīng)時(shí)間進(jìn)行主觀打分。為了平衡順序效應(yīng),實(shí)驗(yàn)中10款智能音箱采用完全隨機(jī)處理。實(shí)驗(yàn)后主試針對(duì)對(duì)話響應(yīng)時(shí)間的評(píng)價(jià)及原因?qū)Ρ辉囘M(jìn)行訪談。

3 研究結(jié)果

對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析，圖2所示為3種喚醒響應(yīng)方式下不同的喚醒響應(yīng)時(shí)間被試感覺“剛剛好”的占比。當(dāng)響應(yīng)方式為光效時(shí)，喚醒響應(yīng)時(shí)間越短，感覺舒適的被試占比越高；當(dāng)響應(yīng)方式為光效加“嘟”音效時(shí)，喚醒響應(yīng)時(shí)間在300 ms左右時(shí)，感覺舒適的被試占比最高；當(dāng)響應(yīng)方式為光效加“在呢”人聲時(shí)，被試感覺舒適的響應(yīng)時(shí)間為500 ms左右。

圖2 不同喚醒響應(yīng)方式下舒適的喚醒響應(yīng)時(shí)間感知曲線

由于實(shí)驗(yàn)程序帶來的誤差，被試實(shí)際體驗(yàn)的對(duì)話響應(yīng)時(shí)間在原來基礎(chǔ)上分別增加了150 ms的時(shí)間。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析，如圖3所示，數(shù)據(jù)顯示當(dāng)對(duì)話響應(yīng)時(shí)間為650 ms時(shí)，感覺“剛剛好”的被試占比最多。當(dāng)對(duì)話響應(yīng)時(shí)間超過2 150 ms時(shí)，感覺“太慢了，接受不了”的被試占比開始明顯增加，被試開始覺得響應(yīng)太慢。

圖3 舒適的對(duì)話響應(yīng)時(shí)間感知曲線

4 討論

研究探討了語音用戶界面不同交互環(huán)節(jié)響應(yīng)時(shí)間對(duì)用戶感知的影響，發(fā)現(xiàn)用戶感知舒適的響應(yīng)時(shí)間受到響應(yīng)方式以及交互階段影響。被試在語音對(duì)話環(huán)節(jié)感知舒適的響應(yīng)時(shí)間要略長(zhǎng)于語音喚醒環(huán)節(jié)，而且喚醒響應(yīng)時(shí)間和喚醒響應(yīng)方式之間的交互作用顯著，不同的喚醒響應(yīng)方式下存在不同的最佳響應(yīng)時(shí)間范圍。

在語音喚醒環(huán)節(jié)，當(dāng)響應(yīng)方式為僅光效反饋時(shí)，理想的喚醒響應(yīng)時(shí)間范圍是200 ms～400 ms，結(jié)合實(shí)驗(yàn)后的訪談可以發(fā)現(xiàn)，被試傾向于響應(yīng)時(shí)間越短越好，因?yàn)楣庑Х答仌r(shí)，被試主要通過視覺獲得設(shè)備已經(jīng)被喚醒的信息，并不會(huì)影響被試的思考。實(shí)際上，被試并不喜歡僅光效的反饋方式，被試認(rèn)為僅光效反饋是不充分的，希望同時(shí)伴隨聽覺通道的反饋。當(dāng)響應(yīng)方式為光效加“在呢”人聲反饋時(shí)，被試感覺最舒適的響應(yīng)時(shí)間范圍為300 ms～600 ms，訪談中被試提及當(dāng)人聲反饋太快時(shí)，感覺像被搶話，思路被打斷，不像人與人之間的自然交流。當(dāng)響應(yīng)方式為光效加“嘟”音效反饋時(shí)，被試感覺最舒適的響應(yīng)時(shí)間范圍為200 ms～500 ms，訪談中也有被試提到音效反饋太快也會(huì)給人說話被打斷和搶話的感受，只是程度沒有人聲反饋的影響強(qiáng)烈。

在語音對(duì)話環(huán)節(jié)，被試感覺最舒適的響應(yīng)時(shí)間范圍為650 ms～1050 ms，并不是越快越好，這與王海霞等[15]的研究發(fā)現(xiàn)類似，太短的響應(yīng)時(shí)間容易給被試產(chǎn)生壓力和緊張情緒。被試對(duì)語音對(duì)話環(huán)節(jié)理想的響應(yīng)時(shí)間略長(zhǎng)于喚醒響應(yīng)時(shí)間，可能原因包括以下幾個(gè)方面，首先，被試對(duì)兩個(gè)環(huán)節(jié)響應(yīng)時(shí)間的預(yù)期不同，例如訪談中被試提及語音喚醒很像日常交流時(shí)叫別人的名字，而語音對(duì)話環(huán)節(jié)則類似于具體的交流和談話，被試希望在叫別人名字時(shí)能夠更快地得到反饋，而對(duì)話時(shí)則預(yù)期對(duì)方有一定的思考時(shí)間。其次，被試已有認(rèn)知因素的影響，由于被試均有互聯(lián)網(wǎng)使用經(jīng)驗(yàn)，他們理解語音對(duì)話環(huán)節(jié)相比語音喚醒環(huán)節(jié)，涉及更多的語音識(shí)別、網(wǎng)絡(luò)請(qǐng)求、內(nèi)容傳輸?shù)忍幚憝h(huán)節(jié)，因此，評(píng)價(jià)和判斷的標(biāo)準(zhǔn)可能會(huì)受到被試認(rèn)知經(jīng)驗(yàn)的影響。

5 結(jié)論

(1)語音交互的不同環(huán)節(jié)，被試對(duì)語音用戶界面的響應(yīng)時(shí)間有不同的要求；(2)在語音喚醒環(huán)節(jié)，當(dāng)響應(yīng)方式為光效時(shí)，建議將喚醒響應(yīng)時(shí)間范圍控制在200 ms～400 ms。當(dāng)響應(yīng)方式為光效加“嘟”音效時(shí)，建議將喚醒響應(yīng)時(shí)間范圍控制在200 ms～500 ms。當(dāng)響應(yīng)方式為光效加“在呢”人聲時(shí)，建議將喚醒響應(yīng)時(shí)間范圍控制在300 ms～600 ms；(3)在語音對(duì)話環(huán)節(jié)，建議將響應(yīng)時(shí)間范圍控制在650 ms～1050 ms。