智能語音助手的知識(shí)服務(wù)能力評(píng)價(jià)研究

2019-11-20 06:54:38趙一鳴朱奕蓉吳林容

圖書與情報(bào) 2019年4期

趙一鳴朱奕蓉吳林容

摘? ?要：文章從基礎(chǔ)能力、初級(jí)知識(shí)服務(wù)能力、高級(jí)知識(shí)服務(wù)能力三個(gè)方面，篩選出十個(gè)二級(jí)指標(biāo)，通過層次分析法確定指標(biāo)權(quán)重，根據(jù)智能語音助手現(xiàn)階段的智力水平，為每個(gè)二級(jí)指標(biāo)選取了相應(yīng)的測試問題，構(gòu)建了智能語音助手的知識(shí)服務(wù)能力評(píng)價(jià)體系，最后以三個(gè)主流的智能語音助手為對(duì)象進(jìn)行了實(shí)證評(píng)價(jià)分析。構(gòu)建的評(píng)價(jià)指標(biāo)體系具有實(shí)用性和動(dòng)態(tài)性，基礎(chǔ)能力的權(quán)重最大，初級(jí)知識(shí)服務(wù)能力和高級(jí)知識(shí)服務(wù)能力次之，實(shí)證研究的結(jié)果表明，現(xiàn)階段主流的中文智能語音助手已經(jīng)具備了一定的知識(shí)服務(wù)能力，但仍然存在較大的提升空間。

關(guān)鍵詞：智能語音助手;知識(shí)服務(wù);知識(shí)服務(wù)能力;層次分析法

中圖分類號(hào)：TP242.6? ?文獻(xiàn)標(biāo)識(shí)碼：A? ?DOI：10.11968/tsyqb.1003-6938.2019070

Evaluating the Knowledge Service Capability of Intelligent Voice Assistants

Abstract In this paper， ten secondary indicators are selected from three aspects： basic ability， primary knowledge service ability and advanced knowledge service ability. Then， the index weights of these indicators are determined by analytic hierarchy process. According to the intelligence level of intelligent voice assistant at present stage， the corresponding test questions are selected for each secondary indicator， and the evaluation system of knowledge service ability of intelligent voice assistant is constructed. Finally， three mainstream intelligent voice assistants are evaluated and analyzed by this evaluation system. The evaluation index system constructed in this paper is practical and dynamic， the weight of basic ability is the largest， followed by primary knowledge service ability and advanced knowledge service ability. The empirical results show that the mainstream Chinese intelligent voice assistant has certain degree of knowledge service ability at now， but there is still much room for improvement.

Key words intelligent voice assistant; knowledge service; knowledge service ability; analytic hierarchy process

1? ?引言

近年來，隨著人工智能以及語音識(shí)別技術(shù)的不斷發(fā)展，智能語音助手逐漸為人們所熟知。目前國內(nèi)外比較成功的智能語音助手包括亞馬遜Alexa 、谷歌助手Google Assistant、蘋果 Siri、微軟 Cortana、百度度秘、咪咕靈犀、天貓精靈等。來自前瞻產(chǎn)業(yè)研究院的資料顯示，在2018年中國智能語音市場的規(guī)模已經(jīng)突破了160億元[1]。美國市場研究機(jī)構(gòu)Strategy Analytics近日發(fā)布的報(bào)告也認(rèn)為，2023年全球?qū)⒂?0%的智能手機(jī)擁有智能語音助手[2]。

智能語音助手被廣泛應(yīng)用在醫(yī)療健康服務(wù)、圖書館服務(wù)、知識(shí)管理等場景中，而在這些場景下，語音助手均可以視作知識(shí)服務(wù)主體。它需要根據(jù)用戶的語音輸入內(nèi)容識(shí)別用戶多樣化需求，再為滿足需求獲取和加工信息，最后利用內(nèi)在程序以及一些具體的功能如詩歌創(chuàng)作、知識(shí)問答、智能提醒等來反饋信息并提供服務(wù)。

目前有關(guān)智能語音助手的研究，主要集中在語音助手的設(shè)計(jì)與優(yōu)化、語音助手在不同場景中的應(yīng)用、用戶對(duì)語音助手智能程度的評(píng)價(jià)等方面，對(duì)于智能語音助手知識(shí)服務(wù)的相關(guān)研究非常匱乏。本研究試圖回答以下問題：智能語音助手是否具備一定的知識(shí)服務(wù)能力？如何評(píng)價(jià)智能語音助手的知識(shí)服務(wù)能力？應(yīng)該從哪些方面提升智能語音助手的知識(shí)服務(wù)能力？

2? ?文獻(xiàn)綜述

2.1? ? 智能語音助手

現(xiàn)階段智能語音助手的相關(guān)研究有許多。一部分研究著眼于拓展智能語音助手在不同場景的應(yīng)用。如醫(yī)療健康領(lǐng)域[3-4]、智能家居應(yīng)用[5]、自動(dòng)駕駛領(lǐng)域[6]、或者個(gè)人與集體的知識(shí)管理領(lǐng)域[7-8]等。另一部分研究則關(guān)注智能語音助手的設(shè)計(jì)與優(yōu)化。如從語音識(shí)別層面、語言表達(dá)層面[9]進(jìn)行分析，或者針對(duì)現(xiàn)有的開發(fā)方法和邏輯框架進(jìn)行改進(jìn)[10]。

還有一些研究，則是將注意力放在了使用智能語音設(shè)備的用戶身上。有些學(xué)者通過設(shè)計(jì)模型[11]或設(shè)置特殊場景[12]，分析用戶行為來確定用戶的滿意程度。另一些學(xué)者通過爬取用戶評(píng)論數(shù)據(jù)、收集用戶使用記錄等方式，間接獲得用戶反饋，完成對(duì)智能語音助手的評(píng)價(jià)[13]或?qū)φZ音助手進(jìn)行優(yōu)化設(shè)計(jì)[14]。也有學(xué)者直接通過問卷調(diào)查法、訪談法或?qū)嶒?yàn)法，得到不同人對(duì)語音助手智能程度的主觀評(píng)價(jià)[15]。

2.2? ? 智能產(chǎn)品評(píng)價(jià)

最著名的測試人工智能是否具有智能的方法是圖靈測試[16]，通過相互隔離的交談后是否能準(zhǔn)確分辨另一方是人還是計(jì)算機(jī)，來判斷計(jì)算機(jī)是否具備智能。但是，也有學(xué)者質(zhì)疑了這種人為判斷方法的客觀性[17]。

對(duì)智能產(chǎn)品的定性評(píng)測包括：Bringsjord等[18]提出的 Lovelace Test，該測試通過讓智能系統(tǒng)創(chuàng)造小說或畫作來判定智能系統(tǒng)是否具有人的認(rèn)知能力;Riedl[19]在Bringsjord研究的基礎(chǔ)上設(shè)計(jì)了一個(gè)改良版的Lovelace 2.0 Test，認(rèn)為如果程序按照要求所創(chuàng)作的內(nèi)容被判定為合乎邏輯或引發(fā)裁判共鳴，那么此人工智能系統(tǒng)就可以被認(rèn)為具有智能;Malinowski和Fritz[20]通過讓測試對(duì)象描述圖片內(nèi)容并回答相關(guān)常識(shí)性問題來進(jìn)行智能判斷;Ohlsson等[21]將針對(duì)4-7.25歲孩子的Verbal IQ測試應(yīng)用在人工智能的智商測定中。

有學(xué)者從定量角度對(duì)智能產(chǎn)品的智力水平進(jìn)行評(píng)價(jià)，如楊強(qiáng)[22]提出“終身學(xué)習(xí)測試”，通過判斷計(jì)算機(jī)能否通過學(xué)習(xí)提升知識(shí)水平來判斷其是否是智能的;劉峰[23]利用德爾菲法對(duì)人工智能的智商測量標(biāo)準(zhǔn)進(jìn)行確定，并提出了定量評(píng)測問題，通過設(shè)計(jì)出的互聯(lián)網(wǎng)智力評(píng)測系統(tǒng)，完成了對(duì)全球50個(gè)搜索引擎和人類對(duì)照組的智商測試。另外，劉峰[24]將人工智能的智商分為通用智商、服務(wù)智商和價(jià)值智商三類，并針對(duì)不同方面的智能，進(jìn)行了一定程度上的指標(biāo)區(qū)別。

3? ?智能語音助手的知識(shí)服務(wù)能力評(píng)價(jià)體系構(gòu)建

3.1? ? 評(píng)價(jià)指標(biāo)體系構(gòu)建

知識(shí)服務(wù)是指以信息知識(shí)的搜尋、組織、分析、重組的知識(shí)和能力為基礎(chǔ)，根據(jù)用戶的問題和環(huán)境，融入用戶解決問題的過程中，提出能夠有效支持知識(shí)應(yīng)用和知識(shí)創(chuàng)新的服務(wù)[25]。在此定義的基礎(chǔ)上，本研究將智能語音助手的知識(shí)服務(wù)歸納為三個(gè)層次：一是能完成信息的輸入與輸出，即基礎(chǔ)能力;二是對(duì)信息知識(shí)的搜尋、組織、分析、重組，即初級(jí)知識(shí)服務(wù)能力;三是根據(jù)用戶問題與環(huán)境，給用戶提供個(gè)性化支持與服務(wù)，即高級(jí)知識(shí)服務(wù)能力。這三個(gè)層次就成為智能語音助手知識(shí)服務(wù)能力的一級(jí)指標(biāo)。

在二級(jí)指標(biāo)的選擇上，為了保證指標(biāo)的可信度和代表性，指標(biāo)的設(shè)置最大限度地借鑒相關(guān)研究的成熟量表[23-24，28]，結(jié)合本研究針對(duì)智能語音助手的具體應(yīng)用情境，并咨詢了相關(guān)專家學(xué)者來確定最終選擇結(jié)果。

基礎(chǔ)能力下設(shè)三個(gè)二級(jí)指標(biāo)，分別是識(shí)別聲音的能力、聲音表達(dá)的能力和被自動(dòng)喚醒的能力。其中識(shí)別聲音能力對(duì)應(yīng)信息獲取，聲音表達(dá)對(duì)應(yīng)知識(shí)反饋，而被自動(dòng)喚醒則是一切知識(shí)服務(wù)的前提，即語音助手的開關(guān)功能。

初級(jí)知識(shí)服務(wù)能力下設(shè)三個(gè)二級(jí)指標(biāo)，分別是計(jì)算、翻譯和知識(shí)問答能力。一方面，這三項(xiàng)能力指標(biāo)所代表的功能均在用戶的日常生活中被大量使用;另一方面，這三個(gè)指標(biāo)涵蓋了數(shù)學(xué)、語言和各種常識(shí)問題，充分反映了智能語音助手獲取信息、加工信息的基礎(chǔ)能力。

高級(jí)知識(shí)服務(wù)能力下設(shè)四個(gè)二級(jí)指標(biāo)，分別是知識(shí)創(chuàng)造能力、猜測和聯(lián)想能力、學(xué)習(xí)能力和個(gè)性化服務(wù)能力。其中知識(shí)創(chuàng)造能力衡量的是語音助手的內(nèi)容創(chuàng)作力，猜測和聯(lián)想能力考察語音助手的邏輯，學(xué)習(xí)能力則是評(píng)價(jià)語音助手的自主學(xué)習(xí)能力，而個(gè)性化服務(wù)能力主要考察語音助手是否能對(duì)不同用戶提供定制服務(wù)。這四個(gè)二級(jí)指標(biāo)均體現(xiàn)語音助手對(duì)個(gè)性化問題與環(huán)境（語境）的識(shí)別和提供針對(duì)性服務(wù)的能力。

3.2? ? 基于層次分析法的指標(biāo)權(quán)重確定

本研究運(yùn)用層次分析法，通過專家經(jīng)驗(yàn)來衡量各個(gè)指標(biāo)間的相對(duì)重要程度，從而確定指標(biāo)權(quán)重。

3.2.1? 構(gòu)建層次結(jié)構(gòu)模型

本研究中的評(píng)價(jià)層次體系由三個(gè)層次組成。目標(biāo)層為總目標(biāo)，即智能語音助手知識(shí)服務(wù)能力，準(zhǔn)則層分別為基礎(chǔ)能力、初級(jí)知識(shí)服務(wù)能力和高級(jí)知識(shí)服務(wù)能力3個(gè)方面，指標(biāo)層為識(shí)別聲音的能力、聲音表達(dá)的能力和被自動(dòng)喚醒的能力等10個(gè)評(píng)價(jià)指標(biāo)（見圖1）。

3.2.2? ?問卷設(shè)計(jì)與發(fā)放

考慮到研究對(duì)象智能語音助手的特殊性，在指標(biāo)權(quán)重確定的專家人選上，并不局限于學(xué)界專家學(xué)者，還有業(yè)界相關(guān)領(lǐng)域的工作人員。為了結(jié)果的準(zhǔn)確性與客觀性，問卷內(nèi)容分為兩個(gè)部分：

第一部分為關(guān)于專家的基本問題，包括學(xué)歷、工作單位、使用語音助手頻次與種類等。此部分信息用于確定專家對(duì)語音助手的了解程度，從而挑選出高質(zhì)量的問卷樣本。

第二部分構(gòu)造判斷矩陣。要求專家依次對(duì)從屬于上一層某個(gè)因素的同層次諸因素用1-9檢驗(yàn)值進(jìn)行兩兩比較，來確定各因素的重要性。

本研究共發(fā)放33份問卷，回收30份，回收率為91%。剔除不符合要求、數(shù)據(jù)不滿足一致性檢驗(yàn)的問卷以后，有15份問卷進(jìn)入到下一步的分析。15份問卷的專家構(gòu)成中，學(xué)界專家有6人，均具有博士學(xué)歷和副教授以上職稱，研究領(lǐng)域?yàn)橹R(shí)服務(wù)、人工智能等;業(yè)界專家有9人，均來自較知名的通信公司或科技公司（見表1）。

3.2.3? 數(shù)據(jù)處理

將專家數(shù)據(jù)錄入YAAHP 12.1軟件（一款針對(duì)層次分析法的輔助軟件），在對(duì)智能語音助手知識(shí)服務(wù)能力評(píng)價(jià)指標(biāo)體系中的各級(jí)指標(biāo)進(jìn)行進(jìn)一步分析后，最終得出各指標(biāo)的權(quán)重分配情況（見表2）。

3.3? ? 題庫構(gòu)建

根據(jù)智能語音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系，本研究為各個(gè)二級(jí)指選取了相應(yīng)的題目，構(gòu)建了智能語音助手知識(shí)服務(wù)能力評(píng)價(jià)的題庫。為保證測試結(jié)果的可靠性，題庫的來源為相關(guān)的書籍、測試以及論文，所選擇題目盡量滿足代表性與權(quán)威性。

3.3.1? 基礎(chǔ)能力題庫構(gòu)建

基礎(chǔ)能力考察的是信息輸入與輸出能力，不同語音助手的實(shí)現(xiàn)方式并不存在差異。針對(duì)基礎(chǔ)能力下3個(gè)對(duì)應(yīng)的二級(jí)指標(biāo)，分別對(duì)它們構(gòu)建題庫（見表3）。

識(shí)別聲音的能力是要了解測試目標(biāo)能否準(zhǔn)確理解語音輸入的測試題目，要求從語音中識(shí)別出正確的文字。測試題目從2015年國際自然語言處理與中文計(jì)算會(huì)議提供的問題集中隨機(jī)選擇。

聲音表達(dá)的能力旨在了解語音助手是否合理回答日常對(duì)話，若僅僅是考慮是否能進(jìn)行語音輸出，那么此種標(biāo)準(zhǔn)會(huì)過于簡單且無意義。為了獲得中文的日常對(duì)話內(nèi)容，查閱了《HSK標(biāo)準(zhǔn)教程1》，該書經(jīng)國家漢辦授權(quán)，以漢語水平考試真題作為教學(xué)素材。此教程是為了幫助漢語初學(xué)者學(xué)習(xí)漢語日常對(duì)話所設(shè)計(jì)，對(duì)本研究相應(yīng)題庫的構(gòu)建有重要的指導(dǎo)意義。本研究從該書中挑選了多個(gè)日常對(duì)話場景作為測試題目。

被自動(dòng)喚醒的能力是要了解測試目標(biāo)是否能通過聲音被自動(dòng)喚醒。實(shí)驗(yàn)方式則是通過多次語音說出觸發(fā)詞，觀察語音助手能被自動(dòng)喚醒的次數(shù)。

3.3.2? 初級(jí)知識(shí)服務(wù)能力題庫構(gòu)建

初級(jí)知識(shí)服務(wù)能力考察的是語音助手對(duì)信息知識(shí)的搜尋、組織、分析、重組的能力，不同語音助手的實(shí)現(xiàn)方式同樣不存在區(qū)別。針對(duì)初級(jí)知識(shí)服務(wù)能力下相應(yīng)的3個(gè)二級(jí)指標(biāo)，分別構(gòu)建題庫（見表4）。

知識(shí)問答能力是為了了解測試目標(biāo)的知識(shí)廣度。結(jié)合人機(jī)對(duì)話的相關(guān)問題集[26]以及相關(guān)論文[27]，并適當(dāng)調(diào)整使其符合語音助手應(yīng)用場景，研究將問題分為事實(shí)類問題、定義類問題、YES-NO問題和觀點(diǎn)類問題。在題目的選擇上，做到四種問題兼顧并同時(shí)聚焦在小學(xué)階段的必修科目上，如語文、社會(huì)和音樂等。

翻譯能力是為了了解測試目標(biāo)對(duì)不同語言的轉(zhuǎn)換能力。題庫選擇上參考了北京大學(xué)的《英漢機(jī)器翻譯測試大綱》[28]，從中選出多個(gè)句子，包括重點(diǎn)列出的長難句。

計(jì)算能力是為了了解測試目標(biāo)的計(jì)算能力、計(jì)算速度和正確性。結(jié)合目前語音助手的智能水平，選擇小學(xué)階段的數(shù)學(xué)課程標(biāo)準(zhǔn)“全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)（實(shí)驗(yàn)稿）”作為參考，挑選出其中測試運(yùn)算能力的指標(biāo)，包括計(jì)算萬以內(nèi)的整數(shù)、小數(shù)、分?jǐn)?shù)、百分?jǐn)?shù)和負(fù)數(shù)，和掌握四則運(yùn)算的技能，并依照此分類選擇題目。

3.3.3? 高級(jí)知識(shí)服務(wù)能力題庫構(gòu)建

高級(jí)知識(shí)服務(wù)能力，指的是測試目標(biāo)根據(jù)用戶的問題與環(huán)境在信息收集基礎(chǔ)上的創(chuàng)造與服務(wù)能力，概念較為抽象，不同語音助手的實(shí)現(xiàn)方式多樣。為保證實(shí)驗(yàn)的準(zhǔn)確性與公平性，本研究對(duì)常見語音助手進(jìn)行了深入使用，并結(jié)合官網(wǎng)的介紹以及相關(guān)測評(píng)報(bào)道，總結(jié)歸納了高級(jí)知識(shí)服務(wù)能力下各個(gè)二級(jí)指標(biāo)的實(shí)現(xiàn)方式。在全面考慮不同實(shí)現(xiàn)方式的前提下構(gòu)建出相應(yīng)的題庫（見表5）。

知識(shí)創(chuàng)造能力是為了了解測試目標(biāo)按照給定要求，進(jìn)行二次創(chuàng)造的能力。Mark O. Riedl在語音助手智商測試的實(shí)驗(yàn)中提出了Lovelace 2.0[19]測試方法，方法是在創(chuàng)造性活動(dòng)中添加關(guān)鍵詞以增加語音助手直接檢索的難度來確定語音助手的知識(shí)創(chuàng)造能力。因此，本研究結(jié)合現(xiàn)有語音助手功能，對(duì)不同創(chuàng)作形式提出不同要求，根據(jù)是否能反饋有邏輯的結(jié)果來測算語音助手的知識(shí)創(chuàng)造能力。

猜測和聯(lián)想能力是為了了解測試目標(biāo)根據(jù)給定的材料猜測所描繪的事物及聯(lián)想相關(guān)事物的能力。根據(jù)上述得分原則，分四類分別構(gòu)建題庫。謎語選自各版本的“謎語大全”。正反義詞則來自韋氏兒童智力測試題[29]。對(duì)意圖識(shí)別能力的考量，則是參考了有關(guān)搜索引擎自然語音處理的研究結(jié)論。用戶向搜索引擎輸入的簡短查詢式存在模糊性和歧義性[30]，在語音助手應(yīng)用場景同樣適用，所以采取通過語音輸入模糊指令來確定其能否準(zhǔn)確理解并滿足用戶要求。你說我猜則是測試語音助手能否通過問用戶問題，猜出用戶心中所想的一個(gè)人物或動(dòng)物，題庫來源于相關(guān)娛樂性測試網(wǎng)站。

學(xué)習(xí)能力是為了了解測試目標(biāo)能否根據(jù)用戶訓(xùn)練，掌握新的規(guī)則或知識(shí)的能力。其測試方法是在不同實(shí)現(xiàn)方式下給出特定情景，通過判定語音助手在該情景下能否完成用戶要求來確定。如在多輪對(duì)話中針對(duì)某個(gè)話題展開需要聯(lián)系前后文的多輪討論，觀察語音助手是否能有邏輯的進(jìn)行回復(fù)來判定語音助手的多輪對(duì)話能力。

個(gè)性化服務(wù)能力是為了了解測試目標(biāo)個(gè)性化服務(wù)設(shè)置能力，測試方法與學(xué)習(xí)能力類似。如用戶偏好設(shè)置下就有一個(gè)情景為是否能根據(jù)用戶喜好實(shí)現(xiàn)智能推送，根據(jù)是否能實(shí)現(xiàn)判斷該語音助手的用戶偏好設(shè)置能力。

3.4? ? 測試方法與評(píng)分原則

由于語音助手與用戶的溝通是以聲音為主。因此實(shí)驗(yàn)中的所有問題均采用語音方式輸入?？紤]到具體環(huán)境影響，每個(gè)問題將重復(fù)三次。

在具體給分上，對(duì)于語音助手基礎(chǔ)能力以及初級(jí)知識(shí)服務(wù)能力下的各個(gè)二級(jí)指標(biāo)，每個(gè)測量對(duì)象均需回答從題庫中隨機(jī)抽取的相同的10道題（其中被自動(dòng)喚醒的能力是分10次在不同場景下用語音說出觸發(fā)詞）。每答對(duì)一題（被自動(dòng)喚醒一次）加10分。即每個(gè)二級(jí)指標(biāo)滿分為100分。

對(duì)于語音助手高級(jí)知識(shí)服務(wù)能力，如本文所述，每個(gè)二級(jí)指標(biāo)實(shí)現(xiàn)方式均可歸納為4類。由于存在語音助手能以不止一類實(shí)現(xiàn)方式完成對(duì)應(yīng)的二級(jí)指標(biāo)，所以每類滿分為25分，若4類實(shí)現(xiàn)方式均能完成，則該二級(jí)指標(biāo)記滿分100分。在每類實(shí)現(xiàn)方式下設(shè)置3個(gè)具體場景或題目。若3道均正確完成，則認(rèn)為該類實(shí)現(xiàn)方式完成，記該類滿分，即25分。若全不能完成，則該類記0分。若能部分完成，則認(rèn)為該類還有進(jìn)步空間，記該類滿分的一半，即12.5分。

另外，語音助手在實(shí)現(xiàn)某些用戶要求時(shí)，自身雖不具備相應(yīng)功能，卻可以通過調(diào)用或跳轉(zhuǎn)到其他應(yīng)用來獲得答案。這雖表現(xiàn)了自身功能的不夠全面，但從側(cè)面體現(xiàn)了該語音助手與其他應(yīng)用的操控與交互能力，所以對(duì)這種狀況，同樣視為能部分完成。

各項(xiàng)指標(biāo)分?jǐn)?shù)確定后，最后總體評(píng)價(jià)結(jié)果采用廣義智商算法[31]：

F = Wi*Vi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）

在式（1）中，F(xiàn)為該語音助手總積分，Wi為各指標(biāo)權(quán)值，Vi為各指標(biāo)的測試分。

4? ?中文智能語音助手的評(píng)價(jià)實(shí)驗(yàn)

4.1? ? 評(píng)價(jià)對(duì)象選擇

中文語音助手應(yīng)用場景多樣，在日常生活中最常見的有三種，分別是手機(jī)自帶語音助手（如蘋果的Siri，三星的Bixby，華為的小E、VIVO的jovi等）、移動(dòng)應(yīng)用語音助手（如百度語音助手、搜狗語音助手、咪咕靈犀等）、還有隨著智能家居不斷發(fā)展的智能音箱（如天貓精靈、小米AI音箱、小度在家等）。本研究根據(jù)網(wǎng)絡(luò)諸多測評(píng)分別選取了這三大類語音助手中最具代表性的一款產(chǎn)品進(jìn)行評(píng)價(jià)研究，即華為小E、咪咕靈犀和天貓精靈。

4.2? ? 評(píng)價(jià)結(jié)果

按總得分從高到低排序，天貓精靈、咪咕靈犀和華為小E的知識(shí)服務(wù)能力得分分別是88.54、85.02、81.24，均超過了80分，說明三個(gè)語音助手均具備了一定的知識(shí)服務(wù)能力。本研究對(duì)被測評(píng)語音助手各一級(jí)指標(biāo)完成度進(jìn)行統(tǒng)計(jì)（見圖2）。

統(tǒng)計(jì)得出，在基礎(chǔ)能力上，天貓精靈得到了滿分，華為小E和咪咕靈犀均得到97.4分;在初級(jí)知識(shí)服務(wù)能力上，華為小E和咪咕靈犀分?jǐn)?shù)亦相同，均為80.7分，而天貓精靈只得了77.7分;在高級(jí)知識(shí)服務(wù)能力上，分?jǐn)?shù)從高到低分別是天貓精靈（73.4分）、咪咕靈犀（56.6分）、華為小E（36.1分），咪咕靈犀和華為小E均低于60分。

可以看出，三個(gè)語音助手在總分上的較好表現(xiàn)主要得益于在基礎(chǔ)能力指標(biāo)上的較高得分，該一級(jí)指標(biāo)的權(quán)重高達(dá)0.52，而三個(gè)語音助手在該項(xiàng)得分均接近或等于滿分。在初級(jí)知識(shí)服務(wù)能力上三個(gè)語音助手得分接近，均在80分左右，表現(xiàn)良好。但在高級(jí)知識(shí)服務(wù)能力上，各語音助手表現(xiàn)具有較大差異且普遍較差。

對(duì)三個(gè)語音助手在各二級(jí)指標(biāo)的具體得分進(jìn)行統(tǒng)計(jì)（見表6），通過分析可以發(fā)現(xiàn)：

（1）三款語音助手在知識(shí)問答能力上均有進(jìn)步空間。華為小E和咪咕靈犀在多數(shù)問題回答上均需借助第三方搜索引擎反饋的結(jié)果，其中華為小E還需再次按要求輸入以完成跳轉(zhuǎn)。天貓精靈則無法回答部分和地理位置相關(guān)的問題，如針對(duì)問題“廣州高鐵站在哪里”“埃菲爾鐵塔是在巴黎嗎”并不能得到結(jié)果。

（2）三款語音助手雖然功能豐富，但觸發(fā)條件往往較為嚴(yán)苛。如必須完整向華為小E輸入“講一個(gè)安徒生的海的女兒”才能被理解，否則均無法完成要求。天貓精靈雖在大多數(shù)情形下完成的較為出色，但仍在部分場景如“對(duì)話訓(xùn)練”或一些指定游戲中，需特定關(guān)鍵詞才可以觸發(fā)。

（3）三款語音助手均可針對(duì)用戶需求，完成個(gè)性化服務(wù)，但程度存在差異。如三款語音助手均可從其他信息源獲取外賣信息與快遞信息，均可設(shè)置智能提醒，但在其他方面如個(gè)性化回答設(shè)置、推送內(nèi)容設(shè)置以及應(yīng)用偏好選擇上，華為小E均要略輸一等。

（4）在初級(jí)知識(shí)服務(wù)能力中的翻譯與計(jì)算指標(biāo)上，華為小E和咪咕靈犀更為出色。如咪咕靈犀不僅對(duì)于本次測試要求的英語表現(xiàn)優(yōu)異，更可完成對(duì)多種語言的精確互譯。反觀天貓精靈，在計(jì)算上目前只支持一千萬以內(nèi)整數(shù)的相關(guān)運(yùn)算，分?jǐn)?shù)或超過范圍均不能完成，而翻譯中部分長難句翻譯準(zhǔn)確度低。

（5）在諸多信息分析與場景處理能力要求更高的指標(biāo)中，咪咕靈犀和天貓精靈表現(xiàn)較好，且天貓精靈更勝一籌。如測試語音助手是否能有邏輯的回答日常對(duì)話問題時(shí)，選擇在下午問候“早上好”，天貓精靈與咪咕靈犀會(huì)指出現(xiàn)在已經(jīng)是下午了，而華為小E依然只會(huì)回應(yīng)早上好。在“知識(shí)創(chuàng)造能力”的考察中，要求語音助手播放一首周杰倫的勵(lì)志歌曲，和以“新年快樂”為主題寫作一首詩，只有天貓精靈完成要求，而且天貓精靈也是唯一支持多輪對(duì)話的語音助手。

4.3? ? 分析與討論

（1）智能語音助手是否具備知識(shí)服務(wù)能力？研究結(jié)果表明，主流的中文智能語音助手已經(jīng)具備了一定的知識(shí)服務(wù)能力。在諸多場景下，語音助手能以聲音為交互介質(zhì)，提供高智力附加值的知識(shí)（或技能）密集型服務(wù)，滿足知識(shí)服務(wù)對(duì)象的知識(shí)需求。

由于語音可以解放人們的雙手和雙眼，降低產(chǎn)品使用門檻，同時(shí)語音識(shí)別與語義理解是人工智能領(lǐng)域相對(duì)成熟的技術(shù)[32]，通過語音交互開展知識(shí)服務(wù)（多輪對(duì)話式問答服務(wù)、生活場景中的決策支持服務(wù)等）是未來的發(fā)展趨勢，而在這方面，智能語音助手具有天然的優(yōu)勢。

首先語音助手存在潛在的龐大用戶群。語音助手多以智能手機(jī)為載體，以APP應(yīng)用、小程序（智能音箱也往往有對(duì)應(yīng)的小程序）、微信公眾號(hào)等諸多形式為公眾提供知識(shí)服務(wù)。而隨著智能手機(jī)的普及，語音助手能以較低成本接入大眾生活;其次面對(duì)日常生活中多元化、多維度的知識(shí)需求，語音助手能夠?yàn)榇蟊娞峁┢栈莸闹R(shí)服務(wù)，使知識(shí)服務(wù)不局限于專業(yè)人士，而是嵌入生活化的場景里，降低用戶在信息過載時(shí)代中知識(shí)獲取的成本。

（2）如何評(píng)價(jià)智能語音助手的知識(shí)服務(wù)能力？本研究構(gòu)造了智能語音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系，并應(yīng)用該體系完成了三款主流語音助手的評(píng)價(jià)實(shí)驗(yàn)。運(yùn)用該評(píng)價(jià)指標(biāo)體系，將抽象的智能語音助手知識(shí)服務(wù)能力具體化為3個(gè)一級(jí)指標(biāo)、10個(gè)二級(jí)指標(biāo)，可以綜合評(píng)價(jià)和跟蹤語音助手行業(yè)的進(jìn)展，對(duì)比不同語音助手之間的具體優(yōu)劣情況，便于從中及時(shí)發(fā)現(xiàn)好的發(fā)展經(jīng)驗(yàn)和共同問題所在，明確語音助手的研發(fā)方向。

本研究得到的指標(biāo)權(quán)重充分反映了專家的認(rèn)知。識(shí)別聲音、聲音輸出、被自動(dòng)喚醒所代表的基礎(chǔ)能力權(quán)重超過0.5，其中識(shí)別聲音的指標(biāo)權(quán)重更是高達(dá)0.2576。而初級(jí)、高級(jí)知識(shí)服務(wù)能力指標(biāo)權(quán)重占比低，對(duì)語音助手的評(píng)價(jià)結(jié)果影響小。這說明在現(xiàn)階段，專家更重視基礎(chǔ)交互能力，對(duì)智能語音助手提供知識(shí)服務(wù)的期望并不高。

本研究建設(shè)了相應(yīng)題庫來完成指標(biāo)的測量?？紤]到現(xiàn)階段人工智能的智商與兒童的智力水平相當(dāng)[21]，且功能在不斷的發(fā)展豐富中，在構(gòu)建題庫時(shí)，并沒有完全按照知識(shí)服務(wù)的最高標(biāo)準(zhǔn)去設(shè)計(jì)，而是結(jié)合語音助手現(xiàn)有的智能水平與發(fā)展演化的需求，設(shè)置了相應(yīng)的測試問題，如聲音輸出指標(biāo)的題庫選自漢語初學(xué)者對(duì)話教程，高級(jí)知識(shí)服務(wù)能力的測試總結(jié)了現(xiàn)有語音助手能夠完成的方式。由于題庫構(gòu)建靈活，未來隨著人工智能技術(shù)的進(jìn)步、智能產(chǎn)品智力水平的不斷提高以及語音助手領(lǐng)域的迅速發(fā)展，測試題庫支持不斷升級(jí)，將在題目選擇上上升難度，場景設(shè)置上更具隨機(jī)性與普適性。

（3）應(yīng)該從哪些方面提升智能語音助手的知識(shí)服務(wù)能力？從相應(yīng)指標(biāo)所占的權(quán)重來看，語音助手的基礎(chǔ)能力仍然是現(xiàn)階段專家關(guān)注的最重要的方面，也是當(dāng)前用戶感知最強(qiáng)烈的方面。因此，亟需提高智能語音助手的基礎(chǔ)能力，如在信息輸出端注重合成語音的口語化、自然化、人性化[33]，在信息輸入端提供可視化反饋，增加用戶可控感[34]，并輔助其它應(yīng)用，設(shè)計(jì)出實(shí)現(xiàn)各種拓展功能的接口來增加多種信息的交互能力[35]。

在初級(jí)知識(shí)服務(wù)能力方面，根據(jù)人們的一般認(rèn)知，三個(gè)二級(jí)指標(biāo)在技術(shù)實(shí)現(xiàn)難度上從高到低排序分別是知識(shí)問答、翻譯和數(shù)學(xué)運(yùn)算。三個(gè)語音助手在知識(shí)問答能力上的得分普遍較低，比較不同種類問題回答準(zhǔn)確率之后發(fā)現(xiàn)，相比于事實(shí)類問題和定義類問題，語音助手往往不擅長回答YES-NO問題和觀點(diǎn)類問題，這證明在自然語言處理和知識(shí)抽取層面仍有待進(jìn)一步研發(fā)。然而，三個(gè)語音助手在數(shù)據(jù)運(yùn)算能力上的得分卻均高于翻譯能力，這一方面是由于部分?jǐn)?shù)學(xué)運(yùn)算超過了語音助手的能力范圍，如華為小E和咪咕靈犀不能完成“階乘”運(yùn)算、天貓精靈不能完成分?jǐn)?shù)或非整數(shù)的計(jì)算以及大于一千萬的整數(shù)的運(yùn)算;另一方面，這反映了在語音交互的場景下，信息系統(tǒng)（智能語音助手）在知識(shí)服務(wù)相關(guān)任務(wù)上的表現(xiàn)有別于傳統(tǒng)的圖形界面交互場景，這也是未來有待進(jìn)一步探索的方向。

在高級(jí)知識(shí)服務(wù)能力方面，普遍存在兩點(diǎn)問題：一是功能情景有限，二是某些功能觸發(fā)條件只支持用戶輸入顯式查詢或命令，即明確的觸發(fā)詞。這不僅導(dǎo)致用戶使用感不佳，也使一些功能不易被用戶發(fā)現(xiàn)。所以建議在保證不干擾用戶生活的前提下，提供更人性化的功能觸發(fā)條件并配以友好的用戶指導(dǎo)。如定期提示用戶功能更新及其觸發(fā)方法，或結(jié)合語境情景理解用戶的隱式對(duì)話線索[10]等。

從搭載語音助手的平臺(tái)上來看，手機(jī)自帶語音助手的得分明顯落后于語音助手APP和智能音箱，而手機(jī)自帶語音助手卻是廣大普通用戶最容易接觸到的語音助手產(chǎn)品[2]，具有龐大的用戶群體。提高手機(jī)自帶語音助手的知識(shí)服務(wù)能力，有利于知識(shí)服務(wù)惠及更廣泛的社會(huì)群體，所以，亟需提高手機(jī)自帶語音助手的知識(shí)服務(wù)能力。同時(shí)，智能音箱在高級(jí)知識(shí)服務(wù)能力上表現(xiàn)較為優(yōu)秀，特別是在個(gè)性化服務(wù)能力指標(biāo)上的表現(xiàn)最為突出，其與智能家居的進(jìn)一步關(guān)聯(lián)可有效彌補(bǔ)自身便攜性不足的固有缺點(diǎn)，有效推進(jìn)生活智能化。

5? ?結(jié)語

面對(duì)知識(shí)服務(wù)對(duì)象大眾化、服務(wù)手段多樣化、服務(wù)內(nèi)容智能化的時(shí)代趨勢，社會(huì)亟需一個(gè)普惠的工具來滿足泛在的知識(shí)需求、服務(wù)大眾的日常生活。智能語音助手作為新型知識(shí)服務(wù)主體，具有填補(bǔ)該空缺的天然優(yōu)勢。

本文對(duì)智能語音助手的知識(shí)服務(wù)能力進(jìn)行了評(píng)價(jià)研究。首先，構(gòu)建了智能語音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系，通過專家調(diào)查得到的指標(biāo)權(quán)重很好地反映了現(xiàn)階段人們對(duì)智能語音助手的期望和態(tài)度;其次，根據(jù)智能語音助手現(xiàn)階段的技術(shù)水平和智能程度，構(gòu)建了相應(yīng)的測試題庫，且這一題庫可以隨著智能語音助手技術(shù)水平和智力程度的提高進(jìn)行動(dòng)態(tài)升級(jí)，以保證本研究提出的評(píng)價(jià)方法具有一定的動(dòng)態(tài)性和靈活性;第三，對(duì)典型的中文智能語音助手進(jìn)行評(píng)價(jià)實(shí)驗(yàn)，發(fā)現(xiàn)了目前存在的問題和不足，提出了相應(yīng)的建議。但本研究仍存在一些不足，如評(píng)價(jià)指標(biāo)體系可以進(jìn)一步完善、專家調(diào)查的人數(shù)和范圍可以進(jìn)一步擴(kuò)大等。在后續(xù)研究中，將進(jìn)一步優(yōu)化智能語音助手知識(shí)服務(wù)能力的評(píng)價(jià)指標(biāo)體系、擴(kuò)大層次分析法專家調(diào)查的規(guī)模。

*本文系國家自然科學(xué)基金面上項(xiàng)目“探尋式搜索過程中的路徑識(shí)別與評(píng)價(jià)研究”（項(xiàng)目編號(hào)：71874130）、國家自然科學(xué)基金重點(diǎn)國際（地區(qū)）合作項(xiàng)目“大數(shù)據(jù)環(huán)境下的知識(shí)組織與服務(wù)創(chuàng)新研究”（項(xiàng)目編號(hào)：71420107026）與中國科協(xié)青年人才托舉工程和武漢大學(xué)青年學(xué)者學(xué)術(shù)團(tuán)隊(duì)項(xiàng)目（項(xiàng)目編號(hào)：Whu2016013）研究成果之一。

參考文獻(xiàn)：

[1]? 吳小燕.一文帶你了解中國智能語音市場發(fā)展情況[EB/OL].[2019-04-21].https：//www.qianzhan.com/analyst/detail/220/181011-c90dd13b.html.

[2]? UKONAHO V.Smartphones：Global Artificial Intelligence Technologies Forecast：2010 to 2023 [EB/OL].[2019-04-21].https：//www.strategyanalytics.com/access-services/devices/mobile-phones/emerging-devices/reports/report-detail/smartphones-global-artificial-intelligence-technologies-forecast-2010-to-2023.

[3]? PRADHAN A，MEHTA K，F(xiàn)INDLATER L.“Accessibility came by accident”：use of voice-controlled intelligent personal assistants by people with disabilities[C].Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.ACM，2018：459.

[4]? MORRIS R R，KOUDDOUS K，KSHIRSAGAR R，et al.Towards an artificially empathic conversational agent for mental health applications：System design and user perceptions[J].Journal of medical Internet research，2018，20（6）：e10148.

[5]? LURIA M，HOFFMAN G，ZUCKERMAN O.Comparing social robot，screen and voice interfaces for smart-home control[C].Proceedings of the 2017 CHI conference on human factors in computing systems.ACM，2017：580-628.

[6]? LIN SC，HSU CH，TALAMONTI W，et al.Adasa：A Conversational In-Vehicle Digital Assistant for Advanced Driver Assistance Features[C].The 31st Annual ACM Symposium on User Interface Software and Technology.ACM，2018：531-542.

[7]? SAAD U，AFZAL U，EL-ISSAWI A，et al.A model to measure QoE for virtual personal assistant[J].Multimedia Tools and Applications，2017，76（10）：12517-12537.

[8]? REIS A，PAULINO D，PAREDES H，et al.Using intelligent personal assistants to strengthen the elderliessocial bonds[C].International Conference on Universal Access in Human-Computer Interaction.Springer，Cham，2017：593-602.

[9]? MATANI J，GERVAIS P，CALVO M，et al.Matching language and accent in virtual assistant responses[EB/OL].[2019-04-21].https：//www.tdcommons.org/dpubs_series/1239.

[10]? VTYURINA A，F(xiàn)OURNEY A.Exploring the role of conversational cues in guided task support with virtual assistants[C].Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.ACM，2018：208.

[11]? KISELEVA J，WILLIAMS K，AWADALLAH H A，et al.Predicting user satisfaction with intelligent assistants[C].Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval.ACM，2016：45-54.

[12]? MYERS C，F(xiàn)URQAN A，NEBOLSKY J，et al.Patterns for How Users Overcome Obstacles in Voice User Interfaces[C].Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.ACM，2018：6.

[13]? LOPATOVSKA I，RINK K，KNIGHT I，et al.Talk to me：Exploring user interactions with the Amazon Alexa[EB/OL].[2019-04-21].https：//doi.org/10.1177/0961000618759414.

[14]? PORCHERON M，F(xiàn)ISCHER J E，REEVES S，et al.Voice interfaces in everyday life[C].Proceedings of the 2018 CHI conference on human factors in computing systems.ACM，2018：640.

[15]? GUZMAN A L.Voices in and of the machine：Source orientation toward mobile virtual assistants[J].Computers in Human Behavior，2019，90：343-350.

[16]? MACHINERY C.Computing machinery and intelligence-AM Turing[J].Mind，1950，59（236）：433.

[17]? DOWE D L，HERN？魣NDEZ-ORALLO J.IQ tests are not for machines，yet[J].Intelligence，2012，2（40）：77-81.

[18]? BRINGSJORD S，BELLO P，F(xiàn)ERRUCCI D.Creativity，the Turing Test，and the（Better）Lovelace Test[J].Minds and Machines，2001，11（1）：3-27.

[19]? RIEDL M O.The Lovelace 2.0 Test of Artificial Creativity and Intelligence[EB/OL].[2019-04-21].https：//arxiv.org/pdf/1410.

6142v1.pdf.

[20]? MALINOWSKI M，F(xiàn)RITZ M.Learning smooth pooling reigns for visual recognition[J].Electronic proceedings of the British Machine Vision Conference，2013（2）：1-11.

[21]? OHLSSON S，SLOAN R H，TUR？魣N G，et al.Measuring an artificial intelligence systems performance on a verbal IQ test for young children[J].Journal of Experimental & Theoretical Artificial Intelligence，2017，29（4）：679-693.

[22]? YANG Q.Intelligent planning：a decomposition and abstraction based approach[M].Springer Science & Business Media，2012.

[23]? 劉峰.基于互聯(lián)網(wǎng)智商評(píng)測算法的搜索引擎智商測試研究[D].北京：北京交通大學(xué)，2015.

[24]? LIU F，SHI Y，LIU Y.Three IQs of AI Systems and their Testing Methods[EB/OL].[2019-04-21].https：//arxiv.org/ftp/arxiv/papers/1712/1712.06440.pdf.

[25]? 張曉林.走向知識(shí)服務(wù)[M].成都：四川大學(xué)出版社，2001.

[26]? 微軟亞洲研究院三角獸科技.了解人機(jī)對(duì)話—聊天、問答、多輪對(duì)話和推薦[EB/OL].[2019-06-16].https：//www.jianshu.com/p/cde686e81b15.

[27]? 羅玲鑫.基于J2ME的手機(jī)常識(shí)測試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都：電子科技大學(xué)，2011.

[28]? 俞士汝，段慧明.英漢機(jī)器翻譯譯文質(zhì)量測試大綱[J].計(jì)算機(jī)世界，1998（13）：10-11.

[29]? 林傳鼎.韋氏兒童智力量表中國修訂本[M].北京：北京師范大學(xué)出版社，1986.

[30]? 張曉娟.查詢意圖自動(dòng)分類與分析[D].武漢：武漢大學(xué)，2014.

[31]? 劉東，尹怡欣，涂序彥.智能系統(tǒng)的廣義智能定性評(píng)價(jià)之研究[J].計(jì)算機(jī)科學(xué)，2007（1）：351-357.

[32]? 百度人工智能交互設(shè)計(jì)院.2019.AI 人工交互趨勢研究[EB/OL].[2019-04-21].http：//aiid.baidu.com/982/.

[33]? BUCK J W，PERUGINI S，NGUYEN T V.Natural Language，Mixed-initiative Personal Assistant Agents[C].Proceedings of the 12th International Conference on Ubiquitous Information Management and Communication.ACM，2018：82.

[34]? LURIA M，HOFFMAN G，ZUCKERMAN O.Comparing social robot，screen and voice interfaces for smart-home control[C].Proceedings of the 2017 CHI conference on human factors in computing systems.ACM，2017：580-628.

[35]? GHOSH D，F(xiàn)OONG P S，ZHANG S，et al.Assessing the Utility of the System Usability Scale for Evaluating Voice-based User Interfaces[C].Proceedings of the Sixth International Symposium of Chinese CHI.ACM，2018：11-15.

作者簡介：趙一鳴，武漢大學(xué)信息資源研究中心、武漢大學(xué)信息管理學(xué)院副教授;朱奕蓉，武漢大學(xué)信息管理學(xué)院、圖書情報(bào)國家級(jí)實(shí)驗(yàn)教學(xué)示范中心（武漢大學(xué)）本科生;吳林容，武漢大學(xué)信息資源研究中心、武漢大學(xué)信息管理學(xué)院碩士研究生。

收稿日期：2019-05-14;責(zé)任編輯：柴若熔;通訊作者：趙一鳴（zhaoyiming@whu.edu.cn）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

智能語音助手的知識(shí)服務(wù)能力評(píng)價(jià)研究