亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

智能語音交互媒介的發(fā)展及創(chuàng)新研究

2021-12-04 21:13:55鄒希豪

衛(wèi)星電視與寬帶多媒體 2021年21期

【摘要】伴隨深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算的的發(fā)展，人工智能近十年經(jīng)歷一段突飛猛進(jìn)的發(fā)展，并在智能語音交互等領(lǐng)域成功落地。智能語音交互技術(shù)與新聞傳播的結(jié)合，給傳媒界帶來了聲控智媒這一全新的媒介形態(tài)。本文試探究智能語音交互媒介的特點(diǎn)、發(fā)展問題并分析目前的創(chuàng)新趨勢(shì)，以期對(duì)智能媒介的可持續(xù)發(fā)展提供參考。

【關(guān)鍵詞】智能語音交互;發(fā)展問題;創(chuàng)新趨勢(shì)

中圖分類號(hào)：TN94? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ? ? ? ? ? ? ? ? ? ? ? DOI：10.12246/j.issn.1673-0348.2021.21.035

智能語音交互技術(shù)作為人工智能領(lǐng)域的的重要突破技術(shù)，通過與新聞傳播的結(jié)合，帶來了聲控智媒這一全新的媒介形態(tài)。聲控智媒目前主要有兩種存在方式：其一是嵌入電視或手機(jī)之中，如蘋果公的siri和小米的小愛同學(xué)，其二是獨(dú)立存在的智能設(shè)備，如智能音箱等。作為新一代的傳播媒介，其發(fā)展及創(chuàng)新受到了學(xué)界與業(yè)界的廣泛關(guān)注。

1. 特點(diǎn)

1.1 互動(dòng)性

聲控智媒作為一種新型的人機(jī)交互終端，不同于手機(jī)的觸控交互，也不同于之前報(bào)紙、廣播與電視的單向交互方式，聲控智媒為用戶提供了語音對(duì)話交互，用戶不是被動(dòng)的接收信息，而是基于自身的需求，向智能設(shè)備發(fā)出請(qǐng)求獲取信息，同時(shí)隨著連續(xù)對(duì)話技術(shù)的進(jìn)步，用戶可以深度體驗(yàn)與智能設(shè)備的對(duì)話，從對(duì)話中獲取更多的信息，滿足自身的信息獲取需求。

1.2 場(chǎng)景性

用戶使用聲控智媒往往是基于特定的場(chǎng)景，獲取當(dāng)下場(chǎng)景中最需要的信息。以不同時(shí)間段信息需求為例，各大品牌的智能音箱都會(huì)設(shè)置早上與晚上場(chǎng)景，用戶早上起床后，智能音箱會(huì)播報(bào)早間新聞和一些健康資訊，晚上回家后，智能音箱也會(huì)為用戶播放當(dāng)天新聞和放松音樂。當(dāng)然在不同的地點(diǎn)使用聲控智媒的需求也不盡相同，例如在客廳用戶會(huì)使用智能音箱控制一些家電，如果是在廚房則會(huì)想知道如何去制作一道菜肴。不同的場(chǎng)景下，基于用戶的不同需求，智能語音交互終端會(huì)呈現(xiàn)不同的功能。

1.3 海量性

隨著云計(jì)算和大數(shù)據(jù)技術(shù)的成熟，聲控智媒通過連接互聯(lián)網(wǎng)就擁有了海量的內(nèi)容。目前各大語音交互平臺(tái)的內(nèi)容主要有平臺(tái)方搭建的知識(shí)圖譜和第三方平臺(tái)提供的各種技能。通過對(duì)知識(shí)圖譜搭建與第三方內(nèi)容接入整合，目前在智能語音產(chǎn)品上不僅可以聽音樂、電臺(tái)，還可以詢問各種百科知識(shí)，豐富了人們娛樂與獲取信息的方式。

2. 發(fā)展問題

2.1 技術(shù)方面，喚醒與語義理解體驗(yàn)不佳

智能語音交互技術(shù)作為聲控智媒的核心，其涉及的技術(shù)主要有語音喚醒、語音識(shí)別、自然語義理解、智能搜索與語音合成。用戶往往通過喚醒詞喚醒設(shè)備，說出自己的請(qǐng)求，設(shè)備通過語音識(shí)別將用戶的音頻轉(zhuǎn)化為文字，同時(shí)通過自然語義理解分析用戶的意圖并翻譯為機(jī)器語言，并通過智能搜索匹配用戶意圖最接近的技能進(jìn)行回答及操作設(shè)備。在整個(gè)過程中，任何一環(huán)節(jié)出錯(cuò)，都無法給用戶提供滿意的體驗(yàn)。例如目前智能語音助手的誤喚醒問題，就是在語音喚醒環(huán)節(jié)，用戶最常反饋的痛點(diǎn)問題，指的是用戶并沒有講出喚醒詞，智能設(shè)備卻被自動(dòng)喚醒。

此外，自然語義理解是整個(gè)語音生態(tài)的核心技術(shù)，也是用戶感知設(shè)備是否懂自己的關(guān)鍵，其實(shí)現(xiàn)原理是將用戶的輸入映射到預(yù)先根據(jù)不同場(chǎng)景定義的語義槽中，讓機(jī)器理解語言的意思。目前此項(xiàng)技術(shù)仍存在一定的局限，因?yàn)槿祟惖恼Z言是復(fù)雜多樣的，不同的語境下所表達(dá)的意思可能完全不同，例如很多用戶反饋有時(shí)候語音助手聽不懂用戶的話，答非所問，甚至?xí)盏讲缓线m甚至完全摸不著頭腦的對(duì)話。

2.2 內(nèi)容方面，版權(quán)資源割據(jù)與實(shí)時(shí)新聞技能缺乏

智能語音交互產(chǎn)品上匯集了豐富的第三方平臺(tái)內(nèi)容，但是由于網(wǎng)絡(luò)版權(quán)問題和各家生態(tài)的競(jìng)爭(zhēng)，導(dǎo)致目前用戶真正能聽到的內(nèi)容有限。同時(shí)用戶往往需要購買多家內(nèi)容平臺(tái)的會(huì)員，缺乏統(tǒng)一的內(nèi)容管理及付費(fèi)機(jī)制。此外在音箱上聽新聞也是用戶最常用的功能之一，目前音箱上的新聞?lì)悆?nèi)容主要分為新聞簡(jiǎn)報(bào)與實(shí)時(shí)新聞。新聞簡(jiǎn)報(bào)是通常不超過兩分鐘的新聞報(bào)道，實(shí)時(shí)新聞是用戶針對(duì)當(dāng)下熱門時(shí)事內(nèi)容進(jìn)行詢問。目前各家平臺(tái)會(huì)與傳統(tǒng)媒體定制專門的新聞簡(jiǎn)報(bào)，但是對(duì)于實(shí)時(shí)新聞服務(wù)還比較欠缺，例如用戶在向音箱發(fā)出想看最近新聞的指令，音箱往往回復(fù)并不知曉或搜索網(wǎng)頁新聞進(jìn)行播報(bào)，這樣的機(jī)器朗讀的內(nèi)容往往較為生硬，不符合人們的收聽習(xí)慣。

2.3 數(shù)據(jù)方面：用戶隱私風(fēng)險(xiǎn)凸顯

語音助手要準(zhǔn)確識(shí)別用戶意圖，不可避免的要對(duì)海量的數(shù)據(jù)進(jìn)行處理與存儲(chǔ)。一般用戶向設(shè)備說出一個(gè)特定的觸發(fā)詞，交互設(shè)備就可立即喚醒，并記錄用戶的請(qǐng)求。所發(fā)出的請(qǐng)求會(huì)被發(fā)送到云端服務(wù)器進(jìn)行數(shù)據(jù)分析處理，在這個(gè)過程中用戶的數(shù)據(jù)將會(huì)保存在云端。語音助手需要通過對(duì)不同的用戶數(shù)據(jù)訓(xùn)練模型以提高其識(shí)別的準(zhǔn)確率。此外，由于機(jī)器是難以知道自己的準(zhǔn)確性，這個(gè)時(shí)候往往是需要專業(yè)人員對(duì)機(jī)器模型的滿足率進(jìn)行評(píng)測(cè)并標(biāo)注，這個(gè)時(shí)候就必然會(huì)涉及到直接聽取用戶聲音數(shù)據(jù)的情況。由于智能語音設(shè)備的誤喚醒率還比較高，導(dǎo)致用戶不想被記錄的聲音數(shù)據(jù)會(huì)在無意識(shí)的情況下被存儲(chǔ)下來。據(jù)《衛(wèi)報(bào)》報(bào)道，Siri被誤喚醒時(shí)的錄音內(nèi)容也會(huì)被記錄下來進(jìn)行分析，這些錄音除了聲音之外，還附帶了用戶數(shù)據(jù)，包括錄音發(fā)生的位置、聯(lián)系方式和app應(yīng)用數(shù)據(jù)。隨著智能語音產(chǎn)品走入千家萬戶，語音大數(shù)據(jù)資源也越積越多，用途越來越廣泛。然而，語音數(shù)據(jù)在收集和利用中的隱私風(fēng)險(xiǎn)也越來越大。

2.4 經(jīng)濟(jì)方面，缺乏成熟的商業(yè)模式

IDC數(shù)據(jù)顯示，2020年中國智能音箱市場(chǎng)銷量達(dá)到3676萬臺(tái)，累計(jì)下降8.6%，同時(shí)我國智能音箱的普及率僅為20%，究其部分原因是因?yàn)闆]有成熟的商業(yè)模式導(dǎo)致無法盈利。目前智能音箱的盈利主要來自賣硬件與提供互聯(lián)網(wǎng)服務(wù)。首先，智能音箱的硬件還無法完全盈利。盡管我國智能音箱硬件補(bǔ)貼已進(jìn)入收縮階段，2019年的補(bǔ)貼額依然達(dá)到15.8億元。另外智能音箱的互聯(lián)網(wǎng)服務(wù)上也存在著局限，互聯(lián)網(wǎng)服務(wù)的盈利主要分為面向消費(fèi)者提供內(nèi)容訂閱或會(huì)員服務(wù)和面向廣告主出售音頻廣告的收入。對(duì)于消費(fèi)者來說，為了聽內(nèi)容而購買不同的會(huì)員的體驗(yàn)并不佳，導(dǎo)致智能音箱的會(huì)員服務(wù)收入實(shí)際并不高。同時(shí)由于智能音箱播放的內(nèi)容時(shí)長(zhǎng)較短，很難在其中插播太多廣告，所以來自互聯(lián)網(wǎng)營銷上的收入也并不多。目前智能音箱的商業(yè)模式尚不成熟，導(dǎo)致業(yè)界無論是人才還是內(nèi)容投入都不是太多，這樣就更無法形成完整的商業(yè)閉環(huán)。

3.創(chuàng)新趨勢(shì)

3.1 互聯(lián)化，協(xié)同喚醒改進(jìn)交互體驗(yàn)

近年來，隨著各個(gè)平臺(tái)語音算法的基礎(chǔ)性能不斷提高，用戶所反饋的識(shí)別準(zhǔn)確率、時(shí)延問題也在不斷改進(jìn)。與此同時(shí)，用戶希望在多智能設(shè)備環(huán)節(jié)下，各設(shè)備能互聯(lián)互通。在此之前當(dāng)一個(gè)空間存在多臺(tái)語音交互設(shè)備時(shí)，往往出現(xiàn)“一呼百應(yīng)”的現(xiàn)象，2019年以來業(yè)界開始重視將聲學(xué)感知空間的能力與交互系統(tǒng)結(jié)合起來，實(shí)現(xiàn)多設(shè)備的就近喚醒應(yīng)答，避免多設(shè)備重復(fù)響應(yīng)和執(zhí)行指令?？梢灶A(yù)見的是，隨著接入互聯(lián)網(wǎng)的智能設(shè)備越來越多，新技術(shù)將不斷提高語音交互的可靠性，促進(jìn)萬物充分互聯(lián)互通，帶來全新的物聯(lián)網(wǎng)時(shí)代。

3.2 有屏化，拓展新的終端形態(tài)

近兩年，市場(chǎng)上開始推出帶屏的智能音箱，并獲得了市場(chǎng)認(rèn)可，主要原因是相比于聲音的展示，多一個(gè)觸控屏幕，用戶能獲得更多的交互體驗(yàn)與內(nèi)容展示。使用的場(chǎng)景也被極大的拓寬，不但可以收聽音頻還可以看圖片和視頻，進(jìn)而拓展到視頻輔導(dǎo)等教育場(chǎng)景。另外有屏幕的智能音箱添加攝像頭可應(yīng)用計(jì)算機(jī)視覺能力，使智能音箱將視覺和語言同時(shí)作為語音理解源，不僅通過聲音獲取信息，同時(shí)還可以用眼睛來識(shí)別說話者的口型、情緒表情，提升其語音的理解力，更好的滿足用戶的需求。

3.3 數(shù)據(jù)離線化，注重用戶隱私安全

隨著用戶對(duì)個(gè)人隱私越來越重視，再加上政府相關(guān)隱私政策的制定，各個(gè)語音交互平臺(tái)開始對(duì)自家產(chǎn)品開發(fā)離線化處理技能，例如蘋果最新推出的ios 15系統(tǒng)中，siri可以在沒有互聯(lián)網(wǎng)連接的情況下，離線處理多種類型的請(qǐng)求，包括電話、消息、應(yīng)用程序啟動(dòng)等，并且產(chǎn)生的數(shù)據(jù)將保存在用戶自己的終端。同時(shí)國內(nèi)各個(gè)廠商也在把離線化及本地化存儲(chǔ)作為自家產(chǎn)品重點(diǎn)開發(fā)的功能，切實(shí)保障用戶的隱私。分析數(shù)據(jù)離線化這個(gè)趨勢(shì)，我們可看到隨著產(chǎn)品越來越完善，是可以做到既維持用戶的體驗(yàn)又保證用戶的隱私安全的。

3.4 人性化，擬人化對(duì)話與情感音色

作為語音助手，用戶不單單將其看成一個(gè)工具，而是一個(gè)更偏向擬人化的交流對(duì)象。例如在“第七代微軟小冰發(fā)布會(huì)”上，微軟小冰就使用了全雙工語音交互技術(shù)，能夠?qū)崿F(xiàn)用戶與人工智能同時(shí)邊聽邊說的交互體驗(yàn)。使小冰像人一樣學(xué)會(huì)傾聽和傾訴，同時(shí)還能對(duì)話題進(jìn)行延伸和追問，使用戶與之交流的單次平均對(duì)話輪數(shù)高達(dá)到23輪。不同的用戶對(duì)語音助手有著個(gè)性化需求，通過為語音助手定制不同的音色與人設(shè)，可以滿足用戶情感化需求。例如在小米小愛同學(xué)5.0版本，用戶可以選擇特別定制的女友音色，其聲音和人設(shè)因?yàn)樽匀徽鎸?shí)獲得用戶的喜歡，并在網(wǎng)絡(luò)上發(fā)起熱烈的討論，究其原因是因?yàn)橛脩粝ＭZ音助手成為更人性化的伙伴。

4. 結(jié)語

聲控智媒作為人工智能新時(shí)代的產(chǎn)物，發(fā)展過程中必然會(huì)面對(duì)到來自技術(shù)、產(chǎn)品、隱私與商業(yè)模式等因素限制，但是隨著語音交互技術(shù)的不斷更新突破，加上各個(gè)平臺(tái)人才與內(nèi)容的持續(xù)投入，聲控智能必然跨越創(chuàng)新擴(kuò)散理論中“早期采用者”階段，跨入大眾化媒介時(shí)代。

參考文獻(xiàn)：

[1]史安斌，胡宇.聲控智媒與新聞傳播：現(xiàn)狀與前景[J].青年記者，2019（01）：79.

[2]李蓀，范志琰.AI+趨勢(shì)下智能語音產(chǎn)業(yè)多模態(tài)發(fā)展趨勢(shì)研究[J].信息通信技術(shù)與政策，2019（06）：19.

[3]管佖路，顧理平.智能語音交互技術(shù)下的用戶隱私風(fēng)險(xiǎn)——以智能音箱的使用為例[J].傳媒觀察，2021（06）：18.

[4]劉德寰，王妍，孟艷芳.國內(nèi)新聞傳播領(lǐng)域人工智能技術(shù)研究綜述[J].中國記者，2020（03）：78.

作者簡(jiǎn)介：鄒希豪，江西吉安人，碩士在讀，單位：武漢大學(xué)新聞傳播學(xué)院，研究方向：數(shù)據(jù)新聞。

衛(wèi)星電視與寬帶多媒體2021年21期

衛(wèi)星電視與寬帶多媒體的其它文章: 計(jì)算機(jī)網(wǎng)絡(luò)安全問題及對(duì)策; 媒介融合前景下的新聞傳播變革與新聞教育改革; 物聯(lián)網(wǎng)在智慧城市中的應(yīng)用初探; 新形式下傳統(tǒng)廣電網(wǎng)絡(luò)和業(yè)務(wù)的轉(zhuǎn)型探討; 廣西氣象影視節(jié)目中虛擬演播室模塊研究與應(yīng)用