顏媛媛
如果你是一名職場人士,通義聽悟可以幫你記錄和回顧你的每一場會議;
如果你是一位學生朋友,通義聽悟可以讓你不遺漏老師講授的每一個重點;
如果你是一名金融分析師或媒體從業(yè)人員,通義聽悟可以存檔你每一次的調研訪談;
如果你想以最快的時間看完你最喜愛的視頻博主的直播分享,通義聽悟可以使你以成倍的速度抓住最精彩的內(nèi)容。
根據(jù)阿里云智能首席技術官周靖人介紹,聽悟集成了阿里最先進的語音和語言技術。其內(nèi)置阿里新一代工業(yè)級語音識別模型,識別準確率在多個權威中文數(shù)據(jù)集上名列第一;融合自研語音語義多模態(tài)說話人算法,能對 10 人以上說話場景進行角色區(qū)分;接入通義千問大模型后,能夠對上萬字的音視頻內(nèi)容進行摘要總結,事實準確與要點完備性國內(nèi)領先,支持跨多音視頻內(nèi)容的精準問答理解。
事實上,通義聽悟的前身是阿里云內(nèi)部一個名為“聽悟”的產(chǎn)品,主要功能包括實時會議、音頻轉寫功能,“聽悟”自2022 年年底就開始小范圍內(nèi)測。而如今,在阿里云通義千問大模型的加持下,通義聽悟成為人們工作學習的AI 助手,從會議討論、教學培訓到調研訪談,通義聽悟都能極大提高人們的工作效率。
通義聽悟具有極強的工具屬性,而在看重軟件生產(chǎn)力的辦公領域,能夠幫助“打工人”自動做筆記、提取PPT、整理訪談的通義聽悟一亮相就受到大眾的高度關注。目前通義聽悟提供小程序和PC 網(wǎng)頁兩個使用途徑,其中,移動端通義聽悟界面設計相對簡單,提供“上傳手機音視頻”“實時記錄”“權益加油站”三個選項,通常簡單的會議記錄喜歡用手機直接做“實時記錄”,不過遺憾的是通義聽悟建議在PC 端體驗更多功能,這意味著手機端更多的操作還是以“上傳手機音視頻”為主(如圖1)。
上傳之前,通義聽悟會讓用戶選擇“轉寫語言”及是否“區(qū)分發(fā)言人”,提前做好預設之后,明顯能更準確地獲得文字轉寫記錄。而在選擇上傳內(nèi)容界面,讓筆者比較驚喜的是除頂部工具條按照“圖片”“音頻”“視頻”“文檔”做了分類,方便用戶選擇本地文件外,用戶還可以打開第三方應用提取音視頻文件。
比較有意思的是通義聽悟自身介紹時表示可以打通同阿里云盤的內(nèi)容關聯(lián),但在移動版通義聽悟內(nèi)容選擇界面,其加入了“中國移動云盤”這一選項(如圖2)。筆者嘗試點擊“中國移動云盤”后發(fā)現(xiàn),能很好地識別網(wǎng)盤里面的內(nèi)容,但是無法提取文件。
順帶嘗試了一下“錄音機”發(fā)現(xiàn)同樣無法提取,而顯示的是系統(tǒng)“錄音機”功能界面,但即便是錄音無法導入,從測試結果看,移動版通義聽悟在第三方應用兼容上還有待提升。轉而嘗試PC 版通義聽悟。
打開通義聽悟官方網(wǎng)站(tingwu.aliyun.com)后,用戶使用手機號即可登錄。進入首界面之后比較直觀的就是“開啟實時記錄”和“上傳音視頻”兩個選項,點擊“開啟實時記錄”后即可開始錄音(如圖3)。
在點擊“開始錄音”按鈕以前,用戶可以和移動版一樣選擇“轉寫語言”和“翻譯”,點擊“開始錄音”按鍵后,通義聽悟會開始工作。PC 端的通義聽悟在語音編輯這塊帶給筆者極大的驚喜。用戶停止同步錄音后,會跳轉到編輯界面。左側為智能總結界面,非常清晰地展示“關鍵詞”“全文概要”等內(nèi)容,用戶也可以手動進行編輯(如圖4)。
而在左側的編輯界面中,用戶可以利用PC 鍵盤進行高效編輯,而且還可以直接插入圖片、表格等元素,在功能上完全可以和部分輕辦公的在線文檔一較高低。除了高效編輯功能的搭載外,通義聽悟在頂部快捷工具欄上還設置了翻譯、高亮標注、AI 實驗室等功能。
相對于人們熟悉的高亮標注、翻譯功能,AI 實驗室提供“發(fā)言人區(qū)分”“問題回顧”“待辦事項”等細分功能,開啟這些功能后,智能算法會根據(jù)自己的理解對本次記錄中的內(nèi)容進行標注與分類。完成一系列操作之后,用戶可以點擊界面左側邊欄,選擇導出文件,除文字內(nèi)容可以以doc\pdf\srt 等多種格式導出外,筆記、音頻文件也可以按用戶需求進行導出。除強大的編輯功能外,多人訪談的錄音轉文字應用也是通義聽悟的一大特色,其能自動根據(jù)語音對文字內(nèi)容進行分類,讓用戶能夠對多人會議或者電話采訪錄音進行高效轉錄及整理(如圖5)。
隨著遠程教育的發(fā)展,網(wǎng)課資源變得格外豐富,不過動輒數(shù)百小時的視頻課程,雖然直觀生動地對知識點進行了講解,可對于中高年級學生而言,一些難度相對較低的課程,文本形式的內(nèi)容獲取方式更為高效,而較難的內(nèi)容,配合文本概要,同樣能起到事半功倍的效果。
通義聽悟可以實現(xiàn)學習視頻的批量轉寫,幫助用戶輕松掌握學習秘籍。打開“上傳音視頻”功能,選擇“上傳本地音視頻文件”并上傳,即可生成課程記錄。最棒的還是PC 版通義聽悟打通了同阿里云盤的鏈接,可以選擇“導入阿里云盤文件”并上傳(如圖6)。
初次使用需要用戶先綁定阿里云盤賬號,用戶通過手機APP 掃碼、賬號密碼或手機驗證碼等多種方式登錄并同意通義聽悟綁定阿里云盤賬號。完成綁定后會彈出文件目錄讓用戶選擇,文字分級菜單讓用戶選擇起來非常方便,而右上角的“音頻”“視頻”兩個選項也為用戶篩選提供了便利。
通義聽悟在內(nèi)容識別整理方面絕對是令人驚喜的,其播放課程視頻,文字與視頻進度可以實現(xiàn)一一對應,用戶可以點擊文字跳轉進度,隨心切換感興趣的內(nèi)容。以左側工具欄中的“關鍵詞”為例,用戶點擊相應關鍵詞之后,視頻會滾動到相應的部分,而內(nèi)容框也會出現(xiàn)該視頻內(nèi)容的文字翻譯,為用戶提供最詳細的內(nèi)容拆解。
通義聽悟非常強悍的是它會為用戶總結全文概要、章節(jié)速覽,方便學生了解課程要點,回顧講解片段。對于網(wǎng)課學生而言,這樣的整理能夠為用戶節(jié)省下大量筆記時間,進而讓學生在網(wǎng)課過程中更集中注意力在課程內(nèi)容本身。
除全程記錄課程要點外,通義聽悟更難能可貴的是支持問題回顧。用戶打開通義聽悟實驗室,開啟問題回顧,即可查看課程中的答疑內(nèi)容。
而有了詳細的原文內(nèi)容之后,用戶就可以在通義聽悟里面進行原文內(nèi)容的重點標注,讓學習和復習效率更高。同時,通義聽悟支持中英互譯,在頂部翻譯功能入口,開啟翻譯即可??梢赃x擇雙語顯示/ 只看譯文。
最受學生好評的還是筆記整理功能,用戶可以在右側筆記中,記錄核心知識點,將課程原文一鍵摘取至筆記中。在該功能的加持下,幾小時的課程,往往只需5 分鐘即可完成筆記。而這一系列操作都可以在通義聽悟右側文本編輯界面中完成,而每完成一個課程的筆記整理后,即可點擊頁面左側“導出”按鈕,將轉寫結果、筆記等內(nèi)容導出至本地或阿里云盤。你可以選擇需要的文件格式。
在語音轉文字領域,通義聽悟屬于“新人”一般的存在,處于推廣階段的通義聽悟自然會有不少福利讓用戶領取。首先便是時長,畢竟無論是會議記錄還是音視頻內(nèi)容翻譯,動輒數(shù)小時一次的內(nèi)容,需要不少時長話費。目前通義聽悟的時長活動主要有三個,分別是“每日登錄通義聽悟,自動獲得2 小時轉寫時長”“每邀請1 名好友注冊并登錄通義聽悟賬號,邀請者可獲得2 小時轉寫時長”和“輸入口令兌換轉寫時長”(如圖7)。
這三個活動中,“輸入口令兌換轉寫時長”能夠領取的時長最多,筆者只兌換了兩個口令時長加上日常登錄積累,已經(jīng)積累了快50 小時使用時長了。相對使用時長,比較尷尬的是存儲空間,筆者已經(jīng)綁定阿里云盤的情況下,也就獲得了2GB 的存儲空間,可視頻轉錄基本一個視頻就在1GB 上下,相當于2 個視頻課程就會容量告急,何況不少在線視頻課程容量都在1GB 以上,而一旦容量使用完成,就沒辦法再進行任何轉錄操作了(如圖8)。
從筆者的使用經(jīng)驗看,一旦通義聽悟有促銷活動出來,用戶一定要將存儲空間放到第一位,只有擴大了存儲空間,才能無所顧忌地實現(xiàn)轉錄,否則就需要完成一個視頻的轉錄、刪除掉以后再完成下一個。
總體而言,無論工作還是學習,通義聽悟表現(xiàn)出的生產(chǎn)力工具屬性都大為讓人驚喜,尤其是筆記整理、問答顯示等使用功能的配備,更讓其成為極優(yōu)秀的“學伴”!