李月標 王梁昊 譚一匡
之江實驗室打造的基于大模型的多路召回智能問答助手“小之知道”,自應用以來,為垂直于自動化辦公領域的數(shù)字技術(shù)管理提供了新的路徑和方案
向科技創(chuàng)新要高質(zhì)量發(fā)展的空間,向新質(zhì)生產(chǎn)力要高質(zhì)量發(fā)展的動力活力。重點實驗室,作為科技創(chuàng)新的重要平臺和科技創(chuàng)新要素最密集的“集大成者”之一,眼下正擔負起服務國家重大戰(zhàn)略需求的時代使命。其中,之江實驗室作為浙江省首批省級重點實驗室,聚焦“互聯(lián)網(wǎng)+”科創(chuàng)高地建設,是浙江打造智能科學基礎前沿研究的核心高地。
然而,隨著之江實驗室的不斷發(fā)展,人員隊伍的不斷壯大,每天產(chǎn)生海量信息,如何幫助這支站在科技最前沿的團隊快速獲取有效信息成為了一個亟需解決的問題。好在,這里最不缺的恰恰是數(shù)字化、智能化解決問題的手段。面對以上問題,一套基于大模型的多路召回智能問答助手“小之知道”在之江實驗室應用開來,為垂直于自動化辦公領域的數(shù)字技術(shù)管理提供了之江實驗室的路徑方案。
“小之知道”知道什么?
“食堂用餐時間”“移動端辦公郵箱登錄”“之江實驗室目前已有多少研究成果”,打開“小之知道”的會話頁面,不管是提問實驗室日常制度、業(yè)務,還是研究成果明細,“小之知道”都能對答如流。
據(jù)悉,“小之知道”是按照一個平臺多個場景的方式架構(gòu):一個平臺指問答服務平臺,多個場景指同時可以支持多個應用場景。通過歸集、清洗實驗室各業(yè)務系統(tǒng)的核心數(shù)據(jù),以及各種規(guī)章制度、辦事指南,形成標準化的知識庫;并結(jié)合自然語言處理、知識圖譜、大模型等技術(shù),快速響應用戶查詢?nèi)蝿?,從而提高用戶信息檢索效率,降低信息獲取的門檻,提高實驗室智能化服務水平。
“近幾年,隨著實驗室的快速發(fā)展,相關辦事制度也不斷優(yōu)化更新,每天都會產(chǎn)生海量信息。對普通員工,特別是新員工來說,從現(xiàn)有海量信息中高效獲取有效信息存在著較大困難,甚至無法找到相關系統(tǒng)功能入口。不僅增加了行政管理人員的低效工作量,也降低了不少員工的信息抓取效率和工作學習效率。”
那么,“小之知道”又是如何具體解決這些痛點的?
在功能層面上,目前“小之知道”支持兩類場景的問答處理,包括知識問答助手和任務型問答助手。前者主要通過分析和利用已有的知識庫來回答用戶的問題,后者則是通過自然語言理解和規(guī)劃推理技術(shù)來識別用戶的意圖和需求后,從業(yè)務系統(tǒng)或者圖數(shù)據(jù)庫中獲取相應的答案。
在展示能力上,“小之知道”可支持多模態(tài)輸出能力,包括純文本、圖文信息、視頻以及各類圖表信息,并可通過權(quán)限分配,來實現(xiàn)敏感信息的過濾。
在系統(tǒng)維護上,“小之知道”可謂是獨具特色。一直以來,傳統(tǒng)的知識庫維護方式普遍面臨著高成本的問題,以及在對轉(zhuǎn)換結(jié)果的準確度要求較高的場景下,主流的輔助工具是文檔標注工具,可根據(jù)選定的內(nèi)容自動生成問題,從而形成問答對。然而這種方式在處理較長的問答時,仍無法高效且批量生成問答對。為此,在“小之知道”的技術(shù)方案中,之江實驗室通過本地化部署了一個具有60多億參數(shù)的通用大模型,充分利用其自然語言處理能力,在問答知識庫的維護過程中,根據(jù)文檔內(nèi)容批量地自動提取問答對,經(jīng)過人工簡單核對后,進行入庫,大大提高了問答對的生成能力。此外,通過利用大模型,“小之知道”根據(jù)已知問題自動生成相似問題,進一步提升問答對的管理效率。
在開放能力上,之江實驗室將“小之知道”的核心接口進行了封裝,使得第三方產(chǎn)品根據(jù)接口文檔可以快速集成“小之知道”能力,賦能第三方產(chǎn)品,提升產(chǎn)品自身的體驗,使得“小之知道”的影響力最大化。眼下,“小之知道”智能問答助手數(shù)字技術(shù)案例已實現(xiàn)產(chǎn)品化,包括用戶端(移動端和PC端)、后臺管理系統(tǒng)、開放接口,可實現(xiàn)跨項目快速復制、快速部署。目前在之江實驗室內(nèi)部,已經(jīng)將“小之知道”集成到了多個產(chǎn)品上,用戶可以從多個端口對“小之知道”進行訪問,比如之江精靈、統(tǒng)一搜索等。
何謂多路召回智能問答?
智能問答、多路召回、大模型……每一個都是當下熱詞,當這些詞語一起匯聚在“小之知道”身上時,又會碰撞出怎樣的創(chuàng)新“火花”?
“我們提出了一種多路召回的多場景智能問答方法,可解決智能問答助手在多場景融合的問答場景下,現(xiàn)有技術(shù)召回精度低的問題;同時基于多路召回的機制,滿足多路模型并發(fā)運行的要求,提升運行效率;此外,每類模型還可采用N版設計的思路,進一步提升系統(tǒng)的可靠性?!痹摷夹g(shù)方案相關負責人介紹道。
具體來說,在實際業(yè)務中,當遇到多場景融合的問答場景時,目前主流的方法之一是先針對問題進行分類,判斷問題所屬場景,然后再進入到具體分類下進行問題檢索或者識別指令執(zhí)行任務,該方法會導致因問題分類出錯而出現(xiàn)回答錯誤或者執(zhí)行錯誤的情況。另外一種主流的方法則是按順序進行檢索,這種方法存在效率和召回精度都較低的問題。而“小之知道”所運用的多路召回的多場景智能問答方法和系統(tǒng),正可直面解決這些難題。
此外,在以往的語義檢索技術(shù)路線中,最關鍵的一個環(huán)節(jié)是需要將問題進行編碼,即轉(zhuǎn)換成向量。一般的技術(shù)路線是采用通用的預訓練模型,然后在GPU上再次訓練進行調(diào)優(yōu),從而更好地滿足垂直領域內(nèi)的語義場景?!靶≈馈彪m然采用了相同的技術(shù)路線,但是在大模型調(diào)優(yōu)的訓練過程中,則采用了我國具有完全自主知識產(chǎn)權(quán)的國產(chǎn)加速處理器芯片——邃思(DTU,Deep Thinking Unit),具有深刻的技術(shù)創(chuàng)新意義。
“智能問答助手目前在各業(yè)務領域中都已經(jīng)有著非常廣泛的應用,如今在大模型的加持下,技術(shù)路線進一步更新,并且從一定程度上解決了傳統(tǒng)智能問答助手中存在的弊端。‘小之知道充分利用了大模型相關技術(shù)優(yōu)勢以及所提出的技術(shù)發(fā)明,在之江實驗室的案例中充分體現(xiàn)了其在垂直領域中的推廣價值和推廣優(yōu)勢?!?/p>
(作者單位:之江實驗室)