文/張新智
第一代百科智能機(jī)器人“司南君”的研發(fā),既是百科社對傳統(tǒng)媒體與新興技術(shù)融合發(fā)展的一次探索,也是對“面向人工智能應(yīng)用的精準(zhǔn)百科知識數(shù)據(jù)庫”實際應(yīng)用效果的檢驗。百科社正在籌劃研發(fā)縮微版的小“司南”,該版本將面向個人群體設(shè)計,其應(yīng)用場景是教學(xué)和個人使用,更易于擺放和移動,小“司南”的大腦里將會存儲更多精準(zhǔn)和有趣的知識內(nèi)容。
2018年8月,中國大百科全書出版社(以下簡稱百科社)在第25屆北京國際圖書博覽會上發(fā)布了第一代百科智能機(jī)器人“司南君”,開啟了傳統(tǒng)百科全書智能化應(yīng)用的序幕,同時也為出版業(yè)如何尋找在人工智能發(fā)展過程中的角色定位,點亮了一盞明燈。
百科社是以編纂出版百科全書為核心業(yè)務(wù)的大型出版機(jī)構(gòu)。百科全書是概要記述人類一切門類知識或某一門類全部知識的完備的工具書。百科全書的主要作用是供人們查檢必要的知識和事實資料,其完備性在于它幾乎包容了各種工具書的成分,囊括了各方面的知識,因此,被稱為“工具書之王”。此外,百科全書還具有擴(kuò)大讀者知識視野和幫助人們系統(tǒng)求知的教育作用,常被譽(yù)為“沒有圍墻的大學(xué)”。其主要使用場景就是供人們遇到疑難問題時查檢佐證。
我國現(xiàn)代百科全書的編纂出版肇始于1978年,百科社在40年的創(chuàng)業(yè)歷程中組織出版了紙質(zhì)版的《中國大百科全書》第一版和第二版、《中國軍事百科全書》第二版、《中國兒童百科全書》《中國小學(xué)生百科全書》等上百種綜合類、專業(yè)類、地域類百科全書。其中《中國大百科全書》第一版共74卷(含索引卷),編纂歷時15年,于1993年出齊,選收條目7.8萬個,總字?jǐn)?shù)1.26億字,并附有近5萬幅隨文黑白圖、線條圖和彩圖。經(jīng)過14年的修訂重編后,于2009年出版了第2版,共32卷,共選收約6萬個條目,總字?jǐn)?shù)6000萬字,配圖約3萬幅。《中國大百科全書》組織嚴(yán)密,體例嚴(yán)格,內(nèi)容嚴(yán)謹(jǐn)。詞條由各學(xué)科領(lǐng)域的專家撰寫,權(quán)威準(zhǔn)確,可以為據(jù),并且形成一套完整復(fù)雜的知識體系。這些紙質(zhì)版的百科全書,在過去的40年間,為知識的整理、積累、傳承、傳播起到了舉足輕重的作用,但同時也暴露出了天生的缺點:因卷帙浩繁而攜帶和使用不便,傳播范圍不廣難以充分發(fā)揮價值。
近20年來,百科社相繼研發(fā)推出了《中國大百科全書數(shù)據(jù)庫》光盤版、局域網(wǎng)版、在線版、微信版以及掌上百科APP等電子化和數(shù)字化百科內(nèi)容應(yīng)用產(chǎn)品,有效地提高了百科全書的使用效率,擴(kuò)大了知識的傳播范圍。然而,當(dāng)語音識別、機(jī)器學(xué)習(xí)等新技術(shù)終于達(dá)到了能夠?qū)嶋H運(yùn)用的程度時,才真正迎來了傳統(tǒng)百科全書普及化應(yīng)用的時機(jī),才有可能運(yùn)用這些技術(shù)充分展現(xiàn)百科全書集古納新、廣瀚博大、精準(zhǔn)有效的特點。
近兩年來,百科社敏銳地捕捉到了人工智能技術(shù)帶來的媒體融合發(fā)展的時機(jī),毫不猶豫地展開了對傳統(tǒng)百科全書內(nèi)容與未來新技術(shù)結(jié)合應(yīng)用的探索,從而觸發(fā)了研發(fā)百科智能機(jī)器人的靈感。
2017年10月,百科社正式啟動了百科全書與人工智能應(yīng)用的研發(fā)項目,并列為重大創(chuàng)新項目,在社領(lǐng)導(dǎo)統(tǒng)一指揮下,委托新媒體中心成立專門項目執(zhí)行團(tuán)隊承擔(dān)研發(fā)任務(wù)。在進(jìn)行了廣泛的調(diào)研后,最終選定與中國科學(xué)院自動化研究所的機(jī)器人實驗室合作。雙方成立了項目聯(lián)合研發(fā)小組,由百科社負(fù)責(zé)總體統(tǒng)籌、產(chǎn)品策劃、外觀設(shè)計、功能設(shè)計、標(biāo)準(zhǔn)制訂、內(nèi)容編輯、數(shù)據(jù)標(biāo)引、服務(wù)器搭建、數(shù)據(jù)管理等工作,機(jī)器人實驗室負(fù)責(zé)軟件開發(fā)、硬件制作、技術(shù)攻關(guān)、系統(tǒng)集成等工作。
從初步設(shè)計到第一臺成品正式亮相,該機(jī)器人的研發(fā)歷時10個月。其中外觀設(shè)計、數(shù)據(jù)標(biāo)引和技術(shù)攻關(guān),是項目的三個難點所在,是花費(fèi)時間最多的環(huán)節(jié)。
在外觀設(shè)計方面,百科社并沒有采取常見的“貼牌”捷徑,為了保持創(chuàng)新性、突出百科全書的特點,堅持進(jìn)行自主外觀設(shè)計,反復(fù)修改了20多稿后,最終確定融合了“孔子畫像和指南針”元素的這一既有文化內(nèi)涵又不失現(xiàn)代感的方案。機(jī)器人的名字也最終定為“司南君”。司南即古代的指南針,是中國古代四大發(fā)明之一,也是百科社的社徽元素之一。這一外觀和名稱,寓意它的博學(xué)和準(zhǔn)確,能夠提供知識的指引。
數(shù)據(jù)標(biāo)引是實現(xiàn)百科知識智能化應(yīng)用的基礎(chǔ)。主要步驟和內(nèi)容包括制訂標(biāo)準(zhǔn)、選取條目、文本分析、主題分析、研發(fā)工具、自動抽取、人工核驗等。項目組從百科社的存量知識數(shù)據(jù)庫里選取了一批語料,針對“司南君”的應(yīng)用場景,進(jìn)行整理和加工后,抽取和標(biāo)引了20萬個知識點,并將其導(dǎo)入了機(jī)器人的“大腦”。
導(dǎo)入內(nèi)容只是簡單的第一步,讓它能夠快速識別、學(xué)習(xí)并智能化展現(xiàn)出來才是真正目標(biāo)。內(nèi)容與技術(shù)的結(jié)合,正是該項目的核心。經(jīng)過項目組的反復(fù)試驗和共同攻關(guān),最終突破了這一難點,實現(xiàn)了精準(zhǔn)百科內(nèi)容與人工智能的順暢結(jié)合。實現(xiàn)了可以將整部百科全書裝進(jìn)機(jī)器人的“大腦”,任何人都可以跟它語音交互,它可以自動從百科全書里尋找答案,迅速回答所提問的問題。另外,司南君還可以識別圖像、可以播放視頻、可以轉(zhuǎn)動腦袋、可以行走……
如果僅就這些功能來說,“司南君”可能無法被稱為是一個創(chuàng)舉。因為只從技術(shù)層面來說,常見的手機(jī)已經(jīng)具備了語音交互的功能,市面上也已經(jīng)出現(xiàn)了很多產(chǎn)品化的智能音箱、教育機(jī)器人、伴讀機(jī)器人等。那么作為一個傳統(tǒng)出版機(jī)構(gòu)為什么還要涉足并不熟悉和擅長的人工智能領(lǐng)域?百科社研發(fā)的機(jī)器人與互聯(lián)網(wǎng)公司研發(fā)的機(jī)器人有什么不同呢?
眾所周知,互聯(lián)網(wǎng)能夠提供給我們海量的數(shù)據(jù)、信息,但這些數(shù)據(jù)信息質(zhì)量參差不齊,很多是冗余的、無效的、錯誤的。能夠稱之為知識的,比例并不是很高。同時,信息技術(shù)提供給我們的檢索力很強(qiáng)大,但技術(shù)本身并沒有鑒別力,機(jī)器無法告訴我們信息的真?zhèn)?。目前,再智能的機(jī)器也只能夠照章辦事,沒有任何靈活性,達(dá)不到人們想要的智能,而這也是當(dāng)下人工智能發(fā)展的真實狀態(tài)。稍有經(jīng)驗的人都知道,使用手機(jī)或所謂的“智能音箱”的語音提問,大多數(shù)情況下,不會得到唯一的、準(zhǔn)確的答案,往往是得到很多通過搜索引擎檢索返回的網(wǎng)頁信息。一方面,這些信息并不一定是知識,其準(zhǔn)確率是無法保證的;另一方面,過量的冗余信息,增加了篩選鑒別的時間成本,反而降低了獲取知識的效率。所以,就必須由人類提供準(zhǔn)確的知識給機(jī)器。
清華大學(xué)人工智能研究院院長、中國科學(xué)院院士張鈸說“對人工智能來說最重要的能力是知識,而不是數(shù)據(jù)”?!八灸暇本褪菫榻鉀Q這一矛盾而生的。“司南君”的核心設(shè)計理念即是基于百科全書提供精準(zhǔn)知識。它最大的特點,就是內(nèi)容準(zhǔn)確、“思想端正”,這是國內(nèi)首臺裝載有來源于《中國大百科全書》內(nèi)容的機(jī)器人,這些內(nèi)容都是專家撰寫、編輯加工并經(jīng)過精細(xì)標(biāo)引的;另外一個顯著特點是技術(shù)先進(jìn),它使用了由中國科學(xué)院自動化研究所定制研發(fā)的全語音操作系統(tǒng)、超腦智能系統(tǒng)以及綜合算法系統(tǒng),其中的降噪處理技術(shù)達(dá)到了行業(yè)領(lǐng)先水平?;谶@兩大特點,“司南君”回答提問時,只會提供一個標(biāo)準(zhǔn)答案,而不是去檢索大量網(wǎng)頁推送給提問者。
張鈸院士在2018全球人工智能與機(jī)器人峰會(CCFGAIR)上指出:“現(xiàn)有的機(jī)器缺乏推理能力的原因在于它沒有常識?!睆堚撛菏客ㄟ^實驗驗證,常識的建立確實會極大程度的提升機(jī)器的性能。而為機(jī)器建立常識庫也成為進(jìn)一步提升人工智能系統(tǒng)性能的第一步。百科社已經(jīng)啟動了“面向人工智能應(yīng)用的精準(zhǔn)百科知識數(shù)據(jù)庫”建設(shè),目標(biāo)是構(gòu)建一個百萬量級的知識庫,并計劃面向國內(nèi)的人工智能研究和應(yīng)用領(lǐng)域開放調(diào)取接口,以幫助國內(nèi)人工智能產(chǎn)業(yè)的發(fā)展。
“司南君”高1.4米,重約80斤,頭部設(shè)置了隱藏式識別攝像頭,雙手環(huán)抱15.6英寸顯示屏,設(shè)計應(yīng)用場景是學(xué)校、科技館、圖書館、展覽館、博物館等公共教育學(xué)習(xí)場所。
第一代百科智能機(jī)器人“司南君”的研發(fā),既是百科社對傳統(tǒng)媒體與新興技術(shù)融合發(fā)展的一次探索,也是對“面向人工智能應(yīng)用的精準(zhǔn)百科知識數(shù)據(jù)庫”實際應(yīng)用效果的檢驗。百科社正在籌劃研發(fā)縮微版的小“司南”,該版本將面向個人群體設(shè)計,其應(yīng)用場景是教學(xué)和個人使用,更易于擺放和移動,小“司南”的大腦里將會存儲更多精準(zhǔn)和有趣的知識內(nèi)容。并且下一步的發(fā)展,將會更注重知識內(nèi)容質(zhì)量的提升,和更多人工智能技術(shù)的使用。
當(dāng)然,知識并不是智能,知識和智能是兩碼事。但是發(fā)展真正的人工智能,訓(xùn)練機(jī)器人,必須用準(zhǔn)確無誤的知識語料庫。否則機(jī)器就會犯錯誤,就會導(dǎo)致故障和事故。最著名的例子就是特斯拉的自動駕駛系統(tǒng),因為誤識別了前方車輛噴繪的藍(lán)天白云,而發(fā)生了撞車事故?!八灸暇辈⒎悄軌蚧卮鹑魏螁栴},但只要回答,要確保一定是準(zhǔn)確的。只有把準(zhǔn)確的知識賦予機(jī)器,經(jīng)過系列計算和學(xué)習(xí),機(jī)器才能獲得真正的智能屬性。
百科機(jī)器人是百科社積極擁抱人工智能的嘗試,是著眼于未來百科全書的發(fā)展與應(yīng)用和國家級知識服務(wù)平臺建設(shè),對國家政策的積極響應(yīng),是面向未來的積極探索,是對新時代的熱烈擁抱。對于出版社的融合發(fā)展、產(chǎn)業(yè)升級,具有重要的意義。下一步百科社將繼續(xù)堅持用優(yōu)質(zhì)的知識內(nèi)容為機(jī)器人賦能。同時圍繞人工智能與出版的融合,將繼續(xù)探索五方面的課題:質(zhì)量控制與自我完善、多媒體內(nèi)容的快速聚集與關(guān)聯(lián)、知識體系構(gòu)建與擴(kuò)展、內(nèi)容的精準(zhǔn)識別與輸出、內(nèi)容傳播的影響與促進(jìn)等。
出版的主要任務(wù)之一是傳播內(nèi)容。歷次技術(shù)革命,都大大促進(jìn)了出版業(yè)的發(fā)展,促成了文化的進(jìn)步,文明的傳承。人工智能技術(shù)的發(fā)展,也將引發(fā)出版業(yè)的又一次大變革。“司南君”告訴我們,在這場變革中,傳統(tǒng)出版社的定位并不一定要局限于人工智能技術(shù)的被動接受者、使用者或者是改造對象。恰恰相反,出版社因其獨(dú)一無二的優(yōu)質(zhì)精準(zhǔn)知識內(nèi)容的組織能力,將成為人工智能進(jìn)一步發(fā)展的超強(qiáng)助推力,甚至將成為人工智能突破發(fā)展瓶頸的關(guān)鍵動力。人工智能不僅能以新技術(shù)為出版賦能,出版也要以知識為人工智能賦能。
百科社的這種探索,已成為諸多媒體爭相報道的出版業(yè)實踐媒體融合發(fā)展的一個典型案例,值得研究,也值得成為整個出版業(yè)明確在人工智能發(fā)展中的角色定位的有益借鑒。