文/本刊記者 陳 杰
8月24日至27日在杭州召開(kāi)的2019年全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS 2019)上,百度CTO王海峰發(fā)表了題為《知識(shí)圖譜與語(yǔ)義理解》的演講。
王海峰認(rèn)為,知識(shí)圖譜是讓機(jī)器像人類(lèi)一樣理解客觀世界的基石。在演講中,他用生動(dòng)的實(shí)例展示了百度在知識(shí)圖譜和語(yǔ)義理解領(lǐng)域的技術(shù)探索及應(yīng)用,并探討了其未來(lái)的發(fā)展方向。
以下是演講實(shí)錄:
我現(xiàn)在在百度負(fù)責(zé)的技術(shù)涉及互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等方方面面,但是我的專(zhuān)業(yè)其實(shí)是自然語(yǔ)言處理、知識(shí)圖譜。大概26年前,我在哈工大,在李生教授和趙鐵軍教授的指導(dǎo)下做機(jī)器翻譯系統(tǒng)。當(dāng)時(shí),主要是基于規(guī)則的系統(tǒng),也要用到知識(shí),那時(shí)的知識(shí)是把人類(lèi)專(zhuān)家的知識(shí)編輯在規(guī)則里,實(shí)現(xiàn)語(yǔ)言的理解、生成,然后實(shí)現(xiàn)翻譯。
過(guò)去20多年,這一領(lǐng)域從基礎(chǔ)研究到應(yīng)用,都已經(jīng)發(fā)生了非常大的變化。當(dāng)然,20多年相比于自然語(yǔ)言處理這個(gè)領(lǐng)域70多年的歷史來(lái)說(shuō),還很年輕。
自然語(yǔ)言處理這樣一個(gè)有70多年歷史的專(zhuān)業(yè),現(xiàn)在仍然欣欣向榮,我想有兩個(gè)方面的原因:一方面是因?yàn)橛写罅坑脩?hù)的真實(shí)需求,促使我們更多地投入這方面探索應(yīng)用;另一方面自然語(yǔ)言處理發(fā)展了70多年遇到的很多問(wèn)題都還沒(méi)有解決,需要我們進(jìn)一步深入研究。
我首先從人工智能開(kāi)始介紹。
大家都知道,人類(lèi)歷史發(fā)展到現(xiàn)在,已經(jīng)經(jīng)歷了三次工業(yè)革命,每次工業(yè)革命都會(huì)帶來(lái)翻天覆地的變化,生產(chǎn)力的進(jìn)步帶來(lái)了整個(gè)社會(huì)的變革,生活方式隨之發(fā)生深刻變化。第一次工業(yè)革命使人類(lèi)走向機(jī)械化時(shí)代,第二次是帶來(lái)了電力,第三次是信息化革命。我們很幸運(yùn),今天處在第四次工業(yè)革命的開(kāi)端,第四次工業(yè)革命的核心驅(qū)動(dòng)力就是人工智能。當(dāng)然,人工智能是為了模擬人的能力,需要包括語(yǔ)音、視頻、圖像、AR/VR等感知方面的技術(shù),也需要知識(shí)圖譜、語(yǔ)言理解等認(rèn)知方面的技術(shù)。當(dāng)然,還有機(jī)器學(xué)習(xí),以及最近這些年很重要的深度學(xué)習(xí)等等。
感知能力很多生物都有,而且很多生物這方面的能力比人類(lèi)強(qiáng)。認(rèn)知能力則是人類(lèi)特有的,包括我們的語(yǔ)言和知識(shí)。我們通過(guò)語(yǔ)言的交流、知識(shí)的呈現(xiàn)(知識(shí)呈現(xiàn)其實(shí)也是基于語(yǔ)言),把知識(shí)傳承下來(lái)。關(guān)于語(yǔ)言和知識(shí),不管是對(duì)于人類(lèi)還是對(duì)于人工智能都是非常重要的。
知識(shí)圖譜是讓機(jī)器像人類(lèi)一樣理解客觀世界的基石。
過(guò)去這些年,AI技術(shù)通過(guò)深度學(xué)習(xí)取得了非常好的效果,尤其是在語(yǔ)音、視覺(jué)等感知技術(shù)上取得了非常大的突破,甚至在很多方面,深度學(xué)習(xí)達(dá)到的效果已經(jīng)超過(guò)了人類(lèi)。
深度學(xué)習(xí)也給自然語(yǔ)言處理以及知識(shí)相關(guān)的技術(shù)帶來(lái)了非常大的幫助,但是我們繼續(xù)深入研究、應(yīng)用實(shí)踐的時(shí)候會(huì)發(fā)現(xiàn),我們還需要更好地結(jié)合知識(shí)、推進(jìn)知識(shí)圖譜相關(guān)的工作,才能取得更好的效果。
基本的知識(shí)圖譜,會(huì)涉及到實(shí)體的屬性關(guān)系,每一個(gè)實(shí)體可能有若干個(gè)屬性,實(shí)體和實(shí)體之間有很多關(guān)系,每一個(gè)關(guān)系基本上可以理解為是一個(gè)事實(shí)。因此知識(shí)圖譜就是對(duì)客觀世界的描述。百度AI多年技術(shù)積累和業(yè)務(wù)實(shí)踐的集大成是百度大腦,百度大腦發(fā)展了近10年的時(shí)間,其中的知識(shí)圖譜技術(shù)是從2013年開(kāi)始做的。一方面知識(shí)圖譜的規(guī)模在快速增長(zhǎng),另一方面,基于知識(shí)圖譜來(lái)提供服務(wù),每天滿足用戶(hù)各種需求的量級(jí)也在快速增加。過(guò)去這些年,百度知識(shí)圖譜的服務(wù)規(guī)模大概增長(zhǎng)了490倍。
百度大腦技術(shù)能力的應(yīng)用,一開(kāi)始主要集中在搜索引擎上,之后開(kāi)始突破互聯(lián)網(wǎng)業(yè)務(wù)的范疇,面向各種企業(yè)級(jí)的用戶(hù),比如金融、客服、商業(yè)等,發(fā)展各種各樣的應(yīng)用,同時(shí)也進(jìn)行AI技術(shù)開(kāi)放,比如通過(guò)百度大腦的AI開(kāi)放平臺(tái),讓大家應(yīng)用到我們的AI技術(shù)。
一個(gè)比較完整的百度語(yǔ)言和知識(shí)技術(shù)的布局,底層的基礎(chǔ)就是知識(shí)圖譜,通過(guò)知識(shí)挖掘、知識(shí)整合與補(bǔ)全、分布式圖索引及存儲(chǔ)計(jì)算等步驟,構(gòu)建了包括實(shí)體、關(guān)注點(diǎn)、事件、行業(yè)知識(shí)、多媒體等等多元異構(gòu)知識(shí)圖譜。自然語(yǔ)言處理相信大家都不陌生,一個(gè)相對(duì)完整的自然語(yǔ)言處理體系包括詞法、句法、語(yǔ)義到篇章各個(gè)方面。構(gòu)建一個(gè)知識(shí)圖譜的時(shí)候,這里面很多技術(shù)也會(huì)被綜合使用。百度語(yǔ)言與知識(shí)技術(shù)一方面全面支持百度自己的產(chǎn)品,比如搜索、問(wèn)答、對(duì)話、機(jī)器翻譯等等,一方面通過(guò)開(kāi)放賦能很多企業(yè)級(jí)的應(yīng)用。
廣義來(lái)看,知識(shí)圖譜也是語(yǔ)言科學(xué)的一部分,知識(shí)的獲取和運(yùn)用是理解語(yǔ)言不可或缺的;反過(guò)來(lái),為了更好地去構(gòu)建、挖掘知識(shí)圖譜,語(yǔ)言理解技術(shù)也是十分必要的,語(yǔ)言與知識(shí)技術(shù)是相輔相成的。
接下來(lái),我會(huì)從這幾個(gè)方面來(lái)介紹:一方面是多元異構(gòu)的知識(shí)圖譜構(gòu)建,這里面會(huì)涉及到圖譜構(gòu)建的一些應(yīng)用,包括復(fù)雜知識(shí)等等;另一方面,涉及自然語(yǔ)言處理技術(shù)的一些探索。當(dāng)然,我們的架構(gòu)圖遠(yuǎn)比我今天所講的要完整。在實(shí)際應(yīng)用中,我們還會(huì)通過(guò)百度的開(kāi)源開(kāi)放平臺(tái),進(jìn)行數(shù)據(jù)和技術(shù)的開(kāi)放。
首先說(shuō)多元異構(gòu)知識(shí)圖譜的構(gòu)建。說(shuō)到知識(shí)圖譜,首先就涉及到圖譜的構(gòu)建,涉及到在開(kāi)放的、海量的數(shù)據(jù)里怎么樣去挖掘數(shù)據(jù)、構(gòu)建超大規(guī)模知識(shí)圖譜。我們?nèi)祟?lèi)學(xué)習(xí)知識(shí),是靠各種視覺(jué)、聽(tīng)覺(jué)等等去感知世界,不斷地建立和完善知識(shí)體系。機(jī)器如何學(xué)習(xí)?或者說(shuō)讓一個(gè)機(jī)器的大腦怎么去學(xué)?那就要靠數(shù)據(jù),比如互聯(lián)網(wǎng)上海量的多形態(tài)數(shù)據(jù),蘊(yùn)含了很多行業(yè)應(yīng)用的有價(jià)值信息。
首先,我們從大量無(wú)標(biāo)簽非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行開(kāi)放知識(shí)挖掘,一方面我們基于多維數(shù)據(jù)分析和語(yǔ)言理解技術(shù)自動(dòng)獲取知識(shí)挖掘模板,并通過(guò)不斷迭代獲取新模板、挖掘新知識(shí);另一方面我們基于遠(yuǎn)程監(jiān)督學(xué)習(xí)來(lái)自動(dòng)構(gòu)建訓(xùn)練語(yǔ)料。為了去除自動(dòng)構(gòu)建訓(xùn)練語(yǔ)料中的噪聲樣例,我們提出注意力正則化(Attention Regularization)技術(shù)基于實(shí)體上下文進(jìn)行分析,通過(guò)模型輸出指導(dǎo)標(biāo)注語(yǔ)料的選擇。通過(guò)這樣一套方法,我們實(shí)現(xiàn)在千億級(jí)文本中進(jìn)行更精準(zhǔn)地開(kāi)放知識(shí)抽取。
基于開(kāi)放知識(shí)挖掘抽取了大量的SPO三元組,需要對(duì)其進(jìn)行歸納整理,我們提出了自底向上的開(kāi)放本體構(gòu)建,即從開(kāi)放數(shù)據(jù)中挖掘?qū)嶓w和關(guān)系,從海量實(shí)體關(guān)系中自動(dòng)學(xué)習(xí)實(shí)體類(lèi)別關(guān)系、類(lèi)別上下位關(guān)系,并逐層抽象形成本體結(jié)構(gòu),實(shí)現(xiàn)知識(shí)體系的自學(xué)習(xí)和構(gòu)建。利用這樣一套技術(shù)以后,本體規(guī)模增長(zhǎng)了30倍,同時(shí)事實(shí)覆蓋也有一個(gè)穩(wěn)定的增長(zhǎng)。
另一方面,在這樣海量的數(shù)據(jù)里,有很多相似知識(shí)可能是從不同的數(shù)據(jù)、不同的文章里面抽取到的,這些知識(shí)如何進(jìn)行融合、去粗取精,讓它更準(zhǔn)確、有效?這又涉及到多源數(shù)據(jù)知識(shí)的整合。我們通過(guò)語(yǔ)義空間變換技術(shù)實(shí)現(xiàn)實(shí)體消歧、實(shí)體歸一等等,解決知識(shí)表示形式多樣,關(guān)聯(lián)融合困難的問(wèn)題?;谇懊嫣岬降倪@些技術(shù),我們現(xiàn)在構(gòu)建了一個(gè)非常龐大的知識(shí)圖譜,里面含有6億實(shí)體,事實(shí)的量或者說(shuō)各種關(guān)系量已經(jīng)達(dá)到了3780億。比我們?nèi)祟?lèi)大腦里面儲(chǔ)備的知識(shí)多得多。
基本的知識(shí)圖譜構(gòu)建了以后,真正要用于各種真實(shí)應(yīng)用,又涉及到很多更復(fù)雜的知識(shí)。所以我們從簡(jiǎn)單實(shí)體拓展到復(fù)雜事件,可以描述事件的動(dòng)態(tài)、時(shí)序、空間、條件、概率等等關(guān)系。
下面我們說(shuō)一下復(fù)雜知識(shí)。
比如桃園三結(jié)義的照片,在沒(méi)有任何知識(shí)的情況下只能識(shí)別出畫(huà)面中有三個(gè)人,有酒,有樹(shù)。但是結(jié)合實(shí)體知識(shí),我們可以知道這三個(gè)人的身份和更多的信息,比如樹(shù)是桃樹(shù)。進(jìn)一步基于事件知識(shí),我們知道是東漢末年,劉備、關(guān)羽、張飛三人在桃園結(jié)義。有了事件知識(shí)以后,還可以對(duì)動(dòng)態(tài)變化的客觀世界進(jìn)行建模。
事件圖譜以事件為基本單位,表達(dá)事件相關(guān)的元素以及事件間的關(guān)聯(lián)關(guān)系,比如圖中的內(nèi)馬爾轉(zhuǎn)會(huì),中間最左邊是相似事件——姆巴佩轉(zhuǎn)會(huì),中間則以時(shí)間為線,從皇馬開(kāi)價(jià)、被評(píng)為最佳球員、皇馬和巴薩的爭(zhēng)奪、到達(dá)成轉(zhuǎn)會(huì)協(xié)議……形成了一個(gè)完整的事件演變脈絡(luò)。而參與事件的角色稱(chēng)為事件論元,如:內(nèi)馬爾、姆巴佩、巴薩、皇馬等等,與對(duì)應(yīng)的實(shí)體圖譜相關(guān)聯(lián)。
完整的事件圖譜技術(shù)包括,底層的數(shù)據(jù),事件圖譜的構(gòu)建(構(gòu)建涉及到事件抽取、事件關(guān)系抽取、事件檢測(cè)等技術(shù)),事件圖譜的認(rèn)知計(jì)算,例如事件鏈接、事件計(jì)算、事件推理,事件計(jì)算包括重要性計(jì)算、熱度計(jì)算、質(zhì)量計(jì)算、相似度計(jì)算;事件推理包括事件關(guān)系推理、事件論元預(yù)測(cè)、事件演化預(yù)測(cè)等?,F(xiàn)在我們基本上可以做到分鐘級(jí)的熱點(diǎn)事件收錄,實(shí)現(xiàn)千萬(wàn)量級(jí)規(guī)模的事件庫(kù),有十幾個(gè)領(lǐng)域、4300+事件的類(lèi)型。事件圖譜應(yīng)用,比如搜索熱點(diǎn)“華為正式發(fā)布鴻蒙”可以呈現(xiàn)出完整的事件發(fā)展過(guò)程,幫助用戶(hù)清楚地了解事件的來(lái)龍去脈;又如三峽大瀑布景區(qū)停業(yè)緊急通知,涉及地圖信息點(diǎn)的發(fā)現(xiàn)、更新。
說(shuō)完了復(fù)雜知識(shí),我們?cè)僬f(shuō)行業(yè)知識(shí)。
行業(yè)數(shù)據(jù)量非常龐大,但是真正應(yīng)用在一個(gè)行業(yè)里的時(shí)候,都需要轉(zhuǎn)化為行業(yè)相關(guān)的專(zhuān)業(yè)性知識(shí)。行業(yè)知識(shí),需求到底大到什么程度,舉一些例子:研究報(bào)告認(rèn)為,到2020年,行業(yè)數(shù)據(jù)的體量會(huì)是非常巨大的,比如說(shuō)法律專(zhuān)業(yè)每年產(chǎn)出4億卷宗,醫(yī)療方面的數(shù)據(jù)會(huì)提升48%以上。還有一些行業(yè)是知識(shí)密集型的,而運(yùn)營(yíng)商會(huì)用到很多的人工客服,中國(guó)有全職客服500萬(wàn)人,人力成本巨大。另一方面,傳統(tǒng)行業(yè)對(duì)于大數(shù)據(jù)的應(yīng)用比例還是很低的,比如金融行業(yè)非結(jié)構(gòu)化數(shù)據(jù)占80%左右,有效利用率只有0.4%,而人工構(gòu)建知識(shí)圖譜,以freebase為例,每條人工成本大約為2.25美元,也都不便宜。
與通用知識(shí)圖譜相比,行業(yè)知識(shí)圖譜有共性也有所區(qū)別。比如說(shuō),通用圖譜相對(duì)淺層,但覆蓋非常廣。因?yàn)橥ㄓ弥R(shí)圖譜主要是以互聯(lián)網(wǎng)、大數(shù)據(jù)為基礎(chǔ)的。大家知道,互聯(lián)網(wǎng)經(jīng)過(guò)20多年的發(fā)展,已經(jīng)和人類(lèi)日常生活的方方面面都密不可分了,某種程度上,互聯(lián)網(wǎng)可以被理解為客觀世界的一個(gè)映射。這個(gè)龐大的網(wǎng)絡(luò)能夠構(gòu)建很多種圖譜,但是真正涉及到某個(gè)行業(yè)的非常細(xì)致、深入的知識(shí)圖譜,互聯(lián)網(wǎng)不能都覆蓋到。所以,很多行業(yè)的知識(shí)圖譜是相對(duì)封閉的,一般是由一些專(zhuān)家去構(gòu)建、去標(biāo)注。從圖譜服務(wù)的角度,通用圖譜可以讓大家都去應(yīng)用,但是行業(yè)圖譜是針對(duì)特定行業(yè)的需求,定制化程度比較高,也有不同的應(yīng)用方向。所以,以通用圖譜為基礎(chǔ),面向行業(yè)的開(kāi)發(fā)者,在圖譜開(kāi)發(fā)的時(shí)候,會(huì)涉及到一系列特有問(wèn)題。
基于這樣的背景,我們構(gòu)建了一體化的行業(yè)知識(shí)圖譜平臺(tái),將多年積累的通用圖譜構(gòu)建能力遷移至行業(yè),建設(shè)了行業(yè)圖譜的基礎(chǔ)架構(gòu)和構(gòu)建平臺(tái),以及智能問(wèn)答、語(yǔ)義檢索、推理計(jì)算、智能推薦、內(nèi)容生成等基礎(chǔ)能力組件,支撐行業(yè)應(yīng)用,并且針對(duì)行業(yè)特點(diǎn)實(shí)現(xiàn)一些優(yōu)化,服務(wù)于不同領(lǐng)域的用戶(hù)。
這里簡(jiǎn)單介紹一下醫(yī)療的知識(shí)圖譜。為了構(gòu)建一個(gè)醫(yī)療場(chǎng)景的知識(shí)圖譜,我們跟很多合作伙伴合作構(gòu)建了這樣一個(gè)框架,包括結(jié)構(gòu)化的解析、實(shí)體鏈接、人機(jī)結(jié)合、因果關(guān)系學(xué)習(xí)、診斷路徑挖掘等等。我們可以看到,專(zhuān)業(yè)醫(yī)療圖譜涉及到醫(yī)院、醫(yī)師、疾病等等各個(gè)方面,通過(guò)醫(yī)療的認(rèn)知計(jì)算,提供各種醫(yī)療臨床輔助決策服務(wù)。
多媒體知識(shí)圖譜。今天我講的題目,是知識(shí)圖譜和自然語(yǔ)言處理,但實(shí)際上,人類(lèi)幾千年傳承靠知識(shí)來(lái)做載體,還包括了語(yǔ)音、視覺(jué),以及各種各樣的形式?,F(xiàn)在視覺(jué)類(lèi)的產(chǎn)品,坦率來(lái)說(shuō)都不智能。比如,計(jì)算機(jī)視覺(jué)技術(shù)可以識(shí)別,但識(shí)別出來(lái)之前,如何將這些孤立的數(shù)據(jù)聯(lián)系起來(lái)?還是跟圖譜相關(guān)。我們可以基于圖譜把知識(shí)關(guān)聯(lián)起來(lái),進(jìn)行它們之間的關(guān)聯(lián)與計(jì)算,進(jìn)而能夠做結(jié)構(gòu)化的語(yǔ)義理解。
接下來(lái)介紹知識(shí)增強(qiáng)的語(yǔ)言處理技術(shù)。
如前面所說(shuō),一方面語(yǔ)言理解是我們發(fā)現(xiàn)知識(shí)很重要的基礎(chǔ),另一方面,有了這些知識(shí),可以更好地幫助我們做人工智能。
在語(yǔ)言方面,首先介紹語(yǔ)義表示。我們知道,自然語(yǔ)言存在很多歧義,同時(shí)一個(gè)意思也可以用不同的詞來(lái)表述,句子表達(dá)的形式非常多。因而好的形式化語(yǔ)義表示是計(jì)算機(jī)處理語(yǔ)言的基礎(chǔ),語(yǔ)義表示可以分為形式化符號(hào)表示和統(tǒng)計(jì)分布式表示。
隨著深度學(xué)習(xí)的興起,統(tǒng)計(jì)分布式語(yǔ)義表示這幾年很受歡迎。簡(jiǎn)單回顧一下歷史,相信大家都很清楚,2003年,圖靈獎(jiǎng)獲得者Bengio,最早提出了前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,這些年得到了很大的發(fā)展,這兩年出現(xiàn)了很多基于分布式表示的預(yù)訓(xùn)練語(yǔ)言模型。今年百度先后發(fā)布了兩版語(yǔ)義理解框架ERNIE。
ERNIE1.0是基于知識(shí)增強(qiáng)的語(yǔ)義表示模型。我們?yōu)榱擞?xùn)練這些模型,使用了包括百度百科、新聞、對(duì)話等等海量的多樣化語(yǔ)料,同時(shí)強(qiáng)化了中文的詞、實(shí)體等先驗(yàn)語(yǔ)義知識(shí),從而得到更好的語(yǔ)義表示模型。
在1.0知識(shí)增強(qiáng)的基礎(chǔ)上,我們希望不斷更新這個(gè)系統(tǒng),ERNIE2.0在知識(shí)增強(qiáng)的同時(shí),又增加了持續(xù)學(xué)習(xí)的能力,通過(guò)基于多任務(wù)學(xué)習(xí)的預(yù)訓(xùn)練任務(wù)迭代,不斷提升模型性能。通過(guò)對(duì)百科、對(duì)話,篇章結(jié)構(gòu)、網(wǎng)頁(yè)搜索、語(yǔ)義關(guān)系等超過(guò)13億知識(shí)不斷地學(xué)習(xí),不斷地積累,ERNIE在多項(xiàng)中英文自然語(yǔ)言處理任務(wù)上取得了業(yè)界最好效果。
基于語(yǔ)義表示,我們可以做更復(fù)雜的語(yǔ)言理解任務(wù),例如機(jī)器閱讀理解。
機(jī)器閱讀理解就是讓機(jī)器來(lái)閱讀文本,并且回答相關(guān)的問(wèn)題。知識(shí)對(duì)于機(jī)器閱讀理解會(huì)起到什么作用呢?比如這個(gè)例子,問(wèn)的是《人在囧途》是誰(shuí)的代表作,僅靠文本自身的內(nèi)容是不夠的,需要基于一些外部知識(shí)來(lái)得到想要的答案。為此我們提出文本表示和知識(shí)表示融合的閱讀理解模型KT-NET,通過(guò)融合前面講的知識(shí)圖譜增強(qiáng)文本閱讀能力。這個(gè)技術(shù)在實(shí)體對(duì)話等很多領(lǐng)域已經(jīng)得到了非常好的應(yīng)用效果。
閱讀理解能力也廣泛應(yīng)用于搜索產(chǎn)品?,F(xiàn)在我們的移動(dòng)設(shè)備越來(lái)越小,而大家的工作生活節(jié)奏越來(lái)越快,希望搜索不再像以前是一條條的URL、摘要,更直觀、準(zhǔn)確的結(jié)果是大家更希望看到的。這里面就涉及到智能問(wèn)答的技術(shù),比如“香格里拉酒店的老板是誰(shuí)”,這個(gè)問(wèn)題,大家就需要很直觀的回答。有時(shí)智能問(wèn)答不僅僅是直接給出一個(gè)答案就可以,更多的應(yīng)該是一段話來(lái)進(jìn)行高度相關(guān)的解釋。比如面對(duì)“煎魚(yú)怎么不粘鍋”這個(gè)問(wèn)題,我們會(huì)給出方法一、方法二兩個(gè)回答。
對(duì)于聊天,我們提出基于知識(shí)的主動(dòng)聊天技術(shù)。目前相對(duì)普遍的技術(shù)是用戶(hù)問(wèn)一句,然后機(jī)器進(jìn)行回答,用戶(hù)主動(dòng)地問(wèn),機(jī)器被動(dòng)應(yīng)對(duì)。而真實(shí)場(chǎng)景的聊天,用戶(hù)是希望機(jī)器可以主動(dòng)地發(fā)起對(duì)話的。于是我們?cè)O(shè)計(jì)了基于知識(shí)驅(qū)動(dòng)的自主對(duì)話任務(wù),讓機(jī)器根據(jù)給定的知識(shí)圖譜信息,主動(dòng)來(lái)引領(lǐng)對(duì)話進(jìn)程,達(dá)到信息充分交互。
基于百度飛槳(PaddlePaddle),我們開(kāi)源了檢索模型、生成模型兩個(gè)主動(dòng)對(duì)話的基線模型。同時(shí)我們舉辦了一個(gè)知識(shí)驅(qū)動(dòng)的對(duì)話競(jìng)賽,這個(gè)競(jìng)賽影響很廣泛,參與度很高,隊(duì)伍報(bào)名數(shù)1536支,提交結(jié)果數(shù)1688次。
最后介紹一下語(yǔ)言生成,包括機(jī)器輔助寫(xiě)作和智能自動(dòng)創(chuàng)作。
現(xiàn)在內(nèi)容創(chuàng)作過(guò)程中面臨一些痛點(diǎn),包括捕捉不到熱點(diǎn)信息,實(shí)時(shí)報(bào)道速度不夠快,也包括人工審核成本高、搜集素材費(fèi)時(shí)費(fèi)力、創(chuàng)作用詞缺乏靈感、多模態(tài)內(nèi)容需求等等。這些問(wèn)題借助我們的技術(shù),都可以緩解。創(chuàng)作前可以輔助選題、激發(fā)靈感,包括熱點(diǎn)發(fā)現(xiàn)、熱詞分析、事件檢索、觀點(diǎn)分析等等。創(chuàng)作中可能需要更多輔助的素材,把很多相關(guān)的內(nèi)容呈現(xiàn)出來(lái),這個(gè)時(shí)候需要做信息的推薦,加入一些領(lǐng)域知識(shí)庫(kù),一些歷史相關(guān)的事件脈絡(luò),幫助寫(xiě)作。當(dāng)然還有標(biāo)題的生成,這個(gè)也是很有技術(shù)含量的。創(chuàng)作后保證質(zhì)量、提升分發(fā)。保證質(zhì)量包括文本糾錯(cuò)、低質(zhì)檢測(cè)、詞語(yǔ)潤(rùn)色;提升分發(fā),包括添加文章標(biāo)簽、自動(dòng)摘要、文本分類(lèi)。
另外一方面,機(jī)器也可以自動(dòng)創(chuàng)作,能夠?qū)崟r(shí)的追蹤事件的波動(dòng),自動(dòng)把相關(guān)的信息匯聚,生成文章,覆蓋重要信息。相比人工寫(xiě)作,既省時(shí)省力,還可以提升稿件質(zhì)量,應(yīng)用程度非常高,也非常廣。這是基于結(jié)構(gòu)化數(shù)據(jù)自動(dòng)生成新聞的基本過(guò)程,包括宏觀規(guī)劃、微觀規(guī)劃、表層實(shí)現(xiàn)。為了實(shí)現(xiàn)智能創(chuàng)作,百度打造了智能創(chuàng)作可視化平臺(tái)。
上述語(yǔ)言和知識(shí)技術(shù),都是基于百度飛槳深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)的,飛槳是國(guó)內(nèi)唯一功能完整、開(kāi)源開(kāi)放的深度學(xué)習(xí)平臺(tái)。其中PaddleNLP是中文語(yǔ)言與知識(shí)模型及數(shù)據(jù)集,開(kāi)放了大規(guī)模的數(shù)據(jù)集,包括閱讀理解、對(duì)話、語(yǔ)音翻譯、信息抽取、實(shí)體鏈指數(shù)據(jù)集等等。提供基礎(chǔ)網(wǎng)絡(luò),支持序列標(biāo)注、文本分類(lèi)、語(yǔ)義匹配、語(yǔ)言生成等等各種類(lèi)型任務(wù),還包括百度最新的前沿研究成果。